提出一个全新的可以端到端学习的模型Pixel-BERT，不基于区域的图像特征，将图片像素与文本对齐，克服区域特征的语义标签与语言语义之间的不平很，在图像与文本之间建立更加准确的联系。

介绍

基于区域的特征是为特定任务设计的，与语言理解的信息存在差距，同时特征的表示能力受限于训练时的给定种类，且边界框的背景会带来噪声信息，丢失目标的状态、对象之间的空间关系等。

因此本文提出Pixel-BERT，学习将图像像素与文本对齐。Pixel-BERT由三部分组成：

对于预训练与先前的模式相同：

方法

边界框特征包含嘈杂的背景，丢失了空间信息，为了充分利用视觉信息，本文的方法通过学习像素的视觉嵌入来完成文本-视觉任务。

如BERT的方式一致，将句子分割为单词，使用WordPiece将每个单词标记为token，使用一个嵌入矩阵将每个标记嵌入到一个向量中 $w = \{w_1,w_2,...,w_n\}$ ，同时加上位置嵌入与一个区分模态差异的语义嵌入 $s_w$ 并使用Layer Norm

\hat{w}_i = LayerNorm(w_i + p_i + s_w)

得到最终的语言嵌入向量。

使用一个卷积神经网络输入图像得到特征图，将特征图沿着空间维度平铺得到长度为 $k$ 的像素特征 $v=\{v_1,v_2,...,v_k\}$ ，对像素特征中的每个元素和语义嵌入 $s_v$ 相加

\hat{v}_i = v_i + s_v

得到最总的图像嵌入。

将语言嵌入向量与图像嵌入向量拼接起来，并在序列开头插入用于学习分类的[cls] token以及在不同模态嵌入向量之间插入[sep] token得到的序列

\{\text{[cls]}, \hat{w}_1,\hat{w}_2,...,\hat{w}_n,\text{[sep]},\hat{v}_1,\hat{v}_2,...,\hat{v}_k,\}

作为用于模态融合的Transformer的输入。

CNN和Transformer合并为单个模型，以端到端的方式训练。

本文以 $15\%$ 的概率随机掩盖语言标记，并要求模型根据其他非掩盖的标记和视觉标记来预测掩盖的标记。

在训练过程中，我们对数据集提供的所有图像-句子对进行抽样，并将其视为正样本。我们还随机洗牌数据集，将不匹配的图像-句子对视为负样本。为了防止学习偏差，我们采用相同数量的正样本和负样本。

为了提高特征学习的鲁棒性，避免过拟合，在预训练中随机抽取特征像素。这样的像素随机抽样可以在两个方面有利于模型的训练。

在我们的实验中，我们将从每张输入图像的特征图中随机抽取固定数量的 $100$ 个像素。