Paper Reading: CLIP-ViL
在大量从网络获取的图文对上训练的CLIP
在下游任务上表现出了强大的0-shot
能力。为了挖掘CLIP
在V&L
任务所带来的优势,本文提出在两个场景使用CLIP
作为视觉编码器:
- 插入
CLIP
到特定任务微调。 - 将
CLIP
与V&L
模型共同训练。
Introduction
最近的工作观测到视觉表示成为为V&L
模型的性能瓶颈,学习强大视觉编码器对于V&L
模型是至关重要的。
但是现在广泛使用的视觉编码器使用手动标注的数据集训练,标注成本高,且视觉表征能力受到预先定义的类别标签的限制。所以,需要一种不受固定标签集限制,对未见过的物体和概念具有概括能力的视觉编码器,能够在大规模数据集上预训练。
最近CLIP
被提出用来基于语言监督学习视觉概念。它是在从互联网上抓取的4亿个噪声图像文本对上训练的,并需要很少的人类注释。且有强大的0-shot
能力。然而,直接将CLIP
作为0-shot
模型应用于V&L
任务被证明是困难的,因为许多V&L
任务需要复杂的多模式推理。
本文首次对使用CLIP作为V&L任务的视觉编码器的大规模实证研究->
- 将
CLIP
插入到直接的特定任务的微调中,将其称为CLIP-ViL
,在视觉问题回答,图像字幕,以及视觉和语言导航带来了可观的改进。 - 将
CLIP
与图像文本对的V&L
预训练相结合,并转移到下游任务,称为CLIP-ViLp
,在三个基准上表现异常出色,包括VQA
、SNLI-VE
和GQA
在VQA
创造新的SOTA
。
实验结果
CLIP-ViL
VQAv2.0
![](/2022/08/08/Paper-Reading-CLIP-ViL/1.png)
上面部分为与在ImageNet
分类任务上预训练的视觉特征提取器相比。下面为对Visual-Genome
(VG
)进行进一步检测预训练后的结果。
*
标志着来自(Jiang等人,2020)的结果。R
表示区域特征,而其他方法使用网格特征。
Image Captioning
![](/2022/08/08/Paper-Reading-CLIP-ViL/2.png)
Vision-and-Language Navigatio(R2R)
![](/2022/08/08/Paper-Reading-CLIP-ViL/3.png)
R2R
数据集的不可见的测试结果。SR
和SPL
是成功率和按路径长度归一化的成功率。预训练方法主要是在Matterport3D
环境中进行域内预训练。
![](/2022/08/08/Paper-Reading-CLIP-ViL/4.png)
单语设置下的RxR
数据集的不可见测试结果。SR
和nDTW
是指成功率和归一化动态时间扭曲。
![](/2022/08/08/Paper-Reading-CLIP-ViL/5.png)
使用原始ResNet
特征和CLI
P特征变体的R2R
和RxR
数据集的结果。BT-Agent
是用反向翻译(BT
)训练的代理。SR
是成功率。SPL
和nDTW
分别是R2R
和RxR
的主要指标。最好的结果是粗体。
CLIP-ViLp
![](/2022/08/08/Paper-Reading-CLIP-ViL/6.png)
三个视觉和语言任务的评估结果。