Winoground：用于视觉语言组合性的数据集评估和分析

41 浏览量更新于2023-10-25 收藏 17.63MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

52380Winoground：用于视觉语言组合性的视觉和语言模型探测0Tristan Thrush ¶ * , Ryan Jiang ‡ , Max Bartolo § , Amanpreet Singh ¶ , Adina Williams † , DouweKiela ¶ , Candace Ross † *0¶ Hugging Face; † Facebook AI Research; ‡ University of Waterloo; § University College London0tristan@huggingface.co, ccross@fb.com0摘要0我们提出了一项新的任务和数据集，用于评估视觉和语言模型进行视觉语言组合推理的能力，我们称之为Winoground。给定两个图像和两个标题，目标是正确匹配它们，但关键是，两个标题包含完全相同的单词集合，只是顺序不同。该数据集由专家注释员精心策划，并标有丰富的细粒度标签，以帮助分析模型性能。我们测试了各种先进的视觉和语言模型，发现令人惊讶的是，它们都不比随机猜测好多少。显然，这些模型在视觉语言组合推理方面的能力不如我们所希望的那样强。我们进行了广泛的分析，以了解未来的工作如何减轻这些模型的缺点。我们希望Winoground能够成为推动该领域的最新技术和进一步进展的有用评估集。该数据集可在以下网址获取0https://huggingface.co/datasets/facebook/winoground .01. 引言0尽管预训练的视觉和语言transformer在各种多模态任务上表现出色[43, 47, 50]，但它们仍然不被理解[6, 15, 42,61]。一个重要的问题是这种模型在单模态和多模态组合推理方面的能力有多大。对于人类来说，描绘“树在购物车中”和“购物车在树中”的图像之间的视觉差异将是显而易见的，即使标题中的单词是相同的，但对于机器来说是否也是如此？虽然匹配简单的图像和标题似乎几乎是一个微不足道的任务，但最近在自然语言处理领域的研究表明0* 相等贡献。TT、AS和DK在Facebook AIResearch时完成了本文的大部分工作。0（a）一些环绕着灯泡的植物0（b）一些植物环绕着灯泡0图1.来自Winoground的一个例子。这两个句子包含相同的单词，但顺序不同。对于人类来说，理解哪个图像和标题匹配是微不足道的，但对于视觉和语言模型来说却更加困难。我们测试的每个模型（UNITER、ViLLA、VinVL、VisualBERT、ViLT、LXMERT、ViLBERT、UniT、CLIP、VSE++和VSRN）都无法正确地配对图像和标题，除了ViLLA的大型检查点，只有非常小的差距（0.00013的置信度）。0transformer对单词顺序通常不敏感[63]。理解标题中的文本与相应的视觉内容之间的关系是计算机视觉的一个基本目标，而不同的单词顺序对应着截然不同的视觉描绘，这应该反映在我们的模型的能力中。受此启发，我们提出了一项称为Winoground的新任务，用于测量视觉语言组合推理的能力，其中两个图像和两个标题必须正确匹配；两个标题包含完全相同的单词集合，以一种方式排序，每个标题主要描述一个图像。要在Winoground上表现良好，模型不仅必须很好地编码文本和图像（即对每种模态中存在的组合结构敏感），还必须能够在两种模态之间综合信息。我们从Winograd模式挑战[40]中汲取灵感，该挑战测试模型的常识能力。在这个挑战中，模型会得到两个句子52390最小差异并负责执行共指消解。Winograd双句格式已用于各种与语言相关的任务[53, 54,82]。在这项工作中，我们研究了具有相同但顺序不同的单词的双句的图像基础。Winoground由专家注释员手工制作，并带有一组丰富的细粒度标签，以帮助分析模型性能。为了更好地了解模型学习的内容，自然语言处理社区设计了各种各样的“探测任务”：专门的、有针对性的任务，专门用于评估。Winoground的主要目的是作为视觉和语言模型的探测任务。请参见图1的示例。我们评估了各种最先进的视觉和语言（V&L）变压器[9, 19, 31, 36, 43, 47, 50, 68,81]和基于RNN的模型[17,41]。令人惊讶的是，所有模型很少——如果有的话，只是勉强——超过了机会水平。我们的研究结果表明，这些模型的视觉语言组合推理能力远远不及我们所希望的。接下来，我们介绍Winoground任务和数据集。然后，我们描述我们测试的模型并讨论我们的发现。接下来，我们对不同模型的性能进行分析。我们希望从这项工作中得到的见解能够带来更强大的视觉和语言模型。02. 相关工作0视觉语言压力测试。已经存在一些多模态压力测试，用于正确理解不合理的场景[10]，利用语言和视觉先验知识[8,23]，单词不匹配[58]，检测仇恨言论[22, 28, 37,83]，模因[35,67]，消除一种模态以探测另一种模态[18]，通过图像之间的视觉相似性干扰模型[29]，通过许多合适标题之间的文本相似性干扰模型[13]，收集更多多样化的图像-标题对，超越主要是英语和北美/西欧数据集[46]，并探测动词-论元关系[26]或特定模型故障模式[59,62]的理解。这些压力测试中的许多都仅依赖于合成生成的图像，通常具有最小的视觉差异，但没有相应的文本变化[71]。其他数据集使用单个标题[66]或单个图像[5,33]测试模型。还有纯粹的视觉压力测试，使用自然图像：ImageNet-C/ImageNet-P[27]对各种图像特征的扰动测试模型。与Winoground不同，这些压力测试往往来自现有数据集，这些数据集具有来自典型训练领域的图像和文本，例如ConceptualCaptions[57]，COCO[44]，Visual7W[84]和VQA[2,23]。它们中没有一个在标题中保持一组词恒定，这使我们能够在没有任何偏见的情况下仔细测试组合推理。0完全不同的单词的存在。虽然在以前的数据集上，无结构的词袋模型理论上可能表现良好，但在Winoground上不可能。0探测。关于模型对词序和语言结构的了解程度的研究已经在自然语言处理中进行过。Sinha等人[63]发现，当对大型变压器语言模型进行预训练时，词序信息对性能没有太大影响，这适用于各种指标。这表明变压器使用高级词共现统计，从而产生了对词序的理解的错觉。该领域的其他研究试图了解模型对句法的了解[20, 24, 30, 45, 49, 64,74]或句法和语义类别之间的复杂相互作用[34, 69, 72,73]。0Winograd模式。Winograd模式挑战[40]以TerryWinograd[76]提出的一个共指消解问题命名。目标是在两个英语句子中正确解决（一个）模糊的指代。这些句子有一个微小的差异，会改变人类如何解决指代。Winograd模式示例在人类处理时很容易，需要常识推理[3]。例如，在句子“The city councilmen refused the demonstrators apermit because they [feared/advocated]violence”中，代词they可以指代议员或示威者，具体取决于选择哪个词。这种格式已经在各种其他任务和数据集中使用。例如，Sakaguchi等人[54]引入了WinoGrande：一种大规模构建Winograd模式数据集的方法，该方法使用亚马逊机械土耳其人生成句子，而不是像Levesque等人的原始工作那样使用专家注释员。其他方法使用句子中的模糊代词来探测模型中的性别偏见[53,82]。有关详细评论，请参见Kotcijan等人[38]。Winoground是第一个将这些想法应用于视觉和语言领域的工作，它使用具有相同单词内容的双标题，并将每个标题与另一个相关联的图像一起使用。03. Winoground0在本节中，我们将描述数据集的构建方式以及如何衡量任务的性能。03.1. 数据集0Winoground数据集由四名在视觉和语言研究以及计算语言学方面具有丰富经验的专家注释员手工策划。设 (C 0, I 0)和 (C 1, I 1)为两个图像-标题对。如果一个示例满足Winoground模式，则有且仅有：52400（a）[一只杯子]在[一些草地]中0（b）[一些草地]在[一只杯子]中0对象0（c）一个人[坐着]，一只狗[站着]0（d）一个人[站着]，一只狗[坐着]0关系0（e）这是[卡车][火灾]0（f）这是[火灾][卡车]0两者0（a）孩子[用放大镜]看着它们[]0（b）孩子[]用放大镜看着它们[]0语用学0（c）戴马尾辫的人[打包]东西和其他[购买]它0（d）戴马尾辫的人[购买]东西和其他[打包]它0系列0（e）有[三个]人和[两个]窗户0（f）有[两个]人和[三个]窗户0符号0图3.我们数据集中的语言标签（上）和视觉标签（下）的示例。视觉示例还附带有“关系”标签，从左到右依次为1、2和1个主谓。语言示例还附带有从左到右依次为2、1和1个主谓。0• (C 0, I 0) 和 (C 1, I 1) 比 (C 1, I 0) 和 (C 0, I 1)更受注释员的青睐；且0• C 0 和 C 1 具有相同的词和/或形态素，但顺序不同。0我们已经从GettyImages获得了用于研究目的的图像许可证。因此，专家注释员可以访问Getty Images API[21]，并共同创建标题和查找图像以组成示例。我们鼓励他们尽可能地创造性，并使用细粒度的语言标签标记每个示例。如果适用，注释员还会使用一个或多个视觉推理标签标记示例。注释员为使标题对不同的交换创建了总共70个语言标签。这组标签0类别标签计数0对象141 语言交换依赖关系233 两者260语言交换独立 1个主谓 293 2个主谓 1080符号41 视觉系列31 语用学240表1.Winoground数据集中的语言和视觉标签计数。每个示例都有一个语言标签；只有包含视觉现象的示例才有视觉标签。0可以分为三个广泛的组：对象、关系和涉及关系和对象的交换。对象交换重新排列诸如指向现实世界中的对象的名词短语之类的元素。关系交换重新排列诸如动词、形容词、介词和/或副词之类的元素，这些元素倾向于以名词作为语义论元[1]。关系和对象的交换可以涉及两个单独的交换，也可以涉及改变词性的单个交换（例如，“这是[火灾][卡车]”与“这是[卡车][火灾]”）。图3展示了每个广泛标签组的示例。有关每个细粒度语言标签的示例，请参见附录C。此外，注释员还为标题中的主谓数量标记了一组示例，这与两个标题之间发生的具体交换无关。例如，“左边是蓝色的，右边是红色的”有两个主谓，“水在瓶子里”有一个主谓。结果发现Winoground中的所有示例都有一个主谓或两个主谓。最后，从三个非互斥的视觉推理标签集中标记了示例，这些标签与示例中的图像以某种方式相关联，而不一定与标题相关。“语用学”标签包括需要根据标题中的语言习惯非字面地解释图像的示例（例如，“它以Z开头，以A结尾”描述了一张斑马的图像）或由于标题中介词短语的附着偏好而需要非字面地解释图像的示例（例如，“孩子用放大镜看着他们”描述了一张孩子通过放大镜自信地看着某人的图像，而不是一张孩子拿着放大镜看着某人的图像）。“符号”标签表示是否必须理解某物的象征性描绘才能进行正确的预测（例如，儿童绘画中的物体）。最后，“系列”标签适用于来自Getty的同一系列照片的示例，这通常意味着两个图像中出现了相同的人52410图像具有相似的背景和类似的光照条件。请参见图3中标签的代表性示例，以及表1中的标签计数。正如前面所述，Winoground是一个探测数据集，因此我们优先考虑干净、专业的注释而不是数量。我们的数据集总共有1600个图像-文本对，其中800个是正确的配对，800个是错误的配对。这些组成了400个示例，包含800个唯一的标题和图像。03.2.度量指标0Winoground上的性能根据三个不同的度量指标进行计算，评估模型视觉-语言推理能力的不同方面。第一个度量指标是“文本分数”，它衡量模型能否在给定图像的情况下选择正确的标题。对于给定的图像I0和I1以及标题C0和C1，示例(C0, I0, C1, I1)的文本分数计算如下：0如果s(C0, I0) > s(C1, I0)且s(C1, I1) > s(C0,I1)则返回1，否则返回0（1）。其中s(∙)是模型对图像/标题对的评分。该度量指标测试了给定数据集中的图像的真实标题是否得分高于替代标题，以及反之亦然。第二个度量指标是“图像分数”，它衡量了模型能否在给定标题的情况下选择正确的图像。对于给定的图像I0和I1以及标题C0和C1，示例的图像分数计算如下：0如果s(C0, I0) > s(C0, I1)且s(C1, I1) > s(C1,I0)则返回1，否则返回0（2）。该度量指标测试了给定标题的真实图像是否得分高于对应的替代标题的图像，以及反之亦然。我们的最终度量指标结合了前两个度量指标。在他们对Winograd SchemaChallenge的分析中，Elazar等人[16]发现评估度量往往通过单独计算双子句的分数而不是作为一组来高估模型的性能。因此，我们还使用了“组分数”进行评估，对于给定示例的每个组合{ ( C 0 , I 0 ) , ( C 0 , I 1 ) , ( C 1 , I 0 ) , ( C 1 ,I 1 )}，模型必须正确评分才能被认为是正确的。我们框架中的组分数计算如下：0h(C0, I0, C1, I1) =0� 0� 0如果f(C0, I0, C1, I1)和g(C0, I0, C1,I1)为真，则返回1，否则返回0（3）04.实验设置0我们评估了以下多模态Transformer的各种配置：CLIP[50]、LXMERT[68]、UniT[31]、UNITER[9]、VILLA[19]、VinVL[81]、ViLT[36]、VisualBERT[43]和ViLBERT[47]。我们还评估了两种基于RNN的模型的几种配置：VSE++[17]和VSRN[41]。我们详细介绍了这些模型之间的差异，并在表2中提供了一个高级概述。我们还使用众包工人建立了一个人类基准，如第4.3节所述。04.1.视觉与语言Transformer0图像和语言嵌入。我们评估的所有Transformer模型都使用预训练的BERT分词器[12]，除了CLIP使用了从头开始训练的Byte-Pair编码分词器[56]。对于图像嵌入，五个Transformer模型（VisualBERT、ViLBERT、LXMERT、UNITER、ViLLA）[9, 19, 43, 47, 68]使用从VisualGenome[39]训练的FasterR-CNN[52]的fc6层提取的区域特征。VinVL在公共数据源上训练了自己的特征提取器，使用了统一的对象词汇表[81]。我们测试的CLIP和ViLT都使用了VisionTransformer（ViT）[14]。在ViT中，图像被展平成补丁，然后与位置编码进行线性投影和组合。UniT[31]则在Carion等人[7]的卷积网络之上使用了一个Transformer网络[70]。0单流与双流编码器。视觉和语言transformers主要是单流或双流模型：图像和文本模态的嵌入要么被连接然后联合编码（单流），要么由两个独立的模态特定编码器编码，并可选进行跨模态融合（双流）。我们评估的五个transformers是单流的[ 9 , 19 , 36 , 43 , 81]。VinVL还在编码之前将对象标签（由X152-C4模型在特征提取期间检测到的对象集合）与语言标记连接起来。所有单流模型都使用合并注意力，其中语言和视觉输入相互关注。我们评估的双流transformers是CLIP，UniT，LXMERT和ViLBERT [ 31 , 47 , 50 , 68]。CLIP缺乏跨模态注意力。ViLBERT具有仅语言的transformer层，然后由跨模态transformer层融合。LXMERT和UniT分别使用仅语言和仅视觉层，然后由跨模态transformer层融合，执行模态特定的注意力和跨模态的共同注意力。0预训练目标。V&Ltransformers使用多种预训练目标，包括但不限于52420模型数据集 # 图像，标题（百万）架构注意力0VinVL [ 81 ] VQA，GQA，VG-QA，COCO，Flickr30k，CC，SBU 1.89，4.87 单流合并 UNITER [ 9 ] COCO，VG，CC，SBU 4.20，9.58 单流合并 ViLLA [ 19 ] COCO，VG，CC，SBU 4.20，9.58 单流合并VisualBERT [ 43 ] COCO，NVLR2 0.30，0.52 单流合并 ViLT [ 36 ] COCO，VG，SBU，CC 4.10，9.85 单流合并 LXMERT [ 68 ] COCO，VG 0.18，9.18 双流模态特定，共同注意，合并 ViLBERT [ 47 ] CC3.30，3.30 双流模态特定，共同注意，合并 UniT [ 31 ] COCO detect.，VG detect.，VQAv2，SNLI-VE QNLI，MNLI-mm，QQP，SST-2 0.69，1.91 双流模态特定，合并 CLIP [ 50 ] − 400.00，400.00 双流模态特定 VSE++和VSRN COCO COCO 0.11，0.57 双流 − VSE++和VSRN F lickr 30 k Flickr30k 0.03，0.16 双流 −0表2.我们评估的模型之间的差异的高级概述，包括预训练数据集、架构和模态之间的注意机制。我们在此表中省略了仅用于训练主干的数据集。我们将语言嵌入从此表中排除，因为每个模型都使用预训练的BERT分词器，除了CLIP、VSE++和VSRN。预训练数据集包括COCO [ 44]，Visual Genome (VG) [ 39 ]，Conceptual Captions (CC) [ 57 ]，SBU Captions [ 48 ]，Flickr30k [ 79 ]，VQA 2.0 [ 23 ]，VCR [ 80]，NLVR2 [ 66 ]，SNLI-VE [ 78 ]，QNLI [ 51 ]，MLNI-mm [ 75 ]，QQP [ 32 ]和SST-2 [ 65 ]。CLIP使用自己的数据集进行预训练。0遮蔽语言建模，遮蔽区域建模（对象类别的分类和图像特征的回归）和图像-文本匹配。由于我们评估模型确定图像和相应标题是否匹配的能力，我们特别选择了具有图像-文本匹配分类头或产生两种模态之间的相似度得分的V&Ltransformers 1 。04.2. 多模态RNNs0为了确定Winoground上低性能是否仅限于基于transformer的模型，我们还包括了两个基于序列的模型的结果，它们分别是VSRN [ 41 ]和VSE++ [ 17]。VSE++和VSRN都有一个损失函数，优先考虑最难的负样本的得分最小化。最难的负样本是最高得分的图像-标题对，但是不正确。直观上，这种类型的损失函数可能使模型在Winoground上获得更高的分数，可能在未来的工作中有用。尽管我们在本文后面会显示VSRN和VSE++表现不好，但可能是由于除了损失函数之外的问题。两个模型都使用GRU[ 11]来获取语言嵌入，并使用单独的流程来获取图像嵌入。通过对嵌入进行内积，找到图像-标题对的分数。VSE的图像编码器是从主干（ResNet152 [ 25 ]或VGG19 [ 60]）的嵌入进行线性投影。在VSRN中，使用基于ResNet101的FasterR-CNN和图卷积来获取一系列特征，然后将其馈送到GRU中。然后，GRU的最后隐藏状态用作图像嵌入。04.3. 人类表现0我们在亚马逊MechanicalTurk平台上雇用了众包工作者，以建立一个比专家注释者上限更保守的人类基准，即完美的得分。01UniT是我们选择的唯一一个没有在图像-文本匹配上进行预训练的模型。为了获得图像-文本对齐得分，我们使用MS-COCO [44]对UniT进行了图像-文本匹配损失的微调。0得分。与模型一样，注释者一次只能看到一张图像和一条标题。注释者被问及二元选择问题“标题是否与图像匹配？”所有1600种图像和标题的组合都由至少十个注释者标记。我们将人类图像-标题得分计算为认为图像/标题配对匹配的注释者数量与该配对的总注释者数量之比。有关人类标注界面、入职标准和质量控制的更多详细信息，请参见附录E。05. 结果05.1. 与人类相比0如表3所示，模型在Winoground上的表现普遍较差，通常接近或低于随机机会。相比之下，人类在语言和视觉现象的整个范围内表现出较高的性能，这是预期的。对于文本得分，我们观察到人类与最佳性能模型（UNITER、VILLAVinVL、ViLT和CLIP）之间的绝对差异约为50%，而其余模型的性能在或低于随机机会。对于图像得分，人类的性能只稍微较低，而所有模型的表现都要差得多。即使是最高性能的模型VinVL，与人类相比也有约70%的性能差距。这种差距并不是我们数据集特有的：在之前的工作中[17][50]，模型在标题检索方面的表现也往往明显优于图像检索。需要进行更多的调查来确定原因：也许文本编码器更强大，或者文本模态具有不同的偏差。最后，我们考虑了组得分。对于人类来说，它与其文本和图像得分相比并没有明显降低。所有模型在这方面都低于随机机会。我们在附录A中报告了这些结果的置信区间。05.2. 标签结果0对于依赖于交换的语言标签，人类的表现在“object”之后最高，其次是“relation”和VinVL37.7517.7514.50UNITERlarge38.0014.0010.50UNITERbase32.2513.2510.00ViLLAlarge37.0013.2511.00ViLLAbase30.0012.008.00VisualBERTbase15.502.501.50ViLT (ViT-B/32)34.7514.009.25LXMERT19.257.004.00ViLBERTbase23.757.254.75UniTIT Mfinetuned19.506.254.00CLIP (ViT-B/32)30.7510.508.00VSE++COCO (ResNet)22.758.004.00VSE++COCO (VGG)18.755.503.50VSE++F lickr30k (ResNet)20.005.002.75VSE++F lickr30k (VGG)19.756.254.50VSRNCOCO17.507.003.75VSRNF lickr30k20.005.003.5052430模型文本图像组0MTurk人类 89.50 88.50 85.50 随机机会 25.0025.00 16.670表3.Winoground数据集在文本、图像和组得分指标上的结果。超过随机机会的结果用粗体表示。0然后两者都。对于独立于交换的语言标签，人类在具有两个主要谓词的示例上表现更好，这些示例往往包含更长且更复杂的句子。模型在每个类别上表现都很差，但它们主要显示相反的模式。它们在具有更简单和更短的句子的示例上表现更好，这些示例更常在语素级别上进行交换（见表4）。模型性能较低的一个例外是CLIP在“both”标签的文本得分上表现与人类相当——在我们的数据集中，具有“both”标签的26个示例中的一些示例具有最短且最不复杂的标题（例如“presenting the watch”与“watching thepresent”）。我们还根据表5评估了视觉推理标签的性能。模型和人类在“symbolic”示例上表现特别好，但相对而言，模型表现较差。在“pragmatics”标签上，人类的性能最低。十个众包工作者可能没有捕捉到我们的专家语言学注释者所达成的细微语用偏好。众包工作者失败的一个例子是图3（a）：“the kid [with the magnifying glass] looks atthem []”。所有十个注释者都表示“the kid with themagnifying glass looks atthem”对于两个图像都是可接受的，但捕捉到了第二个标题的正确偏好。这揭示了向人类呈现任务的局限性：我们的假设是，如果我们同时向人类提供两个图像和两个标题，或者如果更多的人类注释者给出了他们的0判断，那么人类得分将大幅提高。最后，模型在“系列”标签上表现最差，其中大多数模型得到0%的组得分，这表明它们总是选择一张图像而不考虑标题（或反之亦然）。06. 讨论0尽管每个模型在与人类相比在Winoground上都遇到了困难，但我们希望通过分析这些模型的哪些方面可能导致它们的性能差异，从而获得进一步的见解。06.1. 编码器的能力0更丰富的特征。UNITER、VILLA、VinVL、ViLT和CLIP是唯一在表3中获得高于随机机会性能的模型，仅限于文本得分。我们假设这些模型比其他模型表现更好，是因为它们具有更丰富的特征（CLIP具有单模态特征，其他模型具有多模态特征）。CLIP使用的大规模预训练、VinVL用于训练目标检测器的大型训练数据集，以及ViLT和CLIP使用的图像特征的ViT方法，可以对图像的每个部分进行编码，这可能是这些模型表现更好的潜在解释。常见的失败模式。我们再次强调，几乎所有模型都在相同的图像系列标签上失败（组得分为0%）。一个解释是模型的视觉编码器可能过于薄弱，无法正确区分相似度较高的图像。这可能导致模型回退到它们的单模态先验，在大多数四个潜在的标题-图像配对中选择一个标题或图像。热图。我们在图4中展示了ViLT的视觉和语言特征之间的单词-区域对齐的热图，作为我们数据集上表现最佳模型的可视化。ViLLA和UNITER也使用了单词-区域对齐进行训练，我们在附录D中提供了它们的热图。复杂的标题。上述超过机会性能的模型在具有较长标题的示例上表现更差，可能是由于其较弱的语言编码能力。如表6所示，标题长度和较低的模型性能在最佳模型中显著相关，尽管对于人类来说，相关性是相反的。最短标题的示例也是最不组合的；它们主要是在交换单词时词性发生变化，或者在词素级别发生交换的示例。最后，我们在表6中展示了标题困惑度之间的相关性。0和模型得分。我们发现，模型给图像-标题对分配更高分数与标题困惑度较低之间通常存在较弱的相关性。02我们使用Hugging Facetransformers的标准大小GPT2检查点来获取困惑度[77]。52440对象关系两者都是1个主要谓词2个主要谓词模型文本图像组文本图像组文本图像组文本图像组文本图像组0MTurk人类92.20 90.78 88.65 89.27 90.56 86.70 76.92 57.69 57.69 87.33 85.62 82.53 95.37 96.30 93.52 VinVL 36.88 17.73 14.18 37.77 17.60 14.16 42.31 19.2319.23 39.38 21.23 17.47 33.33 8.33 6.48 UNITER大型 39.01 12.77 9.93 36.05 14.16 9.87 50.00 19.23 19.23 40.07 16.44 13.36 32.41 7.41 2.78 UNITER基础 34.0411.35 9.22 30.04 14.16 10.30 42.31 15.38 11.54 35.27 14.73 11.99 24.07 9.26 4.63 ViLLA大型 36.88 14.89 11.35 37.34 12.88 11.16 34.62 7.69 7.69 39.73 17.1214.38 29.63 2.78 1.85 ViLLA基础 33.33 15.60 9.93 27.04 9.01 6.01 38.46 19.23 15.38 33.22 14.04 10.27 21.30 6.48 1.85 VisualBERT基础 19.15 2.13 0.71 12.882.15 1.72 19.23 7.69 3.85 16.44 2.74 1.71 12.96 1.85 0.93 ViLT（ViT-B/32） 31.91 15.60 9.22 36.91 11.59 8.15 30.77 26.92 19.23 35.27 17.12 11.64 33.33 5.562.78 LXMERT 22.70 9.22 6.38 17.60 5.58 2.58 15.38 7.69 3.85 19.18 8.56 5.14 19.44 2.78 0.93 ViLBERT基础 29.08 10.64 7.09 19.31 3.00 1.72 34.62 26.92 19.2323.97 8.90 5.82 23.15 2.78 1.85 UniT IT Mfinetuned 17.73 5.67 2.13 18.03 4.72 3.43 42.31 23.08 19.23 21.58 6.85 4.11 13.89 4.63 3.70 CLIP（ViT-B/32） 34.757.80 6.38 22.75 8.58 5.58 80.77 42.31 38.46 35.27 13.01 10.27 18.52 3.70 1.85 VSE++ COCO（ResNet） 21.99 6.38 1.42 23.61 9.01 5.58 19.23 7.69 3.85 25.009.59 4.79 16.67 3.70 1.85 VSE++ COCO（VGG） 17.73 2.13 2.13 18.45 7.30 3.86 26.92 7.69 7.69 18.49 4.79 2.74 19.44 7.41 5.56 VSE++ Flicker30k（ResNet）20.57 6.38 3.55 18.88 4.29 2.15 26.92 3.85 3.85 21.58 6.51 3.42 15.74 0.93 0.93 VSE++ Flicker30k（VGG） 17.73 4.96 2.84 19.74 6.87 5.15 30.77 7.69 7.6920.55 6.16 4.79 17.59 6.48 3.70 VSRN COCO 15.60 4.96 2.13 18.88 7.73 4.72 15.38 11.54 3.85 17.12 7.19 3.77 18.52 6.48 3.70 VSRN Flicker30k 16.31 4.96 2.1321.03 4.29 3.86 30.77 11.54 7.69 20.89 5.82 3.77 17.59 2.78 2.780表4. 按语言标签划分的结果。结果超过随机机会的部分以粗体显示。0符号化语用学相同图像系列模型文本图像组文本图像组文本图像组0MTurk人类 96.43 92.86 92.86 58.82 41.18 41.18 95.65 91.30 91.30 VinVL 25.00 17.86 14.29 29.41 5.885.88 34.78 17.39 13.04 UNITER大型 39.29 28.57 17.86 35.29 0.00 0.00 4.35 8.70 0.00 UNITER基础 46.4314.29 14.29 29.41 17.65 11.76 8.70 8.70 0.00 ViLLA大型 39.29 14.29 10.71 17.65 0.00 0.00 17.39 4.35 0.00ViLLA基础 42.86 17.86 14.29 29.41 5.88 5.88 13.04 8.70 4.35 VisualBERT基础 28.57 0.00 0.00 5.88 0.000.00 13.04 0.00 0.00 ViLT（ViT-B/32） 28.57 17.86 10.71 35.29 0.00 0.00 26.09 0.00 0.00 LXMERT 28.573.57 3.57 17.65 5.88 0.00 8.70 4.35 0.00 ViLBERT基础 28.57 10.71 7.14 29.41 5.88 5.88 13.04 0.00 0.00UniT IT Mfinetuned 14.29 10.71 7.14 17.65 5.88 5.88 21.74 4.35 4.35 CLIP（ViT-B/32） 39.29 3.57 3.5735.29 5.88 5.88 8.70 0.00 0.00 VSE++ COCO（ResNet） 32.14 10.71 10.71 23.53 11.76 0.00 13.04 4.354.35 VSE++ COCO（VGG） 17.86 14.29 7.14 17.65 0.00 0.00 13.04 4.35 4.35 VSE++ Flickr 30k（ResNet）21.43 3.57 0.00 23.53 0.00 0.00 17.39 4.35 0.00 VSE++ Flickr 30k（VGG） 28.57 10.71 10.71 11.76 0.000.00 13.04 4.35 0.00 VSRN COCO 7.14 3.57 0.00 11.76 0.00 0.00 13.04 0.00 0.00 VSRN Flickr 30k 21.433.57 3.57 35.29 11.76 5.88 8.70 4.35 4.350表5. 按视觉标签划分的结果。结果超过随机机会的部分以粗体显示。06.2. 按架构和注意力类型划分0如表3至表5所示，无论是单流模型还是双流模型，在文本、图像和组别得分上都明显低于人类。我们发现至少有一个单流模型和至少有一个双流模型在大多数实验中超过了随机机会，这表明架构之间没有明显的性能差异。尽管如此，有六个单流模型在整体上超过了随机机会，而只有一个双流模型（CLIP）超过了随机机会。CLIP的训练数据比其他模型多一个数量级。在所有类型的注意力中，模型在与人类相比上都表现出困难。但是，相对于随机基线，使用合并注意力（VinVL、VILLA、UNITER和ViLT）和模态特定注意力（CLIP）的模型在完整的Winoground数据集上超过了随机机会；0其余所有使用单模态和/或合并注意力与协同注意力结合的模型都未能超过随机机会。06.3. 按多模态预训练数据集大小划分0如果我们将CLIP作为异常值排除在外，我们发现多模态预训练数据集的大小与得分之间存在高度显著的相关性。表7显示了这些相关性，附录B中有显示每个模型得分与预训练数据大小的图表。这些计算不包括单模态组件（例如图像骨干或预初始化的单模态语言模型嵌入）的训练数据。52450一只棕色的狗在一张白色的沙发上0一只白色的狗在一张棕色的沙发上0圆形食物在心形木头上0心形食物在圆木上0图4. ViLT[36]在Winoground示例中图像和文本特征之间的单词-区域对齐分数。在这个案例研究中，ViLT似乎忽略了形容词的信息。例如，无论文本是“棕色的狗”还是“白色的狗”，热图都同样强调了棕色的狗。0困惑度标题长度模型相关性 p值相关性 p值0MTurk人类 0.05 0.07 0.20 0.00 VinVL -0.05 0.04 -0.20 0.00UNITER大型 -0.01 0.57 -0.16 0.00 UNITER基础 -0.03 0.22-0.14 0.00 ViLLA大型 -0.02 0.39 -0.12 0.01 ViLLA基础 -0.040.13 -0.11 0.03 VisualBERT基础

下载后可阅读完整内容，剩余1页未读，立即下载