语与LV）模型对跨语言语言现象的理解能力

82 浏览量更新于2023-11-30 收藏 23.82MB PDF 举报

视觉模型

计算语言学

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

∗Correspondingauthorparcalabescu@cl.uni-heidelberg.de.0VALSE0：一个以语言现象为中心的视觉和语言模型的任务无关基准0Letitia Parcalabescu 1 � Michele Cafagna 2 Lilitta Muradjan 10Anette Frank 1 Iacer Calixto 3 , 4 Albert Gatt 5 , 201Heidelberg大学，计算语言学系2马耳他大学，语言学与语言技术研究所3纽约大学4阿姆斯特丹大学ILLC5乌得勒支大学，信息与计算科学系0摘要0我们提出了VALSE（Vision And LanguageStructuredEvaluation），这是一个新颖的基准，旨在测试通用预训练的视觉和语言（V&L）模型在特定语言现象上的视觉语言基础能力。VALSE提供了一个包含六个测试的套件，涵盖了各种语言结构。解决这些问题需要模型在视觉模态中将语言现象与实际情况联系起来，从而可以进行比以往更细粒度的评估。我们使用支持构建有效伪造的方法构建了VALSE，并报告了对五个广泛使用的V&L模型进行评估的结果。我们的实验表明，当前的模型在处理大多数现象时存在相当大的困难。因此，我们期望VALSE能够作为一个重要的基准来从语言的角度衡量预训练V&L模型的未来进展，以补充基于任务的经典V&L评估。01 引言0通用预训练的视觉和语言（V&L）模型在许多V&L任务上取得了显著的性能（Lu等，2019；Tan和Bansal，2019；Li等，2019；Chen等，2020；Li等，2020a；Su等，2020）。因此，V&L研究已经将其重点从任务特定的架构转向了对大型V&L模型的微调。当前的基准测试为我们提供了对模型在各种V&L任务上的性能的良好视角（Cao等，2020；Lourie等，2021；Li等，2021），但该领域只是开始评估模型为什么表现得如此出色以及模型是否学习了跨多个V&L任务的特定能力。具体而言，我们缺乏对这些模型在视觉模态中将语言现象（从形态句法到语义）与实际情况联系起来的程度的详细了解（Bernardi0例如，最近的证据表明，模型对动词-论元结构（Hendricks和Nematzadeh，2021）和词序（Cirik等，2018；Akula等，2020）的语言区别不敏感。我们的工作通过VALSE（Vision And LanguageStructuredEvaluation）来填补这一空白，这是一个用于V&L模型评估的基准，包括六个任务或“片段”，每个片段具有相同的结构：给定一个视觉输入，模型被要求区分真实的标题和伪标题，其中伪标题是通过改变一个单词或短语来构造的，该单词或短语实现了特定的语言现象，例如名词的语义数量、动词论元结构或指代。VALSE使用了一个资源匮乏的诊断设置，摒弃了大规模注释（例如边界框），并建立在现有的高质量图像标题和VQA数据的基础上。VALSE旨在利用预训练（或微调）的V&L模型中的现有预测头部；因此，我们的基准不包括任何重新训练，并且可以解释为零-shot评估。我们为每个片段构建了测试数据，以防止模型利用数据中的人为或统计偏差，这是在大量数据上预训练的高度参数化神经模型的一个众所周知的问题（Goyal等，2017；Madhyastha等，2018；Ka�e等，2019）。考虑到这一点，我们提出了新的方法来防止在伪造过程中出现人为因素。我们的主要贡献是：0i）我们引入了VALSE，这是一个旨在衡量预训练V&L模型对破坏实例敏感性的新型基准。0ii）我们涵盖了影响语言和视觉模态的广泛基本语言现象：存在、复数、计数、空间关系、动作和实体共指。0iii）我们研究了构建有效破坏物的新策略，包括自动验证和人工验证。0arXiv:2112.07566v2[cs.CL]14Mar20220+v:mala2277获取更多论文0我们在标题和破坏物之间平衡词频分布，并通过仅依赖文本来测试预训练模型解决基准单模态问题。我们在破坏物创建中使用遮蔽语言建模（MLM），并使用语义推理验证破坏物，最后对整个基准进行人工注释。0iv）我们在VALSE上对不同架构的预训练V&L模型进行了初步实验结果。这些模型的整体性能较差，表明现在是通过语言构造视觉基础能力的新型可靠破坏数据集的时机。102背景和相关工作0预训练的V&L模型通过自监督多任务学习来学习将视觉和语言结合起来。任务包括多模态遮蔽建模——在文本中屏蔽单词和图像中的对象标签或区域，然后进行预测——以及图像-句子对齐，模型学习预测图像和文本是否对应。主要的架构是单流和双流的多模态Transformer：单流模型将单词和图像特征连接起来，并使用单个Transformer堆栈对生成的序列进行编码；双流模型使用不同的Transformer堆栈处理视觉和文本输入，并使用额外的层（例如共同注意力）将它们融合成多模态特征。0V&L模型（Li等，2019年；Lu等，2019年；Tan和Bansal，2019年；Lu等，2020年；Li等，2020b年；Kim等，2021年）通常在V&L任务上进行评估，如VQA（Goyal等，2017年），视觉推理（Suhr等，2019年）或图像检索（Lin等，2014年；Plummer等，2015年）。鉴于基于Transformer的模型在单模态和多模态任务中的表现如何，最近的研究工作开始探讨它们的有效性和学习可推广表示的程度。在单模态和多模态的V&L环境中解决这些问题的技术包括：对抗性示例（Jia和Liang，2017年；Jia等，2019年）；调查01我们在https://github.com/Heidelberg-NLP/VALSE上发布了包含所有标注者投票的数据集（Prabhakaran等，2021年）。0关于偏见影响的研究，无论是语言上的（Gururangan等，2018年），视觉语义上的（Agarwal等，2020年），还是社会经济上的（Garg等，2019年）；以及使用基于语言的反事实和最小编辑示例（Levesque等，2012年；Gardner等，2020年）。后一研究线中的一个趋势是特定于V&L模型的视觉和语言对抗（Shekhar等，2017b年；Gokhale等，2020年；Bitton等，2021年；Parcalabescu等，2021年；Rosenberg等，2021年），其中的想法是通过对标题（Shekhar等，2017b年，a）或图像（Rosenberg等，2021年）进行数据增强来创建反事实（即被破坏的）和/或最小编辑示例。由于大多数V&L模型都是在某个版本的图像-文本对齐任务上进行预训练的，因此可以在零-shot设置中测试它们区分正确和被破坏标题（与图像相关）的能力。构建破坏物可以用于许多调查目的。通过VALSE，我们针对V&L模型的语言基础能力，重点关注跨多个标记的普遍语言现象，如第3.1节至第3.6节所述。同时，我们通过控制标题和破坏物之间的词频偏差，并针对V&L模型的已知问题（Goyal等，2017年；Madhyastha等，2018年）进行测试，确保我们的数据对扰动和伪影具有鲁棒性，从而防止模型仅使用单个输入模态来解决任务。神经模型利用数据伪影的问题是众所周知的（Gururangan等，2018年；Jia等，2019年；Wang等，2020b年；He等，2021年），已经提出了一些方法来揭示这种影响，包括基于梯度的对抗扰动或输入减少技术（参见Wallace等，2020年）。然而，这些方法仍然没有被完全理解（He等，2021年），并且可能不可靠（Wang等，2020b年）。我们的工作与Gardner等（2020年）相关，他们为NLU构建了任务特定的对比集。然而，我们的重点是对语言现象进行建模，而不是任务，并且我们从多个多模态数据集中选择有效实例，构建了经过精心策划、平衡的单个破坏物。03 构建VALSE基准0+v:mala2277获取更多论文0数据收集和元数据0部分存在数量计数关系行为核心指代0乐器存在量词语义数量平衡，对抗性，小数量介词替换，论元交换标准，干净0#示例† 505 851 2，459 535 1，633 8120诱饵生成方法0nothing � somethingNP替换（sg2pl；pl2sg）和量词插入0数字替换SpanBERT预测行为替换，论元交换0yes � no0MLM � � � � � � GRUEN � � � � � � NLI � � � � � � src. 数据集Visual7W MSCOCO Visual7W MSCOCO SWiG VisDial v1.0 图像来源src. MSCOCOMSCOCO MSCOCO MSCOCO SituNet MSCOCO0示例数据0标题（蓝色）/诱饵（橙色）0有0没有动物 /0显示。0一个小铜花瓶里有一些花 /恰好一朵花。0有四只 / 六只斑马。一只猫在桌子上 /桌子下玩弄一把小刀。0一个男人 /0女人 / 男人。0水牛在草地上行走。它们在动物园吗？不是 /是的。0图像0表1：VALSE中的部分和乐器概述，每个部分的示例数量；使用的诱饵生成方法；是否使用遮蔽语言建模（MLM）、GRUEN和NLI过滤；数据集和图像来源；以及图像-标题-诱饵示例。†示例数量是每个部分中可用示例的总和。在附录的表5中，我们列出了每个单独乐器中的示例数量。0概述）。每个部分由一个或多个乐器组成，旨在评估模型对该特定语言现象的基础能力。所有乐器都是通过应用特定于所研究的语言现象的诱饵函数（FFs）构建的。FFs将正确的标题作为输入，并改变特定部分以生成一个诱饵标题（或诱饵）。我们设计FFs使其生成的句子无法描述图像，同时仍然是语法正确和有效的句子。当然，诱饵标题可能比生成它的原始标题更不可能出现，这种不合理的偏见可能会被过参数化的V&L模型轻易捕捉到。此外，自动FF可能无法生成与图像相矛盾的诱饵，例如通过改变原始标题以产生一个近义词或原始标题蕴含的诱饵。对于难以控制这些关键属性的现象，我们应用额外的过滤器：i）一些FFs利用强大的语言模型提出对标题的更改，以便生成的诱饵仍然是高概率的句子；ii）我们使用最先进的自然语言推理（NLI）方法检测标题和诱饵之间是否存在蕴涵关系，并从数据集中过滤出这样的诱饵（详见§4中的讨论）。最后，我们使用人工标注员验证VALSE中所有生成的测试数据。VALSE数据来自现有的V&L0数据集。下面，我们描述每个部分及其乐器，并在VALSE中设置相应的任务。对于每个乐器，我们遵循相同的步骤：i）我们识别包含目标语言现象实例的标题；ii）我们应用一个FF，自动替换表达式为与原始表达式的视觉内容相矛盾的变体，从而构建原始标题中每个目标实例的一个或多个诱饵，如§4中所讨论的；然后我们iii）对所得到的诱饵进行各种过滤，以提取一些有效且可靠的诱饵子集，这些诱饵子集不容易被新一代高参数化的预训练V&L模型欺骗。03.1 存在性0存在部分只有一个工具，针对存在量词的实例。模型需要区分以下两种情况：i）某种类型的实体不存在或ii）图像中可见一个或多个这些实体。我们使用Visual7W视觉问答数据集（Zhu等，2016）并使用其回答为数字（0、1、2等）的'howmany'示例，构建一个池子。我们使用模板将问题和答案字段转换为正确描述图像中可见内容的陈述，例如'Q：有多少只动物？A：0'→'There are 0animalsshown'。然后，我们将这些陈述转换为一个存在性陈述。0+v:mala2277获取更多论文0在上面的示例中，我们用单词'no'替换数字来创建一个正确的标题（'There are no animalsshown'），并完全删除数字来创建一个错综复杂（'There are animalsshown'）。存在部分在手动验证后有505个图像-标题-错综复杂元组，共534个候选项（参见第4节），标题/错综复杂是平衡的：50%的（正确的）标题最初的答案为0，其余的答案为1或更大。详细信息请参见A.1。03.2 复数0复数部分只有一个工具，涉及语义数量。它旨在测试模型是否能够区分表示图像中单个实体的名词短语（'恰好一个花朵'）和表示多个实体的名词短语（'一些花朵'）。数据集由851个经过验证的实例组成，其中包括1000个生成的候选项（参见第4节），在包含复数名词短语的标题和通过将其替换为单数（pl2sg：'一些花朵'→'恰好一个花朵'）或反之亦然，标题包含单数名词短语并通过将其替换为复数（sg2pl）的情况下均匀分布。错综复杂候选项是从COCO2017验证集（Chen等，2015）生成的。关于错综复杂构建和我们采取的措施以防止引入'恰好一个'等量词的偏见的详细信息，请参见A.2。03.3 计数0计数部分有三个工具：平衡、对抗和小数字。所有实例都是关于图像中可见实体数量的陈述。模型需要区分与陈述相比，关联图像中的实体数量是正确还是错误。与存在部分类似，我们使用Visual7WVQA数据集（Zhu等，2016）并使用其回答为数字（0、1、2等）的'howmany'示例。我们使用模板将问题和答案字段转换为描述图像的陈述，并通过将正确陈述中的数字替换为另一个数字来创建错综复杂。所有三个工具都旨在显示模型是否学习了超出训练分布的策略，并且模型在多大程度上利用了类别频率偏差。在平衡计数中，我们将示例数量限制为02 我们将Visual7W中的原始答案作为示例类别：例如，在'Thereare 0 animals shown'中，类别为0。0每个类别的最大数量，并确保正确和错综复杂的类别平衡，以便惩罚利用类别频率偏差的模型。在对抗计数中，我们确保所有的错综复杂都属于类别n∈{0,1,2,3}，而所有的正确标题都属于类别m∈{m|m≥4}。有偏见的模型应该更偏爱更频繁的类别。由于小数字自然是最频繁的，采用这种偏见的模型在这个对抗测试集上表现应该很差。计数小数字是一个健全性检查，其中所有的正确标题和错综复杂都属于类别n∈{0,1,2,3}，并且标题/错综复杂的类别是平衡的。由于模型可能已经接触过这个类别集合中的许多示例，并且所有这些类别都是高频率的，通过这个工具，我们可以将模型的性能与类别曝光分离开来。计数平衡、对抗和小数字在手动验证之后分别有868（1000）、691（756）和900（1000）个实例（参见第4节）。详细信息请参见A.3。03.4空间关系0关系部分有一个工具，重点是模型区分不同的空间关系的能力。伪造物与原始标题仅在空间介词的替换上有所不同。与复数一样，数据来源于COCO2017验证集。为了创建伪造物，我们首先识别标题中的所有介词序列（例如，“在”，“离开”）。通过屏蔽介词并使用SpanBERT（Joshi等人，2020）生成长度为1-3个单词的候选项来创建伪造物。我们保留SpanBERT候选项，即长度从1到3不同于原始介词序列但存在于数据集中的跨度。在手动验证后，有614个提议实例中的535个实例（参见第4节），并确保介词在标题和伪造物之间分布相似。有关详细信息，请参阅A.4。03.5动作0动作部分有两个工具：i）动作替换和ii）角色填充物交换。它们测试V&L模型的能力，即i）确定文本中提到的动作是否与图像中的动作相匹配（例如，“一个男人对着一个女人大喊/微笑”），以及ii）正确识别动作的参与者和他们扮演的角色（例如，根据表1中的图片，是男人在喊还是女人在喊？）。SWiG数据集（Pratt等人，2020）包含了这些内容。0+v:mala2277获取更多论文0504个动作动词，我们从语义角色和其填充物的SWiG注释中生成标题和伪造物。对于动作替换部分，我们使用SWiG中与语言环境相匹配的其他动词替换动作动词，如BERT所建议的。对于角色填充物交换，我们交换角色注释中的角色填充物，从而生成具有倒置角色的动作描述。动作替换和角色填充物交换在手动验证之后分别具有648（779）和949（1042）个实例（参见第4节）。有关完整细节，请参阅A.5。03.6指代0核心指代部分旨在揭示V&L模型能否执行代词指代消解。它包括以下情况：i）代词具有名词（短语）先行词，且代词和（名词）短语都基于视觉模态（“一个女人正在开摩托车。她戴着头盔吗？”），以及ii）代词指代图像的某个区域甚至整个图像（“这是外面吗？”）。我们基于VisDialv1.0（Das等人）创建伪造物。02017年），其中包含来自MSCOCO（Lin等人，2014年）的图像。VisDial的标题和对话是问答序列。我们选择形式为[标题。问题？是/否。]的图像描述，其中问题至少包含一个代词。在伪造时，我们将答案从“是”交换到“否”，反之亦然（见表1）。我们确保“是/否”答案之间的平衡为50-50％。核心指代部分包括两个工具：核心指代标准来自VisDial训练集，以及来自验证集的小型核心指代清洗集，分别包含708（916）个和104（141）个示例（参见第4节）在手动验证之后。有关完整细节，请参阅A.6。04个可靠的有效伪造物的构建0在VALSE中，如果一个由图像-标题-伪造物三元组组成的实例满足以下条件，则被视为有效：伪造物与原始标题最少有所不同；伪造物不能准确描述图像；独立的评委一致认为标题是对图像的准确描述，而伪造物不是。我们认为，如果一个生成的伪造物在分布和合理性偏差方面与人类标题没有太大差异，并且不能轻易通过单模态解决，那么它的“伪造方法”更可靠。0测试集中无法获得3个VisDial注释。0在本节中，我们讨论了可靠构建有效伪装的自动和手动方法。在这个背景下，特别值得注意的是两种偏见类型：分布偏见（§4.1）和可信度偏见（§4.2）。在§4.3中，我们讨论了如何应用自然语言推理模型来过滤我们数据流水线中的示例，§4.4展示了我们如何手动验证我们基准测试中的所有示例。每个仪器的最终版本的随机样本显示在表6-11中。04.1缓解分布偏见0第一种偏见与标题和伪装之间的分布不平衡有关（例如，某些词或短语只在伪装中具有很高的概率）。以前的伪装数据集展示了这种不平衡，使得模型可以解决任务而不考虑图像（Madhyastha等人，2019年）。为了缓解这个问题，在每个现象和我们的数据创建过程中，我们确保正确和伪装标题中的标记频率分布大致相同（参见附录A和E）。04.2对抗可信度偏见0第二种偏见可能来自于自动程序产生的不合理或不自然的伪装，这可能有助于它们的检测。通常，可以通过简单的规则（例如，从存在到不存在，从单数到复数或反之亦然）安全地伪装VALSE片段。然而，对于空间关系和动作，仅凭文本模态而独立于图像，一个伪装可能被认为是不太可能的，例如，“一个人站在椅子下/上”。这种可信度偏见可能会被包含常识知识的大型语言模型检测出来（Petroni等人，2019年；Wang等人，2020a年），我们预计未来的V&L模型也会具备类似的能力。为了确保伪装和正确的标题同样可信，我们使用BERT（Devlin等人，2019年）和SpanBERT（Joshi等人，2020年）等语言模型来建议我们的伪装函数中的替换。此外，在空间关系和复数的情况下，我们还使用GRUEN（Zhu和Bhat，2020年）进行语法过滤。GRUEN最初是为了根据话语级和语法属性自动评分生成的句子。我们只使用GRUEN的语法性组件，并仅保留语法性得分≥0.8的伪装候选项。此外，我们还对VALSE进行了仅语言模型的评估，以验证我们的基准测试是否可以通过具有强大语言能力的多模态模型来解决（Goyal等人，2017年；Shekhar等人，2019a年）。通过评估VALSE与仅语言模型，我们建立了一个基准线，如果我们期望真正的多模态集成，V&L模型应该超过这个基准线。0+v:mala2277获取更多论文When constructing foils, we need to ensure thatthey fail to describe the image. To test this au-tomatically, we apply natural language inference(NLI) with the following rationale: We consider animage and its caption as a premise and its entailedhypothesis, respectively (a similar rationale is ap-plied in the visual entailment task; Xie et al., 2019).In addition, we consider the caption as premise andthe foil as its hypothesis. If a NLI model predictsthe foil to be entailed (E) by the caption, it cannotbe a good foil since by transitivity it will give atruthful description of the image. By contrast, ifthe foil is predicted to contradict (C) or to be neu-tral (N) with respect to the caption, we take this asan indicator of a valid (C) or a plausible (N) foil.40在构建伪装时，我们需要确保它们不能描述图像。为了自动测试这一点，我们应用自然语言推理（NLI）的原理如下：我们将图像及其标题视为前提和蕴含假设，分别（类似的原理适用于视觉蕴含任务；Xie等人，2019年）。此外，我们将标题视为前提，将伪装视为其假设。如果NLI模型预测伪装被标题蕴含（E），那么它不能是一个好的伪装，因为根据传递性，它将给出图像的真实描述。相反，如果预测伪装与标题相矛盾（C）或中立（N），我们将其视为有效（C）或可信（N）的伪装的指标。404.3使用自然语言推理过滤伪装0我们使用了NLI模型ALBERT（Lan等人，2020年）02020年）在该任务上进行了微调（详见附录C）。最初，我们将NLI与关系、复数和动作一起使用，因为在这些片段中，伪装可能会对词汇内容产生实质性的改变。5在自动标记标题-伪装对之后，我们手动验证了一部分标记为E、C或N的样本。对于关系（N =30），标签的准确率接近100%，总体上只有2个（0.06%）错误。对于复数（N = 60，50%sg2pl和50%pl2sg），错误率也很低，C没有错误，E错误率为33%，N错误率为11%。在这里，一些蕴含错误是由于自动伪装过程中产生的奇怪表述，而对于C，没有观察到这样的奇怪现象。因此，我们只在最终的关系和复数片段中包含标记为C的伪装。对于动作，模型标记了0请参考以下来自动作替换的示例：P：母亲责骂她的儿子。H1：母亲鼓励她的儿子。（C;好的干扰项）；H2：母亲和她的儿子露营。（N;需要图像控制）；H3：母亲和她的儿子交谈。（E;不适合的干扰项）如果NLI预测为N，我们仍然需要检查图像，因为描述可能恰好适合图像内容。相比之下，存在性和计数干扰项涉及更直接的交换（例如，数值数量之间的交换）；类似地，共指干扰项只涉及将肯定答案替换为否定答案。0对于E，该模型的矛盾性预测非常准确（错误率为0%），但对于E的错误率高达97.1%，这意味着大量有效的干扰项将被错误地排除。为了避免数据集减少太多，我们没有对动作使用NLI过滤，而是依靠人工注释作为最终的有效性检查。04.4 生成干扰项的手动评估0作为最后一步，对于每个仪器的数据进行了手动验证。对于每个实例，注释者会看到图像、标题和干扰项。标题和干扰项被编号并显示在彼此上方，以更明显地显示差异，不同的元素以粗体突出显示（图2，附录E）。注释者不知道哪个文本是标题，哪个是干扰项，标题出现在前面（编号为1）的情况占50%。任务是确定两个文本中哪个准确描述了图像中所见的内容。在每种情况下，注释者必须在五个选项中强制选择：a）第一个文本，但不是第二个文本；b）第二个文本，但不是第一个文本；c）两个文本都是；d）两个文本都不是；e）我无法判断。每个项目由三个人进行注释。验证是在亚马逊MechanicalTurk上进行的，使用了一组已经符合任务要求的注释者。详细信息请参见附录E。对于VALSE的最终版本，我们包括通过以下验证测试的实例：至少有三个注释者中的两个将标题而不是干扰项标识为准确描述图像的文本。在所有仪器中，87.7%的实例满足此标准（最小77.3%；最大94.6%），其中73.6%的实例总体上有一个一致的（3/3）决策，即标题而不是干扰项是准确的描述。我们认为这些数字很高，表明自动构建和过滤程序产生的干扰项很可能是有效的，就像上面第4节讨论的那样。我们计算了每个仪器的注释者间一致性（表5）。在有效子集上，一致性较低至中等（Krippendorff的α：最小=0.23，最大=0.64，平均=0.42，标准差=0.12）。我们注意到个体的注释数量存在相当大的变化，α是在5个类别上计算的。因此，这个结果不能直接解释为VALSE的人类性能上限。然而，对于模型表现更好的片段（例如，存在性，Foil-It！；参见第5节），α更高。0+v:mala2277获取更多论文2019), ViLBERT (Lu et al., 2019), ViLBERT 12-in-1 (Lu et al., 2020), and VisualBERT (Li et al.,2019). These models have different architecturesand are pretrained on a variety of tasks with differ-ent training data. We also benchmark two unimodaltext-only models, GPT1 (Radford et al., 2018) andGPT2 (Radford et al., 2019). See Appendix D fordetails on all these models used in our evaluation.0存在性，Foil-It！；参见第5节。0使用VALSE进行基准测试0我们提出VALSE作为一项与任务无关的零-shot基准，以评估模型在预训练（或微调）过程中学习将特定语言现象与图像联系起来的程度。VALSE的构建灵感来自于类似Checklist（Ribeiro等，2020）的方法，其中包括由标题和最小编辑的干扰项组成的对。在我们的基准测试中，评估模型的唯一要求是：i）具有二元分类头来预测图像-句子对是否被干扰，或ii）预测图像与标题与干扰项之间的匹配分数，并返回得分最高的一对。在VALSE上报告结果的系统应该报告在测试之前在模型训练中使用的任何数据，以便进行比较。05.1 基准指标0我们使用五个指标6进行评估：整体准确率（acc）对所有类别（干扰项和正确项）进行评估；精确度（pc）衡量模型对正确示例的识别能力；干扰精确度（pf）衡量模型对干扰案例的识别能力；成对排名准确率（accr），衡量图像-句子对的对齐分数是否大于其干扰对的分数；接收器操作特征曲线下面积（AUROC），衡量模型在不同预测阈值下区分正确和干扰示例的能力。accr比acc更宽松，因为它接受干扰项的分数低于标题分数的模型预测。我们的主要指标是AUROC和accr。AUROC和accr非常适合评估最小编辑对，因为两者都不使用分类阈值。至于pc和pf，由于它们是竞争性指标，简单地增加一个指标可能会降低另一个指标，我们报告较小的那个作为模型预测信息量的指标。由于所有工具都被实现为平衡的二元分类，随机基线始终为50%。05.2 V&L模型0所有指标的定义见附录B。0单模态模型GPT1和GPT2是在英文文本上预训练的自回归语言模型。我们通过计算正确标题和干扰标题的困惑度，并预测困惑度最低的条目来测试这些单模态模型是否能够解决VALSE问题。如果干扰标题的困惑度更高，我们将其视为干扰标题可能受到合理性偏见或其他语言偏见的指示（详见第4.2节）。05.3 实验和结果0我们在VALSE上以零样本设置测试了V&L和单模态模型，并从FOILit!数据集（Shekhar等，2017b）中评估了一些正确的标题和干扰项（详见附录A.7）。所有结果均列在表2中。0单模态结果对于大多数工具来说，单模态结果接近随机，因此并不表明存在强烈的语言或合理性偏见。一个例外是原始的FOILit!数据集，与Madhyastha等（2019）的发现一致。此外，空间关系（77.2%）、动作替换（66.8%）和行动者交换（76.9%）工具表明干扰项存在合理性偏见。在自动干扰生成的行为中，很难避免动词参数选择的限制，当翻转角色填充物或替换动词时，这些限制很容易被违反。对于关系，尽管SpanBERT提案旨在帮助选择适合介词的可能替代品，但在相对罕见的参数-介词组合中存在合理性问题。虽然这些可能是未来在VALSE中解决的第一个工具，但当前的V&L模型甚至难以检测到明显的行动者交换不匹配，例如“一个球扔一个网球运动员。”对于VALSE，单模态分数将作为V&L模型成对准确性的基准。0多模态结果 ViLBERT12-in-1在全面评分中取得了最佳的零样本结果，其次是ViLBERT。0+v:mala2277获取更多论文accr0指标模型存在性多数派计数 Sp.rel. ‡ 动作共指 FOIL-it! 平均量词数量 balanced sns. † adv. † 关系 repl. † actant swap standard clean0随机 50.0 50.0 50.0 50.0 50.0 50.0 50.0 50.0 50.0 50.0 50.0 50.00GPT1 � 61.8 53.1 51.2 48.7 69.5 77.2 65.4 72.2 45.6 45.2 77.5 60.7 GPT2 � 58.0 51.9 51.6 49.8 45.3 75.0 66.8 76.9 54.5 50.0 80.7 60.1 CLIP 66.9 56.262.1 62.5 57.5 64.3 75.6 68.6 52.1 49.7 88.8 64.0 LXMERT 78.6 64.4 62.2 69.2 42.6 60.2 54.8 45.8 46.8 44.2 87.1 59.6 ViLBERT 65.5 61.2 58.6 62.973.7 57.2 70.7 68.3 47.2 48.1 86.9 63.7 12-in-1 95.6 72.4 76.7 80.2 77.3 67.7 65.9 58.9 75.7 69.2 86.9 75.1 VisualBERT 39.7 45.7 48.2 48.2 50.0 39.749.2 44.4 49.5 47.6 48.5 46.40LXMERT 55.8 55.1 52.0 55.4 49.9 50.8 51.1 48.5 49.8 49.0 70.8 53.5 ViLBERT 2.4 50.3 50.7 50.6 51.8 49.9 52.6 50.4 50.0 50.0 55.9 51.3 12-in-1 89.062.0 64.9 69.2 66.7 53.4 57.3 52.2 54.4 54.3 71.5 63.2 VisualBERT 49.3 46.5 48.3 47.8 50.0 49.3 48.8 49.7 50.0 50.0 46.6 48.80min(pc, pf)0LXMERT 41.6 42.2 50.9 50.0 37.3 28.4 35.8 36.8 18.4 17.3 69.3 38.90ViLBERT 47.9 2.1 24.4 24.7 17.5 1.5 11.9 7.1 1.3 1.9 12.9 13.9012-in-1 85.0 33.4 64.3 61.7 59.5 13.3 47.8 37.6 15.8 13.5 48.8 43.70VisualBERT 1.3 0.3 0.0 0.0 0.0 1.3 0.0 0.0 0.0 0.0 0.2 0.30AUROC× 1000LXMERT 60.5 57.3 53.8 57.7 50.5 51.9 52.1 47.6 49.8 49.5 76.9 55.2 ViLBERT 52.5 54.1 50.8 51.6 53.5 51.2 57.2 57.8 49.9 49.9 75.2 54.9 12-in-196.3 67.4 72.0 77.8 75.1 55.8 61.3 55.0 59.8 59.6 81.0 69.2 VisualBERT 28.9 29.0 24.5 16.5 20.9 45.2 17.7 36.3 45.3 46.3 28.5 30.80表2：根据不同指标在VALSE基准测试上的单模态和多模态模型的性能。我们用粗体标出每个指标的最佳结果，并用下划线标出低于（或等于）随机基线的所有结果。acc r是一种成对排名准确性，如果p（caption，img）>p（foil，img），则认为预测是正确的。精确度pc和foil精确度pf是竞争指标，增加其中一个可能会降低另一个：因此，观察两者中较小的数字可以很好地了解模型预测的信息量。†sns.计数小数字。adv.计数对抗。repl.动作替换。‡Sp.rel.空间关系。�仅使用文本作为输入的单模态模型。CLIP仅以成对排名模式进行测试（脚注6）。0LXMERT，CLIP，7和VisualBERT。后者获得了很高的pf值，但非常低的pc值-体现在min(pc,pf)得分中-表明VisualBERT学习了一种不具有泛化能力的启发式方法（有关其他模型的类似观察，请参见Hendricks和Nematzadeh，2021）。我们假设这是由于VisualBERT的预训练中图像-句子对齐的方式：模型期望一个图像和一个正确的句子c1，并预测第二个句子c2是否匹配。在预训练期间，c1和c2可能在许多方面不同，而在我们的设置中，它们几乎相同。这可能使模型对预测干扰项产生偏见，从而提高pf值。以存在和FOILit!数据集为中心的工具几乎可以被ViLBERT12-in-1可靠解决，这表明模型能够识别命名对象及其在图像中的存在。然而，在我们的对抗性干扰设置中，剩下的部分都无法可靠解决：i）区分对单个对象的引用与对多个对象的引用或对其进行计数的能力在07 CLIP以对比的方式工作，因此我们只报告准确率accr（详见附录D）。c1是MSCOCO中描述相关图像的5个标题之一。在VisualBERT的预训练中，c2可以是这5个标题中的另一个标题，也可以是不描述图像的随机选择的标题。预训练任务是确定c2是否正确描述了图像。0图像中的复数和计数；ii）正确分类图像中对象之间的命名空间关系（关系）；iii）区分动作并识别其参与者，即使受偏好偏差的支持（动作）；或者iv）通过代词追踪图像中对同一对象的多个引用（共指）。0正确与伪造的精确度p c 和p f表明V&L模型在解决VALSE中的现象上存在困难。当模型在正确的标题上达到高精确度p c时，往往以非常低的伪造标题精确度p f为代价（参见ViL-BERT），反之亦然（参见VisualBERT）。这表明这些模型对VALSE的输入不敏感：几乎总是预测匹配的模型会以p f 的代价膨胀p c。min(p c , p f)显示VisualBERT和ViLBERT表现不佳，低于随机基线，而LXMERT接近或低于随机基线。ViLBERT12-in-1在存在性上表现强劲，在计数上表现良好，但在复数、空间关系、共指和动

下载后可阅读完整内容，剩余1页未读，立即下载