e-ViL：解释性视觉语言任务

69 浏览量更新于2023-10-13 收藏 610KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1244e-ViL：视觉语言任务**1牛津大学计算机科学系2图宾根大学3马普智能系统研究所4马普信息学摘要最近，已经有越来越多的努力，引入能够生成自然语言解释（NLEs）的模型，以预测视觉语言（VL）任务。这样的模型很有吸引力，因为它们可以提供人性化和全面的解释。然而，现有方法之间缺乏比较，这是由于缺乏可重用的评估框架和数据集的稀缺性在这项工作中，我们介绍了e-ViL和e-SNLI-VE。e-ViL是可解释的视觉语言任务的基准，建立了一个统一的评估框架，并提供了第一个全面的比较现有的方法，生成VL任务的NLE。它跨越四个模型和三个数据集，自动度量和人工评估都用于评估模型生成的解释。e-SNLI-VE是目前拥有NLE的最大的现有VL数据集（超过430 k实例）。我们还提出了一个新模型，该模型结合了UNITER [15]和GPT-2 [38]，前者学习图像和文本的联合嵌入，后者是一种预先训练的语言模型，非常适合文本生成。它在所有数据集上都大大超过了以前的最新技术水平。代码和数据可在这里获得：https://github.com/maximek3/e-ViL。1. 介绍深度学习模型在各种任务中实现了有希望的性能，但本质上通常是黑盒。有几个论点可以使这些模型更易于解释。例如，解释对于建立信任和问责制至关重要，这在医疗保健或自动驾驶汽车等安全关键型应用中尤其重要。它们还可以使我们更好地理解和纠正模型的学习偏差[5]。* 通讯作者：maxime. cs.ox.ac.uk** 现在在Universite 'Paris-Dauphine，PSL和Facebook AI Research工作。视觉任务中的可解释性工作主要集中在图像中的高亮度相关区域，这可以通过显着图[1]或注意力图[47]等工具来我们的工作重点是自然语言解释（NLEs），旨在通过生成的句子解释模型的决策过程除了对外行用户来说易于理解之外，NLE还可以解释更复杂和细粒度的推理，这超出了突出重要图像区域的范围。我们比较了为视觉语言（VL）任务生成NLE的不同模型，即，输入由视觉和文本信息组成的任务，例如视觉问答（VQA）。用于VL任务的NLE（VL-NLE）是一个新兴的领域，并且仅存在很少的数据集。此外，现有的数据集往往相对较小且不具挑战性（例如，VQA-X [37]）或噪声（例如，VQA-E [29]）。VL-NLE字段的另一个限制是当前没有统一的评估框架，即，对于如何评价非线性方程组没有达成共识。NLE很难评估，因为正确的解释在句法形式和语义意义上都可能不同。例如，但是现有的自动自然语言生成（NLG）度量在捕捉这一点上很差。因此，评估NLE的金标准是人评价。过去的工作都使用了不同的方法来进行人类评估，因此不存在客观的比较。在这项工作中，我们提出了五个主要的贡献，以弥补现有工作之间缺乏比较（1）我们提出了e-ViL，VL-NLE任务的第一个基准。e-ViL跨越人类编写的NLE的三个数据集，并且提供了被设计为可重复用于未来工作的统一评估框架。(2)使用e-ViL，我们比较了四个VL-NLE模型。(3)我们介绍了e-SNLI-VE，一个超过430 k实例的数据集，目前最大的VL-NLE数据集。(4)我们引入了一种新的模型，称为e-UG，1245其在所有三个数据集上以大的（且显著的）余量超过了现有技术。(5)我们提供了目前最大的研究自动NLG指标和人类评价NLEs之间的相关性2. 相关工作计算机视觉中的可解释性。在计算机视觉中解释深度学习方法的常见方法显着性和注意力地图指示模型的位置。这可以告诉我们图像的哪些区域在模型的决策过程中最重要。激活向量是理解模型的内部表示的一种方式，例如，通过将其映射到人类已知的概念。然而，这些方法通常只覆盖模型推理的一小部分相反，NLE可以传达高阶推理和描述复杂的概念。例如，在图1中，针对不同概念的突出显示的图像区域或权重将不足以解释答案。此外，已经表明，在某些情况下，数值或视觉解释方法甚至可能会让数据科学家感到困惑[24]，甚至可能会对解释琐碎的模型造成问题[13]。NLE。NLE的首次采用是在图像分类[23]中，并进一步扩展到自动驾驶汽车[26]，VQA [37]和自然语言处理[11]; 39; 9; 6; 27; 35; 28; 12]。VL-NLE中最重要的工作[37; 46; 34]包括在该基准中。VL-NLE数据集。现有的模型学习以监督的方式生成NLE，因此需要训练人类书面解释的集合。除了图像分类数据集ACT-X [37]和CUB [43; 23]和视频数据集BDD-X [26]，目前存在三个具有NLE的VL数据集。首先介绍了VQA-X数据集[37]，并为VQA v2 [4]中的一小部分问题提供了NLE它由33k QA对（28k图像）组成然而，VQA-X中的许多NLE是微不足道的，并且可以在不查看图像的情况下猜测。例如，“因为她正在冲浪板上冲浪”是针对问题“图像中的女人在做什么？”的答案“冲浪”的NLE。“这可以很容易地从答案中猜到，而不需要看图像（更多的例子在图6中给出）。VQA-E [29]是另一个建立在VQA v2之上的数据集然而，它的解释是以自动的方式收集的，并且被Marasovic等人发现质量很低。[34]，其中模型生成的解释获得的人类评估准确度1仅比VQA-E地面实况解释（66.5%）低3%，表明数据集基本上被求解。因此，在我们的基准中不使用最后，VCR数据集[50]1在给定图像和问题的情况下，支持以下解释的百分比预测的答案。问题：如果3给4一瓶酒，会发生什么？答：四个人喝了酒，直到喝醉。GT说明：4是悲伤的，人们在悲伤的时候往往会过度饮酒，过度饮酒会导致喝醉，因为4会一直喝到喝醉。图1：VCR图像需要常识推理，这通常超出了图像的视觉内容。为需要大量常识知识的VQA实例提供了NLE（参见图1）。这些问题具有挑战性，因此答案和NLE都以多项选择的形式给出。我们提出的数据集，e-SNLI-VE，扩展了VL-NLE数据集的范围，并解决了一些先前的限制。它包含超过430k个实例，其解释依赖于图像内容（参见图6中的示例）。我们将在第3节中更详细地描述数据集。评价和比较。评估NLG是一个充满挑战的领域，也是一个研究较多的领域[19]。评估NLE甚至更困难，因为句子不仅在句法形式上不同，而且在语义意义上也不同，例如，一个句子与一个图像相矛盾可能有几个不同的原因。出于这个原因，当前的自动NLG度量，例如BLEU分数[36]，在评估NLE [11]时表现不佳因此，有几部作品使用了人类评估来评估其生成的解释[37;46; 34; 17]。然而，他们都使用不同的评估规则，防止人们能够比较现有的VL-NLE模型。主要区别在于使用的数据集，向注释者提出的问题，评估是绝对的还是基于排名，以及用于计算最终分数的公式。我们从现有的评估方案中选择最佳实践，并为VL-NLE开发一个统一的和可重用的人类评估框架。3. e-SNLI-VE数据集我们介绍了e-SNLI-VE，一个大规模的数据集的视觉-文本蕴涵与NLEs。我们通过合并e-SNLI [11]的解释和SNLI-VE [48]的图像-句子我们使用几个过滤器和手动重新标记步骤来解决1246PP假设：一个男人和一个女人在教堂里。原文：A man andwoman getting married。原始标签：中性描述#2：一个男人和一个女人拿着鲜花在阳光微笑。描述#4：一对幸福的夫妇享受他们的露天婚礼。图2：SNLI中文本前提假设对的原始标签是中性的。然而，通过考虑描述同一图像的替代标题（#2和#4），我们可以推断中性标签是假的。合并这些数据集。手动重新标记验证和测试集。该数据集是公开可用的2。3.1. 校正SNLI-VE在SNLI-VE [48]中，给出了一个图像和一个文本假设，任务是对图像前提和文本假设之间的关系进行分类。可能的标签是蕴涵（如果假设是真的，给定图像）、矛盾（假设是假的，给定图像）或中性（如果没有足够的证据来得出假设是真还是假的结论）。SNLI-VE构建了SNLI [10]数据集，通过用Flickr 30 k图像替换文本前提[49]。这是可能的，因为SNLI中的文本前提是这些图像的标题句子然而，这种替换导致了标签错误，因为图像通常包含比描述它的单个标题更多的信息。特别是对于中性类别，标题可能没有足够的证据来暗示蕴涵或矛盾，但相应的图像有（见图2）。在手动评估的535个样本的子集上，我们发现中性标签的错误率为38.6%。该子集将在下文中用于评估我们的过滤器的有效性据报道，蕴涵和矛盾的错误率低于1% [48]，因此我们只关注纠正中性实例。在验证和测试集中，我们使用Amazon MechanicalTurk（MTurk）重新标记了中性示例为了确保高质量的注释，我们使用了一系列的质量控制措施，如在浏览器检查，插入可信的例子，并收集每个实例三个注释。总的来说，39%的中性标签被改为蕴涵或矛盾。标签分布从均匀2https://github.com/maximek3/e-ViL确认和测试集的Ent/Neut/Cont分别为39%/20%/41%和39%/21%/40%。对于训练集，我们提出了一种自动重新移动假中性的方法。我们发现，每张图片附带的五个标题通常会提供线索，说明标签是否确实是中性的。对于每个图像-假设对i，我们在每个字幕-假设对pi，c上运行自然语言推理模型mnli，其中c是字幕之一。如果图像-假设对i的原始标签是中性的，则c_m_nl_i（p_i，c）以高置信度指示标签不是中性的，我们认为标签不正确并且从数据集中移除实例。图2中示出了示例。对于mnli，我们使用在MNLI数据集[44]上训练的Roberta-large [33]。实例在以下情况下被删除cmnli（pi，c）e超过2。0表示蕴涵类和contradition类。在我们的535个样本子集上，该过滤器将中性标签的误差从39%降低到24%。当根据验证集上的重新标记进行验证时，误差从39%降低到30%。3.2. 为SNLI-VE为了创建e-SNLI-VE，我们从e-SNLI [11]中获得解释，其用人类编写的NLE扩展SNLI。然而，e-SNLI中的解释是针对文本前提-假设对而定制的，因此并不总是很好地适合于图像-假设对。在简单地合并两个数据集后，我们发现最初分别有36%、22%和42%的解释是低质量（不正确）、中等质量（正确，但有一个明显更好的选择）和高质量（正确和相关）我们提出了几个步骤来检测和删除低质量和中等质量的解释过滤器的设计是为了确保精确度和召回率之间的最佳权衡（用于标记错误的解释），并限制最终数据集保持合理的平衡。重新注释。首先，我们将验证和测试集中的中性对的解释替换为新的解释，这些解释通过MTurk收集，同时我们为这些子集收集新的标签。为了提交图像-句子对的注释，工作人员必须选择一个标签，突出假设中的单词，并在解释中使用至少一半关键字过滤器。接下来，我们使用关键字过滤来检测参考文本前提的语言特征的我们手动定义的关键字是“同义词”、“提及”、“改写”、“句子”、“表达方式”和“另一个关键字过滤器删除了所有实例的4.6%，我们的535个样本子集表明，所有过滤的解释确实质量很低。相似性过滤器我们注意到，低质量解释的比例在蕴涵示例中最高。当文本的前提和假设几乎相同时，这种情况经常发生，因为这样的解释经常只是重复1247火车验证测试图像-假设对数量（图像数量）401，717（29，783）一万四千三百三十九（千）一万四千七百四十（千）标签分布（C/N/E，%）36.0/ 31.3 /32.639.4/ 24.0 /36.638.8/ 25.8 /35.4平均假设长度（中位数）7.4（7）7.3（7）7.4（7）平均解释长度（中位数）12.4（11）13.3（12）13.3（12）表1：e-SNLI-VE汇总统计量。C、N和E分别代表矛盾、中性和蕴涵两个声明。为了克服这一点，我们删除了文本前提和假设之间的ROUGE-1得分（句子相似性的度量[31]）高于的所有示例0.57. 这使低质量的蕴涵解释的比例降低了4.2%。不确定性过滤器最后，我们发现，具有高不确定性的图像-假设对与对矛盾的低质量解释相关我们将不确定性定义为针对五个图像字幕的分数与m_nl_i（pi，c）的偏差mnli是与上述相同的Roberta-大型模型。该过滤器将矛盾示例的低质量解释的份额减少了5.1%。最终的e-SNLI-VE数据集统计显示在表1中。表2中提供了外部注释者对e-SNLI-VE的额外评价以及与现有VL-NLE数据集的比较。结果表明，e-SNLI-VE地面实况解释的质量与人类注释的VQA-X和VCR数据集相差不远。定性示例和我们的过滤方法的更详细的概要在附录B中。4. e-ViL基准在本节中，我们将介绍VL-NLE任务，描述如何在e-ViL中评估解释，并描述我们的基准测试中涵盖的数据集。4.1. 任务制定我们将解决VL任务的模块表示为MT，其将视觉信息V和文本信息L作为输入。其目标是完成任务T，其中结果是a，即，MT（V，L）=a。VL任务的示例是VQA，其中V是图像，L是问题，并且T是提供该问题的答案a的任务。我们VQA-X VQA-X [37]包含VQA v2数据集[21]中问题子集的图像-问题对被分成分别具有29.5k、1.5k和2k实例的train、dev和test。任务T被公式化为3，129个不同类别的多标签分类任务。一个问题可以有多个可能的答案。录像机。视觉常识推理（VCR）是一个VL数据集，它询问有关电影图像的多项选择（单一答案）问题[50]。除了四个答案选项外，它还提供了四个NLE选项，其中一个是正确的。对于我们提出的VL-NLE任务的目的，我们重新制定它作为一个解释生成任务。由于VCR的测试集不是公开可用的，我们将原始训练集分成训练集和开发集，并使用原始验证集作为测试集。拆分的大小分别为191.6k、21.3k和26.5k数据集的人类评价。在我们的基准实验（第5节）中，人类注释者评估所有三个数据集的地面实况解释。对于每个数据集，300个示例由12个注释器评估，得到3，600个评估。表2中的结果显示e-SNLI- VE接近于手动注释的数据集VCR和VQA-X（82.8%的解释为是或弱是，相对于VQA-X，82.8%的解释为是或弱是）。87.9%和91.4%）。除了使用有效但不完美的自动过滤器之外，噪声份额较高的另一种解释是棘手性（在100个人类重新注释的中性示例中，我们发现17%有缺陷，与表2中的（弱）否的份额相同）和模糊性（当我们中的三个人为一组100个图像假设对选择标签时，我们只有完全同意在54%的示例中）在e-SNLI-VE任务中固有。通过需要NLE的附加任务E来e证明V和L如何导致a，由模块ME（V，L）=e求解。最终模型 M 则由 MT 和 ME 组成。因此， M=（MT，ME）且M（V，L）=a，e。4.2. 数据集我们的基准测试使用以下三个数据集，它们的大小和域各不相同。附录中的图6显示了示例e-SNLI-VE。我们提出的e-SNLI-VE数据集已在第3节中描述。否弱否弱是是e-SNLI-VE 百分之十点三6.9%百分之二十七点七55.1%VQA-X4.1%百分之四点五百分之二十五点一百分之六十六点三VCR6.9%百分之五点二百分之三十六点六百分之五十一点三表2：e-ViL中使用的三个数据集的地面实况解释的人1248类评价所问的问题是：12494.3. 评价评估分数。我们分别为MT、ME和M定义单独的评估分数ST、SE和SO。ST是由原始VL任务T定义的度量，例如，e-SNLI-VE和VCR的标签准确度，以及VQA-X的VQA准确度。我们将SE定义为答案a被正确预测的示例根据以前的工作[37; 46; 34]，我们现在假设一个简化的场景，当一个解释证明一个不正确的答案时，它总是错误的。解释分数可以是任何自定义的人工或自动度量。由于用于评估NLE的当前自动化NLG度量的限制，我们开发了用于计算SE的人类评估框架，在下面的段落中概述。最后，我们希望SO总结模型在任务T和E上的性能，以给出整体性能的VL-NLE模型M.我们定义SO=ST SE，它等于所有解释的得分的平均值，但是如果其相关答案被错误预测，则我们将解释的得分设置为0这也可以被视为解释得分SE乘以任务性能（在大多数情况下，准确性）的系数我们引入这种措施是为了避免给那些纯粹为了生成一些好的解释而优化的模型带来优势，而忽略了任务本身。人的评价框架。我们在MTurk上收集人类注释，我们要求注释者分两步进行。首先，他们必须解决任务T，即，给出问题的答案a。这确保了注释者首先考虑问题，并使我们能够在浏览器中进行如果他们不正确地回答了VL任务T，则我们忽略他们的注释。对于每一种解释，我们都会问他们一个简单的评估问题：“给定图像和问题/假设，解释是否证明答案是正确的？”。我们跟随Marasovic等人。[34]在提供四种答复选择时：是，弱是，弱否，否。我们映射是，弱是，弱否，而分别对数字分数1、2、1和0表示否VCR，所有电影都在样本中表示。请注意，不可能在完全相同的实例上评估所有模型，因为它们并不都正确地回答相同的问题。由于两个原因，采用所有模型都正确回答的示例子集是不利的。首先，这会降低基准的可重用性，因为将来的方法可能无法正确回答相同的问题其次，这会使数据集偏向于最弱模型正确回答的问题然而，为了仍然最大化样本之间的重叠，我们随机打乱了测试集中的所有实例，然后对于每个模型，我们首先选择答案正确的300个。我们提出了一些措施，以进一步确保框架的鲁棒性和可重用性。为了说明注释者的主观性，我们通过三个不同的注释者来评估每个实例。每个解释的最终得分由所有评价的平均值给出。此外，我们一次评估一个模型，以避免模型之间的潜在锚定效应（例如，注释者更有利地评估一个模型，因为它们受到来自不同模型的不良解释的影响为了隐式地诱导一致的锚定效应，注释器评估地面实况解释（其对于模型是不变的）和由模型针对每个图像-问题对生成的解释两者。他们不知道哪个是哪个，也不被要求比较它们。这隐含地确保了所有评估具有相同的锚点（地面实况），并且它允许我们以不同的方式计算SE，如附录E.4. 总的来说，超过200个注释者被用于基准测试，他们都必须在MTurk上有98%的预先接受率。最后，我们用附录E.3中的统计检验来支持我们的结果。有关MTurk评估的更多详细信息和屏幕截图，请参见附录E。为了提高可重用性，我们公开发布了基准测试3中使用的问卷。5. 实验评价5.1. 模型3 3我们还要求注释者选择解释的主要缺点（如果有的话）。我们观察到三个主要的解释限制。首先，他们无法充分证明答案性。例如，句子第二，解释可能不正确地描述图像，例如，如果模型学习了没有锚定在图像中但是图像实际上可以显示狗冲浪。最后，句子可以是无意义的，如“一个人不能是一个对于每个模型-数据集对，我们选择300个数据点的随机样本，其中模型正确回答了问题。每个样本只包含唯一的图像。为现有的VL-NLE模型遵循一个通用的高级结构（图3）。首先，VL模型学习图像和语言输入的联合表示并预测答案。然后，本研究中的模型将问题、图像、它们的联合表征和答案的不同组合作为解释的条件PJ-X [37]、FME [46]和RVT [34]的详细信息见附录C及其各自的论文。e-微克Marasovic等[34]生成令人信服的解释，但在测试的各种MT模块中，包括复杂的视觉推理模型，当使用对象标签作为唯一的图像信息时，它获得了最好的解释精度。我们通过提出e-UG模型来解决这一限制3https://github.com/maximek3/e-ViL1250多模态特征向量任务应答VL模型解释发生器图片+问题解释(a) VL模型的高级结构。PJ-XFMERVTe-UG视觉语言模型解释生成器++++(b) 我们评估的模型的组件。图3：我们的基准测试中包含的模型的高级架构。通过将GPT-2与UNITER [15]（一种功能强大的基于变压器的VL模型）相结合，可以实现更强的图像调节。UNITER的输出是单词标记和图像区域在图像-文本对中的单词嵌入是通过将它们标记成词块并添加它们的位置嵌入来实现的。通过使用Faster R-CNN [40]提取区域的视觉特征并对其位置特征进行编码来嵌入图像UNITER在对许多下游任务进行微调时实现了SOTA对于e-UG，我们利用这些上下文化的嵌入来调节GPT-2对图像和问题的有效表示。图像区域和问题词的嵌入被简单地前置到文本问题和预测答案，然后被馈送到GPT-2。GPT-2是一种仅解码器的架构，它在传统语言建模上进行了预训练，因此非常适合语言生成[38]。我们跟随Marasovic等人。[34]并在推理期间进行贪婪解码。5.2. 培训所有模型都在每个数据集上单独训练。为了确保可比性，PJ-X和FME的图像特征是从在ImageNet上预训练的相同ResNet-101 [22]中获得的，这会产生图像的2048 d特征表示。为了考虑VQA-X的小尺寸，VQAMT模型在VQA v2上针对VQA-X进行预训练，并且针对其他两个数据集从头对于UNITER，我们遵循原始论文[15]中使用的预训练程序。RVT中的对象标签是从在ImageNet和COCO上训练的FasterR-CNN中获得的对于GPT-2，我们使用117 M个参数加载原始GPT-2的预训练权重[38]。对于这项工作中的所有模型，我们实验了联合和单独训练MT和ME更多详情见附录C.2。超参数。通过人工评估来选择超参数是非常昂贵的。相反，我们定义了一组自动NLG指标，用于近似选择最佳超参数。我们将解释的分数定义为BERTScore F1[51] 和 NGRAMScore 的调和平均值，其中我们将NGRAMScore 设置为 n 元 NLG 度量 ROUGE-L [30] 、SPICE [2]、CIDEr [42]和ME的调和平均值。TEOR [8]。我们选择调和平均值，因为它更强调较弱的分数。有关超参数的更多详细信息，请参见附录C.4。5.3. 结果在本节中，我们将重点介绍人工评估结果，它们与自动NLG指标的相关性，以及带有解释的训练对任务T的性能的影响。自动NLG指标的模型性能、e-SNLI-VE的详细结果、人工评估评分的替代计算以及结果的统计分析见附录E。5.3.1人工评价从e-ViL人评价框架获得的解释得分SE显示在表3中。我们的模型e-UG在所有数据集上都优于现有方法，平均SE得分比第二好的模型RVT高5.7分。尽管利用了很少的图像信息，但RVT平均得分高于PJ-X和FME，反映了GPT-2学习生成令人信服的解释的能力生成的解释和地面实况（GT）解释的SE分数之间仍然存在显著的差距对于VQA-X，SE分数总体上更高，表明数据集更容易。在总得分SO方面，e-UG与其他车型之间的差距进一步扩大，因为UNITER达到了GPT-2GPT-2LSTM BLSTM A+++统一者伯特对象标签UpDownResNet-101MCBResNet-1011251整体VQA-X e-SNLI-VE VCRSESOSTSESOSTSESOSTSEPJ-X59.249.976.465.441.269.259.620.639.052.7FME60.147.775.563.243.173.758.528.648.958.5RVT62.846.068.667.142.872.059.436.459.061.8e-UG68.557.680.571.554.879.568.945.569.865.1GT79.3--84.5--76.2--77.3表3：e-ViL基准评分。SO、ST和SE的定义见第4.3节。GT表示每个数据集中的地面实况解释。最佳结果以粗体显示。VL任务的性能高于其他型号的MT模块。在图4中，我们展示了一个示例，其中包含每个模型生成的解释。在本例中，e-UG是唯一能够准确描述图像并证明答案正确的模型。附录中的图5给出了其他示例作为第二个问题，我们要求注释者为每个解释选择缺点（如果有的话）。其结果在表5中给出。最常见的缺点是答案的理由不足。最不常见，约为10%的患病率，解释可能是无意义的（例如， “ 女人就是女人”）。所有的模型都同样难以产生足以证明答案的解释e-UG和PJ-X更擅长生成连贯的句子。e-UG在准确描述图像内容的解释这从经验上证实了我们对图像的增强调节的有效性在数据集层面上，我们看到所有模型最容易提供具有语法意义的解释并证明VQA-X上的答案，从而加强了VQA-X的解释更容易且更不复杂的概念我们的研究结果的统计分析在附录E中给出.5.3.2NLG指标与人类评估的相关性为了更好地理解自动NLG指标在多大程度上能够反映人类对解释的判断，我们计算了不同NLG指标与人类评估分数的斯皮尔曼相关性不同型号的NLG指标见附录E.1。对于每个解释，人工我们总共有3，5664个生成的解释的人类评估分数，这使得它成为目前最大的关于NLG指标与NLE中人类评估相关性的研究。4我们有4个模型，3个数据集，300个例子，因此有3,600个解释。然而，对于其中的34个，所有三个注释者都回答了错误的问题。假设：人们在海边放风筝答案：矛盾人们在放风筝的时候不能骑风筝PJ-X：人们不能同时飞行和飞行FME：人们不能同时走路和放风筝e-UG：人们站在街上时不能放风筝GT解说：施工现场不同于海滩图4：在e-SNLI-VE中的图像-假设对上为每个模型生成的解释。表6中的结果示出BERTScore和ME-TEOR在所有数据集上表现出与人类注释者的显著更高的相关性，达到最大值0.293，这是相对低的相关性。自动度量的可靠性也因数据集而异它们在VQA-X上最高，在VCR上最低这可以解释为，VCR中的解释通常在语义上比VQA-X中的解释更复杂或更具推测性（因此，有更多不同的方式来解释同一件事）值得注意的是，一些n-gram度量，例如BLEU、ROUGE或CIDEr，与人类对VCR的判断没有统计学显著相关性。5.3.3作为学习指导的在任务T和E上联合训练模型可以被视为多任务学习的一种形式[14]。解释通过解释为什么给出答案a来增加任务T的数据点模块M_T（其解决任务T）可以有益于：1252VQA-XSNLI-VEVCR型号MT型号MT仅接头仅MT关节仅MT关节PJ-X MCB [18]不适用N.A.69.769.238.539.0FME上下[3]不适用N.A.71.473.735.748.9e-UG UNITER [15] 80.080.5七九点四七九点五69.369.8表4：任务得分ST的比较（例如，准确度），当模型仅在任务T与当在任务T和E上联合训练时。如果差值大于0.5，则评分加下划线。任何调整，联合训练的任务性能在除了一个模型-数据集组合之外的所有模型-数据集组合中都相等或更好。这些结果表明，解释可能有潜力作为需要额外的实验来进一步验证这一点，并开发更有效地利用解释的方法。6. 总结和展望我们通过引入e-ViL解决了现有VL-NLE方法之间缺乏比较的问题，e-ViL是一个统一的和可重用的基准，我们评估了四种不同的AR。表5：按模型和数据集分列的所生成解释的主要缺陷。人类法官可以为每个解释选择多个缺点。最佳模型结果以粗体显示。度量所有数据集VQA-Xe-SNLI-VEVCRBLEU-10.2220.3960.1230.032BLEU-20.2360.4120.1420.034BLEU-30.2240.3830.1390.039BLEU-40.2160.3730.1390.038流星0.2880.4380.1860.113ROUGE-L0.2380.3990.1310.050苹果酒0.2450.4040.1330.093香料0.2350.4070.1620.116BERTScore0.2930.4310.1890.138BLEURT [41]0.2480.3380.2080.128表6：人类评估与NLE上的自动NLG度量之间的相关性。除斜体值外，所有值的p值均<<0。001。从这个额外的信号。事实上，模型被迫学习图像和问题的表示，从中可以提取答案和解释，这可以提高模型为了验证这一假设，我们比较了仅在任务T上训练的模块MT的任务分数和与ME一起在任务T和E上联合训练的模块M T的任务分数。我们对所有三个数据集上的e-UG以及VCR和e-SNLI-VE上的FME和PJ-X都这样做（因为VQA-X存在更大的预训练数据集）。表4中的结果表明，在没有使用人类法官的架构我们还引入了e-SNLI- VE，这是具有人类书面解释的最大的现有VL数据集。未来的作品可以使用e-ViL基准来比较他们的VL-NLE模型与现有的。此外，我们的相关性研究表明，自动NLG指标与人类判断的相关性较弱在这项工作中，我们还提出了一个新的模型，e-UG，它利用的图像-问题对的上下文嵌入，并实现了国家的最先进的性能在所有数据集上的大幅度。在未来的工作中需要解决的重要问题是解释的忠实性（即，它们忠实地反映了模型推理）以及与人类判断具有更强相关性的自动NLG指标的确认Maxime Kayser、Leonard Salewski和Cornelius Emde分别由Elsevier BV、国际马普智能系统研究院和英国癌症研究所（授权号C2195/A25014）提供支持这项工作部分由ERC（853489-DEXIM）和DFG（2064/1-项目编号390727645）资助。这项工作还得到了艾伦图灵研究所的EPSRC资助EP/N510129/1，AXA研究基金，ESRC资助“解锁人工智能对英国法律的潜力”，EPSRC资助EP/R 013667/1和欧盟TAILOR资助的我们还感谢使用牛津大学的高级研究计算（ARC）设施，EPSRC资助的模型不真实的形象缺乏理由无意义句PJ-X25.0%百分之二十六点四百分之八点九RVT百分之二十点四百分之二十四点二12.0%FME百分之二十一点八百分之二十三点一百分之十三点七e-UG百分之十五点九25.0%百分之七点四1253引用[1] MarcoAncona，EneaCeolini，CengizOüztireli，andMarkusGross.更好地理解深度神经网络的基于梯度的属性方法在第六届国际学习代表会议，ICLR 2018，加拿大不列颠哥伦比亚省范库弗，2018年4月30日至5月3日，会议记录，2018年。[2] Peter Anderson，Basura Fernando，Mark Johnson，andStephen Gould. SPICE：语义命题图像帽评价。欧洲计算机视觉会议论文集。施普林格，2016年。[3] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议论文集，2018。[4] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C.劳伦斯·齐特尼克和德维·帕里克VQA：可视化问答。在2015年国际计算机视觉会议（ICCV）上发表[5] Alejandro Barredo Arrieta ， Natalia D´ıaz-Rodr´ıguez ，Javier Del Ser，Adrien Bennetot，Siham Tabik，AlbertoBarbado，Sal v ador Gar c´ıa，Se r gio Gil-Lo´ pez，DanielMolina ， Richard Benjamins ， et al. 可解释人工智能（XAI）：负责任人工智能的概念、分类、机遇与挑战。信息融合，58，2020。[6] Pepa Atanasova ， Jakob Grue Simonsen ， ChristinaLioma，and Isabelle Augenstein.生成事实检查解释。在计算语言学协会第58届年会的会议记录中，在线，2020年7月计算语言学协会。[7] Jimmy Lei Ba，Jamie Ryan Kiros，Geoffrey E Hinton.层归一化。arXiv预印本arXiv：1607.06450，2016。[8] Satanjeev Banerjee和Alon Lavie。Meteor：一个自动的评估指标，与人类的判断有更好的相关性. ACLWorkshopon Intrinsic and Extrinsic Evaluation Measures for MachineTranslation and/or Summarization，2005。[9] Chandra Bhagavatula 、 Ronan Le Bras 、 ChaitanyaMalaviya 、Keisuke Sakaguchi、Ari Holtzman 、HannahRashkin、Doug Downey、Wen tau Yih和Yejin Choi。溯因推理。在2020年国际学习代表会议上[10] Samuel R. Bowman，Gabor Angeli，Christopher Potts，and Christopher D.曼宁一个用于学习自然语言推理的大型注释语料库。在2015年自然语言处理经验方法会议（EMNLP）的会议中，2015年。[11] 瓦纳玛丽亚卡姆·布鲁TimRockta¨schel，托马斯·卢卡西维茨和菲尔·布朗森e-SNLI：具有自然语言解释的自然语言推理。在神经信息处理系统进展（NeurIPS），2018年。[12] Oana-Maria Camburu 、 Brendan Shillingford 、 PasqualeMinervini、Thomas Lukasiewicz和Phil Blunsom。快下决心！不一致自然语言解释的对抗生成。在计算语言学协会（ACL）年会的会议记录中，2020年7月。[13] Oana-Maria Camburu 、 Eleonora Giunchiglia 、 JakobFoerster、Thomas Lukasiewicz和Phil Blunsom。基于特征的解释的斗争：Shapley值与最小充分子集。在AAAI人工智能可解释机构研讨会上，2021年。[14] 瑞奇· 卡鲁阿纳多任务学习。 Machine Learning ，28（1），1997.[15] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， andJingjing Liu.Uniter：通用图像-文本表示学习。欧洲计算机视觉会议论文集。Springer，2020年。[16] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：用于语言理解的深度双向变换器的预训练。在计算语言学协会北美分会2019年会议论文集中：人类语言技术，第1卷（长论文和短论文），2019年。[17] Radhika Dua、Sai Srinivas Kancheti和Vineeth N.巴拉-萨勃拉曼尼亚。超越VQA：为视觉问题生成多词答案和理由arXiv：2010.12852，2020年10月。[18] Akira Fukui ， Dong Huk Park ， Daylen Yang ， AnnaRohrbach，Trevor Darrell，and Marcus Rohrbach.多模态紧凑双线性池化视觉问答和视觉接地。在2016年自然语言处理中的Em-p

下载后可阅读完整内容，剩余1页未读，立即下载