通过人类重要性感知网络调整（HINT）改善视觉基础：视觉和语言模型的解释提升

197 浏览量更新于2023-10-16 收藏 14.12MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

input models rely on when making decisions.Applica-tion of these techniques has shown that vision-and-languagemodels often focus on seemingly irrelevant image regionsthat differ signiﬁcantly from where human subjects ﬁxatewhen asked to perform the same tasks [7, 26] – e.g. focusingon a produce stand rather than the bananas in our example.While somewhat dissatisfying, these ﬁndings are not en-tirely surprising – after all, standard training protocols donot provide any guidance for visual grounding.Instead,models are trained on input-output pairs and must resolvegrounding from co-occurrences – a challenging task, espe-cially in the presence of more direct and easier to learn cor-relations in language. Consider our previous example ques-tion, the words ‘color’, ‘banana’, and ‘yellow’ are given asdiscrete tokens that will trivially match in every occurrencewhen these underlying concepts are referenced. In contrast,actually grounding this question requires dealing with all vi-sual variations of bananas and learning the common featureof things described as ‘yellow’. To address this, we exploreif giving a small hint in the form of human attention demon-strations can help improve grounding and reliability.For the dominant paradigm of vision-and-language mod-els that compute an explicit question-guided attention overimage regions [28, 33, 14, 35, 20, 3], a seemingly straight-125910借助解释提升视觉和语言模型的基础性0Ramprasaath R. Selvaraju 1 Stefan Lee 1 , 4 Yilin Shen 2 Hongxia Jin 20Shalini Ghosh 2 Larry Heck 2 Dhruv Batra 1 , 3 Devi Parikh 1 , 301 佐治亚理工学院，2 三星研究，3 Facebook AI研究，4 俄勒冈州立大学0{ ramprs, steflee, dbatra, parikh } @gatech.edu0{ yilin.shen, hongxia.jin, shalini.ghosh, larry.h } @samsung.com0摘要0许多视觉和语言模型在视觉基础上表现不佳-通常依赖于易学的语言先验，而不是基于图像中的视觉概念做出决策。在这项工作中，我们提出了一种通用方法，称为人类重要性感知网络调整（HINT），它有效地利用人类演示来改善视觉基础。HINT鼓励深度网络对与人类相同的输入区域敏感。我们的方法优化了人类注意力图与基于梯度的网络重要性之间的对齐-确保模型在进行预测时不仅仅是观察，而是依赖于人类认为与任务相关的视觉概念。我们将HINT应用于视觉问答和图像字幕任务，在仅使用6％的训练数据的情况下，优于对语言先验过度依赖的顶级方法（VQA-CP和鲁棒字幕）使用人类注意力演示。01. 引言0许多流行且表现良好的多模态视觉和语言任务模型在视觉基础上表现不佳-未能适当地将单词或短语与它们所指代的图像区域关联起来，而是依赖于表面上的语言相关性[2, 1, 39, 11,13]。例如，无论图像中香蕉的成熟程度如何，回答问题“香蕉是什么颜色？”都会回答黄色。当面临惩罚依赖此类偏见的数据集时[2,11]，尽管模型必须推理的视觉和语言概念集合没有变化，但最先进的模型的性能显著下降。除了这些诊断性数据集外，另一类观察这种缺陷的强大工具是基于梯度的解释技术[30, 38, 29,25]，它允许研究人员检查模型在做出决策时依赖于哪些部分的输入。应用这些技术表明，视觉和语言模型通常关注似乎不相关的图像区域，这些区域与人类主体在执行相同任务时注视的区域明显不同[7,26]，例如，关注的是一个产品展台而不是我们示例中的香蕉。虽然这些发现有些令人不满意，但并不完全令人意外-毕竟，标准的训练协议不提供任何关于视觉基础的指导。相反，模型是根据输入-输出对进行训练，并且必须通过共现关系来解决基础问题-这是一项具有挑战性的任务，特别是在语言中存在更直接和更容易学习的相关性的情况下。考虑我们之前的例子问题，单词“颜色”、“香蕉”和“黄色”被视为离散的标记，在每次出现时这些潜在概念都会轻松匹配。相比之下，实际上基于视觉将这个问题与所有香蕉的视觉变化和“黄色”描述的共同特征联系起来是需要处理的。为了解决这个问题，我们探索了是否可以通过人类注意力演示的形式给出一个小提示来改善基础和可靠性。对于计算显式问题引导的注意力的视觉和语言模型的主导范式[28, 33, 14, 35, 20, 3]，一个看似直接的0图1：我们的方法HINT将预训练模型输出决策的视觉解释与人类标注者认为重要的空间输入区域对齐-迫使模型基于这些相同的区域做出决策，并减少模型的偏见。225920前向解决方案是提供明确的基础监督-训练模型以关注适当的图像区域。尽管之前的工作[22,17]表明这种方法会导致更符合人类注意力图的结果，但我们的实验表明它在减少语言偏见方面是无效的。关键是，注意机制是自底向上的过程，将最终的分类模型所需的信息提供给模型，因此即使在关注适当的区域时，模型也可能忽视视觉内容而偏向语言偏见。为此，我们引入了一种通用的二阶方法，将基于梯度的解释与人类注意力对齐。我们的方法称为人类重要性感知网络调整（HINT），通过梯度-梯度步骤更新模型参数，强制在输入重要性的人类注释和深度网络生成的基于梯度的解释之间进行排序损失。重要的是，这限制了模型不仅要查看正确的区域，还要在进行预测时对其中的内容敏感。虽然我们在视觉和语言问题的背景下尝试了HINT，但这种方法本身是通用的，可以应用于任何情境中的模型决策。我们将HINT应用于两个任务-视觉问答（VQA）[5]和图像字幕[15]，发现我们的方法显著改善了视觉定位。在仅对训练集的6％进行人类重要性监督的情况下，我们的HINT模型在具有挑战性的VQA Under ChangingPriors（VQA-CP）[2]数据集上将最先进的水平提高了8个百分点，该数据集旨在测试视觉定位。在VQA和图像字幕中，我们看到了HINT训练模型的人类注意力和视觉解释之间的显着改善的相关性，表明模型学会了使用与人类类似的证据进行决策（即使在新的图像上）。我们进行了人类研究，结果显示人们认为使用HINT训练的模型更合理和可信赖。0贡献。总结我们的贡献，我们：•引入了人类重要性感知网络调整（HINT），这是一种通用方法，用于限制深度网络对特定输入区域的敏感性，并证明它显著改善了两个视觉和语言任务的视觉定位；•在偏见敏感的VQA UnderChangingPriors（VQA-CP）数据集[2]上取得了新的最先进水平；•进行了研究，表明人们认为使用HINT的模型比标准模型更可信赖。02. 相关工作0模型可解释性。近年来，构建透明且可解释的机器学习模型在决策过程中引起了广泛关注。对于深度网络，有几种方法提出了基于网络内部状态的解释[37, 12, 40, 26]。0与我们的工作最相关的是Selvaraju等人的方法[26]，该方法将神经元重要性作为视觉解释的一部分进行计算。在这项工作中，我们强调这些重要性分数与领域专家提供的重要性一致。0视觉和语言任务。图像字幕[16]和视觉问答（VQA）[5]已成为最广泛研究的两个视觉和语言问题。图像字幕任务要求生成关于图像内容的自然语言描述，而VQA任务要求回答关于图像的自由形式问题。在这两个任务中，模型必须学会将图像内容与自然的自由形式文本相关联。因此，基于注意力的模型成为了主导范式[28, 33, 14, 35, 20,3]，这些模型明确地推理图像-文本对应关系；然而，越来越多的证据表明，即使这些注意力模型仍然依赖于语言偏见[2,39,4]。最近，Agrawal等人[2]在VQA任务中引入了一种新颖的偏见敏感数据集划分。这个划分称为VQA Under ChangingPriors（VQA-CP），它的构建方式使得训练集和测试集之间的答案分布有显著差异。因此，在训练中记忆语言关联而不是真正将答案与图像内容联系起来的模型在测试集上表现不佳。Lu等人[20]还在COCO图像字幕数据集[16]上引入了一个鲁棒的字幕划分，其中共现对象的分布在训练集和测试集之间有显著差异。我们使用这些数据集划分来评估我们的方法对视觉定位的影响。0消除视觉和语言模型的偏见。最近的一些研究旨在减少视觉和语言模型中的语言偏见的影响。Hendricks等人[4]研究了图像字幕中性别特定词语的生成 -结果显示，无论图像内容如何，模型几乎总是将男性性别词与进行极限运动（如滑雪板）的人相关联。他们提出的Equalizer方法鼓励模型根据存在的证据调整其置信度 -当性别证据可见时置信，当性别证据被地面真值分割掩码遮挡时不确定。对包含人物的一组字幕的实验表明，这种方法减少了性别偏见。对于VQA，Agrawal等人[2]开发了一个基于场景的VQA模型（GVQA），它将视觉和语言组件分离 -包括单独的视觉概念和答案聚类器。该方法使用问题的类型（例如“什么颜色...”）确定可能答案的空间，并使用问题的目标（例如“香蕉”）检测场景中的视觉属性，然后通过可能的答案集进行过滤。虽然有效，但这需要多阶段的训练，并且很难扩展到新模型。Ramakrishnan等人[23]引入了一种对抗模型不可知的正则化技术，以减少VQA模型中的偏见 - 将模型与仅包含问题的对手进行对抗。Edi (r)= 1arar�(i,j)/∈rAdijsdk =Edi (k)Edi (k) + Edo(k)(1)325930VQA的人工注意力。Das等人[7]为VQA数据集的一个子集收集了人工注意力图[5]。给定一个问题和一张模糊的图像，人们被要求交互式地去模糊图像中的区域，直到他们能够自信地回答问题。在这项工作中，我们利用这些地图，通过强制梯度基础的视觉解释与人工注意力紧密匹配来实现模型决策。0监督模型注意力。Liu等人[17]和Qiao等人[22]分别对模型生成的图像字幕和VQA的注意力图进行人工注意力监督。我们尝试了类似的方法，但发现改进的注意力相关性并不能减少对语言偏见的依赖 -即使有适当的模型注意力，剩余的网络层仍然可以在强偏见存在的情况下忽略视觉信号。我们还展示了梯度解释对模型决策更加忠实，通过直接将模型决策与输入区域相关联，从而确保模型基于人工关注的区域进行决策。0对齐基于梯度的重要性。Selvaraju等人[24]提出了一种方法，通过学习深度网络中个别神经元的基于梯度的重要性与人类的类别特定领域知识之间的映射，为新类别学习分类器。相比之下，我们将基于梯度的重要性与人工注意力图对齐，以改善网络的基础。03. 准备工作0虽然我们的方法是通用的和模型不可知的，但在这项工作中，我们将最近的Bottom-upTop-down架构[3]作为基础模型。许多工作[34, 9, 36, 32,18, 35,19]使用Top-down注意力机制来帮助细粒度和多阶段推理，这对于视觉和语言任务非常重要。Anderson等人[3]提出了一种变体的传统注意力机制，它不是关注卷积特征，而是显示关注对象和其他显著的图像区域在VQA和字幕生成性能方面带来了显著的改进。我们简要描述了这个架构，详细信息请参见[3]。0Bottom-Up Top-Down Attention for VQA.如图2左半部分所示，给定一张图像，Bottom-upTop-down(UpDown)注意力模型将最多k个图像特征作为输入，每个特征编码一个显著的图像区域。这些区域和它们的特征是从Faster-RCNN [10]中提取的建议。问题使用GRU[6]进行编码，并使用问题嵌入计算每个建议特征上的软注意力。最终的汇聚注意力特征与问题特征结合，使用几个全连接层预测答案。0Bottom-Up Top-Down Attention for Image Captioning.图像字幕模型由两个长短期记忆（LSTM）网络组成 - 注意力LSTM和语言LSTM。0长短期记忆（LSTM）网络 -注意力LSTM和语言LSTM。第一个LSTM层是一个自顶向下的视觉注意模型，每个时间步的输入由语言LSTM的先前隐藏状态、与均值池化的自下而上提案特征（类似于上述）和先前生成的单词的编码组成。注意力LSTM的输出对提案特征进行软注意。第二个LSTM是一个语言生成LSTM，其输入为注意力LSTM的输出与注意力LSTM的输出连接。语言LSTM为下一个时间步的词汇表提供一个分布。04. 人类重要性感知网络调整0在本节中，我们描述了我们训练深度网络依赖于与人类相同的区域的方法，我们称之为人类重要性感知网络调整（HINT）。简而言之，HINT通过基于梯度的解释来估计输入区域的重要性，并调整网络参数以使其与人类认为重要的区域对齐。我们使用通用术语“预测”来指代VQA中的答案以及图像字幕中每个时间步骤生成的单词。4.1.人类重要性在这一步中，我们将从人类注意力图中获得的专家知识与网络输入对应的形式进行对齐。Bottom-upTop-down模型[ 3]以区域提案作为输入。对于给定的实例，我们根据提案框内的归一化人类注意力图能量与框外的归一化能量，为每个提案计算一个重要性得分。更具体地说，考虑一个表示输出 d的空间支持区域的人类重要性图 A d ∈ R h × w，其中高值 A d [ i, j ] 表示在位置 (i,j) 对 d的支持较高。给定一个面积为 a r 的提案区域 r，我们可以将决策 d 的内部和外部在 r中的归一化重要性表示为0( i,j ) ∈ r A d ij 并且 E d o ( r)= 10分别计算提案 k 的决策 d 的整体重要性得分：0VQA和字幕的人类注意力。对于VQA，我们使用Das等人[8 ]收集的人类注意力图，用于VQA [ 5]数据集的一个子集。HAT图可用于40554个图像-问题对，即VQA数据集的约6%。虽然图像字幕没有人类注意力图，但COCO数据集中存在。0对于VQA，这些映射在给定图像的不同问题之间会有所变化。αrgt =(2)L =�(r′,r)∈S(r′,r)∈S425940图2：我们的人类重要性感知网络调整（HINT）方法：给定一张图像和一个问题，如“他打了球吗？”，我们将它们通过左侧所示的自下而上自上而下架构传递。对于所示的示例，模型错误地回答“否”。我们通过基于梯度的重要性度量确定对于地面真实答案“是”重要的提案。我们通过人类注意力对提案进行排序，并提供一个排序损失以使网络的重要性与人类重要性对齐。通过HINT调整模型不仅可以正确回答问题，还可以关注正确的区域，如右图所示。0[ 15 ]对80个日常发生的类别进行了分割注释。我们使用了一个将细粒度标签（如[“child”，“man”，“woman”，...]）与对象类别（如）相连的单词到对象的映射，类似于[ 20]。我们将COCO标题中存在的830个视觉单词映射到80个COCO类别。然后，我们使用这80个类别的分割注释作为匹配单词的人类注意力。为了与VQA设置保持一致，我们只使用了6%的分割注释。04.2.网络重要性我们将网络重要性定义为给定训练网络在进行特定预测时对输入的空间区域的重要性。Selvaraju等人[26]提出了一种计算最后一个卷积层神经元重要性的方法。在他们的工作中，他们专注于最后一个卷积层神经元，因为它们在高级语义和详细空间信息之间提供了最佳的折中。由于提案通常关注对象和显著/语义感兴趣区域，并提供良好的空间分辨率，我们扩展了[26]以计算提案的重要性。为了获得提案r对于正确决策的重要性α rgt，我们将地面真实输出（VQA中的答案和字幕中的视觉词）ogt的分数进行one-hot编码，并计算其相对于提案特征的梯度，如下所示：0全局池化��| P 0∂o gt ∂P r i��通过反向传播计算梯度0请注意，我们计算的是对于正确决策的重要性，而不是预测的重要性。不可用于错误决策的人类注意力是概念上不合适的，因为很难定义错误预测的正确“证据”是什么。04.3.人类-网络重要性对齐在这个阶段，我们现在有了两组重要性分数 -一组是从人类注意力中计算出来的，另一组是从网络重要性中计算出来的 -我们希望对齐这两组分数。每组分数在自身内部进行了校准；然而，绝对值在两者之间不可比较，因为人类重要性位于[0,1]之间，而网络重要性是无界的。因此，我们专注于提案的相对排序，应用一种排序损失 -具体来说，是加权近似排名成对（WARP）损失的变体。0排序损失。在高层次上，我们的排序损失搜索所有可能的提案对，并找到那些基于网络重要性的逐对排序与基于人类重要性的排序不一致的对。设S为所有这些排序错误的对的集合。对于S中的每对，损失会根据提案对的网络重要性分数的绝对差异进行更新。0α r ′ − − α r + �� (3)0其中，r和r'是提案，其基于神经元重要性的顺序与人类重要性不一致，+表示提案r相对于r'根据人类重要性更重要。0任务重要性。为了保持基本任务的性能，有必要包括原始任务损失λL T ask -VQA中的交叉熵和图像字幕中的负对数似然。为了在两者之间进行权衡，我们引入一个乘数λ，使最终的HINT损失变为：0L HIN T = �0α r ′ − − α r + λL T ask (4)0第一项鼓励网络基于正确的区域进行预测，第二项鼓励网络进行正确的预测。525950请注意，网络的重要性α是得分相对于提案嵌入的梯度。因此，它们是网络的所有中间参数的函数，从模型的注意力层权重到最终的全连接层权重。因此，通过给定的损失在（4）中进行优化算法（梯度下降或Adam）的更新需要计算二阶梯度，并且会影响所有网络参数。我们使用具有此功能的PyTorch [21]。05. 实验和分析0在本节中，我们将对我们的方法在VQA和图像字幕上的实验评估进行描述。0VQA。对于VQA，我们在标准的VQA分割和VQA-CP[2]分割上进行评估。回顾第2节中的VQA-CP是VQAv2[11]的重组，旨在使训练集中的答案分布与测试集中的答案分布显著不同。例如，对于“什么运动...”问题，在训练中最受欢迎的答案可能是“网球”，而在测试中可能是“排球”。如果没有适当的视觉基础，训练在这个数据集上的模型将在测试分布上表现不佳。实际上，[2]和[23]报告了在这个具有挑战性的、对语言偏见敏感的分割上，最先进的VQA模型的性能显著下降。对于我们的实验，我们在相应的训练分割上预训练我们的Bottom-UpTop-Down模型，然后用HINT损失进行微调。回顾我们的方法包括任务损失；我们在实验中使用λvqa =10。在[27]中可以找到变化λvqa和提议数量的敏感性分析。我们将我们的方法与强基线和现有方法进行比较，具体包括：•基本模型（UpDn）我们将其与没有我们的HINT损失的基本Bottom-upTop-down模型进行比较。•注意力对齐（Attn.Align.）我们用注意力监督替换梯度监督，其他所有内容保持不变。Bottom-upTop-down模型使用对对象提议的软注意力-基本上根据与问题相关性预测一组对象提议的注意力分数。这些注意力分数非常类似于我们在HINT中计算的网络重要性；然而，它们只是在注意力预测之前的网络的函数。我们在这些注意力权重和根据公式（1）计算的人类重要性之间应用HINT排序损失。•基于视觉基础的VQA（GVQA）。正如第2节中讨论的，[2]引入了一种基于视觉基础的VQA模型，明确地解开了视觉和语言组件，并与VQA-CP数据集一起开发。•对抗正则化（AdvReg）。[23]引入了一种对抗正则化器，通过明确修改问题表示来减少VQA中的语言偏见，以欺骗仅针对问题的对手模型。0图像字幕。对于字幕，我们在标准的'Karpathy'分割和Lu等人在[20]中引入的稳健字幕分割上进行评估。稳健分割在训练和测试之间具有不同的共现对象分布。我们在各自的训练分割上预训练我们的Bottom-upTop-down字幕模型，并应用我们的HINT方法。注意，HINT损失仅应用于我们在第4.1节中获得的标题中的830个视觉词的时间步骤。05.1.HINT用于视觉问答表1显示了我们的模型和先前工作在VQA-CP测试和VQAv2验证集上的结果。我们总结了关键结果：0HINT减少了语言偏见。对于VQA-CP，我们的HINTedUpDown模型在整体准确性上相比其基本架构提高了7个百分点。此外，它在基于相同UpDn架构的现有方法上表现出色（AdvReg为41.17，HINT为46.73），为这个问题设定了一个新的最先进技术。我们确实注意到，我们的方法在训练图像的6%中使用了人类注意力地图的额外监督。0HINT提高了视觉基础，而不降低标准VQA的性能。与先前的减少语言偏见的方法不同，这些方法在VQA和VQA-CP分割之间的性能存在折衷[23, 2]，我们发现我们的HINTedUpDn模型实际上在标准VQA上有所改进-使HINT成为首个在标准和组合分割上同时改进的方法。0Attn.Align相比HINT无效。这项工作的一个令人惊讶（至少对我们来说）的发现和激励观察是，直接监督模型的注意力（如Attn.Align）在减少语言偏见和改善视觉基础（通过VQA-CP测量）方面是无效的，这引发了一个问题-为什么我们的梯度监督在注意力监督失败的情况下取得成功？我们认为这是由于基于梯度的解释与所有网络参数的函数不同，而不是与注意力对齐，并且比模型注意力更忠实于模型决策。正如我们之前讨论的，注意力是一种自下而上的计算，监督它不能直接影响后续的网络层，而我们的HINT方法可以。为了评估忠实度，我们进行了类似于[25,37]中的遮挡研究。我们测量了在对图像的不同提议特征进行遮挡并进行前向传播时，预测答案的模型分数的差异，并将这个差值作为每个提议的重要性分数。我们发现模型注意力和基于遮挡的重要性之间的等级相关性仅为0.10，而梯度-based重要性为0.48-证明了我们的论断，即模型注意力只与模型实际达到决策的方式松散相关。因此，注意力对齐只需要模型预测类似于人类的625960(a)0标志的颜色是什么？真实答案：红色和白色0HINT之前 HINT之后0Grad-CAM对“红色和白色”的预测：红色0Grad-CAM对“红色和白色”的预测：红色和白色0(b)0预测：否预测：是0这是一个友好的旅游区吗？真实答案：是 Grad-CAM对“是”的预测Grad-CAM对“是”的预测：否预测：是0(d)图3：在应用HINT之前和之后在验证集上模型的定性比较。对于每个示例，左列显示了输入图像以及问题和来自VQA-CP验证集的真实答案（GT）。中间列中，对于基础模型，我们显示了GT答案的解释可视化以及模型的答案。类似地，我们在第三列中显示了HINTed模型的解释和预测答案。我们可以看到HINTed模型看到了更合适的区域并且回答更准确。例如，对于（a）中的示例，基础模型只看到了男孩，而在应用HINT之后，它看到了男孩和滑板，以回答“是”。在应用HINT之后，模型还将其答案从“否”更改为“是”。更多定性示例可以在[27]中找到。0模型 VQA-CP 测试 VQAv2 验证0整体是/否数字其他整体是/否数字其他0SAN [35] 24.96 38.35 11.14 21.74 52.41 70.06 39.28 47.84 UpDn [3] 39.49 45.21 11.96 42.98 62.85 80.89 42.7854.440GVQA [2]† 31.30 57.99 13.68 22.14 48.24 72.03 31.17 34.650UpDn + Attn. Align 39.37 43.02 11.89 45.00 63.24 80.99 42.55 55.22 UpDn + AdvReg [23]† 41.17 65.49 15.4835.48 62.75 79.84 42.35 55.16 UpDn + HINT（我们的方法） 46.73 67.27 10.61 45.88 63.38 81.18 42.99 55.560表1：组合（VQA-CP）和标准分割（VQAv2）上的结果。我们可以看到我们的方法（HINT）在VQA-CP上比基础的UpDn模型提高了7%以上，在VQAv2上获得了轻微的增益。Attn.Align基线在VQAv2上也看到了类似的增益，但未能改善VQA-CP上的定位。请注意，在VQAv2上，我们在HINT微调过程中甚至对没有人类注意力注释的样本也应用了VQA交叉熵损失。†结做决策时关注它们。另一方面，HINT将基于梯度的重要性与模型得到一个正确的模型。0变化的人类注意力监督的数量。0右侧的图表显示了VQA-CP不同数量的人类注意力地图的性能。请注意，x轴从没有HINT监督到在训练过程中使用所有人类注意力地图，这相当于VQAv2数据的6%。请注意，使用人类注意力监督，我们的方法在性能上取得了5%的提升。0仅使用VQA数据集的1.5%的人类注意力监督，我们的方法在性能上取得了5%的提升。0定性示例。图3显示了应用HINT到自下而上自上而下的VQA模型的效果的定性示例。图3(b)显示了一张图片和一个问题，“标志的颜色是什么？”，基础模型回答“红色”，部分正确，但未能正确地确定答案。HINT模型不仅正确回答“红色和白色”，还看到了红色的停车标志和白色的街道标志。05.2. 图像字幕的HINT我们在Pytorch[21]中实现了自下而上自上而下的字幕模型，标准分割上的CIDEr[31]得分为1.06，鲁棒分割上为0.90。在基于HINT的基础模型上应用后，我们的方法在鲁棒分割上的得分提高到了(a)(b)(c)(d)725970一把叉子，一个橙子，一个苹果和一个洋葱的近景0苹果0橙子0HINT之前 HINT之后0叉子叉子0苹果0橙子0一只“小”狗躺在床上，旁边是一台笔记本电脑0狗狗0床床0笔记本电脑笔记本电脑0HINT之前 HINT之后0图4：在应用HINT之前和之后，对验证集上的字幕模型进行定性比较。对于每个示例，左列显示了输入图像以及来自COCO鲁棒集的真实字幕。中间列，对于基准模型，我们展示了所提到的视觉词的解释可视化。类似地，我们在第三列展示了HINTed模型的解释。我们可以看到HINTed模型观察到更合适的区域。例如，在(a)中，请注意HINTed模型在生成相应的视觉词时如何正确定位叉子、苹果和橙子，而基准模型则无法做到。有趣的是，模型甚至能够定位到猫的阴影！更多定性示例可以在[27]中找到。0在鲁棒集上，我们获得了0.92的CIDEr分数，比基准模型提高了0.02。对于在标准集上训练的模型，CIDEr分数下降了0.02（从1.06降至1.04）。正如我们在接下来的章节中所展示的，分数的缺乏改进并不意味着没有变化-我们发现模型在定位方面有显著改进，我们在第6节中进行了评估。请注意，我们的字幕设置不需要任务特定的人类注意力，而是允许我们直接利用为不同任务（图像分割）收集的现有注释。0定性示例。图4显示了HINTed模型在定位性能方面的显著改进。例如，图4(a)展示了使用HINT训练的模型如何同时定位0同时改进了3个视觉词在真实字幕中的定位。我们看到HINT还有助于使模型专注于单个对象出现，而不是使用上下文，如图4(c, d, e, f)所示。06. 评估定位0在第5.1节和第5.2节中，我们评估了HINT对任务性能的影响，通过对鲁棒数据集划分的泛化作为定位的间接评估。在本节中，我们直接评估了经过HINT调整的模型的定位能力。6.1.与人类注意力的相关性为了评估应用HINT之前和之后模型的定位能力，我们将地面真实决策的网络重要性（如方程（2）中所示）与人类注意力（如方程（1）中计算）进行比较References[1] Aishwarya Agrawal, Dhruv Batra, and Devi Parikh. Ana-lyzing the behavior of visual question answering models. In825980在'浴室'内，'镜子'上有一个'大钟'面0在生成单词时：钟0钟钟0图5：用于评估基准字幕模型和我们的HINTed模型的AMT界面。在人类信任方面，HINTed模型优于基准模型。0基准模型和经过HINT微调的模型。然后，我们计算VQA-CP和COCO鲁棒测试集中图像的网络重要性分数与人类重要性分数之间的等级相关性。我们报告基准模型和HINTed模型之间的斯皮尔曼等级相关性。0对于在VQA-v2上训练的模型，我们发现基准模型的基于Grad-CAM的注意力与人类注意力图的斯皮尔曼等级相关性为-0.007[8]。请注意，等级相关性的范围是-1到1，因此接近0表示没有相关性。我们发现HINTed模型的相关性为0.18。0图像字幕。对于在COCO鲁棒分割上训练的模型，基础模型的基于Grad-CAM的注意力与COCO分割地图的视觉单词的秩相关性为0.008，而经过HINT处理的模型的相关性为0.17。这种秩相关性测量与基于秩的HINT损失的意图相匹配，但这个结果表明，在训练期间学习的视觉基础泛化到了新的图像和语言环境中，比基线模型更好。07. 评估信任0在前一节中，我们评估了当HINT模型被强制进行预测时，是否与人类关注相同的区域。在建立了这一点之后，我们转向了解这种改进的基础是否能够提高人类对HINT模型的信任。我们将重点研究图像字幕模型。我们进行了人类研究，评估基于两个模型（基础模型和通过HINT改进的模型）的个体预测解释，人类是否认为其中一个模型更值得信赖。为了区分基于模型的准确性和可视化的模型的基础之间的影响，我们只可视化与两个模型的真实字幕相对应的预测。对于给定的真实字幕，我们向研究参与者展示一个真实视觉单词的网络重要性解释以及整个字幕。然后，要求工作者评估模型的合理性相对于其他模型的合理性，评分范围为5分Likert量表，包括明显更合理（+/-2），稍微更合理（+/-1）和完全相同（0）。该界面如图5所示。为了消除任何偏见，基础模型和HINTed模型被分配为“模型1”，概率相等。总共有42名亚马逊机械土耳其（AMT）工作者参与了这项研究，共产生了1000个回答（对应200个图像对的5个注释）。在49.9%的情况下，参与者更喜欢HINT，而只有33.1%的人更喜欢基础模型。这些结果表明，HINT有助于模型关注适当的区域，从而使模型更值得信赖。0在一个5分Likert量表上，将两个模型的合理性进行评分，包括明显更合理（+/-2），稍微更合理（+/-1）和完全相同（0）。该界面如图5所示。为了消除任何偏见，基础模型和HINTed模型被分配为“模型1”，概率相等。总共有42名亚马逊机械土耳其（AMT）工作者参与了这项研究，共产生了1000个回答（对应200个图像对的5个注释）。在49.9%的情况下，参与者更喜欢HINT，而只有33.1%的人更喜欢基础模型。这些结果表明，HINT有助于模型关注适当的区域，从而使模型更值得信赖。08. HINT是否也改善了模型的注意力？0虽然HINT操作的是答案梯度图，但我们发现它也改善了前馈模型的注意力。对于VQA，我们计算了UpDn在VQA-CP上训练的模型的最高得分建议框与Park等人2018年的人类注意力地图的IoU。在应用HINT之前，UpDn的IoU为0.57，而应用HINT后，我们获得了0.63的IoU。我们进行了人类研究（类似于第7节），根据模型的注意力评估信任。我们对100个随机抽样的图像-问题对收集了10个回答。31%的受访者认为HINTedVQA-CP模型更值得信赖，而只有16.5%的人认为基础模型更值得信赖。这不是我们方法的主要目标，但对于前馈注意力来说，这是一个有希望的结果！09. 结论0我们提出了人类重要性感知网络调整（HINT），这是一种将网络敏感性与人类认为与任务相关的空间输入区域对齐的通用框架。我们证明了这种方法在视觉和语言任务（如VQA和图像字幕）中改善了视觉基础。我们还表明，更好的基础不仅提高了模型对不断变化的测试分布的泛化能力，还提高了模型的可信度。从更广泛的视角来看，将网络梯度规范化以实现所需的计算属性（在我们的情况下是基础）的想法可能适用于视觉和语言之外的问题，使用户能够向网络提供有针对性的反馈。0致谢。乔治亚理工学院的工作部分得到了NSF、AFRL、DARPA、ONR YIPs、三星GRO、AROPECASE的支持。本文中所包含的观点和结论仅代表作者本人，不应被解释为美国政府或任何赞助商的官方政策或认可，无论是明示还是暗示。EMNLP, 2016. 1[2] Aishwarya Agrawal, Dhruv Batra, Devi Parikh, and Anirud-dha Kembhavi. Dont just assume; look and answer: Over-coming priors for visual question answering. In IEEE Con-ference on Computer Vision and Pattern Recognition, 2018.1, 2, 5, 6[3] Peter Anderson, Xiaodong He, Chris Buehler, DamienTeney, Mark Johnson, Stephen Gould, and Lei Zhang.Bottom-up and top-down attention for image captioning andvisual question answering. In CVPR, 2018. 1, 2, 3, 6[4] Lisa Anne Hendricks, Kaylee Burns, Kate Saenko, TrevorDarrell, and Anna Rohrbach. Women also snowboard: Over-coming bias in captioning models. 2018. 2[5] Stanislaw Antol, Ai

下载后可阅读完整内容，剩余1页未读，立即下载