VQA-E：视觉问题解释描述与增强

16 浏览量更新于2023-10-13 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

VQA-E：解释，阐述和增强视觉问题李庆1、陶庆义2、3、沙菲克·乔蒂2、蔡建飞2、罗杰波41中国科学技术大学、2南洋理工大学、3NVIDIA AI技术中心，4罗切斯特大学抽象。现有的视觉问答（VQA）研究大多致力于提高预测答案的准确性，而忽视了解释。我们认为，答案的解释是相同的，甚至更重要的答案本身相比，因为它使问题的回答过程更容易理解和追踪。为此，我们提出了一个新的任务VQA-E（VQA与解释），其中的模型需要生成一个解释与预测的答案。我们首先构建一个新的数据集，然后在多任务学习架构中构建VQA-E问题我们的VQA-E数据集是通过智能地利用可用的字幕从VQA v2数据集自动派生的我们还进行了用户研究，以验证合成的解释的质量。我们定量地表明，额外的监督，从解释不仅可以产生有见地的文本句子，以证明答案，但也提高了答案预测的性能。我们的模型在VQA v2数据集上的表现明显优于最先进的方法。关键词：可视化提问，解释1介绍近年来，计算机视觉和自然语言处理领域的研究人员对视觉问答（VQA）进行了广泛研究[2，34，8，27，31，11]。大多数现有的工作进行VQA利用注意机制和组合的特征，从两个模态预测答案。尽管已经报道了有希望的性能，但人类在没有任何解释的情况下真正理解模型决策仍然存在巨大差距。解释预测答案的一种流行方法是将注意力地图可视化，以指示被关注的区域被指向以将预测的答案追溯到图像内容。然而，通过注意力可视化的视觉理由是隐含的，它不能完全揭示模型从关注区域捕捉到什么来回答问题。可能有许多情况下，模型关注正确的区域，但预测错误和错误。然而，VQA技术的潜在用户通常不能访问VQA技术的潜在用户即通常受损的因此，在本文中，我们打算探索文本解释，以弥补这些弱点的视觉注意在VQA。2Qing Li，Qingyi Tao，Shafiq Joty，Jianfei Cai，andJiebo Luo图1.一、与传统的VQA任务相比，VQA-E提供了有见地的信息，可以解释，阐述或增强预测的答案Q=问题，A=答案，E=解释。（左）从答案中，没有办法追溯到相应的视觉内容来告诉酒店的名字。解释清楚地指出了在哪里寻找答案。（中）解释对所问的方面提供了真实的答案。（Right）该词中的“a ny t h i n g”指的是与所述特定信息保持一致该软件由本x图中的“madonnashirt”所示文本解释的另一个重要优势是，它用更多相关信息来阐述和增强预测的答案。如图1，文本解释可以是证明答案的线索，或者是阐述问题和答案的上下文的补充描述，或者是关于QA中提到的抽象概念的详细说明，以增强简短答案。这样的文本解释对于有效的沟通是重要的，因为它们提供反馈，使提问者能够扩展对话。不幸的是，尽管文本解释对于模型解释和自然环境中的有效沟通都是需要的，但在这方面几乎没有取得进展，部分原因是几乎所有的公共数据集，如VQA[2，8]，COCO-QA [22]和Visual 7 W [34]，都没有为注释的答案提供解释。在这项工作中，我们的目标是通过引入一个新的任务，称为VQA-E（VQA与解释），以解决现有的VQA系统的上述限制在VQA-E中，模型需要为预测的答案提供文本解释。我们的研究分两步进行。首先，为了促进这一领域的研究，我们构建了一个新的数据集，其中包含对答案的文本解释。VQA-E数据集是从流行的VQA v2数据集[8]通过合成每个图像-问题-答案三元组的解释自动导出的VQA v2数据集是最大的VQA数据集之一，拥有超过650k个问答对，更重要的是，数据集中的每个图像都与MSCOCO字幕中的五个描述相结合[4]。尽管这些标题是在没有考虑问题的情况下编写的，但它们确实包括一些QA相关信息，因此利用这些标题可以是免费获得解释的良好起点我们进一步探索了几种简单但有效的技术来合成-VQA-E3根据标题和相关的问题-答案对调整解释的大小。为了减轻对综合解释质量的担忧，我们进行了一项全面的用户研究，以评估随机选择的解释子集。用户研究结果表明，对于大多数问答对，解释质量良好，而对于要求主观回答或需要常识（语用知识）的问题，解释质量稍显不足。总的来说，我们相信新创建的数据集足以作为拟议的VQA-E任务的基准。为了展示文本解释学习的优势，我们还提出了一种新的VQA-E模型，它解决了多任务学习架构中的答案预测和解释生成我们的数据集使我们能够训练和评估VQA-E模型，该模型通过生成文本解释来证明和详细说明它，从而超越了简短的答案通过大量的实验，我们发现解释的额外监督可以帮助模型更好地定位重要的图像区域，从而提高答案预测的准确性我们的VQA-E模型优于VQAv2数据集中最先进的方法。2相关工作视觉问答中的注意力。注意机制首先被用于机器翻译[3]，然后被引入视觉到语言任务[29，32，28，31，18，15，19，33，10，9，30]。视觉语言时代的视觉注意力被用来克服“什么是好的“的问题[ 25 ]。在VQA中，问题被用作查询以搜索图像中的相关区域。[31]提出了一种层叠式注意力模型，通过对图像进行多次查询，逐步推断出答案。除了视觉注意之外，Lu等人。 [18]利用分层问题图像共同注意策略来关注图像中的相关区域和问题中的关键词。[19]提出了双注意网络，通过多个推理步骤细化视觉和文本注意。注意机制可以发现问题相关区域图像，这可以在一定程度上解释答案。[6]研究了视觉注意力与人类凝视的一致性。结果表明，在回答问题时，当前基于注意力的模型似乎并不像人类那样“看”图像的相同区域。虽然注意力是一个很好的视觉解释的答案，它是无法访问的视障人士，在现实世界中的应用程序是有限的。模型与解释最近，已经完成了许多工作[14，20，17]来解释深度学习模型的决策，由于端到端的训练过程，这些模型通常是[14]提出了一种新的鸟类分类解释模型然而，它们的类相关性度量不适用于VQA，因为对于问题和答案没有预定义的语义类别。因此，我们构建了一个参考数据集来直接训练和评估VQA模型并进行解释。最相似的作品4Qing Li，Qingyi Tao，Shafiq Joty，Jianfei Cai，andJiebo Luo我我我图二.将问题（Q）、答案（A）和相关标题（C）融合成解释（E）的流水线的示例。每个问题-答案对被转换成陈述（S）。语句和最相关的标题都被解析到选区树中。这两棵树然后通过公共节点对齐。将语句中包含公共节点的子树合并到标题树中以获得解释。我们的是Multimodal Explanations[20]，它为VQA提出了一个多模态相比之下，我们的数据集专注于文本解释，并且是免费构建的，并且是其六倍以上（269，786 vs.1817.第1817章比你的3VQA-E数据集我们现在介绍我们的VQA-E数据集。我们首先描述了从图像描述中合成解释的过程，然后是数据集分析和用户研究，以评估我们的数据集的质量3.1解释合成Approach. 第一步是找到与问题和答案最相关的标题给定图像标题C、问题Q和答案A，我们将它们标记化并编码成GloVe词嵌入[21]：w Tc}，W q={w1，…，Wa={w1，…其中，Tc、Tq、Ta分别是标题、问题和答案中的单词的数量。我们计算标题和问答对之间的相似度如下：1s（wi，wj）=21wTwj（1+）（1a）||w i||·||W J||ΣS（Q，C）= Tqw∈WMaxwj∈Wc s（wi，wj）（1b）S（A，C）=1ΣMaxs（wi，wj）（1c）Taw∈W wj∈WcS（Q，A，C）=1（S（Q，C）+S（A，C））（1d）<2Q一VQA-E5图三.上图：相似度分数分布。底部：不同相似性水平的VQA-E示例的图示。对于每个问题-答案对，我们找到最相关的标题，再加上相似性得分。我们已经尝试了其他更复杂的技术，如使用术语频率和逆文档频率来调整不同单词的权重，但我们在等式中找到了这个简单的均值-最大值公式(1)效果更好。为了生成一个好的解释，我们打算融合来自问题-答案对和最相关的标题的信息。首先，问题和答案被合并成一个陈述性语句。我们通过基于问题类型和答案类型设计简单的合并规则来实现这一点。类似的基于规则的方法已经在NLP中进行了探索，以从说明性语句[13]（即，相反的方向）。然后，我们通过对齐和合并它们的选区解析树将这个QA我们通过语法检查和校正工具进一步细化组合句子以获得最终解释，并使用等式计算其与问答对的相似度1.我们的管道的一个例子如图所示。二、相似性分布由于问题的大小和多样性，以及每个图像的标题来源有限，不能保证可以为每个问答生成良好的从数据集中移除具有低相似度分数的解释以减少噪声。我们在图中给出了一些例子3.第三章。它显示了一个逐步改善的解释质量时，相似性分数增加。通过一些实证研究，我们选择了0.6的相似性阈值来过滤掉那些嘈杂的解释。我们还绘制了图中的相似性得分直方图3.第三章。有趣的是，我们在0.6处观察到一个明显的低谷，使得解释被这个阈值很好地分开。6Qing Li，Qingyi Tao，Shafiq Joty，Jianfei Cai，andJiebo Luo700006000050000400003000020000100000好的解释坏的解释图4.第一章不同问题类型的综合解释分布表1.VQA-E数据集的统计数据数据集分裂图像数量#Q A#E#唯一 Q #唯一一 #唯一E火车72,680181,298181,29877,4189,491115,560VQA-EVal35,64588,48888,48842,0556,24756,916总108,325269,786269,786108,87212,450171,659火车82,783443,7570151,69322,5310VQA-v2 Val40,504214,354081,43614,0080总123,287658,1110215,07629,33203.2数据集分析在本节中，我们将分析我们的VQA-E数据集，特别是自动合成的解释。在原始VQA v2数据集中的658，111个现有问答对中，我们的有关数据集的更多统计数据见表1。我们在图中绘制了每种问题类型4.第一章在研究不同的问题类型时，相关解释的百分比年龄因类型而异。抽象问题与具体问题。观察到，对于 “i s /are” 和 “what'quesitonsthan' ow '”，“why' and 'o 'quesitons'，”relevantexplanat 1 on的百分比相对较高。这些问题通常与更可能由图像字幕描述的特定视觉内容相关。此外，更具体的问题类型可以在执行计划中实现这一点。对于扩增、问题和答案，我们分别为90%和87%的问题和答案对选择了完整的通用答案。对这些类型的问题有好的解释的比率远远高于一般的“wh at”问题（40%）。在那里有吗有吗这些有吗他们可以吗你可以你做这个做这个多少多少有多少人是他是它a是是男人是人是女人在那里有没有a是这个是这个是a这是一个是这个人以上都不是就是什么动物是什么品牌什么颜色什么颜色的是什么什么是什么是在什么是在什么是是什么颜色什么是男人什么是名字什么是人什么是女人这是什么什么样的什么号码是什么房间是什么运动是什么时间什么类型在哪里在哪里这是为什么为什么VQA-E7图五.主观示例：我们的方法不能处理涉及情感感觉（左）、常识知识（中）或行为推理（右）的问题。主观问题：Do you/can？现有的VQA数据集涉及一些需要主观感觉、逻辑思维或行为推理的问题。这些问题通常属于以下问题类型：以“hd o y ou”、“c an y ou”、“d o”、“c ou l d”和“c e t c”开头的问题。对于这些问题，图像内容可能是潜在的线索，但证据通常是不透明和间接的，因此很难综合出一个很好的解释。我们在图中举例说明了这些问题。 5并且所生成的解释通常不足以提供关于问题和答案的相关细节。由于在处理上述情况下的不足，我们只能实现这些问题类型的良好解释的小百分比。“doyou”、“canyou”、“do 'and”coul d“四个词的使用率分别为4%、5%、13%和6%，远低于41%的平均水平3.3数据集评估- 用户研究使用定量指标来评估综合解释是否能为视觉问题的答案提供有效的、相关的和补充的信息并不容易。因此，我们进行了一项用户研究，从人类的角度评估具体而言，我们从四个方面来衡量口译质量：流利性、正确性、相关性和互补性。Fluent测量解释的流畅性一个流利的解释应该是语法正确，用词地道。正确度量指示根据图像内容的解释是否正确相关度量评估解释与问题和答案对的相关性。如果解释是相关的，用户应该能够从解释中推断出答案。该度量对于衡量所提出的词嵌入相似度是否可以有效地选择和过滤解释是重要的。通过用户研究，我们从人类的理解来评估解释的相关性，以验证合成的解释是否与其相应的QA对紧密联系在一起。最后但并非最不重要的是，我们评估一个解释是否与答案互补重要的是，解释可以支持--8Qing Li，Qingyi Tao，Shafiq Joty，Jianfei Cai，andJiebo Luo表2.针对合成的解释、最相似的字幕、随机字幕和生成的解释的用户评估结果。为了避免偏差，它们被联合评估，并且在每个样本中，它们的顺序被打乱并且不为用户所知。它们由人类评估者以1-5个等级进行评估：1-非常差，2-差，3-勉强可接受，4-好，5-非常好。这里我们展示了2,000个问题的平均得分综合解释4.894.784.234.14最相似标题4.974.912.722.87随机标题4.934.921.912.12生成的解释（QI-AE）3.893.673.243.11提供对缩写答案的补充细节，以便可以增强答案和图像之间的视觉评价结果总结。我们在表中显示了人工评估结果。二、由于合成的解释是从现有的人类注释字幕中获得的更重要的是，它们的相关性和互补性得分都在4分以上，这表明从人的角度看，解释的总体质量是好的。这两个指标区分了图像的一般标题和我们专用于视觉问答对的特定解释。4多任务VQA-E模型见图6。多任务VQA-E网络概述。首先，图像由预训练的CNN表示，而问题通过单层GRU编码。然后将图像特征和问题特征输入到注意力模块，以获得问题引导区域的图像特征。最后，使用问题特征和关注图像特征来同时预测答案并生成解释。基于构造良好的VQA-E数据集，在本节中，我们介绍了所提出的多任务VQA-E模型。图6给出了我们的模型的概述。给定图像I和问题Q，我们的模型可以同时预测答案A并生成文本解释E。流利正确相关互补VQA-E94.1图像特征我们采用预先训练的卷积神经网络（CNN）来提取输入图像I的高级表示Φ：φ= CNN（I）={v1，…（2）其中vi是第i个图像块的特征向量，P是块的总数。我们用三种类型的图像特征进行实验：– Global. 我们将ResNet-152[12]的最终层（“pol 5”）的输出输出作为图像的全局特征。对于这些图像特征，P= 1，并且视觉注意不适用。– Grid. 我们将ResNet-152的所有层（“re s 5c”）上的最终编码的输出作为图像的特征图，其对应于相等大小的图像块的均匀网格。在这种情况下，P= 7× 7 = 49。– 自下而上[1]提出了一种新的基于图像特征的目标检测技术。他们利用Faster R-CNN来提出显著区域，每个区域都有一个来自ResNet-101的相关特征向量自下而上的图像特征在对象级别上提供了更自然的基础以供考虑注意。在这种情况下，我们选择P4.2问题嵌入问题Q被标记化并编码成词嵌入W，q={w1，…w Tq}。然后将单词嵌入送入门控递归单元[5]：q = GRU（W q）。我们使用GRU的最终状态作为问题的表示。4.3视觉注意我们使用经典的问题引导的软注意力机制类似于最现代的VQA模型。对于图像中的每个块，首先通过非线性层将特征向量vi和问题嵌入q投影到相同的维度。接下来，我们使用Hadamard乘积（即，逐元素乘法）以组合投影表示并输入到线性层以获得与该图像块相关联的标量注意力权重。注意力权重τ在所有补丁上用softmax函数归一化。最后，来自所有块的图像特征通过归一化的注意力权重进行加权，并求和为单个向量V作为关注图像的表示。公式如下，为了简单起见，我们省略了偏差项：τi=wT（Relu（Wv vi）⊙Relu（Wq q））α= softmax（τ）ΣPv=i=1αivi（三）10Qing Li，Qingyi Tao，Shafiq Joty，Jianfei Cai，andJiebo Luo请注意，我们采用了简单的单一瞥，单向注意，而不是最近的作品[31，16，18]提出的复杂方案接下来，通过非线性层将问题q和图像v的表示投影到相同维度，然后通过Hadamard乘积进行融合h= Relu（Wqh q）⊙Relu（Wvh v）（4）其中h是问题和图像的联合表示，然后被馈送到后续模块以用于答案预测和解释生成。4.4答案预测我们将答案预测任务制定为多标签回归问题，而不是许多其他作品中的单标签分类问题。从训练集中出现超过8次的所有正确答案中预先确定候选答案的集合。这导致N= 3129个候选答案。数据集中的每个问题都有K= 10个人工注释的答案，这些答案有时并不相同，特别是当问题是模糊的或主观的并且有多个正确或同义的答案时。为了充分利用注释器之间的不一致，我们采用软精度作为回归目标。每个答案的准确度计算如下：1万美元（a=a）准确度（a）=Kk=1iin（1≤j≤K，j=k，j，1）（5）3这样的软目标为训练提供了更多的信息，并且也符合评估度量。联合表示h被输入到非线性层中，然后通过线性映射来预测每个答案候选的分数：s=sigmoid（WoRelu（Wfh））（6）sigmoid函数将分数压缩为（0，1）作为答案候选的概率。我们的损失函数类似于使用软目标时的二进制交叉熵损失：ΣMΣNLvqa=−sijlogsij+（1−sij）log（1−sij）（7）i=1j =1其中M是训练样本的数量，并且s是在等式5中计算的软目标这最后一步可以看作是预测每个候选答案正确性的回归层4.5解释生成为了生成解释，我们采用基于LSTM的语言模型，该模型将联合表示h作为输入。根据地面实况的解释VQA-E11E={w1，w2，…w Te}，损失函数为：Lvqe= − log（p（E|（h））ΣTe（八）=−log（p（w t|h，w1，…wt−1））t=0多任务学习的最终损失是VQA和VQE损失的总和L=Lvqa+Lvqe（9）5实验和结果5.1实验装置模型设置。我们使用300维词嵌入，用预训练的GloVe向量初始化[21]。对于问题嵌入，我们使用具有1024个隐藏单元的单层GRU。对于解释生成，我们使用具有1024个隐藏单元的单层前向LSTM。问题嵌入和解释生成共享词嵌入矩阵以减少参数的数量。我们使用Adamsolver，固定学习率为0.01，批量大小为512。我们使用权重归一化[24]来加速训练。丢弃和提前停止（15个时期）用于减少过拟合。型号变体。我们使用以下模型变体进行实验– Q-E：仅从问题生成解释。– I-E：仅从图像生成解释。– QI-E：从问题和图像生成解释，只训练解释生成分支。– QI-A：从问题和图像预测答案，只训练答案预测分支。– QI-AE：预测答案和生成解释，训练两个分支。– QI-AE（相关）：预测答案和生成解释并训练这两个分支。该变体中使用的解释是在第3.1节中的解释合成过程中获得的相关帽。– QI-AE（随机）：预测答案并生成解释并训练两个分支。解释是从同一图像的地面实况字幕中随机选择的，除了相关的字幕。5.2解释生成的评价在本节中，我们将评估解释生成的任务表. 图3显示了所有模型变体在VQA-E数据集的验证分割上的性能。首先，I-E模型优于Q-E。这意味着仅从图像比仅从问题更容易生成解释，并且该图像12Qing Li，Qingyi Tao，Shafiq Joty，Jianfei Cai，andJiebo Luo表3.在所提出的VQA-E数据集的验证分割上执行解释生成任务，其中B-N、M、R和C是BLEU-N、METEOR、ROUGE-L和CIDEr-D的缩写所有评分均以百分比（%）报告。型号图片特点B-1 B-2 B-3 B-4 M C RQ-E-26.8010.904.201.807.9813.4224.90I-E全球32.5017.209.305.2012.3848.5829.79全球34.7019.3011.006.5014.0761.5531.87QI-E网格36.3021.1012.507.6015.5073.7034.00底向上38.0022.6013.808.6016.5784.0734.92全球35.1019.7011.306.7014.4064.6232.39QI-AE网格38.3022.9014.008.8016.8587.0435.16底向上39.30 23.90 14.80 9.40 17.37 93.08 36.33偏差与VQA中众所周知的语言偏差相反，在VQA中，仅从问题预测答案比仅从图像预测答案更其次，QI-E模型的表现远远优于I-E和Q-E，这意味着问题和图像对于产生良好的解释都至关重要。注意机制有助于提高识别性能，自下而上的图像特征始终优于网格图像特征。最后，使用自下而上的图像特征的QI-AE进一步提高了性能，并在所有评估指标中实现了最佳性能这表明，答案侧的监督有助于解释生成任务，从而证明了我们的多任务学习方案的有效性。5.3答案预测在本节中，我们将评估答案预测任务，如表所示4.第一章总体而言，QI-AE模型在所有问题类型中的表现始终优于QI-A模型。这表明，强迫模型解释可以帮助它预测更准确的答案。我们认为，QI-AE模型中的解释监督可以缓解QI-A模型中令人头痛的语言偏见问题，因为为了产生好的解释，模型必须充分利用图像内容，学会关注重要区域，并在问题的背景下明确地解释关注区域相比之下，在没有解释的QI-A模型的训练期间，当可以从问题本身猜测答案时，模型可以通过仅理解问题而不考虑图像内容来轻松地将损失降至零在这种情况下，没有充分利用训练样本来帮助模型学习如何关注重要区域。桌子上的另一个观察4、可以进一步支持我们的论点。对解释的额外监督对基于注意力的模型（网格和自下而上）产生了比没有注意力的模型（全局）更大的改进。QI-AE（随机）-自底向上产生比QI-AE-自底向上低得多的准确度，甚至比QI-A-自底向上低。这意味着低质量或VQA-E13表4. 在VQA v2数据集的验证分割上执行答案预测任务以百分比（%）报告准确度。模型图像特征所有是/否Number其他全球57.2677.1939.7346.74QI-A网格59.2576.3139.9951.38底向上61.7878.6341.3052.54全球57.9278.0140.4647.25QI-AE网格60.5778.3539.3652.66底向上63.5180.8543.0254.16QI-AE（随机）自下而上58.7478.7540.7948.26QI-AE（相关）自下而上62.1879.0241.0753.26表5.在VQA v2数据集的测试标准分割上与最先进的VQA方法进行性能比较BUTD-ensemble是一个由30个模型组成的集合，它不会参与排名。以百分比（%）报告准确度。方法所有是/否Number其他前[8]25.9861.200.361.17仅语言版[8]44.2667.0131.5527.37d-LSTM+n-I [8]54.2273.4635.1841.83MCB [7，8]62.2778.8238.2853.36BUTD [26，1]65.6782.2043.9056.26BUTD-ensemble [26，1] 70.34 86.60 48.64 61.15我们的：QI-AE-Bottom-up 66.31 83.22 43.58 56.79不相关的解释可能会混淆模型，从而导致性能的大幅下降。它还减轻了人们的担忧，即改善是通过学习描述图像而不是解释答案带来的这进一步证实了解释附加监督的有效性。表. 5介绍了我们的方法的性能和最先进的方法上的测试标准VQAv2数据集的分裂。我们的方法在总体准确度上优于传统方法的“是/否”和“否”，同时产生比传统方法的“Numb”稍低的准确度[ 26，1]。5.4定性分析在本节中，我们将展示定性示例来证明我们的多任务VQA-E模型的强度，如图7所示总体而言，QI-AE模型可以为预测的答案生成相关和互补的解释。例如，在图1的（a）中，7，QI-AE模型不仅预测了正确的答案'Yes'，而且还提供了更准确的答案'Kitchen'，即. 例如，'fr i d ge '，' s i n k '，and d 'cab i n et s '. 此外，QI-AE模型可以将这些影响因素本地化。14Qing Li，Qingyi Tao，Shafiq Joty，Jianfei Cai，andJiebo Luo见图7。QI-A和QI-AE模型之间的定性比较（均使用自下而上的图像特征）。我们通过在具有最大注意力权重的区域上渲染红色框来可视化注意力。比QI-A模型更好。如图（b）所示。7、QI-AE模型对工件的加工精度有很大的影响，并能保证工件的加工精度，而QI-A模型对工件的加工精度要求更高。在（c）中，b〇tQI-AE和QI-E模型关注正确的区域，但是这两个模型预测相反的答案。这种有趣的对比意味着，必须充分利用图像内容来生成解释的QI-AE模型可以比仅需要预测简短答案的QI-A模型更好地理解关注区域。6结论和未来工作在这项工作中，我们构建了一个新的数据集，并提出了一个任务的VQA-E，以促进研究证明答案的视觉问题。在我们的数据集的解释是高质量的那些视觉特定的问题，而不足以主观的证据是间接的。对于主观性问题，我们将需要额外的知识库来为它们找到好的解释我们还提出了一种新的多任务学习架构的VQA-E任务。来自解释的额外监督不仅使我们的模型能够生成理由来证明预测的答案，而且还带来了答案预测准确性的大幅我们的VQA-E模型能够更好地定位和理解图像中的重要区域比原来的VQA模型。在未来，我们将采用更先进的方法来训练我们的模型，例如图像字幕中的强化学习[23]。鸣谢。我们感谢吴倩怡等。以获得有关用户研究的有用反馈。这项研究得到了 NTU-CoE Grant 和数据科学人工智能研究中心 @NTU（DSAIR）的部分支持Jiebo Luo感谢Adobe和NSF Award #1704309的支持。VQA-E15引用1. Anderson，P.他，X.，比勒角Teney，D. Johnson，M.，Gould，S.，Zhang，L.：自下而上和自上而下关注图像字幕和视觉问答。CVPR（2018）2. Antol，S.，阿格拉瓦尔，A.，卢，J，Mitchell，M.Batra，D.，LawrenceZitnick，C.Parikh，D.：Vqa：可视化问答。In：ICCV（2015）3. Bahdanau，D.，周，K.，Bengio，Y.：通过联合学习对齐和翻译的神经机器翻译。ICLR（2014）4. C hen，X.， Fang，H.，林，T. 是的，我也是，去吧S 做吧，P Zitnick，C. L. ：Microsoft coco captions：数据收集和评估服务器。CoRR（2015）5. C ho，K.， VanMerrr riénboer，B.， Gulceh re，C.， Bahdanau，D. ，Bouga re s，F.， S chenk，H.，Bengio，Y.：使用rnn编码器-解码器学习短语表示用于统计机器翻译。ArXiv预印本arXiv：1406.1078（2014）6. Das，A.，Agrawal，H.，兹尼克湖Parikh，D. Batra，D.：视觉问题回答中的人类注意力：人类和深层网络会看相同的区域吗？ComputerVisio nandImageU nderst andi ng163，907. Fukui，A.，D.H.公园杨，D.，Rohrbach，A.，Darrell，T.，Rohrbach，M.：多模态紧凑双线性池的视觉问题回答和视觉接地。EMNLP（2016）8. Goyal，Y.，Khot，T.，萨默斯-斯特，D. Batra，D.，Parikh，D.：使vqa中的v重要：提升图像理解在视觉问答中的作用CVPR（2017）9. 顾，J.，蔡杰，Wang，G.，陈T：堆栈标题：图像字幕的从粗到精学习。AAAI（2018）10. 顾，J.，Wang，G.，蔡杰，陈T：语言cnn应用于影像字幕之实证研究In：ICCV（2017）11. Gurari，D.，李，Q.，Stangl，A.J.，Guo，A.，Lin，C.格劳曼K.罗，J.，毕汉，J.P.：Vizwiz大挑战：回答盲人的视觉问题CVPR（2018）12. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。见：CVPR（2016）13. Heilman，M.，Smith，N.A.：问得好！问题生成的统计排名。在：人类语言技术：计算语言学协会北美分会2010年年会。pp. 609-617 HLT’10 ，A ss o ci a t i o n fo r C o m u t a t i o n a l L i n g u i s i s i cs ， Stroudsburg ， PA ， USA （ 2010 ），www ·example ·http://dl.acm.org/citation.cfm? 1857999.185808514. 洛杉矶的亨德里克斯 Akata ， Z. ， Rohrbach ， M. ， Donahue ， J. ，Schiele，B.，达雷尔，T.：Generti ngvis ualex pla nati ns.In：ECCV.pp.302TheDog（2016）15. 伊利耶夫斯基岛Yan，S.，Feng，J.：视觉问答的聚焦动态注意模型ECCV（2016）16. Kazemi，V.，Elqursh，A.：显示、提问、出席并回答：视觉问答的强大基线。arXiv预印本arXiv：1704.03162（2017）17. 李，Q.，Fu，J.，Yu，D.，Mei T罗杰：告诉并回答：使用属性和标题实现可解释的可视问答。arXiv预印本arXiv：1801.09041（2018）18. 卢，J，杨杰，Batra，D.，Parikh，D.：层次问题-图像共同关注的视觉系统。 In：NIPS. pp. 28919. Nam，H.，J.W. Kim，J.：用于多模态推理和匹配的双注意力网络。CVPR（2017）16Qing Li，Qingyi Tao，Shafiq Joty，Jianfei Cai，andJiebo Luo20. D.H.公园洛杉矶的亨德里克斯Akata，Z.，Rohrbach，A.，Schiele，B.，Darrell，T.，Rohrbach，M.：多模态解释：为决策辩护并指出证据。来源：CVPR（2018）21. Pennington，J.索赫尔河曼宁，C.：Glove：表示单词的全局向量。 In：EMNLP. pp. 第153222. Ren，M.，基罗斯河Zemel，R.：图片问答：一个可视化语义嵌入模型和一个新的数据集. NIPS 1（2），5（2015）23. Rennie，S.J.，Marcheret，E.，Mroueh，Y.，Ross，J.Goel，V.：图像字幕的自我批判CVPR（2017）24. Salimans，T. Kingma，D.P.：权重归一化：一个简单的重新参数化，以实现对特定工作的精确跟踪。In：NIPS.pp. 90125. Shih，K.J.，辛格，S.，Hoiem，D.：在哪里看：视觉问题的焦点区域。In：ICCV. pp. 461326. Teney，D. Anderson，P.他，X.，Hengel，A.v.d.：可视化问答的提示和技巧：从2017年的挑战中学习。CVPR（2018）27. 吴昆，Shen，C.，刘，L.，迪克，A. van den Hengel，A.：外显的高级概念对语言问题的视觉有见：CVPR（2016）28. 徐，H.，Saenko，K.：提问、出席并回答：探索以问题为导向的空间教学法，以满足用户的需求。 In：ECCV. pp. 451-466 02TheDog（2016）29. 徐，K.，Ba，J.，基罗斯河周，K.，南卡罗来纳州考维尔Salakhutdinov河Zemel，R.S.，Bengio，Y.：显示、出席和讲述：使用vis u alate n的神经图像字幕生成。In：ICML.vol. 第14页。7730. 杨，X.，张洪，Cai，J.：Shuffle-then-assemble：学习与对象无关的视觉关系特征。In：ECCV（2018）31. 杨志，他，X.，高，J.，邓湖Smola，A.：用于信息管理的堆叠式注意力网络。 In：CVPR. pp. 2132. 你Q Jin，H.，王志，方角罗杰：具有语义注意的图像字幕。见：CVPR（2016）33. Yu，D.，Fu，J.，Mei TRui，Y.：多层次注意力网络的视觉问答。在：CVPR（2017）34. Zhu，Y.，格罗斯岛Bernstein，M.李菲菲：Visual 7 w：固定问题和-sweringg inimges。In：CVP R.pp. 4995

下载后可阅读完整内容，剩余1页未读，立即下载