鲁棒视觉问题生成模型及其循环一致性研究

4 浏览量更新于2023-10-19 收藏 1.73MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16649是的没有鲁棒视觉问题生成的循环一致性Meet Shah1，Xinlei Chen1，Marcus Rohrbach1，DeviParikh1，21 Facebook AI Research，2佐治亚理工{meetshah，xinleic，mrf}@ fb.com，dparikh@gatech.edu摘要尽管多年来在视觉问答方面取得了重大进展，但今天的VQA模型的鲁棒性仍有待我们介绍了一个新的评估协议和相关的数据集（VQA-Rephrasings），并表明，国家的最先进的VQA模型是出了名的脆弱的语言变化的问题。VQA-Rephrasings包含3个人工提供的Rephrasings，涉及VQA v2.0验证数据集的40 k个图像的40 k个问题。作为提高VQA模型鲁棒性的一步，我们提出了一个模型不可知的框架，利用周期consideration。具体而言，我们训练模型不仅回答问题，而且还生成以答案为条件的问题，使得针对所生成的问题预测的答案与原始问题的基本事实答案相同在不使用额外注释的情况下，我们表明，当在VQA-Rephrasings数据集上进行评估时，我们的方法比最先进的VQA模型对语言变化更鲁棒。此外，在具有挑战性的VQA v2.0数据集上，我们的方法在标准VQA和可视化问题生成任务上的1. 介绍视觉问题查询（VQA）应用程序允许人类用户向机器询问有关图像的问题-无论是与视觉聊天机器人交互的随着该技术走出策划数据集的领域，走向真实世界的设置，期望VQA模型对输入模态中的合理变化具有鲁棒性和一致性。虽然多年来VQA取得了重大进展[1，17，2，9，19，41，3，4]，但今天VQA是一项位于语言和视觉交叉点的任务。现有的工作已经研究了VQA模型对图像中有意义的语义变化的鲁棒性和敏感性[9]，改变答案分布[2]和对抗性攻击[39]。然而，据我们所知，还没有工作研究的鲁棒性VQA预测香蕉披萨远程纸没有是的图1. 现有的VQA模型是脆弱的。上面显示的是来自我们新的大规模VQA重述数据集的示例，该数据集能够系统地评估VQA模型对输入问题中的语言变化的鲁棒性还显示了由最先进的VQA模型预测的答案[41]。我们看到，对于同一问题的不同合理的重新表述，该模型预测了不同的答案。我们提出了一个新的模型不可知的框架，利用周期的一致性问题的回答和问题的生成，使VQA模型更加强大，与-出使用额外的注释。此外，它在VQA v2.0数据集上的标准VQA和可视化问题生成任务上的性能优于最先进的模型。在输入问题中的语言变化的模型。从VQA作为测试多模态AI能力的基准点的角度来看，这一点很重要（我们的VQA模型在回答问题时真的“理解”了吗？）并且对于应用（人类用户可能以各种不同的语言形式来表达相同的查询然而，今天最1.一、一种使VQA模型更健壮的方法是收集具有不同问题改写的数据集来训练VQA模型。可替代地，不需要额外的人工干预但产生对在自然语言问题中观察到的语言变化鲁棒的VQA模型的自动方法是期望的。我们提出了一个新的模型不可知的框架，依赖于周期一致性学习强大的VQA模型，不需要额外的注释。具体来说，我们训练篮子里是什么篮子里装的是什么？篮子里能看到什么篮子里主要装的是什么？左转安全吗？一个人能安全地左转吗？向左转安全吗在这幅图中左转会被认为安全吗16650该模型不仅要回答问题，而且要生成以答案为条件的问题的不同的、语义上相似的变化。我们强制要求为生成的问题预测的答案与原始问题的真实答案相匹配。换句话说，该模型被训练为预测问题的相同（正确）答案及其（生成的）改写。我们提出的方法的优点是双重的。首先，在不同的改写中强制一致的正确性允许模型在测试时推广到看不见的语义等价的问题变体。该模型通过即时生成语言上不同的问题改写并使用这些变化进行训练来实现这一点。第二，一个经过生成训练的模型，在给定候选答案和图像的情况下生成一个有效的问题，对视觉和语言有更强的多模态理解问题往往有较少的可学习的偏见[26]。因此，能够联合执行问题生成和问题回答任务的模型不太倾向于走事实上，我们发现使用我们的方法训练的模型在VQA v2.0上的VQA和视觉问题生成（VQG）任务上都优于现有的最先进模型[9]。我们还观察到，VQA模型对输入问题中的语言变化鲁棒性的有限发展的一个原因是由于缺乏衡量鲁棒性的基准。缺乏这样的基准，现代VQA模型的能力膨胀和对多模态理解的局限性难以量化。为了能够定量评估VQA模型在输入问题的语言变化中的鲁棒性和一致性，我们收集了一个基于VQA v2.0的大规模数据集-数据集[9]。 VQA-改写包含3个人类提供的来自VQA v2.0数据集的验证分割的400000个图像上的400000个问题的改写。我们还提出了衡量VQA模型在不同环境下的鲁棒性的指标。不同的提问方式此外，我们在我们提出的 VQA-Rephrasings数据集上对几个最先进的VQA模型[3，5，19 ， 41] 进行了基准测试，以突出 VQA 模型对rephrasings的脆弱性。当VQA模型除了正确之外还需要一致时，我们观察到显著下降（第5节），这加强了我们的信念，即现有的VQA模型不能“足够”理解语言。我们表明，使用我们的方法训练的VQA模型在问题改写中比建议的VQA-改写数据集上的现有模型更强大。在本文中，我们的贡献如下：• 我们提出了一个与模型无关的周期一致性训练方案，使VQA模型对自然语言中观察到的语言变化开放式问题• 为了评估VQA模型对语言变化的鲁棒性，我们引入了一个大规模的VQA- Rephrasings数据集和相关的一致性得分。VQA-改写包括3个改写，来自VQA v2.0验证数据集的1040k图像上的1040k个问题，导致人类总共10120k个问题改写。• 我们表明，使用我们的方法训练的模型在VQAv2.0上的标准VQA和视觉问题生成任务上表现出最先进的水平数据集，并显着更强大的VQA-改写的语言变化。2. 相关工作视觉问答。在使用LSTM构建VQA模型方面已经取得了巨大的进展[13]和卷积网络[22]。VQA模型跨越了注意力网络[40，19]、模块网络[14，4，17]、关系网络[32]和多模态融合[5]等范式。我们的方法是模型无关的，适用于任何VQA架构。鲁棒性VQA模型的鲁棒性已在多种情况下进行了研究[2，39，9]。例如，[2]研究了VQA模型对训练和测试设置中答案分布变化的鲁棒性;[42]通过研究VQA模型对图像中有意义的语义变化的鲁棒性来分析VQA模型中视觉基础的程度;[39]表明，尽管使用了高级注意力机制，但很容易通过图像中非常微小的变化来欺骗VQA模型。然而，我们的工作，旨在完成鲁棒性的研究，通过基准测试和提高鲁棒性的VQA模型的语言和成分的变化，在问题的形式rephrasings。在自然语言处理（NLP）系统[7，12]中，也研究了在偏见[35，34]，域转移[23]和句法变化[15]的背景下的鲁棒性。我们在视觉问题回答的背景下研究这一点，视觉问题回答是一个多模态任务，它将语言置于视觉世界中。（视觉）问题生成。在[29]中引入了以图像为条件生成问题，[30]收集了大规模VQG数据集，以评估模型的视觉基础问题生成能力。更最近，已经有关于生成多样化问题的工作[16，40]。虽然这些技术以答案不可知的方式生成关于图像的问题，但[26]等技术提出了一种基于变分LSTM的模型，该模型使用强化学习进行训练，以生成图像的答案特定问题。最近，[24]通过将问题生成建模为问题的双重任务，16651F：VQAQA′Q′A′′问题一致性损失F：VQAG：VQGVQA损失（一）答案一致性损失（b）第（1）款图2. (a)所提出的周期一致性训练方案的抽象表示：给定图像I、问题Q和真实答案A的三元组，VQA模型是用于预测答案A '的变换F：（Q，I）›→A'。类似地，使用VQG模型G：（A′，I）<$→Q′来生成Q的改写Q′。生成的改写Q′通过F以获得A′′，并且在Q和Q′之间以及A′和A′′之间强制一致性。为清楚起见，未示出图像I。（b）我们的视觉问题生成模块G的详细架构。使用特定于任务的编码器将预测的答案A'和图像I嵌入到较低的维度，并将所得的特征图与加性噪声相加，并馈送到LSTM以生成问题改写Q'。接电话与[24]不同，我们的方法不限于仅针对特定问题类型生成问题与以往的工作不同，我们的VQG组件的目标是自动生成问题的改写，使VQA模型更强大的语言变化。据我们所知，我们是第一个证明VQG模块可用于在周期一致性设置中提高VQA准确度的公司。周期一致的学习。使用循环一致性来正则化模型的训练已广泛用于对象跟踪[36]，机器翻译[10]，未配对的图像到图像翻译[43]和基于文本的问题回答[37]。一致性使得能够通过正则化将一个互连模态或域映射到另一个的变换来学习鲁棒模型。虽然循环一致性已被广泛用于涉及单一模态（仅文本或仅图像）的领域，但VQA中的循环一致性也可以被认为是一种在线数据增强技术，其中模型在同一问题的几个生成的改写上进行训练。3. 方法我们现在介绍我们的周期一致性方案来训练鲁棒的VQA模型。给定图像I、问题Q和真实答案A的三元组，通用VQA模型可以可以用公式表示为变换F：（Q，I）›→A′，其中A′是由图1中的模型预测的答案。第2段（a）分段。类似地，通用VQG模型可以被公式化为一个反式形成G：（A，I ）→Q′，如图所示。第 2段（b）分段。F或一个given（I，Q，A）三元组，我们首先使用VQA模型F对原始问题Q获得答案预测A′。然后我们使用预测的答案A′和图像I来生成使用VQG 模型G ，在语义上类似于Q的问题Q ′。最后，我们得到了生成的问题Q ′的答案预测A″。我们一致性组件的设计灵感来自于两个信仰首先，一个模型，它可以生成一个语义和句法正确的问题，给出一个答案和图像，有一个更好的理解之间的跨模态连接的图像，问题和答案，这使他们成为一个有效的（I，Q，A）三元组。其次，假设生成的问题Q′是原始问题的一个有效的改写，一个强大的VQA模型应该回答这个问题-与原问题Q的答案相同。然而，在实践中，有几个挑战，抑制VQA中的周期一致性的我们将讨论这些挑战，并在以下各节中描述我们的框架的关键组成部分，以应对这些挑战。3.1. 问题生成模块由于VQA是一种在所涉及的模态的信息内容中存在高度差异的设置（问题和答案对是图像的非常有损的压缩表示），因此将一种模态映射到另一种模态的学习变换是不平凡的。在处理单一模态的周期一致性模型然而，在像VQG这样的多模态转换中，学习从低信息模态（如答案）到高信息模态（问题）的转换需要广告监督。我们提供这种额外的监督以注意力的形式呈现给VQG模型为了生成改写Q′，引导VQG关注图像的由VQA模型用来回答问题的区域。原始问题Q。与[24]不同，这使得我们的模型应答编码器图像编码器中文LSTMQ′A′我关注一16652以从诸如“是”的回答中生成与原始问题更相似的问题我们以类似于条件图像字幕模型的方式对问题生成模块G进行建模。问题生成模块由两个线性编码器组成，分别将VQA模型得到的关注图像特征和答案空间上的分布变换为低维特征向量。我们将这些特征向量与加性噪声相加，并将它们通过LSTM，该LSTM经过训练以重建原始问题，并通过使用教师强制最小化负对数似然来优化。请注意，与[26，24]不同，我们没有将表示所获得答案的独热向量或所获得答案的嵌入传递到问题生成，而是将答案的预测分布传递给问题生成。这使得问题生成模块能够学习将模型的置信度映射在整个论文中，Q-一致性意味着在基础VQA模型F之上添加VQG模块G以从图像I和预测的答案A′与相关的Q一致c y损失LG（Q，Q′）. 类似地，A-一致性意味着将VQG模型G生成的所有问题Q′传递到VQA模型F，以及相关的A-一致性损失Lcycle（A，A′ ′）. 总损失可以写为：Ltotal=LF（A，A′）+λGLG（Q，Q′）或者与原始问题编码的余弦相似度大于阈值Tsim。3.3.晚期活化设计周期一致模型的一个关键组成部分是防止模式崩溃。在VQA等复杂环境中学习周期一致性模型需要精心选择的训练方案。由于周期一致性模型有几个相互连接的子网络学习不同的转换，因此确保这些子网络中的每一个都协调工作是很重要的。例如，如果VQA模型F和VQG模型G是联合训练的，并且在训练的早期阶段强制一致性，则两个模型都可能通过产生不期望的输出来我们通过在训练的后期激活循环一致性来克服这个问题具体来说，我们在训练过程中的固定Aiter我们发现问题生成模块、门控机制和后期激活的设计选择对于有效训练我们的模型至关重要。我们通过表2中的消融研究实证地证明了这一由于我们希望增加VQA模型对所有生成的变化的鲁棒性，因此回答原始问题的VQA模型和生成的改写之间的权重为共享. 我们在VQA中的周期一致性公式可以+λCL循环（A，A′′）（1）也可以被认为是一种在线数据增强技术，其中模型在几个生成的rephras上进行训练其中LF（A，A′）和Lcycle（A，A′ ′）（即A-Consistency Loss）是跨部门损失，LG（Q，Q′）（即Q-一致性损失）是序列生成损失[28]和λG，λC是可调超参数。3.2.闸选机制我们提出的循环一致性训练方案的假设之一是生成的问题总是语义和语法正确的。然而，在实践中，这并不总是正确的。以前的尝试[18]天真地生成以答案为条件的问题，并在没有过滤的情况下使用它们来增加训练数据，但都没有成功。与可视化问答模块一样，可视化问题生成模块也不完善。因此，并非由问题生成器生成的所有问题都与图像、答案和原始问题相干且一致。为了克服这一问题，我们提出了一种门控机制，它自动过滤VQG模型生成的不需要的问题，然后将它们传递到VQA模型的A-一致性。门控机制仅在与A一致性结合使用时才相关。我们只保留VQA模型F可以正确因此在推理过程中对这种异常更鲁棒。我们表明，通过巧妙的训练策略，加上注意力和精心选择的问题生成体系结构，将循环概念纳入VQA是可能的，不仅可以产生性能更好的模型，而且还可以更健壮和一致。此外，我们表明，这种鲁棒性也赋予VQA模型的能力，以更好地预测自己的失败。4. VQA-改写数据集在本节中，我们将介绍VQA-Rephrasings数据集，这是第一个能够评估VQA模型的鲁棒性和一致性的数据集，以评估具有相同含义的问题的不同改写。我们使用VQA v2.0 [9]的验证分割作为我们的基础数据集，其中包含总共214，354个问题，跨越40，504张图像。我们从基础数据集中随机抽取了40，504个问题（每个图像一个问题），以形成一个采样子集。我们在两个阶段中使用人工注释器收集样本子集中每个问题的3个改写。在第一阶段，人类被告知原始问题和相应的真实答案，并被要求重新表述问题，16653●这个港口能停靠豪华游艇或渔船吗●有更多的游艇或渔船吗●港口主要有哪些类型的船只●这个港口是否更适合游艇还是渔船●枕头和床罩相配吗●床罩和枕头相配吗●枕头和床罩上的图案相似吗●枕头是不是和床罩？●你看到多少个停车计时器●你知道有多少个停车计时器吗●照片上有多少个停车●停车场的数量是多少米目前？那个人背着背包吗（是的）狗在做什么？（睡觉）照片里有多少人（二）计算机的名称是什么（东芝）电脑开着吗？（是的）桌子上有多少本书（一）航空公司的名称是什么飞机在做什么（着陆）今天是阴天吗？（是的）有多少只鸟（二）小鸟在看镜头吗？（不）那里有什么样的鸟（起重机）(a)（b）第（1）款图3.（a）来自我们的VQA-Rephrasings数据集的定性示例。每个块中的第一个问题（以灰色显示）是VQA v2.0验证集中的原始问题，后面的问题（以黑色显示）是VQA-Rephrasings中收集的改写(b) 通过我们的VQG模块生成答案条件问题（输入答案）的定性示例重新措辞的问题的答案与原来的答案相同。为了确保第一阶段的重新措辞在语法上正确，并且在语义上与原始问题一致.S（Q′）=1如果<$q∈Q′θ（q）>0，（三）0否则。我们在下一阶段过滤收集到的响应在第二阶段，人类被启动了原始问题及其重新措辞，并被要求在以下情况下将重新措辞标记为无效：（a）原问题的合理答案与其措辞不同（即如果问题和它的改写有不同的意图）或（b）如果改写是语法上不正确的。在第一阶段，我们从最初的40504个问题中收集了121,512个改写。其中，1320个改写在第二阶段被标记为无效，并在第一阶段再次改写。最终数据集由162，016个问题（包括原始的40，504个问题）组成，跨越40，504个问题。每个原始问题平均有103次改写的图像收集的数据集中可见于图第3（a）段。关于数据收集、所用界面和详尽数据集统计的更多详情，请参见补充材料。共识评分。直观地说，对于同一问题的各种改写，VQA模型是一致的，所有改写的答案应该是相同的。我们通过一致性评分CS（k）来测量这一点。对于由n个改写组成的每个组Q，我们对所有大小为K.一致性得分CS（k）被定义为所有答案都正确的子集的数量与大小为k的子集的总数的比率。如果问题的答案具有[1]中定义的非零VQA准确度θ，则该问题的答案被视为正确。CS（k）被正式定义为：其中nCk是从大小为n的集合中采样的大小为k的子集的数量。由于一致性得分是全有或全无的得分，因此为了在k处实现一组问题Q，模型必须正确回答一组问题Q中的至少k个问题。当k=|Q|（例如当k= 4时，模型需要-正确地回答问题和原始问题的所有改写，以获得非零的共识分数。很明显，在高k值下具有较高平均一致性得分的模型比具有较低得分的模型对问题中的语言变化在数量上更鲁棒。5. 实验5.1. 一致性性能我们首先在我们提出的VQA-Rephrasings数据集上对各种现有的VQA模型进行基准测试。MUTAN[5]1使用多模态低秩分解来参数化视觉和文本表示之间的双线性交互。Mutan使用跳跃思维[20]句子嵌入来编码问题，Resnet-152 [11]来编码图像。MUTAN在VQA v2.0 test-dev上实现了63.20%的准确率在我们分析的所有模型中，MUTAN是唯一一个使用句子嵌入来编码问题的模型自下而上自上而下的注意力（BUTD）[3]2通过提取与Faster-RCNN [33]在Visual Genome [21]上预训练的图像区域相关的特征，在VQA中整合自下而上的注意力。BUTDCS（k）=ΣQ ′ Q，|Q′|=kS（Q′）nCk（二）1https://github.com/Cadene/vqa.pytorch2https://github.com/hengyuan-hu/bottom-up-attention-vqa网站16654VQG型号CS（k）VQA精度表1. VQA-重新表述数据集上的共识性能。CS（k），如等式中所定义。2是共识分数，其仅在至少k个重述被正确回答时才为非零，否则为零;在所有问题组上平均 ORI代表VQA-改写中的问题分割，VQA-改写是VQA v2.0中的原始问题，其相应的改写由分割REP表示。使用我们的循环一致性（CC）框架训练的模型在所有k值下都始终优于其基线对应部分。模型在2017年赢得了VQA挑战赛，并在VQA v2.0测试开发中达到了66.25%的准确率。3BAN [19]+ Q一致性+ A一致性+闸选66.0466.2764.9666.7769.6469.6966.3169.87表2. VQA v2.0确认和测试开发拆分的VQA性能和消融研究。块中的每一行表示添加到前一行的周期一致性框架每个区块的第一行代表基线VQA模型F。Q-一致性意味着添加VQG模块G以从图像I和具有相关联的VQG损失L（Q，Q′）的预测结果A ′生成改写Q ′。A-一致性意味着将所有生成的问题Q′传递给VQA模型Pythia[41]扩展了BUTD模型，在问题和图像区域之间的共同关注[27]。Pythia使用从Detectron [8]中提取的特征，预先在Visual Genome上训练。Pythia模型的集合使用Visual Genome [21]的额外训练数据和使用Resnet[11]功能赢得了2018年VQA挑战赛。在这项研究中，我们使用不使用Resnet功能的Pythia模型。双线性注意力网络（BAN）[19]4结合了双线性模型的思想和残差设置中图像区域和问题中的单词之间的共同注意力[27]。与[3]类似，它使用Faster-RCNN [33]在Vi- sual Genome [21]上预训练来提取图像特征。在我们所有的实验中，为了公平比较，我们使用BAN模型，这些模型不使用来自Visual Genome的额外训练数据。BAN在VQA v2.0测试开发中实现了目前最先进的单模型准确率69.64%，无需使用Visual Genome的额外训练数据。对于使用我们的周期一致性框架训练的所有模型，我们使用T sim=0的值。9，λ G=1。0，λ C=0。5和Aiter=5500。报告结果在验证分割和VQA重新措辞上，我们在训练分割上进行训练，并且在测试分割上报告结果时，我们在VQAv2.0的训练和验证分割上进行训练请注意，我们从未显式地在收集的VQA- Rephrasings数据集上进行训练，并将其纯粹用于评估目的。我们使用每个骨干VQA模型的公开实现。我们衡量这些模型的鲁棒性，3https://github.com/facebookresearch/pythia网站4https://github.com/jnhwkim/ban-vqaF和相关的损失L循环（A，A）。门控意味着使用的选通机制，以过滤Q′中不期望生成的问题，并将剩余的问题传递给VQA模型F。每个块中的最后一行相当于基础VQA模型（每个块中的第一行+ 循环一致性（CC），如其他表中所用。使用我们的循环一致性（每个块的最后一行）框架训练的模型一致性优于基线。我们提出的VQA-Rephrasings数据集使用consen- sus评分（等式2）。2）的情况。表1显示了几个VQA模型在不同k值下的一致性得分我们看到，所有的模型在衡量改写的一致性时都会受到严重影响。例如，Pythia（2018年VQA挑战赛的获胜者）的表现在k= 4时的一致性得分为39.49%。MU-TAN、BAN和BUTD也观察到类似的趋势。下降随着k的增加而增加，k是用来衡量一致性的改写次数。像BUTD，BAN和Pythia这样使用单词级编码的模型会遭受显着下降。有趣的是，即使使用基于跳跃思维的句子编码[20]的MUTAN在检查改写（从k= 1到k= 4）的一致性时也会下降。我们观察到，用我们提出的周期一致性训练框架训练的BAN+ CC模型在所有k值下都优于其对应的BAN和所有其他模型。图4定性地比较了一个问题的4次改写的文本和视觉上一行显示来自Pythia模型的注意力和预测，而下一行显示注意力和预测。模型Valtest-devMUTAN [5]61.0463.20BUTD [3]+ Q一致性+ A一致性+闸选65.0565.3860.8465.5366.2566.8362.1867.55皮提亚[41]+ Q一致性+ A一致性+闸选65.7865.3962.0866.0368.4368.5863.7768.88k=1K=2k=3K=4ORIRepMUTAN [5]56.6843.6338.9432.7659.0846.87BUTD [3]60.5546.9640.5434.4761.5151.22BUTD + CC61.6650.7944.6842.5562.4452.58皮提亚[41]63.4352.0345.9439.4964.0854.20Pythia + CC64.3655.4550.9244.3064.5255.65BAN [19]64.8853.0847.4539.8764.9755.87BAN + CC65.7756.9451.7648.1865.8756.5916655Ground Truth：黄色预测：黄色Ground Truth：黄色预测：黄色Ground Truth：黄色预测：黄色Ground Truth：黄色预测：黄色Ground Truth：黄色预测：黄色Ground Truth：黄色预测：黄色GroundTruth：黄色预测：蓝色GroundTruth：黄色预测：蓝色图4.跨问题变体的文本和图像区域注意力的可视化顶行显示注意力和预测从Pythia [41]模型，底部行显示了来自相同Pythia模型的注意力和预测，但使用我们的周期一致性方法进行训练。我们的模型参加了所有rephrasings相关的图像区域，并正确地回答他们。然而，基线Pythia对应物未能参加相关图像区域的一些改写。模型BLEU-1BLEU-2BLEU-3BLEU-4ROUGE-L流星苹果酒iQAN*[24]0.5820.4670.3850.3200.6170.2762.222Pythia + CC*0.7080.5610.4380.3390.6270.2842.301[26]第二十六话0.4300.3260.2560.2080.4680.2051.714Pythia + CC0.4860.3680.2870.2260.5560.2251.843表3. VQA v2.0验证集上的问题生成性能，* 表示[24]中完成的受约束子集上的结果。CC代表用我们的方法训练的模型。来自相同的Pythia模型，但使用我们的框架进行训练。我们的模型参加了所有改写的相关图像区域，并正确地回答了所有这些问题。这定性地证明了用我们的框架训练的模型的鲁棒性。5.2. 可视化问题分类性能现在，我们在VQA v2.0数据集[9]上评估我们的方法和标准问答任务上的各种消融。我们比较了VQA v2.0的验证和测试开发分裂的几个VQA模型的性能。表2显示了不同模型在验证和测试-开发拆分方面的VQA评分。我们表明，使用我们的周期一致性框架训练的BUTD，Pythia和BAN模型优于其相应的基线。我们通过对我们的模型进行消融研究来显示我们的周期一致性框架的每个组成部分的影响。我们研究了问题一致性（Q-一致性）、答案一致性（A-一致性）和门控机制等成分的边际效应。Q一致性意味着添加VQG模块G以生成rephras。从图像I和预测的答案A′中提取出一个VQG损失Lvqg（Q，Q′）。如表2所示，我们看到问题一致性的增加略有改善。证明每个VQA模型的性能。与[24]中的观察结果一致，这表明可以从答案中生成问题的模型确实具有更好的多模态理解，进而更好地进行视觉问题回答。一致性意味着将所有生成的问题Q′到VQA模型F和相关的损失Lcycle（A，A′）。如表2所示，我们可以看到，简单地将生成的所有问题传递给VQA模型F会导致与基本模型F相比，性能显著降低。这与我们之前的讨论一致，即并非所有生成的问题都是原始问题的有效改写，因此在两个无效问题对的答案之间强制一致性自然会导致性能下降。最后，我们展示了使用我们的门控机制来过滤Q′中不期望生成的问题，并将剩余的问题传递给VQA模型F。我们看到，所有VQA模型的性能始终更好而不仅仅是使用Q一致性。我们还用皮提亚模型的配置进行了16656其中VQG模型使用无人值守的图像特征（不像使用来自VQA模型的具有关注的图像特征的默认设置）。我们发现，在这种配置下，我们的方法仍然显示出比基线更好的性能。然而，问题生成质量相对较差，并且与使用注意力时（分别为8.08%和0.5%）相比，整体增益较小（一致性CS（k= 4）为3.58%，VQA准确率为0.2%）。皮提亚[41]+ FP0.740.760.790.880.760.82可能是专注的重述5.3. 可视化问题生成性能回想一下，我们的模型还包括一个VQG组件，它可以生成以答案和图像为条件的问题。由于我们的框架的整体性能高度依赖于问题生成模块的性能我们将VQG组件与VQA v2.0数据集上的几个答案条件VQG模型进行了比较。我们使用标准图像字幕度量CIDEr[38]，BLEU [31]，METEOR [6]和ROUGE-L [25]，如[26]中所用。我们比较我们的ap-proach最近提出的两个视觉问题生成方法。iVQA[26]使用经过强化学习训练的变分LSTM模型来为图像生成答案特定的问题。生成的问题的句法正确性、多样性和意图用于分配奖励。iQAN[24]通过将问题生成建模为问题回答和在问题回答和问题生成模块之间共享参数的双重任务来生成答案特定的问题。由于iQAN只能生成特定类型的问题，为了进行公平比较，我们仅在包含这些特定类型问题的数据集子集上与iQAN进行比较如表3所示，我们观察到，我们的问题生成模块在所有指标上的表现都优于iVQA [26]和iQAN [24]。我们的VQG模型生成的一些回答条件问题的定性例子可以在图中看到。3（b）款。5.4. 故障预测性能在以前的结果中，我们表明，通过训练模型，生成和回答问题，同时在两个任务之间保持一致，这导致性能和鲁棒性的改进。测试这些模型鲁棒性的另一种方法是看模型是否可以预测它们自己的鲁棒模型对不正确的答案不太有信心，反之亦然.受此启发，我们试图验证用我们的周期一致性框架训练的模型是否可以识别它们自己的故障，即。正确识别他们的预测是否为此，我们使用两个故障预测方案。首先，我们天真地阈值预测的答案的信心。所有的答案都在一个特定的表4. VQA v2.0验证数据集上的故障预测性能。块中的每一行表示添加到前一行的一个组件。 CC表示使用我们的周期一致性框架训练的模型，FP表示具有额外的二进制分类失败预测子模块的模型，以预测给定问题和图像对（Q，I）的预测答案A '是否正确。对于在没有FP模块的情况下训练的模型，通过对答案置信度进行阈值化来获得分数阈值被标记为正确回答，反之亦然。其次，我们设计了一个故障预测二进制分类模块（FP），该模块对给定的图像I，Q和答案A′（由基础VQA模型F预测），预测的答案对于给定的（I，Q）汇率FP模块在保持参数的情况下进行训练基本的VQA模型在表4中，我们显示了基线VQA模型和使用我们提出的框架训练的模型的故障预测性能它表明，即使没有一个明确的故障预测模块，周期一致性框架，使模型更校准在这两种设置中：（a）当使用朴素置信度阈值（表中未标记为我们在检测BUTD和Pythia模型的故障方面看到了类似的改进，这表明我们的周期一致性框架是模型不可知的。这也表明，周期一致性训练不仅使模型对语言变化具有鲁棒性，而且还允许它们具有故障意识。6. 结论在本文中，我们提出了一种新的模型不可知的训练策略，将循环一致性纳入VQA模型，使它们对语言变化具有鲁棒性，并能够自我意识到它们的失败。我们还收集了一个大规模的数据集，VQA-Rephrasings，并提出了一个共识度量来衡量VQA模型的鲁棒性问题的语言变化。我们表明，使用我们的训练策略训练的模型对语言变化具有鲁棒性，并且在VQA v2.0数据集上的VQA和VQG中实现了最先进的性能。模型精度召回F1BUTD [3]0.710.780.74+ FP0.740.850.79BUTD + CC0.730.790.76+ FP0.780.830.80Pythia + CC0.770.810.77+ FP0.820.840.8316657引用[1] Aishwarya Agrawal，Dhruv Batra和Devi Parikh。视觉问答模型的行为分析。2016年自然语言处理经验方法会议论文集，2016年。[2] Aishwarya Agrawal ， Dhruv Batra ， Devi Parikh ， andAnirud- dha Kembhavi.不要只是假设;看一看并回答：有视觉问答的前科。2018年IEEE计算机视觉和模式识别会议（CVPR），2018年。[3] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议集，2018年。[4] Jacob Andreas，Marcus Rohrbach，Trevor Darrell，andDan Klein.学习构建神经网络进行问答。在NAACL-HLT会议记录中，2016年。[5] HediBen-Younes，Re' miCadene，MatthieuCord，和Nico-las Thome.Mutan：用于视觉问答的多模态折叠融合。在IEEE计算机视觉和模式识别会议集，2017年。[6] Michael Denkowski和Alon LavieMeteor通用：针对任何目标语言的特定语言翻译评估EACL 2014统计机器翻译研讨会论文集，2014年。[7] Allyson Ettinger，Sudha Rao，Hal Daume 'III和Emily MBender。走向语言学上可推广的自然语言处理系统：研讨会和共同任务。arXiv预印本arXiv：1711.01505，2017。[8] Ross Girshick 、 Ilija Radosavovic 、 Georgia Gkioxari 、Piotr Doll a´ r和KaimingHe。检测r on。https：//github.com/facebookresearch/detectron，2018年。[9] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。让vqa中的v变得重要：提升图像理解在视觉问答中的作用。2017年IEEE计算机视觉和模式识别会议（CVPR），第6325-6334页IEEE，2017年。[10] 何迪，夏颖策，秦涛，王立伟，于能海，刘铁岩，马伟英。机器翻译的双重学习。神经信息处理系统的进展，第820-828页，2016年[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[12] 杰里R霍布斯，道格拉斯E Appelt，约翰熊，和马布里泰森。真实世界自然语言文本的鲁棒处理。在第三次应用自然语言处理会议的会议记录中，第186-192页计算机语言学协会，1992年。[13] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735[14] Ronghang Hu ， Jacob Andreas ， Marcus Rohrbach ，Trevor Darrell，and Kate Saenko.学习推理：用于可视问答的端到端模块网络。2017年IEEEInternationalConferenceonComputerVision（ICCV），第804-813页。IEEE，2017年。[15] Mohit Iyyer 、 John Wieting 、 Kevin Gimpel 和 LukeZettlemoyer。用语法控制的释义网络生成对抗性例子。arXiv预印本arXiv：1804.06059，2018。[16] Unnat Jain，Ziyu Zhang，and Alexander Schwing.创造力：使用变分自动编码器生成不同的问题2017年IEEE计算机视觉和模式识别会议（CVPR），第5415-5424页。IEEE，2017年。[17] 贾斯汀·约翰逊、巴拉斯·哈里哈兰、劳伦斯·范德马滕、朱迪·霍夫曼、李飞飞、C·劳伦斯·齐特尼克和罗斯·格希克。推断和执行程序以进行可视化推理。在IEEE计算机视觉国际会议论文集，第2

下载后可阅读完整内容，剩余1页未读，立即下载