反事实视觉与语言学习

198 浏览量更新于2023-10-25 收藏 848KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

110044反事实视觉与语言学习Ehsan Abbasnejad，Damien Teney，Amin Parvaneh，Javen Shi，Anton van den Hengel{ehsan.abbasnejad，damien.teney，amin.parvaneh，javen.shi，anton.vandenhengel}@adelaide.edu.au澳大利亚机器学习研究所澳大利亚阿德莱德大学摘要视觉问题回答方法的持续成功有些令人惊讶，因为在最一般的情况下，问题需要理解视觉和语言刺激的全部多样性。特别值得注意的是，鉴于问题的规模，这一成功是在相对较小的数据集的基础上取得的一种解释是，这在一定程度上是通过利用数据集中的偏见而不是开发更深层次的多模态推理来实现的。这从根本上限制了该方法的推广，从而限制了其实际适用性。我们提出了一种方法，通过在训练中引入反事实来解决这个问题。在此过程中，我们利用结构因果模型进行反事实评估，以制定替代方案，例如，可以问同一图像集的问题我们表明，通过这个过程模拟合理的替代训练数据，结果更好的推广。1. 介绍计算机视觉和自然语言理解的最新进展为结合视觉和文本模态的各种任务铺平了道路[28，15，7，5，33]。视觉提问（VQA）就是这样一种任务，其目标是回答与图像相关的自然语言中的问题。因此，VQA需要对视觉场景和问题有高层次的理解，以及将两者联系起来（或接地）的能力。人们对VQA的兴趣，以及相关的视觉和语言问题，源于这样一个事实，即成功可能意味着向人工智能迈出了一步。各种现实世界的应用也出现了，包括帮助视力受损者，通过自然语言界面搜索大量的视觉数据，以及机器人的灵活当前的端到端VQA模型在大多数可用基准上实现了高准确性，并在某些情况下（例如，成分推理[25]）超过了人类性能然而，事实表明，这些方法利用数据中的统计偏差和偏差来实现这种性能[25，33，23，6]。此外，尽管这些方法被期望合并来自多个模态的信息，但在实践中，它们常常利用单峰偏差而完全忽略其他模态。此外，输入中的特定信号触发特定的答案;例如，当图像包含香蕉时，答案很可能是黄色的，而不管图像的其余部分或问题。这种对训练数据中虚假相关性的依赖使VQA方法容易失败。此外，这一现象突出表明，对输入及其与其他模式的联系为了弥补上述缺陷并提高泛化能力，我们建议在学习过程中利用反事实[30，12]。在传统的因果推断中，反事实是未观察到的情景，通常用于估计数据中未直接表示的干预措施的效果。在机器学习中，它们同样可以表示我们没有标签的潜在训练数据元素，或者我们没有奖励的数据标签对这在那些监督学习设置中特别相关，在这些设置中，每个训练数据元素可能应用一个以上的真实标签，但通常只这是许多视觉和语言问题的情况，因为训练集记录了VQA问题的特定答案并不意味着每个替代答案都是错误的。这被称为强盗反馈[24]，并且此类问题被标记为非随机多臂强盗问题[9]。在VQA的背景下，反事实分析使我们问“如果我们观察到不同的图像或提出不同的问题，考虑到过去的观察，会发生什么”。我们考虑了训练数据背后的因果模型，并引入了一个额外的（外生）变量来控制问题和图像生成（从中产生观察到的答案）。然后，我们学习该变量的分布，提供观测数据如何生成的模型。随后，我们要求110045“为此，我们选择外生变量，使得使用该变量生成的问题或图像产生不正确的答案，从而有效地将干预注入我们的因果模型。由于干预会降低模型的这隐含地迫使VQA模型使用两种输入模态，而不是依赖于特定于其中任何一种的统计量此外，训练一个模型来学习回答和“推理”问题和图像中的干预，鼓励泛化。在图1中，总结了我们的方法。通过有效地我们描述了对VQA-CP [6]，VQA 2.0 [7]和QuaredQA [14]（其中代理需要导航来回答问题）的广泛实验，并证明了我们的方法能够提高泛化能力。我们在本文中的贡献是：• 我们提供了一个反事实的框架下，在输入的干预，无论是问题或图像，是预期的。我们发现，一个简单的模型学习的分布的外生干预变量的观测数据，随后从该变量产生的反事实样本提高泛化。我们鼓励模型推理• 我们提供了一个理论分析，提出的方法来阐明其潜在的工作机制。此外，我们还根据观测结果给出了反事实的似然下界• 我们广泛的实验表明，我们简单而强大的方法是能够提高不同的多模态和单峰视觉和语言任务的泛化能力。在VQA-CP中，当使用完整数据集时，我们观察到超过基线2%的改善，当使用一小部分数据集时，则为7%在经过验证的QA中，我们的方法将最先进的水平提高了2%以上。2. 相关工作反事实[12，30]最近在机器学习的各个领域引起了人们的兴趣，特别是在应用因果推理的观点来增强训练方面，如图1：使用反事实的训练过程。我们推断外生变量的后验。随后使用该变量生成反事实样本并评估其输出。[24][25][26][27][29][ 对抗性学习[17]是在学习中使用反事实的一个主要例子，并被证明可以提高性能（例如，[42]）。然而，这一领域的大多数最新技术都集中在分析各种干预的结果，即输入或模型的变化。然而，我们的方法关注的是从干预中正确生成反事实，并确保在交替风险最小化中调整结果。数据增强是成功的机器学习的核心，其中利用大量的领域知识来设计合适的数据转换（例如，重新缩放、旋转等）导致改进的泛化。虽然学习这些不变性，例如使用生成模型，可以潜在地缓解问题，但它们的使用是不平凡的。最近，MixUp [41]被提出作为一种简单的数据增强和正则化方法，不需要大量的领域知识。与标签平滑类似，每个示例的监督并不过分受地面实况标签的支配。此外，从训练实例转换增强的数据，以建立数据增强和监督信号之间的线性关系然而，它需要采样一个不容易选择的混合参数。另一方面，我们的方法学习插值，这取决于在特征空间中为模型和景观产生输出的困难，从而利用MixUp的优势来生成样本。VQA数据集和模型中的偏差是当前模型中的主要缺陷，其中模型利用了一种模态的输入与答案之间的表面相关性[29，18，33]。不幸的是，有偏见的模型，exploit统计捷径，从一个模态通常达到令人印象深刻的准确性在大多数目前的基准。VQA-CP [6]是最近的诊断数据集，包含每种问题类型的不同答案分布，导致训练和测试分割的不同分布。因此，偏向于其中一种模态的模型通常在此基准测试中失败。人类提供了额外的平衡数据，例如在VQA v2 [18]的情况下，没有重新解决这个问题。更精细的模型以避免偏见ERM标准答案更新观察数据集反事实外生变量生成Coalsunterfactu当量外生变量110046i=1：刘伟例如接地VQA [6]引入了附加的子模块，这些子模块对于与新颖的体系结构一起使用来说并不是微不足道的。类似地，[33]提出了一种模型不可知的学习策略，通过直接惩罚输入问题的偏见来克服VQA模型中的语言先验。在[13]中，作者使用前缀对训练问题进行聚类，以防止模型依赖它们作为特征。我们的方法是模型不可知的，易于实现，不需要一个精心的参数调整或事先知道边缘。此外，我们的方法自然地利用内在依赖性来提高泛化能力，并阻止模型简单地利用偏差我们的反事实训练方法通过依赖于生成可以改变预测的样本的能力来阻止学习偏差2.1. 视觉问题回答视觉问题回答（VQA）是回答以前看不见的问题的任务，这些问题是用自然语言围绕以前看不见的图像提出的。对于训练，我们感兴趣的是从由图像v、问题q和答案a组成的训练集中学习模型，用结构机制fi（PAi，ui）代替结构机制fi（PAi，ui）. 我们可以简单地写do（Xi=x）来表示干预。所得到的SCM被表示为Ml，并且所得到的介入分布表示为PMi。我们还可以定义反事实分布，它告诉我们如果我们采取不同的行动，可能会发生什么定义3（反事实分布）。给定SCM M和任何观测变量集上的观测赋值X= x，反事实分布P M|X=x;I对应于使用后验分布P（u）的SCM M I所包含的分布|X=X）。对于SCMM，可以通过首先推断外生变量的后验，然后将该分布传递通过修改的结构模型M1以获得其他变量1的反事实分布来估计反事实分布。3. 反事实视觉和语言（CVL）我们的直觉是，在VQA系统中，从图像或问题中提取特征的函数{qi，vi，ai}n. 在测试期间，给定一个图像，倾向于关注数据中的虚假相关性问题，训练好的模型会预测正确的答案。VQA的经典方法是使用问题eq= f q（q）的嵌入，图像ev=f v（v）的嵌入以及两个z=h（eq，ev）的融合函数到所谓的联合空间中。我们用θ表示用于学习这些表示并生成答案的深度模型的所有参数使用更好的嵌入会产生更好的联合空间表示，从而获得更准确的答案。为了简洁起见，下面我们省略了模型中的参数，即我们使用p（a|q，v）作为p（a）的简写|q，v，θ）。2.2. 反事实在下文中，我们提供了一个反事实的背景，这将成为本文其余部分的基础。感兴趣的读者可以参考[30]了解更多详情结构因果模型（SCM）。结构因果模型M由一组独立（外源）随机变量u ={u1，. . .，un}，其中离散P（u），函数集F ={f1，. - 是的- 是的，f n}，以及变量集合X ={X1，. . .，Xn}使得Xi=fi（PAi，ui），ni，其中PAi<$X\Xi是X的子集，其是Xi的父代。结果，先验分布P（u）和函数确定分布PM。SCM定义了数据生成过程和观察结果的分布。利用这个模型，我们可以研究干预的后果。定义2（介入性分布）。对于SCM M，这使他们无法对更深层次的关系进行建模，更好地概括。因此，我们鼓励学习算法考虑反事实-一组想象的替代样本。训练一个模型来学习回答，并对问题和图像中的干预进行为此，我们构建了如图所示的SCM2，其中用于学习嵌入的函数以外生变量为条件作为反事实推理中干预的惯例，我们感兴趣的是将嵌入函数替换为它们相应的反事实，即fv用f<$v（v，uv）或fq用f<$q（q，uq）代替，其中uv和uq分别是图像（视觉模块）和问题（语言模块）的外生变量注意，fv（·，·）和fq（·，·）是外生变量的函数，一个给定的图像和问题对。我们的方法关于包埋提取物中的干预的原因。我们用u =[uv，uq]来表示这两个外生变量。 We表示输入后得到的变量，eq和ev表示它们相应的嵌入。这直观地允许我们的模型回答它从未观察到的基于图像的问题我们通常对以下目标感兴趣：（1）问题图像嵌入的联合空间必须导致对实际数据的低错误率;（2）考虑外生分布的实际和反事实数据的条件分布必须相似;（3）外生变量的分布必须从观察中获得;（4）嵌入必须产生小的错误，.Σ干预I=doXi=fi（PAi，ui）对应1在[30]中被称为绑架、行动和预测110047QeQevuquvq~uqfq！法拉格uv(a) VQA模型(b) 我们的SCM(c) 我们的SCM与干预图2：典型的VQA图形模型（图1）和VQA图形模型（图2）之间的差异2a），我们相应的因果模型（在图。2b）和一个例子的干预问题表示的这个模型（图2）。第2c段）。在我们的模型中，两个外生变量uq和uv被纳入到学习和推理这些变量引起的干预。4. 反事实分布反事实分布是从观测中获得的外生变量的后验分布因此，使用训练数据，我们感兴趣的是，Ynp（u| D）p（u）p（ai|q，vi）p（vi|uv）p（q |uq）。（一）我我i=1图3：可以为给定图像生成的反事实示例。融合函数h与观测数据以及反事实数据一起用于预测答案。对于反事实损失，我们需要考虑预测的反事实答案与其观察到的对应答案之间的关系。未观察到的反事实分布（从我们使用独立的先验，即。 p （ u ）=p （ uq ） p（uv），uv和uq具有Beta分布（即uv <$Beta（α0，β0））。虽然我们可以估计p（vi|uv）和p（qi|uq）使用各种方法（包括自动编码器[27，1]和GAN[16，4，3]），我们使用一个简单的方法来模拟问题或图像的条件似然为了得到后验，考虑了给定条件下，变量uq，uv和任意常数0≤2001年，我们有结构模型中的干预）。第一个目标与任何其他愿景相同，qp（q|uq）=.quq ≥ 1 − ǫuqq<$（1−uq）q′，否则，且语言任务第二个是一个必要的约束，以确保使用一个模型，从观察，我们可以预测答案的反事实。第三个目标是确保vp（vi|uv）=.vuv≥1 −1uvv<$（1−uv）v′，否则（二）来自外生变量的可能的干预分布作为模型的一部分被学习。最后，我们的方法应该能够对反事实实例的答案进行推理（见图1）。3为例）。因此，我们设计了以下步骤，通过这些步骤训练我们的模型并找到外生变量的分布：1. 使用常规风险最小化的一个步骤推断观察数据的预测模型。2. 对M进行干预I。这就产生了MI，它包含了实际分布pdo（I）的反函数|q，v。3. 关于干预对答案的影响和所造成的损失的原因。直观地说，首先我们学习从观察中获得的外生变量的分布，然后建模如何通过对该变量的干预来影响答案。evh（eq，ev）那些是什么动物eQh（eq，ev）埃吉夫损失（绵反事实损失（绵观察生成反事实图像uv110048其中，q′和v′是从数据集中随机均匀采样的，并且表示插值。这是很容易看到的，为毛！0，我们有更多的插值样本，并为！ 1，我们得到的样本是独立的先验。这种对观测值进行采样的方法的一个优点是，我们有效地减少了训练数据的条件独立性假设，从而允许建立观测值之间的关系。由于我们使用所有共轭先验，因此后验分布也是带参数α，β的αβ分布，其中αβ=α0+I[a i= arg maxp（a i|qi，vi）]和β= β0+ I[ai/=arg maxp（a i|qi，vi）]。直觉上，产生正确答案的先验区域的样本是“成功的”，并鼓励后验区域集中注意力。请注意，后验样本来自正确答案的可能性较高的区域（因为后验的期望值为α/（α+β））。2我们注意到，在不失一般性的情况下，为了简洁起见，我们放弃了对嵌入特征p（a，|qi，vi）=p（ai|ev，eq）×δ（eq−fq（qi））× δ（ev− fv（vi））其中δ是狄拉克δ。110049i=14.1. 生成反事实一旦外生变量p（u）的后验|D）得到，我们进行干预。也就是说，我们生成反事实，用它的替代品v（或q）替换v（或q），并预测答案。这相当于用一个alter替换函数fv（·，·）（或fq（·，·））nativefv（·，·）（或fq（·，·）），导致不同的答案预测.注意pdo（I ）|q ，v（a|q，v，θ）改变了部分SCM。相反，分数较小的反事实会受到更多的惩罚，相反，过度自信的人会受到打击。这随后调整决策界限-对观察和反事实都是有区别的。此外，由于该风险可能具有非常高的方差，我们可以类似于[12]修剪该值，ΣRM（θ）=Eq，vEp<$u（a|q，v）<$（fθ（q，v），a）在获取反事实样本时，在最低限度的干预，将改变答案，×minM，p（a）|q，v，θ）pdo（I）|q，v（a|q，v，θ）对于一个问题-图像对（q，v）到（q，v），当使用等式（1）中的生成过程二、这对应于来自外生变量后验的样本，具有很高的可能性（最小干预），这将改变这是因为我们预测干预观察的输出的概率可能非常低。因此，经验反事实风险是，1Σn（q，v）的一个不正确的答案。因此，我们正式-ize the problem as:RM（θ）为ni=1、<$（fθ（qi，vi），ai）×ωi（θ）（4）p（ai|qi，vi，θ），Maxulo g（pdo（I））|q，v（q，v|（u））哪里ωi（θ）=minM，pdo（I）|q，v（a|q，v，θ）。S.T.a=a r gmaxa′pdo（I）|q，v（a′|q，v），aa0≤ u 1<这里，ωi（θ）是实际样本i和其对应的反事实样本i的评估的截尾比率。我们有意地使用速记来强调这一事实，即该页-考虑到Eq.2，当u最大时，达到最小干预（事实的最小编辑[32，19]）由于约束在计算上是不可行的，因此我们放松目标并选择参数相对于p中的θ进行优化。因此，视觉和语言任务的反事实风险最小化的目标是∗具有与观测值相同答案的最小可能性的变量。我选择了你，RM=argminRM（θ）θlaxed alternative（we projectu to be boundedin[0，1））在实践中，我们在传统的ERMMaxuλ2−λlog.Σpdo（I）|q，v（a|q，v）（三）（即：当ω（θ）= 1时）和反事实风险。4.3.进一步分析其中λ是超参数。我们注意到，简单地从后验p（u|D）并生成v（或q）以推断答案，不是反事实的（在采样变量u和学习参数θ之间交替类似于常规吉布斯采样）。因此，该步骤对于获得不仅来自学习分布，而且非常可能的实例至关重要。因此，使我们的方法能够更好地概括观察结果。4.2. 反事实损失我们在干预输入和最小化相应的反事实以及观察结果的风险之间交替。这是一种常见的做法--在经验风险最小化（ERM）中，使用观察训练实例的目标是最小化Eq，vEp（a|q，v）[<$（f θ（q，v），a）]其中<$（f θ（q，v））是预测答案的函数的损失。请注意，在实践中f θ和p（a|q，v，θ）可以是相同的函数或共享ar。当我们在Eq中生成样本时，2，q′可能有一个与q不同的答案（概率为（1−na/n），其中na表示答案为a的实例的数量）。因此，在问题和图像之间进行插值将导致答案不确定的样本。然而，在生成的反事实的情况下，这样的插值实际上接近决策边界。因此，当通过等式中的分类器的置信度加权时，4、融合空间中样本之间的连接（即公共语义空间）被调整以考虑表示对输入变化的敏感性。此外，一个主要问题是我们如何知道干预措施我们可以使用以下定理推导出风险的界限：定理4. 记ui（θ）<$$>（fθ（qi，vi），ai）ωi（θ），u<$架构（例如， p（a）|q，v，θ）=softmax（f θ（q，v）。在Σni=1 ui（θ）/n，Vn. ui（θ）−u<$2/、，Σ110050（n−1）和在使用反事实的情况下，我们可以通过改变分布来重写风险[12]：R（θ）=Eq，vEp（a|q，v）[fθ（q，v），a）]Qγ表示0 γ 1的log（10·/γ）<<，而表示预测答案的函数类的覆盖。以概率对于n≥16，至少有1−γ，我们有=Eq，vEp do（I）|q，v（a|q，v）ΣΣp（a）|q，v，θ）n（fθ（q，v），a）pdo（I）|q，v（a|q，v，θ）R（θ）≤R<$M（θ）+√18VQγ/n+15MQγ/（n−1）110051证据参见补充材料。这个结果意味着，当我们使反事实风险最小化时，我们实现了最小方差。我们注意到，我们可以根据观察结果计算反事实的密度，即。Σ Σp do（I）（q≠，v≠）=E（q，v）<$p（q，v）p do（I）|q，v（q，v）（5）这一结果表明，干预变量（q_∞，v_∞）的密度是观测值的最大值。因此，事实变量、反事实变量和外生变量与以下引理有关：引理5. 我们有下面的反事实对数密度的下限：LSTM不LSTM+PT+PLSTM+CT+C随机84.482.084.5385.2185.6185.56GloVe 84.986.485.7787.187.2488.4表1：使用LSTM（随机初始化，可训练嵌入）测试方法获得的准确度（ % ）。最佳结果以粗体突出显示 T 表示TreeLSTM [40];+P和+C分别表示后验和反事实站着，除了uv或uq被推断并用于反事实生成。斯坦福情感树库（SST）[38]是电影评论的自然语言数据集（在我们的实验中删除了该数据集包含11855个实例，词汇量为17836，5个类。我们遵循[40]的实现，其中使用log（pdo（I）Σ（a，q<$，v<$））≥E（q，v）<$p（q，v）log（pdo（I）|q，vΣ（a）|q，v））用这个数据集。我们使用两个替代基线的嵌入词时使用的抽样方程。(2)：跑-Σ+Eup（u）Σlog（pdo（I）（q，v|u））。dom嵌入和可训练的GloVe [31]初始化了单词嵌入。我们报告5次运行的平均得分，并使用证据参见补充材料。事实上，我们可以证明，即使u不是从真实的生成先验中得出的，我们也可以使用任意分布q，并获得引理5的另一个下界10篇训练在这里，我们将研究嵌入表示的变化如何影响模型的性能由于我们没有图像输入，因此我们仅用先验Beta（0. 1，0。（1）反事实学习Σlog（pdo（I）（a，q<$，v<$））≥E（q，v）<$p（q，v）Σlog g（pdo（I））|q，v（a|q，v））速率设置为0。01. 如表1所示，使用后验（+P模型）或优化的外生变量+Eq[lo g（pd o（I）（q，v|u））]（6）+H（q）− Hq（p）。有效地使用引理5，我们知道，即使用于生成反事实的外生变量的分布偏离从观察获得的真实后验，我们也可以降低反事实的边际，这取决于预测的可能性。（+C）从方程。(3)提高算法精度。正如预期的那样，当预训练的模型被调整时，整体性能更好。当CIFAR-10上只有0.70的视觉数据时，我们进一步评估了我们的ap-0.78方法的泛化性能0.62CIFAR-100图像分类正确答案，真实先验与所用先验的熵差以及反事实示例的可能性5. 实验为了评估我们的方法的性能，我们构建了各种数据集上的实验。我们注意到，我们的方法对所使用的基本模型是不可知的，因此广泛适用于各种应用。优化Eq. (3)，我们使用简单的梯度上升，其中我们将学习速率设置为常数。我们将外生变量的先验值用作Beta（0。1，0。1）除非另有说明，否则用于实验。我们在观察训练和反事实训练之间交替进行。阳离子数据集。特别是我们比较基线架构：VGG-19[35] 、 ResNet-18[21] 、ResNet-101 [20]和DenseNet [22].所有模型在训练集上训练 100 个 epoch ，每个minibatch有128个示例，学习率为0。1，使用SGD并在测试集。学习率为然后减少到0。001年，公元150个纪元。我们使用的插值在输入图像的方程。（二）、在实验中，我们没有观察到任何明显的0 50 100 150(a) 训练中uv的值432100 50 100 150(b) 损失差异图4：CIFAR实验中的培训指标。1100525.1. 单峰问题我们的方法的动机是多模态问题，但它是同样有效的问题，只涉及一个单一的模态。在这种情况下，差异（其他结果见补充材料我们将u v的先验设置为Beta（0. 1，0。1）并运行反事实优化器10次迭代。我们在表 2 中总结了我们的结果在 CIFAR-10 和CIFAR-100分类问题中，110053数据集模型基线我们的+P我们的+CVGG-19九十五04九十五92九十六。73ResNet-18九十三0294 294 91CIFAR-10ResNet-101九十三7594 1九十五34DenseNet-121九十五04九十五92九十六。73VGG-19七十二23七十三。4574岁8CIFAR-100ResNet-1875. 61七十六。5七十七。75ResNet-101七十七。7878岁9八十0DenseNet-121七十七。0179岁。6779岁。67表2：CIFAR实验的测试误差。通过最有价值的改进，表明对答案有更好的反应。我们应该注意到，由于我们的方法是架构不可知的，我们期望在更好的基线上有更多的东西。模态干预的消融研究：在表3中，我们进行了学习干预多模态问题的消融研究，仅通过推断uq（即问题中的干预）或uv（图像中的干预）。即使干预uq，uv都能提高表现，反事实问题也能导致更好的“数字”结果，表明数字答案的问题在基线上存在强烈的偏见。较小的训练集：作为示在图 6, 当训练实例的数量较少时，我们的方法与基线相比实现了显著更好的性能。这是由于我们的方法能够利用反事实的替代实例。表3：VQA-CP检测的最新结果。UpDn+C表示我们的方法基于UpDn基线。（Q+I）表示问题和图像都被介入。使用我们的方法，对VQA v2的影响：我们通过遵循[37，36]中的实现来使用标准VQA v2数据集[18]。由于通过利用该数据集中的统计数据，更容易实现更好的5048.345403530差一点参见图4，方差也在训练期间减小，如定理4中所讨论的，这是一个不确定的过程。25特性能，大增益是不期望的。如图20所示25.4UpDn我们反事实训练的收敛性。正如所观察到的，uv的值随着时间的推移而减小，以找到更难预测的样本。因此，我们的实验表明，我们的方法提供了改进，甚至单峰的问题。在本节中，反事实样本提高了VQA-CP的准确性，而在VQA v2组件中略微提高了其基线。值得注意的是，在广告中-0.1 0.5 1部分培训课程图6：我们的方法与使用部分训练数据的基线的性能。5.2. 多峰问题Visual Question Questioning用于使用两个数据集评估我们的模型：VQA-CP [6]和VQA v2 [18]。VQA-CP是专门设计来衡量VQA模型的泛化能力。由于我们的模型学习了数据是如何生成的，我们希望它对偏置特别鲁棒。我们遵循与[8]相同的培训和评估方案（有关实施细节，请参见补充材料）。对于每个模型，我们报告了标准VQA准确性度量[7]。在这个实验中，我们插入单词/视觉嵌入而不是实际输入来生成反事实。UpDn+Q-Adv+DoE中的对抗训练，VQA v2中的性能下降，表明相同的现象。在图5中，我们展示了来自测试集的给定问题-图像对的反事实样本。这些样本通过以下等式生成：(2)（即：跑在表3中，我们比较了我们的方法，包括我们的基线架构训练与VQA-CP上的额外反事实训练，以及最先进的方法。公平地说，我们只报告了使用[8]中的视觉特征的方法。我们的方法提高了基线超过2每-domly采样另一个问题-图像对和插值嵌入使用表4：我们的方法在VQA v2验证上的性能。Pythia+C是我们对[37]的反事实实现。超过UpDn+Q-Adv+DoE的百分点，其使模型规则化以获得更好的性能。此外，我们的方法从“其他”类别中获益最多来自后验的样本），并随后在测试中找到最接近的实例（嵌入空间中具有最小欧几里得距离的问题或图像40.346.0533.833.2“其他”的准确性模型整体是/否Number其他仅限成人[6]15.9535.0911.637.11拉面[34]39.21---BAN [26]39.31---[第11话]39.5442.8513.1745.04UpDn [8]39.7442.2711.9346.05UpDn+Q-Adv+DoE [33]41.1765.4915.4835.48UpDn+C图片41.0144.6112.3846.11UpDn+C问题40.6242.3314.1748.32UpDn+C（Q+I）42.1245.7212.4548.34模型整体仅限成人[6]25.98BAN [26]69.08[第11话]65.14UpDn [8]63.48UpDn+Q-Adv+DoE [33]62.75皮提亚[37]68.49Pythia+C68.77110054问题图像反事实问题反事实图像这是在澳大利亚吗？1. 草是绿色的吗？2. 地上有草吗？3. 他们是站在一片绿色的草地上吗？4. 停车灯是绿色的吗？这个人的头盔是什么颜色的？1. 那个女孩穿什么颜色的夹克？2. 这个人穿的夹克是什么颜色的？3. 夹克是什么颜色的？4. 那位女士的夹克是什么颜色的？汽车上的阴影是从哪里来的？1. 这是什么狗？2. 这是什么类型的狗？3. 什么样的狗显示？4. 狗的品种是什么？图5：给定第一列中的图像-问题对，从VQA v2测试数据集中找到问题（第二列）和图像（第三列）的最接近实例，对应于生成的反事实（使用外生变量）。集正如所观察到的，有些问题是合理的d T越低越好dT越高越好相反地，给定的模型T−10T-30T−50T−10T-30T−50问题可以问的反事实的图像显示，我们的方法成功地产生了替代品。PACMAN[14]1.394.989.33-0.450.491.66提出了问答式提问（EQA）[14]GRU [14]0.743.998.740.201.482.26作为VQA的一种新变体，其中代理在GRU+C0.673.908.470.261.572.52在3D环境中的随机位置，并问了一个问题其答案需要在环境中探索。我们严格按照[14]的说明进行实验设置。与VQA类似，代理的任务是利用两个视觉（即，来自机器人相机的输入以自我为中心的RGB图像）和语言（即，给出的指令）来回答问题。然而，与VQA不同，该任务的一个显著特征是，最终答案是在代理采取有限数量的中间动作（即，通过选择右、左、直的动作来导航，在我们使用2层GRU来预测的每一步停止）。在训练过程中，每个批次包含一个随机环境，该环境中的一个问题及其相应的答案以及到达目标房间中相应位置的路径。在我们的方法中，我们使用随机采样的环境和问题来干预图像和问题嵌入，以在等式中生成反事实实例。（二）、我们将外生变量uq和uv的先验设置为Beta（0. 75，0。75）。我们基于最短路径轨迹训练模型，以640所房屋内的目标对象特别地，我们考虑三种情况，其对应于距离目标房间10、30和50步，距离对应于0。94，5。47和10。99个分别。在这个实验中，我们测量了智能体正确采取的中间步骤的数量，以增加其与答案房间的接近度结果示于表5中。如图所示，我们的方法允许代理考虑反事实问题和图像，使机器人能够更接近目标房间，并提高表5：EQA导航的评价指标在距离目标位置10步、30步或50步的地方生成智能体，d0显示了这些初始位置与目标位置之间的距离，而dT则显示了从这些初始位置开始并使用最多100步的模型的最终位置与目标位置之间的距离最后，dT=dT−d0衡量智能体向目标的总体进展。GRU+C是我们的。泛化这进一步说明了我们的方法注意，在这个任务中，输出是一系列要预测的动作（在答案之前）。6. 结论在训练数据中关注伪相关性的倾向是限制现代机器学习方法实际应用的关键因素之一。我们已经证明，这种泛化失败可以通过生成一组反事实示例来增加训练数据来部分解决。这是由反事实方法在因果推理中的成功所推动的。我们已经证明了所提出的方法的有效性和通用性的各种各样的问题，包括多模态视觉和语言任务。该方法的另一个优点是，样本生成策略减轻了训练数据的条件独立性假设，这对于大多数真实数据集来说太强了。鸣谢：这项工作得到了DP160100703的部分支持。110055引用[1] Ehsan Abbasnejad，Anthony R.迪克和安东·范登亨格尔。用于半监督学习的无限变分自动编码器。见CVPR，第781-790页。IEEE计算机学会，2017年。[2] 伊桑·阿巴斯内贾德，贾斯汀·多姆克，斯科特·桑纳。损失校准蒙特卡罗行动选择。2015年第29届AAAI人工智能会议[3] Ehsan Abbasnejad，Javen Shi，and Anton van denHengel.深层李普希茨网络和达德利甘斯。2018.[4] 艾赫桑·阿巴斯内贾德，秦峰石，安东·范登·亨格尔，刘灵巧。一种生成对抗密度估计器。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。[5] Ehsan Abbasnejad ， Qi Wu ， Qinfeng Shi ， andAnton van den Hengel.有什么好知道的？不确定性作为提出目标导向问题的指导。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。[6] Aishwarya Agrawal、Dhruv Batra、Devi Parikh和Aniruddha Kembhavi。在IEEE计算机视觉和模式识别会议，2018年6月。[7] 艾西瓦亚·阿格拉瓦尔，陆佳森，斯坦尼斯瓦夫·安托尔，马·米切尔，C.劳伦斯·齐特尼克，德维·帕里克和德鲁夫·巴特拉。VQA：可视化问答。国际计算机目视，123（1）：4[8] Peter Anderson ， Xiaodong He ， Chris Buehler ，Damien Teney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像标题和视觉问题回答。在CVPR，2018年。[9] Peter Auer，Nicolo Cesa-Bianchi，Yoav Freund，and Robert E Schapire. 非随机多臂强盗问题。SIAM journal on computing，32（1）：48[10] Lars Buesing ， Theophane Weber， Yori Zwols ，Nico- las Heess ， Racaniere ， Arthur Guez ， andJean-Baptiste Lespiau. Woulda，coulda，shoulda：反事实引导的策略搜索。在2019年国际学习代表会议[11] RemiCadene ， HediBen-Younes ， NicolasThome，and Matthieu Cord.Murel：多模态关系推理在视觉问题分类中的应用.在IEEE计算机视觉和模式识别CVPR会议上，2019年。[12] 丹尼斯·查尔斯，麦克斯·奇克林，帕特里斯·西马德。反事实推理和学习系统：以计算广告为例。《机器学习研究杂志》，14：3207-3260，2013年11月。[13] 安东·范登亨格尔达米恩·特尼，伊桑·阿巴斯·内贾德。整理数据以改进泛化。arXiv预印本arXiv：2002.11894，2020。[14] Abhishek Das，Samyak Datta，Georgia Gkioxari，Ste- fan Lee，Devi Parikh，and Dhruv Batra.具体化的问题回答。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。[15] Abhishek Das，Satwik Kottur，Khushi Gupta，AviSingh ， Deshraj Yadav ， José M.F.Moura ， DeviParikh，and Dhruv Batra.可视对话框。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。[16] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在 Z. Ghahramani ， M. 威灵角 Cortes ， N. D.Lawrence和K. Q. Weinberger，编辑，神经信息处理系统进展 27 ，第 2672-2680 页。 CurranAssociates，Inc. 2014年[17] Ian J. Goodfellow ， Jonathon Shlens ， ChristianSzegedy.解释和利用敌对的例子。ICLR 2015：InternationalConferenceonLearningRepresentations2015.[18] Yash Goyal 、 Tejas Khot 、 Aishwarya Agrawal 、Douglas Summers-Stay 、 Dhruv Batra 和 DeviParikh。使vqa中的v重要：提升图像理解在视觉问答中的作用。国际计算机Vision，127（4）：398 -414，April2019.[19] Yash Goyal，Ziyan Wu，Jan Ernst，Dhruv Batra，Devi Parikh，and Stefan

下载后可阅读完整内容，剩余1页未读，立即下载