贪婪梯度集成方法解决鲁棒视觉问答中的语言偏差问题

63 浏览量更新于2023-10-14 收藏 1.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1584基于贪婪梯度集成的鲁棒视觉问答韩新哲2，1王淑慧1 *迟苏3黄清明1，2，4齐天51Intell重点实验室。Info.过程.，计算机研究所技术人员：中国科学院，北京2中国科学院大学，北京，中国3金山云，北京，中国4鹏程实验室，深圳，中国5华为技术有限公司云事业部，深圳，中国hanxinzhe17@mails.ucas.ac.cn，wangshuhui@ict.ac.cn，suchi@kingsoft.comqmhuang@ucas.ac.cn，huawei.com摘要语言偏差是视觉问答（VQA）中的一个关键问题，其中模型通常利用数据集偏差来进行最终决策，而不考虑图像信息。因此，他们遭受性能下降的分布外的数据和不充分的视觉解释。在对已有的鲁棒VQA方法进行实验分析的基础上，我们强调了VQA中存在的语言偏差，这种语言偏差来自两个方面：分布偏差和捷径偏差。我们进一步提出了一个新的去偏置框架，贪婪梯度集成（GGE），它结合了多个有偏的模型无偏的基础模型学习。GGE通过贪婪策略，迫使有偏模型优先过拟合有偏数据分布，从而使基模型更加关注有偏模型难以求解的样本。实验表明，我们的多少0516451326432列车试验什么颜色绿灰红白色紫色黑色别人粉红绿灰色红色白色黄色布朗黑色蓝色别人棕色蓝色列车试验(a) 分布偏差这是是是没没列车试验该方法更好地利用了视觉信息，并在诊断数据集VQA-CP上实现了最先进的性能，而无需使用额外的注释。有动物在吃东西吗？(b) 快捷方式偏差回答：是1. 介绍视觉问答（VQA）是一项具有挑战性的任务，需要语言感知推理和图像理解。随着深度学习的进步，对视觉和语言之间的相关性进行建模的神经网络[37，34，6，13，18，17，19，29]在大规模基准数据集上显示出显着的结果[3，15，23，20]。然而，最近的研究表明，大多数VQA方法倾向于依赖于数据集中现有的特异性偏倚[15，24，43]。他们经常利用问题和答案之间的表面相关性来训练模型，而不考虑确切的视觉信息。例如，模型可以针对问题“什么运动……”盲目地回答仅仅基于训练集中最常见的不幸的是，模型利用*通讯作者。图1. VQA中语言偏见的两个方面。（a）分配偏差：某些问题类型的答案分布明显是长尾的。（b）捷径偏差：由模型产生的正确答案可能依赖于问题-答案快捷方式，而不是适当的视觉基础。训练期间的统计捷径通常显示出对域外数据的较差的生成能力，并且几乎不能为某个答案提供适当的视觉证据。目前，这个问题的普遍解决方案可以分为基于集成[36，7，10]，接地-[39][32][33][34]类似于传统长尾分类中的重新加权和重新采样策略[45，25，16，31]，基于集成的方法通过仅问题分支重新加权样本。基于接地的模型强调根据人类注释的视觉解释更好地使用图像信息[11，21]。新提出的反事实的方法-视觉接地1585ods [8，33]进一步结合了这两条工作线并实现了更好的性能。然而，已经表明，现有的方法没有充分利用视觉和语言信息。例如，Shresthaet al. [40]认为，基于接地的方法[39，42]中的改进的准确性实际上并不来自适当的视觉接地，而是来自一些未知的正则化效应。与[40]类似，我们在第3.2节通过对照实验进一步分析了现有工作的所有三类。我们发现VQA中的语言偏差实际上是双重的：（a）训练和测试之间的统计分布差距，即图1（a）中所示的分布偏差，以及（b）特定QA对之间的语义相关性，即，图1（b）所示的短路偏置。虽然训练集的长尾分布通常被认为是增加捷径偏差的因素之一，但我们通过实验证明了它们实际上是语言偏差的两个方面。[39]中的基础监督或[7，10]中的ensemble正则化不一定会迫使模型像预期的那样关注视觉信息。为了鼓励模型关注图像，我们需要明确地对两种偏差进行建模，并逐步减少它们受我们的实证研究结果的启发，我们提出了贪婪梯度集成（GGE），一个新的模型不可知的去偏置框架，集成偏置模型和基本模型，如函数空间中的梯度下降我们方法的关键思想是利用深度学习中的过拟合现象数据中有偏的部分被有偏的特征贪婪地过拟合，结果，期望的基模型可以学习到更理想的数据分布和聚焦很难用有偏见的模型解决的例子。在实验中，GGE模型的变体被提供在消融研究中，这证明了我们的方法的泛化能力，并进一步支持我们的主张，分布偏差和问题捷径偏差是互补的VQA。为了验证模型是否真的可以使用视觉信息来进行答案决策，我们从视觉建模的角度进一步研究了VQA中定量和定性评价表明，GGE可以提供更好的视觉证据伴随着预测。主要贡献如下：本文对VQA任务中的语言偏向进行了分析，将语言偏向分解为分布偏向和捷径偏向。我们提出了一个新的模型不可知的去偏置框架贪婪梯度集成（GGE），顺序集成偏置模型鲁棒VQA。在VQA-CP上，我们的方法更好地利用了视觉信息，并达到了最先进的性能，与17。相对于没有额外注释的简单 UpDn 基线增加 34% 代码可在https：//github.com/GeraldHan/GGE网站。2. 相关工作2.1. 使用数据集构建进行消除数据集偏差的最直接方法比如张等人[43]为所有二元问题收集具有相反答案的互补抽象场景。类似地，引入VQA v2[15]以通过为每个问题添加具有不同答案的相似图像来削弱VQA v1数据集[3]中的语言先验Agrawal等人[1]介绍了一种基于改变先验（VQA-CP）的诊断VQA数据集，该数据集在训练和测试分裂之间具有不同的答案分布。大多数在VQA v2上表现良好的模型在VQA-CP上的准确性显著下降。2.2. 模型设计收集新的大规模数据集是昂贵的。开发对偏差具有鲁棒性的模型至关重要连同 VQA-CP 数据集 [1] ，Agrawalet al.提出了GVQA模型，从答案空间预测中分离视觉概念识别。LDP [22]和GVQE [27]利用问题中的不同信息来更好地表示问题。这些模型需要一个预定义的问题解析器，这使得它们难以实现。另一条工作线从视觉基础开始早期的作品[35，44]直接应用人的基础[11，21]作为注意力地图的监督，但改进是有限的。HINT [39]和SCR [42]将监督注意力地图更改为Grad-CAM，直接鼓励每个对象的贡献与人类注释一致。最近的工作[40]在实验上挑战了[39，42]中视觉接地的有效性，但没有找到一种好方法来测试系统是否实际上是视觉接地的。到目前为止，最有效的解决方案是基于集成的，它制定了一个问题，只有分支作为显式建模语言偏见。Ramakrishnan等[36]引入对抗正则化以从问题中移除答案判别特征。RUBi [7]、LMH [10]和PoE [28]基于仅问题预测重新加权样本Niu等人[33]从因果关系的角度进一步改进集成策略。CSS [8]将基于接地和基于集合的方法与反事实样本合成相结合。Gat等人[14]通过最大化函数熵（MFE）引入正则化，这迫使模型在多模态任务中使用多个信息Nam等人[32]提出了一个通用框架LfF，它从偏置分类器训练去偏置分类器与我们的工作相比，他们主要集中在单模态分类问题，他们的GCE重新加权策略灵活性较差，它依赖于GCE中的超参数，并且只能处理去偏学习中的一对属性。···1586×→∈∈ Q ∈ A→→--一A{|{A}3. 再论VQA3.1. 问题定义对于基本模型，我们认为VQA任务的共同制定给予表1. VQA-CP和VQA v2上代表性方法的实验分析。脚注inv代表Inverse Grounding Annotation，vo代表Vision-only，用于Inverse-Supervision。数据集D={v，q，a}N包括图像V∈V，一个问题我我我i=1iqi和标记答案ai，我们需要优化映射fVQ：VQRC，其产生C个答案候选的分布。不失一般性，函数组成如下：a~i=fθ （vi ， qi ）=c（m（ ev （vi ），eq（qi），其中e v：VRnv× dv是图像编码器，eq：QRnq× dq是问题编码器，m（. ）表示多模态融合或推理模块，以及c（. ）是多层感知分类器。输出是向量a~表示属于每个答案候选的概率。3.2. 语言偏差在最近的工作中，Shresthaet al. [40]实验挑战基于接地的方法[42，39]在VQA-CP [1]上工作的方式。然而，他们并没有提供对语言偏见本身的见解。在本节中，从新的去偏置方法的角度来看，我们提供了VQA-CP和VQA v2上的基线模型UpDn [2]、基于接地的方法HINT [39]、基于集合的方法RUBi [7] LMH [10]和基于反事实的方法CSS [8]的三个对照实验，以讨论VQA中的语言偏置。反向接地注释。为了分析视觉基础的贡献，我们首先使用HINT和CSS-V进行实验，这些实验使用人类注意力作为额外信息。在[40]之后，我们将人类注释区域重要性评分[11]Sh更改为不相关接地Sh′=1Sh.如表1所示，HINTinv和CSS-1的性能分别为Vinv和原来的模型几乎一样。这表明准确度增益不一定来自于查看相关区域[4]。尽管这些模型正确地回答了一些困难的问题，但它们仍然基于语言信息进行预测，而不考虑图像。我们把这种意想不到的解决方案称为视觉模型。第二个实验旨在分析RUBi和LMH中系综分支的功能。对于基础模型，我们只提供视觉特征在没有对答案分类器的多模态融合的情况下：a~i=c（ev（vi））。（二）在基本模型中没有用于分类的问题信息，因此在QA对之间显然没有捷径可走。如表1中所示，RUBi_vo降低很多，但LMH_vo在Accu- racy方面仍以较大幅度超过UpDn_vo除了抑制问题-答案对之间的捷径之外，我们认为LMH的准确性的提高主要来自惩罚训练集中最常见的答案，这导致根据逆分布的更平衡的分类器。这意味着LMH中的分布偏差与RUBi中的问题捷径相比起着不同的作用。平衡分类器的逆向监督。为了直接验证这种“逆分布偏差”是否对于每次迭代，参数被更新两轮，具有不同的监督。在第一轮中，我们训练由地面实况标签监督的模型并得到预测P（a）。具有最高预测概率的前N个答案被选择为a+。在第二轮训练中标签定义为阿一阿一，a i/a+。这strategy实际上是CSS [8]的简化版本，其中出对象/问题掩码。这样，模型在第一轮训练中不断惩罚最有信心的答案，从而根据逆分布偏差构造出一个更加平衡的分类器。UpDnvo的精度提高揭示了分布偏差的存在。RUBi的结果进一步表明，分布偏差和捷径偏差是互补的。LMH甚至可以与使用额外注释的CSS相媲美。然而，该方法导致分布中数据集VQA v2的灾难性退化，如表1所示。根据上述实验，我们获得以下有价值的见解：1）良好的准确性不能保证系统对于答案分类是真正视觉上接地的。基于监督或仅问题的正则化可能会鼓励模型使用逆语言偏差，而不是更好的视觉信息，以获得更高的准确性。2）分布偏误和捷径偏误是VQA中语言偏误的两个互补方面。单个集合分支无法对这两种类型的偏差进行建模。方法VQA-CPVQA 2.0UpDn [2]39.8963.79提示[39]47.5063.38RUBi [7]45.4258.19LMH [10]52.7356.35CSS [8]58.1153.15提示库存47.2060.33CSS-Vinv58.0554.39更新文件33.1845.67RUBivo23.5346.11LMHvo43.6827.18UpDnvo，是39.4440.03UpDn是42.1260.85RUBi是48.4259.10LMH是58.1243.291587Σ− L HHΣB{}M联系我们标准差f（X;θ）+hi（Bi;φi），YD我我Mi=1ΣQ4. 方法基于上述发现，我们提出了GGE，一个新的模型不可知的去偏置学习范式，它逐步消除分布偏差和捷径偏差，从而迫使模型专注于图像。4.1. 贪婪梯度集成令（X，Y）表示训练集，其中X是观测空间，Y是标签空间。在前人的VQA方法的基础上，我们主要考虑了具有二进制交叉熵损失CL（P，Y）=− yilog（pi）+（1−yi）log（1−pi），（3）i=1其中C表示类别的数量其中zi是类别i的预测的logit，并且σ（. ）是sigmoid函数。基线方法直接最小化预测f（X;θ）和标记Y之间的损失minL（σ（f（X; θ）），Y）.（四）在整合所有偏置模型之后，期望的基础模型f被优化为：Lb（θ）= L（σ（f（X; θ）），− L（HM））.（八）在测试阶段，我们只使用基本模型进行预测。更直观地，对于易于通过偏置模型拟合的样本，其损失（M）的负梯度（即，基本模型的伪标签）将变得相对较小。 f（X;θ）将更加关注很难解决以前的集成偏置分类器M。为了使上述范例适应批量S-随机梯度下降（BatchSGD），我们一起实现两个优化调度GGE-迭代和GGE-，如补充中的算法1和算法2所示。GGE-tog联合优化有偏模型和基本模型ML（Θ）= Lb（θ）+Lm（φ m）。（九）m=1θ角由于f（. ）是过参数化的DNN，该模型容易过拟合数据集偏差并且具有较差的泛化能力。对于我们的方法，我们在深度学习中利用了这种假设=B1，B2，. . .，BM是可以基于先验知识提取的一组偏差特征。这一次我们拟合偏置模型和基模型的集合以标记Y. .Σi=1ΣΣ其中h i（. ）是针对某些偏置特征的偏置模型理想地，我们希望数据的有偏部分仅被偏置模型过拟合，从而可以在无偏数据分布的情况下学习基础模型。为了实现这一目标，我们提出了GGE，其中有偏模型具有更高的优先级，以过拟合数据集的贪婪策略。在函数空间中观察，假设我们有Hm=H LH对于GGE-iter，每个模型在某个数据批迭代内迭代更新。有关GGE的更多详细信息，请参见附录A部分。4.2. 鲁棒VQA的在第3节的分析之后，我们定义了VQA的两个有偏特征，即分布偏差和捷径偏差。分布偏倚我们将分布偏差定义为以问题类型为条件的训练集中的一个- swer分布B i=p（a |t）、（10）其中ti表示问题qi的类型。对以问题类型为条件的样本进行计数的原因是在减少分布偏差时保持类型信息。问题类型信息只能从问题中获取，而不能从图像中获取，这不属于需要减少的语言偏向。快捷方式偏差。快捷方式偏差是特定问答对之间的语义相关性。[7]我是一个人，也是一个人。问题捷径偏向作为一个只问问题的分支故，若为（），则为（）。m+hm+1（Bm+1）），Y）de-折痕在理论上，hm+1的期望方向是负方向。L在Hm处的定导数，其中Bi=cq（eq（qi）），（11）其中cq：Q-RC。− L（ Hm，i）：=L（σ（Hm），Y）=2yHm，im，iσ（−2ym，iHm，i）。为了验证我们的观点，分布偏差和捷径偏差是互补的，我们设计了三个版本的GGE（六）对于分类问题，我们只关心类i的概率： σ （ fi（x））0，1。因此，我们将负梯度视为用于分类的伪标签，并优化具有BCE损失的新模型h m+1（Bm+1）：L m+1= L（σ（h m+1（B m+1; φ m+1）），− L（Hm））. （七）Lminφ，θ、（五）hi（Bi），我们希望找到hm+1（Bm+1）加到1588for ensemble合奏of different不同language语言bias偏见.GGE-D仅对集合的分布偏差进行建模，如图2（b）所示。基本模型的损失为L=L（σ（A~），− L（Bd，A）），（12）其中A~是预测，A是标记的答案。1589--2QD×个(a) 基线（b）（c）GGE-Q（d）GGE-DQ图2. 不同版本的GG E。 V、Q和A~表示关于水平的图像、问题和答案预测。A是人类注释的标签。Bd和Bq分别表示分布偏差和问题捷径偏差的预测值GGE-Q仅针对捷径偏差使用仅问题分支。如图2（c）所示，我们首先用带标签的答案L1= L（σ（Bq），A）.（十三）基本型号的损失为L2=L（σ（A~），− L（σ（Bq），A））。（十四）GGE-DQ使用分布偏差和问题捷径偏差两者如图2（d）所示，Bq的损失为L1= L（σ（B q），− L（B d，A））.（十五）基本型号的损失为L=L（σ（A~），− L（σ（B）+B，A））。（十六）我们测试两个GGE-iter或GGE-tog为L1和L2。4.3. 连接到升压Boosting [12，38，38，9]是分类问题中广泛使用的集成策略。Boosting的核心思想是将多个具有高偏差但低方差的弱分类器组合起来，以产生具有低偏差和低方差的强分类器每个基本学习器必须足够弱，否则，前几个分类器将容易过度拟合训练数据[5]。然而，神经网络在本文中，我们的方法利用这种过拟合现象，使偏置弱特征过拟合的偏差分布。在测试阶段，我们只使用有偏模型的梯度训练的基础模型，从而消除了VQA中的语言偏见。另一方面，近似负梯度的想法与梯度增强[30]非常相似。然而，梯度增强必须贪婪地学习弱学习者依次这对于经由反向传播的复杂神经网络来说将是昂贵的。我们设计了两种学习策略，GGE-迭代和GGE-一起，其中学习器随着Batch SGD一起更新。5. 实验实验在语言偏差敏感的VQA-CP v2 [1]和标准VQAv2 [15]上进行。考虑到VQA-CP没有验证集，我们简单地选择最后一个训练时期中的模型，以在随后的实验中进行比较。更多实施细节可在补充文件的C节中找到。5.1. 评估指标对于每个模型，我们比较准确度，标准VQA评价指标[3]。此外，一个强大的VQA模型-el预计将利用视觉和语言信息，但良好的准确性并不足以表明该系统是良好的视觉基础，根据第2节的分析。3.第三章。在[40]中，提出了一种新的度量正确预测但不正确接地（CPIG），以定量评估VQA中的视觉接地。如果正确答案的地面实况区域（例如，HAT [21]）在模型的前N个最敏感的视觉区域内为了方便起见，我们定义1个CPIGCGR（Correct Grounding for Right Prediction）：%CGR=Nrg，rp100%，（17）Nrp其中，Nrp是正确预测的总数，Nrg，rp是以正确的视觉基础正确回答的实例的数量。然而，与[40]中的结果类似，我们发现CGR在不同方法中的区分性不强，如补充中的表 2 所示。具有高 CGR 的模型（例如，UpDn）可能实际上没有使用足够的视觉信息来进行分类。如果一个模型VVQA模型QVVQA模型BDVVQA模型QA分类器L2VVQA模型QA分类器1590×个∼表2. VQA-CP v2测试集和VQA v2 val集的最新方法的实验结果。最佳和第二性能在每列中突出显示。带 * 的方法使用额外的注释（例如，人类注意力（HAT）、解释（VQA-X）或对象标签信息）。CGD方法是我们使用已发布代码的重新实现。其他结果在原始文件中报告。方法基础VQA-CP测试VQA v2值定位正确的对象，但仍然产生错误的答案，它是一个安全的赌注，它严重依赖于语言偏见，而不是图像的预测。为了定量评估模型是否使用视觉信息进行答案决策，我们引入CGW（正确的基础但错误的预测）：%CGW=Nrg，wp100%，（18）NWP其中，Nwp是错误预测的数量，Nrg，wp是模型提供正确视觉证据但错误预测的实例的数量坏的情况，如图2中UpDn的示例2和3。4被CGR忽略，但可以被高CGW识别。为了更清楚地比较，我们将CGR和CGW的差表示为CGD（正确接地差）：%CGD = %CGR − %CGW。（十九）CGD只评估视觉信息是否被用于答案决策，这与准确性平行。CGD的关键思想是，实际使用视觉信息的模型不仅应该基于正确的视觉基础提供正确的预测，而且还应该提供由于不适当的视觉证据而导致的错误答案。所有实验的详细CGR和GCD提供于补充中的表2中。其示出UpDn、HINTinv和CSS-Vinv在准确性上实现相当的性能，但在CGD上显著降级。这符合我们的直觉分析，即这些方法没有充分利用视觉信息进行答案决策。虽然视觉基础注释对于一些实例不是那么可靠1，CGD可以从整个数据集级别提供统计上更好的区分。有关CGD的更多详细信息，请参见附录B部分。5.2. 与最先进方法的我们将我们的最佳表现模型GGE-DQ与现有的最先进的偏差减少技术进行比较，包括基于视觉接地的方法 HINT [39] 、 SCR [42] 、基于集合的方法AdvReg.[36] 、 RUBi [7] 、 LM （ LMH ） [10] 、 MFE[14]、基于新问题编码的方法GVQE [27]、DLP [33]、基于反事实的方法CF-VQA [33]、CSS [8]以及最近提出的正则化方法MFE [14]。在VQA-CP测试集上的实验旨在评估VQA模型是否有效地减少语言偏见。如表2所示，GGE-DQ在没有额外注释的情况下实现了最先进的性能与基准模型UpDn相比，GGE的准确率提高了17%，CGD提高了13%在相同的基本模型UpDn下，我们的方法达到了最佳的性能。在准确性和CGD的性能，与5%的增益比较，paring所有其他方法，甚至与使用更强的基础模型的方法竞争为了比较问题类型的结果，incor-1并非VQA v2中的所有示例都在VQAX中注释[11]。而且，在某些情况下，视觉基础很难评估（例如，需要全局图像信息或不涉及对象的问题）所有Y/NNum.别人CGD所有Y/NNum.别人GVQA [1]-31.3057.9913.6822.14-48.2472.0331.1734.65UpDn [2]-39.8943.0112.0745.823.9163.7980.9442.5155.78S-MRL [7]-38.4642.8512.8143.20-63.10---提示 *[39]UpDn47.5067.2110.6746.8010.3463.3881.1842.1455.66SCR*[42]UpDn49.4572.3610.9348.02-62.278.841.654.4高级注册[36个]UpDn41.1765.4915.4835.48-62.7579.8442.3555.16RUBi [7]UpDn45.4263.0311.9144.336.2758.1963.0441.0054.43LM [10]UpDn48.7870.3714.2446.4211.3363.2681.1642.2255.22LMH [10]UpDn52.7372.9531.9047.7910.6056.3565.0637.6354.69DLP [22]UpDn48.8770.9918.7245.57-57.9676.8239.3348.54GVQE*[27]UpDn48.75----64.04---CSS*[8]UpDn41.1643.9612.7847.488.2359.2172.9740.0055.13CF-VQA（总和）[33]UpDn53.6991.2512.8045.23-63.6582.6344.0154.38GGE-DQ-iter（我们的）UpDn57.1287.3526.1649.7716.4459.3073.6340.3054.29GGE-DQ-tog（我们的）UpDn57.3287.0427.7549.5915.2759.1173.2739.9954.39RUBi [7]S-MRL47.1168.6520.2843.18-61.16---GVQE*[27]S-MRL50.1166.3527.0846.77-63.18---CF-VQA（总和）S-MRL54.9590.5621.8845.36-60.7681.1143.4849.581591∼转表3. VQA-CP v2测试集上不同版本GGE的消融研究最佳结果在列中突出显示。方法所有Y/N别人Num.CGD基线39.8943.0145.8011.883.91求和DQ35.4642.6638.0112.383.10LMH+RUBi51.5474.5547.4122.656.12GGE-D48.2770.7547.5313.4214.31GGE-Q-iter43.7248.1748.7814.246.70GGE-Q-tog44.6247.6448.8914.346.63GGE-DQ-iter57.1287.3549.7726.1616.44GGE-DQ-tog57.3287.0449.5927.7515.27图3. GGE的三种变体的预测分布移植GGE减少了偏差并提高了所有问题类型的表现，特别是更具挑战性的CF-VQA [33]在Y/N中表现最好，但在所有其他指标中比我们的方法差。LMH [10]、LMH-MFE [14]和LMH-CSS [8]在数量上优于其它方法并且LMH-CSS由于在Num.（40.73%）。比较LM和LMH，可以明显看出在Num.是由于熵的额外正则化然而，具有熵正则化的方法在VQA v2上下降了近10%。这表明，这些模型可能会过度纠正的偏见，并在很大程度上使用5.3. 消融研究在这一节中，我们设计了各种消融来验证贪婪集成的有效性和我们的主张，即分布偏见和问题捷径偏见是语言偏见的两个方面。有关VQA v2的更多结果，请参见补充文件的D节。第一组消融是为了验证贪婪集成是否可以保证用有偏模型学习有偏数据。我们比较了其他两个集成策略。SUM-DQ直接将有偏模型和基本模型的输出相加。LMH+RUBi组合了LMH [10]和RUBi [7]。它减少了LMH的分布偏差和RUBi的捷径偏差。这两次消融的实施细节见补充资料C节。如表3所示，SUM-DQ表现甚至比基线更差。同时，LMH+RUBi的精度与LMH的精度相似，比GGE-DQ差约6%这表明，GGE确实可以强制有偏数据使用有偏模型顺序学习。基于分布或捷径偏差容易预测的实例将由相应的偏差模型很好地拟合。因此，基础模型必须更多地关注硬示例，并考虑更多的视觉信息以用于最终决策。在第二组实验中，我们通过实验比较了分布偏差和捷径偏差。图3中的案例分析表明，GGE-D仅均匀预测如表3所示，其主要改善Y/N。BQ的工作原理类似于在该示例中为“镜像”和“否”）。在第一阶段减小Bd可以进一步鼓励发现困难示例并且迫使基础模型捕获视觉信息。在图3中，正确答案具有更高的置信度，并且顶部预测都基于图像。如表3所示，GGE-DQ超过单偏置版本10%。这很好地验证了我们的主张，即分布偏误和捷径偏误是语言偏误的两个互补方面。5.4. 广义一般均衡自我合奏。GGE的性能很大程度上依赖于预定义的有偏特征，这需要任务或数据集的先验知识，为了进一步讨论GGE的推广性，我们在VQA-CP上测试了一种更灵活的GGE-SF将联合表示 ri=m（ev（ vi），eq（qi））本身作为偏置特征，而不是预定义的仅问题分支，偏置预测为Bsi=cs（ri），（20）其中cs：rRC是偏置模型的分类器。培训过程与GGE-Q相同。如表4所示，即使没有预定义的偏置特征，GGE-SF仍然超过基线。这意味着基础模型本身也可以被视为有偏模型，只要任务或数据集有足够的偏置。此外，如果我们在自集成之前首先用GGE-D去除分布偏差，则GGE-D-SF的性能也与现有的最先进的方法相当。损失函数的推广为了与以前的工作进行公平的比较，我们采用Sigmoid+BCE损失进行上述实验。实际上，GGE对分类损失是不可知的。我们在表4中提供了Soft-max +CE损失的额外实验。GGEsxce的实施在补充文件的A节中提供。基础模型的概化。GGE对于基本模型选择也是不可知的。我们提供了使用BAN [26]和S-MRL [7]作为基础模型的额外实验有关结果载于补充文件1592图4. GGE-DQ的定性评价。我们提供了UpDn和GGE-DQ之间的最敏感区域的可视化和前5个答案的置信度的比较。红色的答案表示地面实况。表4. VQA-CP v2上GGE的变体。SF代表Self-Ensemble，sxce表示使用softmax+CE损失训练的模型。方法所有Y/N别人Num.UpDn39.8943.0145.8011.88更新请求41.3745.9646.9012.46GGE-SF-iter44.5350.9848.9018.24GGE-SF-tog43.1049.9047.3317.74GGE-D-SF-iter56.3386.4349.3224.37GGE-D-SF-tog52.8676.2549.4620.56GGEsxce-D53.9886.0647.8515.09GGEsxce-Q-iter52.9882.2748.0614.97GGEsxce-Q-tog52.9981.8647.9716.11GGEsxce-DQ-iter56.2585.0848.5624.78GGEsxce-DQ-tog55.8484.4748.7626.965.5. 定性评价图4中的示例示出了GGE-DQ如何利用视觉信息进行推断。从上到下，我们提供了来自基线UpDn的三个代表性失败案例。第一个例子是关于捷径偏见。尽管提供了正确的答案“是”，但UpDn的预测并不是基于正确的视觉基础。相反，GGE正确地将正在吃树叶的长颈鹿第二个例子是关于分布偏差。UpDn正确地将窗帘接地，但仍然基于分布偏差回答问题（在火车上）。最后一个例子是减少语言先验的情况，除了是/否问题。UpDn只是根据语境“在水里”回答和“电视”更突出的视觉基础。这些例子定性地验证了我们在预测的准确性和视觉解释方面的改进。更多示例和故障案例可参见补充资料。6. 结论在本文中，我们实验分析了几种方法，强大的VQA，并提出了一个新的框架，以减少语言偏见的VQA。我们证明了VQA中的语言偏好可以分解为分布偏好和捷径偏好，并提出了一种贪婪梯度集成策略来逐步消除这两种偏好。实验结果证明了我们的偏见分解的合理性和GGE的有效性。我们相信GGE背后的想法是有价值的，并有可能成为数据集偏差问题的通用方法。在未来，我们将扩展GGE来解决其他任务的偏差问题，提供更严格的分析，以guarantee模型收敛，并学习自动检测不同种类的偏差功能没有先验知识。确认本工作部分由中国国家重点研发 & 计划资助2018AAA0102003，部分由中国国家自然科学基金资助：62022083、61620106009、61836002和61931008中国科学院前沿科学重点研究计划：QYZDJ-SSW-SYS 013，部分由北京新星计划在Z201100006820023号资助下完成。作者感谢金山云提供免费的GPU计算支持。1593引用[1] Aishwarya Agrawal ， Dhruv Batra ， Devi Parikh ， andAnirud- dha Kembhavi.不要只是假设;看一看并回答：有视觉问答的前科。在IEEE计算机视觉和模式识别会议论文集，第4971-4980页，2018年。二三五六[2] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议集，第6077三、六[3] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议论文集，第2425- 2433页一、二、五[4] 白冰、梁健、张冠华、李昊、白坤、王飞。为什么注意力不那么集中？ arXiv 预印本 arXiv ： 2006.05656 ，2020。三个[5] Peter J Bickel ， Yaacov Ritov ， and Alon Zakai. 广义boosting算法的一些理论。Journal of Machine LearningResearch，7（May）：705-732，2006. 五个[6] Remi Cadene、Hedi Ben-Younes、Matthieu Cord和Nico-las Thome 。Murel：Multimodal relational reasoning forvisual question answering.在IEEE计算机视觉和模式识别会议论文集，第1989一个[7] Remi Cadene，Corentin Dancette，Matthieu Cord，DeviParikh，et al. Rubi：Reducing unimodal biases for visualquestion answering. 神经信息处理系统的进展，第841-852页，2019年。一二三四六七[8] 陈龙，辛燕，肖军，张汉王，蒲世良，庄月婷。用于鲁棒视觉问答的反事实样本合成。在IEEE/CVF计算机视觉和模式识别会议论文集，第10800-10809页，2020年。一二三六七[9] 陈天琦和卡洛斯·格斯特林。Xgboost：一个可扩展的树提升系统。第22届ACM Sigkdd知识发现和数据挖掘国际会议论文集，第785-794页，2016年。五个[10] Christopher Clark，Mark Yatskar，and Luke Zettlemoyer.不要走捷径：用于避免已知数据集偏差的基于集成的方法。在2019年自然语言处理经验方法会议和第9届自然语言处理国际联合会议的会议中，第4060-4073页，2019年。一二三六七[11] Abhishek Das 、 Harsh Agrawal 、 Larry Zitnick 、 DeviParikh和Dhruv Batra。视觉问题回答中的人类注意力：人类和深层网络会关注同一个区域吗？计算机视觉和图像理解，163：90一、二、三、六[12] 约阿夫·弗罗因德通过多数提升弱学习算法。信息与计算，121（2）：2565[13] Peng Gao ，Huxuan You，Zhanpeng Zhang，XiaogangWang，and Hongsheng Li.多模态潜在交互网络的可视化问答。arXiv预印本arX-iv：1908.04289，2019。一个[14] 伊泰·加特，伊丹·施瓦茨，亚历山大·施维因，塔米尔·哈赞.消除多模态分类器中的偏差：通过最大化函数熵进行正则化。神经信息处理系统，33，2020。二六七[15] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。让vqa中的v变得重要：提升图像理解在视觉问答中的作用。在IEEE计算机视觉和模式识别会议论文集，第6904-6913页，2017年。一、二、五[16] Suchin Gururangan 、 Swabha Swayamdipta 、 OmerLevy 、 Roy Schwartz 、 Samuel R Bowman 和 Noah ASmith。自然语言推理数据中的注释工件。在NAACL中-HLT（2），2018年。一个[17] Ronghang Hu，Jacob Andreas，Trevor Darrell，and KateSaenko.通过堆栈神经模块网络进行可解释的神经计算。在欧洲计算机视觉会议论文集，第53-69页，2018年。一个[18] Ronghang Hu ， Jacob Andreas ， Marcus Rohrbach ，Trevor Darrell，and Kate Saenko.学习推理：用于可视问答的端到端模块网络。在2017年IEEE国际计算机视觉会议上一个[19] Ronghang Hu

下载后可阅读完整内容，剩余1页未读，立即下载