对抗性VQA：评估VQA模型鲁棒性的新基准

151 浏览量更新于2023-10-13 收藏 14.96MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

more sophisticated model designs [12, 27], large-scale pre-training [30, 41, 7, 42, 55] and adversarial training [11],today’s VQA models are still far from being robust enoughfor practical use. There are some works studying the robust-ness of VQA models, such as their sensitivity to visual con-tent manipulation [1], answer distribution shift [2], linguis-tic variations in input questions [39], and reasoning capa-bilities [13, 38]. However, current robust VQA benchmarksmostly suffer from three main limitations: (i) designed withheuristic rules [13, 2, 1]; (ii) focused on a single type ofrobustness [38, 39, 13]; (iii) based on VQA v2 [14] images(or questions), which state-of-the-art (SOTA) VQA modelsare trained on [13, 2, 1, 38, 39]. The images [1] or ques-tions [13, 17] are often synthesized, not provided by human.In addition, previous data collection procedures on VQAbenchmarks are often static, meaning that the data samplesin these datasets do not evolve, and model performance cansaturate on the ﬁxed dataset without good generalization.For example, model accuracy on VQA v2 has been im-proved from 50% [4] to 76% [54] since inception. Simi-larly, on robust VQA benchmarks, a recent study [28] has20420对抗性VQA：评估VQA模型鲁棒性的新基准0adversarialvqa.github.io0Linjie Li 1, Jie Lei 2, Zhe Gan 1, Jingjing Liu 301 Microsoft 2 UNC Chapel Hill 3 清华大学0{lindsey.li, zhe.gan}@microsoft.com0jielei@cs.unc.edu, JJLiu@air.tsinghua.edu.cn0摘要0受益于大规模预训练，我们已经见证了在流行的视觉问答（VQA）任务上的显著性能提升。尽管取得了快速进展，但当遇到野外的例子时，这些最先进（SOTA）模型是否具有鲁棒性仍然不清楚。为了研究这个问题，我们引入了对抗性VQA，这是一个新的大规模VQA基准，通过对抗性的人与模型在环中的迭代过程进行收集。通过这个新的基准，我们发现了几个有趣的发现。（i）令人惊讶的是，我们发现在数据集收集过程中，非专家标注员可以轻松成功地攻击SOTAVQA模型。（ii）无论是大规模预训练模型还是对抗性训练方法，在新的基准上的表现都远远不如标准VQAv2数据集，揭示了这些模型的脆弱性，同时证明了我们对抗性数据集的有效性。（iii）当用于数据增强时，我们的数据集可以有效提升其他鲁棒VQA基准上的模型性能。我们希望我们的对抗性VQA数据集能够为社区的鲁棒性研究带来新的启示，并成为未来工作的宝贵基准。01. 引言0视觉问答（VQA）[4]是一个任务，给定一张图像和一个关于它的问题，模型提供一个开放式答案。成功的VQA系统可以应用于实际场景，如辅助视觉障碍人士的聊天机器人。在这些应用中，VQA模型应该能够处理从识别到推理的各种问题类型，并根据图像中的证据忠实地回答问题。虽然近年来在流行的VQA数据集[14]上的模型性能已经取得了进展[4, 19, 3, 50, 9, 43,54]，通过更好的视觉表示[18, 54]，更复杂的模型设计[12, 27]，大规模预训练[30, 41, 7, 42,55]和对抗性训练[11]，但今天的VQA模型对于实际应用来说仍然远远不够鲁棒。有一些研究研究了VQA模型的鲁棒性，比如对视觉内容操纵的敏感性[1]，答案分布的变化[2]，输入问题的语言变化[39]和推理能力[13,38]。然而，当前的鲁棒VQA基准主要存在三个主要限制：（i）设计有启发式规则[13, 2,1]；（ii）专注于单一类型的鲁棒性[38, 39, 13]；（iii）基于VQAv2[14]的图像（或问题），这是最先进（SOTA）VQA模型训练的数据集[13, 2, 1, 38,39]。图像[1]或问题[13,17]通常是合成的，而不是由人类提供的。此外，以前的VQA基准上的数据收集过程通常是静态的，这意味着这些数据集中的数据样本不会演化，模型性能在固定数据集上可能会饱和，没有良好的泛化能力。例如，自从VQAv2问世以来，模型的准确率已经从50%[4]提高到76%[54]。类似地，在鲁棒VQA基准上，最近的一项研究[28]表明...0图1：数据收集示例的插图。工人们尝试通过对图像提出困难的问题最多5次来攻击VQA模型，并在最后一次尝试中成功。绿色（红色）表示正确（错误）的答案。20430发现预训练模型可以大大提升最先进技术水平。然而，当遇到野外的例子时，这种高性能能否得到保持仍然不清楚。为了建立一个有机演化的基准，我们引入了对抗性VQA（AVQA），这是一个新的大规模VQA数据集，通过人与模型在环中启用训练（HAMLET）[47]动态收集。AVQA基于不同领域的图像构建，包括来自概念字幕[40]的网络图像，来自Fakeddit[32]的用户生成图像以及来自VCR[52]的电影图像。我们的数据收集是迭代的，可以永久进行。我们首先要求人类标注员创建当前最佳模型无法正确回答的示例（图1）。这些新注释的示例暴露了模型的弱点，并被添加到训练数据中以训练更强大的模型。重新训练的模型经过相同的过程，并且收集可以进行多轮迭代。每轮结束后，我们训练一个新模型并设置一个新的测试集。通过这种方式，不仅结果数据集比现有基准更具挑战性，而且这个过程还产生了一个“移动的目标”用于VQA系统，而不是最终会饱和的静态基准。通过这个新的基准，我们对VQA模型在多个维度上的鲁棒性进行了全面的定量评估。首先，我们首次研究了人类对VQA模型进行对抗性攻击时的脆弱性。其次，我们在提出的数据集上对几个SOTAVQA模型进行了基准测试，揭示了VQA模型的脆弱性。我们观察到与VQAv2和其他鲁棒VQA基准相比，性能显著下降，这证实了我们的观点，即现有的VQA模型不够鲁棒。同时，这也证明了这些对抗性示例的可转移性-使用一组模型收集的数据样本对其他模型也具有挑战性。第三，由于我们的标注员可以针对不同类型的鲁棒性提出不同类型的问题，我们的分析显示SOTA模型在各种问题类型上都存在问题，特别是计数和推理。我们的主要贡献总结如下。（i）为了更好地评估VQA模型的鲁棒性，我们引入了一种通过人与模型在环中动态收集的新的VQA基准。（ii）尽管在VQAv2和鲁棒VQA基准上取得了快速进展，但我们对新数据集的评估表明，SOTA模型远未达到鲁棒性。事实上，他们在人类标注员的攻击下极易受到攻击，平均只需2次尝试即可成功。（iii）我们提供了一份全面的分析，以分享对当前模型的不足之处以及与其他鲁棒VQA基准的比较。02. 相关工作0VQA模型的鲁棒性研究一直备受关注。VQA-CP[2]是通过对VQAv2[14]中的示例进行重新排列构建的第一个鲁棒的VQA基准，旨在评估VQA模型中的问题导向语言偏见。GQA-OOD[22]在VQA-CP的基础上进行了改进，并提出了评估分布内和分布外差异的性能差异。除了语言偏见，VQA-Rephrasings[39]通过收集VQAv2问题的人工重述来揭示VQA模型对问题中的语言变化的脆弱性。CausalVQA[1]研究了对语义图像操作的鲁棒性，并测试了对干净图像和相应编辑图像的问题的预测一致性。进一步的研究调查了对推理的鲁棒性。例如，[38]为VQA数据集的新推理分割收集了与每个问题相关的感知相关子问题。[13]通过VQAv2中的yes/no问题的逻辑组合测试模型的逻辑推理能力。GQA[17]提供了基于规则的大规模问题，这些问题来自于地面真实场景图，可以测试VQA模型在位置推理和关系推理上的能力。尽管在评估VQA模型的鲁棒性方面不断努力，但这些工作大多集中在单一类型的鲁棒性上，并且基于原始的VQAv2数据集，通过给定现有的VQA示例进行另一轮问题收集，或者通过对当前示例进行自动转换或操作。相比之下，我们使用不同的图像来源，并通过允许人类标注员直接攻击当前最先进的VQA模型来收集一个新的具有挑战性的VQA基准。0模型参与的数据收集在最近几年，NLP社区对于模型参与的数据收集过程越来越受到关注。在这种设置中，模型在收集过程中被用来识别预测错误的、更具挑战性的示例。这些模型可以作为后处理过滤器[53, 5]，也可以在注释过程中直接使用[49, 34,5]。在ANLI[34]中，模型参与的策略被扩展为“人类和模型参与的训练”(HAMLET)设置，其中数据收集在多个回合中进行，并且在每个回合中，模型通过使用从前几轮收集的示例进行训练来更新为更强大的版本。ANLI的目标是创建一个可以随着模型能力的快速提升而不断增长的自然语言推理(NLI)数据集。与随着模型变得更强大而最终饱和的静态数据集不同，使用HAMLET过程创建的数据集是动态的——如果测试集随着更强大的模型饱和，可以使用这个更强大的模型来辅助收集一组新的困难示例，从而为社区提供一个永无止境的挑战。同时，HAMLET过程的对抗性特性也有助于识别现有模型的弱点和漏洞，以及存在的偏见或注释工件[15, 35,26]。20440模型答案0问题 1. 编写02. 预测0训练验证测试0图片 + 问题 +0人类回答03.1 攻击成功，验证问题，收集更多答案0图片 + 问题 + 模型0答案（步骤3.2）03.2 攻击失败，重新编写04. 重新训练模型进行下一轮03. 判断0验证0图2：我们对对抗性数据收集过程的概述，针对单个回合。该过程可以看作是由两方参与的游戏，即人类标注员和训练有素的模型。给定一张图片，标注员试图通过提出一个棘手的问题来攻击模型（步骤1），然后模型预测问题的答案（步骤2）。接下来，人类标注员判断模型答案的正确性（步骤3）。如果模型答案被判断为“明显错误”，即攻击成功，那么我们验证该问题并收集更多的答案（步骤3.1）。否则，攻击失败，标注员需要写另一个问题来攻击模型（步骤3.2）。验证集和测试集只包含成功攻击的问题，而训练集还包含攻击失败的问题。0现有数据集[6, 46,26]。除了在NLI任务中的应用之外，HAMLET过程还被证明对于收集视频和语言未来预测任务的更具挑战性的示例也是有用的[26]。03. 对抗性VQA数据集0在本节中，我们详细介绍了AVQA数据集。第3.1节解释了数据收集流程。第3.2节和第3.3节介绍了数据统计和与其他数据集的比较。03.1. 数据收集流程0HAMLET数据收集过程可以被看作是由两方参与的游戏：人类注释者和训练有素的模型。人类注释者作为对手与模型竞争，并试图设计对抗性示例来识别其漏洞。在收集足够的示例之后，模型使用收集到的数据增强其训练以抵御类似的攻击。对于VQA，我们将对抗性示例定义为模型错误回答的自然图像上的对抗性问题。如图2所示，给定一张图像，人类注释者试图编写一个棘手的问题，VQA模型可能会失败。一旦问题提交，将立即向工作者显示在线模型预测。然后，同一注释者根据模型答案判断其是否“肯定正确”，“肯定错误”或“不确定”。如果模型预测为“肯定错误”，则攻击成功，并且我们进一步要求注释者提供正确答案。否则，注释者需要编写另一个问题，直到模型预测错误答案，或者尝试次数超过阈值（5次）。为了避免注释者采取捷径导致明显无效的问题（例如，对模型预测的不真实判断，与图像内容无关的问题），我们还启动了一个答案注释任务。成功攻击的问题将提供给其他9个注释者以收集额外的答案。0以及他们对答案的自信程度（“有信心”，“可能”和“不自信”）。在后处理过程中，删除收到少于6个“有信心”答案并且在10个注释者中没有答案一致性的问题。最后，每个图像呈现给3个工作者进行问题收集，并且每个图像-问题对呈现给10个注释者进行答案收集。这个过程可以连续部署多个回合。在每一轮中，我们通过使用从之前回合收集的额外数据对模型进行重新训练来加强模型。这种被攻击模型的“动态”演化允许在后续回合中收集到“更难”的问题。在我们的设置中，我们在亚马逊众包上进行了3轮数据收集。然而，这个数据收集可以是一个永无止境的过程，因为我们可以随时用在未来收集的新数据上训练的更强大的模型或更好的架构来替换被攻击的模型。第一轮（R1）对于第一轮，我们使用从VQA v2 [14]和VGQA[23]中的示例训练的VQA模型作为起点。为了避免收集到的问题过度拟合到单个模型或单个架构的漏洞，对于每个用户问题，我们从LXMERT [43]，UNITER-B [9]和UNITER-L[9]中随机选择一个模型作为被攻击模型生成答案。由于它们在VQAv2上的强大性能，我们选择LXMERT和UNITER作为两流和单流预训练V+L模型的代表。我们使用从ConceptualCaptions[40]中采样的图像进行注释。总共，我们收集了38.7K个经过验证的问题和28.2K个未经验证的问题，涵盖了13.7K个图像，并将经过验证的示例分为60% / 10% /30%的训练/验证/测试集。所有未经验证的示例也被添加到训练集中。第二轮（R2）对于第二轮，我们使用来自VQAv2，VGQA和R1的训练集的问题对我们的模型进行重新训练，并选择LXMERT的最佳模型检查点。01 验证问题都是成功攻击的问题。VQA-Reph.COCO-162K/-----/162K/-VQA-Intro.-238K/----222K/-/93KVQA-LOL Comp.-1.25M/----916M/43K/291KVQA-LOL Supp.-2.55M/----1.9M/9k/669KVQA-CP v2--/----438K/-/220KIV-VQACOCO†357K376K/----257K/11.6K/108KCV-VQA18.0K12.7K/----8.5K/0.4K/3.7KR1CC13.7K93.1K/45.6K48.9/35.21.6/171.053.6K/3.3K/10.0KR2CC13.1K70.4K/37.8K56.1/49.01.5/154.242.8K/2.7K/8.3KR3Various11.1K79.5K/40.3K50.7/34.41.6/157.345.9K/2.7K/8.1KAVQAVarious37.9K243.0K/123.7K50.9/38.11.6/161.3142.1K/8.7K/26.4K20450数据集图像来源 #图像是否通过众包收集 #IQ 模型错误率（%） #尝试次数时间（秒）数据拆分0总计/验证总计/验证平均/中位数每个验证示例训练/验证/测试0以前的鲁棒VQA数据集0我们的0表1：数据统计。‘模型错误率’是模型错误的示例的百分比；‘验证’是具有10个答案注释的问题。R3的图像来自各个领域：ConceptualCaptions（CC）[40]，VCR [52]和Fakeddit [32]。我们根据COCO[8]图像将我们的数据集与以前的鲁棒VQA数据集进行比较。对于图像-问题对的数量（＃IQ）和图像（＃Image），我们仅报告每个数据集中生成/收集的新示例的数量。†表示图像不是自然的，而是经过编辑的。‘IsCollected’表示数据是否通过众包收集。0基于R1的验证集，我们随机抽样UNITER-B和UNITER-L。同样，我们每次随机选择一个模型供工作者攻击。我们使用一组新的不重叠的ConceptualCaptions图像。总共，我们收集了23.5K个经过验证的问题和19.3K个未经验证的问题，涵盖了13.1K个图像，并以类似的方式划分数据。0第三轮（R3）对于第三轮，我们从不同领域包括更多多样化的图像：（i）来自Conceptual Captions[40]的网络图像；（ii）来自Fakeddit[32]的用户生成图像；以及（iii）来自VCR[52]的电影帧图像。被攻击的模型仍然是从LXMERT，UNITER-B和UNITER-L中随机抽样，但我们将R1和R2的训练集添加到训练数据中。0总结最后，将R1，R2和R3收集的数据合并起来，形成我们提出的AVQA数据集。最终，我们收集了37.9K个图像上的243.0K个问题，其中在训练/验证/测试拆分中有142.1K/8.7K/26.4K个图像。03.2. 数据统计0新数据集的数据统计总结如表1所示。我们每个图像收集的示例数量在每一轮中有所变化，从R1的每个图像约6.8个问题开始，到R2的约5.4个问题，再到R3的约7.2个问题。在R1和R2的相同图像领域下，我们怀疑注释者比模型更快地学会了识别模型的漏洞。我们在第4.1节和第4.4节进行了进一步的分析。一方面，注释者在识别这些模型的漏洞方面变得更好。第4.4节中对每一轮的问题类型的分析显示，工作者倾向于在某些类别中提出更多问题，例如“计数”，“OCR”和“常识推理”，而模型更容易失败。另一方面，尽管被攻击的模型通过R1的验证集得到了加强，但从R1到R3的模型错误率没有显著下降。0数据增强，模型似乎无法有效地从对抗性示例中学习。对于每一轮，我们报告模型的错误率，包括验证和所有示例。在“总计”下报告的模型错误率捕捉到了在问题收集过程中，写作人与模型的答案不一致的示例的百分比，但我们还不能确定这些示例是否正确。经过验证的模型错误率是我们从其他工作者那里进一步收集了9个额外答案的示例中模型错误的百分比。我们观察到从R1到R2模型错误率增加。假设R1和R2中图像领域的难度保持不变，较高的模型错误率表明后面几轮的模型并没有显著增强，或者注释者在愚弄最先进的模型方面变得更好。在R3中，我们包括了来自更多不同领域的图像，模型错误率从49.0%降低到34.4%。我们怀疑这是因为VCR中的电影图像大多是以人为中心的，这在COCO中是常见的。我们还报告了每个图像完成注释过程所需的平均尝试次数（表1中的“#Tries”），即成功攻击模型或超过尝试次数限制的次数。令人惊讶的是，尽管后面几轮中使用的VQA模型使用了更多的数据，但成功攻击它们所需的尝试次数并没有增加。平均而言，成功攻击一个VQA模型只需要不到2次尝试。类似地，随着数据收集的进行，每次成功攻击所需的平均时间减少了15秒。03.3. 与其他数据集的比较0我们的对抗性VQA数据集为评估VQA模型的鲁棒性设立了新的基准。它在几个方面改进了现有的鲁棒性VQA基准。首先，该数据集的设计比以前的数据集更困难。20460模型训练数据 R1 R2 R3 AVQA VQA v2 ∆ (v2, AVQA)0验证/测试验证/测试验证/测试验证/测试测试开发测试开发，测试0BUTD VQA v2 +VGQA 20.80/19.28 18.77/18.85 20.63/21.10 20.12/19.71 67.60 47.89 ALL 24.96/22.1122.62/22.78 23.92/23.61 23.91/22.78 67.52 44.740UNITER-B0VQA v2 +VGQA 20.60/17.91 17.86/18.55 20.71/20.17 19.79/18.81 72.70 53.89 +R1 26.03/22.9417.30/17.36 20.56/20.61 21.62/20.47 72.98 52.51 +R1+R2 26.60/24.76 23.21/23.86 19.26/18.7323.26/22.62 72.75 50.13 ALL 26.85/24.93 23.38/23.92 24.48/23.27 25.04/24.10 72.66 48.560UNITER-L0VQA v2 +VGQA 25.04/23.72 17.82/17.49 19.63/19.77 21.12/20.55 73.82 53.27 +R1 29.31/26.6319.34/18.66 19.78/18.99 23.25/21.78 73.89 52.11 +R1+R2 30.13/28.15 23.11/23.54 17.35/17.0523.97/23.29 73.77 50.48 ALL 30.80 / 28.45 22.95/23.11 24.08/21.97 26.27 / 24.78 74.15 49.370LXMERT0VQA v2 +VGQA 19.76/18.15 18.98/18.79 21.08/21.27 19.93/19.31 72.31 53.00 +R1 23.89/22.6519.01/17.91 21.64/21.42 21.68/20.78 72.51 51.73 +R1+R2 26.76/24.86 23.28/ 24.11 19.39/19.5723.38/23.00 72.61 49.61 ALL 26.35/24.55 23.84 /24.02 25.27 / 23.71 25.24/24.13 72.42 48.290表2：不同设置下各种模型的性能。AVQA / ALL指的是R1+R2+R3 / VQA v2+VGQA+AVQA。0数据集。在收集过程中，我们不限制工作者只提出属于单一鲁棒性类型的问题（第4.4节）。因此，我们的数据集有助于防御多个鲁棒性VQA基准（第4.3节）。其次，大多数鲁棒性VQA数据集基于VQAv2验证集，这是现有模型用于训练或超参数调整的数据集。因此，由于这种数据泄漏，很难分析最佳模型的鲁棒性。我们的数据集是基于来自不同领域的非重叠图像构建的，自然地解决了这个问题。最后，我们的数据集由自然图像上的人工编写的问题组成，而不是[13,17]中的基于规则的问题或[1]中的操纵图像。表1提供了数据统计的详细比较。我们的工作受到ANLI[34]的启发。ANLI专注于纯文本的自然语言推理任务，而我们的工作则针对视觉问答的多模态任务。然而，由于VQA问题的开放性，AVQA的构建更具挑战性。在收集对抗性问题时，我们并没有给工作者一个目标标签，而是首先要求工作者判断模型的预测是否正确，然后提供一个真实答案。我们的验证过程也与ANLI不同。为了以与VQA v2[14]相同的标准评估模型性能，我们总共收集了10个答案。与ANLI上的观察不同，在ANLI的数据增强下，NLI模型的对抗鲁棒性可以在很大程度上得到改善，而我们在第4节对AVQA的分析将显示，对于VQA模型来说，防御对抗性攻击更加困难。04. 实验与分析0在本节中，我们进行了大量实验来研究AVQA数据集。具体而言，第4.1节和第4.2节评估了AVQA上不同模型架构和不同模态输入的性能；第4.3节研究了AVQA如何0在其他流行的鲁棒性VQA基准上提供帮助；第4.4节探讨了可以欺骗模型的问题类型；第4.5节定性和定量地比较了我们的数据收集与自动对抗攻击方法。04.1. 模型评估0表2报告了主要结果。除了UNITER-B，我们还包括UNITER-L [9]和LXMERT [43]，以及BUTD[3]作为任务特定模型的例子，其具有不同的模型架构，这是在大规模预训练时代之前的情况。我们展示了每轮AVQA测试集、总AVQA测试集和VQAv2测试集的性能。我们的主要观察结果如下。O1:对抗性样本在模型之间是可转移的。LXMERT和UNITER都是Transformer[45]架构的变种。我们使用BUTD作为例子，研究对抗性样本是否在这三个模型之间是可转移的。BUTD在每轮测试集上的�20性能表明，工作者没有发现特定于单个模型架构的漏洞，而是发现了适用于不同模型架构的漏洞。O2:后续轮次的难度水平不降低。在相同的训练数据下，我们观察到模型在后续轮次上实现了相当或甚至更低的性能。正如前面的数据统计所述，增加的模型错误率和减少的平均尝试次数表明后续轮次包含了更难的示例。O3:训练更多轮次有助于提高鲁棒性...总的来说，我们的结果表明，训练更多轮次可以提高模型性能。...但仅仅进行数据增强是不够有效的。为了调查改进有多少来自对抗性样本，我们展示了在验证集上UNITER-B结果的比较VQA v2+VG17.9118.5520.1772.70AVQA-only25.6624.9124.7559.99ALL24.9323.9223.2772.66VQA v2+VG17.8217.0321.3245.81AVQA-only20.3721.4922.8938.21ALL19.7520.7522.8146.23BUTD23.9140.62 (38.82 [44])+ [44]23.7943.96UNITER-B25.0447.02 (46.93 [28])+ [44]24.7047.12UNITER-BVQA v2 +VGQA18.8172.70ALL24.1072.66ClipBERTVQA v2 +VGQA21.1669.08ALL24.3569.17VILLA-BVQA v2 +VGQA19.6873.37ALL26.0874.2820470数据 R1 R2 R30验证 25.63 22.84 23.63 综合 26.8522.82 24.380表3:验证数据和综合数据的比较。结果报告了在每轮训练数据、VQAv2和VGQA上训练的UNITER-B在验证集上的结果。0训练语言 R1 R2 R3 VQA v20仅数据测试测试测试测试集0(a) 仅语言模型性能。0模型 AVQA VQA-CP v20验证测试0(b) 使用来自[44]的VQA-CP基线的模型性能。0表4: 语言偏差分析。0和综合数据在表3中。除了验证数据，综合数据还包括工作者认为模型回答正确的示例。即使数据规模几乎翻倍，综合数据的结果也没有显著改善。这意味着仅仅训练更多模型正确回答的示例几乎无法帮助模型对抗对抗性攻击。O4:大模型并没有明显的优势。虽然在R1上超过了UNITER-B和LXMERT，但UNITER-L在R2和R3上并没有明显的优势。总的来说，这三个模型在各轮次和AVQA上的性能相似。当使用“ALL”数据进行训练时，UNITER-L相对于BUTD在AVQA上的性能提升仅为+2.00，尽管UNITER-L使用了大量的图像-文本对进行预训练。04.2. 关键因素分析0我们深入探讨了导致最先进模型在AVQA上性能低下的关键因素，并试图回答以下问题。Q1:AVQA中的语言是否存在偏差？从VQA-CP[2]开始，人们对模型倾向于捕捉到问题-答案对中存在的虚假因素而不是实际关注图像内容的问题提出了担忧。我们将同时使用图像和问题进行训练的完整模型与仅使用问题进行训练的模型进行比较，在表4a中将图像特征归零。结果显示，仅语言模型在AVQA上表现不佳，并且在VQAv2上也是如此。0模型训练数据 AVQA VQA v20测试测试开发集0表5：基于网格特征的方法ClipBERT [ 25 ]和对抗训练的方法VILLA[ 11 ]的评估。'ALL'指的是VQA v2+VGQA+AVQA。0AVQA的纯语言模型性能随着轮次的增加而下降。然而，UNITER-B在AVQA上并不比纯语言模型好多少。显然，在没有手动干预的情况下，注释者提问的方式仍然存在一些偏见。例如，除了2以外的答案可能会有更多的计数问题，而2是VQAv2中的大多数答案。因此，仅在AVQA上训练的模型对于UNITER-B和纯语言模型来说，性能稍微更高一些。然而，我们还观察到VQAv2性能的显著下降与AVQA上的轻微性能改善不成比例。我们进一步调查了训练集和测试集之间答案分布差异导致的低性能问题。由于答案候选项数量众多（VQAv2超过3000个），不可能平衡每个答案的可能性。因此，我们通过在VQA-CP [ 44]上采用一种简单而有效的基线方法来测试这个假设：用随机抽样的图像替换原始图像，添加一个正则化项。其基本思想是，对于给定图像对应的问题，答案对于随机抽样的图像来说很不可能是正确的。如表4b所示，尽管在VQA-CP上有效，但这种正则化方法对BUTD和UNITER-B在AVQA上的性能有所损害。此外，当应用于VQA-CP上的更强大模型（即UNITER-B）时，正则化项的效果较小。0Q2：AVQA是否适用于不同的视觉特征？AVQA数据集是在Faster R-CNN [ 36 ]区域特征[ 3]的模型的帮助下收集的。为了研究这些收集到的对抗性示例是否适用于不同的图像特征，我们使用另一种类型的特征进行实验，即来自CNN的网格特征[ 18]，这些特征已经被证明对于VQA任务是有效的[ 18 , 16 ,33 , 25 ]。具体而言，我们考虑ClipBERT [ 25]，这是一个端到端的预训练模型，直接接受原始图像和问题，图像通过网格特征表示，就像[ 18]中一样。同时，ClipBERT的端到端训练策略也可以帮助抵御先前工作中广泛使用的固定特征表示的潜在攻击[ 9 , 43 ,3]。表5比较了ClipBERT和UNITER-B的性能。ClipBERT在AVQA上的表现不佳表明AVQA中的对抗性示例R123.3%10.7%14.7%8.3%17.3%0.7%9.7%4.3%13.3%14.7%6.3%R230.0%22.7%12.0%27.7%20.0%4.3%12.7%9.3%22.7%10.0%15.3%R335.3%13.0%13.0%28.3%25.0%6.3%11.7%4.3%20.0%20.0%6.0%20480模型训练数据 VQA-Rep. VQA-LOL Comp. VQA-LOL Supp. VQA-Intro. CV-VQA IV-VQA0准确率 ↑ 准确率 ↑ 准确率 ↑ M � S � ↑ 翻转次数 ↓ 翻转次数 ↓0之前的模型 VQA v2 训练集 56.59 [ 39 ] 49.88 [ 13 ] 50.54 [ 13 ] 50.05 [ 38 ] 7.53 [ 1 ] 78.44 [ 1 ]0UNITER-B [ 28 ] VQA v2 训练集 64.66 54.16 49.89 56.69 8.47 40.670UNITER-B（我们的模型） VQA v2 训练集 64.56 54.54 50.00 56.80 8.44 39.97 +AVQA 65.42 55.10 51.36 57.938.43 38.400表6：最近鲁棒性VQA基准测试的模型性能。0轮次计数 OCR 推理视觉概念识别0位置关系常识其他低级动作小物体遮挡抽象0平均 29.6% 15.4% 13.2% 21.4% 20.8% 3.8% 11.3% 6.0% 18.7% 14.9% 9.2%0表7：每轮和平均分析300个随机抽样的AVQA示例。低级视觉概念包括颜色、形状和纹理。一个问题可能属于多个不同的类别。0可以转移到不同的图像表示形式。然而，ClipBERT在AVQA上的表现与UNITER-B相当，尽管在VQAv2上明显不及UNITER-B，这表明VQAv2可能不适合评估模型的鲁棒性。问题3：对于AVQA来说，对抗训练有多有效？我们采用了基于PGD的对抗训练方法VILLA进行对抗训练的有效性。VILLA-B在大规模图像-文本数据上进行了对抗性预训练，并在相应的数据集上进行了对抗性微调。我们在表5中将其性能与UNITER-B在AVQA和VQAv2上进行了比较。对抗训练带来了轻微的性能提升。然而，AVQA和VQAv2之间的性能差距仍然非常显著。请注意，VILLA-B在训练过程中通过向嵌入空间添加对抗扰动来生成对抗性示例。这些对抗性扰动几乎无法改变训练数据的内在统计特性，例如问题类型的分布和图像中相关对象的分布。我们在第4.4节中对问题类型和视觉识别概念进行的分析将显示出，AVQA之所以困难，是因为它要求模型具备推理、计数和识别不同视觉概念的能力。04.3. 对其他数据集的评估0我们还在最近的鲁棒性VQA基准测试上对模型进行了测试，包括：VQA-Rephrasings [39]用于语言变体，VQA-LOL[13]用于逻辑推理的补充/补充，VQA-Introspect[38]用于感知子问题和主要推理问题的模型预测一致性，CV-VQA [1]和IV-VQA[1]用于对图像操作的模型鲁棒性。结果总结在表6中。我们观察到，UNITER-B已经在大多数基准测试中超过了以前的模型，这与[28]中的观察一致。在AVQA上进行训练0对提高模型在鲁棒性基准测试中的性能很有帮助。特别是，AVQA有助于提升模型在3个数据集上的推理能力。很可能是因为AVQA使模型训练接触到更多样化的问题模板，从而改进了VQA-Rephrasings的性能。在IV-VQA上，AVQA有助于提高性能，尽管UNITER-B已经取得了显著的性能提升。04.4. 对问题类型的分析0我们手动注释了每一轮中随机抽取的300个示例，以研究：工人们使用哪些类型的问题来愚弄模型，以及这些问题在轮次进行中如何演变。结果总结在表7中。问题被分为4个元类别：计数、OCR、推理和视觉概念识别。尽管OCR和计数可以被视为视觉概念和数量推理，但我们将它们分开，因为它们在每一轮中的贡献很大，后期几乎占到了50%。主要的推理问题有三个：位置推理（即对象的相对/绝对位置），关系推理（即两个或多个对象之间的语义关系）和常识推理（即视觉常识推理，例如，“水更有可能是湖还是海洋”，给出一个显示被山脉环绕的水域的图像）。其他推理问题包括比较推理（例如，“哪个人更高？”）和逻辑推理（例如，“否定”）。对于视觉概念识别，我们大致将它们分为低级视觉概念（例如，颜色、形状、纹理）、动作（例如，“人在做什么”）、小物体、遮挡物体和抽象物体（例如，绘画中的物体）。我们观察到，注释者在攻击模型时严重依赖计数问题-近30%的样本中都是计数问题。20490（a）AVQA每轮收集的示例的可视化。每个真实答案（VQA分数）来自10个工人。0(b) 通过文本对抗攻击方法生成的示例的可视化。蓝色表示对抗问题中的修改。0图3: (a) AVQA和(b)文本对抗攻击方法（Sears [37]，Textfooler [20]和Sememe+PSO[51]）生成的对抗样本的示例：绿色（红色）表示正确（错误）答案。0方法 #尝试次数错误率原始准确率对抗准确率0Sears [37] 3.0 11.6% 69.1 63.0 Textfooler [20] 39.5 1.4% 69.1 67.8Sememe+PSO [51] † 35.9 88.6% 84.9 12.50AVQA

下载后可阅读完整内容，剩余1页未读，立即下载