视觉问答（VQA）模型在资源有限的目标域上的实践与领域自适应和迁移学习相关，不同方法对于可用标记和未标记数据的灵敏度和要求不同

76 浏览量更新于2023-10-15 收藏 1.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4451如何在资源有限的目标域上实践VQA张明达*Rebecca Hwa Adriana Kovashka匹兹堡{mzhang，hwa，kovashka}@cs.pitt.eduhttps://cs.pitt.edu/~mzhang/practice-vqa/摘要视觉问答（VQA）是计算机视觉和自然语言理解交叉领域的一个使在基准测试中表现良好的VQA模型在现实世界的应用程序中表现不佳的一个主要障碍是在感兴趣的任务中缺乏带注释的在这项工作中，我们专注于一个以前被忽视的观点，即迁移学习和领域自适应方法的不同有效性取决于可用的标记/未标记数据的数量我们系统地研究了视觉域空缺和问题定义的文本空缺，并比较了不同的知识转移策略特征产品特点树下有什么？她的胡子是什么颜色的？黄色无监督矩匹配她的胡子是什么颜色的？树下有什么？产品特点黄色足球监督辅助培训在无监督、自监督、半监督和全监督适应场景下。我们表明，不同的方法有不同的灵敏度和要求的数据量在目标域。最后，我们分享了我们的最佳实践，从我们的探索转移环VQA模型资源有限的目标域。1. 介绍视觉问答（VQA）[1]旨在构建算法，以在图像描述的上下文下回答自由形式的开放式问题。为了应对这一挑战，人们付出了巨大的努力，包括收集大规模的VQA数据集（例如，GQA [14]包含2200万个带注释的[27][28][29]因此，最先进的VQA模型在一些成熟的基准测试中达到了近80%的准确率试想一下，这对视力受损的人来说是多么方便。如果机器智能助理可以帮助他们回答问题，盲人）。*工作是作为研究生完成的。目前在Google Research。图1. 不同类型的知识转移的我们在SEC中探索了VQA。三点三（左）无监督矩匹配通过强制特征对齐来减少域差异。（中）自监督自适应旨在从剩余的上下文中重建被掩蔽的视觉或文本特征。（右）监督辅助协同训练利用目标标签来确保模型与源域和目标域的兼容性。所有这三个都可以影响编码器，但只有最后一个才能监督推理模块。灰色箭头表示前向传递，红色虚线箭头表示梯度反向传播。然而，从基准卓越到现实世界的成功还有很长的路要走。具体地说，一个长期的挑战是，由于各种因素（例如，数据保密性、高注释成本等），从而防止这些模型被直接训练用于该任务。根据最近的一项调查[2]，特定于应用的VQA数据集通常有数千个图像和问题，比学术通用VQA数据集小一到两个缓解数据稀缺的一种常见策略是迁移学习，它在将模型应用于目标领域之前，在相关的、大规模的、注释丰富的源领域上训练模型。另一个相关的策略是域自适应，它特别处理源和目标之间的数据分布变化（即，域移位）。然而，VQA有一些独特的特点，使迪-产品特点自我监督重建树下有什么？她的胡子是什么颜色的？黄色4452正确的知识转移是不平凡的。例如，由于涉及多个模态，域转移可以发生在视觉、文本或两者模态中，并且特定于数据集的偏差可以存在于高级语义空间或低级句法空间中[36]。随着最近基于transformer的现代神经网络的出现，它可能更具挑战性，因为表示和推理在整个网络中混合在一起。尽管有一些先前的工作试图构建跨数据集VQA模型[5，33，36]，但仍然缺少一些基本知识，例如，成功的知识转移最少需要关于目标数据集的哪些信息以及多少信息。在本文中，我们的目标是填补这一空白，专注于跨领域的知识转移VQA。具体而言，我们探讨了不同的适应策略，即。无监督，自我监督，半监督和全监督（见图）。1），并比较它们对标记或未标记数据的敏感性。除了数据集之间与外观相关的视觉域差距之外，我们还研究了由问题类型定义的子域，例如。颜色（“她的芥末是什么颜色的？“），问：“树下有什么？”“）.直觉上，它需要不同的技能，如计数或空间推理，以解决不同类型的问题[32]。通过使用选定的问题类型训练模型，我们证明了不同策略对回答问题所需的各种信息的有效性。我们尝试回答以下有关VQA任务的问题：• 对于不同的适应策略，在目标域中最少需要多少标记或未标记的数据才能成功适应？• 在固定的数据注释预算下，什么策略可以最大限度地提高模型性能？• 哪种模态与VQA中应在何处应用适应战略以尽量减少领域转移？• 当问题需要不同的回答技巧时，什么样的适应策略对促进知识转移最有效对于相同的图像集合，如果问不同的问题，可以利用多少信息最后，我们与未来的从业者分享了一些关于如何在资源有限的数据集上构建有效的VQA系统的经验教训。2. 背景领域自适应旨在克服机器学习中的实际限制，其中从某些数据训练的模型可能需要应用于不同的数据集。该技术已被证明在多个应用中是成功的，例如对象识别[19，20]，机器翻译[31，30]等。已经提出了各种方法来提高域鲁棒性，并且这些方法方法可以大致分为三大类，即，基于差异的方法（即，侧重于减少采用不同措施的源和目标之间的主要差异），基于对立的方法（即，依赖于域映射来反向地鼓励学习域不变表示），以及基于重构的方法（即，合并辅助任务以使源域和目标域更接近）。感兴趣的读者可以查看[9，38，24]以获得更完整的评论。然而，大多数以前的努力都花在单模态域适应。在这项工作中，我们实验了不同的策略，比较了它们与其他迁移学习方法（包括子域）的数据量敏感性，并展示了它们在多模态VQA任务中的有效性。我们分别探讨了视觉和语篇模态，并表明桥接两者是必要的，以减轻do-main差异。VQA中的知识转移。部分原因是VQA要求模型正确理解问题（以文本形式）并从视觉上下文中检索相关线索以产生预测，因此将域自适应应用于VQA比在单模态设置中更具挑战性。如之前的工作[5，33]所示，即使在答案（或诱饵）可用的完全注释的目标数据集上在目标数据集中没有答案的无监督设置中，这甚至更加困难。在VQA中尝试无监督自适应的唯一工作是[36]，但他们仅在合成数据集上展示了他们的模型，其中域偏移仅发生在视觉空间中。事实上，“在真实的数据集变化中”，他们的模型“只能获得边际收益”。在这项工作中，我们进行了系统的研究，无监督和监督VQA域适应策略。除了视觉和文本的差异，我们还分析了由问题类型定义的子域之间的细微差异。我们表明，半监督自适应利用有限的标记样本与大量的未标记样本是最有效的目标资源是有限的。最近的工作表明，不准确的对象检测可能会阻止VQA模型在数据集之间传输[17];我们还观察到，当视觉域差异减少时，与最小化文本差异相比，模型显示出更多的改进。[16，17]进一步研究答案空间如何影响可转移性，而我们专注于监督的数量和类型的影响3. 调查框架为了公平比较，我们在一个统一的调查框架上系统地评估了不同的知识转移技术我们选择LXMERT和MCAN作为两个代表性架构：一个需要大量的预先训练，另一个不需要。通过喂养不同数量的目标4453--DDD--|D| ≪ |D |DMDDDDD在训练过程中，知识转移的有效性可以通过目标数据集的准确性来衡量。3.1. 形式表述考虑我们有一个标记数据集DS={dS}，数据集VQA-v2 VQA-Abstract我一个稀疏标记的数据集D={dj}+{dk}，其中d S/d T表示图像-问题-答案三元组 v，q，a分别来自源域S和目标域T，并且dT表示我们的目标是建立一个可视化的问答模型来回答来自CIMT的问题。值得注意的是，我们还假设，S，即。CBT的样本比S少得多。这是因为在现实世界的应用程序中，手头的任务通常带有有限数量的样本。1显然，我们的目标数据集中缺乏地面真实标签，无法直接训练模型，因此最可行的解决方案是从另一个数据集S中获取相关知识，并将技能转移到CNET，尽管两个数据集之间可能存在很大的领域差距在下面的部分中，我们将考虑无监督的情况，其中dT= π，即。在目标域中没有目标答案，以及一部分目标样本具有正确的答案这在现实世界的应用中很重要，在这些应用中，标记完整的数据集可能是不可行的，但在有限的预算下仍然可以注释一小事实上，我们表明，即使是一些注释也可以发挥重要作用，可能是因为它们为VQA推理模块提供了直接监督（如图所示）。 1）除了编码器之外。3.2. 基准：数据和VQA方法对于大多数实验，我们选择 VQA-v2 和 VQA-Abstract [11]为S和凯特，分别首先，这两个数据集之间存在很大的视觉域差距[36]，因为前者从日常生活中获取图像，而后者则建立在剪贴画抽象场景上。其次，答案空间和分布相似，排除了答案空间偏移的潜在影响（超出本工作范围）。最后，我们利用这些数据集中提供的问题类型符号在每个数据集中创建更细粒度的子域，因为不同的问题类型自然需要不同的技能来回答。有关两个数据集的统计数据显示在选项卡中。1.一、为了完整起见，我们还尝试了VQA-v2和GQA [14];它们的域差距主要在于语言空间。为了简化跨数据集评估，我们遵循传统将任务制定为多路分类，表1.不同问题类型的VQA-v2和VQA-Abstract中的实例数。总体而言，目标数据集只有大约10%的样本（60 K与#36825;源相比。在我们的实验中，我们使用更少的样本来探测灵敏度。但要仔细选择答案词汇。具体来说，我们合并了来自相关数据集的所有候选答案，并将前1000个最常见的答案作为标签。我们选择了两个主流的VQA模型作为我们探索的基础架构MCAN [34]是2019年VQA挑战赛的获胜者，并作为2020年VQA挑战赛获胜者模型的骨干[22]。它可以在纯粹从VQA数据集进行训练后实现有竞争力的性能，而不依赖于外部数据的广泛预训练这一特征对我们的研究特别重要，我们还选择LXMERT [27]作为Transformer系列的代表，这些系列一直主导着各种视觉和语言基准。值得注意的是，由于大量的预训练，我们需要仔细重构数据集（用于预训练和微调），以避免潜在的数据泄漏;否则，目标数据集可能无意中暴露给模型，因此评估不再能够反映针对未看见的域的性能。具体来说，我们从头开始显式地预训练自定义检查点，而不使用任何图像-问题-答案三元组;它纯粹使用来自概念标题的图像-文本对进行训练[25]。换句话说，我们的预训练检查点不使用VQA附属任务，3.3. 知识转移的不同设置由于我们的目标是在CIMT上实现高准确度，因此我们利用标记数据集S来赋予模型视觉问答能力，并添加辅助目的是确保其知识可转移给D。1例如，流行的医学VQA数据集ImageCLEF-2019 [3]在4K放射学图像上有16 K Q A对;VizWiz [13]包含31 K im。L（DS，DT;θ）=Lce（DS;θ）+λLaux（DS，DT;θ<$）（1）协助视障人士的年龄/问题;广告理解数据集[15]涉及65 K图像和200K& QA对。相比之下，GQA [14]在113K图像上有22M Q A。在这个等式中，θ是指VQA模型的模型参数，并且Lce表示传统的交叉熵火车Val火车Val颜色59,8382,5065,3562,700计数71,4452,9548,4934,173位置13,3146102,9351,488对象208,6558,42216,0448,035原因13,4665391,324598验证240,9369,90324,46112,313别人24,4631,0601,387693总632,11725,99460,00030,0004454DJ|--|2J--JJ损失适用于S，因为它是具有地面真实答案的唯一来源（在几个设置中）。Laux是辅助项，根据训练范式有不同的形式，θ<$是相关的模型参数。我们将在下面的小节中详细说明。λ是一个加权超参数，我们选择λ= 1。0经验3.3.1无监督矩匹配数据分布的矩被认为是重要的领域特定特征，并且已经提出了多种不同的方案来匹配源和目标之间的矩，例如MMD [28，20，29]，CORAL [26]，CMD [35]，HoMM [6]等。使用矩来桥接分布对于仅视觉应用程序最受欢迎，但最近的研究表明，它对多模态任务（如视觉问答）也有效[36]。因此，当目标数据集的所有样本都是未标记的，即， dT= 0，我们遵循[36]并选择简化版本的矩匹配[23]作为通用域自适应策略来对齐特征分布。具体来说，我们最小化如下定义的矩距离，并且辅助对象可以被视为额外的正则化。L aux=dmomen t （ DS ， DT;θ<$） =θ 。 E （ Xk ） −E（Xk）<$2<$通过BERT [10]和GPT-3 [4]等大型预训练语言模型的成功，最近的一些视觉和语言研究也发现它在处理跨模态任务方面有效[21，27]。此设置也适用于dT=T，其中目标数据集中不需要VQA答案，但需要辅助损失的表述方式不同。受预训练[27，8]的启发，我们在微调中添加了四个用于自我监督的辅助目标：掩蔽语言模型（MLM），掩蔽视觉特征回归（MVFR），掩蔽对象分类（MOC）和掩蔽属性分类（MAC）。MLM算法适用于需要根据剩余输入重构随机掩蔽问句的文本域;其他三个是用于视觉域（掩蔽视觉学习，MVL），其中MVFR要求重构掩蔽的视觉特征，而MOC和MAC期望来自Faster R-CNN的1600路对象/400路属性分类。请注意，模型需要从源数据集（由Lce执行）预测问题的答案，同时模拟恢复操纵的目标信息，因此这两个目标鼓励模型在适应目标和保留问题回答能力之间找到平衡。虽然技术上我们只是把自我监督的目标移到了罚款上-Sk=1不（二）在调优阶段，它实际上解决了一个问题，即这里X代表自适应模块之后的特征，k代表矩阶（在我们的实验中k= 2），θ<$是相关参数（例如，表2中列出了一些模块）。力矩匹配的主要优点是它的通用性和灵活性，因此它可以与各种各样的模型架构一起使用，即插即用。在我们的实验中，我们将其应用于MCAN和LXMERT，并在多个数据集对上显示出即时的性能然而，一个局限性也是显而易见的：组级矩是唯一使用的统计量，因此丢失了许多实例级信息。值得注意的是，我们还尝试使用do-main对抗性损失作为替代方案，以鼓励领域不可知的特征表示。然而，我们观察到与以前的一些工作类似的趋势[36]，即重复域对抗性损失使训练非常不稳定，难以作为探针。3.3.2自我监督重建自监督学习也从未标记的样本中学习，但其监督信号来自其输入。通过学习基于输入的剩余部分来预测输入的一些掩蔽部分，模型可以获得知识，这可以说比无监督训练更有效这一概念尤其而不需要在预训练期间而是在微调期间结合目标域。这使得它反过来-瓦片，因为在预训练期间不能知道目标域，但是预训练的检查点总是可以适应任意的新域。3.3.3监督辅助培训在目标数据集的有限答案可用于训练的宽松条件下，一种简单的方法是添加辅助训练目标，以强制模型预测源域和目标域的答案。辅助损耗可以定义如下。Laux=Lce（{dT}）（3）一些先前的作品将此视为用于主适应的3.3.4半监督知识转移半监督学习是指在训练过程中将少量标记样本与大量未标记样本相结合。我们指的是将矩匹配方法或自监督学习方法与监督方法一起应用，例如。Laux=dmoment（DS，DT;θ<$）+Lce（{dT}）（4）4455图2.将LXMERT模型转换为VQA- Abstract（顶部）和GQA-Balanced（底部）的准确性。我们从target数据集（dT或dT）中采样了1K，5K，10K，20K，30K，60K，并在训练过程中使用不同的目标（详见第二节）。3.3）。4. 实验实施详情。我们在 PyTorch 中修改了 MCAN 和LXMERT2，以支持多个数据集和各种适应策略的训练。我们训练了10万步的所有模型，批量大小为128（源代码上有 20 个 epoch ）。我们选择 AdamW（w/weight decay）作为优化器，并在学习率上使用线性计划预热（10 K步），峰值LR分别在1 e-4和1 e-5我们在8个Nvidia Quadro RTX 5000 GPU上运行了4.1.自我监督自适应补充地面实况注释我们首先利用自我监督信号，并在两个不同的目标数据集上选择LXMERT，VQA-抽象和GQA-平衡进行实验验证。为了研究资源有限的场景并调查对数据可用性的敏感性，我们从目标数据集中随机抽取不同大小的子集（范围从1K到60K实例，不超过源数据集大小的102github.com/MILVLG/mcan-vqa，github.com/airsplay/lxmert632K），并将它们添加到VQA模型的训练中。请注意，对于自监督自适应，在训练期间仅使用来自目标的图像和问题（但不使用答案），而对于监督和半监督自适应，我们假设答案也可用于训练。在图2中，我们显示了与LXMERT从VQA-v2转换到VQA-抽象（顶部）和GQA-平衡（底部）的总体准确性比较。X轴表示来自目标的样本数量，y轴表示准确度。作为一个简单的基线，我们展示了仅在源数据集上训练的模型的性能（仅源训练），并直接在x=0的目标数据集上进行评估（紫色星）。在每个图中，我们只显示自我监督，SEC。3.3.2，蓝线），完全监督的适应（辅助共同训练，第3.3.2节）。3.3.3，后来缩写为我们还展示了一个不同的半监督设置，其中x轴上表示的部分是用于答案监督的标记样本，大多数（60K未标记的目标实例）仅有助于自监督适应，如橙色虚线所示。即使是0。1%未标记的样品产生差异。从这两个图中，我们观察到，即使是来自目标域的1K未标记样本（仅0. 16%的训练数据）可以显著提高性能（蓝线，最左边的点）。我们还注意到，这种改进对目标数据集的大小非常不敏感。事实上，尽管看到很少有未标记的样本可以有效地促进转移是有希望的，但负面的一面是性能很快就会趋于稳定。特别是对于VQA-Abstract，模型可以在目标数据集中仅使用10 K图像-问题对的情况下实现46.2%的准确率，但在10 K样本之后，模型将不会进一步改进。换句话说，不利用answer信息的无监督自适应具有有限的改进空间，这可能会严重限制其应用，因为最终的准确性仍然远远不能令人满意。从我们的实验来看，这不仅适用于自我监督，也适用于无监督自适应，如矩匹配（图未显示）。有监督的调整有助于提供足够的数据。对于具有辅助协同训练的监督自适应，模型表现出相对于来自目标数据集的样本数量的较慢（在开始时）但更可持续的改进。在几千个实例的情况下，性能与无监督适应相当甚至更差，但之后有更多的注释数据可用，模型保持稳定改进。哪些模块？关于完全监督方法与无监督方法之间的差距，一个合理的解释是受监督的模块。如示于图1所有方法都能提高编码器的域鲁棒性，但只有有监督训练能提高推理模块的兼容性。但是，一个OP-4456图3.针对不同目标的LXMERT的训练进度，训练中有来自不同目标数据集的1K到60K样本存在以下情况：与编码器相比，推理模块通常是轻量级的，特别是在Transformer中，因此我们可能不需要那么多的注释数据来适应。半监督自适应结合了这两个世界的最佳之处。将无监督策略与有监督辅助协同训练相结合，可以最大限度地利用目标领域的信息。尽管监督联合训练通常被视为上限[5]，但我们表明，在LXMERT上，结合两个目标表现出比监督自适应更强的性能，在两个数据集对中都有一致的提升。这意味着基于重建的模型自适应模块（%）没有一36.7单模态语篇36.6（-0.1）单模态目视检查35.8（-0.9）MCAN单模态V T37.8（+1.1）跨模态语篇37.6（+0.9）跨模态视觉38.9（+2.2）跨模态V T40.3（+3.6）无38.8单模态文本38.4（-0.4）单模态目视检查38.3（-0.5）自我监督可以利用不同的信号，该信号补充来自地面实况VQA回答的信息。模型会随着更多的未标记数据而改进，但也更容易过拟合。我们接下来实际分析另一个公司简介Single-Modality V T 37.5（-1.3）跨模态文本38.8跨模态目视检查38.7（-0.1）Cross-Modal V T 40.1（+1.3）有意义的场景，其中可以容易地获得大量未标记的数据。请注意，在面向研究的基准测试中，问题和答案通常都是由专门的注释者众包的[11]。然而，在现实生活中，收集图像-问题对的成本可能比图像-问题-答案三元组便宜得多，因为这些对可以直接来自实际应用。例如，在VizWiz [13，12]中，问题由盲人用户与图像一起提交，而答案随后由人类注释者众包从大量未标记的数据以及很少的注释样本中学习提供了提高效率的机会。在图3中，我们显示了涉及不同数量目标样本的整个训练过程。线的颜色对应于图2。我们主要关注两种不同的半监督自适应，即。一个依赖于用于监督和无监督自适应的相同数量的样本（红线），而另一个可以访问用于无监督自适应的未标记图像-问题对的较大池该图显示，当未标记和标记的样本量之间的比例很大（即，非常有限的标记数据），添加额外的未标记数据使模型在开始时迅速提高其性能，但后来由于过拟合而回落例如，在图1中的最左边的子图中。3模型需要表2.将力矩匹配应用于MCAN和LXMERT，管线中的不同位置导致不同的性能。参考图。4用于单模态和跨模态特征。只有1K个标记样本和59K个未标记样本，在25K次迭代中准确率达到48.7%，然后回落到20%。通过保持分裂，我们可以跟踪准确性并应用提前终止以避免过拟合引起的性能损失。4.2. 哪些模块应该对齐？在大多数VQA模型中，视觉和文本输入分别由相应的编码器表示，这些编码器被馈送到推理模块以合并跨模态的信息以进行最终预测（见图11）。①的人。在图4中，我们突出显示了不同模型（如LXMERT [27]和MCAN [34]）使用的主要组件。虽然在单模态应用中，特征差异可以很容易地定义，但在多模态设置中，可能会出现多层次的差异，并且不清楚哪种差异对性能影响最大。因此，我们的目标是探讨领域差异如何影响VQA模型的知识转移能力。我们选择无监督矩匹配作为一种通用的方法来探测4457系统在不同的位置。具体来说，我们附加的时刻匹配模块后，VI-4458ResNetFaster RCNN图像代表线性投影VTransformer预测器基于注意力的融合跨模态Transformer回答GloVeWord2Vec文本代表LSTM RNNT型MCANLXMERT她的眼睛是什么颜色的情境化视觉特征语境化语篇特征跨模态特性视觉特征文本特征单模态特性图4.VQA模型的一般说明图像和文本被分别编码，然后被馈送到推理模块以在视觉场景下生成给定问题的答案我们尝试在不同位置对齐特征，以减少域差异。图5.不同问题类型的MCAN模型上的监督辅助协同训练（上）和无监督矩匹配（下）。当在协同训练期间选择匹配子域时，性能改善最为显著。然而，在训练过程中匹配相应的问题甚至可能会损害性能。sual和文本编码器，以减少单一模态中的特征差异。此外，我们也借由在跨模态交互作用后附加矩匹配模组，来探讨跨模态交互作用后事物的变化。在选项卡中。2我们显示的结果（位置参考图。4）.对于跨模态特征，我们看到匹配编码的视觉特征比文本特征显示出更多的承诺，但是当两个模态对齐时，性能可以进一步提高。这与以前的观察一致[36]。另一个重要的观察是，减少跨模态特征之间的差异通常比单模态特征更重要。事实上，当单一模态特征对齐时，我们甚至观察到负面影响。一种解释是，即使中间表示是对齐的，它仍然可以导致管道的剩余部分中的特定领域的转移，这可以说是更重要的跨模态模块，因为它负责两个模态之间。我们对实践者的建议是将差异相关的域适配器放置在预测头附近以避免降级。我们再次注意到，与自监督重建相比，矩匹配的整体性能改善不太显著，但它可以作为一种方便的工具来研究有效知识之间的关系。转移和域差异。4.3. 以问题类型为特征的子域如果我们认为VQA-v2和VQA-Abstract之间的视觉领域差距相对较低（因为它们主要是由自然图像和剪贴画抽象场景的外观区别引起的），那么问题定义的子域之间的差距可能更高，因为它们涉及语义的变化，甚至包括对各种类型信息的需求（直观地对人类来说，回答问题所需的技能有多少将与什么颜色不同）。因此，我们也尝试在子域上进行不同的调整，每个子域都有与单个主题相关的问题，例如。对象、验证、颜色、位置。在图5中，每个子图表示特定问题类型的验证准确性，蓝线显示使用随机采样的目标实例训练的模型的基线性能我们比较了训练各种模型的目标数据都来自同一个问题类型，并通过不同颜色的diamonds显示性能由于数据集包含不同数量的问题，在每种类型（见表。（1）我们需要比较AC-与随机选择参考（蓝色曲线）的准确性。匹配问题促进辅助共同培训。在4459图6.使用问题子域进行培训每个单元格中的数字表示在不同子域上训练和评估时的相对精度变化。我们观察到可转移性差异很大。图5（顶部）显示了监督辅助协同训练的结果，显然在所有问题类型中，使用相应的样本进行训练可以获得最有效的性能增益。例如，对于颜色问题，它只需要5K个与颜色相关的问题就可以达到85%的准确率，这比使用5K个随机选择的问题训练的模型准确率高出10%。我们还看到了其他有趣的模式。例如，定位是一种高度特殊化的技能，需要专门的样本来正确训练模型。只有2K个与位置相关的问题，模型可以在这项任务中达到30%的准确率，但如果输入其他类型的问题（例如，对象），即使有5倍多的样本，模型也只能获得15%的准确率。性能下降与矩匹配，需要多样性。在图5（底部）中，我们显示了当应用非监督矩匹配时，结果有很大的不同。在几乎所有的问题类型中，在训练过程中喂入相应的样本对整体表现都有负面影响，例如：在目标中馈送相关样本会降低模型一个假设是匹配矩统计可能需要不同的数据。这表明，当手头的任务需要专业技能时，可能值得收集这些问题的相应答案，并将其用于监督适应。技能转移的难度各不相同。在图6中，我们固定了从每个子域采样的数据量（在我们的实验中为1000），用于监督辅助协同训练，并评估了其他子域的性能。为了减轻不同子域因其性质而具有不同难度的影响（即，颜色问题比训练模型来回答的原因更容易），我们用每个子域内的平均值和标准偏差来规范化该表。我们看到验证问题提供了非常微弱的信号可能是因为大多数答案要么是，要么不是。用验证问题训练的模型在所有其他问题类型上的表现都很差，这表明模型只能从验证问题中提取有限的知识。相反，使用目标问题进行训练通常对模型有帮助，并且除了同一类别之外，模型还在其他一些子域上得到改进，例如验证，推理和计数。我们还注意到，一些知识是高度专业化的，如果没有相应的实例，如位置和颜色，就很难转移。回想一下，模型总是可以访问来自源域的所有类型的问题，但是如果没有正确标记的目标数据，它们在目标域上就会遇到麻烦。这些观察为今后的工作提供了实际的启示，例如，在数据收集时，更具体的问题和答案是首选的，而不是要求验证。5. 要点和未来工作基于我们的探索，我们希望与未来的实践者分享我们的经验教训，如何更好地执行视觉问答任务的知识转移。• 收集更多的答案注释是有帮助的，因为它提供了对模型最直接的监督。然而，当资源受到限制时，可能没有必要扩大目标数据集中的样本大小，特别是如果答案不可用。• 对于VQA任务上的基于差异的域自适应，重要的是匹配的特征应该接近直接负责生成VQA预测的最终分类头。• 如果预期目标有特定的应用或所需的技能，如计数，或空间推理（例如，位置），那么从同一个类别收集问题和答案是最有用的。相反，如果答案收集是不可能的，无监督的适应，例如。矩匹配是唯一可行的选择，那么应该特别注意目标域中的多样性。• 当自由形式的问题被接受时，验证类型的问题似乎最容易为人类注释者提供，但不幸的是，对模型的帮助最小。在未来的工作中，问题重新措辞可能是现有数据集的重要数据增强策略，因为问题的提出方式[18]可能会影响知识转移的有效性。我们还将考虑测试培训不同模块的重要性的替代方案。鸣谢：本材料基于美国国家科学基金会资助的工作2006885和1718262，以及匹兹堡大学动力基金。4460引用[1] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C.劳伦斯·齐特尼克和德维·帕里克 Vqa：可视化问答。 IEEE InternationalConference on Computer Vision（ICCV），2015年。1[2] 西尔维奥·巴拉，卡门·比索尼，玛丽亚·德·马尔西科，还有圣法诺·里恰尔迪.可视化问答：哪些调查应用？Pattern Recognition Letters，151：325- 331，2021。1[3] Asma Ben Abacha，Sadid A.维韦克？哈桑Datla，JoeyLiu，Dina Demner-Fushman，and Henning Müller. VQA-Med：imageclef 2019上在CLEF2019工作笔记，CEUR研讨会论文集，2019年。3[4] Tom Brown ， Benjamin Mann ， Nick Ryder ， MelanieSub- biah，Jared D Kaplan，Prafulla Dhariwal，ArvindNeelakan- tan，Pranav Shyam，Girish Sastry，AmandaAskell ， Sand- hini Agarwal ， Ariel Herbert-Voss ，Gretchen Krueger ， Tom Henighan ， Rewon Child ，Aditya Ramesh，Daniel Ziegler，Jeffrey Wu，ClemensWinter，Chris Hesse，Mark Chen，Eric Sigler，MateuszLitwin ， Scott Gray ， Benjamin Chess ， Jack Clark ，Christopher Berner、Sam McCandlish、Alec Radford、Ilya Sutskever和Dario Amodei。语言模型是很少机会的学习者。神经信息处理系统进展（NeurIPS），2020年。4[5] 赵伟伦，胡鹤翔，沙飞。用于视觉问题回答的跨数据集适应。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。二、四、六[6] Chao Chen，Zhihang Fu，Zhihong Chen，Sheng Jin，ZhaoweiCheng ， XinyuJin ， andXian-ShengHua.Homm：高阶矩匹配无监督域适应.在AAAI人工智能会议（AAAI）上，2020年。4[7] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， and JJ（Jingjing）Liu. Uniter：通用图像-文本表示学习。2020年第16届欧洲计算机视觉会议（ECCV）1[8] Jaemin Cho，Jiasen Lu，Dustin Schwenk，Hannaneh Ha-jishirzi，and Aniruddha Kembhavi.X-LXMERT：使用多模式变压器进行绘画、加帽和回答问题在2020年自然语言处理经验方法会议（EMNLP）上，2020年。4[9] Chenhui Chu和Rui Wang。神经机器翻译领域自适应研究综述。在2018年第27届计算语言学国际会议。2[10] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。在计算语言学协会北美分会2019年会议论文集中：人类语言技术（NAACL-HLT），2019年。4[11] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。使vqa中的v变得重要：提升图像理解在视觉问答中的作用。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。三、六[12] Danna Gurari，Qing Li，Chi Lin，Yinan Zhao，AnhongGuo ， Abigale Stangl ， and Jeffrey P Bigham. Vizwiz-priv：用于识别盲人拍摄的图像中私人视觉信息的存在和目的的数据集。在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2019年。1、6[13] Danna Gurari ， Qing Li ， Abigale J Stangl ， AnhongGuo ， Chi Lin ， Kristen Grauman ， Jiebo Luo ， andJeffrey P Bigham. Vizwiz大挑战：回答盲人的视觉问题。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。一、三、六[14] 德鲁Hudson和Christopher D.曼宁Gqa：一个用于真实世界视觉推理和组合问题回答的新数据集。在IEEE/CVF计算机视觉和模式识别会议论文集（CVPR），2019。第1、3条[15] Zaeem Hussain ， Mingda Zhang ， Xiaochong Zhang ，Keren Ye ， Christopher Thomas ， Zuha Agha ， NathanOng，and Adri-ana Kovashka.自动理解图像和视频广告。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。3[16] Corentin Kervadec，Grigory Antipov，Moez Baccouche和Christian Wolf。玫瑰是红色的紫罗兰是蓝色的。。但vqa应该期待他们这样做吗？IEEE/CVF计算机视觉和模式识别会议（CVPR），2021年。2[17] Corentin Kervadec ， Theo Jaunet ， Grigory Antipov ，Moez Baccouche，Romain Vuillemot和Christian Wolf。vqa中的推理模式有多可转移？在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，2021年。2[18] Linjie Li ，Jie Lei，Zhe Gan ，and Jingjing Liu. 不利vqa ：一种新的评估 vqa 模型鲁棒性的基准。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，第2042-2051页，2021年。8[19] Mingsheng Long ， Yue Cao ， Jianmin Wang ， andMichael I.约旦.使用深度适应网络学习可转移特征。第32届国际机器学习会议（ICML），2015年。2[20] Mingsheng Long ， Han Zhu ， Jianmin Wang ， andMichael I.约旦.具有联合适应网络的深度迁移学习。在2017年第34届机器学习国际会议（ICML）上。二、四[21] Jiasen Lu，Dhruv Batra，Devi Parikh，and Stefan Lee.Vil-bert：视觉和语言任务的预训练任务不可知的视觉语言神经信息处理系统进展（NeurIPS），2019年。1、4[22] Duy Kien Nguyen，Vedanuj Goswami，and Xinlei Chen.电影：重温调制卷积的视觉计数和超越。在国际会议上学习表示（ICLR），2021年。3[23] Xingchao Peng，Qinxun Bai，Xide Xia，Zijun Huang，Kate Saenko，and Bo Wang.多源矩匹配4461域适应在IEEE/CVF国际计算机视觉会议（ICCV）上，2019年。4[24] 丹妮尔·桑德斯神经机器翻译的域自适应和多域自适应：一个调查。人工智能研究杂志，75：351-424，2022。2[25] P

下载后可阅读完整内容，剩余1页未读，立即下载