多任务视觉和语言表征学习

110 浏览量更新于2023-10-24 收藏 728KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1043712合1：多任务视觉和语言表征学习3 * Jiasen Lu3*Vedanuj Goswami1*Marcus Rohrbach1DeviParikh1，3Stefan Lee21 Facebook AI Research2俄勒冈州立大学3佐治亚理工{vedanuj，mrf}@fb.comleestef@oregonstate.edu {jiasenlu，paradise}@gatech.edu摘要许多视觉和语言的研究集中在一个小的，但不同的独立任务和支持数据集往往孤立地研究;然而，在这些任务中取得成功所需的视觉基础语言理解技能有很大的重叠。 In this work, we in- vestigate these relationshipsbetween vision-and-language tasks by developing a large-scale, multi-task training regime. 我们的方法最终在12个数据集上建立了一个单一的模型，这些数据集来自四大类任务，包括视觉问答、基于标题的图像检索、接地指涉表达和多模态验证。与独立训练的单任务模型相比，这意味着从大约30亿个参数减少我们使用我们的多任务框架，进行深入分析的效果，联合训练不同的任务。此外，我们表明，从我们的单一多任务模型中微调特定于任务的模型可以带来进一步的改进，达到或超过最先进的性能。1. 介绍联合研究语言和视觉的一个令人信服的理由是，语言作为视觉推理问题的通用和自然界面的承诺-在指定广泛的问题和交流AI反应方面都很然而，目前基于视觉的语言理解的研究领域是许多专业任务的拼凑，如问答或字幕生成，每个任务都由少数数据集支持。因此，这一领域的进展是通过为这些特定任务和数据集中的每一个设计和训练的定制模型的独立改进来衡量的。最近兴起的视觉和语言通用架构[1，23，24，27，43，45，54]减少了任务之间的架构差异。这些模型在自我监督任务上预训练通用架构，以学习一般的非语言表示，然后针对特定的*同等贡献视觉问题回答孩子的衣服是什么颜色的？橙色指称词语孩子希普巴斯克T人们坐在柴r多模态验证那孩子在抚摸一只狗。虚假基于字幕的图像检索一个穿橙色衣服的孩子和羊一起玩。图1：我们介绍了一种有效的多任务学习方法，在12个流行的视觉和语言数据集上训练单个模型。对于许多任务，这个单一模型的性能与独立任务特定的最先进方法数据集;然而，结果仍然是独立的任务特定模型的动物园，而不是单个统一的模型。这在实践中是令人不满意的此外，这种方法不能很好地扩展，因为每个新任务都需要存储新模型。除了智力上的不满意，这种基于任务的分裂留下了很多问题。虽然单个任务呈现出不同的挑战和不同的界面，但语言和视觉概念之间的潜在关联通常在任务中是共同的。例如，学习“小红花瓶”这个指称表达需要理解与回答“小花瓶是什么颜色的”这个问题相同的概念。“.联合训练多个任务可以潜在地汇集这些不同的接地监督源。此外，开发可以同时在各种任务上表现良好的模型可以帮助防止研究社区过度拟合特定的数据集和指标。在这项工作中，我们基于最近提出的ViLBERT [27]模型开发了一个用于区分原生视觉和语言任务的多任务模型我们考虑了四类任务我们的研究结果不仅表明，一个单一的模型可以执行所有这些任务，而且联合训练可以提高性能相比，单任务训练具有相同的在进行这项工作之前，我们并不清楚情况会是这样10438众所周知，视觉和语言数据集在大小、界面和难度上差异很大。我们的模型从多任务训练中获得了0.25到4.19个绝对点的改进-在此外，我们证明了多任务训练是单任务模型的有效预训练步骤-大规模多任务学习具有挑战性，因为数据集的大小和难度可能会有所不同。为了解决这些问题，我们引入了一个动态的停止和去训练调度器，任务相关的输入令牌，和简单的超参数神经网络。使用我们提出的管道，我们能够用不同的数据集训练许多多任务模型-总而言之，我们做出了以下贡献：– 我们系统地分析了不同的视觉和语言数据集和任务之间的联合训练关系，并提出了一个干净的V L多任务设置，它确保了没有跨任务的训练测试泄漏。– 我们开发了一个单一的多任务模型，在12个流行的V& L数据集上训练。与一组独立的模型相比，这意味着从230亿个参数减少到22.7亿个参数，同时将平均性能提高了2.05个点。– 我们证明了多任务训练是有用的，即使在单任务性能是至关重要的情况下。平均而言，从我们的多任务模型中对单个任务进行微调，比基线单任务训练模型平均提高了2.98分。2. 视觉和语言任务2.1. 任务组和数据集我们考虑了12个流行的视觉和语言数据集。这些数据集涵盖了广泛的任务，需要不同的基础粒度和推理技能。我们将相关数据集分为四组，以方便我们的分析：基于Vocab的VQA。给定一个图像和一个自然语言问题，从固定词汇表中选择一个答案我们考虑了这个群体的三个流行数据集图像检索给定一个标题和一个图像池，检索由标题描述得最好的目标图像。我们考虑COCO [7]和Flickr30K[35]字幕数据集用于此任务组。参考表达。给定自然语言表达式和图像，识别表达式所指的目标区域从简单的名词短语到多轮对话，表达在数据集上可能会有很大的不同。[A]% Row-Tas[B][丙]k检验【D】列中的图像-任务训练/验证集[E][F][G][H][I][J][K][L][15]第十五届全国人大代表0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比[21]第二十一话0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比[17]第十七话0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比[D]COCO [7]100%百分之四十三百分之三十三0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比占7%百分之四十六 0%的百分比 0%的百分比[35]第35届中国国际纺织品博览会0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%98% 0%[19]第十九话百分百百分之三十六百分之二十七百分百0%的百分比0%的百分比0%的百分比百分之六十六百分之八百分之六十二0% 0%[G]RefCOCO+ [19]百分百百分之三十八百分之二十七百分百0%的百分比0%的百分比0%的百分比百分之六十六百分之八百分之六十二0%的百分比 0%的百分比[30]第三十话百分百百分之四十一百分之三十一百分百0% 53% 百分之五十三 0%的百分比百分之八百分之六十三0% 0%[55]第五十五章：你是谁？百分之五十 100% 79%百分之四十八 0%的百分比百分之八百分之八百分之十0%24% 0% 0%[13]第十三话百分百百分之四十百分之三十一百分之九十六 0% 20% 百分之二十百分之二十六占7% 0%的百分比0% 0%[49] 2016年10月29日[编辑]0%的百分比0%的百分比百分之九十四 0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比[L]NLVR2 [44] 0% 0%0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比0%的百分比表1：列任务train/val图像中存在的行任务测试图像的百分比。我们在RefCOCO（+/g）[19，30]中考虑短语基础，在Visual 7 W [55]中考虑指向问题，在GuessWhat [13]中考虑对话序列。我们注意到，这些语言输入在细节和结构方面差异很大。多模式验证。给定一个或多个图像，一个自然语言语句，判断其正确性或预测其语义关系。我曾在《古兰经》中说：“我曾在《古兰经》中说：‘我曾在《古兰经》中说：‘我曾在《古兰经》中说：‘我曾在《古兰经》中说：在NLVR2中，给出了两个图像，并且声明必须为真，才能使两者都为真。在SNLI-VE中，图像语句对被分类为表示蕴涵、矛盾或中性。也就是说，图像的内容是否证实、反驳或不足以评论相应陈述的真实性。2.2. 一个干净的V L多任务设置许多V L任务是建立在彼此之上的，并且在各个图像方面共享显著的重叠然而，由于每个任务往往是孤立地检查，不存在这种重叠在不同的V L任务的深入分析。表1显示了目标任务的测试图像在其他任务的训练集/值集中的百分比正如我们所看到的，任务之间存在着重大的重叠。尽管不同的任务需要不同的输入和输出，但其他任务注释将提供有关视觉基础的线索-例如，在训练时引用“蓝色条纹球”的表达可能会不公平地提高VQA模型回答“条纹球是什么颜色？”在测试时对相同的图像。为了避免其他任务的注释的信息泄漏，我们提出了一个干净的多任务分割V L任务，其中测试图像从所有任务的train/val中删除。我们强调，测试集没有以任何方式修改，所以我们的结果是与以前的工作。清理导致数据集之间的训练数据平均减少约11%。此过程的完整详细信息和有关清理数据集大小的统计信息可在补充中获得。104393. 方法3.1. 基础体系结构最近有一系列工作开发了通用的视觉和语言模型架构，这些架构可以进行大规模的自我监督预训练。[1，23，10440t=1i=1j=124、27、43、45、54]。通过预训练一般表示，然后在单个下游任务上进行微调，这些模型在许多任务中都是最先进的。对于实验中的基本架构，我们采用Lu等人提出的ViLBERT模型。[27]第10段。我们在这里简单描述一下。在接口级别，ViLBERT将图像I和表示为序列的文本段Q{IMG，v1，. - 是的- 是的，vT，CLS，w1，. - 是的-是的，wT，SEP}，其中{vi}T是图像区域特征[2]，{wj}T是单词标记，IMG、CLS和SEP标记是特殊标记。的然后，模型输出每个输入{hv}T、任务令牌。虽然依赖于相同的基础，不同的任务可能仍然需要模型以不同的方式处理输入指称表达只需要根据，而VQA则必须在根据之后附加推理。为了实现这一点，我们使用任务标记TASKt来增强查询，以便新的输入格式是{IMG，v1，. - 是的- 是的，vn，CLS，任务t，w1，.- 是的- 是的，wm，SEP}。的然后，体系结构可以在自下而上的方式。在下文中，我们将按任务组描述特定任务的头。基于Vocab的VQA输出：我们计算出一个ii=1{hw}T，h，h，h. 如[27]中，我们取作为逐元素乘积的图像查询表示是jj=1IMGCLSSephIMG和hCLS作为整体图像和文本表示。在内部，ViLBERT由两个并行的BERT风格的[14]在图像区域和文本分段上操作的模型。每个流都是一系列Transformer块（TRM）[48]通过共同关注的Transformer层（Co-TRM）连接，该层能够在模态之间进行信息交换。我们使用默认的参数设置，它有6/12层的TRM分别为视觉/语言流。像这个类的许多模型一样，ViLBERT在概念标题数据集上进行了预训练[39]，有两个“代理”任务：掩蔽多模态建模和多模态对准预测。第一个随机屏蔽了大约15%的单词和图像标记，并在剩余输入的情况下重建它们。后者的任务是预测图像和标题是否对应。经过预训练后，模型可以进行微调，以实现各种下游任务的强大性能我们对这个预训练过程做了两个重要的修改首先，当掩蔽视觉区域时，我们还掩蔽具有显著重叠（> 0.4IoU）的其他区域，以避免泄漏视觉信息。这迫使模型更加依赖语言来预测图像内容。第二，当对用于多模态对齐预测的负（不匹配）字幕进行采样时，我们不强制实施掩蔽的多模态建模损失。这将有效地消除负样本引入的噪声虽然与我们对多任务学习的主要贡献正交，但我们发现这些修改使基线模型更有效。有关进一步讨论，请参阅补充材料。我们提出的所有模型首先都是以这种方式进行预训练的。3.2. 多任务学习我们考虑一个简单的多任务模型，其中每个任务都有一个特定于任务的“头”网络，该网络分支出一个共同的、共享的“主干”ViLBERT模型。因此，我们学习共享的干线参数θs和一组特定于任务的层，在整体hIMG和hCLS表示之间。如在[2，17]，我们将基于vocab的VQA视为多标签分类任务我们通过在总体表示之上使用两层MLP来计算一组预定义答案A的Pv（A）|I，Q）=σ（MLP（hIMG<$hCLS））（1）其中σ是sigmoid函数。由于答案词汇的差异，VQA和VG QA共享MLP和答案词汇，而GQA学习单独的词汇。图像检索输出：使用相同的整体表示，我们计算图像-标题对之间的对齐分数为：Rel（I，Q）=Wi（hIMGhCLS）（2）其中，Wi∈Wnd×1在COCO和Flickr30k图像检索任务之间共享。在[27]中，我们训练一个4路多路-选择对硬底片选择离线，然后固定。最近的工作使用了在线硬负挖掘[8，23]，但这是昂贵的计算。引用表达式输出：我们重新排列了一组区域建议[50]，给出了参考表达式。我们将每个图像区域i的最终表示hvi传递到学习的投影Wr∈ Nd×1中以预测匹配分数。注意，Q 可以是基于不同任务的短语、问题或对话（RefCOCO+/g、Visual 7 W、GuessWhat）。Wr在所有引用表达式任务中共享。多模态验证输出：以NLVR 2为例，输入是两个图像（I0和I1）和语句Q的连接，模型必须判断给定图像的语句的有效性。我们认为这是一个分类问题，给定一个嵌入，编码两个图像语句对（I0，Q）和（I1，Q）。输出概率由具有softmax的2层MLP预测：ers{θ}TT任务。我们的目标是学习参数.. 0分0分ΣΣΣtt=1Pv（C|I0，I1，Q）=softmaxMLPIMGCLSθs{θt}T最大限度地减少所有任务的损失。的详细信息1IMG1CLS标题和其他修改如下。（四）H拉克什10441其中[]是连接。对于SNLI-VE，输入是单个图像和语句。因此，我们学习了一个单独的分类器，它具有相同的形式来预测情感（蕴涵，中性，矛盾）。3.3. 大规模多任务训练有6个任务头，12个数据集和超过440万个单独的训练实例-多任务学习（特别是在这种规模下）带来了重大挑战，因为学习目标具有复杂和未知的动态，并且可能存在竞争[41]。此外，视觉和语言数据集在大小和难度上差异很大。例如，VG（我们最大的数据集）的单个历元对应于19.8 RefCOCOg（我们的最小值）。同样，当在隔离中训练时，RefCOCOg在5K次迭代中收敛，而VQAv2需要84K次迭代（超过16倍）。以下，我们将详细描述我们的多任务培训方法和技术，以克服这些挑战。训练前。我们所有的模型都是在Conceptual Caption数据集上进行预训练的[39]，包括我们的自我监督任务修改，如第二节所述。第3.1条循环批次级取样.我们考虑从多任务训练开始循环通过每个任务的循环分批级采样机制。因此，一个多任务迭代由每个任务依次转发一个批处理和更新参数组成。动态走走停停。如前所述，不同的任务有不同的难度和数据集大小。因此，简单地循环遍历所有任务可能会严重地过度训练较小的任务，导致过拟合。典型的早期停止为这种现象提供了强有力的防御;然而，在多任务训练中停止任务会引入灾难性遗忘的问题，因为基础网络由于其他任务而随时间漂移。我们引入了一个直观但有效的动态停止和去（DSG）机制，以避免这些问题。我们监控每个任务t的验证损失st，每个任务epoch计算一次。如果在2个时期内，每小时的改善小于0.1%，则我们认为它已收敛并将其转换为停止模式。在在DSG停止模式下，任务只更新每个迭代间隔（iter-gap，简称 EGA）。如果验证性能从在停止模式下，任务该过程在算法1中示出。课程学习。受先前多任务文献[4] [31]的启发，我们根据任务难度对课程和反课程策略进行了实验。具体来说，对于反课程，我们首先在最慢收敛的任务组G1（基于Vocab-Based VQA）上进行训练，然后开始完整的循环多任务训练。为了课程设置我们第一次训练最快的-算法1：用于多任务学习的DSGnt←任务t的每个epoch的迭代次数停止模式下迭代之间的间隙大小DSGt← gofori←1toMaxIter：fort∈Tasks：如果DSGt=go或（DSGt=stop且imodn= 0）：计算任务损失Lt（θ）和梯度Δt（θ）更新θ←θ−θt（θ），其中θ=θs <$θt如果imodnt= 0：计算任务t验证得分st如果DSGt=goandConverged（st）：DSGt←stop否则，如果DSGt=停止和发散（st）：DSGt←go端端G3（指涉表达）。与之前的观察结果[31，33]不同，我们发现，当与本节中提出的其他策略相结合时，不使用课程会导致更好的表现设置多任务超参数。我们遵循一个简单的设计理念-在单任务训练中，这显著减少了搜索联合训练超参数的负担有关每个任务的学习率、批量大小和其他设置的完整列表，请参阅补充材料我们的代码已可用1.批量大小：对于多任务，我们为每个任务的单任务训练调整批量大小预热持续时间：我们发现设置相对于最大数据集的预热持续时间很重要。具体来说，我们在η<$N次迭代中运行线性预热，其中N是最大值。在单任务设置中训练任何数据集所需的迭代次数我们观察到显着的性能下降，较难的任务时，热身时间较短。我们在实验中将η损耗缩放：我们的模型具有共享和特定于任务的参数，我们发现保持单独的学习率很重要。对于共享基础模型，我们设置在所有单任务数据集参数上将基本学习率降至最低。为了适应每个数据集的可变学习率，我们通过任务目标学习率与基本学习率的比率来缩放每个数据集的任务损失。4. 实验和结果4.1. 单一任务性能为了建立ViLBERT架构的基准性能，该架构构成了我们多任务实验的基础，我们首先在基础ViLBERT架构之上训练单任务模型（第3节），12个数据集表2中的表1和表2显示了在完整和清洁的1https://github.com/facebookresearch/vilbert-multi-task10442✓基于Vocab的VQA（G1）图像检索（G2）引用表达式（G3）验证（G4）VQAv2GQAVG QACOCOFlickr30kCOCO COCO+ COCOg V7W GW NLVR2 SNLI-VE#参数所有任务finetune6GT−→ST72.61 59.96 35.81 66.26 66.98 79.94 72.1275.183B（12）68.817ATfinetuneST−−−−−→✓72.92 60.48 36.56 65.46 65.14 80.86 73.4576.003B（12）69.55finetune8AT−→ST73.1560.6536.6468.0067.9081.2074.2276.353B（12）70.24表2：我们的多任务模型与单任务性能的比较。我们发现多任务训练（第3-5行）比单任务训练（第1-2行）有显著的提高，同时将参数数量从30多亿减少到2.7亿。此外，在通过任务特定的微调（行6-9）进行多任务训练之后，可以以增加的参数为代价来获得进一步的增益培训与培训G1 G2 G3 G4平均值公司简介G1 G3G1 G4公司简介G2 G4 G3 G4平均G1（VQAv2）-0.38%0.38%-0.20%0.19% G2（Flickr30k）0.46%-百分之零点二三-4.13%-1.15% G3（Visual7W）0.39%0.78%-百分之零点二四0.47% G4（NLVR 2）2.29% 1.47% 0.67%-1.48%Avg.1.04%0.88%0.43% -1.36%-2.27%2.23%0.34%1.68%0.10%-2.09%- -一种表3：成对（左）和三重（右）组间代表性任务分析。每个条目是当与列任务联合训练时，行任务的单任务训练的相对性能变化数据集，分别。正如预期的那样，通过清理减少训练集大小在大多数情况下会导致性能降低。我们对预训练目标（第3.1节）的改进导致了更好的下游任务性能（ 71.82 vs. VQA 为 70.55 ， VQA 为 61.46 ， 58.20 在Flickr30k Recall@1）.参见补充资料以了解完整内容。总的来说，我们的基础架构与以前的工作相比具有竞争力，并且是多任务学习的良好起点4.2. 组内多任务性能我们从最直观的多任务设置开始-在同一组中联合训练任务。由于分组任务通常高度相关，这类似于一些现有的数据增强实践（例如，在训练VQA时添加视觉请注意，这对应于四个单独的多任务模型表2第3行显示了组内多任务训练的结果。与在相同数据上训练的单任务模型（第2行）相比，我们看到12个任务中有11个任务（只有SNLI-VE没有改进）的改进在0.37%（NLVR2）和4.54%（Flickr 30 k检索）之间。与第1行相比，我们看到组内多任务训练克服了清理造成的数据丢失，平均得分为68.72，优于在完整数据集上训练的单任务模型，其平均得分为67.25。此外，参数总数下降了3倍4.3. 组间多任务绩效代表性任务分析。接下来我们考虑不同任务组之间的相互作用。为了提高效率，我们考虑使用每组中的代表性任务进行多任务训练这些被选择来最大化潜在图像源的多样性。我们通过在我们的多任务训练方法下联合训练所有任务对和任务三联体来表3（左）显示了训练每个代表性任务对的结果。每个条目是与列任务联合训练时行任务的单任务性能因此，平均。行（下）显示每个列任务对其他任务的平均影响，同样，列（右）显示其他任务对每行任务的例如，我们发现，增加VQA（G1）有利于其他任务，平均改善+1.04%。有趣的是，添加NLVR2（G4）平均会降低其他任务（-1.36%），而其本身却有显著的收益（+1.48%）。这主要是由于与G2的相互作用为-4.13%。表3（右）显示了所有的任务三元组。配对实验中的收益并不是简单的相加。在成对分析中，G3上涨了0.39%，G1和G2分别为+0.78%。与之前一样，G4对其他组有一些强烈的负面影响（G3 G4的G2为-4.36%），但这些影响可以通过其他任务进行调节（G1 G4的G2为+0.49%）。相对性能清洁test-dev test-devVal测试（R1）测试（R1）测试测试测试测试测试测试P测试（型号数）平均1单任务（ST）71.8258.1934.3865.28 61.1478.6371.1172.2480.51 62.8174.2576.723B（12）67.252单任务（ST）✓71.2459.0934.1064.80 61.4678.1769.4772.2180.51 62.5374.2576.533B（12）67.033组任务（GT）✓72.0359.6036.1865.06 66.0080.2372.7975.3081.54 64.7874.6276.521B（4）68.724所有任务（AT）✓72.5760.1236.3663.70 63.5280.5873.2575.9682.75 65.0478.4476.78270M（1）69.08- --1.24%-0.63%-0.08%的百分比-0.18% 0.24%0.49%百分之零点一九---4.36%-0.88%0.86%-0.29%-0.44%10443美国[8] OursATOursAT->ST任务分裂SOTA伯特湾BERTL伯特湾伯特湾VQAtest-dev-72.2773.2472.5773.15VG QAVal---36.3636.64GQAtest-dev60.00美元[45]--60.1260.65IR COCOIR Flickr30k测试（R1）测试（R1）68.50[23]--71.50-73.6663.7063.5268.0067.90RefCOCO测试-80.2180.8880.5881.20RefCOCO+测试-72.9073.7373.2574.22参考COCOg测试-74.4175.7775.9676.35目视检查7W测试72.53 [16]--82.7583.35GuessWhat测试61.30 [13]--65.0465.69NLVR2测试P-77.8779.5078.4478.87SNLI-VE测试-78.0278.9876.7876.95#参数602M2.1B270M3B（型号数）（7x86米）（7x303米）（1 x 270米）（12x 250米）表4：与最近SOTA的比较。对于图像检索（IR）COCO和Flickr，我们在1K测试集上报告R1得分。完整的多任务结果。我们转向我们的主要结果-在所有12个数据集上训练的单个模型。该全任务（AT）模型的结果如表2第4行所示。该模型在12个任务中的11个任务上优于在相同数据（第2行）上训练的独立单任务模型，并将平均得分提高了2.05分（69.08 vs.67.03）。我们强调，平均性能提高了2.05点，同时将参数数量从超过30亿减少到2.7亿（减少了12倍）。也是如此与在完整数据集(row1）以1.83点的相似幅度。我们的AT模型也优于组任务（GT）模型（第3行），尽管参数少了4倍（平均值）。69.08对68.72）。这意味着，尽管不同群体的任务各不相同，但联合培训可使不同群体的任务受益从代表性任务分析中我们观察到，在联合训练中，G4倾向于对其他组产生负面影响。为了在所有任务上验证这一观察结果，我们训练了一个没有G4的All-Task模型（第5行）。该模型实现了更高的平均值。G1+G2+G3 的得分为 67.96 ，而全 AT 模型的得分为67.39。NLVR2（G4）为每个描述提供两个图像，通常一个匹配，而另一个不匹配。尽管与一个图像对齐，但实例作为整体是负面的。我们推测这种超视觉可能会干扰Flickr 30k中的标准字幕图像4.4. 多任务学习作为预训练对于某些应用程序，单个任务的性能可能是最重要的，并证明存储特定于任务的模型是合理的。即使如此，从多任务训练模型进行微调可以允许模型利用在多任务训练期间捕获的附加的、多样化在[26]之后，我们对每个下游任务的训练多任务模型（GT和AT）进行微调，并在表2中显示结果。图6和图7表明，从全任务模型（AT）进行微调的效果优于从组任务模型（GT）进行微调的效果，VQA COCO检索Flickr检索FGR1 R5 R10 R1 R5 R10 R1OmniNet [36] 55.76---- -一种- -HDC [33]69.28 57.40 95.60 56.10 82.90 89.40 57.39我们的72.70 65.16 91.00 96.20 65.06 88.66 93.52 64.61表5：与其他多任务模型的比较。VQA分数在测试开发上，检索任务在各自的1K测试上。对于Flickr接地（FG），我们在Flickr 30K测试中报告R1。平均得分为69.51分，68.81.为了与我们的多任务模型进行比较，这些模型在清理后的数据集上进行了微调，平均小11%。为了与之前的工作进行比较，我们还对单个任务的完整数据集进行了微调（第8行），并观察了进一步的改进。重新调用我们的多任务模型是在清理过的数据上训练的，所以这里不可能有测试泄漏这些模型在没有多任务预训练的情况下（第1行）表现出很大的优势（70.24 vs.平均67.25 分数）。4.5. 与现有工作的比较在表4中，我们与现有的最先进技术进行了比较。我们与最近的UNITER [ 8 ]架构进行了特别比较，因为它与我们的基础ViLBERT模型相似。与ViLBERT一样，UNITER是一种通用的基于BERT的视觉和语言架构，通过自我监督任务进行预训练，然后为每个下游任务进行微调。我们展示了两个UNITER列，对应于其基础 BERT 模型我们的 ViLBERT 模型使用较小的BERTB。我们的单一全任务模型（我们的AT）实现了与最先进的特定任务模型相媲美的性能。我们的单任务微调模型（我们的AT->ST）在12个任务中的7个上超过了最先进的水平。表5将我们的方法与最近提出的其他多模态，多任务学习方法-OmniNet在词性标记、图像字幕、视觉问答和视频活动识别方面进行训练，而HDC在图像字幕检索、视觉问答和视觉基础方面进行训练。我们在HDC中使用的相同任务和清洁数据集上训练多任务模型[33]。Flickr Grounding是我们在此比较中包含的一个新任务。我们的多任务模型远远优于这些方法。5. 分析和消融研究任务标记和训练策略的消融。为了验证我们的设计选择，我们对不同的任务令牌粒度和多任务训练策略进行了消融。结果示于表6中。我们报告平均组和整体平均性能。每项工作的详细分项数字见附件。对于任务令牌，我们的默认设置是10444JKjkjAT（我们的）任务令牌动态G1 G2 G3G4所有任务平均值VQAVG QAGQAIR COCO0.2530.252每个数据集1个令牌CC56.3563.61七十五点五二77.61 69.08每人2枚代币C C55.9561.48七十五点三五77.37 68.523w/o task tokenC55.6762.55七十五点三八76.73 68.534个，不带DSGC55.5062.92七十五点二十四分76.3168.525w/课程54.6861.21七十五点十九分76.70 67.246w/反课程55.8259.58七十三点六九75.94 67.987vanilla多任务54.0961.45七十五点二八76.71 67.92表6：我们的设计选择的消融和与当前的IRFlickrRefCOCORefCOCO+RefCOCOgVisual7WGuessWhatNLVR2SNLI-VE05000100001500020000250003000035000 40000训练迭代0.2510.2500.2490.2480.2472 4 6 810121416动态停止-运行间隔多任务教学法。每个数据集的任务令牌（共12个，第1行）。我们将其与两种消融进行比较：每个输出头一个任务标记（总共4个，第2行），没有任务标记（第3行）。我们观察到，与基于头部的令牌（avg.69.08比68.52）和没有任务- kens（平均。69.08比68.53）。这表明任务感知特征嵌入即使在相同的输出空间内也是有用e.G. 每个任务标记可以帮助区分名词短语和指示性问题。对于多任务训练时间表，我们比较了我们的动态走走停停（DSG）（第3行）与课程（第5行）和反课程（第6行）方法。3 .第三章。我们认为收敛速度作为任务难度的衡量标准。对于Curriculum，我们首先在G4，然后一起训练所有任务（更容易→更难）。对于反课程，我们首先训练G1任务，然后一起训练所有任务（更难→更容易）。表6显示了我们的动态走走停停的训练时间表，形式反课程（avg。68.52比67.98）和课程图2：左：动态停走过程中多任务训练。实线表示在进行模式中，而细线表示停止模式。右：每组的平均准确度（标准化组间比较更容易），具有不同的迭代间隙，用于动态停止和前进。补充资料中提供了鲁特和每项任务的分数多任务视觉基础一致性。鉴于共同的共享基础模型，一个问题是多任务模型是否比独立的特定任务模型表现出更一致的视觉基础。例如，一个模型是否正确回答了“最大的狗是什么颜色的？”也正确地解释了“最大的狗 ” 这个词为了评估这一点，我们考虑了来自RefCOCO/+测试集的1500个图像，这些图像也具有VQA注释。使得对于每个图像Ii，存在相关联的问题{q（i）}和引用表达式{r（i）}。为了测量问题q（i）和q（i）之间视觉概念的重叠，参考文献r（i），我们计算重叠的名词和形容词（使用词性标记器[47]识别）并表示这个d（q（i），r（i））。有了这种相似性的概念，我们（平均值）68.53比67.24）。第7行显示了“香草”的结果没有任务令牌或训练调度的循环训练方案。香草多任务的平均得分接近反课程（67.92vs. 67.98）。与先前的工作一致[31]，与反课程相比，更难的任务（G1）的表现更差。我们的全面培训制度-执行这一显着（平均。69.08比67.92）。考虑每个图像的每个问题-参考对（以-计算111，275个组合）并计算加权精度。一对被认为是正确的，如果问题是一个正确的答案，所指是本地化的。每一对都通过它们的重叠d（q（i），r（i））来加权。注意，如果q（i）和r（i）不具有任何共同的视觉概念（d（q（i），r（i），kjk动态停走训练的行为。为了描述我们的动态停走训练方案，我们在图中可视化了动态训练时间表2（左）我们看到较小的数据集快速收敛，并提前进入停止状态训练。随着基础模型随着时间的推移而漂移，它们会定期返回到完整的运行状态训练以进行调整。有趣的是，在这样的一些循环之后，它们进入停止状态，并在剩下的训练中只进行稀疏的更新。动态走走停停训练的另一个方面是停止状态下更新的稀疏性。图 2 （右）显示了使用不同迭代间隙（Istitution Gap）训练的多任务模型的每组平均归一化准确度。我们...服务于该提高的成本（即，更稀疏地更新）改进了初始性能，但对于较大的值会降低。绝对该对的正确性不影响整个度量。我们评估我们的单任务（ST），所有任务（AT），并从所有任务（AT->ST）模型上提出的指标微调。AT始终优于ST（55.40%vs. 58.30%）和AT->ST获得最佳性能（64.64%）。这表明我们在多个任务上训练的模型在不同的任务中实现了更好的视觉基础一致性进一步的分析可以在附录中找到。多任务学习的规律化效应。我们发现，多任务训练对单独训练时过拟合的任务具有正则化效应。在图4中，我们绘制了两个任务（SNLI-VE和Flickr Grounding）的训练和验证曲线，其中单任务训练很快过拟合。另一方面，当在具有所有其他任务的多任务设置中训练时，验证分数提高并且没有过拟合。定性实例。图3显示了G1G2G3G4所有任务平均值平均归一化准确度10445图3：我们的单个模型（我们的AT）可以执行多种V L任务：标题和图像检索，问题回答，接地短语，基于对话猜测图像区域，验证关于一对图像的事实，从图像中进行自然语言推理等。1.000.950.900.850.800.750.700.650.60单任务培训多任务培训单任务验证多任务验证05000 10000 15000 20000 25000 30000 35000 40000训练迭代1.00.90.80.70.60.50.40.30.2单任务培训多任务培训单任务验证多任务验证0250050007500 10000 12500 15000 17500 20000训练迭代针对不同任务的定制架构，最近提出的V L [1，8，23，24，27，43，45，54]模型提供了一种通用架构，可以使用自监督损失进行预训练，并适应许多视觉和语言任务。然而，这些模型仍然需要任务特定的精细化，这可能容易在小数据集上过拟合我们的单个模型联合学习多个V L任务，并实现有竞争力的性能。此外，多任务图4：多任务训练充当正则化器。我们的模特由于空间限制，我们在补充中提供了广泛的可视化。6. 相关工作多任务学习。人们对多任务学习有很大的兴趣[6，38]，即：一次为多个任务训练一个模型多任务学习的进展已经在视觉的背景下发展[5，20，32，42，52，53]，语言[10，25，26，31，37]和机器人[18，34，46]。其中，Standleyet al. [41]研究了不同的视觉任务是如何相互关联的。Strezoski等人[42]研究了不同视觉任务的逐层任务路由。McCann等[31]提出十个自然语言处理（NLP）任务作为问答任

下载后可阅读完整内容，剩余1页未读，立即下载