统一Transformer：多模态多任务学习的强大性能

189 浏览量更新于2023-10-15 收藏 1.59MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1UniT：使用统一Transformer的多模式多任务学习Ronghang Hu Amanpreet SinghFacebook AI Research（FAIR）{ronghanghu，asg} @ fb.com意象问题假说前提段图1：在这项工作中，我们提出了UniT，它通过统一的T转换器跨不同的域联合学习多个任务。我们的UniT模型同时处理8个数据集上的7个任务，从对象检测到视觉和语言推理以及自然语言理解，同时通过一组紧凑的模型参数在每个任务上实现强大的性能摘要我们提出了一个统一的Transformer模型，它可以同时学习不同领域中最突出的任务，从对象检测到自然语言理解和多模态推理。基于Transformer编码器-解码器架构，我们的UniT模型使用编码器对每个输入模态进行编码，并使用共享解码器对每个任务进行预测，然后是特定于任务的输出头。整个模型是端到端联合训练的，每个任务都有损失与以前在使用变压器的多任务学习上的努力相比，我们在所有任务中共享相同的模型参数，而不是单独地微调特定于任务的模型，并且处理跨不同域的任务的更高在我们的实验中，我们在8个数据集上联合学习了7个任务，在每个任务上都取得了很好的性能，并且参数显著减少。我们的代码在MMF中可在https://mmf.sh获得。1. 介绍在[59]中首次提出的变换器已经在广泛的领域中显示出巨大的成功，包括但不限于自然语言、图像、视频和音频。以前的作品（例如[14，43，44，4，65，35，29，45，49]）证明，在大型语料库上训练的转换器学习广泛的下游语言任务的强表示。在视觉领域，基于变换器的模型在图像分类、目标检测和全景分割（例如图像分割）等[40、3、22、21、47、15、61、5、72、2、58]）。除了对单一模态进行建模外，Transformer模型在视觉和语言联合推理任务中也表现出很强的性能，例如视觉问题回答（例如[31、38、39、57、9、30、55、71、23]）。然而，尽管在将变换器应用于特定域方面取得了上述成就，但是还没有太多先前的努力来用变换器连接跨域的目睹了变形金刚的成功后，各种疑问自然产生：为文本输入的自然语言推理训练的转换器模型是否也可以对图像执行对象检测，或者可以1439输入那位女士的夹克是什么颜色的？那个女人在游泳。那个女人正在开车。...这部电影不关心聪明，机智或任何其他类型的智能幽默。任务检测VQASNLI-VEMNLIQNLIQQPSST-2输出回答：红色矛盾无法回答...情绪：消极在任务间使用单个统一转换器（UniT）学习1440基于变换器的图像分类器也检查文本蕴涵？总的来说，是否有可能建立一个单一的模型，同时处理各种领域的任务，作为迈向通用智能的一步？先前的工作试图解决其中的一些问题，但仅限于有限的范围：•仅适用于来自单个域或特定多模态域的任务; ViT[15]和DETR [5]专注于视觉任务，BERT [14]及其衍生作品[35，65，29，45]仅处理语言任务，而Visu-alBERT，VILBERT [38，31]和其他多模态转换器仅适用于视觉和语言的特定多模态域。•涉及针对每个任务的特定于任务的微调，不利用跨任务的任何共享参数，通常以N个任务的参数的N倍结束，例如，必须用BERT分别微调每个任务的模型。•仅从单个域对相关或类似任务执行多任务，有时使用硬编码的训练策略;例如，T5 [45]仅适用于语言领域的任务，而VILBERT-MT [39]仅适用于相关的视觉和语言任务。在这项工作中，我们建立了一个统一的Ttransformer（UniT）模型，该模型以图像和/或文本作为输入，并联合训练从视觉感知和自然语言理解到联合视觉和语言推理的多个任务。UniT由Transformer编码器和变换器解码器组成，所述变换器编码器将每个输入模态编码为隐藏状态（特征向量）的序列，所述变换器解码器在编码的输入模态上，随后是应用于解码器隐藏状态的任务特定的输出头，以对每个任务进行最终预测。与以前的工作相比，多任务学习与变压器（例如。[39]），我们训练了UniT，并在更广泛的任务上实现了与现有工作相当的性能;不仅是视觉和语言联合任务，如视觉问答，而且是仅视觉和仅语言任务。我们在这项工作中做出了以下贡献：•我们提出了一个统一的传输编码器-解码器架构，处理多个任务，并在一个单一的模型与更少的参数，并向通用智能的一步。•我们共同学习视觉和文本领域及其交叉点中最突出的任务，即GLUE benckmark [60]中的对象检测，视觉问答（VQA），视觉蕴涵和自然语言理解任务，包括QNLI [46]，MNLI [62]，QQP [24]和SST-2 [51]。我们表明，这些不同的任务可以同时学习，并适当收敛我们的训练计划。•通过对各种任务的分析，我们表明，多模态任务，如VQA和视觉蕴涵受益于多任务训练与单模态任务。2. 相关工作语言、视觉和多模态任务的转换器。Transformer首先应用于语言领域，用于序列到序列建模[59]。BERT[14] ， GPT [43 ， 44 ， 4] ， XLNet [65] ， RoBERTa[35]，AL-BERT [29]，T5 [45]，T-NLG [49]和其他最近的工作表明，在大型语料库上预训练的转换器学习语言表示，可以通过微调转移到在视觉领域，Image Transformer [40]，Image GPT[8]，DETR [5]，ViT [15]和其他最近的作品将变换器模型应用于几个视觉任务。此外，变换器的多头自注意机制也有益于广泛的视觉应用（例如：[61、47、11、69、70]）。对于联合视觉和语言推理任务，如视觉问题回答，Transformer模型已被扩展为同时采用图像和文本模态作为输入（例如：VisualBERT [31]、VILBERT [38、39]、LXMERT [57]和UNITER [9]）。大多数这些先前的应用程序和变压器的扩展为每个感兴趣的任务训练（或微调）特定的模型。在BERT[14]中，预训练的转换器模型在多个下游语言任务上分别进行微调。在T5 [45]中，文本到文本Transformer在不同的语言任务上进行联合预训练。然而，尽管通过多任务预训练学习通用表示，T5仍然为每个下游任务微调不同的参数集。相反，我们在一个Transformer中同时学习多个任务。多任务学习与转换器。在视觉中，多任务学习[6，12]的工作已经有很长的历史了（例如：[18，68，54，53，67]）、语言（例如，[52、17、33、50，10]），或多模式区域（例如，[25、26、42、7、39]）。大多数以前的多任务学习的努力集中在特定的域或模态，通常与模型架构定制的域。然而，也有显着的多任务学习跨域的工作与一个单一的通用模型。在[25]中，示出了基于Transformer的多头注意机制的编码器-解码器架构[25]中的解码器是为每个输出任务专门设计的，而我们的模型涉及较少的特定于任务的细节，因为我们在所有任务上应用相同的解码器架构。在MT-DNN [34]中，通过在Transformer中共享较低层同时使顶层特定于任务来构建多任务语言理解模型。在VILBERT-MT [39]中，使用基于VILBERT [38]的多任务Transformer模型联合学习了12个视觉和语言任务。与[34]和[39]相比，我们扩展了固定的输入模态，并联合处理不同的单模态（仅视觉和仅语言）和多模态。1441损失检测类盒头VQA分类器SNLI-VE分类器...SST-2分类器特定任务输出磁头解码器任务头添加规范Concatenate图像编码器文本编码器前馈12L联系我们添加规范前馈添加规范前馈添加规范多头交叉注意Nv×Nt×Nd×添加规范添加规范添加规范多头自我注意多头自我注意多头自我注意Convnet主干文本嵌入特定任务查询嵌入图像输入文本输入任务指标图2：我们的UniT模型概述，该模型通过统一的Transformer编码器-解码器架构联合处理不同域中的各种任务。我们的模型使用图像编码器对视觉输入进行编码（Sec. 3.1），一个文本编码器编码的语言输入（节。3.2），以及具有每任务查询嵌入的联合解码器（Sec. 3.3），然后是特定任务负责人（第3.4）为每项任务做出最终输出。使用统一的Transformer模型完成模态任务。此外，我们的模型允许直接在图像像素上进行端到端训练，而不是依赖于[39]中的预训练检测器。与多模式预训练形成对比。VirTex [13]，Voken [56]和VisualBERT [31]等先前的工作表明，对图像标题等多模态数据的预训练有助于下游视觉，语言或多模态任务，这通常是通过对每个下游任务进行微调来构建专门的模型来完成的。与这些方法不同的是，我们在一个共享的模型中处理所有的任务，在这个模型中，由于对特定的下游任务进行微调，跨域的一般知识不会丢失我们相信，跨领域联合解决不同任务的能力是迈向通用智能的关键一步。3. UniT：跨域统一Transformer在这项工作中，我们共同学习多个任务，在不同的形式与一个统一的单一模型。我们的模型，UniT，是建立在Transformer编码器-解码器架构[59，5]，由每个输入模态类型的单独编码器，后面是一个解码器（每个任务或共享），具有简单的任务特定的头。图2显示了UniT的概述。我们考虑两种输入模态：图像和文本。对于图像输入上的基于变换的编码器，受[5]的启发，我们首先应用卷积神经网络主干来提取视觉特征图，该视觉特征图由变换编码器进一步编码为隐藏状态列表以并入。对全局上下文信息进行评级。对于语言输入，我们使用BERT [14]，特别是12层未封装的版本，对输入单词进行编码（例如：问题）转换为BERT最后一层的隐藏状态序列。在将输入模态编码成隐藏状态序列之后，我们将Transformer解码器应用于单个编码模态或两个编码模态的级联序列，这取决于任务是否是单峰的（即，仅视觉或仅语言）或多模式。我们探索了单独的（即）任务特定的）或在所有任务之间共享的解码器最后，来自Transformer解码器的表示被传递到诸如简单的两层分类器的任务特定的头部鉴于UniT的简单性，它可以很容易地扩展到更多的模态和输入。我们的经验表明，我们的模型可以在8个数据集上联合学习7个不同的任务以下各节进一步描述了UniT中每个组件的详细信息。3.1. 图像编码器仅视觉任务（诸如对象检测）和视觉和语言任务（诸如视觉问题回答和视觉蕴涵）需要感知和理解作为输入的图像I。在我们的模型中，我们用卷积神经网络将输入图像I编码为编码的视觉隐藏状态列表，然后是Transformer编码器。我们的图像编码过程受到DETR [5]的启发首先，应用卷积神经网络骨干B1442vv不v×个×个vvv.Σ不联系我们.Σ不--不不12S不×× ××个以提取大小为xv的视觉特征图HvWvd basxv=B（I）。（一）在我们的实现中，骨干网络B遵循ResNet-50 [19]的结构，其中膨胀[66]应用于其最后一个C5块，并且在[5]中对对象检测进行预训练。我们应用视觉Transformer编码器Ev与Nv层和隐藏大小de上的特征映射xv的顶部，以进一步编码它的大小Lde的视觉隐藏状态hv（其中L=Hv Wv是编码的视觉隐藏状态的长度）。此外，考虑到不同的任务（诸如对象检测和VQA）可能需要提取不同的特征。不同类型的信息，我们还添加了一个任务嵌入向量w任务到Transformer编码器，以允许它执行。3.3.域无关的UniT解码器在对输入模态进行编码之后，我们在它们上应用具有隐藏大小dd和层数Nd的Transformer解码器D，以输出解码的隐藏状态hdec的序列，用于对每个任务的预测与针对每个模态具有特定架构设计的图像和文本编码器不同，我们的解码器构建在所有任务中相同的域不可知Transformer解码器架构[59对于仅视觉任务，我们将解码器应用于在第2节中描述3.1中，对于仅语言任务，我们将解码器应用于第3.1节中的编码文本henc=ht3.2，最后，对于视觉和语言联合任务，我们将编码的ENCv在其输出中提取特定于任务的信息，如下所示。hv={hv，hv，···，hv}=Ev（Pb→e（xv），wtask）（2）从两种模态放入单个序列h=concat（h_v，h_t）作为解码器的输入Transformer解码器D取编码输入se。12升v序列h_enc和特定于任务的查询嵌入序列Pb-e是从视觉特征维度db到编码器隐藏大小de的线性投影。视觉变换器编码器Ev的结构遵循DETR [5]，其中位置编码被添加到特征图。任务令牌wtask是维度de的学习参数，其连接到扁平化视觉特征列表Pb→e（xv）的开始。并从输出隐藏状态Hv中剥离。3.2.文本编码器GLUE基准[60]任务，如QNLI [46]、MNLI [62]、QQP [24]和SST-2 [51]，以及联合视觉和语言推理任务，如VQA和视觉蕴涵，提供文本输入。我们对文本输入进行编码任务长度为q。它输出用于第l个Transformer解码器层中的每一个的解码的隐藏状态的序列hdec，l，其具有与查询嵌入q任务相同的长度q。h十二月，l =D（henc，qtask）（4）我们的解码器架构主要遵循DETR [5]中的Transformer在第l解码器层中，在不同位置处的解码器隐藏状态hdec，l之间应用自注意，并且将交叉注意应用于编码的输入模态henc。在我们的实验中，我们使用（i）为所有任务共享的单个共享解码器D或（ii）单独的解码器D_sep。使用BERT [14]给定输入文本（例如一个句子或一对句子），我们以与BERT中相同的方式将其标记为S个令牌的序列w1，，wS，其中w1=[CLS]（BERT中用于分类的特殊池化令牌）。然后，令牌序列被用作预训练BERT模型来提取大小为S的文本隐藏状态序列htd e，其中d e是BERT隐藏大小。与图像编码器类似，在文本编码器中，我们还添加了一个学习任务嵌入向量wtask作为BERT输入的一部分，方法是在嵌入的令牌序列的开头加上前缀，然后将其从输出文本隐藏状态中剥离，如下所示。ht=.ht，ht，···，htΣ=BERT（{w1，···，wS}，wtask）对于每个特定任务T.3.4. 特定任务输出头针对每个任务t，在解码器隐藏状态h_dec，l上应用任务特定的预测头。对于对象检测，我们使用类头来产生分类输出（包括“背景”），并使用框头来产生中每个位置的边界框输出。1、. . . .，q。类头和盒头遵循DETR [5]中的实现。对于每个框上具有属性标签的数据集（我们实验中的Visual Genome数据集[28]），我们还在BUTD [1]的实现之后添加了属性分类头。解码器隐藏状态中的每个位置产生对象类或背景。类和盒头的输出是后处理的。处理成对象边界框。[5]我也一样然而，我们发现，在实践中，仅保留与[CLS]将这些头应用于解码器隐藏状态中的所有层Lhdec，l在训练期间作为作为解码器的输入（这节省了计算）。在我们的实现中，我们使用预训练的BERT基cl=类名（h十二月）（三）1443不（5）来自Huggingface的Transformers library [ 63 ]的uncased模型，其具有de = 768和N t = 12层。bl=箱形封头（hdec，l）（6）al=attrhead（hdec，l，cl）（7）144411其中cl、bl和al是类、框和属性输出序列，它们都具有与用于检测的查询嵌入q任务相同的长度q在测试时间，我们仅从顶部解码器层取预测，h_dec，N_d。由于不同的检测数据集通常具有不同数量的类，因此当在多个检测数据集上训练时，每个数据集都被赋予其自己的类、框和属性头。我们在输出cl和bl上应用与DETR [5]中相同的检测损失，并且在al上应用与BUTD [1]中相同的我们在这项工作中解决的所有其他任务，包括视觉问题回答，视觉蕴涵和自然语言理解（QNLI，QQP，MNLI和SST-2）都可以转换为任务的ct类中的分类任务。t.我们在来自顶部解码器层的第一输出位置隐藏状态h_dec，N_d上应用任务特定分类器，以输出针对任务t的大小为c_t的分类预测p。为了预测输出类，我们使用具有GeLU激活[20]（随后是dropout）和等于解码器隐藏大小的隐藏维度我们对预测应用交叉熵分类损失p与地面实况目标t进行比较，以如下训练模型。p=W1·GeLU（W2·hdec，Nd+b2）+b1（8）损失=CrossEntropyLoss（p，t）（9）3.5. 培训我们共同培训UniT多项任务。在训练过程中的每次迭代中，我们随机选择一个任务和一个数据集来填充一批样本。我们根据数据集大小和经验证据手动指定每个任务的抽样概率。在我们的实现中，我们使用PyTorch [41]以分布式方式在64个Nvidia Volta V100-SXM 2 - 32 GB GPU（每个GPU的批量大小为1）上训练批量大小为64。我们使用加权Adam优化器[27，37]，学习率为5e-5，预热余弦学习率时间表[36]（使用2000次预热迭代）。优化器根据任务损失的梯度更新模型参数。我们在对象检测训练期间对图像输入应用DETR [5]之后的缩放和裁剪增强。在检测训练批次中，输入图像被随机调整大小，使得其最短边在480和800像素之间然而，我们并没有在视觉和语言任务（如VQA）中应用缩放和裁剪增强，因为这些任务通常需要整个图像进行全局推理（例如回答在对象检测的测试时间以及视觉和语言任务的训练和测试时间，输入图像被调整大小以具有800像素的确定性最短边。4. 实验为了提供对UniT的全面分析，并与现有的工作进行比较，我们对来自不同领域的突出任务进行了联合学习实验，包括作为仅视觉任务的对象检测，作为仅语言任务的GLUE基准的语言理解任务，以及联合视觉和语言推理任务。对于对象检测，我们使用COCO数据集[32]作为基准，并使用Visual Genome（VG）数据集[28]进行实验，其中包含对象类及其属性。对于语言理解，我们使用来自GLUE基准[60]的四个任务进行实验：QNLI [46]，QQP [24]，MNLI不匹配[62]和SST-2 [51]。对于联合视觉和语言推理，我们使用VQAv 2数据集[16]（Visual Genome [28]的问题作为额外的训练数据）以及SNLI-VE数据集[64]的实验，这需要将图像和句子对分类为句子是否需要，矛盾或相对于图像是中性的。这些数据集仅用于纯研究目的。我们用两种设置进行实验。首先，我们在第二节中联合训练我们的模型进行对象检测和VQA任务。4.1.然后，我们进一步包括语言理解任务和SNLI-VE作为附加的联合视觉和语言推理任务。四点二。4.1. 检测和VQA我们首先将对象检测作为仅视觉任务进行训练，并将VQA作为多模态任务进行训练，该任务需要对图像和文本模态进行联合建模。移除重叠部分。对于对象检测，我们使用COCO检测数据集（COCO det.）[32]和Visual Genome数据集中的对象注释（VG det.）[28]第10段。对于VQA任务，我们使用VQAv2数据集[16]。我们根据COCO train2017和val 2017拆分这些数据集：对于COCO检测，我们使用其train 2017分裂进行训练，使用val 2017分裂进行评估;对于其他数据集（Visual Genome detection和VQAv 2），我们在不与COCO val 2017重叠的图像上进行训练，并在COCO val 2017中对这些图像进行评估。我们还使用来自Visual Genome VQA数据集的这些问题（在不与COCO val2017重叠的图像上）作为额外的训练数据，添加到VQAv2的训练分割中。训练我们在任务和数据集的不同组合下训练和评估我们的模型： COCO 检测和 VQAv2 、视觉基因组（VG）检测和VQAv2以及所有三个数据集一起。我们还在单个数据集上训练它作为比较。我们在我们的Transformer解码器中使用两种设置进行实验：1）不同任务上的单独解码器（不共享解码器参数）和2）用于所有任务的单个共享解码器。在这两个领域的工作之后，我们用平均值来1445×个#解码器设置COCO det.VG检测VQAv2mAP准确度#训练数据COCO det.VG检测VQAv2mAP mAP准确度1单任务培训40.6/3.8766.38 /2间独立40.8/3.9168.84/3间共用37.2/4.0568.79 /4 shared（COCO init.）40.8/41.14.5367.30 /67.471单一任务训练40.63.8766.382COCO + VQAv240.2-66.883VG + VQAv2-3.8368.494COCO + VG + VQAv240.84.5367.30表1：UniT在对象检测和VQA上的多任务训练上的性能。我们的最终模型具有单个共享解码器，在所有三个数据集上都优于单独训练的单任务模型（第4行与第1行）。在COCO检测和VQAv 2数据集上，我们还评估了最终模型的测试-开发拆分。精密度（mAP）和VQA准确度的VQA任务。1在联合训练期间，我们以相等的概率对所有数据集进行采样。我们分别在一个、两个和三个数据集上进行了总共150k、300k和450k次迭代的训练。2结果表1显示了我们的模型在三个数据集上联合训练的性能，这些数据集具有单独的（第2行）或共享的解码器（第3行），以及我们的模型在每个数据集上单独训练的单任务性能（第1行）。使用单独的解码器，我们在三个数据集上联合训练的模型然而，将第3行与第1行进行比较，我们观察到，虽然使用共享解码器训练的联合模型在VQA和VG检测上实现了更好的性能，但它在COCO检测上的表现明显低于单任务模型。对象检测任务需要结构输出（具有类别标签的边界框，与VQA中的分类输出相反），并且解码器需要正确地对不同对象之间的关系（例如它们的重叠以学习非最大抑制）进行建模。因此，对象检测可能需要更长的训练调度，特别是在单个共享解码器的情况下，其中解码器需要学习对检测中的对象关系和VQA中的多模态融合和推理两者进行建模的复杂行为。为了在共享解码器设置中对检测任务提供更多的训练迭代，我们从仅在COCO检测上训练的模型（COCO init. ）继续进行联合任务训练在这种情况下，图像编码器（包括卷积网络主干和其中的Transformer编码器）和检测头从表1第1行中的单任务COCO检测模型初始化。具有共享解码器的联合模型的这种变体（在表1第4行中）在以下方面优于单任务模型（第1行）：1https://visualqa.org/evaluation.html表2：具有共享解码器的对象检测和VQA（COCOinit.）不同的数据集组合。两个检测数据集通过联合训练（线4对线2或3）彼此受益。此外，与COCO检测相比，VG检测对VQA具有更大的益处（第3行对第2行）。三个数据集。此外，与线3相比，可以看出检测性能明显更好。3我们进一步评估来自每个任务的一个数据集的训练（使用COCO或Visual Genome作为检测数据集）。结果如表2所示，其中i）在两个检测数据集上的联合训练通常使两个数据集都受益（第4行对第2行或第3行），以及ii）在VG检测VQAv2上的训练&比在COCO检测&VQAv2上的训练（第3行对第2行）提供更好的VQA准确性，这可能是由于Visual Genome数据集包含更多样化的对象注释（属性）集的事实。以及更好地覆盖用于可视问题回答的可视概念。4.2. 多域统一Transformer为了进一步测试UniT的能力，我们将训练扩展到8个数据集，从GLUE基准测试（QNLI、QQP、MNLI和SST-2）中添加4个仅语言任务，并为视觉蕴涵添加一个新的视觉和语言数据集SNLI-VE。我们表明，UniT可以在8个数据集上联合执行所有7个任务，与特定任务的微调相似模型相比，使用8个更少的参数我们在表3第5行中的最终UniT模型具有201M参数。训练对于COCO，Visual Genome和VQAv2，我们遵循第二节中创建的拆分。4.1. 对于SNLI-VE和GLUE任务，我们遵循官方分割。5、类似于S。4.1，我们用三种不同的设置进行实验：（i）单任务训练，其中每个模型在每个任务上被单独训练，（ii）具有单独解码器的多任务训练，其中模型具有用于每个任务的特定解码器，但是在所有任务上被联合训练，以及（iii）与（ii）相同的多任务训练，但是具有共享解码器而不是单独的解码器。在（iii）中，模型仍然包含用于每个任务的轻量级任务特定头以生成预测，如在第2节中所解释的。三点四分。继SEC 在图4.1中，我们还训练了（ii）和（iii）的变体，其中我们从单个任务COCO预训练的UniT模型（被称为COCO初始化）初始化图像编码器和解码器。我们训练所有的模型2当使用共享解码器联合训练多个数据集时，我们根据经验发现，跳过对具有零梯度的未使用参数的优化器更新（包括动量累积）（例如，VQA分类器权重）比更新所有参数更好地工作后者经常导致发散，可能是因为累积零梯度导致不稳定的动量。3我们发现这种改进的关键是对检测任务进行足够的训练，并且在联合训练中使用2次总迭代次数可以达到与COCO初始化等效的效果。1446×个从https://gluebenchmark.com/tasks下载4个GLUE任务5SNLI-VE购自https://github.com/necla-ml/SNLI-VE1447×个×个COCO det.VG检测VQAv2SNLI-VEQNLIMNLI-mmQQPSST-2#解码器设置地图地图精度精度精度精度精度精度1个UniT -40.63.8766.38美元-70.52/-91.62/-84.23/ -91.18/-91.63/-2个UniT32.22.5467.38美元-74.31/-87.68美元-81.76美元-90.44/-89.40美元-3个UniT33.82.6967.36美元-74.14/-87.99美元-81.40美元-90.62/-89.40美元-4 UniT38.93.2267.58美元-74.20美元-87.99美元-81.33/ -90.61/-89.17美元-5 UniT39.03.2966.97 /67.0373.16 /73.1687.95 /88.080.91 /79.890.64 /88.489.29 /91.56UniT -按任务微调42.34.6867.60/72.56/86.92/81.53/90.57/88.06/7 DETR [5]43.34.02------8 VisualBERT [31]--67.36 /67.3775.69 /75.09----9 BERT [14]（bert-base-uncased）----91.25 /90.483.90 /83.490.54 /88.992.43 /93.7表3：我们的UniT模型在8个数据集的7个任务上的性能，范围从仅视觉任务（COCO和VG上的对象检测），视觉和语言推理任务（VQAv 2上的视觉问题回答和SNLI-VE上的视觉蕴涵），以及来自GLUE基准测试的仅语言任务（QNLI，MNLI，QQP和SST-2）。对于第5行、第8行和第9行，我们还显示了VQAv 2 test-dev、SNLI-VE测试和来自GLUE评估服务器的结果参见第4.2详情对于500k次迭代，并保持其余的超参数与第2节中的先前实验相同。4.1.结果表3示出了在不同变体下的UniT的性能。在这里，在每个任务上单独训练的UniT模型（第1行）在除多模态任务VQAv 2和SNLI-VE之外的所有任务上都优于所有其他变体（第2至4行）。这并不令人惊讶，因为（i）单峰任务具有低的跨模态重叠，（ii）在联合训练中，每个任务仅针对总训练迭代的一部分进行训练，以及（iii）与第1行中的模型相比，共享解码器（第3行和第5行）具有少8个参数。另一方面，我们看到视觉和语言任务，即VQAv 2和SNLI-VE，始终受益于多任务训练以及不同设置中的仅视觉和仅语言任务，这表明学习更好的单模态表征也有利于多模态推理。此外，我们进一步探索了在每个任务上微调我们的共享模型（第5行），并发现虽然每个任务的微调带来了对象检测的显着提升，但它对对象检测的影响不大，有时甚至会有小的下降。其他任务如第6行所示注意，尽管在检测上有更好的mAP，但每个任务的微调会导致8个更多的参数，更长的训练时间和通用性的损失，这是我们希望避免的，因为我们的目标是建立一个通用模型。与以前的工作比较。我们比较了UniT，以完善的特定领域的方法的基础上，变压器的每一个任务。对于对象检测，我们与DETR [5]（第7行）进行比较，DETR是一种最近的基于变换器的检测器，我们的图像编码器受到启发。对于联合视觉和语言推理（视觉问答和视觉蕴涵），我们与VisualBERT [31]（第8行）进行比较，后者扩展了BERT [14]，也将检测到的对象作为输入。6关于GLUE基准测试中的自然语言理解任务，我们与BERT [14]进行了比较（第9行）。从表4中可以看出，我们的模型在每个任务上都实现了尽管第5行与第10行相比仍有差距7，8和9，我们的模型显示出有希望的结果接近这些特定于域的基于变换器的模型#型号配置COCO det.不不SNLI-VEMNLI-mm在所有8个数据集上采用相同的超参数。它还简化了训练过程，因为我们的整个模型在一个步骤中对所有任务进行端到端的训练，而BERT和VisualBERT需要在每个任务上单独训练，VisualBERT还需要首先训练外部Faster R-CNN对象检测器[48]。图3显示了我们的模型（表3第5行）对每个数据集的预测。消融术。为了更好地理解每个超参数对使用 UniT的多模态多任务训练的影响，使用所有隐藏状态BERT而不是[CLS]6 所有解码器层38.24 69.76 81.3139.46 69.06 81.67我们进行表4所示的一系列消融。我们从每个域中选择一个数据集：COCO用于仅视觉，SNLI-VE用于视觉和语言，MNLI用于仅语言。MNLI不匹配和SNLI-VE是涉及核心的自然语言推理的相关任务更多消融分析请参见补充资料。5地图精度精度1UniT（默认，dd=768，Nd=6）38.7969.2781.412解码器层数，Nd=840.1368.1780.583解码器层数，Nd=1239.0268.8281.154 解码器隐藏大小，dd=25636.3269.6881.09适用于SNLI-VE和MNLI-mm7 无任务嵌入标记38.6170.2281.458 批量= 3235.0368.5779.621448表4：不同配置的UniT模型在COCO检测、SNLI-VE和MNLI上的消融分析6我们在视觉和语言数据集上与没有掩蔽语言建模预训练的VisualBERT变体进行了比较，以进行公平比较。1449不目标检测（COCO检测）目标检测可视问答视觉蕴涵QNLI MNLI-mm QQP SST-2这一地区最重要的支流是斯特拉斯堡的下伊河、曼海姆的内卡河和美因茨对面的美因河。问：莱茵河上的第一个大城市是哪里？预测：无法回答前提：我们提供经典的托斯卡纳餐，包括用鸡鸡和鸡肝制成的佛罗伦萨沙锅。假设：我们提供佛罗伦萨陶罐餐。预测：蕴涵问题1：为什么我们要在软件工程中学习计算机基础？问题2：当我们学习工程学时，我们只能选择一种计算机语言吗？预测：不相等在整整89分钟的时间里，其中大部分时间过得就像我裸体坐在冰屋里一样慢，51级方程式从古怪变成了肉干，再到彻底的火鸡。情绪：消极图3：我们的模型在8个数据集上使用共享解码器（表3第5行）的预测我们的模型通过统一的Transformer编码器-解码器架构联合处理• 解码器层和隐藏大小：具有较小解码器隐藏大小的检测mAP下降（第4行），而它不损害SNLI-VE或MNLI-mm。这可能是因为COCO是一个更大的数据集，拥有150万个对象实例，并受益于更大的模型。对解码器层数Nd（行2和3）的分析证实了这种直觉，因为Nd=8给出了更好的检测mAP。同时，将解码器层加倍到Nd=12并不能帮助检测，这可能是由于使用非常大的模型的过拟合。此外，我们发现，太大的解码器隐藏大小（dd=1536）可能会导致在检测训练的分歧。• 语言编码器中的所有隐藏状态：使用所有BERT输出作为解码器的输入（而不是像Sec.3.2）对性能的影响相对较小（并且混合），同时增加了计算成本（第5行），这表明来自BERT的池化向量对于大多数下游任务应该是足够的• 所有解码器层上的损耗：虽然中间层输出上的损耗有益于对象检测（如[5]中所示），但它并不有益于SNLI-VE或MNLI（第6行），这可能是因为这些任务仅需要输出单个标签，而不像密集检测输出。• 无任务嵌入令牌：我们发现从编码器中删除任务嵌入（第7行）不会损害性能。我们怀疑这是因为图像-编码器可以提取适用于COCO和SNLI-VE两者的通用（而不是特定于任务的）视觉表示，并且同样适用于语言编码器。• 批量大小和学习率：我们发现，较小的批量大小（第8行）导致较低的性能。此外，我们还发现，较大的学习率（DETR [5]中的1 e-4和BERT [14]中的MLM）通常会导致联合训练中的发散，而较小的5e-5学习率提供稳定的训练。5. 结论在这项工作中，我们表明，Transformer框架可以应用于各种领域，共同处理多个任务在一个单一的统一的编码器-解码器模型。我们的UniT模型同时处理8个数据集上的7个任务，在单个训练步骤中学习它们，并通过一组紧凑的共享参数在每个任务上实现强大的性能。通过一个域不可知的转换器架构，我们的模型使一个步骤，建立一个通用的智能代理能够处理各种各样的应用程序在不同的领域，包括视觉感知，自然语言理解，并在多种形式的推理。致谢。我们非常感谢 Devi Parikh 、 Douwe Kiela 、Marcus Rohrbach、Vedanuj Goswami和FAIR的其他同事进行了富有成效的讨论和反馈。1450引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR会议记录中，第6077-6086页，2018年。四、五[2] Josh Beal， Eric Kim，Eric Tzeng ，Dong Huk Park，Andrew Zhai，and Dmitry Kislyuk.基于变换器的目标检测。arXiv预印本arXiv：2012.09958，2020。一个[3] Irwan Bello ，Barret Zoph，Ashish Vaswani，JonathonShlens，and Quoc V Le.注意力增强卷积网络。在IEEE计算机视觉国际会议论文集，第3286-3295页一个[4] Tom B Brown，Benjamin Mann，Nick Ryder，MelanieSub biah ， Jared Kaplan ， Prafulla Dhariwal ， ArvindNeelakan tan ，Pranav Shyam ，Girish Sastry ，AmandaAskell，et al.语言模型是很少机会的学习者。arXiv预印本arXiv：2005.14165，2020。一、二[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。在ECCV的诉讼，2020年。一二三四五七八[6] 瑞奇 · 卡鲁

下载后可阅读完整内容，剩余1页未读，立即下载