弱监督下的视觉语言预训练:弱监督学习为视觉语言预训练提供新方法

172 浏览量更新于2023-10-15 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1073--通过幻觉学习：弱监督下的视觉语言预训练Tzu-Jui Julius Wang，芬兰阿尔托大学{tzu-jui.wang，jorma.laaksonen} @aalto.fiHeikki ArponenSystematicAlpha*heikki.a. gmail.com托马斯·兰格直觉机器公司。tomas@intuitionmachines.com汤姆·E BishopGlass Imaging*tom@glass-imaging.com摘要弱监督视觉语言（V-L）预训练（W-VLP）旨在学习跨模态对齐，或者没有配对数据，例如对齐的图像和标题。最近的W-VLP方法将视觉特征与对象标签配对，有助于实现与在各种V-L下游任务中使用对齐对训练的一些VLP模型相当的性能。然而，在跨模态检索（XMR）中情况并非如此.我们认为，这样一个W-VLP模型的学习是有限的语义对象标签的抑制和偏见。我们解决了缺乏配对的V-L数据的模型监督与一个新的视觉视觉视觉视觉的特征Hallucinator（WFH），这是通过弱监督训练的W-VLP模型，不需要图像与帽配对。WFH从文本中生成幻视，然后将其与最初未配对的文本配对，从而允许跨模态进行更多样化的交互。从经验上讲，WFH一贯促进先前的W-VLP工作，例如。U-VisualBERT（U-VB），在各种V-L任务，即。XMR、可视问题分类等。值得注意的是，以召回率@1，5，10为基准，它在两个流行的数据集Flickr 30 K和MSCOCO上持续改进了U-VB的图像到文本和文本到图像检索。同时，在这些XMR任务的跨数据集泛化测试中，它至少获得了14.5%的此外，在考虑的其他V-L下游任务中，我们的WFH模型与使用配对V-L数据训练的模型相当，揭示了未配对数据的效用这些结果证明了所提出的W-VLP模型与WFH的更大的推广。1. 介绍视觉语言预训练（VLP）由于具有很强的泛化性和可移植性，*在Intuition Machines Inc.(a) 全监督预培训(b) 此工作：弱监督的预训练图1：不同预训练设置的示例：（a）全监督设置被赋予图像-字幕对，而这项工作的重点是（b）弱监督设置，它在未配对的图像和字幕上学习。许多视觉语言（V-L）下游任务。预训练通常是在网络监督数据集上完成的，这些数据集是通过互联网半自动收集的，因此是嘈杂的，例如。图像和标题可以是弱的相互关联。此外，这些未经策划的图像-文本对可能包含广泛的不适当内容，这些内容在用于训练模型时会导致一些令人生畏的偏见[3]。尽管在噪声数据集上进行了训练，但这些VLP模型在各种V-L下游任务中表现出色[1，45，36，30，40，28，44，6，32，11，53，22，57]。最近像CLIP [41]和ALIGN [23]这样的作品，在更大量的图像-文本对上进行预训练，享受更大的下游改进一方面，这些优秀的先前工作提供了一个有希望的方向-一个用大量数据正确预训练的模型，这些数据可能是不完美的标记，比在小数据集上从头开始训练的模型更另一方面，V-L研究一直处于数据饥渴的道路上，1074数据收集工作。这种发展可能会在权衡数据效率和V-L模型的泛化能力方面更加模糊其他路径。图2：建议的W-VLP模型与基于视觉视觉的特征H诱导器（WFH）一览。WFH同时被训练以生成视觉表示来与文本对应物配对虚线框中的组件请参阅Sec。3.3他们的损失和缩写。从两个不同的角度提出了提高数据效率的建议第一种采用了自我知识蒸馏原理，该原理用指数平均自我预测的软标签来指导学习，即，相同的模型，参数由指数移动平均线更新[7，15]。第二种方法通过对成对图像和文本的有限访问进行学习[18，31]，从而大大减少了为每个图像收集文本描述的工作这种弱监督设置使得VLP更具挑战性，因为VLP的目的是学习在配对数据上对齐V-L域。图1说明了监督和弱监督设置的区别。弱监督VLP（W-VLP）虽然是释放丰富的Web图像和文本潜力的关键步骤，但比监督VLP（S-VLP）少得多，并且仅在某些特定领域进行了探索，例如。医学影像学[10]。有趣的是，我们发现，最近提出的W-VLP模型，例如。无监督的Visual- BERT（U-VB）[31]在跨模态检索（XMR）任务上很大程度上不足，促使我们改进W-VLP模型，特别是在XMR任务上。具体地说，我们的工作加强了一个开创性的W-VLP工程，即。U-VB，通过利用更多的预先训练的视觉属性和对象检测器与一种新的基于视觉词汇的特征幻觉器（WFH）。WFH（如图2所示）的训练类似于W-VLP模型，而无需直接在大量配对数据上进行训练。WFH的中心思想是通过Transformer编码器层从文本表示中生成视觉对应物。WFH生成的然后将特征与最初未配对的文本配对。值得澄清的是，我们并不主张所提出的模型是无监督的（如U-VB的作者所主张的），而是弱监督的。U-VB和我们提出的模型都利用了来自预训练对象检测器的知识进行后续的未配对训练。因此，它们暴露于一定量的配对信息，例如，图像区域及其对象/属性类。因此，我们认为这两个模型都是在弱监督下学习的。我们将贡献总结如下：（1）我们提出了一种新的WFH，可以在预训练期间实现更多的跨模态交互。(2)我们提出了一个W-VLP模型，可容纳对象标签，属性标签和WFH生成的功能。(3)所提出的模型在XMR任务（即，文本到图像、图像到文本检索和跨数据集生成）、视觉问题分类（VQA）、引用表达式理解（REC）和视觉蕴涵（VE）任务。(4)我们提供的研究，例如单词标记嵌入的表达性和Transformer编码器中注意概率的行为，以更好地理解W-VLP模型的内部工作。所介绍的WFH是简单的，但这些量化的结果显示2. 相关工作本文首先介绍了S-VLP方法的研究进展，然后介绍了W-VLP方法。然后，我们探索更多的应用程序，例如。图像翻译[59]、医学图像分割[47，10]、无监督机器翻译[26]和无监督域自适应[34，12，46，58]，它们提倡非配对数据的有用性。2.1. 监督V-L预培训最近提出的VLP模型使Transformer [48，9]适用于架构和训练目标不同的VLPVLP模型架构可以分为单流模型和单流模型，如 VisualBERT [30] ， ImageBERT[40] ， Unicoder-VL [28] ， VL-BERT [44] ， UNITER[6]，Oscar [32]和SOHO [19]等，采用统一的Transformer，在模态间共享参数。双流模型，例如。LXMERT [45]和ViLBERT[36]，为每种模态训练单独的转换器。这两个独立的Transformer交叉参与来自另一个Transformer的每一层的表示虽然单流模型在架构上更简单，需要优化的参数更少，但它与双流模型具有很强的可比性。VLP模型的通常训练目标是掩蔽语言建模（MLM）和掩蔽区域（Masked Region）。1075l=1b=1b=1BOTl=1--·i=1L∈∈∈∈objR}不obj--不b建模（MRM），具有诸如掩蔽对象分类（MOC）和掩蔽区域特征回归（MRFR）等变体。图像-文本对齐（ITA）用于在句子级别上学习V-L对齐，它对V-L输入是否对齐进行分类最优传输方法[8]可用于学习跨图像区域和单词的细粒度对齐Oscar [32]引入了从图像中检测到的对象标签作为锚[26]，将单词标记及其视觉基础对齐。VILLA [11]通过向V-L输入空间添加对抗扰动来改进其他V-L框架。最近的工作已经推进了VLP，例如，使用更大的数据集进行训练[41，23]并丰富图像标签[57]，这可以使Oscar等框架受益。ALBEF [29]强调早期Transformer层中的跨模态对齐，并从其动量自我中学习，以改善对噪声数据的学习。3. 我们提出的WFH模型所提出的具有基于视觉词汇的特征幻觉器（ WFH ）的 W-VLP 模型，如图 3a 所示，由单流Transformer θ组成，其采用多模态输入并共享参数，即那些与跨模态的查询、键和值相关联的。两组输入分别馈入θ。第一集合S1=（t 1，h1）L由L个文本标记t 1组成，每个文本标记t1对应于我们在后面部分中介绍的幻觉视觉表示h1。另一组输入S2={（rb，ob，ab）}B由（1）B=36个从预先训练的对象检测器O的感兴趣区域{rb}B、由O给出的预测对象类概率以及（2）采样的对象标签o b b b P和属性标签aPattr，其中P而P是预测的概率。b b b1对象和属性类上的权限获自2.2. 弱监督V-L预训练W-VLP的目标是预训练一个V-L模型，学习对齐V-L域而无需图像-文本对，以节省大量的数据收集工作。Hsu等人[18]在医学成像的背景下研究了W-VLP。最近，Li et al.[31]建议在不访问图像-文本对的情况下训练U-VB。它学习跨域对齐，对象标签用作域之间的锚，并被视为与图像配对的然而，U-VB因此，我们介绍了一种新的基于视觉词汇的特征幻觉器（WFH），其目的是通过生成与文本描述配对的区域视觉表示来减轻这种偏见，例如。图像的标题。WFH生成不同的表示以提供跨V-L域的桥接信号。因此，WFH大大增强了U-VB在各种V-L任务。分别表示θ采用与U-VB中相同的Transformer3.1. 模型架构本节着重于制定V-L输入、WFH、预培训目标和损失。强调了与U-VB的区别3.1.1来自S1组的V-L输入来自记号序列tlL的每个语言记号t l通过对句子进行记号化来获得，并且被嵌入为tl= T（T BERT（t l））∈ R768，l = 1，.，L，（1）其中TBERT（）是BERT 每个幻觉视觉表示是从所提出的WFH H_∞生成的，即，hl=H（t l| {t i}L，D）∈ R2048，l = 1，.，L，（2）h′l=f（hl）=Wfhl+bf∈R76 8，l=1，.，L，（3）其中D={dc∈R2048}C是预先学习的视觉2.3.从非配对数据中字典c=1H（·）是我们所使用的幻觉函数在各种应用中，对从非配对数据中学习的研究兴趣已经增长。随着生成对抗网络（GAN）中伟大的ad-vNavisphere[13]，学习将具有不同风格或艺术风格的图像从一个域转换到另一个域已被证明是可行的，而无需配对图像[59]。学习用于医学图像分析的多模态表示，例如与通过单一模态学习的模型相比，使用未配对CT和MRI扫描图像的器官分割也显示出分割准确性的改善[47，10]。无监督将在后面的Eqs中正式介绍（8）和（9）。 f是直线，由可学习权重Wf参数化的耳投影函数R768×2048和偏差bf8.第七十六章 tl和h′l分别与通过线性变换l[1，...，L]，这是令牌在序列中的位置。表示WFH3.1.2来自S2组的V-L输入我们将区域视觉表示表示为{vb∈机器翻译[26]和无监督域适配器-小行星2048Bb=1. 每个vb由O和反式从rb中提取[34，12，46，58]与W-VLP具有相似性，因为它们都学习在不访问配对数据的情况下转移或对齐域。1我们将对象和属性类引用到VG的对象和属性类。对象类的例子有洗碗机、猫、海洋等;属性有空白、金属、说话等。1076JMj，mj，mj，mj，mL l=1B b=1B b=1v=H（o，{o}Q我i=1(a) 所提出的WFH模型结构和训练损失。（b）1层WFH的图示。图3：拟议的弱监督V-L预训练模型架构，具有基于跨域视觉词汇的特征幻觉器（WFH）。形成为v′bviav′=f（v）∈R768，（4）标记被处理以利用自注意机制来说明其在序列中的上下文自我注意输出bb然后跨模态参加每个预先学习的dc∈D这与BERT的令牌嵌入的大小一致。o b和a b的预处理类似：由BERT的WordPiece tokenizer标记化[9]并转换为ob= T（T BERT（o′b））∈ R768，b =1，.，B，（5）ab= T（T BERT（a′b））∈ R768，b =1，.，B，（6）分别o′b和a′b是标记化标签2。对于VI-产生视觉幻觉可以堆叠更多的WFH层来模拟更复杂的交互。视觉词典D通过简单的K均值离线学习，并对从概念说明（CC）[42]图像中提取请在教材（SM）中详细了解如何学习D形式上，WFH的输入可以是文本标记序列{tl}L或{o′}B，每个o′bsual输入，v′b与图像位置嵌入相加pI∈R768，从法线的向量线性变换得到的l=1b b=1bo′=o+a，b=1，...，B.（七）大小化边界框x和y坐标、宽度和高度bb bRB的。对于语言输入，我们有ob+ab+pI。我们当给定{t}L时，WFH生成可视化表示保险丝O和Bll=1bb通过求和嵌入而其他方式，例如，附加令牌，增加输入的数量{vt}L . 当给定{o′}B时，WFH生成{vo}B。例如，生成v0（如图3b所示）可以tokens，导致训练复杂度更高，Transformer，它是令牌数量的平方3.1.3与U-VB的B配制成o′ ′Bb b i i=1，i =b，D）∈R2048，（8）图2突出了所提出的WFH模型和U-VB之间的差异。首先，WFH模型额外地用其属性嵌入来增强每个对象标签嵌入。第二，U-VB单独处理tl，没有可视化的LH=HJ<$HJ−1<$··<$H1，（9）其中，f是函数组合。对于j = 1，…JH（·，·，D）=？m=1{Ax （Q ，K ，V）}，（10）任何种类的对应物，不像我们把t和它的幻觉配对。1077∥BSBi=1我BBXQj，m={Wj，mo′′j}B、（11）换句话说，U-VB培训的语言部分只是微调BERTo′j = Aj（o′j|{o′j}B）∈R768，o′1=o′，（12）Kj，m={Wj，mdc}C、（十三）3.2. 学习视觉幻觉器Kc=1Vj，m={Wj，mdc} C.（十四）如图3b所示，WFH层采用文本标记，其视觉对应物将被幻觉化。的2Vc=1表示向量的级联J是WFH层的数量，并且在每个层，Aj是自关注，注意，每个标记都可以标记为多个标记，WordPiece标记器。为了符号简单，我们保留了与rb，ob，ab中相同的下标bSAj，m是第m个注意力头（总共M个头），交叉注意层1078Sl=1我XHQVl=1OTHXSB b=1WFH，WFHB我我2LSBB--il=1--T不Σ3.2.1自我关注AjAj产生上下文文本表示o′j，该模型由等权掩码语言建模（MLM）、掩码标签分类（MTC）s iMasked Object Classification（MOC）和WFH损失。被输入到每个Aj，m以构造查询。A j是[48]中引入的多头注意机制，M = 12头。Aj中的每一个头产生一个768/12 = 64维的向量，而o"j是这12个向量的连接。3.2.2交叉注意力Aj，mQ j中的文本查询学习与K j ， m中的视觉键对齐，并通过j生成视觉表示。W j，m，W j，m，W j，m是可学习的权重矩阵，MLM是预测序列中的掩码令牌特L.我们的MLM是以幻觉中的vt以及输入时给出的单词标记为条件的MTC用于预测被掩蔽的对象标签令牌。MOC是预测被掩蔽的对象类，即，归零的视觉特征我们密切关注U-VB- kens的属性始终不被屏蔽。L.，WFH是Eq.中给出的拟议WFH（15）、值得注意的是，WFHQKV查询、关键字和值都涉及到价值。Wj，m∈R768/M×768，学习不仅明确地由L.，WFH指导，j、m、K∈R768/M×2048，Wj，m∈R2048/M×2048，隐式地通过Lθ，MLM生成有用的特征，MLM的任务。对于j=J，即在最后一层中，M=16;否则，j、mV∈R768/M×2048，其中M=12。连接M3.4. V-L下游任务每个头的向量产生WFH层的输出。给定{tl}L，用同样的过程生成vt3.2.3WFH目标WFH是（1）通过使用标题实现掩码语言建模（MLM）任务[31]来隐式学习的，(2)明确的映射损失：B3.4.1XMR任务遵循与其他VLP工作相同的方法，我们使用XMR的两个额外投影层微调θ具体地说，θ输出用于字幕的上下文表示t′lL和用于图像的上下文表示v ′′B，图像和标题。我们通过以下方式预测匹配分数s：¯L=1||vo− v||第二条，（十五）i=1我s=γ·cos（ft（t），fv（<$v）），（17）<$t=1t′，<$v=1v′ ′。（十八）在这里，我们回归到vo，从对象/属性标签嵌入o′i，到vi∈R2048，视觉表示LLl=1Bbb=1提取自。该目标确保了幻觉化特征保持接近真实视觉特征所在的视觉域3.2.4WFH的设计考虑Eq.的替代方案。(15)是学习一种直接投影算法，用于将文本表示映射到视觉表示。然而，这在实践中具有挑战性，因为它涉及将高维分布从一种模态变换到另一种模态。相反，WFH的幻觉过程只是从D构造的空间中检索视觉表示，因此它避免了跨域的直接映射，并产生更好的3.2.5视觉化幻觉请参考SM的可视化，其显示幻觉特征（1）是上下文的，（2）似乎充当跨V-L域的桥接表示3.3. 损失函数θ和WFH用总损失Lθ，对于未配对的图像和标题：Lθ，θ=Lθ，MLM+Lθ， MTC+Lθ， MOC+Lθ， WFH，（16）WW1079··ft（）和fv（）是不变的线性投影他们输入的维度请注意，我们总结图像和字幕具有均值池化标记嵌入，而不是来自例如[2019 - 03 - 16][2019 - 03][2019 - 19][我们发现，使用均值池嵌入会导致性能稍好，与[37]中的发现一致。与[36]一样，训练目标是一个4向分类，涉及为每个图像-文本对选择三个分散注意力的选择。3.4.2VQA、VE和REC任务对于VQA，该模型预测了c∈R1536上N 个a答案的分布，c=t||（19）即t和v的级联，它被馈送到宽度为1，024的线性[17]激活函数和N个方向分类层。类似地，对于VE，模型通过将c传递到线性层来预测答案对于REC，为了预测每个图像区域的视觉基础分数，模型馈送v′b′，(from当量(18)，b=1，...，B）到输出的线性层768个神经元，然后由GeLU和另一个线性层产生最终的匹配分数。1080联系我们--×†--4. 实验本节介绍用于各种V-L任务的预训练和微调的数据集我们详细介绍了实验设置，然后与其他W-VLP方法进行比较4.1. 数据集和任务4.1.1预训练数据集生成对象和属性标记的对象检测器在VG上训练。在WFH中设计的视觉词汇是固定的，并且在具有相同对象检测器的CC图像的区域表示上预先学习。整个实验中的所有W-VLP模型都是通过随机选择一批未配对的字幕和图像来在CC上进行预训练的。特别是，我们使用来自CC的270万张图片和字幕。4.1.2XMR数据集和任务预训练的模型在MSCOCO [33]或Flickr30K [39]的图像标题对上进行微调，以研究它们的可移植性。对于Flickr 30 K，我们遵循[24]中的训练/验证/测试分割。对于MSCOCO，我们遵循[27，40，28]中的拆分，并通过对测试集的五倍进行平均来报告数字，即。COCO1K测试集我们考虑以下任务：（1）图像到文本检索（TR），（2）文本到图像检索（IR），以及（3）交叉数据集TR和IR，即在COCO上微调，在Flickr 30K上测试，反之亦然。4.1.3VQA、REC和VE数据集我们在两个流行的数据集上评估 VQA 任务：[2][4][5][6][7][8][10] VE和REC分别在SNLI- VE [51]和RefCOCO+ [55]数据集上进行评价4.2. 模型参数和训练细节我们在VOLTA [4]上开发我们的项目，VOLTA是用PyTorch [38]构建的，旨在通过在受控设置中建立基线来加速多模态机器学习研究，例如。在不同的VLP模型上训练相同数量的文本图像对的模型。目标检测器使用ResNet-101 [16]作为主干。我们遵循U-VB架构，其中每个Transformer层具有M=12个注意力头，并且隐藏状态的维数为768。预先学习的视觉词典的大小C选自1024、1536、3072; WFH层的数量J选自1、2、3;(17)从8，16，32。在整个实验过程中，除非另有说明，否则使用WFH注释的方法始终使用添加的属性令牌进行训练。所有W-VLP模型都使用8个16 GB-V100 GPU进行训练，批量大小为400，持续12个epoch。AdamW [35]作为权重衰减为0.01的优化器。调整学习率，预热周期为总epoch的10% 它在1时达到峰值。562510−4并线性减少到0。每个模型的预训练大约需要一天。在微调阶段，使用两个16GB-V100GPU分别对XMR、VQA、REC和VE的批量大小为64、256、256和192的模型进行训练。使用AdamW时，权重衰减为0.0001。4.3. 定量结果在下文中，我们介绍了所考虑的每个任务的结果，并提供了以下方面的研究：（1）所提出的WFH中的不同变量带来的影响，（2）对文本令牌矩阵的频谱分析[49]，以及（3）通过有和没有WFH的模型学习到的注意头在Transformer层上的注意概率的不同模式我们的目标是更好地了解我们和U-VB模型在后两项研究中的表现如何不同。4.3.1XMR任务Flickr30K和MSCOCO上的模型的主要结果分别显示在表1和表2中。UNITER[27]第27话，你是谁？[28]第29话，你是谁？[29][5]仅供参考，因为它们是特定于任务的，而不是作为通用VLP模型提出的。用VOLTA复制模型我们的工作和U-VB共享相同的架构，它在预训练的Transformer层之上添加了一些额外的特定于任务的在Flickr30K上，我们首先展示了使用没有属性标记的1层WFH训练的模型的召回。虽然大多数召回值与U-VB相当，但我们观察到TR上的R@1明显增加添加属性标记改善了TR上的R@1，5和IR上的所有召回值。我们获得了最好的结果与2层WFH与3.7%和6.2%的增益在R@1上的IR和TR，分别。我们在其余的实验中继续与其他模型进行比较在MSCOCO上，所提出的模型在每个召回值上始终优于U-VB。4.3.2XMR上的跨数据集泛化当使用不同的数据集进行训练和测试时，与使用相同的数据集进行训练和测试时相比，这两个尽管如此，所提出的模型显著优于U-VB，如表3所值得注意的是，当两个模型在Flickr30K上训练时，召回率的提高总是高于在 MSCOCO 上训练时，即在 R@1 中增加14.5%和16.5%，而在IR和TR中增加3.93%和7.33%。这表明所提出的模型可以更好地推广到较小的数据集，例如。Flickr30K（29K训练图像），比MSCOCO（82K训练图像）小三倍。1081††±††·表1：在Flickr 30K上比较模型我们从[31]中借用了U-VisualBERT（U-VB）的结果，其中它在3 M图像和5.5M标题（CC + BookCorpus）上进行了训练使用VOLTA复制和实现了我们的WFH模型，所有这些模型都只在2.7M CC图像和标题上进行训练，以进行公平比较。从U-VB后的一行，它显示了我们提出的不同配置的WFH模型的结果，即。不涉及属性标记（-attr）并且采用不同数量的WFH层，字典大小C=1024。最好的模型用粗体突出显示，第二好的模型用下划线标出。Meta Sum是R@1、5和10的总和。显示的结果是使用不同随机种子的五次预训练运行获得的平均值和标准差。模型文本图像检索图文检索R@1R@5R@10Meta和R@1R@5R@10Meta和扫描[27]48.677.785.2211.567.490.395.8253.5SCG [43]49.376.485.6211.371.890.894.8257.4[第50话]50.478.786.1215.270.091.895.0256.8[5]60.886.392.3239.480.796.498.3275.4UNITER [6]†62.285.991.6239.777.892.296.0266.0U-VB [31]55.482.989.8228.3---U-VB†54.4± 0.381.7± 0.488.8± 0.3224.2± 1.167.8± 0.390.7± 0.594.9±0.8253.5± 1.1U-VB（+attr）†52.581.388.3222.165.589.794.8250Ours：1-layer WFH（-attr）54.682.989.0226.569.990.094.3254.2Ours：1-layer WFH55.082.789.8227.571.791.494.8257.9Ours：2-layer WFH56.4±0.383.2±0.789.9±0.3229.5±0.972.0±0.491.3±0.595.6±0.7258.9±1.0表2：比较MSCOCO，1K测试集上的模型。我们重复U-VB（U-VB），因为U-VB模型文本图像检索图文检索R@1R@5R@10R@1R@5R@10扫描58.888.494.872.794.898.4SCG61.488.995.176.696.399.2PFAN61.689.695.276.596.399.0GPO64.891.696.580.097.099.0U-VB†59.0± 0.488.0± 0.294.4± 0.273.0± 0.493.4± 0.397.3± 0.3WFH61.9±0.689.4±0.595.3±0.173.9±0.194.6±0.398.0±0.4表3：比较跨数据集泛化的模型模型文本图像检索图文检索Flickr 30 K列车-MSCOCO测试R@1R@5R@10R@1R@5R@10U-VB†37.069.380.945.673.083.3WFH42.373.384.353.179.287.2MSCOCO列车-Flickr 30 K测试R@1R@5R@10R@1R@5R@10U-VB†45.272.181.054.680.087.9WFH47.073.882.458.683.990.54.3.3VQA、REC和VE任务表4主要比较了我们提出的WFH模型和U-VB。表中提到的SOTA代表最先进的任务特定模型，其不遵循相同的我们将SOTA称为MCAN[56] 在 VQAv 2 上，在 GQA 上的 NSM [20] ，在 Ref-COCO+上的MAttNet [54]，以及在SNLI-VE上的EVE-Image [51]，如[6]中所建议的请注意，由于我们的模型以及U-VB旨在为不同的V-L下游任务提供通用性和通用性，因此与这些特定任务模型的直接比较不是这项工作的主要重点相反，我们与在VOLTA环境中预训练的U-VB（U-VB）进行比较，同时请读者参考来自原U-VB工作[31]。拟议的WFH在所有四项任务中始终优于U-VB。有趣的是，与使用文本图像对进行预训练的Visu- alBERT（VB [4]）相比，WFH和U-VB在VQAv 2测试开发分割和SNLI-VE上都取得了竞争性结果，而WFH在GQA（测试开发分割+1.81分）和RefCOCO+（测试分割+1.86分）上提供了明显的改进。4.3.4注意力概率能告诉我们什么在图 4a 中，我们深入研究了跨模型的 M=12 个Transformer层上学习到的每个注意力头部的概率分布。两种模型都表现出类似的模式- 视觉上的注意概率（“IMG self att”和“tag 2 IMG crossatt”）保持增加，而来自标签的语言上的注意概率（“tag self att”和“IMG 2 tag cross att”）减少。这表明，这两种模型通过使文本域适应视觉域，逐渐找到跨模态的更有趣的是，我们的模型显示了更高的语言到视觉的交叉注意概率（这表明我们的模型可以受益于早期的跨域比对，这对VLP模型是有益的，支持[29]中的类似发现因此，我们要强调的是，虽然所提出的WFH方法很简单，但它导致了两种模态行为的根本变化，并导致了更好的可转移性。4.3.5光谱分析能告诉我们什么？我们还比较了图4b中的单词标记嵌入矩阵的频谱，即权重矩阵涉及等式2中的T BERT（）。（5）和（6），U-VB和我们的WFH模型。我们的模型1082††表4：比较针对VQA、REC和VE任务微调的模型。SOTA指的是第10节中规定的最先进的特定任务模型。4.3.3.任何模型都是指在VOLTA框架中实现的复制。VB w/o pt表示没有对图像-文本对进行预训练的VisualBERT基线。WFH是指与表2和表3中相同的模型。U-VB†和WFH之间更好的模型以粗体突出显示。VQAv2测试开发GQARefCOCO+SNLI-VE整体是/否number其他test-dev测试集种皮testB测试SOTA70.6386.8253.2660.7263.17-75.1366.1771.16VB w/o pt†66.0782.7446.5156.2953.5567.8175.4158.9174.56VB†68.20---56.5869.70--75.67U-VB [31]70.74-----79.1164.19-U-VB†67.7884.1549.7157.8956.5370.5377.8262.0075.02WFH68.4184.8250.5058.4658.3971.5679.0662.7375.91(a) 左：U-VB。右：提出的WFH模型。（b）来自两个预训练模型的频谱。图4：W-VLP模型的分析（a）所选Transformer层中注意力头的概率（b）文本标记嵌入矩阵的谱，表达[49]。因此，注意力层可以暴露于更多样化的视觉-文本嵌入，它们从中学习跨域的对齐。这一点尤其重要，因为缺乏成对的V-L信息是弱监督模型必须克服的问题。4.3.6WFH与不同的温度请参阅SM的研究，分析（1）如何利用属性令牌的不同方式和（2）不同配置的WFH，例如随着视觉词典大小的变化，影响下游任务。4.4. XMR的定性研究请参考SM研究是通过XMR任务在Flickr30K上进行的，我们比较了所考虑的模型在对齐属性，实体和活动等方面的能力跨V-L域。5. 结论我们提出了一种新的W-VLP模型，该模型通过跨域幻觉器（WFH）来弥补V-L对缺乏监督的缺陷，该幻觉器生成桥接表示以与文本模态进行交互。从经验上讲，我们发现WFH模型（1）学习更多表达性的单词标记嵌入，（2）表现出在较早的Transformer层中的跨域对齐。在检索任务中，它取得了一致的改进，特别是在具有挑战性的跨数据集泛化测试中，它在R@1上比U-VB至少提高了14.5%。WFH的有效性在其他V-L下游任务中得到进一步证实。接下来，我们将研究WFH模型在多大程度上适用于给定不同监督量的下游任务，例如。使用的不同标签的数量。此外，当前的W-VLP模型不能被认为是完全不成对的，因为它们依赖于一个经过训练的对象检测器，该对象检测器是在图像和类别标签上训练的-一种我们将探索解决这一限制的方法，以促进未配对的视觉语言预训练。确认这项工作得到了芬兰科学院项目317388、329268和345791的支持特别感谢芬兰阿尔托科学IT和CSC引用[1] Chris Alberti，Jeffrey Ling，Michael Collins，and DavidReitter.融合文本中检测到的对象以用于视觉问答。arXiv预印本arXiv：1908.05054，2019。1083[2] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议论文集，第2425- 2433页[3] Abeba Birhane ， Vinay Uday Prabhu ，和 EmmanuelKahem-bwe.多模态数据集：厌女症，色情，和恶性的刻板印象。arXiv预印本arXiv：2110.01963，2021。[4] Emanuele Bugliarello，Ryan Cotterell，Naoaki Okazaki，and Desmond Elliott.Multimodal pretraining unmasked：AMeta- analysis and a unified framework of vision-and-languageBERT.TransactionsoftheAssociationforComputational Linguistics，2021.[5] 陈嘉诚，胡鹤翔，吴昊，姜宇宁，王长虎。学习视觉语义嵌入的最佳池化策略在IEEE/CVF计算机视觉和模式识别会议论文集，第15789-15798页[6] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， andJingjing Liu.Uniter：学习通用的图像-文本表示。arXiv预印本arXiv：1909.11740，2019。[7] Ruizhe Cheng ， Bichen Wu ， Peizhao Zhang ， PeterVajda，and Joseph E Gonzalez.具有自蒸馏的数据高效语言监督零射击学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第3119-3124页[8] 马可·库图里Sinkhorn距离：最佳运输的光速计算神经信息处理系统的进展，26：2292[9] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：用于语言理解的深度双向转换器的预训练在NAACL-HLT（1），2019年。[10] Qi Dou ， Quande Liu ， Pheng Ann Heng ， and BenGlocker. 基于知识蒸馏的非成对多模态分割。IEEEtransactions on medical imaging，39（7）：2415-2425，2020。[11] Zhe Gan，Yen-Chun Chen，Linjie Li，Chen Zhu，YuCheng，and Jingjing Liu.大规模对抗性训练用于视觉和语言表征学习。神经信息处理系统进展，2020年。[12] Muhammad Ghifary ， W Bastiaan Kleijn ， MengjieZhang，David Balduzzi，and Wen Li.用于无监督域自适应的深度重建-分类网络。欧洲计算机视觉会议，第597施普林格，2016年。[13] Ian J Goodfellow，Jean Pouget-Abadie，Mehdi Mirza，Bing Xu ， David Warde-Farley ， Sherjil Ozair ， AaronCourville，and Yoshua Bengio.生成对抗网络。arXiv预印本arXiv：1406.2661，2014。[14] Yash Goyal、Tejas Khot、Douglas Summers-Stay、DhruvBatra和Devi Parikh。使VQA中的V变得重要：提升图像理解在可视化问答中的作用。在计算机视觉和模式识别会议（CVPR），2017年。[15] Jean-BastienGrill ， FlorianStrub ， FlorentAltche' ，CorentinTallec，PierreHRichemond，ElenaBuchatskay

下载后可阅读完整内容，剩余1页未读，立即下载