跨模态知识共享预训练框架的有效性和效率

48 浏览量更新于2023-10-13 收藏 833KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2208COOKIE：用于视觉语言表征的科雨文1金霞1黄媛媛1李林洋2徐佳艳1邵杰11字节跳动AI Lab2复旦大学摘要最近，人们对跨模态预训练的兴趣激增。然而，现有的方法预训练单流模型来学习联合视觉语言表示，这在进行跨模态检索时遭受计算爆炸。在这项工作中，我们提出了对比跨模态知识共享预训练（COOKIE）方法来学习通用的文本图像表示。它有两个关键的设计，一个是在视觉和文本编码器上的权重共享Transformer，以对齐文本和图像的语义，另一个是三种对比学习设计的不同模态之间的知识共享。跨模态知识共享极大地促进了单峰表示的学习。多模态匹配任务，包括跨模态检索，文本匹配，和图像检索的实验表明，我们的预训练框架的有效性和效率。我们的COOKIE在跨模态数据集MSCOCO，Flickr 30 K和MSRVTT上进行了微调，实现了新的最先进的结果，同时与单流模型相比仅使用3/1000的推理时间。在图像检索和文本匹配任务方面也有5.7%和3.9%的改进。源代码可在https://github.com/kywen1119/COOKIE获得。1. 介绍跨通道预训练极大地促进了视觉语言表征学习的发展。它旨在缩小视觉和语言之间的异质差距[27，11，30]。最近的视觉语言预训练（VLP）方法利用大规模图像-文本对来学习视觉和文本输入的统一表示，这大大提高了V+L任务的性能，例如跨模态检索[19，48，12]，图像字幕[46，15]和视觉问题回答[2，1]。本文主要研究多模态检索任务，包括跨模态检索（图文匹配和视频文本匹配）和单模态匹配（文本匹配和图像匹配）图1：跨模态知识共享的图示。具有相似语义的图像有时在结构、主题、背景和风格上不同，这导致不准确的匹配。通过与相应文本的语义匹配，缩小了它们在公共空间中的嵌入距离检索）。人类不是用一种感官来感知世界的。模型预训练也是如此：仅仅使用单一模式的监督似乎是不够的。如示于图1，两个具有相同语义的图像可能看起来完全不同。在这种情况下，我们需要求助于跨模态预训练。单流VLP方法最近被用于跨模态预训练。他们使用多层变换器[45]作为联合编码器。输入是视觉标记和文本标记的连接然而，这种方法有两个明显的缺点：a）使用更快的R-CNN [41]进行两阶段视觉特征提取是耗时的，并且可能会丢失一些全局信息，如[ 48 ]中所讨论的。b）单流方法需要处理图像和文本标记的连接。这样的计算将导致检索任务的推理时间爆炸。双流方法也常用于跨模态预训练。他们使用视觉路径，一个文本路径来分别对图像和文本进行编码。这导致跨模态检索的高效率但非常有限的性能。有两个明显的限制：a）缺乏跨模态交互削弱了图像和文本的语义对齐。b）来自跨模态对比学习（CCL）的简单监督丢失了知识无与伦比匹配一个女人坐在两件行李旁边。一个人在行李旁的公共汽车站等车图像嵌入文本嵌入2209单模态编码器已经从原始图像或文本中学习。在这项工作中，我们提出了 COOKIE ： C 对比Cross-ModalK知识共享预训练，一个新的框架设计的多模态检索任务。我们的COOKIE框架能够利用单流VLP方法和双流方法的优点，同时避免它们的上述缺点。在我们的框架中主要有两种设计：提出了基于权重共享Transformer编码器的双流视觉语义嵌入结构（WS-TE），以及跨模态和单模态对比学习方法。前者采用WS-TE的双流视觉语义嵌入结构，加快了跨模态训练和测试的速度，同时加强了图像和文本的语义更具体地说，COOKIE是以双流的方式设计的，因此避免了由单流方法引起的推理在视觉流中，特征由ResNet而不是Faster-RCNN提取。这样，在保持全局视觉信息的同时，避免了巨大的计算代价。为了解决先前双流方法缺乏的跨模态交互的情况，设计了权重共享变换器编码器（WS-TE）以迫使模型更多地关注具有相同语义含义的令牌，这保证了精细的视觉语言对齐。其次，我们的COOKIE通过三种对比学习进行优化：跨通道对比学习、单通道视觉对比学习（VCL）和语篇对比学习（TCL）。与单模态方法[51，17，49]相比，跨模态对比预训练共享预训练图像编码器和文本编码器的知识，例如ResNet和BERT。跨模态知识共享的解释可以在图中看到. 1.一、这两幅图片具有相同的语义在跨模态对比学习的帮助下，图像嵌入在文本嵌入的引导下彼此靠近。同时，我们因此，VCL和TCL被添加以保持从原始图像和文本中学习到的单模态知识。我们的单模态目标不同于结构保持损失[47，43]。通过手动搜索模态内的正对，它们促进跨模态语义的对齐。而我们的设计更简单，更有效，由于自动生成的对。此外，我们的VCL和TCL还允许视觉和文本编码器保留捕获模态内相似性的能力，这有助于单模态检索任务。总而言之，我们做出了以下贡献。• 我们提出了一种新的跨模态预训练范式琦琦通过专门设计的权重共享Transformer编码器（WS-TE），COOKIE提供了双流结构的效率和单流方法的可比有效性。• 设计了三个预训练目标，包括跨模态对比学习（CCL）和单模态对比学习（VCL和TCL），用于促进多模态检索的跨模态知识共享。• 所提出的COOKIE方法在多模态匹配任务上优于以前的方法，包括图像-文本匹配，视频-文本匹配，文本匹配和图像检索。具体而言，我们的COOKIE在Flickr 30 K和MSCOCO上仅使用3/1000的推理时间就实现了与sota方法Oscar [30]可比较的结果COOKIE将MSRVTT 的 R@1从16增加。0mm至20块0的情况。对于单模态匹配任务，我们的模型具有在文本匹配和图像检索上分别获得了3.9%和5.7%的性能提升。2. 相关工作2.1. 多模态检索与匹配多模态检索和匹配任务包括跨模态匹配和单模态检索和匹配。本文主要讨论其中的四个方面：图像-文本匹配、视频-文本匹配、图像检索和文本匹配，最大限度地证明了预训练框架的有效性和高效性。最初，CCA [44]创建了一个跨模态检索的范例，即将图像和文本映射到一个公共子空间并测量它们的相似性。最近Faghri et al.[19]提出了一种基于铰链的硬三重态损失，它作为后来方法的基线。SCAN [25]利用Faster R-CNN [41]等对象检测方法来提取区域视觉特征。图像检索需要在给定图像查询的情况下找到最相关的图像[18]。语义文本相似性（STS）[5]是一个经典的文本匹配任务，旨在衡量两个给定句子的相似性。2.2. 跨模态预训练受单模态自监督预训练的启发，如视觉对比学习[8，9，10]和文本掩蔽语言建模[39，17]，跨模态编码器也可以输入通常是视觉区域特征和词嵌入。其中一种方法[34]将两个变换器用于图像和文本，并在后期使用一个统一的变换器，而另一种方法直接将区域特征和词嵌入的拼接作为输入，并使用一个深度变换器处理我们的方法不属于他们。为2210+++++的正+ +正+ +位置嵌入123七块钱（）视觉编码器TAV-TEWS-TE！语义嵌入1995池化1TAV-TE：文本对齐视觉Transformer编码器WS-TE：重量共享Transformer编码器1&5联系我们权重共享视觉对比语篇对比$$降落在机场跑道图2：建议的COOKIE概述。它由两个路径组成，视觉路径和文本路径。视觉路径包含用于提取补丁特征的CNN、文本对齐的视觉Transformer和权重共享变换器。文本路径具有BERT编码器和相同的权重共享Transformer。我们设计了三个对比学习目标。为了提高检索效率，我们直接使用原始图像和句子作为输入，并使用一个权重共享Transformer以两流方式处理它们。2.3. 对比学习我们进行三种对比学习：视觉对比学习（VCL）、语篇对比学习（TCL）和跨模态对比学习（CCL）。对比学习在表征学习和基于内容的检索中起着重要的作用。对于VCL，目标是最小化原始图像和增强图像的学习表示之间的距离，如[8，9，36，10]所示。Wu等人[49]证明了基于BERT的TCL的有效性[17]。CCL学习视觉和文本模态的公共子空间，如第3.2节所讨论的。例如，研究人员[29，52]利用CCL来完成单模态或多模态理解和生成任务。所有这些都是精心设计的高效和有效的多模态检索和匹配任务。3. 预训练在本节中，我们详细介绍了我们的对比性跨模态知识共享预训练，用于视觉语言表示。在第3.1节中，我们描述了由图像编码器、文本编码器、文本对齐视觉Transformer编码器和权重共享变换器编码器组成的模型架构。在第3.2节中，我们介绍了针对跨模态对齐和知识转移的跨模态对比预训练。节中3.3、详细介绍了单模态对比预训练。3.1. 整体结构我们的结构如图所示。二、先前的视觉语言预训练方法[34，11，30]将由Faster R-CNN [41]提取的图像区域特征和文本单词嵌入的连接作为输入，并使用基于变换器的模型[17]对其进行处理。与他们不同的是，我们直接使用ResNet [21，35]和BERT [17]分别处理图像和文本。具体地说，给定图像-文本对（V，C），目标是学习单独的文本。两种方法的结合，可用于多模态检索。视觉表征学习我们直接使用ResNet进行视觉特征提取。先前的 VLP 方法利用自底向上和自顶向下（BUTD）注意力来提取区域特征，这导致两阶段的训练和推理过程。我们的端到端的方式保证了效率，并考虑到更多的全球功能比BUTD方法。我们移除ResNet [21]或ResNeXt [35]的最后一个全连接层，并在池化之前平坦化输出特征，这导致视觉补丁特征v=v1，v2，...，其中η是补丁数，并且DV是视觉特征维度。然后是全连接层了解要素的相对位置在图像中，我们添加位置嵌入。输出的视觉特征为v={v1，v2，...，v<$n}∈RD.vi=viWV+bV+pi，（1）一架喷气式飞机着陆在机场跑道池化文本编码器WS-TET语义嵌入视觉路径文本路径2211∈∈联系我们−·j=1其中WVRDV×D，bV，piRD。 WV和bV是FC参数，pi是面片i的位置嵌入。文本表示学习我们将预训练的BERT基础模型[17]的最后一层的输出作为文本特征。文本特征被表示为t=tl，t2，…tmRDT，其中m是词的数目，DT是词特征的维度。 FC将单词特征编码到与图像特征相同的空间中。的知识转移，即从图像到语言理解，反之亦然。图像和文本编码器以及权重共享TE使用InfoNCE损失[36]进行优化，其广泛用于对比学习。对于Li2t，正样本是匹配的文本，负样本是小批次中的剩余文本。对于Lt2i，反之亦然.输出文本特征是FT={fT1，fT2，...，fTm}∈ RD.L InfoNCE（q，k）=N+fTi=tiWT+bT+sT，（2）-1Σlogexp（q·k/τ），哪里 WT∈ RDT ×D，bT∈方程中的RD2是FC参数-N i=1exp（q·k+/τ）+ΣN−1exp（q·k−/τ）（五）Eters 与[22]相同，我们添加了文本语义嵌入向量sT到特征。由于CNN中使用的卷积是局部运算符，而BERT中使用的变换器层是全局运算符，因此从CNN中提取的视觉特征为了对齐视觉特征和文本特征的分布，我们添加了一个文本对齐的视觉Transformer编码器（TAV-TE）。TAV-TE为图像侧提供全局注意力本文中的Transformer编码器（TE）遵循标准定义[45]。我们添加一个视觉语义嵌入向量sV的功能。FV=TETAV（V）+sV。（三）权重共享Transformer为了促使图像和文本关注相同的语义，我们在网络之上添加了一个权重共享转换器编码器（WS-TE）WS-TE包含了一个多头自注意过程和一个前馈网络，使得输入的标记更加关注显著区域。最初在CNN中，在卷积核之间共享权重不仅减少了参数，而且还实现了平移等变[26]。也就是说，无论图像如何转换，网络都会提取相同的特征类似地，对于图像和文本，参数共享使得自我注意层能够针对图像和文本的类似语义给出接近的注意值由于我们的目标是对齐视觉和文本表示，如果图像和文本的相似语义被赋予更大的权重，最终的表示也将更好地对齐。Li2t=LInfoNCE（I，T），（6）Lt2i=LIn fo NCE（T，I）.（七）这里N是迷你批的大小。+分别指阳性样本和阴性样本。τ是温度超参数。3.3.单模态对比学习跨模态对比学习促进了图像编码器和文本编码器之间的然而，我们因此，我们设计了视觉对比学习和文本对比学习来保持单模态编码器视觉对比学习图像自监督学习可以有效提高深度神经网络在我们的框架中，我们利用视觉对比学习，以提高图像编码器原始图像的两个增强作为输入，目标是使两个学习的表示更接近。具体来说，我们直接最小化正对之间的距离，同时最大化负对的距离给定原始图像V，图像编码器连同权重共享TE一起被表示为EV。我们优化了视觉InfoNCE损失。I=Poo lin g（TEWS（FV）），T=Poo lin g（TEWS（FT））。（四）I1 =EV （8月1日（V）），I2=EV （八月二日（V））、（8）3.2.跨模态对比学习跨通道对比学习在跨通道检索中起着关键作用。它学习图像和文本的公共子空间，在那里它们在语义上对齐。同时，这样的学习过程使得跨模态Li=LInfoNCE（I1，I2），（9）其中augv（）表示图像增强。对于我们的方法，图像增强包括随机裁剪，翻转，颜色抖动，高斯模糊和颜色下降。2212××·图像到文本文本到图像图像到文本文本到图像方法1K测试集5K测试套件R@1 R@5 R@10 R@1 R@5 R@10 Rsum R@1 R@5 R@10 R@1 R@5 R@10 Rsum双流法VSE++64.6 90.095.752.084.392.0478.641.371.181.230.359.472.4355.7DSRAN80.6 96.798.764.590.895.8527.157.985.392.041.772.782.8432.4GPOR10178.0 95.898.562.690.696.0521.556.283.790.940.870.681.5423.7GPOX101 *85.6 98.099.473.194.397.7548.168.190.295.252.780.288.3474.8单流预训练方法Pixel-BERTX15284.9 97.799.371.693.797.4544.663.687.593.650.177.686.2458.6统一者b- ------63.387.093.148.476.785.9454.4统一者l- ------66.689.494.351.778.486.9467.3奥斯卡b88.4 99.199.875.795.298.3556.670.091.195.554.080.088.5479.1双流预训练方法COOKIER10181.396.298.767.591.596.1531.361.786.792.346.675.284.1446.6COOKIEX10187.398.199.673.594.097.5550.069.289.694.452.479.687.1472.3COOKIEX10188.498.599.875.294.797.5554.171.690.995.454.581.088.2481.6表1：使用MS-COCO数据集的图像-文本匹配任务的结果。我们记录了1K和5K测试集的结果。这里，R101、X101和X152是指ResNet101、ResNeXt101和ResNeXt152。b和l是指Uniter和Oscar的基本款和大号款。*代表模型集合。最佳结果以粗体表示，而次优值以下划线表示。文本对比学习对于文本，自监督学习总是由掩蔽语言模型（MLM）[17]而不是对比学习组成。然而，Wu etal.[49]证明了对比学习在句子表征学习中的有效性在我们的模型中，随机掩蔽，替换，删除用于文本增强。这种随机操作可以增强模型的鲁棒性。文本编码器在接受来自图像的知识的同时保留对句子的语义特征的同样的图像，我们优化的文本编码器连同权重共享TE（表示为ET）与InfoNCE损失。给定一个原始句子C，[42] ， SBU captions [37] ， MSCOCO [31] ， Flickr30K[38]，[20]第23话，这导致的总大小3.9 590万个图像和590万个图像-文本对。实现我们选择ResNet 50，ResNet 101 [21]或ResNeXt101 [35]作为图像编码器和BERT-base[17]作为文本编码器。所有图像均重新整形为512第512章如果没有别的办法图像编码器和文本编码器DV和DT的输出特征的尺寸分别为2048和768交叉模态空间D的维度被设置为1024。图像块的数量n是1616 = 256，而字数m被设置为50.重量共享TE具有2层，TAV-TE具有1层。中间尺寸和多头数T1 =ET （8月1日（C）），T2=ET （8月2日（C））、（10）设置为1024和8。我们使用AdamW [33]对模型进行了两个阶段的预训练在第一阶段，为了稳定性，模型仅仅是Lt=LInfoNCE（T1，T2），（11）这里，augt（）在等式10表示文本增强。COOKIE的总体预培训目标定义如下。L预训练=Li2t+Lt2i+Li + Lt。（十二）4. 实验4.1. 培训前配置预训练语料库对于我们的COOKIE，我们使用公共可用的图像-文本数据集概念标题（CC）2213使用Li2t和Lt2i训练30个epoch大小设置为576。在第二阶段，我们使用完整的LP重新训练以监督10个时期的训练，其中批量大小设置为288。学习率最初为2 e-5，并且在每个阶段的总时期的一半之后衰减 10 倍值得注意的是，ResNeXt101的LR是全球LR的十分之一。实验使用Tensorflow v2.2在48 Tesla V100 GPU上进行。4.2. 下游匹配任务我们的COOKIE是专为多模式匹配任务，包括图像-文本匹配，视频-文本匹配，文本匹配和基于内容的图像检索。所有这些2214方法图像到文本文本到图像R@1 R@5 R@10 R@1 R@5 R@10 Rsum双流法Pixel-BERTX152 87.0 98.999.571.5 92.195.8 544.8双流预训练方法COOKIER10184.7 96.998.3 六十八点三91.195.2534.5COOKIEX10189.0 98.999.8 七十五点六94.597.1554.9COOKIEX10189.098.999.775.694.697.2555.3表2：使用Flickr 30 K数据集的图像-文本匹配任务的结果。方法视频转文本文本转视频R@1 R@5 R@10 R@1 R@5 R@10 Rsum(a) STS任务的结果。记录Pearson和Spear-man的平均值方法MSCOCO NUS-WIDE(b) 使用MSCOCO和NUSWIDE数据集进行图像检索的结果。表4：包括（a）文本匹配和（b）图像检索的单模态匹配任务的实验结果。视频-文本匹配与ITM类似，视频-文本匹配-16.0 38.6 50.2 8.725.335.9一百七十四点七COOKIE（平均值） 19.440.751.59.827.638.6187.6COOKIE（gpo） 20.0 42.0 54.9 9.828.339.6一百九十四点六表3：使用MSRVTT数据集的视频-文本匹配任务的结果这里mean指的是均值池化，gpo指的是与dos相同的池化策略[6]。任务要求学习的表示的质量以及推理速度，这在我们的预训练中得到了很好的解决。所有任务都使用BERT-base [17]作为文本编码器。下游数据集的统计数据和下游任务微调的实现细节见附录。图像-文本匹配（ITM）是跨模态表征学习中的一项基本任务，它要求视觉和文本表征的语义一致性。ITM包括图像到文本检索和文本到图像检索。与传统的双流方法[19，28，48]相同，铰接的硬三重态损耗监督微调过程。我们在两个广泛使用的数据集MSCOCO[31]和Flickr30K[38]并使用与[24]相同的train-dev-test拆分。我们记录在K（R@K）处的召回以及Rsum。ResNet101[21] [35]和ResNeXt101。我们将我们的COOKIE与没有预训练的双流方法[19，48，6]以及具有预训练的单流方法[22，11，30]进行了比较。结果见表1和表2。数据集[50]。为了公平比较，我们使用ResNet 152[21]在Ima-geNet [16]上预训练提取的相同视频特征因此，对于VTM，不使用图像编码器在此条件下，我们将预训练的BERT的输出作为文本特征。最终的视觉和文本表示I和T来自使用池化策略处理帧和文本特征。我们使用均值池或g池[6]。目标函数是InfoNCE损失[36]。我们使用与[7，6]相同的分裂，并将我们的结果与它们进行比较。结果记录在表3中。文本匹配文本匹配（TM）是一种只针对文本的单模态匹配任务。我们专注于语义文本相似性（STS）[5]，这是一个通过计算两个输入句子的相似性来评估文本表示学习的经典任务如[40]所示，直接计算两个文本表示的余弦相似度比处理两个句子的连接更在[17]。有两个句子嵌入T1和T2，我们使用预先训练的模型计算它们的余弦相似度，这是一个无监督的过程。STS的标签是0-5范围内的小数。我们在广泛使用的STS 12 -16和STSBenchmark数据集[5]上进行实验，并报告Pearson和Spearman指标的平均值。结果在表4a中。我们比较了仅在文本[17，32，49]和MACD [14 ]上预训练的方法，MACD [ 14]使用多模态数据进行预训练。图像检索（IR）在现实生活中具有很大的实用价值[18]。最大限度地利用知识-方法STS12STS13 STS14 STS15 STS16 STSB伯特28.850.843.957.658.746.1罗伯塔47.437.547.955.157.671.9MACD-----71.8明确49.048.957.463.665.672.5COOKIE63.268.068.072.468.175.3VSE++52.9 80.5 八十七点二39.6 70.179.5409.8DSRAN *80.5 95.5 97.959.2 86.091.9511.0GPO R10177.9 93.7 九十七点四57.5 83.490.2500.2粤ICP备16018888号-1 98.9 九十九点八76.1 94.597.1555.1统一者b85.9 97.1 九十八点八72.5 92.496.1542.8统一者l87.3 98.0 九十九点二75.6 94.196.7550.916bit32位64位16bit32位64位HashNet0.745 0.773 0.788 0.757 0.775 0.790DCH0.759 0.801 0.825 0.773 0.795 0.818CSQ0.796 0.838 0.861 0.810 0.825 0.839COOKIE 0.811 0.884 0.910 0.822 0.852 0.855VSE+14.4 34.145.68.324.034.1160.5ing（VTM）通过与HGR15.0 36.748.89.226.236.5172.4视频查询或反之亦然。我们在MSRVTT上做了实验2215CCL VCL T CL(a) 训练前任务（b）重量分担TAV TE（c）WS-TE的层数有/无预培训numITMnumITM0×536.6547.8550.0539.8500.70×528.7534.6526.9510.4250.81×1×2×2×4×4×8×8×（d）预培训语料库数据集ITM红外TM预培训无预培训MSCOCO（11周）530.40.895 71.9Flickr30K（3w）531.70.886 69.5CC（2.8M）540.50.902 74.4CC+SBU（3.6M）544.30.90575.3CC+SBU+COCO+F30K（4.2M）547.60.91075.1CC+SBU+COCO+F30K+VQA+GQA（5.9M）550.00.90874.9表5：消融实验。这里、跨模态、视觉和文本对比学习。ITM、IR和TM指的是图像-文本匹配、图像检索和文本匹配任务。记录ITM的MSCOCO 1 k测试集的Rsum，IR的MSCOCO-64 bit测试集的MAP@5000以及TM的STS-B测试集的Pearson和Spearman的平均值为了从我们的预训练中学习到边缘，我们在MSCOCO[31]和NUS-WIDE [13]数据集上进行实验，这些数据集需要对整个图片的语义含义进行更多的理解，而不是关键点的匹配。我们使用CSQ [51]（这些基准测试中的当前sota方法）作为我们的基线，并使用我们的预训练图像编码器替换图像编码器，该预训练图像编码器包含从跨模态数据中学习到的更多信息。为了实现公平竞争，使用ResNet50 [21]并将图像大小设置为224. 记录MAP@5000。我们将COOKIE与HashNet [4]、DCH [3]和CSQ。结果见表4b。与SoTA的性能比较我们的对比跨模态知识共享预训练学习通用多模态表示用于下游匹配任务。具体来说，对于跨模态检索，COOKIE为Flickr 30 K和MSRVTT设置了新的sota结果，并在MSCOCO上实现了可比较的结果，Oscar [30]仅消耗3/1000的推理时间。对于图像-文本匹配任务，与传统的双流方法相比，包括使用ResNeXt 101 [35]，我们的预训练结构显着提高了性能，如表1和表2所示。与两阶段预训练方法结合更快的R-CNN [41]（如Uniter [11]和Oscar）相比，我们的COOKIE不仅具有速度优势，而且使用更少的预训练数据（5.9M vs 6.5M 9.6M）。我们的模型也优于Pixel-BERT[22] 它使用ResNeXt-152。在表3中，我们的图像-文本预训练极大地促进了MSRVTT数据集上的视频-文本匹配，将V2 T的R@1从16增加。0mm至20块0和9。2到9。T2V为8对于单模态匹配任务，COOKIE也设置了新的sota结果，证明了我们的跨模态知识共享的有效性。用于文本匹配，如中所如表4a所示，STS-B的性能提高了3.9%，而STS 12至STS 16的五个数据集的性能提高更为明显。值得注意的是，BERT，ROBERTa和CLEAR都是用纯文本训练的。我们的跨模态预训练成功地与文本编码器共享视觉语义。COOKIE也优于MACD [14]，后者使用类似的跨模态预训练。同时对于图像检索，我们分别在MSCOCO-64位和NUSWIDE-64位上获得5.7%和1.9%的改进，如表4 b所示。所有的绩效增长都来自于对比的跨模态知识共享。4.3. 消融研究我们进行了几项消融研究，以探索COOKIE在各种模型设置下的性能。结果在表5中。对于预训练，默认编码器是ResNeXt 101 [35]，BERT-base [17]，TAV-TE和2层WS-TE。模型使用完整的预训练数据集进行训练，损失3次。对于图像-文本匹配（ITM），默认模型设置与预训练的设置相同对于图像检索（IR）和文本匹配（TM），分别用ResNet50和ResNet101代替视觉主干。由于VTM与ITM相似，我们选择ITM作为跨模态检索的代表。三种对比损失的有效性我们提出了三种对比损失来监督预训练。跨模态对比学习（CCL）被设计用于弥合两种模态之间的异质差距，而视觉和文本对比学习（VCL TCL）有助于保留单模态编码器最初从相应模态学习如表5a所示，ITM从CCL中获益更多，而IR和TM依赖于CCL和单模态对比学习。CCLVCL不CLITMIRTM526.90.86146.1✓545.40.89872.4✓✓547.80.90972.1✓✓548.10.89975.1✓✓✓550.00.91075.3模型ITM基线536.6FC层（带重量共享）536.8WS-TE（无重量共享）541.6WS-TE（带重量共享）547.5WS-TE（无重量分担）+TAV-TE543.8WS-TE（重量分担）+TAV-TE550.0模型ITMIRTMITMIRTMResNet50526.40.91074.8512.80.86146.1ResNet101531.30.91175.3516.50.87246.1ResNeXt101550.00.93275.0526.90.91146.12216人夹克夹克人奥斯卡/秒COOKIE的推断时间/秒一个穿蓝色衣服的人站着在一小群人面前。(a) w/o WS-TE（b）w/WS-TE图3：权重共享变压器编码器的效果的图示。使用WS-TE，图像和文本集中在相同的语义上。40000 160035000奥斯卡COOKIE14003000012002500010002000080015000600100005000040020000 100 200 300 400 500 600 700 800 900 1000图像查询数量图4：推理时间与Oscar的比较。Transformer器编码器两个特殊的变压器编码器的应用。文本对齐视觉Transformer编码器（TAV-TE）将视觉特征WS- TE是保证图像和文本语义一致的关键模块。如表5b所示，这两种设计对于交叉模态对准都是至关重要的。WS-TE的深度设计变压器编码器的关键点是它的深度。因此，我们在表5c中探索了WS-TE的最佳层数以获得更好的附着力。在没有预先训练的情况下，最好的数字是1。预训练阶段启用更深的网络，导致最佳数量为2。由于WS-TE是从头开始训练的，因此预训练数据的大小决定了网络的最大深度。对于我们拥有的图文数据，2层的深度目前可能是一个瓶颈。预训练语料库的大小图像-文本对的大小在跨模态预训练中起着关键作用[30]。统一者[11]使用9。6M对，奥斯卡使用6。5百万。我们记录在表5d中示出了具有不同大小的预训练主体的三个任务的结果。值得注意的是，VQA和GQA数据集由图像-问题对组成，这导致了轻微的改进。数据量的增长不同的视觉骨干为了证明我们的COOKIE的鲁棒性，我们替换了有或没有预训练的视觉骨干。在表5e中，如所预期的，越强视觉支柱，更强大的COOKIE是为ITM和IR。然而，对于TM，更好的视觉编码器我们推断这是因为如果视觉编码器太强大，文本编码器将丢失太多的原始信息。对于文本，由于计算资源的限制，我们只使用基于BERT的模型。我们留下BERT-Large模型的预训练用于未来的工作。4.4. 分析在网络的末端设计了一个加权变压器编码器（WS-TE）。虽然图像和文本具有跨模态异质性差距，但权重共享注意力的过程限制了两条路径关注具有相同语义的标记。我们在图3中可视化了WS-TE学习到的注意力。与[28，48]相同，考虑到最终表示应该更多地关注图像或文本中的显著对象，我们计算WS-TE后的最终表示I或T之间的相似度。以这种方式，每个区域具有与最终表示的相似性得分。然后，我们对分数进行排名，排名较高的我们为文本标记前5个单词从图中可以看出，没有WS-TE（左图），图像和句子关注不同的语义。在文本中，使用WS-TE（右图），图像和文本倾向于强调相同的语义，即推理时间分析COOKIE是一种没有跨模态交互的双流方法，因此它大大加快了图像-文本检索的任务。我们在Flickr30K测试集上进行了实验，并记录了推理时间（特征提取加相似度计算）。如图4、像Oscar [30]这样的单流方法的时间复杂度为O（n2），而我们的模型的时间复杂度为O（n）5. 结论在本文中，我们提出了一个新的Crontrasive跨模态知识共享预训练（COOKIE）学习通用的单独的视觉和语言表示的下游匹配任务。我们设计了一个权重共享Transformer编码器，以更好地对齐视觉和文本语义，并使用5.9M图像-文本对使用跨模态对比学习和单模态对比学习来预训练模型。COOKIE在单模态匹配任务上设置了新的最先进的结果，同时在跨模态检索上达到了可比的结果，推理时间只有3/1000。2217引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议论文集，第6077-6086页[2] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议论文集，第2425- 2433页[3] Yue Cao，Mingsheng Long，Bin Liu，and Jianmin Wang.用于汉明空间检索的深柯西散列法。在IEEE计算机视觉和模式识别会议的论文集，第1229-1237页[4] Zhangjie Cao ， Mingsheng Long ， Jianmin Wang ， andPhilip S Yu.Hashnet：深度学习，通过延续来散列在IEEE计算机视觉国际会议的论文集，第5608-5617页[5] DanielCer、MonaDiab、Enek oAgirre、InigoLopez-Gazpio和Lucia Specia。Semeval-2017任务1：语义文本相似性多语种和跨语种集中评价。在第11届国际语义评估研讨会论文集（SemEval-2017），第1-14页[6] 陈嘉诚，胡鹤翔，吴昊，姜宇宁，王长虎。学习视觉语义嵌入的最佳池化策略在IEEE/CVF计算机视觉和模式识别会议论文集，第15789-15798页[7] 陈世哲、赵一达、秦晋、吴奇隆。基于层次图推理的细粒度视频文本检索。在IEEE/CVF计算机视觉和模式识别会议论文集，第10638-10647页[8] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议，第1597-1607页。PMLR，2020年。[9] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv：2003.04297，2020。[10] Xinlei Chen，Kaiming He.探索简单的连体表示学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第15750-15758页[11] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， andJingjing Liu.Uniter：通用图像-文本表示学习。在欧洲计算机视觉会议上，第104-120页。Springer，2020年。[12] 程庆荣和顾晓东。通过跨模态检索的图形表示学习弥合多时间-直径异质性差距。神经网络，134：143[13] Tat-Seng Chua ， Jinhui Tang ， Richang Hong ， HaojieLi，Zhiping Luo，and Yantao Zheng.Nus-wide：新加坡国立大学的真实网络在Pro-ACM图像和视频检索国际会议的会议论文集，第1-9页，2009年。[14] 崔万云、郑广宇和王伟

下载后可阅读完整内容，剩余1页未读，立即下载