多模态对齐：基于表示代码本的跨模态特征对齐与学习

200 浏览量更新于2023-10-25 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

15651使用表示代码本的多模态对齐段佳丽1陈立群1*孙陈1杨金宇2徐毅1曾贝琳达1Trishul Chilimbi11亚马逊2德克萨斯大学阿灵顿分校{duajiali，liquchen，sontran，yxaamzn，zengb，trishulc}@ amazon.com{jinyu.yang}@ mavs.uta.edu摘要对齐来自不同模态的信号是视觉语言表征学习中的重要步骤，因为它会影响后续阶段的性能，例如跨模态融合。以前的工作：戴面具图像特征空间文本特征空间跨模态特征对齐由于图像和文本通常位于在实例级直接对齐特征空间是具有挑战性的，特别是当特征在训练期间仍在演化时。在本文中，我们提出了一个更高，更稳定的水平，使用集群表示对齐。具体地说，我们将图像和文本看作同一实体的两个我们的：戴面具图像特征空间跨模态特征对齐文本特征空间特征/原型对齐公用码空间由聚类中心的字典（码本）跨越的空间我们通过聚类分配对比阳性和阴性样本，同时优化聚类中心。为了进一步理顺学习过程，我们采用了师生蒸馏范式，其中一个观点的动量教师指导学生学习另一个观点。我们在通用视觉语言基准上评估了我们的方法，并在零拍摄交叉模态检索上获得了新的SoTA，同时在各种其他传输任务上具有竞争力。1. 介绍视觉语言表示学习是利用图像和文本信号学习一个统一的特征嵌入预训练的V L模型在不同设置的各种下游任务中具有很大的应用多样性，例如通过迁移学习[8，28，49]。V L预训练的主要任务包括对齐不同模态的特征空间（多模态对齐[8，25，28，31]）和捕获跨模态的交互（跨模态融合，[12，44]）。晚期融合方法如CLIP [37]和ALIGN [21]专注于第一项任务，而早期融合方法如OSCAR [28]、VinVL [49]和VilLT [22]专注于第二项任务。在这项工作中，我们采用了一种类似于ALBEF [25]的混合方法，其中首先对齐图像和文本模态的*前两位作者贡献相当。图1.我们建议使用一个可学习的码本，以更好地对齐图像和文本模态。码本充当图像和文本特征之间的“桥梁”。每个码字可以被解释为原型，这使得能够在聚类级别上对比图像和文本。然后，我们解决了一个最优运输问题[1]，以优化每个模态到原型之间的距离，这反过来优化了两个模态之间的对齐原型向量与我们的V L框架中的特征编码器一起学习。然后使用Transformer编码器进行熔断我们工作的主要现有的方法，如CLIP [37]和ALIGN [21]，必须依赖于大量的训练资源和大量的数据来获得良好的比对（分别为400 M和1.8B图像-文本对）。在这项工作中，我们提出了一个更有效的对齐策略，通过使用一个码书，量化的共同文本图像特征空间到码字。这些码字或聚类中心提供了一个更稳定的手段相比，个别的文本或视觉特征的对比推理。我们的灵感来自SwAV[4]，它是为自我监督视觉表征学习而开发的。在[4]中，同一输入图像的两个增强版本（视图）通过深度网络进行特征提取。视觉嵌入是通过优化一个目标函数来学习的，该目标函数强制执行来自一个特征之间的一致性。15652视图和另一个视图中分配的群集。SwAV在各种传输任务中取得了令人印象深刻的性能（参见[4]）。在这里，我们进行了对比推理跨模态（图像-文本），而不是跨图像视图。细节在第3.1节中，但简而言之，我们为图像和文本模态使用可学习的码本，并训练我们的模型使用文本或视觉信息来预测码字分配。有效地，视觉和文本特征通过在训练期间与公共码字对齐而排列图示见图1码本可以被认为是底层输出特征分布的量化样本。它与模型参数一起是端到端可学习的为了避免训练过程中的突然变化，我们进一步采用了动量蒸馏，这在之前的自监督学习工作中得到了广泛的应用，例如BYOL [16]，DINO [5]，MoCo [18]。简而言之，类似于ALBEF [25]，对于图像、文本和融合编码器中的每一个，存在通过移动平均而没有梯度反向传播来更新的这些动量编码器作为教师来指导自我监督的学习过程。与ALBEF [25]不同，我们使用教师来指导码本学习以及跨模态和模态内对齐。上述两个组件被连接起来以支持码本的稳定更新，这进而为交叉模态对准提供了有效的正则化均值实验结果（第4节）表明，即使与使用大量数据的方法（如CLIP [37]和ALIGN [21]）相比，我们的方法在各种基准测试中也与最先进的方法具有竞争力综上所述，我们的主要贡献如下，• 我们提出了一种基于码本的有效视觉语言对齐学习的方法。它是自监督视觉表征学习（SSL）到多模态环境的扩展。• 我们介绍了一种新的蒸馏算法，有助于单峰和跨峰对比优化，以及有助于稳定码本学习。本文的其余部分组织如下。我们在第2节中介绍了相关的工作。在第3节中，我们描述了我们的框架，称为codebook学习与蒸馏（CODIS），和它的两个组成部分，多模态码本学习和师生蒸馏。实验结果见第4节。第五部分是全文的结论。2. 相关工作视觉语言预训练是一个非常活跃的研究领域，最近有很多研究成果。我们在这里回顾与我们最相关的作品。架构以前的方法可以大致分为早期融合和晚期融合两类。在早期融合方法[8，22，28，41]中，图像和文本被转换为序列（标记化）并传递到单个编码器（通常基于变换器）以进行嵌入生成。因此，多模态信号融合在早期阶段。而在后期融合作品[21，37]中，单独的编码器用于图像和文本。所提取的特征通常在稍后的微调阶段期间被融合。我们的工作是这两种方法之间的混合，类似于[25，48]。主要区别在于码本和各种相关的对比损失。在视觉语言学习中，码本已经在最近的一些工作中使用，主要用于图像标记化。BEiT [2]构建了一个视觉词汇词典，然后用它来形成面具图像建模任务，其方式与面具语言建模相同。SOHO [20]将视觉词典集成到主模型中，并联合训练两者。这两个作品都量化了视觉输入空间。相比之下，我们的码本被用于优化联合输出空间，其中多模态视图通过最佳传输对齐[1]。其他并行工程，我们包括[25，27]。它们都使用InfoNCE对齐跨模态实例[33]。相比之下，我们在实例级别和集群级别都强制执行单峰和跨模式对齐。自监督对比学习对比学习的目标[17]是吸引积极的样本对并拒绝消极的样本对。最近，它已被广泛用于计算机视觉中的无监督，半监督[13]和自监督表示学习[5，7，18]。对比推理通常基于同一输入图像的两个增强视图来形成主要挑战之一是功能崩溃，在实践中，需要通过大批量[7]或存储体[18，45]的大量负样本来解决这个问题。最近的几项研究表明，人们可以在不区分实例的情况下学习无监督特征。深度聚类[3]和SwAV [4]将在线聚类纳入暹罗网络。在BYOL [16]中，通过将特征与动量编码器获得的表示进行匹配来训练DINO [5]用视觉变换器实例化动量编码器，并采用师生蒸馏范例[13，19，47]。我们的对齐技术和动量更新的灵感来自于这些作品，可以被认为是多模态设置的扩展。3. 方法我们的目标是学习图像和文本特征之间的显式对齐，以促进多模态交互。我们在图2中说明了CODIS，并在算法1中提出了一个伪码实现。它与自监督对比学习有一些相似之处[4，18]。我们对待形象15653- - E ∈ R图2.概述我们的框架。为了简单起见，我们只显示一对师生编码器（例如，教师用于图像，学生用于文本），并且类似地用于存储器队列。教师用学生的指数移动平均值更新（来自相同的模态）。码本有助于弥合不同模态之间的差距整个框架是端到端优化的。.和语篇模态作为两种观点，并采用师生蒸馏范式[5，16]来加强单模态和跨模态对齐。为了克服多模态分布之间的差距我们将本节的内容组织如下。在第3.1节中，我们介绍了多模态码本学习，它在第3.2节中，我们介绍了如何在师生蒸馏学习公式下实现单峰和跨模态对齐。最后，我们解释了我们提出的两个组件如何整合到第3.3节的V L框架。3.1. 多模态码本学习我们建议学习一个码本，以便于对齐多模态语义。它是一个可学习的原型或代码的集合。在本文中我们可以互换使用它们。通过码本，我们将图像和文本编码到联合视觉语言嵌入空间中，并通过对比它们的原型分配来学习对齐码本也可以被解释为配对数据的底层特征分布[6]。以这种方式，通过将来自每个模态的特征与码本对齐，我们间接地隐式地对齐多模态特征。换句话说，码本充当模态之间的我们表示的可学习码本作为 C =c1，c2，.- 是的- 是的其中dc是每个码的尺寸并且K等于码字的数量（即，4K）。我们设置dc=256，与投影图像/文本特征的维度相同。每个c∈C都是一个原型。给定N个图像或文本特征向量Zm=[zm，. - 是的- 是的，zm]（上标m表示从算法1CODIS伪码# gs，gt：学生/教师网络图像# fs，ft：学生/教师网络文本# C：码本d-by-K# Qv，Qt：图像/文本队列，d-by-M #tmp，可学习温度for（img，txt）in loader：# a minibatch with N samples #教师/学生的图像视图img_t，img_s = gt（img），gs（img）#N-by-d#教师/学生txt_t，txt_s = ft（txt），fs（txt）#N-by-d#计算码本丢失I2P，T2P = img_t@C，txt_t@C，#N × KTg，Tf = IPOT（1-I2 P），IPOT（1-T2 P）#参考算法2L_ot = Trace（I2P.t（）@Tg）.sum（）+Trace（T2P.t（）@Tf）.sum（）L_code = H（img_s@C，Tg）+ H（txt_s@C，Tf）+L_ot#计算对齐损失L_cross = H（img_s@Qt，img_t@Qt）+ H（txt_s@Qv，txt_t@Qv）L_unimo = H（img_s@Qv，img_t@Qv）+ H（txt_s@Qt，txt_t@Qt）L_align = L_cross + L_unimo#加入/退出队列update_queue（Qv，img_t，Qt，txt_t）#预训练损失L_pretrain = L_itm+ L_mlmloss = L_code + L_align + L_pretrain loss.backward（）#back-propagate# student，teacherupdatesupdate（gs，fs）#SGDema（gs，gt，fs，ft）# momemtum updatedef H（s，t）：t = t.detach（）#停止梯度s =softmax（s / tmp，dim=1）return -（t* log（s））.sum（dim=1）.mean（）最优运输[1，6]。不失一般性，我们将z表示为图像或文本的投影特征，并优化以下目标：1NN动量教师编码器），我们计算一个最佳的Lot=minTij·d（zm，cj）=minD.D.，从特征向量到原型的成本映射我们将这样的映射表示为传输计划T，其通过使用T∈N（u，v）i=1j=1T∈N（u，v）（一）老师的视图停止梯度存储器队列CLS文本传销ITM码本运输代码手册计划损失单峰交叉模态对齐对齐多模编码器第3.1节：多模态码本学习第3.2节：教师-学生蒸馏学习第3.3节：自我监督预训练学生的视图CLS戴面具的猫EMA我15654n⊙⊙−∈−∈ R ∈ R不v不v不··⟨⟩vΣ算法2IPOT算法。1：输入：距离/相似度矩阵Z、C、N、概率向量μ、ν2：σ=11n，T（1）=11n3：Dij=d（zi，cj），Aij= e−4：对于t = 1，2，3。- 是的- 是的做Dijϵ5：Q =AT（t）// 是Hadamard乘积6：对于k = 1，2，3，. - 是的- 是的Kdo7：δ=μ，σ=ν8：结束nQσnQδ9：T（t+1）=diag（δ）Q diag（σ） 10：结束第11章：一夜情其中n（u，v）={T∈ RN×K|T1=11，T1=图3.这是说明如何计算四个码本损失的图。““1+KN N N“ “其中，1N表示N维全一向量。D是由Dij=d（zm，cj）（d（·，·）=1 -1）给出的成本矩阵（L）或图像到原型损失（L）链特征，T2PI2pcos（，））和T，D=Tr（T，D）表示Frobenius点积。在算法1中，我们将Tg和Tf用于图像和文本的最优传输计划，并且1I2P对应于图像模态的成本矩阵D这为了求解最优运输计划，我们采用算法2中所示的迭代算法。它需要正常化特征矩阵Z、码本C作为输入，输出最优的转排序方案T。在内部，该算法试图最小化最佳运输（OT）距离，优化以挑选类似的cj，j [1，. . .，K]（T的第i行）。换句话说，T可以被视为原型和特征之间的距离度量当求解时，OT产生包含至多（2r1）（r=max（N，K））个非零元素的稀疏解T，从而产生稳健且有意义的比对[10]。在我们将要公式化的码本损失中，T将被用作地面实况信号来指导特征到原型的对齐。我们使用交叉熵损失，并采用师生蒸馏的方法来构造用于优化码书以及特征编码器的损失Lt2p（Zt，C，Ti2p）=H（Pt2p，Ti2p），两种模式。例如，文本到原型损失链图像原型运输计划和文本原型相似性，反之亦然。更重要的是，学习码本允许在原型级跨模态对比特征在计算传输计划时，我们使用教师功能，因为它们提供了更稳定的监督信号来指导学生的学习。计算的损失将被反向传播以更新码本和学生编码器两者。3.2. 师生蒸馏式学习这种损失被设计为对齐来自两个单峰编码器的特征，这是受到SSL学习最近成功的启发[5，18]。我们的动机是，图像和文本可以被视为同一实体的两个“视图”，我们采用师生蒸馏范式来对齐它们。由于直接来自单峰编码器的原始特征是在不同的特征空间中，我们学习了用于图像和文本学生特征的维度为256，zv256，zt256的联合嵌入在[18，25]之后，我们将来自教师编码器zm∈ R256，zm∈ R256的特征存储在存储器Li 2p（Zv，C，Tt2p）=H（Pi2p，Tt2p），（2）Pt2p=SoftMax（ZtC/γ），Pi2p=SoftMax（ZvC/γ）其中，P是使用来自学生编码器的要素计算的预测度量，而T是使用要素计算的分别用于图像和文本的队列Qv、Qt对于一对图像和文本，我们可以如下计算跨模态相似度和模态内相似度：从老师编码器使用算法2.原因是教师编码器通过指数移动平均更新pt2i（T）=exppi2t（I）=expZtZm/γzvzm /zm′∈QvΣ不expexpztzm′vγzvzm′（四）我们另外添加一个正则化项Lot. 整体γ γzm′∈Qt多模式码本学习的损失如下，图像原型OT损失文本到原型损失图像特征图像原型运输计划文本原型相似性文本特征码本原型图像原型相似性文本原型运输计划码本原型图像到原型损失文本原型OT损失v15655Mmvv不zm′∈Qv不不γ/zm′∈Q不不γ不不L代码=Lot（Z，C）+Lot（Z，C）pi2i（I）=expzz mm /γvexp zvzm′vγ+Lt2p（Zt，C，Tt2p）+Li2p（Zv，C，Ti2p）如图3所示，码本充当图像和文本模态之间的桥梁，因为文本到原型的损失z zm轴z zm′（三）pt2t（T）=expexp15656----联系我们其中，用于估计pt2t（T）的伪图像负片从图像队列Qv中采样，并且对于pi2t（I）也是类似的。除[25]外，我们还考虑了单峰（内部）对齐。是的。直观地说，增强单峰特征表示为跨模态对齐奠定了更好的基础。为了进一步平滑学习过程，我们使用来自momentum教师的特征来提供软蒸馏目标yi2t，yt2i，yt2t，yi2i（详细信息请参见算法1）。内/跨模态对准的损失定义为，Lica=EI，T=p数据[H（pt2t，yt2t）+H（pi2i，yi2i）+H（pt2i，yt2i）+H（pi2t，yi2t）]（5）其中H是交叉熵。该目标还可以被视为来自相同模态的教师编码器和学生编码器之间的知识蒸馏（即，H（pt2t，yt2t）和H（pi2i，yi2i），以及教师编码器和来自不同模态的学生编码器（即，H（pt2i，yt2i）和H（pi2t，yi2t））。教师编码器的参数是学生的指数移动平均值，梯度更新我们采用类似于[18]的动量更新来更新教师编码器：ft=αft+（1−α）fs，gt=αgt+（1−α）gs（6）α是动量参数。实际上，我们设置α = 0。995，以便顺利更新教师编码器。3.3. 自我监督预训练在本节中，我们将首先介绍多模态训练框架的两个常用目标：（i）掩蔽语言建模损失（MLM）和（ii）多模态编码器上的图像-文本匹配（ITM）然后讨论了码书与师生蒸馏成分的整合。我们表示通过以下方法提取的图像和文本特征：学生网络作为v cls，v1，.，v m和t cls，t1，.，n，分别。具体地，v cls是图像[CLS]令牌，v1，.，是图像块嵌入。类似地，t cls指示文本[CLS]标记，t1，...，t n是单词嵌入。3.3.1图像-文本匹配（ITM）损失为了融合视觉和语言表示，我们采用了在现代V L框架中广泛使用的ITM。给定任意一对图像和文本，ITM预测它们是否对齐（正对）或不对齐（负对）。这个过程可以被公式化为一个二元分类问题。具体地，来自融合编码器的[CLS]令牌被用作图像-文本对的联合表示。ITM头是一个全连接层，用于预测匹配概率pitm。我们假设从预训练数据集采样的每个图像-文本对（Ii，Ti）是正例，并且通过以下策略构造否定示例15657LL对于批内的每个图像Ii，我们基于对比相似性分布从同一批中采样一个否定文本Tj因此，与此图像更相似的文本将有更高的机会被采样。类似地，将针对每个文本Ti采样一个硬负图像。我们将yitm表示为地面实况标签，指示图像-文本对是正还是负。Litm=EI，Tp数据H（pitm，yitm）（7）其中H是交叉熵算子。3.3.2Masked Language Modeling（MLM）我们遵循BERT [11]的MLM损失设计，其目的是预测掩码文本的地面真实标签。具体来说，我们随机屏蔽掉15%的输入文本标记，这些被屏蔽的标记被替换为特殊标记[MASK]。与BERT不同，我们的传销损失取决于周围的文本标记和图像表示。假设预测的令牌概率为pmlm，我们构建损失目标如下，Lml m=EI，Tp数据H（pml m，yml m）（8）其中T是屏蔽后的文本标记序列。3.4. 总结我们以端到端的方式同时优化框架内的码本和学生编码器，利用前面部分中讨论的损失，如下所示，Lfinal=L mlm+L itm+L ica+L code（9）其中MLM和ITM损失已被广泛应用于许多V L方法，特别是那些ICA损失是“后期融合”V L框架的主要目标函数CODIS结合了“早期融合”和“后期融合”方法的优点第3.2节中描述的内部交叉对齐（ica）损失可以被视为实例到实例的对齐损失，类似于[25]中的对齐损失。不同的是，我们同时考虑内部和交叉模态对齐。我们假设一个更强的单峰表示可以为跨模态表示奠定坚实的基础。经验证据见第4.4节。第3.1节中设计的码本损失（码）度量了传输计划与相似性矩阵之间的距离。它在原型级别对比特征，可以解释为距离度量匹配[3，6]。结合这两者有助于避免原型崩溃问题，因为在线原型聚类需要仔细调优[4]。最后，针对交叉对齐丢失和码本丢失的监督信号需要来自动量老师的特征，我们采用了师生15658- -−×××蒸馏法这可以被看作是在V L框架下将单峰SSL推广4. 实验为了评估我们的方法，我们对常用的基准进行了广泛的研究，并对本节所示的最先进的V L方法我们遵循以前的实验方案[8，25]进行公平比较。我们使用概念标题（CC 3 M）[40]，视觉基因组（VG）[23]，SBU标题[34]和COCO [29]作为我们研究中的预训练数据集，其中总共覆盖了400万个独特的图像和510万个图像-文本对。4.1. 下游任务图文检索包括两个任务：（1）图像作为查询和检索文本（ TR ）：（ 2 ）作为查询和检索图像的文本（IR）。预训练模型在MSCOCO [29]和Flickr30K [35]上进行评估。对于零激发设置，预训练模型直接在测试数据上进行评估，而无需任何进一步的训练。特别是，对于Flickr 30K上的零镜头检索，我们遵循[25]中提出的程序（使用MSCOCO微调模型在Flickr上进行零镜头评估）。对于微调设置，预训练模型在训练数据上进行微调，并在验证/测试数据上进行评估。视觉问题推理（VQA）[15]预测给定图像和问题的答案，这需要对视觉，语言和上下文的理解。我们认为这个任务是一个生成问题，通过微调答案解码器从候选人中生成答案，如[25]所示。视觉推理（NLVR2）数据集[42]包含107，292个人类书写的英语句子与网络照片配对。任务是确定关于一对照片的自然语言说明是否真实。我们扩展了我们的模型[25]，以文本和两个图像作为输入。视觉蕴涵（SNLI-VE）[46]预测给定图像是否包含给定文本，这在我们的框架中被公式化为三向分类问题（蕴涵，中性或4.1.1实现细节我们采用ViT-B/16 [12]作为我们的视觉编码器。文本编码器使用12层BERT 基。我们设置队列大小为65，536，码本大小为4000，移动平均值α=0。九九五对于预训练阶段，模型训练30个epoch，批量大小为512。我们使用小批量 AdamW 优化器 [30] ，权重衰减为0.02。学习率初始化为1e5，并在1，000次迭代后预热到1e4然后它衰变策略为1e5。我们所有的实验都在8个NVIDIAA100 GPU上进行。在应用RandAug- ment [9]之前，图像输入被随机裁剪并调整大小为256 256在微调期间，图像分辨率增加到384 384，以便与现有方法进行公平比较[25]。4.2. 图像-文本检索的评价对于图像-文本检索任务，我们按照[ 8，25，28 ]中的设置进行了两种不同的评估场景：我们比较了早期融合方法（如[8，22，28]）和晚期融合方法（如[21，38]）。ALBEF [25]是一种混合方法，也可以执行特征对齐以及融合。表1和表2中的结果显示了我们的方法相对于现有技术的一致改进“Zero-shot”与性能最佳的早期融合方法[8]相比，我们获得了11的裕度。0%/13。在Flickr 30 K上以R@1表示的5%TR/IR。相比到最高的后期融合方法[21]，增加了12。9%/8。MSCOCO 上R@1 时的3% TR/IR和3.1%/4。在Flickr 30 K上，R@1中的TR/IR为0%，尽管ALIGN [21]在训练中使用了1.8B数据（约为1.8B）。比我们的模型多360个图像-文本对我们的方法还优于ALBEF 4 M [25] ， MSCOCO 上 TR/IR 的 R@1 明显为2.9%/3.8%，Flickr 30 K上TR/IR的R@1为1.2%/2.9%，这表明我们的模型可以进一步受益于码本表示学习。“After-finetuning” 对于像 Flickr30K 这样的小数据集，性能差距往往会随着模型的收敛而减小。然而，我们的方法在大多数指标中仍然实现了最好的结果，并且对于R@1，特别是在MSCOCO上，出现了最大的利润与最接近的执行方法ALBEF [25]相比，CODIS获得了 2. 2%/1 。 MSCOCO 上 R@1 的 TR/IR 为 9% ，为CODIS用于迁移学习的有效性提供了证据4.3. VQA、NLVR和VE根据以前的方法[8，25]，我们进一步报告了CODIS在各种其他视觉语言任务（如VQA，NLVR和VE）上的性能。值得注意的是尽管如此，我们在表3中的不同数据集上观察到我们的方法在所有任务上的一致改进。15659表1.MSCOCO和Flickr 30 K数据集上零镜头图像-文本检索的性能比较方法MSCOCO（5K）Flickr30K（1K）文本检索图像检索文本检索检索R@1 R@5 R@10 R@1 R@5R@10 R@1 R@5 R@10 R@1 R@5R@10ImageBERT [36]44.071.280.432.359.070.270.790.294.054.379.687.5[24]第二十四话------64.385.892.348.476.085.2UNITER [8]------80.795.798.066.288.492.9ViLT [22]56.582.689.640.470.081.173.293.696.555.082.589.8[第37话]58.481.588.137.862.472.288.098.799.468.790.695.2[21]第二十一话58.683.089.745.669.878.688.698.799.775.793.896.8[25]第二十五话68.689.594.750.176.484.590.598.899.776.893.796.7我们71.591.195.553.979.587.191.799.399.879.794.897.3表2.MSCOCO和Flickr 30 K数据集上微调图像-文本检索的性能比较方法MSCOCO（5K）Flickr30K（1K）文本检索图像检索文本检索检索R@1 R@5 R@10 R@1 R@5R@10 R@1 R@5 R@10 R@1 R@5R@10ImageBERT [36]66.489.894.450.578.787.187.097.699.273.192.696.0UNITER [8]65.788.693.852.979.988.087.398.099.275.694.196.8别墅[14]------87.997.598.876.394.296.8奥斯卡奖[28]70.091.195.554.080.888.5------ViLT [22]61.586.392.742.772.983.183.596.798.664.488.793.8UNIMO [27]------89.798.499.174.693.496.0苏豪区[20]66.488.293.850.678.086.786.598.199.372.592.796.1[25]第二十五话73.191.496.056.881.589.294.399.499.882.896.798.4我们75.392.696.658.782.889.795.199.499.983.396.197.8表3.与下游视觉语言任务的各种最先进方法的比较：VQA，NVLR2，SNLI-VE。表4.我们的方法在有限的预训练制度下仅使用MSCOCO的效率。TR@1TR@5TR@10IR@1IR@5IR@10阿尔贝夫55.70 81.92 88.78 41.08 69.01 78.860.5x码本58.6683.990.6443.7472.1081.582.0x码本59.0284.4691.0643.6271.6981.123K码字58.9684.2890.9844.6672.3181.68500个码字55.5281.6889.2841.5368.7578.43我们59.38 84.0491.2044.71 72.63 81.694.4. 消融研究在本节中，我们对我们的方法与不同的CODIS变体的性能进行了消融研究得到清楚了解每个组件的影响后，我们在零次设置下进行比较，而不进行任何微调。请注意，这里Flickr30K的设置与第4.2节中的设置不同，因为后者基于MSCOCO（5K）上的微调模型报告数字。更多详情请参见[8结果总结在表5中。通过去除码本的影响，我们提供了两个在实例级执行对齐的基线，即（a）跨模态对齐-仅限片段和（b）帧内+交叉对齐。前者相当于ALBEF[25]，因为两者都只考虑跨模态的对齐。通过涉及模态内对齐，所有 R@1 TR/IR 度量的性能一致地增加（MSCOCO上的TR/IR在R@1中为+1.26%/+0.42%，Flickr上的TR/IR在R@1中为+0.9%/+1.52%），即，增强单峰表示。我们观察到一个一致的改善时，考虑码本的两个基线在这种类型中，我们提供了CODIS设计的三种变体。第1和第3行比较模态内对齐的效果，而第2和第3行研究使用学生和教师特征计算码本损失的效果。本实验亦将师生蒸馏与码本表征学习相结合，以支持其有效性。结合这两个贡献，CODIS改进了第一个方法VQA NLVR2SNLI-VE测试-开发测试-标准开发测试-P值测试VisualBERT [26]70.8071.0067.4067.00--LXMERT [43]72.4272.5474.9074.50--12合1 [32]73.15--78.87-76.95UNITER [8]72.7072.9177.1877.8578.5978.28ViLT [22]70.94-75.2476.21--奥斯卡奖[28]73.1673.4478.0778.36--别墅[14]73.5973.6778.3979.3079.4779.03[25]第二十五话74.5474.7080.2480.5080.1480.30我们74.8674.9780.5080.8480.4780.4015660表5.消融研究中Flickr30K和COCO数据集上零激发图文检索的性能比较目标函数MSCOCO（5K）Flickr30K（1K）文本检索图像检索文本检索文本检索R@1R@5R@10R@1R@5R@10R@1R@5R@10R@1R@5 R@10a：MLM+ITM+ITC（交叉对齐）六十八块六毛89.5094.7050.1076.4084.50八十四点九97.2099.00六十八点一八88.5893.02b：MLM+ITM+ITC（内部+交叉）六十九点八六89.4894.4250.5277.0285.1785.8096.8098.10六十九块七毛89.6093.48a+码本（教师功能）70.7489.5494.88 五十一点三九77.8685.6086点97.0098.2070.1890.6694.44b+码本（学生特征）七十一点一二89.6294.78 五十一点四十77.4285.53八十六点半96.9098.30七十点三四90.0093.84b+码本（教师特征）七十一点十分90.6095.1052.1078.0085.9086.7097.3098.70七十一点四90.8294.62图4.对应于单个单词以2分的优势领先基线。5%/2。MSCOCO上TR/IR的R@1为0%，1. 8%/3。Flickr上TR/IR的绝对R@1为22%为了进一步研究我们的方法的效率，我们在表4中的零触发设置下使用MSCOCO训练分裂进行预训练时，在MSCOCO测试上提供了不同码本损失权重和码本大小的消融。4.5. 交叉注意可视化我们使用Grad-CAM[39]对CODIS进行定性评估。图4显示，CODIS能够通过关注有意义的对象和位置，将语言与“感兴趣的区域”相关联例如，在第一行中，当给出单词“person”时，模型关注所有的人在第二个示例中，我们选择存在多个对应关系的场景（例如，树和阳光灿烂的日子）。该模型似乎将更多的注意力分配给最近的它可以将树木和草地区分开来。有趣的5. 结论和未来工作视觉和语言预训练正吸引着计算机视觉界越来越多的关注，并在各种视觉语言下游任务中表现出巨大的潜力。V L成功的关键之一是改善多模态对齐。在本文中，我们提出了多模态对齐使用代表码本，它作为一个媒介之间的模态。我们还通过将师生蒸馏学习推广到V L框架下的多模态环境，将自监督学习和VL预训练我们的工作是朝着更有原则的多模态对齐迈出的一步我们希望在这个方向上激发更多的作品。15661引用[1] 路易吉·安布罗休，尼古拉·吉利，朱塞佩·萨瓦尔·埃。几何流：度量空间与概率测度。 Springer ScienceBusiness Media，2008.一、二、三[2] 包航波，李东，魏福如。Beit：Bert图像转换器的预训练。arXiv预印本arXiv：2106.08254，2021。2[3] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类在欧洲计算机视觉会议（ECCV）的会议记录中，第132-149页，2018年。二、五[4] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.无监督学习视觉特征对比聚类分配。 arXiv 预印本 arXiv ：2006.09882，2020。一、二、五[5] MathildeCaron，HugoTouvron，IshanMisra，Herve'Je'gou ， Julien Mairal ， Piotr Bojanowski ， andArmand Joulin.自我监督视觉转换器中的新兴特性。arXiv预印本arXiv：2104.14294，2021。二、三、四[6] 陈立群，甘哲，程宇，李林杰，劳伦斯·卡林，刘晶晶。用于跨域对齐的最佳传输图。国际机器学习会议，第1542-1553页。PMLR，2020年。三、五[7] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offreyHinton.视觉表征对比学习的一个简单框架。国际机器学习会议，第1597-1607页。PMLR，2020年。2[8] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， andJingjing Liu.Uniter：通用图像-文本表示学习。欧洲计算机视觉会议，第104-120页。Springer，2020年。一、二、六、七[9] Ekin D Cubuk，Barret Zoph，Jonathon Shlens，and QuocV Le.Randaugment：减少搜索空间的实用自动数据增强在IEEE/CVF计算机视觉和模式识别研讨会集，第702-703页，2020年。6[10] Fernando De Goes等人，2D形状的鲁棒重建和简化的最佳传输方法。计算机图形学论坛，2011年。4[11] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。5[12] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Syl- vain Gelly，et al. An image is worth16x16 words ： Trans- formers for image recognition atscale. arXiv预印本arXiv：2010.11929，2020。1、6[13] Jiali Duan，Yen-Liang Lin，Son Tran，Larry S Davis，and C-C Jay Kuo. Slade：一个远程度量学习的自我训练框架。在IEEE/CVF计算机视觉和模式识别会议论文集，第9644- 9653页2[14] Zhe Gan，Yen-Chun Chen，Linjie Li，Chen Zhu，YuCh

下载后可阅读完整内容，剩余1页未读，立即下载