基于渐进自蒸馏的鲁棒跨模态表示学习

27 浏览量更新于2023-10-26 收藏 14.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

V1V2V3T1T2T3V1V2V3T1T2T30.180.110.040.040.040.670.170.010.010.01164300具有渐进自蒸馏的鲁棒跨模态表示学习0Alex Andonian *0MIT CSAIL0andonian@mit.edu0Shixing Chen, Raffay Hamid0亚马逊Prime Video0{shixic, raffay}@amazon.com0摘要0CLIP[63]的视觉语言方法的学习目标没有有效地考虑到在网络采集的图像字幕数据集中找到的嘈杂的多对多对应关系，这导致了其计算和数据的低效性。为了解决这个挑战，我们引入了一种基于跨模态对比学习的新型训练框架，该框架使用渐进式自蒸馏和软图像-文本对齐来更有效地从嘈杂的数据中学习稳健的表示。我们的模型通过动态生成每个小批量中一部分图像和标题的软对齐目标来蒸馏自己的知识，然后使用这些目标来更新其参数。对14个基准数据集进行广泛评估表明，我们的方法在多个设置下始终优于其CLIP对应物，包括：（a）零样本分类，（b）线性探针传递和（c）图像-文本检索，而不会增加额外的计算成本。使用基于ImageNet的鲁棒性测试平台[70]的分析表明，与ImageNet训练的模型和CLIP本身相比，我们的方法在自然分布转移方面具有更好的有效鲁棒性。最后，使用跨越两个数量级的数据集进行预训练的结果显示，我们对CLIP的改进往往随着训练样本数量的增加而增加。01. 引言0自监督预训练技术在自然语言处理和计算机视觉中的收敛带来了跨模态表示学习方法的复兴[1, 19, 30, 39, 52, 63, 68,75]，其中使用大规模弱相关的多模态数据（例如图像-文本对）使用对比学习技术学习跨模态表示。特别是最近提出的CLIP[63]模型由于其令人印象深刻的零样本识别能力和在下游任务中的出色迁移性能而受到了广泛关注。0然而，尽管它们最近的成功，多模态预训练0像CLIP [63]这样的训练方法是数据和计算的0* 本工作是作者在亚马逊实习期间完成的。0CLIP0我们的0豚鼠啤酒杯蟑螂0博美犬0金鱼0小丑鱼0刺豚0蜗牛0来自ImageNet-R的一个超出分布的图像0数据集显示一个0金鱼渲染在一个0彩色玻璃窗0测试图像0真实值：金鱼0预训练模型测试图像模型输出0CLIP我们0图1. 与CLIP的对比示意图 - CLIP [63]0通过将相应的图像-文本表示聚集在一起（绿色链接），同时将未配对的实例相互排斥（红色链接），来学习联合视觉-语言嵌入空间。这种表述不考虑负样本之间的潜在语义相似性。我们通过学习预测给定小批量中的软对齐目标分布（虚线蓝边）来解决这个问题，从而使我们的模型能够学习更稳健的表示。当在来自ImageNet-R数据集[25]的超出分布的图像上比较预测的分布时，我们的方法可以正确分类在彩色玻璃窗中渲染的金鱼，而CLIP则不能。0CLIP的成功很大程度上归功于其对训练数据的巨大需求，利用了400M个图像-文本对和预训练估计的3584个GPU天。随着数据规模的增加，这些方法的预训练要求变得越来越昂贵，从而限制了它们在可持续方式下的广泛应用。0CLIP [63]的数据和计算效率低下可以部分归因于它对网络采集的数据的处理方式。0部分归因于它对用于训练的网络采集数据的基本假设。0几个主流的视觉-语言数据集利用从存档网页中提取的图像的alt-text HTML属性[9, 67,71]，其中标题往往与其对应的图像内容无关[67]。然而，CLIP[63]将每个图像的标题准确且独占地与该图像相关联（见图1）。此外，当使用更大的批量大小（CLIP使用32K）时，观察到带有164310高语义相似性的增加可能会进一步降低学习表示的质量，特别是那些与错误负例之间共享语义的表示[2]。0为了解决这个挑战，我们提出了对多个预训练数据集进行建模。0使用软概率而不是硬配对标签，更准确地处理网络采集数据集中图像与其对应标题之间的多对多关系。具体而言，我们提出了一个简单而有效的鲁棒对比语言-图像预训练框架，该框架使用渐进式自蒸馏和软图像-文本对齐目标，以更高效地从嘈杂的数据中学习。我们的联合学生-教师模型在每个小批量中为随机子集的图像和标题生成一组新的软对齐。这使得我们的方法能够建模多对多关系，同时重新校准可能匹配不良的实例而无需识别它们。在训练过程中，我们的网络为越来越大的小批量子集生成软对齐，有效地成为自己的教师。我们确定了几个关键要素，使得学生网络能够预测其目标，而不会发生表示崩溃或加强错误。0我们使用多个预训练数据集对我们的方法进行了广泛的比较。0我们将我们的方法与在14个基准数据集上评估的CLIP[63]进行比较，我们的方法在多种设置下始终优于CLIP。通过使用0基于ImageNet的鲁棒性测试平台[70]显示，与ImageNet训练的模型以及CLIP相比，我们的方法在面对自然分布变化时具有更好的鲁棒性。使用跨两个数量级的数据集进行预训练表明，我们相对于CLIP的改进往往与训练示例的数量成比例增加。最后，我们的方法的简单性使其能够轻松地融入现有和未来的方法中。02. 相关工作0a. 自监督表示学习：自监督表示学习是一种0有监督学习（SSL）方法使用预训练任务从数据本身中自动生成监督信号，从而消除对昂贵的手动数据标注的依赖[31]。计算机视觉中的预训练任务包括空间推理[15, 20, 32, 54,59]，时间上下文[23, 32, 36, 48,49]，以及其他视觉属性，如色调[13, 35, 81, 82]，亮度[29,72]或光流[29, 62, 73, 79]，重构修改后的输入[59, 74,81]，以及使用伪标签[15, 16, 58]或伪聚类[7, 8, 86,87]对输入进行分类。SSL方法的一个有前景的子集使用实例区分框架的变体[17,77]，该框架通过对比损失来学习对齐增强版本的特征，并将其与其他实例的特征区分开[8, 11, 24, 47]。0b.视觉-语言预训练：联合视觉-语言预训练（VLP）是一个活跃的研究领域[ 1 , 19 , 39 , 63 , 68]，其中大规模图像-文本数据集的可用性，例如YFCC 100M [ 71 ]和Conceptual Captions [ 9 , 67]在其进展中起到了关键作用。尽管有多个同时进行的工作提出了进一步改进VLP模型的方法[ 75]，但我们的工作与它们在几个重要方面有所不同。具体而言，与Ef�cientCLIP [ 75]提出的通过获得一个更少噪声的数据子集来进行跨模态训练的集成方法不同，我们的方法试图通过重新利用而不是完全去除噪声数据来避免这个问题。类似地，DeCLIP [ 39]通过利用模型内对比学习以及最近邻特征库来增强负样本，改进了CLIP [ 63]的数据效率。然而，整合这些监督来源可能会带来计算上的昂贵。相比之下，我们的方法提供了一种简单而有效的方法来提高CLIP [ 63 ]的数据效率，而不增加额外的计算成本。0c.从嘈杂数据中学习：已经开发了几种技术来增加标签噪声的鲁棒性，特别是在监督环境中[ 22 , 40 , 60 , 65 , 83]。这些技术包括减少异常值影响的损失函数[ 76 , 83]，学习如何纠正标签噪声来源的元学习过程[ 1 , 37 , 69 ,84 ]，建模标签噪声的损失校正方法[ 50 , 51 , 65]，旨在降低噪声影响的正则化技术[ 61]，以及通过迭代改进数据集标签和重新训练模型来获得更强鲁棒性的噪声过滤过程[ 55]。然而，这些研究探讨的是在常见的目标检测和分类任务中的噪声鲁棒方法，不能直接有效地应用于跨模态预训练任务。目前，噪声鲁棒的VLP预训练方法仍然是一个相对未开发的课题。0d. 知识蒸馏：知识蒸馏的方法0蒸馏（KD）[ 27]的目标是将知识从一个模型（即教师）转移到另一个模型（即学生）。虽然KD技术通常是出于某些性能和效率目标的考虑[ 6 , 10 , 38 , 66]，研究人员还发现KD方法作为一种有效的正则化技术，可以减少模型过拟合并提高泛化能力[ 14 , 40 , 43 , 53]。我们的方法受到最近自我知识蒸馏方法的成功启发[ 21 ,78 , 80]，这些方法在监督设置下使用学生网络作为教师，以降低计算成本实现高准确性。据我们所知，我们是首批在视觉-语言预训练的背景下研究渐进式自我蒸馏的人之一。03. 方法0与CLIP [ 63]不同，我们将从网络规模的弱注释数据中学习对齐的视觉-语言表示问题视为学习多对多的挑战(2)taipopulated with v1:N and t1:N, respectively. Then, the In-foNCE loss can be re-written compactly in matrix form as:164320从嘈杂的图像-文本对应关系中学习视觉-语言表示是一个挑战。为了解决这个问题，我们提出了一种新颖的视觉-语言预训练方法，通过渐进地蒸馏模型的自身知识，软化初始的硬目标对齐，从而使其能够从相同数量的训练数据中学习更可迁移的表示（参见图2）。接下来，我们首先建立跨模态对比学习目标，并确定其中的一些限制。然后，我们介绍我们的新颖的渐进自我蒸馏方法，并解释它如何解决这些限制。03.1. 准备工作0我们考虑一个由N个语义配对的图像-文本元组 { ( v i , t i ) }i =1: N组成的批次，这些元组来自一个跨模态数据集。跨模态对比预训练的目标是学习图像数据的编码器 f v和文本数据的编码器 f t ，使得对于给定的语义相关实例 ( vi , t i ) ，编码后的 ` 2 - 归一化嵌入 v i = f v ( v i ) 和 t i = ft ( t i ) ，其中 v i , t i 2 R d，彼此靠近（即“对齐”），而未配对的图像和文本嵌入则相距较远（即“不对齐”）。03.2. 使用InfoNCE损失进行对比学习0回顾一下，CLIP [ 63]使用对比损失训练这些图像和文本编码器，通过最小化InfoNCE [ 56 ]损失L InfoNCE = L v + L t ，其中L v是将图像与文本对齐的损失，L t是将文本与图像对齐的损失。具体来说，L v 定义为：0L v = −10N0NX0i =10NX0j =10I ij log P v ( v i , t j ; � ) (1)0P v ( v i , t j ; � ) = exp( sim ( v i , t j ) /� ) P N0k =1 exp( sim ( v i , t k ) /� )0其中sim ( v i , t j ) = v T0i t j 通常选择为点积0product (余弦相似度)， �是一个可学习的softmax温度参数，I ij 是来自单位矩阵I N的元素。由于InfoNCE是对称的，L t 和P t以0为了方便起见，令 V , T 2 R N � d 为矩阵，其中包含0L InfoNCE = H ( I N , � ( VT > )) + H ( I N , � ( TV > )) , (3)0其中H是批处理（逐行）交叉熵函数，具有均值缩减， �是逐行应用的标准softmax函数，使得每行之和为1。0方程3显示InfoNCE损失仅仅是交叉熵损失0熵之间的交叉熵分布I ij和估计概率P v ( v i , t j ; � )。它强制执行这样一个严格的假设：从一个批次中选择的图像v i 应该与文本t i 成对出现，同时与所有其他t j 分开。0然而，这个假设通常在大规模弱标注数据集中不成立0两个重要原因。首先，在大批量设置下，给定的图像很可能与多个文本标题以不同程度对齐。其次，在大规模弱标注数据集中，地面真实配对可能只是不正确的，或者描述了图像及其对应文本之间的松散关系。03.3. 通过软对齐进行蒸馏0为了解决使用InfoNCE损失在嘈杂的跨模态数据上训练的上述限制，我们提出采用知识蒸馏框架，其中由教师网络产生的预测概率被用作软目标分布来训练学生网络。0生成目标图像-文本对齐的过程中，经过训练的教师模型可以通过将其与批次中更强的语义匹配重新配对，从而为学生网络提供更清晰的学习信号，从而对质量较差的标题图像进行处理。其次，通过提供软目标，教师可以在一个批次中传达多对多的关系。0具体来说，为了估计图像和文本之间的对应关系0age v i and text t i，我们的教师模型使用图像和文本编码器 ˜ f v and ˜ f t来计算 ` 2 -normalized教师嵌入 ˜v i and ˜ t j，它们分别以矩阵˜ V 和˜ T的行形式进行批处理。我们的方法使用交换预测策略来生成软目标分布 A v 和 A t来监督学生训练。这些目标分布的定义如下：0A v = � ( ˜ T ˜ V > ; ˜ � ) 且 A t = � ( ˜ V ˜ T > ; ˜ � ) (4)0其中 � 是标准softmax函数，现在使用第二个教师温度 ˜ �，将原始logits转换和重新缩放为概率。0交换预测在已经建立的基础上有所改进0通过使用来自相反模态的预测来改进前向引导方法[65]。与0预测从相反模态中的图像编码器后验概率计算图像对齐分数A v，反之亦然，从文本编码器后验概率计算图像对齐分数At，从而在对立模态的所有其他实例上聚合信息。直观地说，对齐的强度0从图像v i到文本t j的概率是文本t j与所有其他v j匹配的概率之比。这种策略在相关对比学习设置中显示出了潜力[50]，这与我们的结果一致。0软对齐概率A v和At允许教师根据其估计的实例之间的相似性重新校准表示空间中图像和文本嵌入之间的吸引和排斥力。例如，一个有问题的负对(v i，tj)，可能具有很高的语义相似性，但被分配了零的相似度分数!! ⋅ #!!!!"!#!$$! ⋅ %!⋯$! ⋅ %"$! ⋅ %#$! ⋅ %$$" ⋅ %!⋯$" ⋅ %"$" ⋅ %#$" ⋅ %$$$ ⋅ %!⋯$$ ⋅ %"$$ ⋅ %#$$ ⋅ %$$# ⋅ %!⋯$# ⋅ %"$# ⋅ %#$# ⋅ %$&%, (&%&&, (&&100…0100…010…00$%"% = '&()%)!% = ''(+%)$# ⋅ %!⋯$# ⋅ %"$# ⋅ %#$# ⋅ %$$! ⋅ %!⋯$! ⋅ %"$! ⋅ %#$! ⋅ %$$" ⋅ %!⋯$" ⋅ %"$" ⋅ %#$" ⋅ %$$$ ⋅ %!⋯$$ ⋅ %"$$ ⋅ %#$$ ⋅ %$……………$! ⋅ %#⋯$" ⋅ %#$# ⋅ %#$$ ⋅ %#A cute kitten looking at the cameraLPSDInfoNCE = ↵hH(INa, ⇢( ˜Va ˜T>)) + H(INa, ⇢(˜Ta ˜V>))i+(1 � ↵)⇥H(Av, ⇢(VuT>)) + H(At, ⇢(TuV>))⇤164330视觉编码器0文本0编码器0" ! " " " # " $ �0�0�0�0�0�0�0教师logits教师目标0学生目标0�0�0�0�0�0学生logits0教师提供的归一化软对齐目标0�-N�0对齐的实例0图2.方法概述-我们将一个小批量数据分为对齐实例（红色虚线上方的行）和未对齐实例（红色虚线下方的行）。我们的教师网络使用标准的InfoNCE损失在对齐实例上进行训练。通过对立模态的预测进行归一化（黄色虚线右侧的列），教师提供了对未对齐数据的估计软对齐，以监督学生。随着教师的表示变得更加可靠，提供给学生的软对齐比例随着训练的进行而增加。0InfoNCE损失，而我们的方法提供了一个目标Aij，给定一个训练良好的教师，它应该更大。03.4.渐进式自蒸馏0我们现在解释如何启动这样一个教师网络以及它在学习过程中的贡献如何随时间变化。03.4.1教师网络选择0传统的知识蒸馏和自监督学习方法提供了许多潜在的教师选择，例如更大但静态的预训练教师网络[27]，或者使用来自先前时期的权重的具有相同模型架构的网络[42]，或者作为指数移动平均值[24]。这些方法的主要缺点是计算和内存效率降低，因为它们需要使用额外的模型权重进行二次推理阶段，并且这些权重必须保留在内存中。0为了解决这些问题，我们采用了一种自蒸馏方法0学生网络充当自己的教师，即 f v = ˜ f v，f t = ˜ ft。这里的想法是使用模型的当前状态来更新学生对比目标的目标。直观地说，随着学习的改进，可以相信其表示能够做出更准确的预测。这减轻了噪声配对的负面影响，因为随着训练的进行，不正确的配对越来越可能与从其他数据中学到的共识不一致。通过改进不一致的对齐，模型可以发展出更一致的表示，进一步提高其评估噪声图像-文本对一致性的能力。03.4.2 从学生到教师的进展0由于我们的目标依赖于相应图像和文本表示之间的一定程度的对齐，我们引入了一种新的程序，逐渐增加了自我蒸馏对对比学习过程的影响。因此，我们的模型在训练过程中动态演变成自己的教师，这与标准的知识蒸馏设置不同，后者通常是静态和独立的。0自我蒸馏对对比学习过程的贡献随着训练的进行而逐渐增加。因此，我们的模型在训练过程中动态演变成自己的教师，这与标准的知识蒸馏设置不同，后者通常是静态和独立的。0将一批N个图像-文本对分成N a = b � N c“对齐”实例和Nu = N − b � N c“不对齐”实例，其中 � 2 [0 , 1]决定它们的相对比例。对齐的子集用于使用硬地面真实配对和标准的InfoNCE损失训练教师网络。然后，教师网络使用0我们采用了前面提到的交换预测策略，估计不对齐实例上的软对齐，以监督学生。我们将这种随机小批量分区称为动态分区，与静态分区相对，后者是将实例全局分为对齐和不对齐子集，并在每个训练周期刷新。0在训练过程中，我们逐渐减小 �的值，就像可以调整学习率一样。虽然有几种策略可以根据训练迭代次数逐渐减小 �，例如，分步、线性等，但我们使用余弦退火调度[ 38]，0总结我们的整体学习过程，我们首先0使用 V = ˜V 和 T = ˜T计算批量的学生-教师嵌入。接下来，我们提取前 N a行，形成对齐的教师嵌入子集 ˜ V a ， ˜ T a ，并提取最后N u 行，形成不对齐的学生嵌入 V u ， T u。总的来说，我们的最终目标函数定义为：Adam optimizer [33] with weight decay and a cosine an-nealing learning rate schedule with warmup [44]. As donein [63], the learnable temperature parameter ⌧ is initializedto 0.07 and clamped to values less than 100. Automaticmixed-precision [45] training is used to save on memoryand achieve minibatch sizes of 4096. Input images are ran-domly cropped and resized to 224 ⇥ 224 resolution dur-ing pretraining and the maximum length of the text is lim-ited to 77 tokens via random sub-sequence sampling similarto [63]. Training is conducted on as many as 8 Nvidia A-100 GPUs with the longest experiments spanning up to sev-eral days. The partitioning factor ↵ is decayed from 0.8 to0.2 over the course of training using cosine annealing. De-164340其中 I N a 2 R N a � N 是零填充的单位矩阵，而 A v ， At 是索引以匹配不对齐的学生嵌入。04. 实验0我们首先描述了我们的实验设置，旨在尽可能接近CLIP [ 63]，以进行公平比较。然后，我们展示了我们的方法在以下方面优于CLIP [ 63 ]：(a) 零样本分类，(b)微调（即线性探测），以及(c) 图像-文本检索。04.1. 预训练数据集0我们将我们的预训练方法应用于三个规模、范围和噪声不同的图像-文本数据集：0a. MS COCO Captions [ 41 ] –一个广泛使用的标准图像字幕基准数据集，包含约118K张图像，每张图像都有5个人工评估的字幕，并有一个包含5 K张图像的测试集。0b. Conceptual Captions 3 M (CC 3 M) [ 67 ] – 一个收集-0从与网络抓取的图像关联的alt-textHTML属性中收集了超过3M个图像及其原始描述，因此代表了更多样的内容风格。在下载和预处理后，我们在实验中使用了约2.9M个图像-文本对。0c. Conceptual Captions 12 M (CC 12 M) [ 9 ] – 通过放宽在CC3 M [ 67 ]中使用的多个图像和文本过滤器，CC 12M是一个不太精确但规模更大的图像-文本对集合，涵盖了更广泛的视觉概念范围。由于URL不可用，我们从该数据集中利用了约10M个示例。04.2. 预训练细节0在以下实验中，图像编码器遵循CLIP[63]中提出的ViT-B/32视觉变换器架构，而文本编码器的基于变换器的架构遵循[63]中提出的修改。图像和文本特征在参与对比损失之前被投影到共享的512-D空间并进行L2归一化。0模型从头开始训练100个时期，使用0有关不同数据集和模型的超参数值的详细信息请参见补充材料。0我们基于原始论文中描述的方法和伪代码以及开源实现（如OpenCLIP[28]）重新实现了CLIP。我们的重新实现的性能与OpenCLIP和在缩小的400M数据集上训练的未发布的CLIP模型所实现的性能一致；因此，我们为每个预训练数据集重新训练了一个基线CLIP模型，作为代理。04.3. 评估细节0a. 评估协议 -我们使用Top-1准确率来衡量零样本和线性探测分类性能。对于线性探测实验，我们使用L-BFGS优化器在提取的视觉特征上训练线性分类器，如[63]中所述。我们使用标准的检索指标：排名K的召回率（R@K，越高越好）和平均排名（MnR，越低越好）来评估我们模型的检索性能。R@K（在前K个检索点中找到正确结果的测试样本的百分比）。0b. 基准数据集 -我们在一套基准评估数据集上评估所提方法的零样本和线性探测分类性能，包括ImageNet [12]，Places365[85]，ObjectNet[3]，以及几个最近的ImageNet变体，旨在评估训练模型对自然（而不是合成）分布转变的鲁棒性[25, 26, 64]。0c. 使用模板的提示集成 -与以前的工作一致，我们发现我们的方法受益于使用提示集成来增强下游任务的原始类标签。为了公平比较，我们使用CLIP[63]中发布的相同一组提示模板，这些模板通常采用“一张{标签}的照片”的形式。04.4. 零样本图像分类0在预训练阶段之后，我们通过自然语言输入评估我们的方法在零样本图像分类上的表现，并与在相同设置下训练的CLIP对应物进行比较。0表1列出了零样本图像的top-1准确率（%）0在一套基准数据集上进行分类。在固定数量的预训练数据下，我们的方法在所有数据集上的平均top-1准确率方面明显优于其CLIP对应物，在CC3M预训练方案中取得了高达6.19％的绝对改进。值得注意的是，我们的方法在ImageNet和所有ImageNet变体上超过了CLIP。我们的方法0在评估超出分布鲁棒性的ImageNet-Renditions（ImageNet-R）[25]时，我们的方法也取得了显著的性能提升，平均COCOCLIP64.1419.5732.8812.784.988.278.03.327.418.1816.87CC3MCLIP73.9030.6054.0724.544.4928.3318.57.82721.4323.5628.73CC12MCLIP75.2941.9475.8631.2912.5051.3431.9013.2534.8937.8740.61164350预训练0数据集方法0Cifar10 [34]0Cifar100 [34]0Caltech101[18]0Places365 [85]0ObjectNet [3]0ImageNet-R[25]0ImageNet-O[26]0Imagenet-A[26]0ImageNetV2[64]0ImageNet[12]0平均0我们的方法 66.74 24.49 34.26 14.15 6.18 11.25 9.85 5.32 8.99 9.49 19.07 +2.220我们的方法 80.15 38.27 64.45 28.07 9.21 37.31 26.2 10.81 26.70 27.96 34.91 +6.190我们的方法 84.84 51.34 80.00 34.08 15.24 59.29 33.0 18.85 39.16 42.24 45.85 +5.230表1.零样本图像分类比较-我们的方法与基准CLIP在多个基于ImageNet的基准数据集上使用不同规模的预训练数据集进行零样本top-1准确率（%）比较。0图3. 预训练数据大小和相对性能0- 我们的方法的零样本分类性能与CLIP相比，当CC 12M数据集的预训练示例数量从600K增加到12M时的平均性能。我们的方法在相同数量的预训练数据下，始终学习到更适合零样本分类的表示，优于CLIP。0当考虑到Conceptual Captions数据集[9,67]时，我们的方法在性能上获得了近8.5%的提升。图1显示了我们的方法如何能够为玻璃窗上的金鱼提供更准确的预测。0为了更好地理解0在预训练数据量和我们的方法与CLIP之间的下游性能的相对差异之间，我们进行了一系列实验，将预训练限制在CC 12M数据集的5%，10%，25%，50%和100%。图3绘制了两种方法的平均零样本分类得分，并显示我们的方法在整个范围内保持较高的性能。有趣的是，我们的方法似乎在图的边界提供了最大的性能增益，这表明我们的方法可以提高在数据受限制的情况下的数据效率，同时在数据集大小增加时提供更大的性能增益。0图4.有效鲁棒性评估-与CLIP特征相比，我们的方法产生了更具鲁棒性的特征。当比较具有相似ImageNet性能的模型时，我们的方法在自然分布转移上提供了更好的性能。平均传输准确率是在ImageNet-R/O/A/V2测试集上计算的。最佳拟合趋势线表明，随着ImageNet准确率的提高，我们的方法（蓝色）的有效鲁棒性超过了CLIP（红色）。04.5. 有效鲁棒性评估0CLIP模型[63,70]在自然分布转移方面比在ImageNet上训练的标准模型更具鲁棒性。图4说明了这一现象，其中x轴表示ImageNet准确率，y轴表示ImageNet-A、ImageNet-O、ImageNet-R和ImageNetV2的平均准确率。先前的研究[46,0发现ImageNet模型的内分布和外分布准确性遵循可预测的线性趋势（绿色表示），而CLIP模型建立了改进的有效鲁棒性趋势（红色表示）。请注意，我们模型的线性拟合斜率高于CLIP模型，这表明我们的有效鲁棒性随着规模的增加而改善。164360预训练0数据集方法0Food101 [ 5 ]0OxfordPets [ 57 ]0Birdsnap [ 4 ]0ImageNet [ 12 ]0COCO CLIP 53.04 76.86 37.17 52.660我们的方法 53.60 80.59 42.85 56.210CC3M CLIP 53.33 78.11 37.75 56.280我们的方法 60.69 80.40 43.17 61.000CC12M CLIP 67.41 85.17 41.06 59.420我们的方法 71.87 86.32 47.16 65.330表2. 线性探测性能 -给出了我们的方法与基线CLIP在四个基准数据集上的线性探测性能的线性探测准确率（%）。我们的方法学到的视觉特征始终能够实现改进的微调性能，这表明我们的损失有助于改善内部模态特征对齐。04.6. 线性探测性能0我们在表2中报告了我们在4个下游数据集上的线性探测性能。我们的方法在每种情况下都优于CLIP，这表明我们学到的视觉特征（即仅考虑内部模态对齐）比CLIP更具可转移性。04.7. 图像-文本检索0鉴于所研究模型的跨模态性质，图像-文本检索包括两个子任务：图像到文本和文本到图像。我们在COCO测试集上评估我们的方法，该测试集包含5K张图像，每张图像有5个唯一的标题。0表3显示了我们的零样本检索性能相对于基线的0相对于COCO、CC3M和CC12M预训练数据集，相对于CLIP，我们的方法在文本到图像和图像到文本子任务中始终表现优于CLIP，两种方法通常在文本到图像子任务中实现略高的性能。请注意，由于数据领域的差异，直接在COCO上进行预训练会产生比在CC12M上进行预训练的模型具有更高的下游性能，尽管数据量增加了100倍。最后四行显示，如预期的那样，将在ConceptualCaptions上进行预训练的模型微调到COCO上会产生超过相应基线和仅在COCO上训练的性能的检索性能。04.8. 剔除研究0我们现在研究我们方法的各个组成部分对我们方法的贡献，具体包括用于估计前向引导策略的交换预测策略，动态小批量分区以及渐进自蒸馏对下游性能的影响。在COCO上进行预训练后，我们测量模型在COCO零样本图像-文本检索和ImageNet零样本分类上的性能。0方法性能0预0模式0动态0分区0渐进蒸馏0Top-10MS0基线 - - 8.18 27.580前向 7 7 6.23 20.400交换 7 7 8.46 23.510前向 X 7 8.37 25.640交换 X 7 8.81 26.240前向 X X 8.87 26.180交换 X X 9.51 28.480表4. 剔除研究 - 我们使用COCO进行预训练的结果。INTop-1是零样本ImageNet准确率，MSR1是图像到文本和文本到图像子任务的排名1的平均召回率。0表4显示直接使用模型的后验概率0（引导）将对齐分配给静态输入的子集会导致学到的表示降级和性能下降，与基线相比。在这里0教师网络很可能在不受惩罚的情况下加强了自身的错误，导致未对齐的示例部分表示崩溃。利用交换预测策略可以将零样本性能恢复到略高于基线的水平，这表明这是解决这个问题的有效方法；然而，检索性能仍低于基线。通过采用动态分区策略，我们的方法超过了基线性能。04.9. 定性分析0a. 相似性分数的分布：我们的方法是0主要受到先前VLP方法忽视负样本之间的潜在语义相似性的观察的启发，而考虑到这一现象可以改善学习表示。在图5中，我们绘制了来自COCO测试集的正样本和负样本的相似性分数分布。左子图显示，与其CLIP对应物和OpenAI预训练的CLIP相比，我们的方法始终为正样本分配更大的相似性分数。有趣的是，负样本相似性分数的直方图显示，我们的方法也为负样本分配了更高的相似性分数。虽然将更大的相似性分数分配给负样本可能看起来违反直觉，但我们认为这正是我们的方法捕捉到更大的正样本相似性的原因。通过允许一定程度的负样本之间的对齐，我们的方法能够减小相关正负样本之间的不一致性。这反过来使我们能够学习到一个更一致的表示空间，从而提高鲁棒性和下游性能。0b.可视化文本-图像检索：在图6中，我们展示了5个示例文本查询的前十个检索到的图像的比较列表。总体而言，这些检索结果表明"MnR #COCOCLIP27.7657.3470.7023.1027.4056.3168.6520.11CC3MCLIP12.5029.7640.9291.049.8824.8635.30106.94CC12MCLIP19.6440.6651.7255.2317.6339.6750.7755.29CC3MCLIP*31.3059.5471.8021.1529.1858.6670.2317.02CC12MCLIP*35.2262.7473.4617.7033.3661.1573.3615.76164370数据集方法文本到图像图像到文本0我们的方法 28.42 57.14 68.86 26.11 28.53 56.75 68.10 22.010我们的方法 16.98 37.12 48.28 63.80 13.19 31.54 43.00 72.920我们的方法 22.94 46.60 57.82 46.24 22.79 45.95 56.81 43.410我们的方法 * 33.26 66.70 76.92 18.77 32.20 60.14 71.96 17.050我们的方法 * 38.66 66.74 77.10 13.35 38.15 65.85 77.02 12.540表3. 图像-文本检索 - 在COCO5K测试集上以1、5、10的召回率（越高越好）和平均排名（越低越好）来衡量的零样本检索性能。最后四行（用�标记）报告了相同模型在COCO标题训练集上进一步微调的零样本检索结果。0图5. 相似性分数 -在原始CLIP损失和我们提出的损失训练后，联合跨模态空间中正样本和负样本的相似性分数分布。与我们的基线（COCO）预训练的CLIP和OpenAI预训练的CLIP模型相比，我们的方法为正样本提供了更高的平均相似性分数和更低的方差。而COCO预训练的CLIP模型将负样本的相似性分数集中在零附近，我们的方法将其集中在更高的水平，因为它允许一定程度的负样本之间的语义相似性。0我们的学习特征更全面地捕捉了文本片段和图像之间的所有潜在相似性。相比之下，基线CLIP特征更倾向于狭隘地关注某个特定的共同点，而忽视其他方面。例如，在图6的最后一行中，CLIP强烈关注“客厅”，但错过了猫。而我们的方法则成功地提取了查询的所有关键方面，包括猫、椅子和客厅。其他示例中也存在类似的趋势。05. 结论我们提出了一种新颖的跨模态对比学习框架，具有渐进式自蒸馏和软图像-文本对齐。我们的方法通过动态生成软对齐目标来自我蒸馏一小批样本的知识，从而能够从嘈杂的数据中高效学习稳健的表示。0图6.示例文本-图像检索-给定一个文本查询，我们显示由CLIP和我们的方法检索到的与文本语义相关性最高的前十个图像（从左到右排序）。与CLIP相比，我们的方法在排名中出现了真实图像之后，仍然能够检索到更全面匹配文本描述的图像。0对14个基准数据集进行了全面的评估，结果表明我们的方法在多种设置下始终优于其CLIP对应方法。此外，与现有的最先进方法相比，我们的方法在自然分布转移方面提供了更好的有效鲁棒性。未来，我们计划通过研究预训练期间的数据冗余、网络架构和优化算法来进一步提高我们方法的效率，以便在更大规模的情况下使用更少的资源。[2] Sanjeev Arora, Hrishikesh Khandeparkar, Mikhail Khodak,[3] Andrei Barbu, David Mayo, Julian Alverio, William Luo,[4] Thomas Berg, Jiongxin Liu, Seung Woo Lee, Michelle L.[5] Lukas Bossard, Matthieu Guillaumin, and Luc Van Go

下载后可阅读完整内容，剩余1页未读，立即下载