多模态表征学习中的放松对比：一种新的多模态表示学习方法

66 浏览量更新于2023-10-16 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2227图像1（I1）负空间多模态表征学习中的放松对比祖迪林酒店1* 埃尔汗巴斯酒店2* Kunwar Yashraj Singh3GurumurthySwaminathan3Rahul Bhotika4*1亚马逊Alexa Science2 Scale AI3 AWS AI Labs4 Optum Labs{linzud，sinkunwa，gurumurs}@ amazon.com摘要对具有成对原始文本的图像进行多模态表示学习可以提高所学习的语义概念的可用性和通用性，同时显着降低注释成本。在本文中，我们探索了视觉语言预训练框架中损失函数的设计空间，并提出了一种新的ReCo对象，它可以作为广泛使用的InfoNCE损失的替代品。ReCo的关键见解是通过不惩罚未配对的多峰样本（即，负对）已经正交或负相关。与广泛使用的InfoNCE不同，只要负对不是反相关的，它就一直排斥负对，ReCo通过设计包含更多的多样性和灵活性。我们使用ReCo与最先进的模型进行了广泛的实验，通过在MIMIC-CXR数据集上进行预训练，该数据集由胸部X光照片和自由文本放射学报告组成，并在CheXpert数据集上进行多模态检索和疾病分类评估。我们的ReCo实现了2的绝对改进。在CheX- pert检索数据集上，平均检索精度比InfoNCE基线高9%，并且在分类的线性评估和微调中报告了更好或相当的性能。我们进一步表明，ReCo在Flickr30K数据集上的表现优于InfoNCE1。7%的检索Recall@1，证明了我们的方法，自然图像的通用性。1. 介绍胸部X线摄影作为临床上最常用的影像学检查手段，被广泛应用于肺、心脏异常的筛查和诊断。然而，从放射科医生那里收集结构化的专家注释是昂贵且耗时的[19]。使用MIMIC-CXR [21]等数据集（由胸片和相应的自由文本放射学报告组成），学习可概括的多模态表示*工作是在加入AWS AI Labs时完成的y y−img1(a) InfoNCE（b）ReCo（Ours）图1.不同对比学习损失的图解。我们展示了（a）InfoNCE和（b）我们在2D嵌入空间中提出的松弛对比（ReCo）损失给定图像嵌入（I1），InfoNCE强制未配对的文本嵌入与I 1反相关，而ReCo通过不惩罚已经与I 1正相关或负相关的文本嵌入来放松对比度。没有结构化标签的站点成为一个有利的和有前途的方向[35，2]。与最近的自监督视觉表示学习方法[3，15，24，1，12，4，34]相比，该方法仅从未标记的图像中学习表示，多模态框架的优势在于能够通过文本中语义上更密集的信息利用更广泛的监督源。视觉语言预训练有不同的形式，包括图像字幕[8，30]和学习借口任务，如重建掩蔽标记和图像区域[23，31，5]。最近的工作遵循对比学习方法，该方法将图像和文本映射到共享的嵌入空间中，在该空间中，成对的图像和文本嵌入被吸引，而未成对的则在某种相似性度量下被排斥[35，28，20]。与具有交叉注意模块的视觉语言模型相比，对比学习框架相对简单[23，31，5]，并且可以扩展到数百万[28]或数十亿[20]（图像，文本）对。然而，尽管大数据、大模型和大计算实现了令人印象深刻的性能，但大多数多模态对比学习框架默认优化InfoNCE [25]目标，text3图像1（I1）text22228−−−很少询问损失函数对学习的多模态嵌入空间的影响具体地，给定一批N个（图像，文本）对，图像（称为查询）仅具有被视为“正”示例的一个配对文本，而所有其他N个配对文本被视为“正”示例。1文本被视为InfoNCE损失通过应用多类交叉熵损失1来最大化查询与其正对之间的一致性，并最小化与负对的一致性。由于大多数自监督学习框架（视觉和多模态）使用余弦相似性作为一致性的度量[3，15，35，28]，InfoNCE在几何上强制阳性与查询对齐，而阴性与查询反相关（图2）。1a）。然而，存在本质上不对称的分布：一个查询只具有一个正对，但在批中具有N1个负对。从图像的角度来看，有N1个不成对的句子描述不同的语义信息，但都排斥到查询的相反方向，这可能会限制学习表示的多样性和灵活性。为了解决这一挑战，我们提出了一种ReCo损失，它遵循对比学习方案，但增强了嵌入空间中负对的对比度新的损失对齐积极的对直接最大化余弦相似性。更重要的是，与InfoNCE中强制未配对样本与查询反相关不同，ReCo不会对已经与查询正交或负相关的负样本进行归一化（图2）。（见第1b段）。ReCo包含更多的嵌入的多样性和灵活性，这对于具有语义复杂的文本描述的医学数据集是重要的从概念上讲，正负空间的不对称设计与批次中配对和非配对样本的不平衡分布一致。我们使用一个标量来权衡正负损耗项，并删除温度参数，以缩放InfoNCE中的相似性。从经验上讲，我们观察到，ReCo导致更多的右尾相似性分布，提高了正负对之间的可重复性。我们进行了广泛的实验，以证明有效性的ReCo上的胸部X光片的识别任务当在MIMIC-CXR [21]数据库上进行训练并在CheXpert检索[35]数据集上进行评估时，ReCo 将平均检索精度显著提高了 2 。 9% ，高于InfoNCE基线，具有相同的架构和培训方案。使用ReCo优化的视觉编码器在疾病分类的线性评估和微调方面也实现了更好或相当的性能[19]。此外，通过对使用4亿（图像，文本）对预训练的强CLIP [28]模型进行微调，我们的ReCo损失仍然可以改善Recall@1指标1InfoNCE对称地应用于将图像与文本对齐。不失一般性，我们在这里只讨论文本到图像的部分。了1. Flickr30K上的7%[27]，具有相同的架构，通过InfoNCE损失进行微调，证明其可推广到胸部X光片以外的其他领域。2. 相关工作无监督表示学习。无监督视觉表示学习的最新进展集中在学习变换不变的图像表示[3，15，24，1，12，4，34]。优化完成通过吸引相同样本的两个增强，并在经由Siamese 编码器[6 ， 3]投影它们之后使用InfoNCE损失[25改进包括使用动量编码器[15]和聚类[24，1]。经验和理论结果表明，InfoNCE损失渐近优化了对齐和均匀性度量[33]。最近的结果还表明，可以删除对比负对[12，4]，或者可以将损失更改为冗余减少度量[34]。然后，从业者可以在预训练的骨干上优化线性分类器进行分类，或将其用于其他迁移学习任务。在语言领域，预训练包括学习借口任务，如掩蔽知识和下一句预测[9]，以及生成预训练[29]。对比学习的思想也适用于句子嵌入[11]。在这项工作中，我们专注于视觉和语言表示的联合学习，主要应用于医疗数据。与单峰预训练不同，多峰框架不使用连体架构，因为输入来自两种不同的模态。此外，与在下游任务中移除投影层的单峰架构相比，多模架构中的投影头通常被保留用于文本到图像检索等应用[35，28，20]。视觉语言预训练。多模态域中的联合表征学习以不同的形式出现。第一行工作优化了图像字幕任务的视觉编码器和语言解码器，并将学习到的视觉表示传输到下游应用程序[8，30]。第二行文献共同学习多模态借口任务，如重建掩蔽的图像区域和语言标记，以及直接预测图像和文本之间的对齐[23，31，5]。然而，这些方法中出现的跨模态注意模块使得它们在实际检索系统中效率较低第三流更接近视觉表示学习中的对比方法，使用双编码器架构将图像和文本数据直接映射到共享嵌入空间中，其中配对样本之间的一致性最大化，而未配对样本之间的一致性最小化[35，28，20]。独立的编码器提高了下游的灵活性2229C×U̸V̸̸C V U−我−C−LN CENj=1（n，C，（，））n×编号n×nn-C 类交叉熵1 − π10- 12-13- 2016刘晓波（&...（n，+）n×编号余弦相似度图片->文字文本->图像对角线（正片）非对角线（负片）(a) 多模式学习架构（b）InfoNCE（c）ReCo（Ours）图2.多模式学习框架和损失。（a）图像和文本编码器（EI和ET）将多模态输入映射到共享嵌入空间中并计算余弦相似性矩阵。（b）InfoNCE [25]拆分行和列，并为每个向量应用N类交叉熵损失。（c）我们的ReCo分裂对角和非对角元素，并应用L2损失，使成对的接近和非成对的正交或负相关。黄色框（□）表示正对之间的相似性。识别任务。然而，最近的工作集中在数据规模和模型架构，但很少关注的能量函数，形状的嵌入空间。我们的对比是一种新的损失，ReCo，它放松了预训练中负对之间的排斥力，这改善了最先进的多模态对比学习框架[28，35，20]主要使用InfoNCE [25]损失（NCE代表噪声对比估计[13]），其也广泛用于单峰对比学习框架[3，15]。使用余弦相似度矩阵，用于图像到文本对齐的InfoNCE为：N[35]如《易经》中的“变”，“变”就是“变”，“变”就是“变”。结构和训练数据。L−1logexp（Cii/τ）i=1（二）3. 对比的放松问题设置。目标是使用成对的图像和文本来学习有意义的表示。如图如图2a所示，图像和文本编码器E1和E1 '将来自不同模态的一批输入投影到共享嵌入空间中。两种编码器都由一个骨干模型和一个投影头组成。在最近的作品中，文本主干通常是一个Transformer [32]，图像主干可以是CNN或Transformer[35，28，20]。投影头可以是具有非线性的MLP [3，35]，或者仅仅是线性层[28]。我们在实验中的两种类型的投影头上显示的结果。设批量为N，嵌入维数为D，EI生成一个D N的图像嵌入矩阵=[u1，u2，. . . 其中u i是D维向量，而文本编码器ET生成文本嵌入矩阵=[v1，v2，. . . ，v N]。为了清楚起见，我们称（u i，v i）为正对，（u i，vj），i= j为负对。然后，通常使用余弦相似度来度量一致性在嵌入空间中的图像和文本具体地，N×N余弦相似性矩阵C被定义为：其中τ>0是缩放余弦相似度值的温度参数，它可以是超参数[35]或模型的可学习部分[28]。直觉上，这种损失可以被认为是N路分类器损失，其最大化u i与其真实对v i之间的余弦相似性，并且最小化v j，ji的余弦相似性（图2）。第2b段）。对称地，也适用于=用于将文本嵌入与对应的图像嵌入进行匹配。这两个损失条款是作为待优化的最终能量函数添加。我们在图中展示了对信息的直观几何解释1a.对于查询u i，使正对（u i，v i）对齐，同时使负对（u i，v j），i = j反相关，使该查询的损失最小化（等式1）。 2），其将v j，i = j推向ui的相反方向。然而，在视觉-语言对比学习框架中存在着一种内在的不对称性：对于一批N个对中的一个查询，只有一个正对，而有N1个负对。即使对于64个相对较小的批量，阳性对的比例也小于2%。然而，InfoNCE一直将否定词排斥到查询的相反方向虽然在实践中InfoNCE不会将余弦相似性推到全局最大值和最小值，Cij= ui，vj∥ui ∥∥vj ∥乌扎夫河∥ui∥∥vj∥（一）使配对严格对齐和反对齐（使用温度τ1实际上使分布更加集中[17]），我们相信对比度可以放松ij的范围是[1，1]，其中1意味着两个向量对齐，而1意味着反向对齐，无论大小如何。由于u i和v i通常是标准化的，所以相似性矩阵可以用C = U<$V来计算。InfoNCE损失。最近的多模式预训练方法以提高学习嵌入的灵活性雷科损失。为了减轻InfoNCE中的对比性，我们提出了一种新的放松对比性（ReCo）损失（表示为RC），它放松了任何给定查询的负空间（图1）。（见第1b段）。具体来说，ReCo认为对角线和偏离-EIXx0的ETYY0图像…文本Nexp（Cij/τ）2230C≤C U VUV我LL2L L LLCC≤CΣΣ算法1ReCo的PyTorch风格的伪代码# f，g：图像和文本编码器网络# N，D：批量大小和嵌入维数## diagonal：矩阵的对角元素# off_diagonal：矩阵λ的非对角元素：负对权for（x0，y0）in loader：#加载一个带有N对的批处理#计算两个模态的嵌入x = f（x0）# NxD图像嵌入y = g（y0）# NxD文本嵌入# l2沿特征维度进行归一化x_norm = x / x.norm（1，keepdim=True）# NxDy_norm = y / y.norm（1，keepdim=True）#NxD#余弦相似矩阵c = x_norm @y_norm.T#NxN#混合对比损失l_pos = diagonal（c）.add_（-1）.pow_（2）.sum（）l_neg = max（off_diagonal（c），0）.pow_（2）.sum（）loss = l_pos + lambda* l_neg# optimizationsteploss.backward（）optimizer.step（）对角部分的余弦相似性矩阵分别（图。2c），对应于一批中正负对的相似度：该方法将所有嵌入彼此推开，使它们在具有足够样本的（D-1）维单位超球面上大致均匀分布。这种解释与经验观察一致，即更多的负对会导致更好的视觉表征学习结果[15，3]。然而，Con- VIRT [35]和我们的研究都表明，增加否定对并不能改善学习的视觉语言表征，这表明了多模态领域的独特挑战。ReCo（Eqn.3）仍然将不成对的嵌入推开，但是建立阈值，使得当负对已经足够远（余弦相似度0）时，其消除对比性并且在损失计算中不再考虑它。我们还讨论了ReCo与Barlow Twins（BT）的差异[34]。虽然公式看起来相似，但关键的区别在于BT对特征维度的去相关进行操作，而ReCo（和InfoNCE）对嵌入的对齐进行操作。具体地，给定两个D×N嵌入矩阵U和V，应用InfoNCE和ReCo将BT应用于嵌入相似性矩阵N×N=N，而将BT应用于互相关矩阵：CD′×D=UV（5）LRC（1−Cii）2“ive”项x+λmax（0，Cij）2我J Inegativetermx（三）其中，和沿着批次维度而不是特征维度被归一化，如等式1所示。1.一、 ReCo和BT具有这种本质上的不同，因为在视觉表征学习中，研究人员通常放弃嵌入空间，只为下游任务保留骨干。其中λ是平衡正项和负项的重要性的正常数我们提出的ReCo的关键是最大算子，这意味着能量函数不会惩罚已经正交或负相关的负对我们也可以把雷科解释为它自适应地将注意力放在所有的正对上，而只关注具有挑战性的负对。ReCo中不再需要InfoNCE中用于缩放相似性分数的温度参数（τ）。使用流行的深度学习框架，如PyTorch [26]，ReCo可以用几行代码实现1）并容易纳入标准的多模态对比训练框架。与其他损失的联系和比较。在单峰表示学习中，Wang和Isola [33]表明，InfoNCE（随着批量大小的增加）渐近优化=align+uniform，其中align是正对之间的距离，uniform是特征分布的均匀性。对齐项（align）类似于ReCo中的正项，因为最大化余弦相似性等同于最小化0.22归一化向量的均方误差，直到尺度为2。均匀性项定义为：L一致对数E[e−t<$u−v<$2]，t>0（4）而在视觉语言框架中，我们为文本图像检索等跨模态应用保留嵌入空间此外，当考虑使BT适应于用于多峰对齐的余弦相似性矩阵时，我们看到在我们的ReCo中max（0，ij）2的最小化是使负对正交或负相关（ij0），而不是如BT（ij=0）中那样严格正交。在实验中，我们将证明使用max不是随机选择，而是在不同数据集上鲁棒地提高多模态表示学习性能所必需的。ReCo的公式也类似于最大边缘对比损失[14]，考虑到202距离和余弦相似性之间的我们的建议是在多模态集中调整这样一个目标没有siamese编码器[6]，并显着改善广泛使用的InfoNCE。与VSE++[10]相比，ReCo显式比较了批次中的阳性与最难阴性，减少了容易阴性的梯度贡献，这隐含地强调了硬阴性。总之，由于多模态嵌入驻留在单位超球体上，ReCo将给定查询的负空间放宽到超半球以包含更多的灵活性和多样性。我们还使用楔形积测试了广义余弦相似性，以获得额外的灵活性，2231×K--∈图3.来自测试的多模态数据集的示例。（a）我们的主要重点是对MIMIC-CXR [21]数据库进行表征学习，该数据库按研究组织，其中每个研究由一个或多个胸部X射线图像和自由文本形式的放射学报告组成。（b）为了展示我们方法的普遍性，我们还使用Flickr30K [27]进行了实验，其中每个图像都与五个语义相似的标题相关联。在补充材料中讨论。4. 实验在胸部X光照片和放射学报告的MIMIC-CXR数据集上进行预训练后（图3a），我们证明了ReCo在检索中的有效性（Sec. 4.1），并进行消融研究，以了解超参数的影响4.2）。我们还通过线性评估和微调测试了疾病分类4.3）。我们进一步将ReCo应用于Flickr30K（图1）。（3）证明其普遍性。（第二节）4.4）。4.1. 文本和图像检索数据集和评估指标。我们使用MIMIC-CXR [21]数据库进行训练，该数据库是胸部X光片图像与其文本报告配对的集合。该数据集包含总共约217 k个图像-文本对（按研究组织），每对平均包含1.7个图像和6.0个我们在图中示出一个示例。3a.我们从每个研究中随机抽取一个图像和一个句子，以在训练过程中构建一个正对我们没有直接拆分MIMIC-CXR数据库进行评估，而是遵循ConVIRT [35]使用CheX-pert 8 200检索数据集[35]，通过报告验证性能进行性能比较。为简单起见，我们在下文中将其表示为CheXpert检索数据集该数据集中的每个图像或句子与委员会认证的放射学家提供的8个类别标签中的1个相CheXpert检索数据集有40个查询语句（每个类别5个）和80个查询图像（每个类别10个因此，我们可以评估性能的文本-图像和图像-图像检索。对于检索性能，我们使用Prec@k，其中k五十五十对于一个给定的查询（可以是一个句子或图像），我们排名的相似性得分的查询与所有可以didate图像。然后，对于具有最高分数的k个候选者，精度是n，其中n是地面实况匹配的数量。我们对所有查询求平均值以获得Prec@k分数。我们还使用图像-图像和文本-图像得分的平均值来衡量整体性能。实作详细数据。我们遵循ConVIRT [35]实现。视觉编码器是在ImageNet [7]上预训练的ResNet-50 [16]模型我们沿着通道维度重复灰度射线照片图像，以使它们与视觉编码器兼容语言编码器是一个预训练的ClinicalBERT [18]，具有12个Transformer层。令牌嵌入层和前6个变换器层在训练期间被冻结。每个编码器都与投影头配对，这是一个双层MLP，隐藏层具有ReLU非线性。嵌入尺寸为512。这两个编码器使用Adam [22]优化器联合训练，初始学习率为10 − 4，权重衰减为10− 6，以及余弦学习率sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-sched-在计算余弦相似度时，我们添加了一个小分母= 10−7，我们使用64的批量大小。我们设置负权重λ=0。6（Eqn. （3）Reco。训练在一个NVIDIAV100 GPU（16GB）上完成，两天内完成30万次迭代。在消融研究中，超参数选择是合理的。结果我们在表1中给出了定量比较。随机初始化的平均精度为12。5%，8个类别。ConVIRT [35]用In-foNCE优化（方程2）并且目前在此数据集上具有最先进的性能。由于 ConVIRT 的代码没有公开发布，我们在ConVIRT作者的帮助下复制了它们的设置，并在我们的实验中将其命名为InfoNCE结果表明，直接对齐多模态嵌入的对比方法显著优于其他学习方案（详情请参考ConVIRT [35]）。然后，我们表明，通过将InfoNCE能量函数更改为我们的ReCo，而不对模型架构和训练原型进行任何修改，图像-图像和文本-图像检索分数都得到了大幅提高。具体来说，在InfoNCE基线上，平均精度为48。6%，2232∈联系我们∈联系我们表1.检索性能比较。我们展示了InfoNCE和ReCo模型的单峰和多峰检索结果，平均超过四个运行不同的随机种子。使用相同的架构和训练协议，我们的ReCo在CheXpert 8×200检索数据集上将InfoNCE的平均检索精度提高了2.9%[35]（模型在MIMIC-CXR上训练[21]）。图像-图像检索（↑）文本-图像检索（↑）平均值（↑）图4. Chexpert检索数据集上学习嵌入的相似性分布。我们同时显示（a）文本图像和(b) 使用InfoNCE和我们的ReCo损失训练的模型的图像-图像cosever相似性直方图。ReCo将性能提高到51。5%，绝对提高2.9%。为了理解学习的嵌入空间中的差异，我们在图中显示了两种损失的余弦相似性分布。4.第一章定性地，对于文本图像相似性，这是直接优化的损失，ReCo推动更多的对正交和负的子空间，并有一个更右尾分布比InfoNCE（图。（见第4a段）。这种分布与我们的动机是一致的，即损失应该解释正负对的不平衡。我们还注意到，虽然损失没有直接应用于图像-图像对齐任务，但ReCo也产生了比InfoNCE更右尾的图像-图像相似性分布（图11）。第4b段）。4.2. 消融研究批量大小。不同于视觉对比学习框架，其中较大的批量大小通常会导致更好的性能 [15 ， 3] （例如，B=65536，He等人[15]），ConVIRT在MIMIC-CXR上测试了B16、32、128，结果表明，增加批量会降低多模态检索性能[35]。我们对B进行了类似的研究三十二、六十四、九十六使用InfoNCE损失并显示，B=64达到了48.6%的最佳平均检索精度（图 5a ）。因此，我们将 B=64 设置为InfoNCE和我们的ReCo的以下实验的默认值，因为它表示强InfoNCE基线。嵌入维度。我们研究了嵌入维度对InfoNCE模型的影响。请注意，视觉编码器是ResNet-50 [16]，在全局平均池化后具有 2048 个维度，而语言编码器是ClinicalBERT [18]，其每个输出令牌的维度为768。我们表明，对于宽范围的D[512，1536]，性能是相当稳定的小差距为0。最好和最差模型的平均检索精度相差3%。我们还注意到，当D相对较小（256）或较大（1792和2048）时，性能会出现明显下降。我们认为，这些可能是欠拟合和过拟合的问题，分别。在ConVIRT [35]之后，我们将以下实验的嵌入维数固定为512。非对角权重λ。我们建议的ReCo损失（Eqn. 3）移除InfoNCE损失中的温度参数，并使用标量权重λ来权衡对角（正）项和非对角（负）项的贡献。在这项研究中，我们只对λ的影响进行基准测试，并保持其他超参数与上述基线 InfoNCE 配置相同（ B=64 和D=512）。我们测试了λ [0]的广泛范围。1，0。[8]0。1个间隔。除了达到平均检索精度51. 当λ = 0时为5%。6，我们的ReCo损失在我们测试的所有非对角权重下都显著优于InfoNCE基线方法预处理@5前@10Pre@50预处理@5前@10Pre@50随机12.512.512.512.512.512.512.5ImageNet14.814.415.0––––Zhang et al. [35]第三十五届标题-变压器29.828.023.0––––标题-LSTM34.832.928.1––––对比二进制38.836.629.715.514.513.724.8ConVIRT45.042.935.760.057.548.848.3我们的实验（含标准误差）InfoNCE43.3 ±0. 540.2 ±0. 735.0 ±0。263.7 ±1。459.2 ±1。250.1 ±0。948.6 ±0.6ReCo（我们的）45.6± 0. 7+2.344.1± 0。9+3.935.7± 0. 6+0.767.4± 1。9+3.762.8± 1。0+3.653.1± 0。5+3.051.5± 0。6+2.92233联系我们图5.模型超参数的烧蚀研究我们表明，基线InfoNCE模型（a）使用64的训练批量大小和512的嵌入维度表现最佳，（b）嵌入维度从512到1536具有稳定的性能。因此，我们在其他实验中固定这两个超参数（B=64和D=512）（c）用我们提出的ReCo损失训练的模型对于大范围的非对角权重λ ∈ [0. 1，0。[8]。(Fig.第5c段）。当λ = 0时，ReCo的最小平均精密度为50.0%。1，仍然是1。比InfoNCE基线高48.6%。观察结果证明了拟议ReCo损失的稳健性。4.3. 线性评估和微调Setup. 根据先前在自监督视觉[3，15]和多模态[35]表示学习中的工作，我们使用线性评估协议和完全微调来评估学习的视觉编码器。具体来说，我们保留了视觉编码器的主干（删除投影MLP），并添加了一个用于分类的全连接层。在线性求值中，只有完全连接的层是可学习的，而其余的层是冻结的（批量归一化层处于推理模式，以使用先前运行的统计数据）。整个模型在微调中是可学习在ConVIRT [35]之后，我们在CheXpert [19]上进行实验，这是一个多标签分类任务，因为一个图像可以属于多个类别（即，从放射图像中观察到多于一种疾病）。我们使用在类上平均的二进制交叉熵损失进行训练。从表1中使用不同随机种子训练的模型中，我们选择检索精度最接近本实验平均检索分数的模型。随机图像增强应用于两种情况。我们将学习率设置为0。01用于线性评估，10−4用于无调整的微调。结果我们在表2中有几个观察结果。首先，对放射学数据（ InfoNCE 和 ReCo ）的对比学习显著优于在ImageNet上预训练的模型[7]。这是预期的，并且表明当存在大的域间隙时，需要域内预训练以获得令人满意的下游性能。其次， ReCo 在线性评估中优于InfoNCE基线，并且在微调中具有可比的结果，表明其不仅在学习更好的联合嵌入方面而且在学习有意义的单峰表示方面的有效性第三，对于用ReCo训练的编码器，线性协议实现了表2.线性评估和微调结果。我们显示了CheXpert [19]数据集上多标签分类的AUC分数，其中包含来自多模态学习的预训练图像编码器在线性求值中，仅优化全连接层。线性评估微调方法1% 10%全部1%10%全部Zhang et al. [35]第三十五届随机初始化58.2 63.766.270.481.185.8ImageNet Init.75.779.781.080.184.887.6ConVIRT85.986.887.387.088.188.1我们的实验ImageNet Init.69.9074.1377.4374.9082.9887.37InfoNCE86.6588.2588.3887.3888.3088.55ReCo（我们的）86.9088.2888.5787.0788.3388.58平均AUC为88。57%，几乎达到了88. 百分之五十八考虑到优化线性分类器比完全微调快几个数量级，我们建议从业者在预算有限的情况下在现实世界的应用程序中使用这种配置。4.4. Flickr30K实验Setup. 为了证明所提出的ReCo损失的泛化，我们还在Flickr30K [ 27 ]数据集上进行了实验，该数据集包含约32，000张自然场景图像，每张图像都配有5个描述图像的标题。我们取1,000张图片（5,000个标题）作为验证集，其余的用于训练。评估度量是Recall@k，k1，5，10，其对应于来自验证集的前k个检索中是否包括至少一个基础事实我们报告在这个实验中的图像和文本检索结果。对于该模型，我们使用了一个名为“RN 50”的预训练CLIP [28]架构，这是一个混合架构，使用定制的ResNet-50作为图像编码器，使用12-2234LL表3. Flickr30K上的多模态检索性能。CLIP-ZS表示预训练CLIP模型的零射击结果[28]。即使在CLIP预训练模型上进行微调，我们提出的ReCo损失也始终优于In-foNCE。图像检索文本检索方法R@1R@5R@10R@1R@5R@10[第28话]55.080.586.976.093.497.0InfoNCE70.391.395.387.497.798.9ReCo（我们的）71.991.995.789.298.499.1相似性分布的性质，并将其更多地推向负范围，而不是在实现正交性时停止，显示出不同数据集的独特特征。与InfoNCE和CLIP-ZS相比，ReCo相似性分布仍然相对右尾，但不如CheXpert检索数据集明显。接下来，我们讨论另一个展示数据集差异的实验。非线性约束。受Barlow Twins [34]的启发，我们还测试了通过删除建议的ReCo目标（Eqn. 3）：LOC（1−Cii）2+λCij2（6）图6. Flickr30K上学习嵌入的相似性分布。我们展示了预训练CLIP[28]的图像-文本余弦相似度直方图以及使用InfoNCE和我们在Flickr30K验证集上的ReCo层Transformer，每个块有8个头作为文本编码器。这种多模式架构类似于我们对MIMIC-CXR数据集进行的测试（第二节）。4.1）。然而，一个主要的区别是MIMIC实验的投影头是具有ReLU非线性的两层MLP，而CLIP架构的投影头是线性层该模型在一个拥有4亿（图像，文本）对的巨大数据集上进行了预训练。我们在Flickr30K训练集上进行微调，小批量大小为64，初始学习率为10−6，权重衰减为10−2，总共迭代了80K次。结果表3显示了Flickr 30 K验证集上的图像-文本和文本-图像检索分数从强基线CLIP-ZS（ZS代表零射击）开始用于文本检索。使用完全相同的训练协议，将InfoNCE更改为ReCo进一步将R@1分数提高到71.9和89.2，分别实现图像和文本检索的1.6%和1.8%结果表明，ReCo可以鲁棒地提高不同类型数据集的多模态表示学习性能（图1）。3）模型结构。为了理解ReCo如何改变嵌入空间的结构，我们在图中可视化了具有不同模型的图像和字幕之间的余弦相似性分布。六、与放射学图像中的观察不同（图）。4a），ReCo显著增加了平滑-其中λ>0是负项的权重我们遵循MIMIC-CXR [21]数据集的训练和评估协议，并表明OC实现了51的平均检索精度。3%，略低于ReCo，但仍优于CheXpert检索数据集上的 InfoNCE 基线然而，当将 OC 应用于Flickr30K [27]时，模型很快就会过拟合，导致召回分数甚至低于预训练CLIP的零射击结果[28]。多模态相似性分布表明，ReCo推动更多的对是正交的（图1）。4a）在CheX-pert检索数据集上因此，删除max函数对结果的影响很小。然而，Flickr30K中的大多数多模态对在应用ReCo后远离正交性（图11）。（六）。因此，正交性约束破坏了嵌入空间，导致性能下降。这些观察结果进一步证明了最大运算符在将ReCo推广到其他数据集时的重要性。5. 结论和未来工作在这项工作中，我们通过引入一种新的损失函数ReCo来改善多模态学习中的InfoNCE损失，该损失函数增强了负对的对比性，并在不同数据集上使用不同的架构与视觉表征学习框架相比[3，15，24，1，12，4，34]，视觉语言模型无疑可以通过语义更密集的自然语言监督获得性能增益[35，28，20]。然而，局限性在于多模态系统通常需要不同模态的样本配对我们工作的一个自然延伸是将ReCo应用于图像和文本之外的其他模式，包括但不限于视频，音频和基因组学。此外，最近的研究表明，对比否定对对于学习视觉中有意义的表征是不必要的[12，4]。我们希望，探索类似的设计多模式设置也将导致有趣的发现。我我 j=i2235引用[1] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习。在NeurIPS，2020年。[2] Geeticka Chauhan，Ruizhi Liao，William Wells，JacobAndreas，Xin Wang，Seth Berkowitz，Steven Horng，Peter Szolovits，and Polina Golland.胸片和放射学报告联合建模用于肺水肿评估。在医学图像计算和计算机辅助干预上，第529539. Springer，2020年。[3] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。arXiv预印本arXiv：2002.05709，2020。[4] Xinlei Chen，Kaiming He.探索简单的连体表示学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第15750-15758页[5] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， andJingjing Liu.Uniter：通用图像-文本表示学习。欧洲计算机视觉会议，第104-120页。Springer，2020年。[6] Sumit Chopra Raia Hadsell和Yann LeCun。学习相似性度量有区别地，与应用到人脸验证。在2005年IEEE计算机协会计算机视觉和模式识别会议（CVPRIEEE，2005年。[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[8] Karan Desai和Justin Johnson Virtex：从文本注释中学习视觉表示。在IEEE/CVF计算机视觉和模式识别会议论文集，第11162-11173页[9] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。[10] Fartash Faghri，David J Fleet，Jamie Ryan Kiros和SanjaFidler。Vse++：用硬否定词改进视觉语义嵌入。arXiv预

下载后可阅读完整内容，剩余1页未读，立即下载