深度度量学习损失在图像-文本检索中的应用

42 浏览量更新于2023-10-16 收藏 720KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2164深入度量学习损失的图像-文本检索洪璇，奚（Stephen）陈微软{洪。轩|Chen.Stephen}@ microsoft.com摘要视觉语义嵌入（VSE）是一种流行的图像-文本检索方法，它通过学习图像和语言模态之间的联合嵌入空间来保持语义相似性具有硬负挖掘的三重态损失已经成为大多数VSE方法的事实上的目标受图像领域深度度量学习（DML）的最新进展的启发，提出了优于三重损失的新损失函数，本文重新审视了在图像-文本匹配中为VSE找到更好目标的问题。尽管有一些尝试在设计，ING损失的基础上梯度运动，大多数DML损失的经验定义在嵌入空间。而不是直接应用这些损失函数，这可能会导致次优的梯度更新模型参数，在本文中，我们提出了一种新的基于一致性的客观分析框架，或目标，系统地分析组合和重新加权的梯度在现有的DML功能。在这个分析框架的帮助下，我们进一步提出了一个新的目标族在梯度空间探索不同的梯度组合。在梯度不可积分到有效损失函数的情况下，我们实现我们提出的目标，使得它们将直接在梯度空间中操作，而不是在嵌入空间中的全面的实验表明，我们的新目标在不同的视觉/文本特征和模型框架上始终提高了性能。我们还展示了GOAL框架的通用性，通过将其扩展到其他模型，包括具有大量跨模态交互的视觉-语言模型，并在COCO和Flick 30 K上的图像-文本检索任务上取得了最先进的结果。1. 介绍用语言识别和描述视觉世界是人类的一项基本能力，但仍然需要人工智能。随着深度神经网络的最新进展，在以下方面取得了巨大进展：图1. 为了实现期望的视觉语义嵌入空间，一种常见的方法是设计一个损失函数，该损失函数可以在 PyTorch 或TensorFlow等深度学习平台上计算。这些平台上的自动梯度机制自动计算梯度以更新模型参数，从而形成期望的嵌入空间。在实际应用中，视觉语义嵌入的目标是优化从图像和文本中提取的特征点的聚类或分离，损失函数是实现这一目标的一种间接方法，而梯度则更直接地我们提出了一种直接设计梯度来训练模型的方法。连接视觉语言模式。视觉语义嵌入（VSE）[8，15，7]是在图像和自然语言之间建立联系它的目的是将图像及其描述性文本信息映射到一个联合空间中，使得相关的图像和文本对应该被映射到彼此靠近的位置，而不相关的图像和文本对应该被映射到彼此远离的位置在本文中，我们专注于图像-文本匹配和检索任务的视觉-语义嵌入，但我们的方法可推广到使用三重损失家族的其他图像-文本检索模型[17，4，20，40]。VSE模型通常由图像和文本的特征提取器，特征聚合器[2]和训练期间的目标函数组成。尽管VSE在特征提取器[31，6，1]和特征聚合器[32，2]方面取得了重大进展，但对训练模型的损失函数关注较少。基于铰链的三重排序损失与硬负采样[26，7]已成为事实上的2165许多VSE方法的培训目标[17，20，41]。从那时起，在设计用于学习联合图像-文本嵌入的损失函数方面几乎没有创新另一方面，设计深度度量学习（DML）损失已经被充分研究用于图像到图像检索。已经提出了许多损失函数来提高图像嵌入任务的训练性能，这表明三重损失对于一般度量学习不是最佳的[37，28，33，36，29]。早期的损失，如三重损失和对比损失[26，27]，是根据直觉定义的，即在嵌入空间中，正对应该接近，而负对应该分开。然而，这样定义的损失函数可能不会导致期望的gra-1，这可能显式地影响模型参数的更新。已经在定义损失函数以实现期望的梯度更新方面进行了一些尝试[37，29]。然而，这样的方法缺乏系统的观点和梯度组合的分析，并且仅限于可积梯度，使得所产生的损失是不同的。因此，这些损失函数可能不是最佳的，并适用于图像-文本检索任务。在本文中，我们提出了一种新的基于梯度的VSE问题的分析框架，即GOAL，而我们首先提出了一个新的梯度框架，在梯度水平上解剖的损失，并提取其关键的梯度元素。然后，我们探索了一种新的训练思想，直接定义梯度来在每个训练步骤中更新模型，而不是定义损失函数，如图1所示。这种新的框架允许我们简单地将DML损失中的关键梯度元素组合起来，形成一个新的梯度族，并避免了将梯度集成到损失函数中的问题。最后，新的gra-继续提高现有的VSE性能的图像-文本检索任务。简而言之，我们的贡献可以总结如下：• 我们提出了一个通用框架GOAL来全面分析现有深度度量学习损失函数的梯度更新，并应用该框架来帮助找到VSE问题的更好目标。• 提出了一种新的直接处理图文检索任务的方法，即用一组梯度目标代替损失函数来优化模型。• 我们表现出了对现有方法的持续改进，在COCO数据集上的图像-文本检索任务中取得了最先进的结果。2. 相关工作用于图像-文本匹配的视觉语义嵌入有大量文献关注于将视觉和文本模态映射到用于图像-文本匹配的联合语义嵌入空间[8，15，7，17，35，2]。VSE++在[7]中被提出作为一种基本的VSE模式，其中视觉和文本嵌入分别进行预训练，然后在投影到共享空间后使用AvgPool进行聚合，然后通过三元组损失与硬否定挖掘进行联合优化。从那时起，已经取得了不断的进步，以改善视觉和文本特征提取器[11，6，12，31，5]和特征聚合。tors [14，19，32，35]. 与主要使用特征图的空间网格作为视觉特征相比，自下而上的注意力[1]已经被引入来学习用于图像-文本匹配的视觉语义嵌入，这通常通过堆叠来自预训练的对象检测器的区域表示来实现[17 ， 41] 。 [2] 提出了广义池化算子（ GeneralizedPooling Operators，简称GML）来学习最佳池化策略，该策略优于使用复杂特征聚合器的方法。受语言模型中大规模预训练成功的启发[5，21]，最近有一种趋势，即对用于通用表示的大量图像-文本对执行任务无关的视觉语言预训练（VLP），然后对特定于任务的数据和损失进行微调，以在包括图像-文本检索在内的下游任务中实现最先进的结果[23，30，4，20，40].然而，与我们提出的方法相反，流行的方法选择优化三重损失作为图像-文本匹配任务的事实目标。在本文中，我们将努力重新审视为视觉语义嵌入找到更好的训练目标的问题。深度度量学习在极端分类设置中非常有用，例如细粒度识别[28，22，34，16，26]。目标是训练网络将语义相关的图像映射到嵌入空间中的附近位置，将不相关的图像映射到嵌入空间中的远处位置。已经提出了许多损失函数来解决深度度量学习问题。三元组损失函数[13，26]及其变体（如循环损失[29]）形成包含锚、正和负实例的三元组，其中锚和正实例共享相同的标签，而锚和负实例共享不同的标签。成对损失函数，如对比损失[10]，二项式偏差损失[37]，提升结构损失[28]和多相似性损失[33]，当具有相同标签的一对实例之间的距离较大时，以及当具有不同标签的一对实例之间的距离较小时，会受到惩罚。所有这些损失函数鼓励正图像对的距离小于负图像对的距离。由于DML的训练目标与VSE问题相似，本文借用DML的这些损失设计思想对VSE问题进行改进。2166···n =y+y+y阿穆尔河x，ySx，y′x吉尔·吉尔尔x，yx，y伊+尔y，xy，x伊+尔Sy，x′Sy，x′伊x为ohx，yx，y′X+y， xy，xy，x′y，xy，xX+y，x′X′梯度修改最近的作品在DML，如条款。第一组导数项R1和R2表示x多相似性损失和循环损失[33，29，36]从标准的三重损失公式开始，损失函数给出了明确的改进，图像和文本嵌入特征的变化如何影响损失，这是该术语探讨得最详细在这项工作中。第二组导数项x和y∂θ ∂ϕ代码修改这些工作都找到明确的损失函数，其梯度是可取的。其他策略从期望的梯度加权函数开始，并对期望的梯度进行积分以导出具有适当属性的梯度的损失函数。这通常限于简单的加权策略，例如[29]中的简单线性形式和[36]中当三元组包含硬负时对正对的简单梯度去除，因为可能很难找到梯度与复杂加权策略一致的损失函数。最相关的工作是P2Sgrad[42]，它分析了基于margin的softmax loss家族中的梯度，并直接用余弦相似度修改梯度以获得更好的优化。与P2Sgrad相比，我们的工作重点是三重损失及其变体损失函数。本文中的框架直接探索所需梯度更新的空间。通过不限制我们自己设计具有适当梯度的损失函数，我们可以更明确地在实验上解剖梯度的不同部分的影响。此外，我们可以重新组合实验上最有用的梯度项，以梯度手术的形式[39]，非常轻微地改变现有算法以提高性能。3. 一种基于属性的目标设计框架我们定义了一个术语集合来描述一批图像和文本如何影响网络。设X是一批输入图像，Y是一批输入文本，x是用图像提取器提取的图像的L2归一化特征向量，y是用文本提取器提取的文本的L2归一化特征向量，l是该批的损失值，θ是图像提取器的参数，m是文本提取器的参数，η是学习率，f θ（）是图像提取器的映射函数，g（）是文本提取器的映射函数，L（）是损失函数。在前向训练步骤中，表达式为：l=L（x，y），其中x=fθ（X）且y=gθ（Y）（1）.表示模型参数的变化如何影响嵌入特征。由于导数链规则，该项总是可以在具有多层的现代深度网络中的每一层的多个项的乘法中扩展，这在工作中没有讨论。第一组导数项总是受到损失函数的解析形式的约束。例如，由于提升结构损失[28]和双项偏差损失[37]的指数形式，它们的导数也包含指数项。这样的项可能导致梯度不稳定性，并且它是损失函数的设计如何最好地仅隐式地控制提取器的学习行为的示例使用最新的深度学习平台，如Py- torch[25]，它支持具有自定义梯度向后计算的前向模块，而不是依赖于损失的导数，我们可以基于所提出的GOAL框架明确定义梯度更新，以直接影响提取器的学习行为。在下面的讨论中，我们集中在DML文献中的许多三重损失函数中的第一组项的特定形式，然后提出直接定义用于模型训练的第一组3.1. 梯度分量给定一对图像和文本特征x和y，当图像特征x被视为锚时，我们表示在文本批次Y中挖掘的其文本硬否定特征y′;当文本特征y被视为锚时，我们表示在图像批次X中挖掘的其图像硬否定特征x′。然后，我们可以得到两个三元组（x，y，y′）和（y，x，x′）。在第一个三元组中，Sx ， y=xTy和Sx ，y′=xTy′是余弦相似度，其被计算为归一化图像特征和归一化文本特征的正对和负对的点积。对于第二个三元组Sy，x=yTx和Sy，x′=yTx′ ，计算类似的余弦相似性。最后，这些余弦相似性被输入到对称三重损失函数l=L（Sx，y，Sx，y′）+L（Sy，x，Sy，x′）中。梯度w.r.t.图像和文本特征是：∂l=∂lx，y+ySx，y′+ly，x图像和文本提取器权重更新为：xSx，y′xSy，x<$L（Sx，y，Sx，y′）<$L（Sx，y，Sx，y′）′ <$L（Sy，x，Sy，x′）θt+1=θt−ηϕt+1=ϕt−η美国（S，S）美国（S，S）美国（S，S）这两个方程强调了extrac的更新tors参数与两组导数相结合（三）在上述等级中有两个主要元素y，x（二）尔伊 =∂y ∂ϕ=′2167−x为oh三′·图2.三元组图表征三元组的行为第二种常见的损失函数是从NCA[9]导出的NT-Xent损失，表示为lnca。而不是考虑所有的负面候选人，在本文中，我们采用硬否定挖掘版本作为一个公平的比较三重损失函数。lnca=−[log（exp（τSx，y））作为正图像-文本对（沿x轴）和负图像-文本对（沿y轴）的相似性的函数的权重。锚点、正特征和负特征都非常相似的三联体将位于右上方，+ log（exp（τSx，y）+exp（τSx，y′）exp（τ Sy，x））]exp（τSy，x）+exp（τSy，x′）（六）其中正对相似而负对不相似的三元组在右下角。使用该图，（左）示出了恒定三元组权重T con，（中）示出了NCA三元组权重T nca，（右）示出了Circle三元组权重T cir。其中τ是缩放参数。其梯度中的标量也是一个三元组权重，表示为NCA三元组权重Tnca（推导过程见附录）：1事件：标量<$L（Sx，y，Sx，y′），<$L（Sx，y，Sx，y′），<$L（Sy，x，Sy，x′），Tnca=1+exp（τ（Sx，y−Sx，y′））（七）x， ySx，y′y，xT nca依赖于Sx，y和Sx，y′的差。当以及单位梯度方向x，y，x′，y′1。Sy， x′一个正确构型的三重态Sx为oh-Sx，y ′>0，则三重态损失及其变体的差异主要来自标量。在DML文献中，主要有两组标量形式：与三元组的正和负对相似性相关的标量，我们将其表示为（三元组权重T），以及与三元组的正和负对相似性相关的标量，我们将其表示为（对权重P）。三重态的重量很小。否则，三元组权重将很大。因为Tnca只考虑相似性差Sx，ySx，y′，某些角点情况，如Sx，y和Sx，y ′都较大或Sx，y和Sx，y′都较小的三重体，没有得到很好的处理。Circleloss[29]提出了一个循环三元组权重Tcir来处理以下情况：3.2. 三重权重对于具有硬负最小值的标准三重态损失函数Tcir=11 + exp（τ（Sx，y（2−Sx，y）−S2’））（八）因此，梯度可以导出为：l=max(m+sx,y′−sx,y,0)+max(m+sy,x′−sy,x,0)Tcir的思想是引入非线性映射，Sx，y和Sx，y′在指数项中，三=δ（m+sx，y′−sx，y）（y−y）−δ（m+sy，x′−sy，x）y三=−δ（m+sx，y′−sx，y）x+δ（m+sy，x′−sy，x）（x′−x）（四）其中m是裕度参数，δ（）是Heaviside函数。在三重态损失的梯度中，所有标量都是三重态权重，因为它包含三重态的正对和负对的相似性三重态权重被表示为恒定三重态权重T_con：T con=δ（m+sx，y′−sx，y）（5）为了简单起见，我们在下面的讨论中仅示出与三元组（x，y，y’）相关的权重，并且三元组（y，x，x’）的权重的讨论是类似的。当三胞胎激活赫维赛德功能，Tcon是一个常数1，指示这些合格的三胞胎将被平等对待x伊2168−x为oh−更多关于街角的案子图2示出了三元组权重图，三元组vi-来自[36]的sualization工具，对于T con，m=0。2和T nca和Tcir，τ=10。T nca中的等重线是具有Sx，y形式的直线Sx，y′Tcir中的等权线是形式为（Sx，y1）2+S2′ = const的圆形线，说明了它如何增加角点情况的权。3.3. 对权重除了三元组权重之外，许多DML作品[37，28，33，36，29]还提出了损失函数中的成对权重为了详细讨论对权重P，我们将非线性对的权重P+和n个线性对的权重P-表示为p。假设恒定缩放参数为用于公平比较的基线。在这种情况下，两个对权重都设置为常数1，如下：Pcon=Pcon=1;（9）当三胞胎+−缺点是不0，表明这些三元组对梯度没有影响。1由于L2归一化，最近的作品[33，36，29]认为，当负对彼此接近时，它们的权重应该很大否则，如[36]中提到的，DML的优化2169+.P =1−Sx，y林++IjP=sig−|N|−相对项使P−中的分母减小。当其相对相似性项msig1时，指示所选择+Σ−图3. 恒定对权重P con、线性对权重P lin、S形对权重P sig的可视化，其中α = 2，β = 10，λ = 0。5，线性MS对权重Plin−ms，其中m lin= m lin= 0。1和sigmoid-MS对权重Psig-ms，其中m sig= m sig= 0。1+−+−任务将快速收敛到糟糕的局部最小值。 Circleloss[29]中的解决方案哪里msig=1exp（α（S|P|Px为oh-Rap（i））对，如果相似度小，则权重大如果相似性很大：msig=1exp（−β（S′−Rj））林+P− =Sx，y′（十）在MS损失中有两个项动态地改变对权重。自相似项具有与S形对权重Psig相同的效果。至于相对相似性早期的工作二项式偏差损失[37]使用类似的对权重，但具有非线性S形形式Psig：长期而言，主要的影响是增加或减少对权重的最大值。给定一个负对，当它的相对相似项简体中文签名1msig−> 1，这表示所选的反例为电子邮件* =1+exp（α（SP=x为oh-λ））（十一）与其他负增长相比，样本然后，负权重增加，因为符号-ms其中α、β和λ是三个超参数。多相似（MS）损失[33]结合了提升结构损失[28]和二项式偏差损失[37]的思想，不仅包括所选对的自相似性，还包括其他对的相对相似性。我们遵循[33]将其加权函数Psig-msin our framework框架. 给定一个三元组，所选择的三元组对和非三元组对的自相似性为Sx，y和Sx，y′。同一批次中其他阳性和阴性与同一锚点的相似性被视为相对相似性，注意例如，示例相对于锚定组件远离。与其他反例相比，由于相对项增加了分母，单位为Psi g−m s。后一种情况将不存在下的训练与硬n g在i v开采。给定一个正对，当它的相对相似项m sig> 1，这表明所选的正对具有比其批次中的其他正对更大的相似性，正权重减小，因为相对项增加了Psig−m s中的分母。当其相对相似项作为Rx，y和Rx，y′ . 此外，[33]als o定义了P，msig <1，表示所选的正对具有相似性，N是所选Rx，yi的集合Rx，y′j在哪里+比同批中的其他阳性对小，权重增加是因为相对项减少了Psi g−m s中的分母。i i′j+P={Rx，y：Rx，y min{Sx，y，Rx，y}−}变成了方程11中的S形。总而言之，相对相似项的主要作用是动态地增加或减少正负对的最大惩罚，如右图所示Psig−ms=1图3的曲线图。（十二）在实践中，训练MS损失需要调整四个超-sig-ms1参数α、β、λ和λ来拟合不同的数据集，+x为ohN一个1+exp（−β（Sx，y′−λ））msig+ exp（ α（ Sx为oh-λ））2170−m− +exp（−β（Sx，y′−λ））培训不方便，效率不高。通过分析2171∞∞+J+++−Σm=π（ ST孔TNCATcirPconP线P sig Plin−msP信号−ms三重态损失New[37]第37话[33]第三十三话NT-Xent损失NewNewNew新[29]第二十九话新新新表1.将三元组权重和对权重的不同梯度组合在我们的目标框架下，标记为“新”的组合图像→文本文本→图像方法R@1R@1VSE++（R152，FT）VSE++（R152，FT）我们的41.341.0±0.330.330.2±0.1VSE∞（BUTD）VSE∞（BUTD）我们的58.358.3±0.742.443.1±0.0VSE∞（WSL）VSE∞（WSL）我们的66.466.2±0.251.651.6±0.3表2.在COCO数据集上，使用三重损失函数向后训练的模型与使用梯度向后训练的完整表格见附录相对相似性项msig和msig，我们定义了一个更清晰的平台[25]与Nvidia特斯拉V100 32GB GPU.我们在三个开源作品中直接将损失模块替换为梯度目标：VSE++[7]，VSE [2]和X- VLM [40]，并保持所有其他训练设置与他们原来的工作相同。对于这三个作品，我们测试了由第3.2节和第3.3每个目标运行3次，以消除由来自批次的随机采样和映射层到联合空间的随机初始化的随机性引起的影响。我们报告了两种常见的检索结果，图像到文本检索和文本到图像检索，与Recall@1的平均值和标准差作为两个数据集的度量。我们在正文中显示了MS-COCO 5 K测试结果，附录中显示了Flickr 1 k测试结果。4.2. 梯度法在表2中，我们显示了使用三重态损失训练的原始VSE++和VSE工作的结果，以及使用T con和P con组合的等效梯度方法实现的结果。对于VSE++方法，我们重新实现了实验结果，表示为“VSE++（R152，FT）ours”。对于VSE∞，以及称为线性MS对权重P lin-ms的对权重的无参数版本，其表现类似于原始 MS权重：.P lin−ms=（1−mlin）（1−Sx，y）我们用预提取的对象特征（BUTD特征）和网格特征重新实现了实验，Instagram（WSL）上的预训练模型，表示为再-P lin−ms=（1+mlin）Sx，y′实施结果与最初的结果几乎相同哪里−mlin=1（S|P|P−x为oh-Rx，y端口数，验证我们的梯度目标与T con和P con的组合具有等同于三重态损失的效果。4.3. 关于VSE++和VSE∞的林1-| N|Nx为oh′−Rx，y′）的方式VSE++将培训分为两个步骤。第一步是冻结图像提取器主干并训练文本提取器和映射层到关节空间。在秒-3.4.梯度分量在本节中，我们已经从DML的三重权重和对权重方面剖析了许多以前的损失函数。表1显示了如何将梯度分量的不同组合映射到现有的损失函数中。除了这些组合之外，标记为“新”的其余组合都是未探索的如果训练需要损失函数，则难以探索这些梯度分量组合，并且如果它们不可积，则可能不可能然而，在我们的GOAL框架下，我们能够用这些梯度训练模型。4. 实验4.1. 设置我们在MS-COCO[3]和Flickr[38]数据集上运行了一组实验。所有实验均在PyTorch（十三）（一）2172第二步，将图像和文本提取器以及映射层的所有参数包括在训练中。我们重新实现原始实验 VSE++（ResNet152）和VSE++（ResNet152，微调）这两个步骤，并替换三重损失函数与所有可能的梯度目标。此外，我们使用在视觉语言任务中广泛使用的ViT[6]（ViT-base-patch 16）进行了相同的实验，以比较不同模型上梯度目标的性能在表3和表4中，对权重P lin、P sig、P lin-ms、Psig-ms显示了Recall@1相对于基线对权重P con的明显改善。除了对权重之外，三元组权重T nca、T cir帮助对权重继续改善微调步骤中的Recall@1结果。此外，表1中提到的所有DML损失函数在两个步骤中表现得比三重损失更好。在微调步骤中，我们发现最佳的损耗函数是MS2173→→∞∞∞∞∞VSE++（ResNet152）图像→文本文本→图像T孔TNCATcirT孔TNCATcirPcon33.9±0.934.9±0.434.2±0.622.8±0.422.7±0.222.3±0.5P线34.5±0.234.5±0.234.6±0.323.5±0.123.2±0.223.4±0.4PsigPlin−msPsig−ms34.9±0.135.2±0.435.3±0.535.0±0.423.7±0.123.7±0.223.6±0.535.0±0.534.6±0.423.8±0.223.5±0.223.2±0.335.6±0.134.9±0.435.3±0.424.1±0.123.7±0.223.7±0.1VSE++（ResNet152，微调）Pcon40.8±0.341.0±0.341.2±0.130.2±0.130.5±0.030.1±0.2P线41.3±0.242.6±0.342.3±0.530.5±0.130.6±0.130.7±0.1P信号42.2±0.243.4±0.143.3±0.031.1±0.231.1±0.231.3±0.2P线性-msP信号−ms41.8±0.342.6±0.642.8±0.230.7±0.130.9±0.130.9±0.131.0±0.231.1±0.243.6±0.343.8±0.543.8±0.530.8±0.3表3.使用ResNet152进行两步VSE++训练的不同梯度组合的图像文本和文本图像Recall@1的结果VSE++（ViT-base-patch 16）图像→文本文本→图像T孔TNCATcirT孔TNCATcirPcon37.6±0.238.8±0.137.9±0.126.4±0.226.6±0.126.4±0.1P线37.7±0.338.3±0.339.0±0.227.0±0.227.1±0.027.0±0.3PsigPlin−msPsig−ms38.4±0.540.0±0.439.5±0.827.2±0.027.2±0.127.5±0.127.4±0.338.1±0.339.1±0.339.0±0.427.3±0.127.0±0.539.9±0.340.1±0.339.6±0.627.7±0.127.6±0.127.3±0.2VSE++（ViT-base-patch 16，微调）PconPlinPsigPlin−msPsig−ms表4.使用ViT进行两步VSE++训练的不同梯度组合的图像→文本和文本→图像召回@1的结果损耗（Psig-ms，T con）。但是，当我们将三元组权重Tnca或Tcir与对权重Psig-ms结合时，它仍然是次优的，这表明了使用GOAL探索梯度空间的优势VSE我们在VSE中重新实施了两个培训设置。这两种设置都使用BERT-base[5]作为文本特征提取器。对于图像特征，一个使用预提取的对象特征（BUTD特征），另一个使用网格特征与Instagram上的预训练模型（ WSL 特征） [24] 。一个学习的广义池化算子（Generalized Pooling Operator，简写为GPOO）将图像和文本特征向量独立地聚合并投影到联合嵌入空间中，以进一步计算损失。尽管如此，我们仅用梯度目标替换训练中使用的三重损失函数。表5显示了与VSE++结果相似的改进模式，验证了我们的目标对于不同的VSE方法是通用的。4.4.最先进的结果最后，我们比较了MS-COCO 5 K测试和Flickr 1 K测试的两套最先进的方法。一个集合与VSE相关，另一个集合与VLP相关。在表6中，我们首先展示了我们对VSE++和VSE方法的最佳改进结果，表示为“VSE ++（R152，FT）ours”，“VSE（BUTD）ours”和“VSE（BUTD）ours”，它们是用（ T cir ， P sig−ms ）组合训练的。在MS-COCO 5 K测试中，VSE++（R152，FT）上图像→文本R@1和文本→图像R@1的增益分别为3%、0.7%、0.7%。48.2±0.549.6±0.648.6±0.936.5±0.337.0±0.236.7±0.348.3±0.349.4± 0.3 49.3± 0.336.4±0.137.2±0.337.4±0.249.2±0.650.9± 0.2 51.1± 0.437.2±0.337.9± 0.3 37.9± 0.248.9±0.450.2±0.149.7±0.236.8±0.237.4±0.137.6±0.450.4±0.850.7±0.551.7±0.237.4±0.437.3±0.137.9±0.22174VSE∞（BUTD）图像→文本文本→图像T孔TNCATcirT孔TNCATcirPconPlinPsigPlin−msPsig−ms58.9±0.761.2±0.760.3±0.260.1±0.243.1±0.043.2±0.342.5±0.158.1±0.260.7±0.143.1±0.343.4±0.243.0±0.159.8±0.660.0±0.162.0±0.462.0±0.443.5±0.243.6±0.243.9±0.143.8±0.261.7±0.261.2±0.243.9±0.243.4±0.261.8±0.263.1±0.263.2±0.344.6±0.244.8±0.144.9±0.1VSE∞（WSL）Pcon66.2±0.267.6±0.467.2±0.451.6±0.351.4±0.249.9±0.1P线66.9±0.768.5±0.468.4±0.552.5±0.152.8±0.252.5±0.2P信号P线性-msP信号−ms68.2±0.669.7±0.269.7±0.270.2±0.553.0±0.153.1±0.252.9±0.267.8±0.169.5±0.152.8±0.253.3±0.252.7±0.170.3±0.271.5±0.471.4±0.553.9±0.454.2±0.053.6±0.6表5.在VSE∞（BUTD）和VSE∞（WSL）上使用不同梯度组合的图像→文本和文本→MS-COCO 5 K测试Flickr 1K测试任务Im 年龄→文本文本→图像Im 年龄→文本文本→图像方法预训练数据大小R@1R@5R@10R@1R@5R@10R@1R@5R@10R@1R@5R@10VSE++（R152，FT）[7]VSE++（R152，FT）ourSCAN[17]VSRN[19]VSE∞（BUTD）[2]VSE∞（BUTD）我们的VSE∞（WSL）[2]VSE∞（WSL）我们的✗✗✗✗✗✗✗✗--------41.344.350.453.058.363.266.471.9-73.382.281.185.387.289.392.081.283.790.089.4-93.0-95.930.331.038.640.542.444.451.653.7-60.269.370.672.774.279.380.672.472.580.481.1-83.9-88.452.957.067.471.381.782.388.490.6-82.690.390.695.495.898.399.287.289.295.896.097.698.499.599.639.642.448.654.761.464.074.276.7-七十二点四77.781.885.987.593.794.679.581.085.288.291.592.796.897.3VINVL[41]阿尔贝夫[18]X-VLM[40]X-V LM我们的✓5.6M✓14M✓4M✓4M75.477.680.481.492.994.395.595.696.297.298.297.958.860.763.163.683.584.385.786.090.390.591.691.5-95.996.897.0-99.899.899.6-一百100.0100.0-85.686.186.3-97.597.497.4-98.998.799.0表6.我们的国家的最先进的图像-文本检索结果MS-COCO 5 K和Flickr 1 K的测试，使用新的损失函数与建议的目标框架设计。在VSE∞（BUTD）上为4.9%， 2.0%和VSE∞（WSL）是 5.5%，2.1% 。在 Flickr 1 K测试中， Image→ TextR@1和Text→ Image R@1在VSE++（R152，FT）上的增益分别为4.1%，2.8%，在VSE∞（BUTD）上的增益分别为0.6%，2.6%，在VSE∞（WSL）分别为2.2%、2.5%。此外，我们在最新的最先进的方法X-VLM[40]中应用相同的梯度目标，并在下游微调中替换其对比损失项。结果表示为“X-VLM our”。我们继续在MS- COCO5 K测试和Flickr 1 K测试上推动最先进的结果。5. 结论我们提供了一个新的框架GOAL来训练图像-文本匹配任务与梯度组件的组合从深度度量学习损失函数解剖在实践中，所提出的梯度目标可以很容易地作为一个下降的替代训练与损失函数。三联体穷举组合的扩展实验2175权值和权值对表明，三重权值和权值对检索性能都有单独的影响，一般来说，Tcir，Psig−ms的组合在图像-文本检索上获得最佳性能。这个框架有助于找到更好的梯度目标，从来没有探索过这个领域，并提供一致的检索改进多个既定的方法，包括实现新的国家的最先进的结果。引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议论文集，第6077[2] 陈嘉诚，胡鹤翔，吴昊，姜宇宁，王长虎。学习视觉语义嵌入的最佳池化策略。IEEE计算机视觉和模式识别会议，2021。2176[3] XinleiChen ， Hao Fang ， Tsung-Yi Lin ， RamakrishnaVedan-tam ， SaurabhGupta ， PiotrDol la´r ， andCL awrenceZitnick. Microsoft coco字幕：数据收集和评估服务器。arXiv预印本arXiv：1504.00325，2015。[4] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， andJingjing Liu.Uniter ：通用图像 - 文本表示学习。在ECCV，2020年。[5] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。在计算语言学协会北美分会2019年会议论文集中：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼苏达州明尼阿波利斯，2019年6月。计算语言学协会[6] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。[7] Fartash Faghri，David J Fleet，Jamie Ryan Kiros和SanjaFidler。Vse++：用硬否定词改进视觉语义嵌入。英国机器视觉会议（BMVC），2018年。[8] Andrea Frome 、 Greg S Corrado 、 Jon Shlens 、 SamyBengio 、 Jeff Dean 、 Marc'Aurelio Ranzato 和 TomasMikolov。Devise：一个深度视觉语义嵌入模型。神经信息处理系统进展，26，2013。[9] 放大图片作者：Jacob Goldberger，Geoffrey E Hinton，Sam T. Roweis，and Ruslan R Salakhutdinov.邻域成分分析。在洛 K. Saul ， Y. Weiss 和 L. Bottou ，编辑，Advances in Neural Information Processing Systems 17，第513-520页。麻省理工学院出版社，2005年。[10] Raia Hadsell，Sumit Chopra，and Yann LeCun.通过学习一个不变映射来降低维数.在Proc. IEEE计算机视觉和模式识别会议（CVPR），第2卷，第1735-1742页中。IEEE，2006年。[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在proc IEEE计算机视觉和模式识别会议（CVPR），2016年6月。[12] SeppHochreiter和JürgenSchmidhub

下载后可阅读完整内容，剩余1页未读，立即下载