通用加权度量学习的跨模态匹配方法

46 浏览量更新于2023-10-25 收藏 12.26MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

𝑆 = 𝛷 𝑣 𝑇𝑊𝛹 𝑡𝑆𝑎𝑝 > 𝑆𝑎𝑛 + 𝑚𝑎𝑟𝑔𝑖𝑛1130050用于跨模态匹配的通用加权度量学习0魏继伟，徐星�，杨阳，姬艳丽，王铮，沈恒涛中国电子科技大学未来媒体中心和计算机科学与工程学院，中国0摘要0跨模态匹配已成为视觉和语言领域的研究热点。学习适当的挖掘策略来采样和加权信息丰富的样本对对于跨模态匹配的性能至关重要。然而，大多数现有的度量学习方法是为单模态匹配开发的，不适用于具有异构特征的多模态数据的跨模态匹配。为了解决这个问题，我们提出了一个简单且可解释的通用加权框架用于跨模态匹配，它提供了分析各种损失函数可解释性的工具。此外，我们在通用加权框架下引入了一种新的多项式损失，分别为正样本和负样本定义了一个权重函数。在两个图像-文本匹配基准和两个视频-文本匹配基准上的实验结果验证了所提方法的有效性。01. 引言0跨模态匹配旨在从查询中检索与不同媒体类型相关的实例，这具有各种应用，如图像-文本匹配[6, 32, 28, 36, 31, 37,41, 2, 14]，视频-文本匹配[22, 29, 10,38]，基于草图的图像匹配[3]等。与单模态匹配相比，跨模态匹配更具挑战性，因为不同模态之间存在异构差距。跨模态匹配的关键问题是减小异构差距并利用跨模态的区分信息。一种常见的跨模态匹配解决方案是学习一个共享的嵌入空间，以便可以比较来自不同模态的特征。最近，各种跨模态匹配方法致力于为不同模态学习更丰富的语义表示，并采用排序损失来联合优化网络，以使正样本的相似度大于负样本的相似度。以图像-文本匹配为例。0� 通讯作者。0一个穿着花卉泳衣的女人拿着一把粉红色的雨伞。0共享嵌入空间0一个花瓶放在一个门廊上。0一对男人骑马在一片绿色的田野上。0一只孤独的斑马正在一片绿草中吃草。0正样本0负样本0锚点0图1.跨模态匹配的典型解决方案是学习一个共享的嵌入空间，其中可以比较视觉特征Φ(v)和文本特征Ψ(t)。具有相同形状的点来自同一模态。利用三元组损失鼓励正（匹配）样本的相似度大于负（非匹配）样本的相似度。以图像-文本匹配为例。0正如图1所示，正样本对的相似度高于所有负样本对。在先前的文献中，已经探索了注意机制[18]和生成模型[11,15]来构建先进的编码网络。刘等人[23]提出了一种循环残差融合块来减小模态差距，并使用三元组损失[13]来鼓励在共享嵌入空间中语义相关的样本彼此靠近。李等人[19]提出了一种视觉推理模型来生成场景的全局表示。虽然这些方法取得了令人鼓舞的性能，但它们大多数使用排序损失作为目标函数，通常与随机抽样一起训练。这在跨模态匹配中引发了一个问题，随机抽样无法有效地选择信息丰富的样本对进行训练，导致收敛速度慢和性能差。虽然最近的度量学习方法为单模态匹配提供了各种挖掘策略，但很少有适用于跨模态匹配的方法。因此，学习一种适当的挖掘策略来采样和加权信息丰富的样本对仍然是跨模态匹配中的一个具有挑战性的问题。00.51.01.000.5130060在本文中，我们提出了一个用于跨模态匹配的通用加权框架。我们的直觉基于这样一个事实，即对于更具信息量的配对分配更大的权重，如图2所示。与广泛使用的未加权三元组损失不同，我们提出的通用加权框架可以有效地为跨模态匹配的信息量丰富的配对分配适当的权重。具体而言，我们定义了两个多项式函数，分别用于计算正对和负对的权重值。此外，我们在通用加权框架下引入了一种新的多项式损失。由于多项式函数的形式是灵活的，我们的多项式损失具有更好的泛化性能。本文的主要贡献总结如下：0•我们提出了一个用于跨模态匹配的通用加权框架，该框架定义了两个多项式函数，分别用于计算正对和负对的权重值。它为分析各种损失函数的可解释性提供了强大的工具。0•我们在通用加权框架下引入了一种新的多项式损失。多项式损失可以有效地从冗余配对中选择有信息量的配对，并为不同的配对分配适当的权重，从而提高性能。0•我们进行了大量实验，并在图像-文本匹配和视频-文本匹配两个跨模态匹配任务上评估了我们提出的方法。实验结果表明，我们的方法在四个广泛使用的基准数据集上（MS-COCO，Flickr30K，ActivityNet-captions和MSR-VTT）取得了非常有竞争力的性能。02. 相关工作0跨模态匹配。跨模态匹配具有各种应用，例如图像-文本匹配[6, 32]，视频-文本匹配[9, 30,22]，基于草图的图像检索[3]等。跨模态匹配的关键问题是衡量不同模态特征之间的相似性。一种常见的解决方案是学习一个共享的嵌入空间，可以直接比较不同模态的特征。近年来，已经有各种方法致力于学习模态不变特征。Lee等人[18]提出了一种堆叠的交叉注意力网络用于图像-文本匹配，通过对齐图像区域和单词来衡量图像-文本相似性。Li等人[19]使用图卷积网络生成增强关系的图像区域特征，然后执行全局语义推理网络生成捕捉场景关键对象和语义概念的有区别的视觉特征。Song等人[30]引入了一个多义实例嵌入网络，该网络使用多头自注意力和残差学习生成实例的多个表示。Liu等人[22]提出了一种协同专家（CE）框架用于视频-文本匹配，通过聚合来自不同预训练模型的信息为视频生成密集表示。上述基于嵌入的方法学习先进的编码网络，为不同模态生成更丰富的语义表示，使匹配对在共享嵌入空间中彼此靠近，而不匹配对则远离。0正对相似性得分负对相似性得分 (a) (b)0权重0权重0图2。随着正对相似性得分的增加，其权重值减小；随着负对相似性得分的增加，其权重值增加。0多义实例嵌入网络，使用多头自注意力和残差学习生成实例的多个表示。Liu等人[22]提出了一种协同专家（CE）框架用于视频-文本匹配，通过聚合来自不同预训练模型的信息为视频生成密集表示。上述基于嵌入的方法学习先进的编码网络，为不同模态生成更丰富的语义表示，使匹配对在共享嵌入空间中彼此靠近，而不匹配对则远离。0用于跨模态匹配的度量学习。另一种流行的跨模态匹配方法是在嵌入空间中学习损失函数，该函数鼓励匹配对的相似性大于不匹配对的相似性。近年来，在视觉和语言领域中提出了各种度量学习方法。然而，大多数现有的度量学习方法都是为单模态匹配设计的，无法有效地建模来自不同模态的特征之间的关系[21]。只有少数度量学习方法特别用于跨模态匹配[35, 21, 6]。0Liong等人[21]引入了一种深度耦合度量学习方法，设计了两个非线性变换来减少模态映射。Frome等人[7]提出了一种深度视觉-语义嵌入模型，将视觉特征和语义特征映射到共享的嵌入空间中，使用铰链排序损失作为目标函数。Faghri等人[6]针对图像-文本匹配引入了一种变体三元组损失，并报告了改进的结果。Xu等人[35]引入了一种模态分类器，以确保转换后的特征在统计上是不可区分的。然而，这些方法平等地对待正样本和负样本。几乎没有提出过任何先进的采样和加权机制用于跨模态匹配。在这项工作中，我们提出了一个跨模态匹配的通用加权框架，为更难的样本分配更大的权重值。̸S(vi, ti) > S(vi, tj,j̸=i) + λ0, ∀vi,(1)̸̸̸L ≠̸̸1300703. 提出的方法0在本节中，我们将跨模态匹配的采样问题形式化为一个通用的加权公式。随后将详细介绍所提出的多项式损失。03.1. 问题陈述0设 vi ∈ Rd1 为视觉特征向量，ti ∈ Rd2为文本特征向量，D = {(vi, ti)}为跨模态实例对的训练集。一般来说，实例对的组成部分来自不同的模态。为简单起见，我们将(vi,ti)称为正样本对，(vi, tj, i ≠j)称为负样本对。给定一个查询实例，跨模态匹配的目标是在另一个模态的库中找到与之匹配的样本。在图像-文本匹配的情况下，给定一个图像标题ti，目标是在图像库中找到最相关的图像vi。重要的是要注意，在跨模态匹配任务中，每个锚点只有一个正样本。以前的跨模态匹配工作主要集中在构建一个包含图像和文本的共享嵌入空间。这些方法背后的核心思想是存在一个映射函数S(v, t; W) =Φ(v)TWΨ(t)来衡量视觉特征Φ(v)和文本特征Ψ(t)之间的相似度得分。W是S的参数。一般来说，正样本对的相似度得分比负样本对的相似度得分高出一个边界，可以表示为：0S(vj, tj) > S(vi, ti, tj) + λ0, � tj, (2)0其中 λ 0是一个固定的边界。由于跨模态匹配是一个相互检索的问题，广泛使用的三元组损失函数可以表示为：0L = [S(v, ˆt) − S(v, t) + λ0]+ + [S(ˆv, t) − S(v, t) + λ0]+,(3)其中(v, t)是正样本对，(v,ˆt)是查询v的最难负样本对，(ˆv,t)是查询标题t的最难负样本对。[x]+ = max(x,0)。然而，这些方法丢弃了比最难样本对信息更少的样本对，同时平等对待正样本对和负样本对。据我们所知，目前还没有针对跨模态匹配的先进采样和加权方法。03.2. 跨模态匹配的通用加权框架0设Nvi = {Sij, i ≠j}为样本vi的所有负样本对的相似度得分集合，Ntj = {Sij, j≠i}为样本tj的所有负样本对的相似度得分集合。大多数现有的基于铰链损失的损失函数L可以表示为相似度得分的函数：L({Sij}).当前存在的加权方法给出了一个特殊的函数来0表示权重值和相似度得分之间的关系，函数的形式因任务而异。所有这些函数都可以重新表述为一个通用的加权框架：0i =1 { G P os S ii + ∑ ( G Neg S ij,i � = j ) }，(4)0其中 G P os 是正样本对的权重值，G Neg是负样本对的权重值。G P os 和 G Neg都是相似性分数的函数，但形式不同。0G P os = G ( S ii , N v i ) ，(5)0G Neg = G ( S jj , N t j ) ，(6)0其中 G ( ∙ )是表示权重值和相似性分数之间关系的函数。理论上，G ( ∙) 可以是自相似性和相对相似性的函数。G ( ∙ )的形式各异，但它应满足一个基本规则：随着正样本对的相似性分数增加，其权重值减小；随着负样本对的相似性分数增加，其权重值增加。如图2所示。它提供了一个强大的工具，通过权重分析来分析各种损失函数的可解释性。方程4是一个通用的样本对公式，现有的基于样本对的损失是它的特殊情况之一。03.3. 信息对挖掘0对于跨模态匹配任务，在一个小批量中，每个锚点只有一个正样本，但有许多负样本对。这些负样本对是冗余的，其中大部分信息较少。随机抽样很难选择更多信息的样本对，导致模型难以收敛并且性能较差。开发能够选择信息丰富的负样本对并丢弃信息较少的负样本对的高效算法是紧迫且重要的。在本节中，我们通过比较锚点的正负样本对之间的相对相似性分数来选择信息丰富的负样本对。对于给定的锚点 vi ，我们假设其正样本为 t i ，负样本为 t j,i � = j ，如果 S ij满足条件：S ij,i � = j > S ii − λ ，则选择负样本对 ( v i , tj ) ，(7)0其中 λ是一个固定的边界。如图3所示。注意，在一个小批量中，每个锚点只有一个正样本。03.4. 用于跨模态匹配的多项式损失0通过上述步骤，可以选择具有更多信息的负样本对，并丢弃信息较少的样本对。在本节中，我们引入了一种新的加权函数来对选定的样本对进行加权。理论上，𝑊𝑎𝑁1𝑊𝑎𝑁2𝑊𝑎𝑁3𝑊𝑎𝑃𝑊𝑎𝑁1𝑊𝑎𝑁2𝑊𝑎𝑁3𝑊𝑎𝑃̸i=1[GP osSpii +SGSqj=1[GP osSpjj +SGNegSq(10)i=1[Num(Nvi)]++j=1[Num(Ntj)]+,(11)(12)130080�0� 30� 10� 20丢弃0丢弃0锚点0随机抽样，等权重：0� �� = � �� 2 = 1；0�0� 30� 10� 20丢弃0锚点0信息对挖掘和权重：0� �� 2 > � �� 1 ；0边界0� �� = � �� ，� = 1, 2。0� �� = � �� ；0视觉特征0文本特征0视觉特征0文本特征0图3. 我们的信息对挖掘和通用加权框架用于跨模态匹配的示意图。相同形状的点来自同一模态。P 是锚点的唯一正样本，N 1 、N 2 和 N 3是锚点的负样本。左：随机抽样和等权重的示例；右：用于跨模态匹配的提出的负样本对挖掘和通用加权框架；0G ( ∙ ) 可以是自相似性和相对相似性的函数。然而，G ( ∙ )越复杂，它包含的超参数就越多，超参数的设置就越困难。在本文中，为了减少超参数的数量，我们将 G ( ∙ )定义为自相似性的函数。具体而言，给定一个选定的正样本对 ( v i , t i ) ，它的权重 G P os 可以表示为：0G P os = a m S m ii + a m − 1 S m − 1 ii + ∙ ∙ ∙ + a 1 S ii + a 0，(8)0其中S ii是相似度得分，{ a i } i = m i=0是超参数，m是正整数。G Pos的形式多样，但其值应随着相似度得分Sii的增加而减小。其趋势应符合图2a中的曲线。对于所选的负对(v i , t j)，权重G Neg可以表示为：0G Neg = b k S k ij + b k − 1 S k − 1 ij + ∙ ∙ ∙ + b 1 S ij + b 0，i ≠ j，(9)0其中S ij是相似度得分，{ b i } i = k i=0是超参数，k是正整数。GNeg的形式多样，但其趋势应符合图2b中的曲线。通过方程8和9，我们得到了正对和负对的权重。在本文中，我们引入了两种不同的函数，平均多项式损失和最大多项式损失。平均多项式损失可以定义为：0L Avg = 10i =N *0*0Num ( N v i ) + λ 1 ] + +01N*0j =N *0*0Num ( N t j ) + λ 2 ] + ,0方程10可以重新表述为：0L Avg = 10i =N *0P * a * p *S * p * ii +0*0S ij ∈ N vi * Q * b * q S qij01N*0j =N *0P * a * p * S* p * jj +0*0S ij ∈ N tj * Q * b * q S qij0这里，Num ( N v i )和Num ( N t j )分别表示样本v i和tj的负对数量。P和Q分别是正对和负对的最高次幂。注意，我们将p和q的最小值设为0，a 0 = λ 1，b 0 = λ2。对于跨模态匹配任务，在一个小批量中每个锚点只有一个正样本。我们的损失函数可以充分利用信息丰富的负对。由于跨模态匹配任务涉及不同模态之间的相互检索，我们的损失函数包含两个项。前一项表示图像检索字幕的损失，后一项表示字幕检索图像的损失。由于多项式函数的形式是灵活的，我们的多项式损失具有更好的泛化性。最大多项式损失。为了进一步突出我们的加权机制的优越性，我们引入了另一个版本的多项式损失L Max，它只包含最难的负对。LMax的公式定义如下：0L Max = 10i =1 [ G P os S p ii + G Neg Max { N v i }q + λ 1 ] + +01N*0j =1 [ G P os S p jj + G Neg Max { N t j }q + λ 2 ] + ,i=1[j=1[(13)130090这里，Max { N v i }和Max { N t j }分别表示样本v i和tj的最难负对。方程12可以重新表述为：0L Max = 10i =N *0P * a * p *S * p * ii +0Q * b * q Max { N v i }q ] + +01N*0j =N *0P * a * p * S* p * jj +0Q * b * q Max { N t j} q ] + ,0梯度下降优化可以最小化L Avg和L Max。关于L Avg和LMax的更多讨论可以在实验的子部分中找到。04. 实验0在本节中，我们进行了广泛的实验，评估了在图像-文本匹配和视频-文本匹配任务中提出的多项式损失的效果。我们使用Recall@K作为图像-文本匹配和视频-文本匹配任务的性能指标，该指标表示模型在前K个结果中返回正确项的查询百分比。我们进行了消融研究，分析了提出的多项式损失的有效性。我们将方程7中的边界λ设置为0.2进行所有实验。04.1. 实现细节0图像-文本匹配。我们在两个标准基准上评估我们的多项式损失：MS-COCO [20]和Flickr30K[39]；MS-COCO数据集包含123,287个图像，每个图像带有5个标题。我们采用[18]的数据划分设置。具体而言，我们使用113,287个图像进行训练，5,000个图像进行验证，5,000个图像进行测试。我们在1,000个测试图像（在5个折叠上平均）和完整的5,000个测试图像上报告结果。Flickr30K数据集包含31,783个图像，每个图像带有5个句子的注释。按照[18]的数据划分，我们使用1,000个图像进行验证，1,000个图像进行测试，其余图像用于训练。我们的实现遵循Stacked CrossAttention Network (SCAN)[18]中的做法。SCAN将图像区域和单词映射到共享的嵌入空间，以衡量图像和标题之间的相似度得分。为了公平比较，我们保持网络结构不变，并用多项式损失替换损失函数。SCAN有两个输入，一个是由预训练的Faster-RCNN模型[1]和ResNet-101[12]提取的一组图像特征，另一个是由双向门控循环单元（GRU）[26]编码的一组单词特征。模型使用Adam[16]在两个数据集上从头开始训练，批量大小为128。对于MS-COCO，我们从学习率0.0005开始训练10个epoch，然后将其降低到0.00005进行另外10个epoch。对于Flickr30K，学习率为0.0002，训练15个epoch，然后将其降低到0.00002进行另外15个epoch。多项式损失中有两组参数{ap}和{bq}。我们采用启发式方法选择超参数。具体而言，我们首先初始化G(∙)，以确保其曲线符合图2中的趋势。然后采用网格搜索技术选择超参数。我们设置P=2，{a0=0.5，a1=-0.7，a2=0.2}，Q=2和{b0=0.03，b1=-0.3，b2=1.2}用于MS-COCO，以及P=2，{a0=0.6，a1=-0.7，a2=0.2}，Q=2，{b0=0.03，b1=-0.4，b2=0.9}用于Flickr30K。视频-文本匹配。我们在两个流行的数据集上评估我们的多项式损失：ActivityNet-captions[17]和MSR-VTT[34]。ActivityNet-captions包含20,000个视频，每个视频带有5个文本描述。我们遵循[22]的数据划分，10,009个视频用于训练，4,917个用于测试。MSR-VTT包含10,000个视频，每个视频与大约20个句子相关联。我们遵循[22]的数据划分，6,513个视频用于训练，2,990个视频用于测试。我们使用Collaborative Experts (CE)[22]框架报告视频-文本匹配任务的结果。CE是一个框架，将视频的各种预训练特征聚合成稠密表示，然后映射到共享的嵌入空间。我们保持网络结构不变，并用多项式损失替换损失函数。模型使用Adam[16]从头开始训练，批量大小为64。学习率设置为0.0004。多项式损失中有两组参数{ap}和{bq}。我们设置P=2，{a0=0.5，a1=-0.7，a2=0.2}，Q=2和{b0=1，b1=-0.2，b2=1.7}用于ActivityNet-captions，以及P=2，{a0=0.5，a1=-0.7，a2=0.2}，Q=2，{b0=0.03，b1=-0.3，b2=1.8}用于MSR-VTT。0对于MS-COCO，我们从学习率0.0005开始训练10个epoch，然后将其降低到0.00005进行另外10个epoch。对于Flickr30K，学习率为0.0002，训练15个epoch，然后将其降低到0.00002进行另外15个epoch。多项式损失中有两组参数{ap}和{bq}。我们采用启发式方法选择超参数。具体而言，我们首先初始化G(∙)，以确保其曲线符合图2中的趋势。然后采用网格搜索技术选择超参数。我们设置P=2，{a0=0.5，a1=-0.7，a2=0.2}，Q=2和{b0=0.03，b1=-0.3，b2=1.2}用于MS-COCO，以及P=2，{a0=0.6，a1=-0.7，a2=0.2}，Q=2，{b0=0.03，b1=-0.4，b2=0.9}用于Flickr30K。视频-文本匹配。我们在两个流行的数据集上评估我们的多项式损失：ActivityNet-captions [17]和MSR-VTT[34]。ActivityNet-captions包含20,000个视频，每个视频带有5个文本描述。我们遵循[22]的数据划分，10,009个视频用于训练，4,917个用于测试。MSR-VTT包含10,000个视频，每个视频与大约20个句子相关联。我们遵循[22]的数据划分，6,513个视频用于训练，2,990个视频用于测试。我们使用Collaborative Experts (CE)[22]框架报告视频-文本匹配任务的结果。CE是一个框架，将视频的各种预训练特征聚合成稠密表示，然后映射到共享的嵌入空间。我们保持网络结构不变，并用多项式损失替换损失函数。模型使用Adam[16]从头开始训练，批量大小为64。学习率设置为0.0004。多项式损失中有两组参数{ap}和{bq}。我们设置P=2，{a0=0.5，a1=-0.7，a2=0.2}，Q=2和{b0=1，b1=-0.2，b2=1.7}用于ActivityNet-captions，以及P=2，{a0=0.5，a1=-0.7，a2=0.2}，Q=2，{b0=0.03，b1=-0.3，b2=1.8}用于MSR-VTT。04.2. 图像-文本匹配结果。0对于图像-文本匹配任务，我们将我们的方法与几种最先进的方法进行了比较，包括：PVSE [30]，VSE++ [6]，SCO[15]，RRF [23]，DAN [25]，GXN [11]和SCAN[18]。表1和表2总结了我们的方法在Flickr30K和MS-COCO数据集上的结果，同时列出了各种方法使用的损失函数。从表中，我们可以得出以下观察结果：0•从表1可以看出，我们的方法在所有指标上都优于基准方法SCAN。与传统的三元组损失相比，使用多项式损失的SCAN在Flickr30K上的文本到图像检索的R@1提高了3.6%，图像到文本检索的R@1提高了1.5%。0@10@10130100方法损失函数图像到文本文本到图像0RRF [23] 三元组 47.6 77.4 87.1 35.4 68.3 79.9 VSE++ [6] 三元组 52.9 80.5 87.2 39.6 70.1 79.5 DAN[25] 三元组 55.0 81.8 89.0 39.4 69.2 79.1 SCO [15] 三元组+NLL 55.5 82.0 89.3 41.1 70.5 80.1SCAN (I2T) [18] 三元组 67.9 89.0 94.4 43.9 74.2 82.8 SCAN (I2T) 最大多项式损失 69.4 89.9 95.447.5 75.5 83.10表1. Flickr30K上的实验结果。0方法损失函数图像到文本文本到图像01K测试图像。0VSE++ [6] 三元组 64.6 89.1 95.7 52.0 83.1 92.0 GXN [11] 三元组 68.5 - 97.9 56.6 - 94.5 PVSE [30]三元组+ L div + L mmd 69.2 91.6 96.6 55.2 86.5 93.7 SCAN (I2T) [18] 三元组 69.2 93.2 97.5 54.486.0 93.6 SCAN (I2T) 最大多项式损失 71.1 93.7 98.2 56.8 86.7 93.005K测试图像。0VSE++ [6] 三元组 41.3 71.1 81.2 30.3 59.4 72.4 GXN [11] 三元组 42.0 - 84.7 31.7 - 74.6 PVSE [30]三元组+ L div + L mmd 45.2 74.3 84.5 32.4 63.0 75.0 SCAN (I2T) [18] 三元组 46.4 77.4 87.2 34.463.7 75.7 SCAN (I2T) 最大多项式损失 46.9 77.7 87.6 34.4 64.2 75.90表2. MS-COCO上的实验结果。0方法优于最先进的方法，特别是在R@1上。通过用我们的L Max替换三元组损失，我们的方法在1K测试图像上的图像到文本检索（R@1）提高了1.9%，文本到图像检索（R@1）提高了2.4%。0•传统的三元组损失试图从冗余的对中采样出有信息的对，但是对正负对一视同仁。与之相反，提出的多项式损失为正负对分配适当的权重值，而权重值与其相似度得分有关。该方法可以同时选择和加权有信息的对。广泛的实验结果表明，提出的多项式损失有效地提高了匹配性能。04.3. 视频-文本匹配结果。0我们在两个标准基准数据集ActivityNet-captions和MSR-VTT上评估了我们的方法的有效性。我们报告了我们的结果，并与当前视频到文本和文本到视频检索的最新方法进行了比较。结果分别总结在ActivityNet-captions和MSR-VTT数据集的表3和表4中。为了进行全面比较，我们列出了这些数据集上现有的最新结果，包括：0ActivityNet-captions数据集使用DENSE [17]，HSE[40]，CE [22]，MSR-VTT数据集使用Minthum et al.[24]，W2VV [4]，CE [22]和Dual encoding[5]等几种最先进的方法进行了比较。此外，我们还列出了各种方法使用的损失函数。从表3和表4可以看出，我们的方法在所有指标上都优于基准方法，并在视频-文本匹配任务上取得了新的最先进性能。与使用相同的视频和句子编码器的CE（Triplet）相比，我们的方法在MSR-VTT数据集上的文本到视频（R@1）任务上提高了2.5%。我们的方法在ActivityNet-captions数据集上的所有指标上都优于CE。CE（Triplet）和CE（最大多项式损失）之间的性能差距显示了我们的多项式损失的有效性。04.4. 消融研究0参数分析。多项式损失有两组参数{ai}和{bj}。值得探索的是寻找一组参数使模型收敛更快并获得更好的性能。由于超参数的数量太大，几乎不可能逐个分析超参数的敏感性，因此我们主要分析几个具有重要影响的超参数的敏感性。P和Q分别确定了GPos和GNeg的最高幂次，其具有@10DENSE [17]Cross-entropy18.036.074.014.032.065.0HSE (4SEGS) [40]Multi-loss18.748.1-20.549.3-CE [22]Triplet27.961.695.027.361.194.4CEMax Polynomial Loss27.961.994.128.562.694.9@10010203040506070Recall@1Triplet Loss i2tTriplet Loss t2iMax Polynomial Loss i2tMax Polynomial Loss t2i010203040506070Recall@1Avg Polynomial Loss i2tAvg Polynomial Loss t2iMax Polynomial Loss i2tMax Polynomial Loss t2i130110方法损失函数视频到文本文本到视频0表3. 在ActivityNet-captions上的实验结果。0方法损失函数视频到文本文本到视频0Minthum等人[24] Cross-entropy 12.5 32.1 42.4 7.0 20.9 29.7 W2VV [4] Multi-loss 11.8 28.9 39.1 6.118.7 27.5 Dual encoding [5] Triplet 13.0 30.8 43.3 7.7 22.0 31.8 CE [22] Triplet 34.4 64.6 77.0 22.552.1 65.5 CE Max Polynomial Loss 36.2 71.5 82.2 25.0 55.4 68.20表4. 在MSR-VTT上的实验结果。00 1 2 3 4 5 迭代次数（1e4）0图4. Triplet loss vs. Max PolynomialLoss在Flickr30K验证集上。通过用我们的多项式损失替换损失函数，进一步提高了SCAN的性能。00 2 4 6 8 10 迭代次数（1e4）0图5. Max和Avg多项式损失在MS-COCO验证集上的行为分析。0对超参数数量有直接影响。因此，我们首先将其固定为2。实际上，我们发现模型性能对参数{bq}最为敏感，因此我们主要分析参数{bq}的敏感性。我们通过固定b0=0.03来测试b1和b2的影响，结果总结在表5中。b1和b2影响负样本的难度级别，模型对不同值敏感。然而，所有这些组合都优于基准线，这证明了我们方法的优越性。Triplet Loss vs. MaxPolynomial Loss. Tripletloss是跨模态匹配任务中最常用的损失函数。其有效性已经被许多研究证明，例如[6]。在本节中，我们进一步分析了提出的多项式加权机制的有效性。Max polynomialloss只包括最难的负样本对，可以被视为tripletloss的加权版本。我们在MS-COCO数据集上将maxpolynomial loss与tripletloss进行比较，结果如图4所示。从结果中，我们发现maxpolynomial loss收敛速度比tripletloss更快，并且取得了更好的结果，证明了我们多项式加权机制的优越性。Max vs. Avg Polynomial Loss.在本节中，我们进一步分析了提出的Max和Avgpolynomial loss的有效性。Max polynomialloss对每个锚点加权正样本和最难的负样本，可以被视为最难的triplet loss的加权版本。相反，average polynomialloss包含所有信息负样本，并为它们分配不同的权重值。由于max polynomialloss只利用了一部分信息对，因此其计算复杂度低于包含所有信息负样本的average polynomialloss。图5显示了两个函数在MS--0.236.035.536.135.5-0.334.635.036.235.6-0.434.035.335.635.3-0.225.025.024.825.0-0.324.824.925.024.8-0.424.624.824.724.91301201. 一个有一些椅子和一个书架的房间。2.一张被椅子包围并放满烹饪器具的桌子。3.桌子上摆满了木制勺子和器具。0SCAN01. 一张桌子和椅子，上面放着木制厨房工具。2.桌子上摆满了木制勺子和器具。3.一张木桌上放着各种木制烹饪器具。0我们的01. 一个浴缸上方有白色毛巾的浴室。2.一个有淋浴、水槽和马桶的浴室。3.一个有水槽、马桶和带窗帘的淋浴的浴室。01. 一个非常大的白色休息室，里面有一个破旧的淋浴。2.一个浴缸上方有白色毛巾的浴室。3.一个浴室里有一个马桶、毛巾架和浴缸。0查询0一个骑自行车的家伙在火车旁边。0一个穿着红色衬衫和红色帽子的男人在山坡上骑摩托车。0图6.MS-COCO上的定性结果。对于每个查询，我们报告前3个排名结果。预测按相似性得分递减排序，真实匹配显示为蓝色。对于文本到图像检索，真实匹配和错误匹配分别用蓝色和红色框标出。0任务 b1 b2 1.5 1.7 1.8 1.90视频到文本0文本到视频0表5. b1和b2对MSR-VTT数据集的影响。0COCO数据集。从结果中，我们发现平均多项式损失在最初的几次迭代中收敛速度比最大多项式损失更快。原因是平均多项式损失包含更多的信息对。然而，最大多项式损失的最终性能略优于平均多项式损失。这可能是由于不合理的参数设置。由于平均多项式损失包含太多的负样本对，很难找到一组参数PNeg来适应所有有信息的负样本对。04.5. 定性结果0在本节中，我们对MS-COCO上的一些示例进行了可视化的前3个检索结果。图6显示了图像到文本检索和文本到图像检索的定性结果，从定性上说明了模型的行为。预测按相似性得分递减排序，正确标签显示为0从图6中可以看出，通过用我们的多项式损失函数替换损失函数，SCAN的性能进一步提高。05. 结论0我们开发了一个通用的加权框架用于跨模态匹配，该框架分别为正样本和负样本定义了一个权重函数。通用加权框架为分析各种损失函数的可解释性提供了强大的工具。此外，我们在通用加权框架下提出了一个多项式损失函数，可以有效地采样和加权信息对。在四个跨模态匹配基准测试上的实验结果表明，所提出的多项式损失显著提高了匹配性能。在未来的工作中，我们希望研究更先进的跨模态匹配加权函数的潜力。0致谢。本工作部分得到了中国国家重点研发计划（No.2018AAA0102200）的支持；中国国家自然科学基金（No.61976049和No.61632007）的支持；中央高校基本科研业务费专项资金（No. ZYGX2019Z015）的支持；中国四川省科技计划（No.2019ZDZX0008和No. 2018GZDZX0032）的支持。[1] Peter Anderson, Xiaodong He, Chris Buehler, DamienTeney, Mark Johnson, Stephen Gould, and Lei Zhang.Bottom-up and top-down attention for image captioning andvisual question answering.In CVPR, pages 6077–6086,2018.[2] Hui Cui, Lei Zhu, Jingjing Li, Yang Yang, and LiqiangNie. Scalable deep hashing for large-scale social image re-trieval. IEEE Transactions on Image Processing, 29:1271–1284, 2019.[3] Sounak Dey, Pau Riba, Anjan Dutta, Josep Llados, and Yi-Zhe Song.Doodle to search: Practical zero-shot sketch-based image retrieval. In CVPR, pages 2179–2188, 2019.[4] Jianfeng Dong, Xirong Li, and Cees GM Snoek. Predict-ing visual features from text for image and video captionretrieval. IEEE Transactions on Multimedia, 20(12):3377–3388, 2018.[5] Jianfeng Dong, Xirong Li, Chaoxi Xu, Shouling Ji, and XunWang.Dual dense encoding for zero-example video re-trieval. arXiv, 2

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

通用加权度量学习的跨模态匹配方法

多模匹配算法

跨模态特征融合加权公式

跨模态行人重识别入门

跨模态多头注意力机制

跨模态多头注意力机制原理

在多模态融合阶段，多核自适应加权的方法与门控的方法达到的效果一样吗？详细说明每种方法的优势与劣势

倾向性评分加权结合随机森林匹配混杂因素

多模态知识库中多模态关联用到的技术

cross-modality fusion transformer for multispectral object detection

多模态加权融合算法研究现状

编写一般图最大加权匹配算法

多模态传感器融合方法

多视图分类以什么分成多核学习、子空间学习、稀疏学习和加权学习

机器学习模型加权融合 解释

不对称最好的中心度量方法是median吗

联合学习python加权聚合

加权投票集成学习原理

多模态基于特征的学习

医学图像多模态融合有哪些方法

多模态特征融合方法交通识别

最新资源

机器学习模型加权融合解释