跨模态投影匹配和分类损失应用于图像-文本匹配中的深度学习方法

165 浏览量更新于2023-10-13 收藏 801KB PDF 举报

深度学习

关键词匹配

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

用于图像-文本匹配的张颖[0000−0002−6005−4989]、卢沪川[0000−0002−6668−9758]大连理工大学网址：zydl0907@mail.dlut.edu.cn，lhchuan@dlut.edu.cn抽象。图文匹配的关键是如何准确地度量视觉输入和文本输入之间的相似性尽管将深度交叉模态嵌入与双向排序损失相关联取得了很大进展，但开发用于挖掘有用的三元组和选择适当的边缘的策略在实际应用中仍然是一个挑战在本文中，我们提出了一个跨模态投影匹配（CMPM）损失和跨模态投影分类（CMPC）损失学习判别图像-文本嵌入。CMPM损失最小化投影相容性分布与用小批次中的所有阳性和阴性样本定义的归一化匹配分布之间的KL散度。 CMPC损失试图用改进的norm-softmax损失对表示从一个模态到另一个模态的向量投影进行分类，以进一步增强每个类别的特征紧凑性。在多个数据集上的大量分析和实验表明了该方法的优越性。关键词：图文匹配·跨模态投影·联合嵌入式学习·深度学习1介绍探索图像和自然语言之间的关系最近引起了研究人员的极大兴趣，因为它在各种应用中非常重要，例如双向图像和文本检索[44，22]，自然语言对象检索[10]，图像字幕[43，35]和视觉问题回答（VQA）[1，18]。这些应用程序的一个关键任务是测量视觉数据和文本描述之间的相似性。现有的深度学习方法要么尝试在共享潜在空间中学习图像和文本的联合嵌入[39，44，40，21]，要么构建相似性学习网络[16，15，22，11，40]来计算图像-文本对的匹配分数。基于联合嵌入学习的方法在学习有区别的跨模态表示和测试阶段的计算效率方面显示出巨大的潜力。通常，用于图像-文本匹配的联合嵌入学习框架采用两分支[40，39，44，21]架构（如图11所示）1）其中一个2Y. Zhang和H. 陆图1.一、深度图文嵌入学习一个分支提取图像特征，另一个分支对文本表示进行编码，然后根据设计的目标函数学习判别式交叉模态嵌入。最常用的函数包括典型相关分析（CCA）[44]和双向排名损失[39，40，21]。与基于CCA的方法相比，双向排序损失产生更好的稳定性和性能[40]，并且越来越广泛地用于交叉模态匹配[39，21]。然而，它遭受采样有用的三胞胎和选择适当的利润率在实际应用中。尽管这些深度学习技术在匹配图像和文本时取得了巨大成功，但最近的一些工作[28，16，15]探索了具有身份级别标记的更有效的跨模态匹配算法。这些研究工作表明，通过引入类别分类损失作为辅助任务[28]或预先训练的初始化[16，15]，可以大大增强学习的图像-文本嵌入的辨别能力。考虑到独立分类可能无法充分利用跨模态特征学习的身份信息，[15]开发了跨模态交叉熵（CMCE）损失，它采用跨模态样本到身份的亲和力进行类别预测，而这种策略需要分配额外的身份特征缓冲区，当有大量主题时，这可能会带来大量的内存消耗。为了解决这些问题，我们提出了跨模态投影匹配（CMPM）损失和跨模态投影分类（CMPC）损失，它引入了跨模态特征投影操作，用于学习区分性的图像-文本嵌入。CMPM损失试图最小化投影相容性分布和归一化匹配分布之间的KL散度，以便增加不匹配样本之间的方差和匹配样本之间的关联。CMPM损失函数不需要选择特定的三元组或调整裕度参数，并且在各种批量大小下具有很大的稳定性。对于具有身份标签的辅助分类任务，CMPC损失尝试将来自一个模态的特征的向量投影分类到来自另一模态的匹配特征上，而不是独立地对原始特征进行分类。大量的实验和分析表明，该方法的优越性，有效地学习判别图像-文本嵌入。双向LSTM蓝可视化LSTMLSTM裙子LSTMLSTM最大池化头LSTMLSTM联合嵌入学习…用于图像-文本匹配的深度跨模态投影学习32相关工作2.1深度图文匹配大多数现有的基于深度学习的图像和文本匹配方法可以大致分为两类：1）联合嵌入学习[39，15，44，40，21]和2）成对相似性学习[15，28，22，11，40]。联合嵌入学习的目的是找到一个联合的潜在空间，在这个潜在空间下，图像和文本的嵌入可以直接进行比较。这种类型的方法通常将来自两种模态的特征与相关性损失[44]和双向排名损失[39，40，21]相关联。深度典型相关分析（DCCA）[44]旨在学习使用深度网络的两个数据视图的非线性变换，使得所得表示高度线性相关，而DCCA的主要警告是每个小批量中不稳定的协方差估计带来的特征值问题[23，40]。双向排名损失[39，40，21]扩展了三重损失[29]，这需要匹配样本之间的距离比不匹配样本之间的距离小一个余量，以用于图像到文本和文本到图像排名。而双向排序损失继承了从三重损失中选择负样本和余量的缺点成对相似性学习的核心是设计一个相似性网络来预测图像-文本对的匹配得分。除了努力[40]为了测量图像和文本之间的全局相似性，许多研究工作[15，28，22，11，26]试图最大化图像区域和文本片段之间的对齐然而，这种策略可能缺乏效率，涉及准备所有的图像-文本对，以预测在测试阶段的匹配分数。对于具有身份级注释的图像-文本匹配，Reedet al. [28]提出了学习具有类别标签指示的区分性图像-文本联合嵌入，并收集了两个细粒度视觉描述数据集，而[16]则试图在身份分类的支持下搜索具有语言描述的人。作为改进，Lietal.[15]开发了一种用于文本视觉匹配的两阶段学习策略。第一阶段在身份标签的监督下使用跨模态交叉熵（CMCE）损失对网络进行预训练，第二阶段使用潜在共同注意在成对标签的监督下进行限制2.2判别特征学习近年来，用于学习区分特征的深度神经网络取得了进展，这在许多视觉任务中具有重要意义，例如人脸识别[32，29，41，20，19]，人脸验证[33，37]和人员重新识别[42，8，2]。直观的、有区别的特征应该能够最大化类间的可分性和类内的紧凑性。作为用于学习强表示的最广泛使用的监督损失，交叉熵损失（或softmax损失）[32，33，42]在各种应用中取得了显着的成功尽管如此，许多研究工作一直集中在4Y. Zhang和H. 陆改进以生成更多区分性特征。Wen等人[41]提出了中心损失来辅助用于人脸识别的softmax损失，其中样本与相应的类中心之间的距离被最小化以提高类内紧凑性。Liu等开发了L-softmax [20]，其将角度裕度引入softmax损失以进一步提高特征可分性，并通过添加分类权重的归一化将其细化为A-softmax [19]。值得注意的是，A/L-softmax通过结合角度裕度来施加特征区分度，以在人脸识别中取得显着的效果。然而，角度和权重的强烈限制使得模型在实际应用中难以收敛[36，3，38]，特别是当训练数据具有太多主题时。Ranjan等人[27]提出对特征进行归一化，以加强验证信号并更好地对困难样本进行建模。Wang等人[37]通过对特征和分类权重进行归一化来修改softmax损失，这以更容易的实现来实现性能改进。另一方面，深度度量学习通过学习一般的距离度量而获得越来越多的普及，在一般的距离度量下，相关样本之间的距离小于不相关样本之间的距离Hadsell等人[5]提出了对比损失，以最小化相似点之间的距离，并限制不相似点之间的距离小于一个余量。Schroff等人[29]设计了三重损失，以鼓励匹配的人脸对和不匹配的人脸对之间的相对距离约束，并且在[8]中已经证明对于匹配来自不同相机的最近，四重损失[2]向三重损失添加了该算法还引入了自适应间隔来计算距离惩罚和选择负样本。不幸的是，在应用上述损失函数时存在两个主要挑战：采样有用的数据单元（即，正和负对、三联体或四联体）并确定适当的边界。生成所有可能的三元组将导致繁重的计算和较慢的收敛[29]，而对最难的负数进行采样可能会导致网络收敛到糟糕的局部最优值[29，31]。[29]建议在线从小批量中选择半硬阴性样本，而这种策略需要大批量来选择有用的阴性样本。Song等人[31]优化了原始三重态损失的平滑上限，并利用了小批量内的所有阴性样品，Sohn等.[30]提出了N对损失的形式，多类softmax损失的要求，精心挑选的冒名顶替的例子。为了避免高度敏感的参数，开发了直方图损失[34]来估计小批量中所有阳性和阴性对的相似性分布，然后最小化随机阴性对比随机阳性对具有更高相似性的概率，在这种情况下，优选大批量以实现更好的性能。然而，用于学习嵌入以保持样本的关联关系的这些修改是专门针对单模态应用设计的，并且可能不容易适应跨模态匹配问题。用于图像-文本匹配的深度跨模态投影学习5j=1我我j=1我3该算法3.1网络架构我们提出的方法的框架如图所示。1.我们可以看到，图像-文本匹配架构由三个组件组成：用于提取图像特征的视觉CNN、用于编码文本特征的双向LSTM（Bi-LSTM）、以及用于关联交叉模态表示的联合学习模块。给定一个句子，我们应用基本的标记并将其拆分为单词，然后用Bi-LSTM顺序处理它们。该方法将前向和后向的隐藏状态连接起来，并采用最大池化策略得到初始文本表示。对于图像，我们使用MobileNet [9]并从最后一个池化层中提取其初始特征。在关联模块中，提取的图像和文本特征被嵌入到一个共享的潜在空间，其中匹配的特征之间的兼容性和不匹配的样本之间的方差最大化。在本文中，我们专注于学习关联模块中的判别特征，并在以下部分中描述所提出的跨模态投影匹配（CMPM）和跨模态投影分类（CMPC）损失函数。3.2跨模态投影匹配我们引入了一种新的图像 - 文本匹配损失称为跨模态投影匹配（CMPM），它将跨模态投影到KL散度中，以关联不同模态的表示。给定具有n个图像和文本样本的小批量，对于每个图像xi，图像-文本对被构造为{（xi，zj），yi，j}n，其中yi，j= 1表示（xi，zj）是匹配的对，而yi，j= 0表示不匹配的对。将xi匹配到zj的概率定义为exp（xz¯）zp=ijS. t.z¯=j（一）i、jnk=1exp（xz¯k）jzjwherez¯jdeno teste Geometricallyxz¯j将标量投影图像特征xi投影到文本特征zj，并且可以查看pi，j作为（xi，zj）在所有对{（xi，zj）}n中的标量投影的百分比一小批。图2（a）示出了交叉模态投影的几何解释。我们可以看到，图像特征与文本特征越相似，标量投影就越大。请注意，如果两个矢量在不受约束的方向上被选择，则标量投影可以被忽略，如xz k在图.考虑到在一个小批量中xi可能有多个匹配的文本样本，我们将（xi，zj）的真实匹配概率归一化为q=Σyi，ji、jnk=1 yi，k（2）6Y. Zhang和H. 陆qi，j+24塞吉232i(a)交叉模态投影（b）交叉模态匹配图二.跨模态投影和匹配的解释。(a)图像特征xi被投影到不同的文本方向上，并且xi到匹配文本zi上的标量投影大于不匹配文本zj和zk的标量投影。(b)对于图像x1，其中z1和z3作为小批量中的匹配候选（绿色箭头线），并且其他文本作为不匹配样本（红色箭头线），CMPM损失试图找到具有低概率的分布p1，其中真正的匹配分布q1具有低概率将xi与正确匹配的文本样本相关联的匹配损失定义为Li= Σnj=1pi，jlogpi，j（3）其中是一个小数字，以避免数值问题，并且在小批量中从图像到文本的匹配损失通过以下公式计算：L=1ΣnL（四）i2tni=1i请注意，方程式3实际上表示从分布qi到pi的KL发散，并且最小化KL（piqi）在h处的选择，其中qi具有低概率[4]。图2（b）示出了所提出的具有小批量数据的匹配损失，我们可以看到，图像X1的真实匹配分布q1具有多个模式，在小批量中具有多于一个匹配文本候选，并且所提出的匹配损失尝试选择单个模式分布P1以避免将概率质量放在q1的模式之间的低概率区域中，使得匹配损失的兼容性降低。不匹配的图像-文本对被最小化，而匹配对的相关性被最大化。注意，给定一个图像，在一个小批量中的所有正文本和负文本候选被考虑用于计算匹配损失，摆脱了传统双向排名损失中的专用采样过程。通过使用KL（qipi）来最大化匹配对的兼容性以用于学习区分性嵌入，来挖掘该一致性。如在[4]中所解释的，KL（qipi）将很难找到pi作为一个布尔模，从而在qi具有高概率的情况下以高概率生成。这可能导致当在c h处存在多个正对时区分匹配对和不匹配对的困难。 KL（piqi）对KL（qipi）的改进将在实验中得到证实。p1（一）z1z$z1&…科用于图像-文本匹配的深度跨模态投影学习7i=1i=1i=1JJ在图像-文本嵌入学习中，匹配损失通常在两个方向上计算[39，40，21]：图像到文本匹配损失要求匹配的文本比不匹配的文本更接近图像，反之，文本到图像匹配损失限制相关文本排在不相关文本之前。类似地，从文本到图像的匹配损失Lt2i可以通过在等式（1）中交换x和z来公式化。1 - 4，并且双向CMPM损耗由下式计算：Lcmpm=Li2t+Lt2i（5）3.3跨模态投影分类对于具有身份级注释的图像-文本匹配，应用于每个模态的分类损失有助于学习更多的区分特征。然而，在单独的分类任务中，图像-文本对的匹配关系可能没有被充分利用在本节中，我们开发了一种新的分类函数，其中交叉模态投影被集成到norm-softmax损失中，以进一步增强匹配嵌入的紧凑性。Norm-softmax首先，我们通过查看softmax分类器的决策准则给定提取的图像特征X={xi}N从视觉CNN，文本特征Z={zi}N从Bi-LSTM，以及标签集Y={yi}N从M个类别中，原始softmax损失用于分类图像可以计算为1Σexp（Wxi+by）Lsoftmax=N−log（对数）Ijyiexp（Wxi我+bj））（6）其中yi指示xi的标记，Wyi和Wj表示在ri x W处的第yi和第j列，并且byi和bj表示偏置向量b的第yi和第j个元素之外的特定元素。为了提高分类期间图像特征xi的辨别能力，我们对softmax损失施加权重归一化，如[37，19]，并重新公式化等式（1）。6作为1Σexp（Wxi）L图像=N−log（对数）Ijyiexp（Wxi））s.t. Wj与原始softmax损失相比，norm-softmax损失将所有权重向量归一化为相同的长度，以减少权重大小对区分不同样本的影响。在这里，为了简化分析，我们省略了偏差b，实际上发现它与[20，19]没有区别norm-softmax损失的直观解释如图所示。3.我们可以看出，对于原始softmax，分类结果取决于<$Wk<$$>x<$cos（θk），（k=1，2），其中θk表示x和Wk之间的角度。对于norm-softmax，所有的权向量都被归一化为相同的长度，分类结果只依赖于xcos（θk）。这种限制促使特征x沿权重分布得更紧凑向量，以便正确分类。8Y. Zhang和H. 陆JJW/W/W0W0(a)softmax loss（b）norm-softmax loss图三. softmax和norm-softmax跨模态投影在本文中，我们试图分类的图像特征的投影到相应的文本特征，而不是分类的原始特征表示。跨模态投影将图像-文本相似性集成到分类中，从而增强匹配对内的关联。通过将跨模态投影合并到norm-softmax中，我们可以重新公式化Eq.7作为Σexp（Wx）L=1−log（对数）伊伊）s. t. W（八）iptN我exp（Wxi）jii我我whe re xiden t e因此，所有这些处理的特征x都在Wy的方向上进行必要的存储，以使图像特征xi投影到其上，以便促进正确的分类。文本分类损失函数可以写为Σexp（Wz）L=1−log（对数）伊伊）s. t. W（九）tpiN我exp（Wzi）i iii最终CMPC损失可以通过以下公式计算：Lcmpc=Lipt+Ltpi（10）3.4目标函数对于仅具有成对对应的匹配任务，我们可以利用所提出的CMPM损失来学习区分性图像-文本嵌入。如果身份标签是可用的，我们采用联合建议CMPM损失和CMPC损失更准确地关联的跨模态表示。总体目标函数被公式化为L=Lcmpm+Lcmpc（11）在测试阶段，给定图像和文本，我们首先分别使用视觉CNN和Bi-LSTM网络提取图像特征x和文本特征z。然后计算x和z之间的余弦距离，用于图像到文本和文本到图像的检索评估。JJ用于图像-文本匹配的深度跨模态投影学习94实验4.1数据集和设置数据集在我们的实验中使用了五个数据集Flickr30K[45]数据集包含31，783张图像，每张图像都有五个文本描述。我们采用[12]中的数据分割，使用29，783张图像进行训练，1，000张图像用于验证，1，000张图像用于测试。MSCOCO[17]数据集由12，3287张图像组成，每张图像也由五句话描述根据[12]的协议，我们将数据分为82，783个训练，30，504个验证和5，000个测试图像，并报告5K和1K（5倍）测试图像的评估结果。CUHK-PEDES[16]数据集包含13， 003个身份的40， 206个行人图像，每个图像由两个文本描述描述数据集被分成11003个训练身份，34054个图像，1000个验证1000个测试个体具有3，078个图像，1000个测试个体具有3，074个图像。加州理工大学-加州大学圣地亚哥分校鸟类（CUB）[28]数据集由来自200个不同类别的11，788张鸟类图像组成。每个图像都标有10个视觉描述。该数据集分为100个训练，50个验证和50个测试类别。Oxford- 102 Flowers（Flowers）[28]数据集包含102个不同类别的8， 189个花卉图像，每个图像有10个数据分割提供62个训练、20个验证和20个测试类别。评估指标我们采用Recall@K（K=1，5，10）[12]和AP@50 [28]进行检索评估。Recall@K（或R@K）指示在前K个结果中检索到至少一个地面实况的查询的百分比，并且AP@50表示其类别与文本查询的类别匹配的前50个得分图像的百分比，在所有测试类别上平均。所有模型都在TensorFlow中使用NVIDIA GEFORCE GTX 1080 GPU实现。对于所有数据集，我们分别使用MobileNet [9]和Bi-LSTM来学习视觉和文本特征。adam优化器[13]用于lr = 0的优化。0002. 对于Flickr 30 K和MSCOCO，我们还报告了使用ResNet-152 [7]作为图像特征提取器的结果，其中我们从lr = 0开始训练。0002，用固定的图像编码器训练15个时期，然后用LR = 0训练整个模型。00002持续30个时期。4.2Flickr30K数据集我们在表1中总结了Filckr30K数据集上检索结果的比较。我们可以看到，在MobileNet作为图像编码器的情况下，所提出的CMPM损失实现了R@1=37的竞争结果。1%的图像到文本检索，和R@1=29。1%用于文本到图像检索。性能可以提高到48。3%和35。7%分别采用ResNet-152与RRF-Net [21]和DAN [26]。我们还探讨了CMPC损失的辅助效果，通过训练分类器单个类别的图像，我们观察到，检索结果可以进一步提高约1。3%，证明了跨模态投影学习用于图像-文本匹配的有效性。10Y. Zhang和H. 陆表1.Flickr 30 K上双向检索结果（R@K（%））的比较方法图像到文本R@1 R@5 R@10文本到图像R@1 R@5 R@10DCCA [44]16.739.352.912.631.043.0DVS [12]22.248.261.415.237.750.5m-CNN [22]33.664.174.926.256.369.6VQA-A [18]33.962.574.524.952.664.8DSPE [39]40.368.979.929.760.172.1sm-LSTM [11]42.571.981.530.260.472.3RRF-Net [21]47.677.487.135.468.379.9DAN [26]55.081.889.039.469.279.1CMPM（移动网络）37.165.876.329.156.367.7CMPM+CMPC（移动网络）40.366.976.730.458.268.5CMPM（ResNet-152）48.375.684.535.763.674.1CMPM +CMPC（ResNet-152）49.676.886.137.365.775.54.3MSCOCO数据集我们将所提出的方法与表2中的MS-COCO数据集上的现有技术方法进行比较。我们可以看到，对于1K测试图像，所提出的CMPM损失达到R@1=56。1%，44。6%的人以图片和文字为查询对象。对于5K测试图像，该算法实现了R@1=31。1%，22。9%，以7. 0%和5。3%，进一步验证了所提出的损失函数的优越性。4.4CUHK-PEDES数据集表3将所提出的方法与CUHK-PEDES数据集上的现有方法进行了比较。我们可以看到，建议的CMPM损失达到44。02%的R@1和77. R@10的00%，大幅超越第二名当我们添加由身份级注释监督的CMPC损失时，文本到图像检索性能进一步提高到49。R@1为37%，79。R@10为27%。这说明了CMPM损失对于人员搜索应用的有效性，以及当类别标签在实际应用中可用时CMPC损失的促进效果。4.5CUB和Flowers数据集CUB和Flowers数据集上图像到文本和文本到图像检索结果的比较考虑到在我们的方法中实现了双向损失，我们选择现有方法的对称结果[15]进行公平比较。我们可以看到，所提出的算法优于最先进的，实现了64.3%的R@1的图像到文本的检索和67.9%的AP@50的文本到图像的检索CUB，并报告了最好的R@1的68.90%的图像到文本的检索和第二个最好的AP@50的69.70%的文本到图像的检索花卉。用于图像-文本匹配的深度跨模态投影学习11表2.MSCOCO双向检索结果（R@K（%））的比较方法图像到文本R@1 R@5 R@10文本到图像R@1 R@5 R@101K测试图像DVS [12]38.469.980.527.460.274.8GMM-FV [1]39.467.980.925.159.876.6m-CNN [22]42.873.184.132.668.682.8VQA-A [18]50.580.189.737.070.982.9DSPE [39]50.179.789.239.675.286.9sm-LSTM [11]53.283.191.540.775.887.4RRF-Net [21]56.485.391.543.978.188.6CMPM（移动网络）51.480.889.840.973.985.2CMPM+CMPC（移动网络）52.983.892.141.374.685.9CMPM（ResNet-152）56.186.392.944.678.889.05K测试图像DVS [12]16.539.252.010.729.642.2GMM-FV [1]17.339.050.210.828.340.1VQA-A [18]23.550.763.616.740.553.8CMPM（移动网络）23.951.565.418.943.856.9CMPM+CMPC（移动网络）24.652.366.419.144.658.4CMPM（ResNet-152）31.160.773.922.950.263.8表3.CUHK-PEDES上文本到图像检索结果（R@K（%））的比较方法文本到图像R@1 R@10更深的LSTM Q+范数I [1]17.1957.82iBOWIMG [46]8.0030.56NeuralTalk [35]13.6641.72字CNN-RNN [28]10.4836.66GNA-RNN [16]19.0553.64GMM+HGLMM [4]15.0342.27潜在的共同关注[15]25.9460.48CMPM44.0277.00CMPM+CMPC49.3779.275消融研究为了研究CMPM和CMPC损失的每个组成部分的影响，我们对CUHK-PEDES数据集进行了我们在三个方面做了进一步的对比实验：CMPM损失与各种批量大小下的其他匹配损失的比较，跨模态投影和权重归一化对CMPC损失的影响，以及在不同损失的情况下学习的跨模态特征分布。12Y. Zhang和H. 陆表4. CUB和Flowers数据集上图像到文本（R@K（%））和文本到图像（AP@K（%））检索结果的比较方法幼崽图像到文本文本到图像R@1 AP@50花图像到文本文本到图像R@1 AP@50弓[6]44.139.657.757.3[25]第二十五话38.633.554.252.1[28]第二十八话51.043.360.756.3字CNN-RNN [28]56.848.765.659.6GMM+HGLMM [4]36.535.654.852.8三重[15]52.552.464.364.9潜在的共同关注[15]61.557.668.470.1CMPM62.164.666.167.7CMPM+CMPC64.367.968.969.75.1跨模态匹配表5比较了建议的CMPM损失与CUHK-PEDES数据集上不同批次大小的常用双向排序（双排序）损失[39，40，21]、最相似的N对损失[30]和组氨酸序列损失[34]我们添加了图像到文本检索评估，以更全面地分析学习的嵌入，因为好的跨模态嵌入应该能够执行双向匹配任务。注意，所有损失函数都以双向模式实现，并且三元组被在线采样。表5.CUHK-PEDES数据集上不同批次大小的跨模态匹配函数的R@1（%）比较匹配损耗16文本到图像32 6412816图像到文本32 64128双秩[21]31.1137.8542.1141.4232.5641.2847.4646.88直方图[34]14.6819.2021.7021.314.7813.5313.042.88N-pair [30]34.5745.5545.6839.3317.6613.6612.0710.83KL（qipi）42.5843.8141.8936.0641.8738.8122.3519.97CMPM42.2843.4244.0242.4351.9552.0951.9848.67从表中我们可以看到，当批量大小在16和128之间变化时，以前的匹配损失波动很大。由于负采样要求，双向排名损失取决于较大的批量大小以生成比较匹配精度[29]。直方图损失[34]的性能比其他跨模态匹配方法差N对损失[30]在中等批量大小下产生更好的文本到图像检索结果，而图像到文本匹配性能要差得多。这可能是由于用于图像-文本匹配的深度跨模态投影学习13图像和存储器的典型间隙可从两个工作站的差异中删除。第3.2节中讨论的KL（qipi）在批量较小时产生令人满意的结果，而在批量较大（128）时恶化。这进一步验证了以下分析：当在较大的小批量中存在更多的正对时，模糊多个模式的不适当的KL方向可能导致图像-文本匹配的模糊性相比之下，本文提出的CMPM损失算法在不同批量下的匹配结果更加稳定（R@1在文本到图像检索中保持在42%以上），且在批量过小或过大时优势更加明显，具有很大的优越性和广泛的适用性.5.2跨模态分类表6.CUHK-PEDES数据集上跨模态投影学习的不同组件的R@1（%）比较匹配CMPM分类softmax normWCMP文本到图像R@1 R@10图像到文本R@1 R@10✓✗✗✗44.0277.0051.9887.02✓✓✗✗45.3878.4355.1489.30✓✓✓✗47.1278.3856.5190.50✓✓✗✓46.9579.4055.8289.17✓✓✓✓49.3779.4557.7191.28✗✓✗✓16.9340.9017.6343.98✗✓✓✓42.2573.2950.7285.95表6示出了在CUHK-PEDES数据集上的图像-文本嵌入学习中的softmax损失、权重归一化（normW）和交叉模态投影（CMP）的影响。我们可以看到，添加监督损耗确实提高了匹配性能，而原始softmax损耗提供了有限的帮助。通过加入权值归一化，图像到文本检索的R@1率从45.38%提高到47.12%，文本到图像检索的R@1率从55.14%提高到56.51%。跨模态投影进一步提高了双向检索结果2。25%和1。百分之二十我们还注意到，CMPC损失单独实现的图像-文本匹配和重量归一化的竞争力的结果带来了显着的改善。这表明权重归一化和跨模态投影在学习有区别的跨模态表示中的有效性5.3特征可视化为了更好地理解所提出的跨模态匹配损失和跨模态分类损失对学习区分性图像-文本嵌入的影响，我们展示了t-SNE [24]可视化使用14Y. Zhang和H. 陆12080121421229912080121421229912431 1243112142122991241712431127391214212299124171243112739(a) CMPM（b）CMPM + CMPC见图4。与所提出的方法学习的CUHK-PEDES数据集上的CMPM损失和 CMPM+CMPC损失。从图 4（a）中，我们可以看到CMPM损失学习沿着径向辐条分布的图像-文本嵌入，其中来自相同类别的图像和文本特征大致位于相同方向。这种类型的角分布与传统的softmax损耗[19]一致，因此，增加的CMPC损耗自然地改善了沿每个辐条的特征的紧凑性，如图11所示。第4（b）段。我们还可以观察到，图像特征区域的半径小于文本特征，这表明不同网络带来的标量间隙（即，用于图像CNN网络和用于文本的Bi-LSTM）。在实验中，我们得到的平均长度（值为52）。62用于图像特征，128. 92为文本特征。跨模态分布表明跨模态投影中的特征归一化对于弥合图像-文本嵌入学习中的标量差距的重要性。6结论在本文中，我们提出了一种新的跨模态投影匹配损失（CMPM）和跨模态投影分类（CMPC）损失，用于学习深度区分的图像-文本嵌入。CMPM损失利用KL散度来最小化不匹配的图像-文本对的兼容性得分，同时最大化匹配的图像-文本对之间的相关性。该算法在不同批量下具有很好的稳定性和优越性，无需三重抽样和边缘选择，避免了传统的双向排序损失。CMPC损失将匹配关系合并到辅助分类任务中，这进一步增强了每个类别的表示在未来，我们将致力于如何更好地交互匹配任务和分类任务中的身份感知匹配问题。鸣谢。本工作得到国家自然科学基金61725202、61751212、61771088、61632006和91538201的资助。文本文本124171241712739127391276512765图像图像12080120801276512765用于图像-文本匹配的深度跨模态投影学习15引用1. Antol，S.，阿格拉瓦尔，A.，卢，J，Mitchell，M. Batra，D.，Zitnick，C.L.，Parikh，D.：VQA：Visualqesti onsweringg. In：I C CV. pp. 24252. 陈伟，陈旭，张杰，Huang，K.：除了三重态损失：深度四元组网络用于重新识别。 In：CVPR. pp. 13203. Deng，J.，郭杰，Zafeiriou，S.：Arcface：用于深度人脸识别的附加角度余量损失。1801.07698（2018）4. 古德费洛岛Bengio，Y.，Courville，A.：深度学习MIT Press（2016），http://www.deeplearningbook.org5. 哈德塞尔河Chopra，S.，LeCun，Y.：通过学习一个in-variantmapping进行降维。 In：CVPR. pp. 第17356. Harris，Z. S. ：Di stributtionalstructure. W〇rd10（2-3），1467. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。In：CVPR. pp. 7708. Hermans，A.拜尔湖莱贝B：在三胞胎丢失的辩护中重新进行了人的鉴定。1703.07737（2017）9. Howard，A.G.，Zhu，M.，陈伯，Kalenichenko，D.王伟，Weyand，T.，安德里托，M.，Adam，H.：Mobilenets：用于移动视觉应用的高效卷积神经网络。1704.04861（2017）10. 胡河徐，H.，Rohrbach，M.，冯杰，Saenko，K.达雷尔，T.：自然语言或文本检索。In：CVP R.pp. 455511. 黄，Y.，王伟，Wang，L.：实例感知的图像和句子匹配，使用敏感的多模型STM。In：CVP R.pp. 725412. Karpathy，A.，Li，F.：用于生成图像描述的深度视觉语义对齐。 In：CVPR. pp. 312813. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法。arXiv：1412.6980（2014）14. 克莱因湾Lev，G.，Sadeh，G.，沃尔夫湖：将神经词嵌入与深度记忆表示相关联使用fishvector。In：CVP R.pp. 443715. Li，S.，Xiao，T.，Li，H.，杨伟，Wang，X.：具有身份感知的文本视觉匹配。In：ICCV.pp. 190816. Li，S.，Xiao，T.，Li，H.，Zhou，B.，（1991年），中国地质大学，Yue，D.，Wang，X.：使用自然语言进行人员搜索。In：CVP R.pp. 518717. 林，T.，我是M Belongie，S. J. 嗨，J.， Perona，P.， Ramanan，D. ，Dolla'r，P.，Zitni ck，C. L. ：MicrosoftCOCO：commonobjctsincontext. In：ECCV. pp. 第74018. 林，X.，Parikh，D.：利用视觉问答进行图像标题排名。 In：ECCV. pp.26119. 刘伟，Wen，Y.，于志，Li，M.，Raj，B.，Song，L.：球面：深超球面，适用于面轮。 In：CVPR. pp. 673820. 刘伟，Wen，Y.，于志，Yang，M.：卷积神经网络的大余量softmax损失。 In：ICML. pp. 50721. Liu，Y.，Guo，Y.，中国科学院，Bakker，E.M.，Lew，M.S.：学习用于多模型处理的递归残差融合网络。In：ICCV.pp. 412722. 马，L.，吕志，尚湖Li，H.：多模态卷积神经网络用于处理图像和序列。In：ICCV. pp. 262323. 妈，Z.，吕，Y.，福斯特，D.P.：在具有可扩展的计算机核的大型数据集中找到线性结构是可行的。In：ICML.pp. 16916Y. Zhang和H. 陆24. van der Maaten ， L. ：使用基于树的算法加速 t-SNE 。 JournalofMachineLearngReserch15（1），322125. Mikolov，T.，萨茨克弗岛Chen，K.，科罗拉多州科拉多Dean，J.：分布式表示单词和短语以及其他组件。In：NIPS.pp. 311126. Nam，H.，哈J Kim，J.：用于多模态推理和管理的双注意力网络。In：CVP R.pp. 215627. Ranjan河卡斯蒂略哥伦比亚特区切拉帕河：用于区分性人脸验证的L2约束softmax损失。1703.09507（2017）28. Reed，S.E.，Akata，Z.，李，H.，Schiele，B.：学习精细分级驱动器的深度表示是使用的脚本。 In：CVPR. pp. 4929. Schroff，F.，Kalenichenko，D. Philbin，J

下载后可阅读完整内容，剩余1页未读，立即下载