深度监督跨模态检索方法的介绍及其优势

121 浏览量更新于2023-10-19 收藏 688KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1深度监督跨模态检索四川大学计算机学院机器智能实验室，四川llzhen@outlook.com，{penghu.ml，wangxu.scu}@ gmail.com，pengdz@scu.edu.cn摘要跨模态检索旨在实现跨不同模态的灵活检索。跨模态检索的核心是如何度量不同类型数据之间的内容相似性。在本文中，我们提出了一种新的跨模态检索方法，称为深度监督跨模态检索（DSCMR）。它的目的是找到一个公共的表示空间，在该空间中，来自不同模态的样本可以直接比较。具体地说，DSCM-R最小化标签空间和公共表示空间中的区分损失，以监督模型学习区分特征。此外，该方法还同时最大限度地减少模态不变性损失，并采用权值共享策略消除多媒体数据在公共表示空间中的跨模态离散性，从而学习模态不变性特征.在四个广泛使用的基准数据集上的综合实验结果表明，该方法是有效的跨模态学习，并显着优于最先进的跨模态检索方法。1. 介绍跨模态检索旨在实现跨不同模态的灵活检索（例如，文本与图像）[30]。它将一种类型的数据作为查询来检索另一种类型的相关数据。所提供的跨各种模态的搜索结果可以有助于用户获得关于目标事件或主题的详细信息。随着互联网上不同类型的媒体数据（如文本，图像和视频）的快速增长，跨模态检索在现实世界的应用中变得越来越重要[32]。近年来，跨模态检索引起了学术界和工业界的广泛关注。跨模态检索的挑战是如何度量不同类型的前两位作者对这项工作的贡献相当。[14] D.彭为通讯作者。数据，因为他们，这被称为异质性差距[32]。弥合异质性差距的一种常见方法是表征学习。它试图找到一个函数，将不同模态的数据样本转换到一个公共的表示空间，在这个空间中，它们之间的相似性可以直接测量已经开发了各种跨模态检索方法[20]，它们提出了不同的学习方法来寻找公共空间。传统的线性投影学习算法利用统计相关分析，通过优化目标统计值来学习例如，典型相关分析（CCA）[8]是最具代表性的工作之一，它通过最大化两组异构数据之间的成对相关性来学习然而，在现实世界中的多媒体数据的相关性是太复杂了，完全建模仅通过应用线性投影。然后，已经开发了一些基于核的方法来解决这个问题，但是如何为特定的跨模态学习应用选择合适的核函数仍然是一个未解决的问题。受深度神经网络巨大成功的启发-在表示学习[14]中，已经提出了大量基于深度学习的方法[2，33，19，36，21，25，7]来学习多媒体数据的公共表示空间。例如，Ngiam等人。 [18]提出了一种双峰深度自动编码器来学习跨模态相关性以及保留重建信息，并应用受限玻尔兹曼机（RBM）来学习跨模态检索的公共空间与以非监督方式学习常见表示的[18]不同它们潜在地能够在公共表示空间中的类之间提供更好的在这类方法中，Jiang等人 [9]提出使用标签信息来学习来自模态间的样本之间的此外，通过强制每个图像-文本对的表示接近于1039410395在一个共同的汉明空间中。在[35]中，Wang等人提出了一种基于深度卷积神经网络（CNN）和神经语言模型（NLM）的多模态深度神经网络（MDNN），以分别学习图像模态和文本模态的映射函数。分类信息（样本的利用欧氏距离度量图像-文本对的表征差异，指导跨模态学习。在[30]中，分类信息还用于在特征投影期间学习数据中的模态内判别。值得注意的是，即使在这些方法中使用了分类信息，分类信息也仅用于学习每个模态内或模态间的区分特征在这些跨模态学习方法中，语义信息没有得到充分利用。在本文中，我们提出了一种新的跨模态检索方法，称为深度监督跨模态检索（D-SCMR）。它的目的是保持不同语义类别的样本之间的区别，并消除跨模态的差异。为了实现这一目标，它最小化样本在标签空间和公共表示空间中的区分损失，以监督我们的模型学习区分特征。此外，它同时最小化模态不变性损失，并使用一个权重共享策略来学习模态不变的特征在共同的表示空间。在这种学习策略下，成对标签信息和分类信息都被尽可能充分地利用，以确保所学习的表示在语义结构上是有区别的，并且在模态之间是不变的。这项工作的主要贡献可归纳如下：• 提出了一种深度监督的跨模态学习架构它可以有效地学习常见的通过以端到端的方式同时消除语义区分和模态变化来实现异构数据的表示。• 在最后一层建立了两个具有权值共享约束的子网络，用于学习图像和文本模态之间的跨模态相关性。毛皮-然后，将模态不变性损失直接代入目标函数，消除了模态间的差异。• 线性分类器被应用于对公共表示空间中的样本进行分类。通过这种方式，DSCM-R最小化了标签和空间和公共表示空间，使得所学习的公共表示具有显著的区别性。• 广泛使用的基准数据集上进行了广泛的结果表明，我们的方法优于目前的最先进的方法的跨模态检索，这表明所提出的方法的有效性。本文件的其余部分组织如下。第二节回顾了跨通道学习的相关研究。第三节介绍了所提出的方法，包括问题的制定，DSCMR模型，目标函数和实现细节。第4节提供了实验结果和分析。第五节是本文的总结。2. 相关工作跨模态学习方法旨在学习一个共同的表示空间，其中来自不同模态的样本之间的相似性可以直接测量。已经提出了各种方法来学习这样的公共表示空间，其可以大致分为两类：1）二进制值表示学习[9，3，41]，也称为交叉模式散列，以及2）实值表示学习[30，19，21]。二进制值方法更倾向于计算效率，并将异构数据映射到公共汉明空间中，其中跨模态检索将是快速的。由于表示被编码为二进制代码，因此由于信息的丢失，检索精度通常会略有下降[20]。本文所提出的方法是一种实值表示学习方法。这一类别包括无监督方法[2，5，33]，成对方法[38，39，31]和监督方法- es [32，28]。无监督方法仅使用共现信息（共存于多媒体文档中）来学习不同类型数据的共同表示 CCA 、深度 CCA（DCCA）[2]、相关自动编码器（Corr-AE）[5]和深度经典相关自动编码器（DCCAE）[33]是该子类的代表性方法。基于配对的方法利用更多相似的配对来学习用于比较来自不同模态的样本的意义度量。该子类的代表性方法包括具有全局一致性和局部平滑性的多视图度量学习（MVML-GL）方法[38]，联合图正则化异构度量学习（JGRHML）方法[39]和特定于模态的深度结构（MSDS）方法[31]。为了学习更多有区别的公共表示，监督方法利用标签信息来区分来自不同语义类别的样本。的10396我…图像模态…语篇情态最初的高级别陈述标签空间图1.提出的DSCMR方法的一般框架图像和文本分别被输入到图像CNN [13]和文本CNN [37]中，然后，在它们的顶部分别添加一些全连接层，以将来自不同模态的样本映射到公共表示空间中。最后，一个线性分类器（P中的参数）来预测每个样本的类别，以监督网络学习跨模态变换函数f（·）和g（·）。监督方法强制不同类别的样本，对，记作n={（xα，xβ）}n，其中xα是在-i i i=1i当相同类别的样本尽可能接近时，为了获得这样的公共空间，Put图像样本，并且xβ是第i个输入文本样本，instance. 每对实例（xα，xβ）都已被分配我我Sharama等人 [28]提出了一个C的监督扩展，广义多视图分析（GMA），通过使用语义类别标签来指导共同表示的学习。最近在[9]，[22]和[30]中提出的方法也利用语义类别标签来学习跨模态检索的区分特征。在[22]和[30]中，对抗学习[6]也被用来提高跨模态学习的性能他们都取得了跨模态检索任务有前途的性能。语义标签向量yi=[y1 i，y2 i，. . . ，yci] ∈ Rc，其中c是范畴数. 如果第i个实例属于第j个类别，则y ji=1，否则y ji= 0。由于图像特征向量和文本特征向量通常具有不同的统计特性，在不同的表示空间中，它们不能直接相互比较以进行跨模态检索[30]。跨模态学习是学习两个功能两个模态：ui=f（xα;α）∈Rd对于图像模态-本文致力于充分利用分类βi信息来指导模型学习不同类型数据的更多区别性和模态不变表示，并弥合异质性差距，从而提高跨模态检索准确性。3. 该方法在本节中，我们首先介绍跨模态检索问题的公式化。然后，我们提出了建议的方法来学习来自不同模态的数据的共同表示。最后给出了该方法的具体实现细节。3.1. 问题公式化不失一般性，我们专注于双峰数据的跨模态检索，即。，用于图像和文本。我们假设存在n个图像-文本实例ity和vj=g（xj; nβ）∈Rd，其中d是公共空间中表示的维数表示空间，并且α和β是这两个函数的可训练参数。它使得即使来自不同模态的样本也可以直接比较，并且在公共空间中，同一类别样本的相似度大于不同类别样本的相似度。因此，对于任何数据类型的一次查询，可以返回数据集中不同数据类型的相关样本。在下文中，对于图中的所有实例的图像表示矩阵、文本表示矩阵和标签矩阵被表示为U =[u1，u2，. . .，un]，V =[v1，v2，. . .，vn]和Y =[y1，y2，. . . 其中ui是公共表示空间中第i个实例的学习图像表示，vj是第j个实例的学习文本表示。第3章：模态间不变性损失第二：公共空间标签：标签1：标签空间图片CNN文本CNN一只蓝绿色的蜂鸟坐在一根树枝上。一只五彩缤纷的鸟停在树枝上。蓝色和绿色的鸟栖息在树枝上。蓝色和绿色蜂鸟坐在一个分支。羽毛五颜六色的小鸟栖息在树枝上。10397我IJ我IJIJIJIJ3.2. DSCMR框架所提出的方法的一般框架如图1所示，从中我们可以看出，它包括t-两个子网络，一个用于图像模态，另一个用于文本模态，并且它们以端到端的方式被训练。用于图像模态的深度神经网络的卷积层与19层VG-GNet [29]中的卷积层相同，后者是在ImageNet上预先训练的我们从fc7层生成4096维的特征向量作为图像的原始高级语义表示，线性分类器，用于预测在公共表示空间中投影的样本的语义标签。具体地，在图像模态网络和文本模态网络的顶部连接线性层。该分类器采用训练数据在公共空间中的表示，并为每个样本生成c维向量的预测标签我们提出以下目标函数来测量标签空间中的区分损失：记为hα。然后，几个全连接层进行共同表示学习，以获得共同J1= 1吨nU−YF+1吨nV −YF，（1）表示，表示为ui。为了对文本进行公共表示学习，我们使用Word2Vec模型[16]，在Google News中对数十亿个单词进行了预训练，首先将每个网络表示为k维特征向量。因此，每个文本都可以表示为一个矩阵，每列都是k维的其中，P·F表示Frobenius范数，P是线性分类器的投影矩阵。此外，我们还直接测量了公共表示空间中两种模态的所有样本的特征向量然后，文本矩阵被馈送到卷积层，作为与句子CN相同的配置1ΣnJ2= n2（log（1+eΓij）−SαβΓij）N [37]以生成原始的高级语义表示，用于文本的sentation，表示为hβ。同样，一个数字-i，j=1联系我们模态间全连接层的BER被遵循以学习组合，用于文本的mon表示，表示为vi。确保1Σn+n2（log（1+eΦij）−SααΦij）（二）两个子网络来学习一个公共的表示空间对于图像和文本模态，我们强制执行这两个子i，j=1联系我们图像模态网络来共享它们最后一层的权重这是直观地为来自相同类别的图像和文本样本生成尽可能相似的1+n2 Σni，j=1l〇g（1+eΘij）-SββΘij），最后，基于公共空间中的公共表示对于分类是理想的假设，连接具有参数矩阵P联系我们语篇模态其中，Γij=1cos（ui，vj），Φij=1cos（ui，uj），Θij=2 2这两个子网络来学习区分特征1cos（vi，vj），Sαβ= 1{ui，vj}，Sαα= 1{ui，uj}，Sββ=通过利用标签信息。因此，交叉2ij ij ij可以很好地学习模态相关性，并且可以同时提取区别性特征。3.3. 目标函数DSCMR的目标是学习数据的语义结构，即：，以学习一个公共空间，其中来自相同语义类别的样本应该是相似的，甚至1{vi，vj}，cos（·）是用于计算两个输入向量之间的相似性，并且1{·}是指示符函数，如果两个元素是类内样本的表示，否则为0。等式（2）的第一项是模态间样本相似性的负对数似然，其中似然函数定义如下：.尽管这些数据可能来自不同的模态，并且来自不同语义类别的样本应该是不相似的。为了学习多时间的区分特征-p（S αβ|ui，vj）=δ（Γij），如果Sαβ=1;1−δ（Γij），否则e，（三）dia数据，我们建议在标签空间和公共表示空间中最大限度地减少歧视损失。同时，我们最小化每个图像-文本对的表示之间的距离，在下文中，我们提供了关于我们的DSCMR的目标函数的更多细节。为了保留特征投影后不同类别样本的区分度，我们假设共同的表示法对于分类和使用103981+e−Γij其中δ（Γij）=1是sigmoid函数很容易发现最小化该负对数似然函数等同于最大化该似然。我们还可以看到，相似度越大（余弦相似度cos（ui，vj））即，p（1|ui，vj）将是，这意味着应该相似，反之亦然。很可能，第二个第三项分别测量图像样本和文本样本的相似性。因此，方程（2）是一个合理的相似性度量，10399n是学习区分特征的一个很好的标准为了消除跨模态的差异，我们建议最小化所有图像-文本对的表示之间的距离。从技术上讲，我们将模态不变性损失公式化如下：1J3= n U− VF。（四）结合等式（1）、（2）和（4），我们获得所提出的方法DSCMR的目标函数为：J=J1+λJ2+ηJ3，（5）其中超参数λ和η控制最后两个分量的贡献，并且n是输入实例的数量可以使用随机梯度下降优化算法[12]来优化等式（5）中的DSCMR的目标函数优化过程的细节总结在算法1中。算法1所提出的D-SCMR的优化过程输入：训练数据集n={（xα，xβ）}n，标签3.4. 实现细节在这项工作中，有两个子网络，一个是图像模态，另一个是文本模态。卷积层具有相同的配置，其中19层VGGNet [29]用于图像子网络，句子C-NN [37]用于文本子网络，如第3.2节所述。然后在每个子网络中遵循两个具有整流线性单元（ReLU）[17]活动函数的全连接层。两层的隐藏单元数分别为2048和1024两个子网络的第二全层的权重被共享以学习两个不同模态的相关性。整个网络在PyTorch中的Nvidia GTX 1080 Ti GPU上训练。对于培训，我们采用ADAM [12]学习率为10−4的优化器，并将最大epoch数设置为500。4. 实验为了验证该方法的有效性，我们在四个广泛使用的基准数据集上进行了实验：维基百科数据集[24]，Pascal Sentence数据集[26]，NUS-WIDE-10 k数据集[4]和X-MediaNet数据集[20，23]。在实验中，我们首先比较了所提出的DSCMR方法与i i i=1矩阵Y，共同代表的维度-站空间d、批量大小nb、学习率τ、最大历元数τ，以及超参数λ和η。输出：两个子网络中的优化参数α，β。一曰：随机初始化两个子系统网络<$α，<$β和线性分类器P的参数。2：对于t = l，2，. . . ，阿罗多第三章：对于k=1，2，. . .，多B4：随机抽样n b 图文对样本来构建一个小批量。5：通过前向计算小批量中的样本的表示u，i和v，j传播6：计算等式（5）中的目标函数的结果。7：通过最小化等式（5）中的J来更新线性分类器P的参数，P =（UUT）−1UTY+（VVT）−1VTY。8：通过减小子网络的随机梯度来最小化等式（5）中的J，更新子网络的参数α和βα=最先进的方法来评估其性能。然后，对DSCMR方法作了进一步的分析它包括收敛性调查，公共表示空间中学习表示的可视化以及等式（5）中不同分量的影响。4.1. 数据集和要素在我们的实验中，我们遵循[22，25]中的数据集分区和特征提取策略。我们采用19层VGGNet [29]来学习样本的表示，并获得VGGNet的fc 7层为每个图像输出的4，096为了表示文本样本，我们使用句子CNN [37]来学习每个文本的300维表示向量。三个数据集的统计结果总结见表1。值得注意的是，所有的组合方法都采用了与我们的方法中使用的CNN架构所获得的图像和文本相同的CNN特征。4.2. 评估指标我们通过使用所有四个数据集上具有余弦相似性的所有返回结果的平均平均精度（mAP）得分来mAP遇到了-9：结束10：结束∂Υα∂ΥβRIC综合考虑了排序信息和精度，这是跨模态检索研究中广泛使用的性能评价标准[32，19，30]。在我们的实验中，我们报告了比较的mAP分数。10400表1.我们实验中使用的四个基准数据集的统计结果，其中ntrain和ntest分别代表训练和测试图像-文本对符号c是类别的数量di和dt分别是VGGNet [29]和句子CNN [37]获得的图像和文本特征数据集n列n个测试CDiDt维基百科2,173462104,096300Pascal语句800100204,096300NUS-WIDE-10k8,0001,000104,096300XMediaNet32,0004,0002004,096300两种不同的跨模态检索任务的方法：1）检索文本样本使用图像查询（Image2Text）和2）使用文本查询（Text2Image）检索图像4.3. 与现有技术方法的为了验证我们提出的方法的有效性，我们在实验中将所提出的方法与十种最先进的方法进行了比较，包括五种传统的方法，即CCA [8]，MCCA [27]，MvDA[10]，MvDA-VC [11]和JRL [40]，以及五种基于深度学习的方法，即CMDN [19]，CCL [21]，DCCA [2]，DC-[33]第30话，表2.维基百科数据集上mAP分数的性能比较。最高分数以黑体字显示。方法图像对文本Text2Image平均[8]0.1340.1330.134[27]第二十七话0.3410.3070.324MvDA [10]0.3370.3080.323MvDA-VC [11]0.3880.3580.373JRL [40]0.4490.4180.434CMDN [19]0.4870.4270.457CCL [21]0.5040.4570.481DCCA [2]0.4440.3960.420DCCAE [33]0.4350.3850.410ACMR [30]0.4770.4340.456我们0.5210.4780.499表2-5报告了所提出的D-SCMR的mAP评分和四个基准数据集上的比较方法（CCL [21]和CMD-2000的mAP评分结果）。 [19]是由他们的作者提供的），从中我们有以下观察：• DSCMR显著优于传统的对等方法和基于深度学习的方法，四个数据集。具体来说，DSCMR优于形式的第二个最好的方法，提高了0。018，0. 038，0。020和0。050平均值表3. Pascal Sentence数据集上mAP分数的性能比较。最高分数以黑体字显示。方法图像对文本Text2Image平均[8]0.2250.2270.226[27]第二十七话0.6640.6890.677MvDA [10]0.5940.6260.610MvDA-VC [11]0.6480.6730.661JRL [40]0.5270.5340.531CMDN [19]0.5440.5260.535CCL [21]0.5760.5610.569DCCA [2]0.6780.6770.678DCCAE [33]0.6800.6710.675ACMR [30]0.6710.6760.673我们0.7100.7220.716表4. NUS-WIDE-10 K数据集上mAP评分的性能比较。最高分数以黑体字显示。方法图像对文本Text2Image平均[8]0.3780.3940.386[27]第二十七话0.4480.4620.455MvDA [10]0.5010.5260.513MvDA-VC [11]0.5260.5570.542JRL [40]0.5860.5980.592CMDN [19]0.4920.5150.504CCL [21]0.5060.5350.521DCCA [2]0.5320.5490.540DCCAE [33]0.5110.5400.525ACMR [30]0.5880.5990.593我们0.6110.6150.613表5. XMEDIANET数据集上mAP评分的性能比较。最高分数以黑体字显示。方法图像对文本Text2Image平均[8]0.5980.5950.597[27]第二十七话0.6200.6160.618MvDA [10]0.6510.6390.645MvDA-VC [11]0.6500.6270.638JRL [40]0.5860.5780.582CMDN [19]0.4850.5160.501CCL [21]0.5370.5280.533DCCA [2]0.5830.5960.590DCCAE [33]0.5940.6060.600ACMR [30]0.6390.6390.639我们0.6970.6930.695分别在Wikipedia、Pascal Sentence、NUS-WIDE-10 k和XMediaNet数据集• 深度学习中的非线性变换10401基于的方法有助于提高传统方法的性能，例如，DCCA在前三个数据集上表现出显著的优势• 具有深度特征的传统方法也可能在跨模态检索上实现高mAP s-核心。例如线性方法CCA、MCCA、MvDA、MvDA-VC和JR-L在XMediaNet数据集上获得了令人满意的结果（平均 mAP 分别为 0.597 、 0.618 、 0.645 、 0.638 和0.582）。这可能是因为图像CN-N和文本CNN已经将输入图像和文本样本转换为近似线性的子空间，这显著降低了原始跨模态学习任务的难度。4.4. DSCMR的进一步分析4.4.1收敛性图2显示了我们的方法的目标函数值与Pascal Sentence数据集上不同数量的训练epoch的关系。从结果可以看出，在整个训练过程中，目标函数的值几乎单调下降，并且平滑收敛。D-SCMR的目标函数的值在500个时期后变得稳定，这说明所提出的方法可以通过使用随机梯度下降优化算法Adam [12]来有效地训练。1.210.80.60.40.200 200 400 600 800 1000学习时代图2. DSCMR的目标函数的值与Pascal Sentence数据集上不同数量的训练epoch的关系。4.4.2学习表征的可视化为了直观地研究所提出的D-SCMR的有效性显示由4，096维（VGGNet [29]）特征表示的原始图像和由300维（句子CN- N [37]）特征表示的文本样本（嵌入过程后）图3（d）和图3（e）分别。我们可以看到，Wikipedia数据集中图像模态和文本模态的分布有很大差异，样本在原始输入空间中很难分类。图3（a）和图3（b）显示了图像和文本表示在公共空间中的二维分布。结果表明，公共空间和标签空间中的区分度损失公式都能够对不同语义类别样本之间的区分度进行建模，并有效地将表征划分为若干个语义上具有区分度的聚类。我们还可以发现，少量的不同语义类别的表示混合在一起，这使得DSCMR返回一些不相关的查询结果。这些结果- s与表2所示的检索结果一致。此外，图3（c）中的图像模态和文本模态这意味着，跨模态差异很大程度上减少了使用所提出的方法。4.4.3不同组件建议DSCMR的目标函数结合了三个方面，其目的是最大限度地减少歧视损失的标签空间，歧视损失的共同表示空间，和共同表示空间中的模态不变性损失为了研究这些术语对亲的性能的影响提出的方法，我们开发和评估了四种变化的DSCMR：无J1的DSCMR（DSCMR 1）无J2（DSCMR 2）、无J3（DSCMR 3）的DSCMRDSCMR仅与J1（DSCMR 4）。这四种情况的优化过程类似于所提出的D-SCMR。表6.所提出的DSCMR及其四种变体在Pascal Sentence数据集上的mAP分数方面的性能比较。最高分数以黑体字显示。方法图像对文本Text2Image平均DSCMR10.5830.6310.607DSCMR20.7080.7220.715DSCMR30.6910.6830.694DSCMR40.6900.6800.685完整DSCMR0.7100.7220.716表 6 和表 7 显示了DSCMR 及其四种变体在 PascalSentence数据集和NUS-WIDE-10 K数据集上的性能比较。从结果- s中，我们可以看到完整的DSCMR在两个数据集上的表现最好，这表明客观价值10402808080606060404040202020000-20-20-20-40-40-40-60电话：+86-20 - 88888888传真：+86-20 - 88888888(a) 图像表示-60-40-20 0 2040(b) 文本表示-60电话：+86-20 - 88888888传真：+86-20 - 88888888(c) 图像和文本表示3020100-10-20-30电话：+86-20 - 88888888传真：+86-20 - 88888888(d) 原始图像样本403020100-10-20-30-40电话：+86-20 - 88888888传真：+86-20 - 88888888(e) 原始文本示例图3.使用t-SNE方法对维基百科数据集中的测试数据进行可视化[15]。三角形表示来自图像模态的样本，圆形表示来自文本模态的样本同一语义类别的样本用相同的颜色标记(a)公共表示空间中的图像表示。(b)公共表示空间中的文本表示。（c）公共表示空间中的图像和文本表示（d）由4096维（VGGNet [29]）特征表示的原始图像样本(e)由300维（句子CNN [37]）特征表示的原始文本样本。表7.在NUS-WIDE-10 K数据集上，拟议的DSCMR及其四种变体在mAP评分方面的性能比较最高分数以黑体字显示。方法图像对文本Text2Image平均DSCMR10.2670.2620.265DSCMR20.6100.6120.611DSCMR30.5340.5410.538DSCMR40.5270.5200.524完整DSCMR0.6110.6150.613目标函数对最终检索精度的贡献我们还可以看到，DSCMR以较大的幅度优于DSCMR 1，这证明了第一项（标签空间中的区分损失）的重要性。此外，DSCMR4（仅与第一项的变化）在两个数据集上都获得了竞争性结果。这也表明了第一项对于模型学习模态不变判别特征的重要性。然而，DSCMR 4仍然不如DSCMR 2和DSCM-R3，这证明了所提出的方法的第二项和第三项的重要性基于上述分析，我们发现在目标函数中同时表达区分损失和模态间不变性损失是多模态学习的一个有价值的策略5. 结论在本文中，我们提出了一种新的方法（DSCMR）来学习异构数据的公共表示。学习的共同表示可以是区分性的和模态不变的跨模态检索。DSCM-R通过同时最小化区分损失（在公共表示空间和标签空间中）和模态不变性损失来实现这一目标。在四个广泛使用的基准数据集上的大量实验结果和综合分析表明了所提出的跨模态学习策略的有效性，导致了与最先进方法相比更优越的跨模态检索性能确认本课题得到了国家重点科技&攻关项目的资助，项目编号为：2017 YFB 1002201，国家自然科学基金部分资助项目：61625204、61836006和U1831121; 2017CDLZ-G25 ）和四川省科技计划项目（批准号：18PTDJ 0085 、 2019 YFH 0075 、 2018 GZDZX0030）。10403引用[1] S.赤穗典型相关分析的核方法。心理测量学会国际会议论文集，第263-269页，2001年。1[2] G.安德鲁河Arora，J. Bilmes，and K. Livescu深度典型相关分析。在Proceedings of the International Conferenceon Machine Learning，第1247-1255页一、二、六[3] Y. Cao，M. Long，J. Wang，Q. Yang和P. S. Yu.用于跨模态检索的深度视觉语义哈希。在第22届ACM SIGKDD知识发现和数据挖掘国际会议上，第1445-1454页，美国纽约州纽约市，2016年。ACM。2[4] T.- S. Chua，J. Tang，R. Hong，H. Li，Z. Luo和Y.郑Nus-wide：新加坡国立大学的真实网络图像数据库。在Proceedings of the ACM International Conference onImage and Video Retrieval，pages 48：1-48：9，NewYork，NY，USA，2009中。ACM。5[5] F. Feng，X.Wang和R.李使用对应自动编码器的跨模态检索在 Proceedings of the 22nd ACM InternationalConference on Multimedia ， pages 7-16 ， New York ，NY，USA，2014中。ACM。2[6] I. J·古德费洛 J. Pouget-Abadie， M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在 Proceedings of the 27th InternationalConference on Neural Information Processing Sys- tems，pages 2672-2680，Cambridge，MA，USA，2014中。麻省理工学院出版社. 3[7] J. Gu，J. Cai，S.约蒂湖Niu和G.王.看，想象和匹配：用生成模型改进文本视觉跨模态检索。在IEEE计算机视觉和模式识别会议论文集，第7181-7189页1[8] H. 霍特林两组变量之间的关系。Biometrika，28（3/4）：321-377，1936. 1、6[9] Q. Jiang和W.李深度跨模式哈希。在2017年IEEE计算机视觉和模式识别会议上，第3270-3278页。IEEE，2017年。一、二、三[10] M. Kan，S.山，H. Zhang，S. Lao和X.尘多视角判别分析。欧洲计算机视觉会议论文集，第808-821页，2012年。6[11] M. Kan，S.山，H.Zhang，S.Lao和X.尘多视角判别分析。 IEEE transactions on pattern analysis and machineintelligence，38（1）：188-194，2016。6[12] D. P. Kingma 和 J. BA. Adam ： A method for stochasticoptimization，2014. 五、七[13] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在Proceedings of the Advances inNeural Information Processing Systems ，第 1097-1105页，2012年。3[14] Y. LeCun，Y.Bengio和G. 辛顿深度学习Nature，521（7553）：436，2015. 1[15] L. v. d. Maaten和G.辛顿使用t-sne可视化数据。Journalof Machine Learning Research，9（Nov）：2579-2605，2008. 8[16] T.米科洛夫岛Sutskever ，K. Chen，G. Corrado，J。Dean.单词和短语的分布式表示及其组合性在 Proceedings of the 26 th Internation-alConference on Neural Information Processing Systems，第3111-3119页，美国，2013年。Curran Associates Inc. 4[17] V. Nair和G. E.辛顿校正线性单元改善受限玻尔兹曼机。第27届国际机器学习会议论文集，ICML'10，第807-814页，美国，2010年。Omnipress. 5[18] J. Ngiam，A.科斯拉，M。Kim，J. Nam，H. Lee和A. Y.Ng.多模态深度学习。第28届机器学习国际会议论文集，第689- 696页，2011年。1[19] Y.彭、X。Huang和J.气通过多个深度网络的分层学习实现跨媒体共享国际人工智能，第3846-3853页，2016年。一、二、五、六[20] Y.彭、X。Huang和Y.赵跨媒体检索概述：概念、方法、基准和挑战。 IEEE Transactions on Circuits andSystems for Video Technology，2017。一、二、五[21] Y. Peng，J. Qi，X. Huang和Y.元CCL：通过分层网络进行多粒度融合的跨模态相关学习IEEE Transactions onMultimedia，20（2）：4052018年2月。一、二、六[22] Y. Peng，J.Qi和Y.元CM-GANs：用于通用表示学习的跨模态生成对抗网络ACM Transactions on MultimediaComputing，Communications，and Applications，2018。三、五[23] Y. Peng，J. Qi，and Y.元基于循环注意网络的特定通道跨通道相似性测量。 IEEE Transactions on ImageProcessing，27（1 - 1）：1-1，Nov. 2018. 5[24] J. C. Pereira、E.科维耶洛湾道尔，N.拉西瓦西亚湾R. G.兰克里特河Levy和N.瓦斯康塞洛斯论关联与抽象在跨模态多媒体检索中的作用。IEEE Transactions on PatternAnalysis and Machine Intelligence，36（3）：521-535，2014年3月。5[25] J. Qi和Y.朋通过强化学习实现跨模态双向翻译。在第二十七届国际人工智能联合会议的会议记录中，第2630-2636页，2018年7月。一、五[26] C. Rashtchian，P. Young，M. Hodosh和J.霍肯迈尔使用亚马逊的mechanical turk收集图像注释。在NAACL HLT2010年关于使用亚马逊的机械土耳其人创建语音和语言数据的研讨会的会议记录中，第139-147页，Stroudsburg，PA，USA，2010年。计算语言学协会。5[27] Rupnik和J.肖-泰勒多视角典型相关分析。数据挖掘和数据仓库会议论文集，第1-4页，2010年。6[28] A.夏尔马，A.库马尔，H. Daume和D. W.雅各布斯通用多视图分析：一个有区别的潜在空间。在IEEE计算机视觉和模式识别会议论文集，第2160-2167页二、三[29] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。四五六七八[30] B. Wang，Y. Yang，X. Xu，中国春萤叶甲A. Hanjalic和H. T.沈对抗式跨模态检索。在2017年的会议记录中10404ACM on Multimedia Conference，第154-162页。ACM，2017。一二三五六[31] J. Wang，Y.他，C.康，S.

下载后可阅读完整内容，剩余1页未读，立即下载