多模态数据的跨模态检索方法研究

198 浏览量更新于2023-10-13 收藏 1.83MB PDF 举报

对抗学习

注意机制

身份认证购VIP最低享 7 折!

30元优惠券

用于跨模态检索张曦1、2[0000−0002−9173−4119]、赖汉江1、2 [0000−0001−8057−6744]、冯佳士3[0000−0001−6843−0064]1中山大学数据与计算机科学学院2大数据分析与处理广东省重点实验室网址：zhangx368@mail2.sysu.edu.cn，laihanj3@mail.sysu.edu.cn3电气与计算机工程系，新加坡国立大学新加坡elefjia@nus.edu.sg抽象。由于多模态数据的快速增长，用于跨模态检索的散列方法受到了相当大的关注。然而，由于现有的异质性差距，在不同形式的数据之间找到内容相似性仍然具有挑战性。为了进一步解决这个问题，我们提出了一个对抗性哈希网络与atten-tion机制，以增强内容相似性的测量，通过选择性地专注于多模态数据的信息部分提出的新深度对抗网络由三个构建块组成：1)所述特征学习模块，用于获得所述特征表示; 2）注意模块，用于生成注意掩码，该注意掩码用于将特征表示划分为被关注和未被关注的特征表示;以及3）散列模块学习保持不同模态之间的相似性的散列函数。在我们的框架中，注意力和哈希模块以对抗的方式进行训练：注意模块试图使散列模块不能保持多模态数据w.r. t的相似性。散列模块的目标是保持多模态数据与未参与的特征表示的相似性。参与和未参与的特征表示。在多个基准数据集上的测试结果表明，该方法与其他跨模态散列方法相比具有显著的改进。关键词：哈希，对抗学习，注意机制，跨模态检索1介绍由于互联网的快速发展，不同类型的媒体数据也在快速增长，例如，文本、图像和视频。跨模态检索，以一种类型的数据作为查询，返回通讯作者：来汉江2Zhang等人一个女孩坐在驴子一个女孩坐在驴子一个女孩坐在驴子查询方式： “a、、ܦݏ݅(1) 学习散列模块和注意力模块固定、、ܦݏ݅口罩出席无人值守(2) 学习注意模块和哈希模块固定深二进制空间中的距离(I) 注意模块(II) 对抗性学习Fig. 1.注意力感知深度对抗哈希。为了学习注意力掩码，我们以对抗的方式训练注意力模块和哈希模块（II）：（1）散列模块学习保持多模态数据的相似性，而（2）注意模块尝试生成使散列模块不能保持无人值守特征的相似性的注意掩码。另一种类型正日益受到关注，因为它是搜索多模态数据的自然方式。解决方法大致可分为两类[33]：实值表示学习和二进制表示学习。由于二进制表示的低存储成本和快速检索速度，我们仅关注跨模态二进制表示学习（即，hashing[31，17]）。迄今为止，已经提出了各种跨模态散列算法[41，40，8，19，15，3，36]，用于在不同模态的数据之间嵌入相关性在跨模态散列过程中，特征提取被认为是表示所有模态数据的第一步，然后，这些多模态特征可以被投影到一个公共的汉明空间中以供将来的搜索。许多方法[8，40]使用浅层架构进行特征提取。例如，集体矩阵分解散列（CMFH）[8]和语义相关性最大化（SCM）[40]使用手工制作的功能。最近，深度学习也被用于跨模态散列，因为它具有学习数据的良好表示的强大能力基于深度网络的跨模态散列的代表性工作包括深度跨模态散列（DCMH）[15]，深度视觉语义散列（DVSH）[3]，成对关系引导的深度散列（PRDH）[36]等。同时，“注意力”的计算模型由于其在各种应用中的令人印象深刻的结果而引起了图片说明[34]。这也是跨模态检索问题所期望的。例如，如图2所示。1，给定查询女孩坐在驴上，如果我们可以定位图像中信息量更大的区域（例如，黑色区域），可以获得更高的精度据我们所知，注意力机制尚未被很好地探索用于跨模态散列。在本文中，我们提出了一个跨模态散列的注意力机制模型首先决定在哪里（即，多模态数据的哪个区域）;然后，所关注的区域应当被优先用于检索。基于一个女孩坐在驴子注意力感知深度对抗哈希3为此，提出了一个注意模块来寻找关注区域，并且一个散列模块来学习保持相似性的散列函数。在注意模块中，为每个数据生成自适应注意掩码，将数据划分为关注和未关注区域。理想情况下，学习良好的注意力掩模应该定位有区别的区域，这意味着数据的无人值守区域是无信息的，难以保持相似性。因此，注意模块经历学习以使散列模块不能保留数据的未受关注区域的相似性然而，学习的散列函数应该保留数据的受关注（可以被视为简单示例）和无人关注（硬示例）区域的相似性，以增强鲁棒性和性能。因此，散列模块经历学习以保留数据的无人值守区域和有人值守区域两者的相似性注意，注意力模块和散列模块以对抗的方式训练：注意力模块尝试找到散列模块未能保持相似性的无人值守区域，而散列模块旨在保持多模态数据的相似性用于跨模态检索的新的深度对抗性散列在图中示出。2.它由三个主要部分组成：（2）注意力模块，其生成自适应注意力掩模并将特征表示划分为关注和未关注特征表示;以及（3）散列模块，其专注于学习多模态数据的二进制代码。提出了对抗性检索损失和跨模态损失，以获得良好的注意掩码和强大的哈希函数。我们工作的主要贡献有三方面。首先，我们提出了一个注意力感知的跨模态哈希问题的方法它能够检测多模态数据的信息区域，这有助于识别不同模态数据之间的内容相似性。其次，我们提出了一种深度对抗哈希算法，用于同时学习有效的注意力掩码和紧凑的二进制代码。第三，我们定量评估的有用性的注意力在跨模态散列，我们的方法产生更好的性能相比，几个国家的最先进的方法。2相关工作2.1跨模式哈希根据用于学习公共表示的信息，跨模态散列可以分为三组[33]：1）非监督方法[29]，2）基于配对的方法[21，41]和3）监督方法[39，4]。无监督方法仅使用共现信息来学习多模态数据的散列函数。例如，交叉视图散列（CVH）[27]将谱散列从单模态扩展到多模态场景。基于成对的方法使用共现信息和4Zhang等人相似/不相似对来学习散列函数。Bronstein等人[11]提出了跨模态相似性敏感散列（CMSSH），其学习散列函数以确保如果两个样本（具有不同模态）是相关/不相关的，则它们对应的二进制代码是相似/不相似的。监督方法利用标签信息来学习更多有区别的公共表示。语义相关最大化（SCM）[40]使用标签向量来获得相似度矩阵并通过二进制代码重建它。Xu等人。[35]提出了离散跨模态散列（DCH），它直接学习具有离散约束的判别二进制代码。这些作品大多是基于手工制作的功能。神经网络的深度学习表明，这种方法可以有效地发现不同模态之间的相关性深度跨模态散列（DCMH）[15]将特征学习和散列代码学习集成到同一框架中。Cao等人[3]提出了深度视觉语义哈希（DVSH），它利用卷积神经网络（CNN）和长短期记忆（LSTM）来分别学习每种模态的常见表示。成对关系引导的深度哈希（PRDH）[36]也采用深度CNN模型来同时学习特征表示和哈希码。2.2生成对抗网络最近，生成对抗网络（GANs）[10]受到了很多关注，并在各种应用中取得了令人印象深刻的结果，包括图像到图像翻译[42]，图像生成[23，1]和表示学习[24，22]。GAN也被应用于检索问题。IRGAN [32]是最近提出的一种信息检索方法，其中生成式检索侧重于预测相关文档，判别式检索侧重于预测给定查询文档对的相关性。IRGAN是为单模态检索而设计的。本文主要研究跨模态检索。最近，Wang et al.[28]提出了一种对抗性跨模态检索（ACMR）方法，以基于对抗性搜索来寻找有效的公共子空间。 al learning：模态分类器根据它们的模态来区分样本，并且特征投影器生成混淆模态分类器的模态不变表示。ACMR和所提出的方法都使用对抗学习，主要区别在于ACMR寻求学习多模态数据的公共子空间，而所提出的方法中的对抗学习被定制为显式地处理用于跨模态散列的注意力感知网络。此外，ACMR属于实值方法的范畴，而我们的方法属于二元方法。此外，Li等人。[18]提出了一种用于跨模态检索的自监督对抗哈希（SSAH）。据我们所知，注意力机制尚未被很好地探索用于跨模态散列。注意力机制在许多应用中已经被证明是非常强大的，例如图像分类[2]、图像字幕[34]、图像问答[38]、视频动作识别[25]和注意力感知深度对抗哈希5i=1图二.我们的方法概述。上面是图像模态分支，下面是文本模态分支。每个分支分为三个部分：特征学习模块（包括EI和ET）、注意力模块（GI和GT）和散列模块（DI和DT）。特征学习模块将输入的多模态数据映射到高级特征表示。然后，注意力模块学习注意力掩码以将特征表示划分为被关注特征和未被关注特征。最后，散列模块将所有特征编码为二进制代码并学习保持相似性的散列函数。我们交替训练注意力模块和哈希模块。等受此启发，在本文中，我们精心设计了一个用于跨模态散列的注意力感知3用于跨模态检索的深度对抗哈希3.1问题定义假设存在n个训练样本，其中的每一个以若干模态表示，例如，音频、视频、图像和文本。在本文中，我们只关注两种形式：文本和图像。注意我们的方法可以很容易地扩展到其他方式。我们将训练数据表示为{Ii，Ti}n，其中Ii是第i个并且Ti是图像Ii的对应文本描述。我们还具有跨模态相似性矩阵S，其中S（i，j）= 1意味着第i个图像和第j个文本相似，而S（i，j）= 0意味着它们不相似。跨模态散列的目标是学习两个映射函数，将图像和文本转换到一个公共的二进制代码空间中，在该空间中，成对的图像和文本之间的相似性被保留。例如，如果S（i，j）= 1，则第i个图像和第j个文本的所生成的二进制码之间的汉明距离当S（i，j）= 0时，它们之间的汉明距离应该很大。6Zhang等人我我我我我݂◌ܯܼܲ◌ͳͳܼ◌14conv14softmax阈值conv5_4（14x14x512）݂◌ም݂◌ܼ◌ܼ◌出席ͳ݂◌መ无人值守(I) 图像的关注模块：(II) 文本的注意力模块：图3.第三章。注意力模块。它首先生成注意力掩码Z1和ZT。然后，将每个功能分为有人值守和无人值守两部分。3.2网络架构所提出的深度对抗散列网络包含三个组件：1）用于获得多模态数据的高级表示的特征学习模块;2）用于生成注意掩码的注意模块;以及3）用于学习保持相似性的散列函数的散列模块。特征学习模块：EI和ET对于图像模态，卷积神经网络用于获得图像的高级表示。具体来说，我们使用VGGNet [26]来提取图像特征图，即，VGGNet中的con- v5 4。为了表示文本实例，我们使用众所周知的词袋（BOW）向量。然后，我们利用两层前馈神经网络（BOW→ 8192→ 1000）获得语义文本特征。设fI=EI（Ii）并且fT=ET（Ti）表示图像特征图和文本特征向量，分别注意模块：GI和GT有了强大的图像特征映射fI和文本特征向量f T，我们首先将它们送入一个单层神经网络，即，卷积层，具有用于图像特征映射的1×1内核大小，以及文本特征向量的全连接层，随后是softmax和阈值函数，以生成多模态数据区域上的注意力分布。然后，使用注意掩模将特征表示划分为关注和未关注的特征表示。更具体地，用于处理图像模态的详细流水线被示出在图1的左侧。3.设fI∈RH×W×C表示第i幅图像的特征映射，其中H、W和C分别是高度、权重和在第一步中，我们首先使用卷积层来压缩特征映射fI到矩阵MI=Conv（fI），其中MI∈RH×W。在我我我第二步，矩阵Mi经过softmax层，并且输出是概率矩阵Pi。在第三步中，我们添加阈值层以获得݂◌ܯܼܲ◌ܼ◌ͲͳͳͲ1000 FC 1000softmax阈值݂◌ܼ◌Ͳ݂◌ምመͳͲͳܼ◌ͳͳͲͲͲͲͲͲ出席ͳ无人值守…………………………注意力感知深度对抗哈希7我我我高×宽我我我我我我݂◌ምfc6fc7IP1ܪ…出席（14x14x512）出席݂◌መܪ…位数无人值守无人值守40964096(I) 图像哈希模块：（II）文本哈希模块：见图4。用于图像模态DI和文本模态DT的散列模块。注意掩码，其定义为.ZI（h，w）=1PI（h，w）≥α0PI（h，w） <α，（一）其中α是预定义阈值。我们设α = 1在我们的实验中。的阈值层的输出是二元掩模。基于二进制掩码，我们可以通过逐元素地乘以二进制掩码来计算第i个图像的被关注和未被关注的特征图，其公式为fI（h，w，c）=ZI（h，w）×fI（h，w，c），（出席）I.i iΣ（二）fI（h，w，c）= 1−ZI（h，w）×fI（h，w，c），（无人值守）对于所有的H、W和C。为了便于表示，我们将整个过程表示为[fI，fI]=GI（fI）。我我我对于文本模态，我们模仿图像模态的流水线，在图1的右侧示出。第三章：MT= fc（fT），我我PT= softmax（MT），我我ZT=阈值（PT），i i（3）f<$T（j）=ZT（j）×fT（j），（出席）I.i iΣfT（j）= 1−ZT（j）×fT（j），（无人值守）其中fc是全连接层，并且Z（j）是向量Z的第j个值。Wedente[fT，f（T）]=GT（fT），因为对于我我我第i个文本。直接取阈值函数的导数与训练中的反向传播不相容。为了解决这个问题，我们遵循[7]中提出的想法，该想法使用直通估计器来传播阈值函数的梯度IP2ܪ݂◌ም݂◌መ…出席ܪ10001000位数…无人值守ͲͲͲͲ……8Zhang等人哈希模块：对于图像模态，由于我们采用VG-GNet作为我们的基本架构，因此我们还使用最后的全连接层，即，FC6和FC74. 然后，我们添加一个具有q维特征的全连接层和一个限制范围[-1，1]内的值的tanh层，如图1左侧所示4.第一章设鉴别器的输出为1）关注特征HI=DI（fI）和2）未定义的fea turesHI=DI（fI）。我我我对于文本模态，我们还添加了一个全连接层和一个tanh层将文本特征编码为q位，如图1右侧所示。4. 输出为1）有人值守的特征HT=DT（fT）和2）无人值守的特征我我f ∈ur∈H∈T=DT（f∈T）。我我3.3散列目标我们的目标包含两个术语：1）对应于学习保持不同模态数据之间的相似性的跨模态检索损失，以及2）对应于旨在保持无人值守二进制代码的相似性的散列模块的对抗性检索损失，而注意力模块试图使散列模块不能保持无人值守二进制代码的相似性。跨模态检索损失跨模态损失函数的目的是保持图像和文本之间的相似性使用模态间排序损失也就是说，来自不同模态的散列码应该保持语义相似性，并且来自相同模态的散列码也应该保持语义相似性。因此，跨模态检索损失可以用公式表示为minFT→I+FI→T+FI→I+FT→T，⑷其中前两个术语用于保持不同模态之间的语义相似性，并且后两个术语用于保持它们自己的模态中的符号A→B表示将A模态作为查询以检索B模态的相关数据，其中A∈ {T，I}并且B∈ {T，I}。FA→B是针对作为查询的A模态和作为数据库的B模态的损失函数，其被定义为ΣFA→B=max {0，ε + ||HA− HB||− ||HA− HB||}（i，j，k）ijik（五）S.T.S（i，j）> S（i，k），其中是三元组形式，ε是边缘。目标是三重排序损失[16]，其在检索问题中显示出有效性。4最后一个全连接层（即，FC8）被移除，因为它是用于分类问题的。注意力感知深度对抗哈希9我我我不对抗性检索损失受生成对抗性网络令人印象深刻的结果的启发，我们采用它来生成注意力分布和学习二进制代码。以文本→图像为例，同样如图所示。1.给定查询HT，散列和注意力模块以对抗的方式训练：1）散列模块保留查询与图像模态的无人值守特征之间的语义相似性，即HT当S（i，j）>S（i，k）时，H（i，j）> H（i，k）;2）在S（i，j）> S（i，k）时，H（i，j）> H（i，k）; 3）在S（i，j）>S（i，k）时，H（i，j）> H（i，k）; 4）在S（i，j）> S（i，k）时，H（i，j）> H（i，k）; 5）在S（i，j）> S（i，k）时，H（i，j）> H（i，k）; 6）在S（i，j）> S（i，k）时，H（i，j）> H（i，k）> H（i，j）;7）在S（i，j）> S（i，k）时，H（i，j）> H（i，k）> H（i，j）。JK以找到其中散列模块未能如果采用最小化，则H接近H，但不接近H。我的意思是，Σikj可以定义为F=max{0，ε +||HT−H||−||HT−H||{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F} 此T →I（i，j，k）ijik散列模块尝试最小化目标，而注意力模块尝试最大化它。图像→文本的过程相同。因此，损失可以表示为F+FΣε=max{0，ε +||HT−H||−||HT−H||}T →II→T（i，j，k）Σijik（六）+max{0，ε +||HI−HT||−||HI−HT||}的情况下，ijik（i，j，k）当他是哈克特的时候和H是在子部分3中定义的未定义的。2. 第一项对应于将文本模态作为查询以检索图像模态的无人值守特征第二项对应于图像模态被用作查询以检索文本模态的无人值守特征。GI、GT试图使损失最大化，DI、DT试图使目标最小化：米maxFT→I¨+FI→T¨。（七）DI，DT GI，GT我们的全部目标是F（EI，ET，GI，GT，DI，DT）=F+FT →I+ FT →I + FI→T + FI→I + FT →T。I→T我们交替地训练我们的模型。GI和GT中的参数是固定的，而其他参数是训练的：minEI，ET，DI，DTF（EI，ET，GI，GT，DI，DT）。（八）然后，EI、ET、DI和DT是固定的，并且注意力模型被更新：maxFT→I¨+FI→T¨。（九）G，G4实验在本节中，我们评估了我们提出的方法在三个数据集上的性能，并将其与几种最先进算法的性能进行了10Zhang等人4.1实验设置数据集。我们选择三个基准数据集：IAPR TC-12 [9]、MIR-Flickr 25K [13]和NUS-WIDE [6]。– IAPR TC-12 [9]：该数据集由从世界各地拍摄的20，000张图像组成。每个图像与文本标题相关联，一句话图像-文本对使用255个标签进行注释。对于文本模态，每个句子被表示为2，912维词袋向量5。– MIR-Flickr 25 K：这个数据集包含从Flickr 6照片共享网站下载的25，000张多标签图像。每个图像都与几个纹理标签相关联为了公平比较，我们按照设置在[15]中使用具有至少20个文本标签的图像-文本对的子集。对于文本模态，纹理标签被表示为1,386维的词袋向量。– NUS-WIDE [6]：该数据集由从Flickr收集的269，648张图像组成。每个图像与81个语义概念中的一个或多个纹理标签相关联。我们评估了属于21个最常见标签的195，834个图像-文本对的性能，如[15]所建议的文本是表示为1,000维词袋向量。我们遵循DCMH [15]的设置来构建查询集、训练集和检索数据库。随机抽样的2，000个图像-文本对被构造为用于IAPR TC-12和MIR-Flickr 25 K的查询集。对于NUS-WIDE数据集，我们随机抽取2，100个图像-文本对作为查询集。对于所有数据集，剩余的图像-文本对被用作用于检索的数据库。对于所有监督方法，我们还从检索集中抽取了10，000对作为IAPR TC-12和MIR-Flickr25 K的训练集，以及从检索集中抽取了10，500对作为NUS-WIDE的训练集注意，文本的表示不是本文的重点由于最相关的作品，例如，DCMH [15]，使用词袋，我们也使用词袋进行公平比较。实作详细数据。我们基于开源的caffe[14]框架实现我们的代码。在训练中，通过随机梯度求解器交替地更新网络，即，ADAM（α = 0. 0002，β1=0。（五）。我们在优化E、D的四个步骤和优化G的一个步骤之间交替。对于图像模态，VGGNet的权重使用从ImageNet数据集学习对于文本模态，所有参数都是随机初始化的高斯平均值为零和标准偏差0.01.批量大小为64，总epoch为100。基本学习率是0.005，并且在每20个epoch之后，它被改变为当前值的十分之一在测试中，我们只使用数据的关注特征来构造二进制代码。5我们遵循DCMH [15]的设置进行公平比较6www.flickr.com注意力感知深度对抗哈希11(a) 从文本到图像的查询任务。（T→I）(b) 从图像到文本的查询任务（I→T）图五、三个数据集上的精确度-召回率曲线哈希码的长度为16。评价措施。为了评估哈希模型的性能，我们使用两个指标：平均精确度（MAP）[20]和精确度-召回曲线。MAP是信息检索的标准评估度量4.2与最先进方法的第一组实验是评估所提出的方法的性能，并将其与几种最先进的算法7的性能进行比较：CCA [12]，CMFH [40]，SCM [8]，SMTH [30]，SePH [19]，DCMH[15]，”[37]《说文》：“礼也。CCA、CMFH、SCM、STMH、SePH和DCMH的结果是直接引用自CVPR17 8中发表的[15]。由于[37]中PRDH的实验设置与所提出的方法不同，因此我们使用相同的CNN网络和相同的设置仔细实现PRDH以进行公平比较。所有三个数据集的检索准确度的比较结果如表1所示。我们可以看到，我们的方法优于其他基线，并取得了优异的性能。例如，在IAPR TC-12上，当以图像作为查询来检索文本时，我们的方法的MAP为0.5439，而第二好算法（PRDH）的值为0.5135精确度-召回率曲线也示于图1中。5.可以看出，我们的方法显示出与现有基线相当的性能7请注意，IRGAN是为单模态检索而设计的。ACMR是一种跨模态检索方法，属于实值方法的范畴。在本文中，我们只关注跨模式哈希。8Table 4 inhttp://openaccess.thecvf.com/content cvpr 2017/papers/Jiang Deep Cross-Modal Hashing CVPR 2017 paper.pdf12Zhang等人表1.Hamming ranking w.r.t.三个数据集上的不同比特数任务IAPR TC-12MIR-Flickr 25kNUS-wide16位32位64位16位32位64位16位32位64位文本↓图像CCA0.3493 0.3438 0.3378 0.5742 0.5713 0.5691 0.3731 0.3661 0.3613CMFH 0.4168 0.4212 0.4277 0.6365 0.6399 0.6429 0.5031 0.5187 0.5225SCM0.3453 0.3410 0.3470 0.6939 0.7012 0.7060 0.5344 0.5412 0.5484STMH 0.3687 0.3897 0.4044 0.6074 0.6153 0.6217 0.4471 0.4677 0.4780Seph0.4423 0.4562 0.4648 0.7216 0.7261 0.7319 0.5983 0.6025 0.6109DCMH 0.5185 0.5378 0.5468 0.7827 0.7900 0.7932 0.6389 0.6511 0.6571PRDH 0.5244 0.5434 0.5548 0.7890 0.7955 0.7964 0.6527 0.6916 0.6720我们 0.5358 0.5565 0.5648 0.7922 0.8062 0.8074 0.6789 0.6975 0.7039图像↓文本CCA0.3422 0.3361 0.3300 0.5719 0.5693 0.5672 0.3742 0.3667 0.3617CMFH 0.4189 0.4234 0.4251 0.6377 0.6418 0.6451 0.4900 0.5053 0.5097SCM0.3692 0.3666 0.3802 0.6851 0.6921 0.7003 0.5409 0.5485 0.5553STMH 0.3775 0.4002 0.4130 0.6132 0.6219 0.6274 0.4710 0.4864 0.4942Seph0.4442 0.4563 0.4639 0.7123 0.7194 0.7232 0.6037 0.6136 0.6211DCMH 0.4526 0.4732 0.4844 0.7410 0.7465 0.7485 0.5903 0.6031 0.6093PRDH 0.5003 0.4935 0.5135 0.7499 0.7546 0.7612 0.6107 0.6302 0.6276我们 0.5293 0.5283 0.5439 0.7563 0.7719 0.7720 0.6403 0.6294 0.6520由于DVSH的代码不是公开可用的，并且难以重新实现复杂的算法，因此我们利用DVSH中使用的相同实验设置用于我们的方法。DVSH的结果直接引用自[3]以进行公平比较。IAPR TC-12的前500名MAP结果如表2所示。此外，我们在相同的设置下与DCMH进行了比较请注意，DVSH采用LSTM递归神经网络进行文本表示，而DCMH和我们的方法仅使用词袋。从表中可以看出，在大多数情况下，我们的方法可以实现比基线更好的性能，即使我们使用文本的弱表示表2.比较结果w.r.t.IAPR TC-12数据集上的前500名MAP任务方法16位32位64位文本→图像DVSH0.6037 0.6395 0.6806DCMH0.6594 0.6744 0.6905我们0.7018 0.6893 0.6941图像→文本DVSH0.5696 0.6321 0.6964DCMH0.5780 0.6061 0.6310我们0.6464 0.6373 0.6668我们还探索了图像模态的特征学习模块中的小型网络架构的影响在本实验中，我们选择CNN-F [5]作为图像模型的基本网络比较结果示于表3中。我们可以看到VGGNet注意力感知深度对抗哈希13见图6。一些图像和遮罩示例。第一行表示原始图像，第二行示出掩模，最后两行示出组合。(a)注意力（B）视觉注意力（C）结构注意力图7.第一次会议。不同的注意力机制。性能优于CNN-F，而我们使用CNN-F的方法与其他最先进的基线相比也实现了表3.MAP在不同网络的IAPR TC-12数据集上任务网络16位32位64位文本→图像VGG0.5358 0.5565 0.5648CNN-F0.5267 0.5459 0.5538图像→文本VGG0.5293 0.5283 0.5439CNN-F0.5211 0.5168 0.5208我们的方法的良好性能的主要原因是，我们可以得到关注的区域的多模态数据。图6示出了图像模态的一些范例。请注意，很难将文本模态可视化（文本模态的网络是完全连接的层，而不是CNN。句子中单词的顺序在经过完全连接的层之后改变），因此，我们不显示在文本网络中学习的掩码。4.3不同注意机制的比较在本节中，我们提出了一个消融研究，以澄清的影响，每个部分的注意模块的最终性能。为了直观地比较我们的方法，我们将其与以下基线进行比较。在第一个基线中，我们不使用任何注意机制14Zhang等人如图1左侧所示。7.它也是传统的深度跨模式哈希。在第二个基线中，我们只应用如图1中间所示的视觉注意机制7.第一次会议。类似地，最后一个基线是探索纹理注意机制，如图1B的右侧所示7.第一次会议。请注意，所有基线以及我们的方法都使用相同的网络。唯一的区别是使用不同的注意力机制。这些比较可以显示所提出的注意机制是否可以有助于准确性。表4示出了关于MAP的比较结果。结果表明，我们提出的注意力机制可以实现更好的性能比基线，缺乏注意力机制。其主要原因是我们的方法可以专注于数据中最具鉴别力的区域表4.不同注意机制的比较结果。任务收件人IAPR TC-12MIR-Flickr 25kNUS-wide16位32位64位16位32位64位16位32位64位文本↓图像没有0.5039 0.5250 0.5258 0.7758 0.7801 0.7742 0.6476 0.6824 0.6733视觉0.5294 0.5474 0.5576 0.7894 0.7925 0.7906 0.6723 0.6839 0.6984文本0.5334 0.5382 0.5469 0.7885 0.7867 0.7831 0.6648 0.6851 0.6867两0.5358 0.5565 0.5648 0.7922 0.8062 0.8074 0.6789 0.6975 0.7039图像↓文本没有0.4903 0.5001 0.5175 0.7347 0.7482 0.7495 0.6150 0.6178 0.6311视觉0.5267 0.5173 0.5285 0.7466 0.7601 0.7584 0.6314 0.6260 0.6425文本0.5279 0.5232 0.5304 0.7520 0.7673 0.7717 0.6384 0.6227 0.6459两0.5293 0.5283 0.5439 0.7563 0.7719 0.7720 0.6403 0.6294 0.65205结论在本文中，我们提出了一种新的方法，称为深度对抗哈希，用于跨模式哈希。所提出的方法包含三个主要组成部分：一个功能学习模块，一个注意模块，和一个哈希模块。特征学习模块学习多模态数据的强大表示注意力模块和散列模块以对抗的方式进行训练，其中散列模块试图最小化相似性保持损失函数，而注意力模块的目标是找到最大化检索损失的数据的无人值守区域。我们在三个数据集上进行了我们的方法，实验结果表明，我们的方法的吸引力的性能。确认本研究得到了国家自然科学基金项目的资助。不适用于赠款（61602530、U1611264、U1711262、61472453、U1401256和U1501252 ）。本工作也得到了广东省科技计划项目研究基金（2017B030308007）的支持。注意力感知深度对抗哈希15引用1. Arjovsky，M.，Chintala，S.，Bottou，L.：Wasserstein gan arXiv预印本arX- iv：1701.07875（2017）2. Ba，J.，Mnih，V.，Kavukcuoglu，K.：具有视觉注意力的多目标识别。载于：ICLR（2015）3. 曹玉，Long，M.，王杰，Yang，Q.，Philip，S.Y.：深度视觉语义散列，用于交叉模型检索。 In：KDD. pp. 14454. 曹玉，Long，M.，王杰，Zhu，H.：相关自动编码器散列的超视频解码器-现代数据分析.In：ICM R.pp. 1975. Chatfield，K.，西蒙尼扬，K.，Vedaldi，A.，齐瑟曼，A.：魔鬼的回归细节：深入研究卷积网络。计算机科学6. Chua，T.S.，唐，J.，洪河Li，H.，Luo，Z.，Zheng，Y.：Nus-wide：来自新加坡国立大学的真实网络图像数据库。In：ICIVR.第48页（2009年）7. Courbariaux，M.，Bengio，Y.：Binarynet：训练权重和激活限制为+1或-1的深度神经网络。CoRR abs/1602.02830（2016）8. 丁，G.，Guo，Y.，中国科学院，Zhou，J.：多模态数据的集体矩阵分解散列。In：CVP R.pp. 20759. Escalante，H.J.，埃尔南德斯，CA，Gonzalez，J.A.，Lpez-Lpez，A.，Montes，M.，Morales，E.F.，Sucar，L.E.，Villaseor湖Grubinger，M.：分段的和非分段的iaprtc-12be nc hma rk。CVIU114⑷，41910. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，C〇urville，A.， Bengio，Y. ：Genertiveadve rsarialnets. In：NIPS. pp. 267211. 他河 Zheng ， W.S. ， Hu ， B.G. ：鲁棒人脸识别的最大相关熵准则。TPAMI33（8），156112. 霍特林，H.：两组变量之间的关系。02 The Dog of the Dog（1992）13. 你好，M.J.刘，M。S.：THEMIRFIICKRRETRIEVALLEVALUATION. In：ICMIR. pp. 3914. Jia，Y.，Shelhamer，E.，Donahue，J.，Karayev，S.，朗J格尔希克河瓜达尔-拉马，S.，达雷尔，T.：Caffe：用于快速特征嵌入的卷积架构ArXiv预印本arXiv：1408.5093（2014）15. Jiang，Q.Y.，李伟：深度跨模式哈希。见：CVPR（2016）16. Lai，H.，潘，Y.，Liu，Y.，Yan，S.：同时进行特征学习和散列编码，同时执行两个任务。 In：CVPR. pp. 327017. Lai，H.，Yan，P.，（1996 - 1997），中国地质大学，Shu，X.，魏，Y.，Yan，S.：用于多标签图像检索的实例感知散列。TIP25（6），246918. Li，C.，Deng，C.，Li，N.，刘伟，高，X.，Tao，D.：自监督对抗性具有针对交叉模型检索的两个工作。 In：CVPR. pp. 424219. 林芝，丁，G.，胡，M.，Wang，J.：用于跨视图检索的语义保持散列。In：CVPR. pp. 386420. 刘伟，库马尔，S.，库马尔，S.，Chang，S.F.：离散图哈希。在：NIPS。pp. 341921. Masci，J.，Bronstein，M.M.，布朗斯坦，上午，Schmidhuber，J.：多模态模拟仿真系统已升级。TPAMI36⑷，82422. Mathieu，M.F.，赵，J.J.，赵，J，Ramesh，A.，Sprechmann，P.，LeCun，Y.：使用对抗性训练来解开深度表征中的变化因素。In：NIPS. pp. 504023. Mirza ， M. ， Osindero ， S. ：条件生成对抗网。 ArXiv 预印本 arXiv ：1411.1784（2014）16Zhang等人24. Radford，A.梅斯湖Chintala，S.：使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv：1511.06434（2015）25. Sharma，S.，基罗斯河Salakhutdinov，R.：使用视觉注意的动作识别arXiv预印本arXiv：1511.04119（2015）26. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。ArXiv预印本arXiv：1409.1556（2014）27. 孙湖，加-地Ji，S.，叶，J：典型相关分析的最小二乘公式In：ICML.pp.102428. 王，B.，杨，Y.，徐，X.，Hanjalic，A. Shen，H.T.：对抗性跨模态检索。In：ACMMM. pp. 15429. Wang，D.，中国科学院，Cui，P.，Ou，M.，Zhu，W.：学习紧凑散列码的多模态reprentionti on usi ngort ho nal dee pstr ur u ru r ur e。TMM17（9），140430. Wang，D.，中国科学院，高，X.，王，X.，他，L.：语义主题多模态散列的跨媒体检索。 In：ICAI. pp. 389031. 王杰，张，T.，塞贝，N.，Shen，H. T.，等：关于学习哈希的调查。TPAMI（2017）32. 王杰，尤湖张伟，Gong，Y.，徐，Y.，王，B.，张，P.，张德：Irgan ：统一生成和判别信息检索模型的

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

多模态数据的跨模态检索方法研究

基于深度学习的跨模态检索研究.docx

基于深度学习的跨模态检索综述

多模态知识库中多模态关联用到的技术

请简述多模态学习的研究进展

多模态在线哈希的国外研究现状

多模态鲁棒描述子smrd

深度学习与多模态数据处理：融合

给我推荐20个比流行的多模态模型

你如何理解多模态大模型

给我推荐20个多模态模型

多模态大模型构建与应用技术路线图

图像和声音的多模态文献资料

Monkey 多模态大模型

基于子空间学习的方法的定义

大型多模态模型(lmm)

请结合具体场景，试述(HatGPT如何应用于多媒体数据 处理领域，并讨论其在处理多媒体数据方面可能面临的 挑战与限制.

那基于视觉注意的跨模态信息对齐通常关注如何将图像和文本之间进行精确的匹配和对齐技术有什么

在模态缺失的情况下，将卷积网络与transformer串联使用作为自动编码器的编码器，有什么优势,请详细说明

在https://paperswithcode.com/sota/action-classification-on-kinetics-600这个网址上的标签有一种是vision language是何含义呢？

deep cross-modal hashing

最新资源

请结合具体场景，试述(HatGPT如何应用于多媒体数据处理领域，并讨论其在处理多媒体数据方面可能面临的挑战与限制.