深度跨模态哈希-基于深度神经网络的端到端学习方法

96 浏览量更新于2023-10-16 收藏 12.1MB PDF 举报

特征学习

二进制编码

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

jiangqy@lamda.nju.edu.cn, liwujun@nju.edu.cn32320深度跨模态哈希0江庆元，李武军南京大学新软件技术国家重点实验室新软件技术与产业化协同创新中心计算机科学与技术系中国南京0摘要0由于其低存储成本和快速查询速度，跨模态哈希（CMH）已广泛用于多媒体检索应用中的相似性搜索。然而，大多数现有的CMH方法都是基于手工制作的特征，这些特征可能与哈希码学习过程不太兼容。因此，基于手工制作特征的现有CMH方法可能无法达到令人满意的性能。在本文中，我们提出了一种新的CMH方法，称为深度跨模态哈希（DCMH），通过将特征学习和哈希码学习集成到同一框架中来实现。DCMH是一个端到端的学习框架，使用深度神经网络对每个模态进行从头开始的特征学习。在三个具有图像-文本模态的真实数据集上的实验证明，DCMH可以胜过其他基线方法，在跨模态检索应用中实现最先进的性能。01. 引言0近似最近邻（ANN）搜索[1]在机器学习和相关应用（如信息检索）中起着基础性的作用。由于其低存储成本和快速检索速度，哈希最近吸引了ANN研究界的广泛关注[17, 34, 9, 15,26, 10, 29, 21, 28,4]。哈希的目标是将数据点从原始空间映射到二进制编码的汉明空间中，以保持原始空间中的相似性在汉明空间中得到保留。通过使用二进制哈希码来表示原始数据，存储成本可以大大降低。此外，通过使用哈希码构建索引，我们可以实现常数或亚线性的搜索时间复杂度[15]。因此，在大规模数据集中，哈希越来越受欢迎用于ANN搜索。在许多应用中，数据可能具有多种模态。例如，除了图像内容之外，还存在着文本信息，如Flickr和许多其他社交网站中的图像标签。这种数据通常被称为多模态数据。随着实际应用中多模态数据的快速增长，特别是多媒体应用，多模态哈希（MMH）最近广泛用于多模态数据集上的ANN搜索（检索）。现有的MMH方法可以分为两大类：多源哈希（MSH）[30, 36, 32,14]和跨模态哈希（CMH）[18, 35, 7, 22,3]。MSH的目标是通过利用来自多个模态的所有信息来学习哈希码。因此，MSH要求所有数据点（包括查询点和数据库中的数据点）都应观察到所有模态。在实践中，MSH的应用受到限制，因为在许多情况下，很难获取所有数据点的所有模态。相反，CMH的应用场景比MSH更灵活。在CMH中，查询点的模态与数据库中的点的模态不同。此外，通常查询点只有一个模态，而数据库中的点可以具有一个或多个模态。例如，我们可以使用文本查询来检索数据库中的图像，我们也可以使用图像查询来检索数据库中的文本。由于其广泛应用，CMH比MSH更受关注。最近提出了许多CMH方法。现有的代表性方法包括跨模态相似敏感哈希（CMSSH）[2]，跨视图哈希（CVH）[18]，多模态潜在二进制嵌入（MLBE）[39]，共同正则化哈希（CRH）[38]，语义相关最大化（SCM）[35]，集体矩阵分解哈希（CMFH）[7]，语义主题多模态哈希（STMH）[33]和保持语义哈希（SePH）[22]。几乎所有这些现有的CMH方法都是基于手工制作的特征。这些基于手工制作特征的方法的一个缺点是特征提取过程独立于哈希码学习过程，这意味着手工制作的特征可能与哈希码学习过程不兼容。0像Flickr和许多其他社交网站中的图像标签一样，图像中的文本信息是一种常见的多模态数据。随着实际应用中多模态数据的快速增长，特别是多媒体应用，多模态哈希（MMH）最近广泛用于多模态数据集上的ANN搜索（检索）。现有的MMH方法可以分为两大类：多源哈希（MSH）[30, 36,32, 14]和跨模态哈希（CMH）[18, 35, 7, 22,3]。MSH的目标是通过利用来自多个模态的所有信息来学习哈希码。因此，MSH要求所有数据点（包括查询点和数据库中的数据点）都应观察到所有模态。在实践中，由于很难获取所有数据点的所有模态，MSH的应用受到限制。相反，CMH的应用场景比MSH更灵活。在CMH中，查询点的模态与数据库中的点的模态不同。此外，通常查询点只有一个模态，而数据库中的点可以具有一个或多个模态。例如，我们可以使用文本查询来检索数据库中的图像，我们也可以使用图像查询来检索数据库中的文本。由于其广泛应用，CMH比MSH更受关注。最近提出了许多CMH方法。现有的代表性方法包括跨模态相似敏感哈希（CMSSH）[2]，跨视图哈希（CVH）[18]，多模态潜在二进制嵌入（MLBE）[39]，共同正则化哈希（CRH）[38]，语义相关最大化（SCM）[35]，集体矩阵分解哈希（CMFH）[7]，语义主题多模态哈希（STMH）[33]和保持语义哈希（SePH）[22]。几乎所有这些现有的CMH方法都是基于手工制作的特征。这些基于手工制作特征的方法的一个缺点是特征提取过程独立于哈希码学习过程，这意味着手工制作的特征可能与哈希码学习过程不兼容。column of W is denoted as ��. The ��th row of W isdenoted as W��∗, and the ��th column of W is denoted asW∗��. W�� is the transpose of W. We use 1 to denotea vector with all elements being 1.tr(⋅) and ∥ ⋅ ∥��denote the trace of a matrix and the Frobenius norm ofa matrix, respectively.sign(⋅) is an element-wise signfunction deﬁned as follows:sign(��) ={1�� ≥ 0,−1�� < 0.32330由于手工特征的存在，这些现有的CMH方法可能无法在实际应用中达到令人满意的性能。最近，使用神经网络的深度学习[19,16]被广泛用于从头开始进行特征学习，并取得了有希望的性能。也有一些方法采用深度学习进行单模态哈希[37, 23,20, 40,24]。这些方法表明，端到端的深度学习架构更适用于哈希学习。对于CMH设置，也出现了一种方法，称为深度视觉-语义哈希(DVSH)[3]，用于特征学习1。然而，DVSH只能用于一个模态必须是时间动态的特殊CMH情况。在本文中，我们提出了一种新的CMH方法，称为深度跨模态哈希(DCMH)，用于跨模态检索应用。DCMH的主要贡献如下:0∙DCMH是一个端到端的学习框架，使用深度神经网络为每个模态进行特征学习。0∙哈希码学习问题本质上是一个离散学习问题，很难学习。因此，大多数现有的CMH方法通过将原始离散学习问题放松为连续学习问题来解决这个问题。这种放松过程可能会降低学习到的哈希码的准确性[25]。与这些基于放松的方法不同，DCMH直接学习离散的哈希码，而不进行放松。0∙在图像-文本模态的真实数据集上的实验证明，DCMH可以胜过其他基线方法，在跨模态检索应用中达到最先进的性能。0本文的其余部分组织如下。第2节介绍了本文的问题定义。我们在第3节中介绍了我们的DCMH方法，包括模型的形式化和学习算法。第4节展示了实验结果。最后，我们在第5节中总结了我们的工作。02. 问题定义02.1. 符号表示0粗体小写字母如w用于表示向量。粗体大写字母如W用于表示矩阵，矩阵中的第th行第th列的元素表示为。W的第th行表示为W*，第th列表示为W*。W是W的转置。我们用1表示所有元素都为1的向量。tr(�)和∥�∥分别表示矩阵的迹和Frobenius范数。sign(�)是一个逐元素的符号函数，定义如下:01. 我们的DCMH方法的第一个版本已经在提交到arXiv[13]之前提交，实际上在公开文献中比DVSH更早出现。02.2. 跨模态哈希0尽管本文提出的方法可以很容易地适应多于两个模态的情况，但我们在这里只关注两个模态的情况。假设我们有个训练实体(数据点)，每个实体都有两个模态的特征。不失一般性，我们在本文中使用图像-文本数据集进行说明，这意味着每个训练点都有文本模态和图像模态。我们用X = {x} =1表示图像模态，其中x可以是手工特征或图像的原始像素。此外，我们用Y = {y} =1表示文本模态，其中y通常是与图像相关的标签信息。此外，我们还给出了一个跨模态相似性矩阵S。如果图像x和文本y相似，则= 1，否则=0。这里，相似性通常由一些语义信息（如类标签）定义。例如，如果它们共享相同的类标签，我们可以说图像x和文本y相似。否则，如果它们来自不同的类别，图像x和文本y是不相似的。给定上述的训练信息X，Y和S，跨模态哈希的目标是学习两个哈希函数，一个用于图像模态的�( ) (x) ∈{-1, +1}，一个用于文本模态的�( ) (y) ∈ {-1,+1}，其中是二进制码的长度。这两个哈希函数应该保持S中的跨模态相似性。具体而言，如果= 1，则二进制码b( ) = �() (x)和b( ) = �( ) (y)之间的汉明距离应该很小。否则，如果=0，则相应的汉明距离应该很大。在这里，我们假设训练集中每个点的两个模态特征都是可观察的，尽管我们的方法也可以很容易地适应其他设置，其中一些训练点只有一个模态的特征是可观察的。请注意，我们只对训练点做出这个假设。在训练模型之后，我们可以使用学习到的模型为查询和数据库点生成单模态或双模态的哈希码，这与跨模态检索应用的设置完全匹配。TEXTA black dog and a white dogwith brown spots are staringat each other in the street……basketballcatdogspotsballstreettreewhitezoo…001101010....full1819232340卷积0二进制码0全连接0哈希码0损失函数0损失函数0哈希码0全连接0二进制码0全连接0S0卷积池化卷积全连接0量化0全连接0词袋0图1.我们DCMH模型的端到端深度学习框架。0表1. 图像模态的CNN的配置。0层配置0conv1 f. 64 × 11 × 11；st. 4 × 4，pad 0，LRN，×2 pool0conv2 f. 265 × 5 × 5；st. 1 × 1，pad 2，LRN，×2 pool0conv3 f. 265 × 3 × 3；st. 1 × 1，pad 10conv4 f. 265 × 3 × 3；st. 1 × 1，pad 10conv5 f. 265 × 3 × 3；st. 1 × 1，pad 1，×2 pool0full6 40960full7 40960full8哈希码长度03. 深度跨模态哈希0在本节中，我们介绍了我们的深度CMH（DCMH）方法的细节，包括模型的构建和学习算法。03.1. 模型0整个DCMH模型如图1所示，它是一个端到端的学习框架，通过无缝地集成两个部分：特征学习部分和哈希码学习部分。在学习过程中，每个部分都可以向另一个部分提供反馈。03.1.1 特征学习部分0特征学习部分包含两个深度神经网络，一个用于图像模态，另一个用于文本模态。图像模态的深度神经网络是从[5]中改编的卷积神经网络（CNN）。该CNN模型有八层。前七层与[5]中的CNN-F相同。第八层是一个全连接层，其输出是学习到的图像特征。表1显示了图像模态的CNN的详细配置。具体而言，八层被分为五个卷积层和三个全连接层，在表1中分别表示为“conv1 - conv5”和“full6 -full8”。每个卷积0层的描述有几个方面：0∙ “f. × ×”表示卷积滤波器的数量和它们的感受野大小。0∙ “st”表示卷积步幅。0∙ “pad”表示要添加到输入的每个边的像素数。0∙ “LRN”表示是否应用局部响应归一化（LRN）[16]。0∙ “pool”表示下采样因子。0∙全连接层中的数字，如“4096”，表示该层中的节点数。它也是该层输出的维度。0前七层都使用修正线性单元（ReLU）[16]作为激活函数。对于第八层，我们选择恒等函数作为激活函数。为了从文本中进行特征学习，我们首先将每个文本表示为词袋（BOW）表示的向量。然后，词袋向量被用作深度神经网络的输入，该网络具有两个全连接层，分别称为“full1 -full2”。文本的深度神经网络的详细配置如表2所示，其中配置显示了每个层中的节点数。第一层的激活函数是ReLU，第二层的激活函数是恒等函数。0表2. 文本模态的深度神经网络的配置。0层配置0full2 哈希码长度0请注意，本文的主要目标是展示通过使用深度神经网络从头开始设计端到端的学习框架来进行跨模态哈希是可行的。但如何设计minB(��),B(��),��,�� = −��∑��,��=1(��Θ�� − log(1 + ��Θ��))+ ��(∥B(��) − F∥2�� + ∥B(��) − G∥2�� )+ ��(∥F1∥2�� + ∥G1∥2�� )(1)��.��.B(��) ∈ {−1, +1}��×��,B(��) ∈ {−1, +1}��×��,��(��∣F∗��, G∗��) ={��(Θ��)�� = 11 − ��(Θ��)�� = 0minB,��,�� = −��∑��,��=1(��Θ�� − log(1 + ��Θ��))+ ��(∥B − F∥2�� + ∥B − G∥2�� )+ ��(∥F1∥2�� + ∥G1∥2�� )(2)��.��.B ∈ {−1, +1}��×��.32350本文的重点不是不同神经网络的比较。其他深度神经网络也可以用于为我们的DCMH模型进行特征学习，这将留待未来研究。03.1.2 哈希码学习部分0设(x; ) ∈�表示学习到的图像特征，对应于图像模态的CNN的输出。此外，设(y; ) ∈�表示学习到的文本特征，对应于文本模态的深度神经网络的输出。这里，是图像模态的CNN的网络参数，是文本模态的深度神经网络的网络参数。DCMH的目标函数定义如下：0其中F ∈ � × ，F � = (x; )，G ∈ � × ，G � = (y; )，Θ = 102 F � G � , B ( ) � 是图像x的二进制哈希码，B ( ) �是文本y的二进制哈希码，和是超参数。第一项 − ∑ ,=1 ( Θ − log(1 + Θ ))在（1）中是交叉模态相似性的负对数似然，似然函数定义如下：01+ − Θ。很容易发现，最小化这个负对数似然（等价于最大化似然）可以使得 F � 和 G � 之间的相似性（内积）在 = 1时较大，在 = 0时较小。因此，优化（1）中的第一项可以保持 S中的跨模态相似性，其中图像特征表示 F 和文本特征表示G 。通过优化第二项 ( ∥ B ( ) − F ∥ 2 + ∥ B ( ) − G ∥ 2) 在（1）中，我们可以得到 B ( ) = sign ( F ) 和 B ( )= sign ( G ) 。因此，我们可以将 F 和 G 视为 B ( ) 和B ( ) 的连续替代。因为 F 和 G 可以保持 S中的跨模态相似性，二进制哈希码 B ( ) 和 B ( )也可以期望保持 S中的跨模态相似性，这正好符合跨模态哈希的目标。0第三项（∥ F1 ∥ 2 + ∥ G1 ∥ 2）在（1）中用于使得哈希码的每一位在所有训练点上都平衡。具体来说，每一位的+1和-1的数量在所有训练点上应该几乎相同。这个约束可以用来最大化每一位提供的信息。在我们的实验中，我们发现如果两种模态的二进制码在相同的训练点上设置为相同，可以实现更好的性能。因此，我们设置B( ) = B( ) = B。然后，问题（1）可以转化为以下形式：0这是我们的DCMH学习的最终目标函数。从（2）中，我们可以发现深度神经网络的参数（和）和二进制哈希码（ B）是从相同的目标函数中学习的。也就是说，DCMH将特征学习和哈希码学习整合到同一个深度学习框架中。请注意，我们只对训练点使B( ) = B()。在学习了（2）中的问题之后，如果点是查询点或数据库中的点而不是训练点，我们仍然需要为两个不同模态生成不同的二进制码 b( ) = �( )(x) 和 b( ) = �()(y)。这将在第3.3节中进一步说明。03.2. 学习0我们采用交替学习策略来学习 , 和B。每次我们固定其他参数来学习一个参数。DCMH的整个交替学习算法在算法1中简要概述，并且详细推导将在本小节的后续内容中介绍。03.2.1 学习 , with 和 B Fixed0当和 B固定时，我们通过使用反向传播（BP）算法来学习图像模态的CNN参数。与大多数现有的深度学习方法[16]一样，我们使用随机梯度下降（SGD）来学习，使用BP算法来学习。具体来说，在每次迭代中，我们从训练集中抽样一个小批量的点，然后根据抽样数据进行学习算法。特别地，对于每个抽样点x，我们首先计算以下梯度：��32360∂ ∂F� = 10=1 ((Θ)G� − G�)0+ 2 (F� − B�) + 2 F1. (3)0通过使用链式法则计算∂ ，基于此可以使用BP来更新参数。03.2.2 学习 , with 和 B Fixed0当和 B固定时，我们还通过使用带有BP算法的SGD来学习文本模态的神经网络参数。具体来说，对于每个抽样点y，我们首先计算以下梯度：0∂ ∂G� = 10=1 ((Θ)F� − F�)0+ 2 (G� − B�) + 2 G1. (4)0通过使用链式法则计算∂G�，基于此可以使用BP来更新参数。03.2.3 学习 B ，with 和 Fixed0当和固定时，问题(2)可以改写为如下形式：0max B tr(B ((F + G))) = tr(B V) = ∑0.. B ∈ {−1, +1} × ,0其中 V = (F +G)。很容易发现二进制码应该与保持相同的符号。因此，我们有：0B = sign(V) = sign((F + G)). (5)03.3. 样本外扩展0对于不在训练集中的任何点，只要观察到其模态之一（图像或文本），我们就可以获得其哈希码。特别地，给定点的图像模态x，我们可以采用前向传播来生成哈希码，如下所示：0b( ) = �( )(x) = sign((x; )).0同样，如果点只有文本模态y，我们也可以按照以下方式生成哈希码b( )：0b( ) = �( )(y) = sign((y; )).0因此，我们的DCMH模型可以用于跨模态搜索，其中查询点具有一种模态，数据库中的点具有另一种模态。0算法1DCMH的学习算法。输入：图像集X，文本集Y和跨模态相似性矩阵S。输出：深度神经网络的参数和二进制码矩阵B。初始化：初始化神经网络参数和，小批量大小= = 128，迭代次数= � / �，= � /�。重复：对于=1，2，��，do：从X中随机抽样个点构建一个小批量。对于小批量中的每个抽样点x，通过前向传播计算F� = (x;)。根据(3)计算导数。使用反向传播更新参数。end for：对于=1，2，��，do：从Y中随机抽样个点构建一个小批量。对于小批量中的每个抽样点y，通过前向传播计算G� = (y;)。根据(4)计算导数。使用反向传播更新参数。endfor：根据(5)学习B。直到达到固定的迭代次数。04. 实验0我们在图像-文本数据集上进行实验，以验证DCMH的有效性。DCMH是使用开源深度学习工具箱MatConvNet[31]在NVIDIA K80 GPU服务器上实现的。04.1. 数据集0评估使用了三个数据集：MIRFLICKR-25K [12]，IAPRTC-12 [8]和NUS-WIDE[6]。原始的MIRFLICKR-25K数据集[12]包含从Flickr网站收集的25,000张图像。每个图像都与若干文本标签相关联。因此，每个数据点都是一个图像-文本对。我们选择了那些至少有20个文本标签的数据点进行实验。每个数据点的文本表示为一个1386维的词袋向量。对于基于手工特征的方法，每个图像由一个512维的GIST特征向量表示。此外，每个数据点都手动注释为24个唯一标签之一。IAPRTC-12数据集[8]包含20,000个图像-文本对，使用255个标签进行注释。我们使用整个数据集进行实验。每个数据点的文本表示为一个2912维的词袋向量。对于基于手工特征的方法，每个图像由一个512维的GIST特征向量表示。32370NUS-WIDE数据集[6]包含260,648个网络图像，其中一些图像与文本标签相关联。它是一个多标签数据集，每个数据点都用81个概念标签中的一个或多个标签进行注释。我们选择了属于21个最常见概念的195,834个图像-文本对。每个数据点的文本表示为一个1000维的词袋向量。每个图像的手工特征是一个500维的视觉词袋（BOVW）向量。对于所有数据集，如果数据点i和数据点j共享至少一个公共标签，则认为图像i和文本j是相似的。否则，它们被认为是不相似的。04.2. 评估协议和基准04.2.1 评估协议0对于MIRFLICKR-25K和IAPRTC-12数据集，我们随机抽取2,000个数据点作为测试（查询）集，其余数据点作为检索集（数据库）。对于NUS-WIDE数据集，我们将2,100个数据点作为测试集，其余数据点作为检索集。此外，我们从检索集中随机抽取10,000个数据点作为MIRFLICKR-25K和IAPRTC-12的训练集。对于NUS-WIDE数据集，我们从检索集中抽取10,500个数据点作为训练集。地面真实邻居被定义为那些共享至少一个公共标签的图像-文本对。对于基于哈希的检索，汉明排序和哈希查找是两种广泛使用的检索协议[25]。我们还采用这两种协议来评估我们的方法和其他基准方法。汉明排序协议根据给定查询点到数据库（检索集）中的数据点的汉明距离，按照递增顺序对数据点进行排序。平均平均精度（MAP）[25]是衡量汉明排序协议准确性的广泛使用的指标。哈希查找协议返回与查询点相距一定汉明半径的所有数据点。精确率-召回率曲线是衡量哈希查找协议准确性的广泛使用的指标。04.2.2 基准0我们采用了六种最先进的跨模态哈希方法作为比较基准，包括SePH [22]，STMH [33]，SCM [35]，CMFH [7]，CCA[11]和DVSH[3]。由于DVSH只能用于一个特殊的CMH情况，其中一个模态必须是时间动态，我们只在IAPRTC-12数据集上将DCMH与DVSH进行比较，其中原始文本是可以视为时间动态的句子。MIRFLICKR-25K和NUS-WIDE中的文本是标签，不适合DVSH。请注意，除了DVSH之外，所有评估方法的文本都表示为BOW向量。0SePH、STMH和SCM的源代码由对应作者提供。而对于CMFH和CCA，其代码不可用，我们自己仔细实现它们。SePH是一种基于核的方法，我们使用RBF核，并按照其作者的建议选择500个随机选取的点作为核基。在SePH中，作者根据一个点的两种模态是否被观察到，提出了两种构建用于检索（数据库）点的哈希码的策略。然而，在本文中，我们仅使用一种模态用于数据库（检索）点，因为本文的重点是跨模态检索。所有基线方法的其他参数都根据这些基线方法的原始论文的建议进行设置。对于DCMH，我们使用验证集选择超参数和，并发现在DCMH中可以通过设置= =1来获得良好的性能。我们利用在ImageNet数据集上预训练的CNN-F网络[5]来初始化图像模态的前七层CNN。DCMH中深度神经网络的所有其他参数都是随机初始化的。图像模态的输入是原始像素，文本模态的输入是BOW向量。我们将小批量大小固定为128，并将算法1中外循环的迭代次数设置为500。学习率是根据验证集从10-6到10-1选择的。所有实验运行五次，报告平均性能。04.3. 准确性04.3.1 汉明排序0在MIRFLICKR-25K、IAPRTC-12和NUS-WIDE数据集上，使用DCMH和其他基线方法的手工特征的MAP结果如表3所示。这里，“→”表示查询为图像，数据库为文本的情况，“→”表示查询为文本，数据库为图像的情况。我们可以发现，DCMH可以优于所有其他具有手工特征的基线方法。为了进一步验证DCMH的有效性，我们利用在ImageNet数据集上预训练的CNN-F深度网络[5]提取CNN特征。所有基线方法都是基于这些CNN特征进行训练的。使用CNN特征的DCMH和其他基线方法在三个数据集上的MAP结果如表4所示。我们可以发现，在NUS-WIDE上，DCMH可以优于除SePH外的所有其他基线方法，用于图像到文本的检索。0对于SePH和DCMH，使用两种模态的数据库点进行检索时的准确性通常高于仅使用一种模态的数据库点进行检索的准确性。在具有两种模态的数据库点的情况下，DCMH仍然可以优于SePH。由于篇幅限制，本文省略了这个结果。DCMH0.74100.74650.74850.45260.47320.48440.59030.60310.6093SePH0.65730.66030.66160.41120.41580.42030.47870.48690.4888CMFH0.58180.58080.58050.36830.37340.37860.35680.36240.3661CCA0.56950.56630.56410.33450.32540.31930.34140.33360.3282DCMH0.78270.79000.79320.51850.53780.54680.63890.65110.6571SePH0.64800.65210.65450.40240.40740.41310.44890.45390.4587CMFH0.57870.57740.57840.36190.36870.37690.36230.36700.3723CCA0.56900.56590.56390.33400.32550.31970.33920.33200.3272DCMH0.74100.74650.74850.45260.47320.48440.59030.60310.6093SePH0.71230.71940.72320.44420.45630.46390.60370.61360.6211�� → ��STMH0.61320.62190.62740.37750.40020.41300.47100.48640.4942SCM0.68510.69210.70030.36920.36660.38020.54090.54850.5553CMFH0.63770.64180.64510.41890.42340.42510.49000.50530.5097CCA0.57190.56930.56720.34220.33610.33000.36040.34850.3390DCMH0.78270.79000.79320.51850.53780.54680.63890.65110.6571SePH0.72160.72610.73190.44230.45620.46480.59830.60250.6109�� → ��STMH0.60740.61530.62170.36870.38970.40440.44710.46770.4780SCM0.69390.70120.70600.34530.34100.34700.53440.54120.5484CMFH0.63650.63990.64290.41680.42120.42770.50310.51870.5225CCA0.57420.57130.56910.34930.34380.33780.36140.34940.3395�� → ��DCMH0.57800.60610.6310DVSH0.56960.63210.6964�� → ��DCMH0.65940.67440.6905DVSH0.60370.63950.680632380表3. MAP. 最佳准确性以粗体显示。基线方法基于手工特征。0任务方法 MIRFLICKR-25K IAPR TC-12 NUS-WIDE016位 32位 64位 16位 32位 64位 16位 32位 64位0→ STMH 0.5921 0.5950 0.5980 0.3580 0.3732 0.3819 0.3973 0.4082 0.41530→ STMH 0.5802 0.5846 0.5855 0.3445 0.3570 0.3690 0.3607 0.3738 0.38420表4. MAP. 最佳准确率以粗体显示。基线基于CNN-F特征。0任务方法 MIRFLICKR-25K IAPR TC-12 NUS-WIDE016位 32位 64位 16位 32位 64位 16位 32位 64位04.3.2 哈希查找0在哈希查找协议中，我们可以计算给定任何汉明半径的返回点的精确度和召回率。通过将汉明半径从0变化到，步长为1，我们可以得到精确度-召回率曲线。图2显示了代码长度为16的三个数据集上的精确度-召回率曲线，其中前两个子图基于手工特征，最后两个子图基于CNN-F特征，每行图中的基线。我们可以发现，DCMH在手工特征和CNN-F特征上都可以明显优于基线。我们的DCMH在其他不同代码长度的情况下也可以达到最佳性能，例如32位和64位。由于空间限制，这些结果被省略。04.4. 与DVSH的比较0由于DVSH的源代码不公开，并且重新实现DVSH也很困难，我们采用与DVSH[3]中相同的实验设置来评估DCMH，并直接使用DVSH[3]中的结果0表5. IAPR TC-12数据集上的前500个MAP结果。0任务方法 16位 32位 64位0用于比较。表5列出了IAPRTC-12数据集上的前500个MAP结果。请注意，DVSH的文本输入是句子，我们将句子表示为DCMH的BOW向量。我们可以发现，在大多数情况下，DCMH可以胜过DVSH。04.5. 参数敏感性0我们探索了超参数和的影响。图3显示了在代码长度为16位的MIRFLICKR-25K数据集上，不同和值下的MAP结果，其中 0 . 01 < < 2且 0 . 01 < < 2 。我们可以看到，DCMH对和不敏感。0.60.70.80.9��0.60.70.80.9��0.60.70.80.9��0.60.70.80.9� � ��0.30.40.50.60.70.8� � ��0.30.40.50.60.70.8� � ��0.30.40.50.60.70.8� � ��0.30.40.50.60.70.8� � ��0.30.40.50.60.70.80.9� � ��0.30.40.50.60.70.80.9� � ��0.30.40.50.60.70.80.9� � ��0.30.40.50.60.70.80.9� � ��0.0010.010.112�0.650.70.750.8MAP� � �� 0.0010.010.112�0.650.70.750.8MAP� � �� 163264Code length0.410.430.450.470.49MAP� � ��163264Code length0.450.470.50.520.55MAP� � ��323900 0.2 0.4 0.6 0.8 1 召回率0精确度0(a) MIRFLICKR-25K@手工特征00 0.2 0.4 0.6 0.8 1 召回率0精确度0(b) MIRFLICKR-25K@手工特征00 0.2 0.4 0.6 0.8 1 召回率0精确度0(c) MIRFLICKR-25K@CNN-F特征00 0.2 0.4 0.6 0.8 1 召回率0精确率0(d) MIRFLICKR-25K@CNN-F特征00 0.2 0.4 0.6 0.8 1 召回率0精确率0(e) IAPR TC-12@手工特征00 0.2 0.4 0.6 0.8 1 召回率0精确率0(f) IAPR TC-12@手工特征00 0.2 0.4 0.6 0.8 1 召回率0精确率0(g) IAPR TC-12@CNN-F特征00 0.2 0.4 0.6 0.8 1 召回率0精确率0(h) IAPR TC-12@CNN-F特征00 0.2 0.4 0.6 0.8 1 召回率0精确率0(i) NUS-WIDE@手工特征00 0.2 0.4 0.6 0.8 1 召回率0精确率00 0.2 0.4 0.6 0.8 1 召回率0精确率00 0.2 0.4 0.6 0.8 1 召回率0精确率0(l) NUS-WIDE @CNN-F特征图2. 三个数据集上的精确率-召回率曲线。代码长度为16。0图3. 超参数的影响04.6. 进一步分析0为了进一步验证特征学习的有效性，我们评估了DCMH的一些变体，即DCMH-I，DCMH-T，DCMH-IT。DCMH-I表示没有图像特征学习的变体，在训练期间我们固定图像模态的前七层参数。DCMH-T表示没有文本特征学习的变体，我们将文本模态的深度神经网络替换为线性投影。DCMH-IT表示既没有图像特征学习也没有文本特征学习的变体。图4报告了在IAPRTC-12上的MAP结果。我们可以发现DCMH的准确性比DCMH-I，DCMH-T和DCMH-IT更高，这证明了同时学习哈希码和特征学习的重要性。0图4. IAPR TC-12上的MAP。05. 结论0本文提出了一种新颖的哈希方法，称为DCMH，用于跨模态检索应用。DCMH是一个端到端的深度学习框架，可以同时进行特征学习和哈希码学习。在三个数据集上的实验证明，DCMH在真实应用中明显优于其他基线，达到了最先进的性能。06. 致谢0本工作得到了NSFC（61472182）和腾讯的资助。32400参考文献0[1] A. Andoni和P.Indyk。高维近似最近邻哈希算法。ACM通信，51（1）：117-122，2008年。[2] M. M. Bronstein，A. M. Bronstein，F.Michel和N.Paragios。使用相似性敏感哈希的交叉模态度量学习的数据融合。在CVPR中，页3594-3601，2010年。[3] Y. Cao，M. Long，J.Wang，Q. Yang和P. S.Yu。用于跨模态检索的深度视觉语义哈希。在SIGKDD中，页1445-1454，2016年。[4] M.´A. Carreira-Perpi˜n´an和R.Raziperchikolaei。使用二进制自动编码器的哈希。在CVPR中，页557-566，2015年。[5] K. Chat�eld，K. Simonyan，A.Vedaldi和A.Zisserman。细节中恶魔的回归：深入研究卷积网络

下载后可阅读完整内容，剩余1页未读，立即下载