深度联合语义重构哈希：用于大规模无监督跨模态检索的新方法

113 浏览量更新于2023-10-16 收藏 12.13MB PDF 举报

多媒体数据

检索性能

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{sushupeng, zszhong, c.zhang}@pku.edu.cn30270用于大规模无监督跨模态检索的深度联合语义重构哈希0苏树鹏 † 钟志胜 † 张超 �0机器感知教育部重点实验室，北京大学电子工程与计算机科学学院0摘要0跨模态哈希将多媒体数据编码为共同的二进制哈希空间，可以有效地测量不同模态样本之间的相关性。深度跨模态哈希通过生成更多语义相关特征和哈希码来进一步提高检索性能。本文研究了无监督深度跨模态哈希编码，并提出了深度联合语义重构哈希（DJSRH），具有以下两个主要优势。首先，为了学习保留原始数据邻域结构的二进制码，DJSRH构建了一种新颖的联合语义亲和矩阵，该矩阵精心地整合了来自不同模态的原始邻域信息，并能够捕捉输入多模态实例的潜在内在语义亲和性。其次，DJSRH通过提出的重构框架训练网络生成最大程度地重构上述联合语义关系的二进制码，这对于批次训练更有竞争力，因为它重构了特定的相似性值，而不仅仅是保留相似性顺序的常见拉普拉斯约束。广泛的实验证明了DJSRH在各种跨模态检索任务中的显着改进。01. 引言0跨模态检索是一种经典的场景，旨在从不同的模态中搜索语义相关的样本，例如使用文本描述来检索相关图像。由于多媒体数据的爆炸性增长，基于哈希的跨模态方法通过使用具有相似二进制特征的相关样本进行编码，由于二进制向量在存储和互相汉明距离计算方面的高效性，因此变得越来越重要。0† 相等贡献 � 通讯作者0尽管基本思想适用于任何内容模态的组合，但本文重点研究图像-文本跨模态检索，这是计算机视觉社区最近的一个引人注目的研究课题[24, 8, 18, 2,36]。由于异质性（即模态差距）限制了不同模态样本之间的相似度直接测量，跨模态哈希提出将原始数据嵌入到共同的二进制哈希空间中，可以通过它们的汉明距离有效地和高效地测量不同模态之间的相关性。具体而言，传统的跨模态哈希可以分为监督和无监督两类。无监督方法[16, 25, 6,37]仅利用输入的图像-文本对的共现信息，以最大化它们在共同哈希空间中的相关性。监督方法[20, 1, 34, 30,12]可以进一步利用语义标签为语义相关的跨模态数据学习更一致的哈希码，这显著减轻了模态差距并实现了更优越的检索性能。深度跨模态哈希通过深度神经网络生成更多语义相关特征[15,33]，从而有助于随后学习更一致的哈希码。然而，与广泛研究的监督深度跨模态哈希相比[3, 14, 24, 8, 18, 2,36]，我们的论文关注的无监督领域缺乏足够的探索。在相关研究中，UDCMH[31]是最新的一种无监督深度跨模态哈希方法，它将图拉普拉斯约束项集成到网络训练中。它明确约束哈希码以保留原始数据的邻域结构，并因此实现了最先进的检索结果。尽管相关工作取得了突破，但仍然存在两个值得关注的主要问题。首先，包括UDCMH在内的大多数先前方法分别保留了来自不同模态的原始邻域关系，而不同视图的相似性信息0000𝐈1𝐈2𝐈3𝐈1𝐈2𝐈3Cosine similaritymatrix 𝐒I𝐁T2𝐁T3(1 ,-1)(-1,-1)(1 , 1)1.0.6-0.80.61.-0.5-0.8-0.51.𝐓1 𝐓2 𝐓3𝐓1𝐓2𝐓31.-0.2-1.-0.21.0.1-1.0.11.𝒐𝟏 𝒐𝟐 𝒐𝟑𝒐𝟏1.0.1-0.90.1.0.-1.0.1.Cosine similaritymatrix 𝐒Tmin𝐁𝐈,𝐁𝐓 𝛍𝐒 − cos 𝐁𝐈, 𝐁𝐓F2𝐁𝐈ℎ1ℎ2𝑏1𝑏2𝐇𝐈𝐁𝐓ℎ1ℎ2𝑏1𝑏2𝐇𝐓30280� � =( , ) �� =( , ) � �=( , )0原始图像空间0原始文本空间0� 重构特定值0批次方式输入实例0跨模态编码相似度共同哈希空间0� � � � 联合语义相似度 �0联合语义挖掘0提出的重构框架0二进制编码0ImgNet0TxtNet0图1. DJSRH的流程图，显示了三个多模态实例 o k = � I k , T k � 作为输入。最好以彩色查看。0通常互补彼此，并且提前融合它们可以带来更精确的邻域描述。其次，共同的拉普拉斯约束，其原始形式是 �0通过权重约束的方式，使用 w ij 表示样本 i 和 j之间的原始相似度，而 B i 和 B j是待学习的二进制码，保留了原始邻域结构。它仅仅保留了根据 w ij 的大小保持相似度顺序，而 w ij对于每个随机采样训练批次中的样本组成非常敏感。例如，假设选择了一批彼此不相似的样本，尽管它们之间的相似度权重 w 都很小，但是对应于最大 w ij 的 B i 和 B j仍然会被约束为具有太相似甚至相同的哈希码，因为它们的w ij是当前批次中相对较大的一个，而这与整体的邻接结构是不合适的。因此，相关方法需要先同时学习整个训练样本的二进制码B，使用完整的相似度矩阵来确保准确性，然后再以延迟的批次方式训练深度网络将原始数据映射到已学习的 B上。显然，这不仅在第一步中带来了极高的时间和空间复杂度，因为使用了完整的相似度矩阵，而且还限制了深度网络学习和哈希编码部分之间的交互，而后者已经被证明在深度哈希网络的性能中起到了重要作用。鉴于这些问题，我们提出了一种更好的无监督跨模态哈希方法，称为DJSRH（Deep Joint-Semantics ReconstructingHashing），其主要贡献如下：0• 据我们所知，DJSRH是深度跨模态哈希中首次提出联合0为输入的多模态实例构建语义相似度矩阵，精心整合了来自不同模态的原始邻居关系，并能够捕捉实例之间的潜在内在语义相似度。0•然后，DJSRH训练深度网络通过提出的重构框架生成最大程度重构上述联合语义关系的二进制码。一方面，它为原始相似度范围添加了线性变换，以调节更优的量化区域。另一方面，它推动重构特定的相似度值，而不仅仅保留相似度顺序，这对于批次训练比拉普拉斯约束方式更有竞争力。0•DJSRH在无监督跨模态检索中展示了显著的改进，并详细展示了每个组件的有效性。0DJSRH的流程图如图1所示，本文的其余部分组织如下。第2节简要介绍相关方法，第3节详细介绍我们提出的算法。第4节给出了对跨模态检索的全面实验，第5节对本文进行了总结。02. 相关工作0在本节中，我们简要回顾一些代表性的无监督跨模态哈希方法，根据是否使用深度网络，它们可以大致分为浅层方法和深度方法。minB βTr(B⊤LIB) + (1 − β)Tr(B⊤LTB),s.t. B ∈ {−1, +1}m×d,(1)30290与早期的浅层方法相比，Cross-View Hashing (CVH) [16]和 Inter-Media Hashing (IMH) [25] 都可以看作是将Spectral Hashing [29]扩展到多模态场景的方法。Collective MatrixFactorization Hashing (CMFH) [6]通过使用潜在因子模型的集合矩阵分解来学习统一的哈希码，用于不同模态的数据。Latent Semantic SparseHashing (LSSH) [37]分别利用稀疏编码和矩阵分解来提取图像和文本的潜在特征，然后将其映射到一个公共空间并量化为统一的二进制码。然而，上述浅层方法无法探索不同模态之间的复杂非线性相关性，而深度方案 [31, 10, 35, 11]则展现了其通过深度神经网络的高非线性能力来弥合模态差距的优越性。具体而言，[28, 26, 11]使用自编码器框架来探索跨模态重构，为异构数据生成统一的潜在二进制码。[10, 35] 使用对抗学习 [9, 27]训练网络，试图捕捉不同模态的特征分布，并以极小极大博弈的方式缩小模态差距。UDCMH [31]将矩阵分解和拉普拉斯约束结合到网络训练中，明确约束哈希码以保持原始数据的邻域结构，从而实现了最先进的检索结果。尽管这些方法取得了很大的进展，但在这个领域仍有很大的改进空间。03. 联合语义重构哈希0我们首先介绍一些稍后会用到的定义。由于我们的方法侧重于批量训练，变量将以批量方式表示。具体来说，我们用 m表示批量大小，用 O = { o 1 , o 2 , ..., o m }表示每个批次中的 m个实例，其中每个实例由一个共现的图像-文本对 o k = � I k, T k � 描述。对于每个随机抽样的训练批次 { o k = � I k , Tk �} m k =1 ，我们用 F I ∈ R m × p I 和 F T ∈ R m × pT 分别表示来自数据集的原始特征，用于表示 I k 和 T k，而 B I ∈ {− 1 , +1 } m × d 和 B T ∈ {− 1 , +1 } m × d则是由我们的 ImgNet 生成的 I k 的二进制码和由 TxtNet生成的 T k 的二进制码。d 表示编码长度。此外，将 F I 和F T 归一化为每行具有单位 ℓ 2 -范数的 ˆ F I 和 ˆ F T后，我们可以计算余弦相似度矩阵 S I = ˆ F I ˆ F � I ∈ [ −1 , +1] m × m 和 S T = ˆ F T ˆ F � T ∈ [ − 1 , +1] m ×m，分别用于描述输入图像和文本的原始邻域结构。此外，如图1所示，我们可以将生成的二进制码 B I 和 B T视为只能取超立方体顶点的特征向量。从这个角度来看，相邻的顶点对应于相似的哈希码。0也就是说，两个二进制码之间的汉明距离可以由它们的角度距离表示。因此，为了描述汉明空间中的邻域结构，我们计算了二进制码的相互余弦关系，得到了成对的余弦相似度矩阵 cos( B I , B T ) ∈ [ − 1 , +1] m × m，其中每个元素计算了图像 i0∥ B I i ∥ 2 ∥ B T j ∥ 2 ∈ [ − 1 , +1] . B I i 表示 B I中的第 i 行，B T j 表示 B T 中的第 j行。这样的余弦矩阵反映了生成的二进制码之间的角度关系，这等同于上面讨论的汉明距离关系。03.1. 构建联合语义矩阵0正如[31,23]所示，学习能够保持原始数据邻域结构的二进制编码是无监督深度哈希网络训练的有效改进。具体而言，对于交叉模态检索任务，给定批量输入实例{ o k = � I k , T k �} m k=1，其中 F I 和 F T ，我们可以计算在 F I上的余弦相似性矩阵 S I ∈ [ − 1 , +1] m × m 和在 F T上的余弦相似性矩阵 S T ∈ [ − 1 , +1] m ×m，以描述不同模态中的原始亲和结构，然后使用这两个相似性矩阵来指导 I k 和 T k的哈希码学习。特别地，如何在训练过程中使用 S I 和 ST对算法性能起着重要作用。大多数先前的浅层或深层交叉模态哈希方法只是以分离的方式保留这两个亲和矩阵，其具有以下常见的公式：0其中 L I = diag( S I 1 ) − S I 和 L T = diag( S T 1 ) − ST 是图拉普拉斯矩阵。 β ∈ [0 , 1]是调节来自不同模态的邻域信息重要性的权衡参数。对于上述方程(1)，一方面，拉普拉斯约束方式不适用于批量网络训练，我们将在下一节详细说明。另一方面，它使用两个项分别保留邻域结构 S I 和 S T，这是次优的，因为不同视图的相似性矩阵通常是互补的，仔细地提前将它们整合起来通常可以获得更准确的邻域描述。因此，我们提出了一个联合语义亲和矩阵 S = C ( S I ,S T ) ∈ [ − 1 , +1] m × m，用每个 S ij ∈ [ − 1 , +1]表示输入实例 o i 和 o j之间捕获的潜在语义相似性。为了引入组合函数 C，我们首先用加权的方式合并 S I 和 S T ：˜S = βSI + (1 − β)ST, β ∈ [0, 1].(2)S = C(SI, ST)= (1 − η) ˜S + η˜S˜S⊤m= (1 − η) [ βSI + (1 − β)ST ] + ηm [ β2SIS⊤I +(3)β(1 − β)SIS⊤T + β(1 − β)STS⊤I + (1 − β)2STS⊤T ]1-1-100.5-0.530300如下所示的求和方式：0接下来，我们将˜S中的每一行视为每个实例的新特征，该特征记录了该实例与其他实例之间的相似关系，然后计算˜ S˜ S�以实现基于两个语义相关实例应该与其他实例共享相同相似关系的原则的高阶邻域描述。也就是说，它们各自在˜S中的行的点积结果应该取一个较大的值。因此，我们最终采用：0以将不同模态的原始邻域信息 S I 和 S T结合起来。将批量大小 m 除以 m 是为了对 ˜S˜S � m ∈ [− 1 , +1] m × m 进行归一化，而 η是调节高阶邻域描述的重要性的权衡参数。与单独的协同训练方式(1)相比，方程(3)以更明确和先进的方式结合了不同模态中的亲和信息。联合矩阵 S ∈ [ − 1 , +1] m × m优化了来自不同视图的亲和关系（ S I ， S T）和高阶邻域描述 ˜ S ˜ S �，使其能够很好地捕捉输入实例之间的潜在内在语义亲和性。因此，我们可以使用上述联合语义矩阵 S作为自监督信号来学习不同模态数据的语义相关二进制编码。它极大地有助于学习一致的表示，并相应地提高检索性能。顺便提一下，有趣的是我们提出的组合函数 S = (1 − η) ˜ S + η ˜S˜S � m，符合扩散过程[7]的定义。所提出的组合可以看作是对亲和矩阵 ˜ S 进行一次扩散步骤，具有以下更新方案：W t +1= η W t T + (1 − η ) Y，其中 W 0 = Y = ˜ S是初始亲和矩阵， T = ˜S � m 是转移矩阵， t 表示第 t步。也就是说，我们将原始邻域矩阵 S I 和 S T 合并为 ˜S ，然后对 ˜ S 进行一次扩散步骤，形成最终的 S = W 1。因此，[7]提供了另一种角度来证明我们提出的组合模式(3)的有效性。有必要探索在进行更多步骤或使用[7]中介绍的其他扩散方案时的性能，我们将把它们作为我们未来的工作。0� ��0� ��0� �� = �� ，� > 1 � �� = �� ，�= 1 � �� = �� ，� < 10扩展范围0原始范围0缩小范围0图2. 添加µ来调节S的量化区域。03.2. 使用二进制码进行重构0在上一小节中，我们构建了联合语义亲和矩阵S，以挖掘批次输入实例的潜在语义关系。现在我们可以通过最小化期望邻域矩阵S与待学习的哈希码结构cos(B I，BT)之间的重构误差来学习语义相关的二进制码。0使用以下公式：0min B I，B T ∥ µS - cos(B0s.t. S = C ( S I , S T ) ∈ [ − 1 , +1] m × m. (4)0提出的重构框架（4）有两个亮点。第一个是添加超参数µ，使我们的重构更加灵活，而第二个是重构特定的相似度值，与Laplacian约束模式相比，更适用于批次训练。我们首先分析µ的影响。这里我们以2位哈希编码的情况来说明。在这种2位情况下，哈希码只能取（+1，+1），（+1，-1），（-1，+1）和（-1，-1）这些位置，而它们的互余弦相似度只能取‘-1’，‘0’和‘+1’的关系。由于我们希望最大程度地重构具有这些2位哈希码的联合语义结构S ∈[-1，+1] m ×m，S中的原始相似性范围[0.5，1]将被分配给哈希空间中的‘+1’关系，即相应的图像-文本对将被迫采用相同的二进制码。类似地，（-0.5，0.5）将被分配给‘0’，[-1，-0.5]将被分配给‘-1’。然而，上述量化过程过于僵硬，无法学习到合理的哈希码。例如，一个语义相关的图像-文本对在捕获的S中完全有可能具有0.4的相似度值，而它将01 cos( B I , B T ) ∈ [ − 1 , +1] m × m反映了哈希码在Hamming空间中的当前邻域结构，如第3节开头所讨论的。̸30310为了共享相同的二进制码，必须将其严格量化为最接近的‘0’，而不是更好的‘+1’。针对这个不足，如图2所示，我们添加了一个超参数µ来实现对原始相似性矩阵S的线性变换，调整哈希空间中有限关系的相应相似性范围。以关系‘+1’为例，µ >1意味着扩展原始范围[0.5，1]，使更多的图像-文本对可以被量化为‘+1’关系，并因此拥有相同的哈希码，而µ <1则相反地缩小了‘+1’的范围。因此，提出的框架（4）中的参数µ有助于调节S的优越量化区域，从而高度提高了我们的重构的灵活性。0接下来，我们分析框架（4）在批次训练中的优越性。根据引言中的讨论，广泛使用的拉普拉斯约束方案Tr( B � LB ) = �0i，j S ij ∥ B i − B j ∥ 2仅仅以加权约束的方式保持二进制码的原始相似性顺序，即如果 S 12 > S 13 ，那么 B 1 应该比 B 3 更类似于 B 2，然而这样的相对顺序对于每个随机采样训练批次中的样本组成非常敏感。例如，假设当前批次中有三个样本，S 12 =0.2，S 13 = 0.1，S 23 = 0.1，那么 B 1 应该比 B 3更类似于 B 2 ，而具体的相似度程度没有被定义，很可能 B1 和 B 2 将被约束为过度相似甚至相同的哈希码，因为 S 12是当前批次中相对最大的值，这显然与整体相邻结构不符合，因为 S 12 � =1。因此，相关方法必须同时学习整个训练样本的二进制码，使用完整的 n × n亲和矩阵来确保算法的精度，这必然会在训练阶段带来高时间和空间复杂度。相比之下，提出的重构框架（4）最大程度地重构了 S中的特定相似度值，而不是它们的相似性顺序。它对每个随机采样训练批次的组成不敏感，因此更适合批次输入方式，使我们的编码网络能够进行期望的端到端批次训练。与之前的拉普拉斯方法相比，框架（4）不仅极大地降低了算法复杂度，而且由于每个批次中深度网络学习和哈希编码部分之间的增加交互作用，有助于实现更好的编码性能。0因此，我们采用框架(4)作为基本模式来构建我们的整体训练目标。具体而言，除了框架(4)中作为B I和BT的交叉模态重构的组成部分外，我们还补充了内部模态重构，因为在跨模态网络训练中同时考虑内部和跨视图已被证明可以有效提高检索性能。0算法1 深度联合语义重构哈希输入：训练集{ok = �Ik,Tk�}nk=1及其对应的原始特征FI和FT；ImgNetGθI和TxtNetGθT，其中θI和θT表示深度网络参数；批量大小m；输出：哈希编码函数ϕI(x) = sgn(GθI(x))用于图像输入和ϕT(x) =sgn(GθT(x))用于文本输入；01: 初始化epoch t =0；2: 重复执行；3: t = t0t；04: 对于�n0m �次迭代05: 从训练集{ok = �Ik, Tk�}mk=1中随机抽取一批实例；06: 计算归一化的ˆFI,ˆFT并将余弦矩阵集成到联合语义相似度S中，其中 S I =ˆF I ˆF � I，S T = ˆF T ˆF � T，使用公式(3)；07: 前向传播 HI = GθI(I)，HT = GθT(T)；08: 使用激活函数(7)进行哈希编码 BI = tanh(αHI)，BT =tanh(αHT)；09:计算目标函数(5)，使用链式法则反向传播梯度并更新所有参数；010: 结束循环011: 直到收敛0mance [21, 25,32]。因此，我们提出的DJSRH的最终训练目标是：0min B I, B T ∥µS − cos(B I, B T)∥2F + λ1∥µS − cos(B I, B I)∥2F0+ λ2∥µS − cos(BT, BT)∥2F，0s.t. S = C(S I, S T) ∈ [−1, +1] m × m，0BI, BT ∈ {−1, +1} m × d，(5)0其中λ1和λ2是平衡跨模态和内部模态重构的权衡参数。C是提出的组合函数(3)，用于集成S I和S T。03.3. 优化0优化目标函数(5)的主要困难在于对二进制码B I和BT施加的离散约束。对于深度哈希网络，如果我们将最后一个隐藏层的输出(没有激活函数)表示为H ∈ R m ×d(表示ImgNet中的H I和TxtNet中的HT)，我们可以通过以下方式生成严格的二进制哈希码：0B = sgn(H) ∈ {−1, +1} m × d，(6)0其中sgn(∙)是符号函数，对于正输入输出+1，否则输出-1。30320然而，在反向传播中，对于所有非零输入，符号函数的梯度为零，这会阻塞梯度返回前面的层。为了解决这个梯度消失的问题，我们采用了缩放的tanh函数：0B = tanh(αH) ∈ [−1, +1] m × d，α ∈ R+ (7)0在训练阶段，随着α的增加，替换编码函数(6)。这是基于一个关键观察结果，即当α→∞时，tanh(αx) =sgn(x)，如图1的右侧所示。因此，收紧的tanh函数生成了一系列平滑的优化问题，随着α的增加，可以收敛到原始的难以处理的二进制编码问题(5)。我们提出的DJSRH的整体过程总结如算法1所示。04. 实验0源代码可在以下网址获取：https://github.com/zzs1994/DJSRH。04.1. 数据集0Wiki [22]包含来自维基百科的10个类别的2,866个多媒体文档。每个文档都包含一张图像和至少70个单词的文本。每个图像还提供了一个手工制作的128维SIFT特征向量，而每个文本则附带一个由潜在狄利克雷分配（LDA）模型生成的10维主题向量。NUS-WIDE [5]包含269,648个多模态实例，每个实例都包含一张图像和相关的文本标签。根据先前的方法，从原始的81个类别中选择出现频率最高的10个标签，并保留相应的186,577个带注释实例。每个图像提供一个500维的BoWSIFT特征，而每个文本则提供一个最常见的1,000个文本标签的索引向量（也称为标签出现特征）。MIRFlickr [13]包含25,000个实例，每个实例都有24个标签，并包含一张图像和相关的文本标签。每个图像提供一个SIFT描述符，而每个文本则提供一个标签出现特征。04.2. 评估标准0Wiki正式分为数据库和查询集，分别包含2,173个和693个实例。至于MIR-Flickr和NUS-WIDE，根据[31,6]，随机选择2,000个实例作为查询，其余作为数据库。此外，由于其规模较小，Wiki的整个数据库将作为其训练集，而对于较大的MIRFlickr和NUS-WIDE，随机选择5,000个实例作为训练集。0在评估步骤中，训练好的哈希编码函数将应用于数据库和查询集中的每个实例，以获得它们的最终二进制表示。我们采用两种常见的检索指标：平均准确率（mAP）和precision@top-R曲线来评估所提出的DJSRH和基线方法的性能。如果两个数据点共享至少一个公共标签，则被视为地面真实邻居。04.3. 实现细节0由于手工制作的SIFT特征无法捕捉图像的抽象语义关系，我们遵循先前的工作，从在ImageNet上预训练的CNN中提取深层特征，以替换SIFT描述符。具体而言，我们从AlexNet[15]的fc7层（ReLU之后）中提取4,096维特征作为批量输入图像的原始特征FI ∈Rm×4096，而对于文本{Tk}mk=1，我们只是采用原始的LDA主题向量或标签出现特征作为它们的FT。值得注意的是，我们需要对SI进行预处理，即SI ← 2SI -1，对ST进行相同处理，因为当前的FI，FT都采用非负数，它们生成的SI，ST ∈ [0,1]m×m将不可避免地导致一些不可改变的哈希位，因为最小相似度现在是0。事先将它们转换回[ -1,1]m×m可以防止这个问题的发生。为了公平比较，我们遵循[31]，将AlexNet和多层感知机（MLP）作为我们的ImgNet和TxtNet的主干。我们用一个新的fc层（d个隐藏单元）替换AlexNet的分类器层fc8，生成连续的HI ∈Rm×d，然后通过训练公式（7）和测试公式（6）获得BI。对于文本模态，由于原始文本描述多样且难以处理，我们遵循先前的方案，直接采用主题向量或标签出现特征作为MLP的输入，即FT作为T输入到TxtNet中。我们的MLP的第一个fc层有4096个单元，其激活函数为ReLU。第二个fc层有d个单元，产生HT ∈Rm×d，然后通过训练公式（7）和测试公式（6）获得BT。此外，我们将批量大小设置为32，并采用带有0.9动量和0.0005权重衰减的SGD优化器。我们交叉验证超参数，并最终取η = 0.4，µ = 1.5作为所有三个数据集的参数，β =0.6，λ1 = λ2 = 0.1作为NUS-WIDE的参数，β = 0.9，λ1= λ2 = 0.1作为MIRFlickr的参数，β = 0.3，λ1 = λ2 =0.3作为Wiki的参数。此外，当在NUS-WIDE和MIRFlickr上运行时，将学习率设置为0.001的ImgNet和0.01的TxtNet。至于包含的实例较少的Wiki，我们将ImgNet的卷积层与预训练参数固定，并仅更新全连接层，设置0.050.150.250.350.4505001000150020000.050.150.250.350.450.550.650.7505001000150020000.30.40.50.60.70.80100020003000400050000.30.40.50.60.70.80100020003000400050000.550.650.750.850100020003000400050000.550.650.750.8501000200030004000500030330任务方法 Wiki MIRFlickr NUS-WIDE016位 32位 64位 128位 16位 32位 64位 128位 16位 32位 64位 128位0I → T0CVH 0.179 0.162 0.153 0.149 0.606 0.599 0.596 0.598 0.372 0.362 0.406 0.3900IMH 0.201 0.203 0.204 0.195 0.612 0.601 0.592 0.579 0.470 0.473 0.476 0.4590CMFH 0.251 0.253 0.259 0.263 0.621 0.624 0.625 0.627 0.455 0.459 0.465 0.4670LSSH 0.197 0.208 0.199 0.195 0.584 0.599 0.602 0.614 0.481 0.489 0.507 0.5070DBRC 0.253 0.265 0.269 0.288 0.617 0.619 0.620 0.621 0.424 0.459 0.447 0.4470UDCMH 0.309 0.318 0.329 0.346 0.689 0.698 0.714 0.717 0.511 0.519 0.524 0.5580DJSRH 0.388 0.403 0.412 0.421 0.810 0.843 0.862 0.876 0.724 0.773 0.798 0.8170T → I0CVH 0.252 0.235 0.171 0.154 0.591 0.583 0.576 0.576 0.401 0.384 0.442 0.4320IMH 0.467 0.478 0.453 0.456 0.603 0.595 0.589 0.580 0.478 0.483 0.472 0.4620CMFH 0.595 0.601 0.616 0.622 0.642 0.662 0.676 0.685 0.529 0.577 0.614 0.6450LSSH 0.569 0.593 0.593 0.595 0.637 0.659 0.659 0.672 0.577 0.617 0.642 0.6630DBRC 0.574 0.588 0.598 0.599 0.618 0.626 0.626 0.628 0.455 0.459 0.468 0.4730UDCMH 0.622 0.633 0.645 0.658 0.692 0.704 0.718 0.733 0.637 0.653 0.695 0.7160DJSRH 0.611 0.635 0.646 0.658 0.786 0.822 0.835 0.847 0.712 0.744 0.771 0.7890表1. 在不同编码长度和数据集上，图像查询文本（I → T）和文本查询图像（T →I）检索任务的mAP@50结果。最佳性能显示为红色，次优性能显示为蓝色。0(a)0精度0检索点数0Wiki: I → T @ 128 bits0DJSRH0UDCMH0DBRC0LSSH0CMFH0IMH0CVH0精度0检索点数0Wiki: T → I @ 128 bits0DJSRH0UDCMH0DBRC0LSSH0CMFH0IMH0CVH0精度0检索点数0NUS-WIDE: I → T @ 128 bits0DJSRH0UDCMH0DBRC0LSSH0CMFH0IMH0CVH0精度0检索点数0NUS-WIDE: T → I @ 128 bits0DJSRH0UDCMH0DBRC0LSSH0CMFH0IMH0CVH0(c) (e)0(b) (d) (f)0精度0检索点数0MIRFlickr: I → T @ 128 bits0DJSRH0UDCMH0DBRC0LSSH0CMFH0IMH0CVH0精度0检索点数0MIRFlickr: T → I @ 128 bits0DJSRH0UDCMH0DBRC0LSSH0CMFH0IMH0CVH0图3. 在不同数据集上，128位编码长度下的top-R曲线的精度。0ImgNet和TxtNet的学习率均为0.01。04.4. 检索性能0我们将我们提出的DJSRH与几个代表性的基线方法进行比较，包括CVH [16]，IMH [25]，CMFH [6]，LSSH[37]，DBRC [11]和UDCMH[31]，其中前四个是浅层方法，而DBRC，UDCMH和我们的方法是深度方案。我们首先将mAP结果与基线方法进行比较，并按照[31, 6]将检索点数设置为50（即0mAP@50).结果如表1所示。可以看出，所提出的DJSRH在不同的编码长度和数据集上明显优于最先进的无监督跨模态哈希方法。具体而言，与也使用深度特征作为图像模态表示的浅层方法相比，深度网络基线由于可以反向传播梯度到前端网络以学习更复杂和更有竞争力的哈希编码函数而取得更好的结果。DJSRH进一步提高了深度方案的性能。DJSRH-1S=SI0.7170.7120.7410.735DJSRH-3βSI+(1−β)ST0.7240.7200.7470.738DJSRH-4+(η = 0.4)0.7900.7450.8030.757DJSRH-5+(µ = 1.5)0.7930.7470.8120.768DJSRH+(λ1 =λ2 =0.1)0.7980.7710.8170.789DJSRH-6−(α = 1)0.7860.7700.8110.78230340在所提出的联合语义亲和矩阵S和哈希编码框架（4）的帮助下，我们在I→T（图像查询文本）和T→I（文本查询图像）的检索上分别取得了约15％和10％的改进，这在MIRFlickr和NUS-WIDE上都有所提升，而在Wiki上的改进相对较低（I→T约8％增加，但T→I几乎没有改变）。主要原因是Wiki的实例比其他两个数据集少得多，这极大地限制了深度神经网络的学习能力，这是众所周知的。此外，图3显示了各种比较方法的precision@top-R曲线，其中DJSRH仍然明显优于最先进的基线，从而证实了我们提出的无监督跨模态检索方案的优越性。04.5. 消融实验0为了进一步证明DJSRH中每个部分的有效性，我们设计了几个变体来评估逐步添加所提出组件时的性能。按照第3节的介绍顺序，DJSRH-1和DJSRH-2是基本变体，分别使用∥SI−cos(BI,BT)∥2F和∥ST−cos(BI,BT)∥2F作为它们的训练目标。DJSRH-3是简单地合并来自不同模态的亲和矩阵，并使用加权求和得到S = βSI +(1−β)ST，然后利用∥S−cos(BI,BT)∥2F作为其训练目标。DJSRH-4是基于DJSRH-3的变体，进一步补充高阶邻域信息以改进联合亲和矩阵，即使用方程（3）生成S。更进一步，DJSRH-5是添加调节参数µ的变体，即∥µS−cos(BI,BT)∥2F。然后，将模态内重构项（λ1 = λ2 =0.1）添加到DJSRH-5中，最终构成我们提出的DJSRH。最后，我们设置了一个变体DJSRH-6，它将常数tanh函数（即α =1）作为ImgNet和TxtNet的最后编码函数，取代了DJSRH采用的收紧tanh（7）。所有变体的mAP@50结果如表2所示。从表中可以观察到，我们提出的每个组件都对最终结果起到了一定的作用。具体而言，与DJSRH-1和DJSRH-2的性能相比，DJSRH-3和DJSRH-4的增量精度证明了所提出的组合函数（3）的有效性。模态合并（DJSRH-3）和高阶邻域信息（DJSRH-4）有助于改进原始的相似性SI和ST。它们可以更好地捕捉潜在的语义关系，推动学习更一致的哈希码，并相应地实现更高的检索结果。然后，变体DJSRH-5和DJSRH展示了正则化参数的效果。0模型配置 64位 128位0I→T T→I I→T T→I0DJSRH-2 S = ST 0.702 0.606 0.734 0.5810表2.NUS-WIDE上的mAP@50结果，用于评估DJSRH中每个组件的有效性。0µ参数和内模重构。DJSRH优于DJSRH-6的变体，表明收紧的tanh可以有效减少由常数tanh引起的量化误差，如[4,11]中所讨论的。最后但并非最不重要的是，我们想强调的是，变体DJSRH-1,2,3已经超过了UDCMH（表1中的最新方法），这完全归功于我们的哈希编码框架（4）的优越性。它使我们的深度哈希网络能够进行端到端的批次训练，大大增加了深度网络学习和哈希编码部分之间的交互，而不是以前的拉普拉斯约束模式。05. 结论0在本文中，我们提出了用于大规模无监督跨模态检索的深度联合语义重构哈希（DJSRH）。DJSRH首先将来自不同模态的原始邻域信息明确地整合到一个联合语义亲和矩阵中，以挖掘输入实例之间的潜在内在语义关系。然后，它通过提出的重构框架学习二进制码，以最大程度地重构上述联合语义结构，一方面为原始相似性范围添加了线性变换，以调节更好的量化区域，使我们的重构更加灵活。另一方面，它重构了特定的相似性值，使DJSRH在批次训练中比常见的拉普拉斯约束更有竞争力。大量实验证明了我们提出的方法的优越性，并且还仔细研究了每个组件的有效性。0致谢0这项工作得到了中国国家重点研发计划的支持，项目编号为2017YFB1002400，中国国家自然科学基金的支持，项目编号为61671027，以及中国国家重点基础研究计划的支持，项目编号为2015CB352303。30350参考文献0[1] Michael M Bronstein, Alexander M Bronstein, FabriceMichel, and Nikos Paragios.通过使用相似敏感哈希进行跨模态度量学习的数据融合。在CVPR中，页3594-3601，2010年。[2] Yue Cao，Bin Liu，MingshengLong和Jianmi

下载后可阅读完整内容，剩余1页未读，立即下载