跨模态汉明散列：一种用于跨模态检索的高效散列方法

145 浏览量更新于2023-10-10 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

跨模态汉明散列Yue Cao，Bin Liu，MingshengLong（）， and Jianmin Wang清华大学软件学院、中国大数据软件国家工程实验室北京国家信息科学技术研究中心@ gmail.com{mingsheng，jimwang}@ tsinghua.edu.cn抽象。跨模态散列实现跨不同内容模态的相似性检索，诸如响应于文本查询搜索相关图像。它为多媒体检索提供了计算效率和检索质量的优势。汉明空间检索使得能够通过散列查找而不是线性扫描来实现高效的恒定时间搜索，该搜索将给定汉明半径内的数据项返回到每个查询。然而，汉明空间检索在现有的跨模态散列方法中是无效的，受制于它们将相关项集中到小汉明球内的能力弱，而更糟糕的是，由于跨不同模态的大的异质性，来自不同模态的散列码之间的汉明距离不可避免地大。这项工作提出了跨模态汉明哈希（CMHH），一种新的深度跨模态哈希方法，生成紧凑和高度集中的哈希代码，使高效和有效的汉明空间检索。其主要思想是通过设计基于指数分布的成对焦点损失，对汉明距离大于汉明半径阈值的相似交叉模式对进行显著惩罚。大量的实验表明，CMHH可以生成高度集中的哈希码，并实现最先进的跨模态检索性能的哈希查找和线性扫描的情况下，三个基准数据集，NUS-WIDE，MIRFlickr-25 K，和IAPR TC-12。关键词：深度哈希，跨模态哈希，汉明空间检索1介绍随着大数据的爆炸式增长，大规模、高维的数据在搜索引擎和社交网络中得到了广泛的应用。由于来自不同模态的相关数据项可以传达语义相关性，因此支持跨模态检索是重要的，跨模态检索响应于另一模态的查询而从一个模态返回语义相关的最近，跨模态检索的一种流行且有利的解决方案是学习散列[1]，这是一种在不同模态之间进行近似最近邻（ANN）搜索的方法，具有计算效率和搜索质量。它将高维数据转换成紧凑的二进制码，对于相似的数据，用相似的二进制码，很大程度上2Yue Cao，Bin Liu，Mingsheng Long，and JianminWang减少了在大规模高维数据上的距离计算和候选项的计算负担。尽管通过深度学习已经减少了低级描述符和高级语义之间的语义差距[2]，但是跨模态的内在异质性仍然是另一个挑战。以前的跨模态散列方法在散列函数学习过程中捕获不同模态之间的关系，并将跨模态数据转换到同构的汉明空间中，其中可以直接计算跨模态距离[3，4，5，6，7，8，9，10，11，12，13]。现有的方法可以大致分为无监督方法和监督方法。无监督方法通常适用于不同的场景，并且可以在没有语义标签或相关性信息的情况下进行训练，但它们受到语义差距[2]的影响，即对象的高级语义标签与低级特征描述符不同监督方法可以结合语义标签或相关性信息来缓解语义差距[2]，从而产生更准确和紧凑的哈希码以提高检索准确性。然而，在散列函数学习过程中没有学习深度表示的情况下，现有的跨模态散列方法不能有效地弥合不同模态之间的异质性差距。为了提高检索准确性，深度哈希方法[14，15，16]使用深度网络[17，18]更有效地学习特征表示和哈希编码对于跨模态检索，深度跨模态哈希方法[19，20，8，21，22，23，24]已经表明，深度网络可以更有效地捕获非线性跨模态相关性，并产生最先进的跨模态检索性能。现有的深度跨模态散列方法可以被组织成无监督方法和监督方法。无监督深度跨模态散列方法针对不同模态采用相同的深度架构，例如MMDBM[20]使用深度玻尔兹曼机，MSAE [8]使用堆叠自动编码器，MMNN [19]使用多层感知器。相比之下，有监督的深度跨模态散列方法[22，23，24]采用混合深度架构，其可以用监督有效地训练以确保每个模态的最佳架构，例如，图像卷积网络[17，18，25]，文本多层感知器[26，27，28]和音频递归网络[29]。监督的方法显着优于无监督的方法进行跨模态检索。然而，大多数现有方法集中于数据压缩而不是候选修剪，即，它们被设计为通过对所生成的散列码进行线性扫描来最大化检索性能由于线性扫描对于大规模数据库仍然是昂贵的，即使使用紧凑的哈希码，我们可能会偏离我们最初的目标，即哈希。在可接受的检索精度下最大化搜索加速比。随着强大的散列方法的繁荣，这些方法在线性扫描中表现良好，我们现在应该回到我们最初的散列目标：使用散列查找实现有效的恒定时间搜索，即。Hamming空间检索[30].更确切地说，在汉明空间检索，我们返回一个给定的汉明半径内的数据点，以恒定的时间，每个查询，哈希查找，而不是线性扫描。不幸的是，现有的跨模态散列方法由于其错误指定的损失函数而通常在将相关的跨模态对集中到小汉明球这导致跨模态汉明散列3z(-1，1，1）(-1，-（1、鸟（1，-1，1）（-1，狗猫(-1、-（1，猫y狗（1，-Xz(-1，1，1）(-1，-（1、（1，-1，1）（-1，1，-1）(-1、-（1，y狗（1，-1，-1）X(D)（E）图1.一、跨模态汉明空间检索中的瓶颈的说明不同的颜色表示不同的类别（例如，狗、猫和鸟），并且不同的标记表示不同的模态（例如，三角形用于图像，十字形用于文本）。由于跨不同模态的大的固有异质性，现有的跨模态散列方法将生成具有非常大的汉明距离的不同模态的散列码，因为它们的错误指定的损失不能惩罚相同类别的不同模态以在汉明距离中足够相似，如图（a）所示我们通过基于指数分布提出一个明确的成对焦点损失来解决这个瓶颈，这对汉明距离大于汉明半径的类似交叉模式对有显著的惩罚，如图（b）所示最好用彩色观看。它们对于跨模态汉明空间检索的无效性。现有的跨模态散列方法的瓶颈直观地描绘在图2中。1.一、为了正式解决汉明空间检索中的上述异质性瓶颈，这项工作提出了跨模态汉明哈希（CMHH），一种新的深度跨模态哈希方法，生成紧凑和高度集中的哈希码，以实现高效和有效的汉明空间检索。其主要思想是通过基于指数分布设计成对焦点损失来显著惩罚汉明距离大于汉明半径阈值的类似CMHH同时学习图像和文本的相似性保持二进制表示，并正式控制二进制化连续表示的量化误差二进制哈希码。大量的实验表明，CMHH可以生成高度集中的散列代码，并在三个基准数据集NUS-WIDE、MIRFlickr-25 K和IAPR TC-12上针对散列查找和线性扫描场景实现最先进的跨模态检索性能。2相关工作跨模态散列已经成为多媒体检索越来越重要和强大的解决方案[31，32，33，34，35，36]。最新的调查可以在[1]中找到先前的跨模态散列方法包括无监督方法和监督方法。无监督交叉模态散列方法通过从未标记的配对数据训练来学习将数据编码为二进制代码的散列函数例如跨视图哈希（CVH）[4]和媒体间哈希（IMH）[7]。监督方法进一步探索监督的信息，例如：成对相似性4Yue Cao，Bin Liu，Mingsheng Long，and JianminWangi=1j=1或相关性反馈，以生成有区别的紧凑散列码。代表性方法包括跨模态相似性敏感散列（CMSSH）[3]、语义相关性最大化（SCM）[11]、量化相关性散列（QCH）[12]和语义保持散列（SePH）[37]。先前的浅跨模态散列方法不能利用跨不同模态的非线性相关性来有效地桥接固有的跨模态异质性。深度多模态嵌入方法[38，39，40，41]已经表明，深度网络可以更有效地桥接不同的模态最近的深度哈希方法[14，15，16，42，43，44]在许多图像检索数据集上给出了最先进的结果有几种跨模态深度哈希方法使用混合深度架构进行表示学习和哈希编码，即深度视觉语义哈希（DVSH）[22]、深度跨模态哈希（DCMH）[23]和相关哈希网络（CHN）[24]。DVSH是第一个深度跨模态散列方法，可以实现高效的图像-句子跨模态检索，但它不支持图像和标签之间的跨模态检索DCMH和CHN是并行工作，它们采用成对损失函数来保持跨模态相似性并控制混合深度架构内的量化误差。先前的深度跨模态散列方法不符合汉明空间检索[30]，即散列查找，通过早期修剪而不是线性扫描，从预先指定的小半径的汉明球中丢弃不相关的项注意，散列桶的数量将随着汉明半径呈指数增长，并且大的汉明球将是不可接受的。汉明空间检索效率低下的原因首先，现有的方法采用了错误指定的损失函数，当两个相似点具有较大的汉明距离时，损失函数的惩罚很小。其次，不同模态之间的巨大异质性引入了大的跨模态汉明距离。因此，它们不能将相关点集中在具有小半径的汉明球内。本文对比现有的方法，新的指定的损失函数的基础上的指数分布，缩小了小汉明球内的数据点，使有效的哈希查找。据我们所知，这项工作是第一个深度跨模态哈希方法对汉明空间检索。3跨模态汉明散列在跨模态检索中，数据库由来自一种模态的对象组成，查询由来自另一种模态的对象组成。我们通过深度学习从一个训练集捕获不同模态之间的非线性相关性。Nx图像{xi}Nx 和Ny文本{yj}Ny，其中xi∈RDx 表示Dx-分别地，yj∈RDy表示图像模态的D y维特征向量，并且y j ∈ R D y表示文本模态的Dy维特征向量一些图像和数据对与最小的表sij相关联，其中sij=1最小且sij = 0最小且si j=0最小。Deepcross-模态散列通过深度网络学习特定于模态的散列函数fx（x）：RDx›→{−1， 1}K和fy（y）：RDy›→{−1， 1}K，深度网络对每个对象进行跨模态汉明散列5我我我K我x和y转换成紧凑的K位散列码hx= fx（x）和hy= fy（y），使得在相似性对S中传达的相似性关系被最大限度地保留。作为替代，S={s}可以从数据对象的语义标签或点进行为中的相关性反馈中提取。Definition1（HammingSpaceRetrieval）。 Forbin arycΣodeso.fKΣ比特要检查的不同散列桶的数量是N（K，r）=rk=0K，其中r是汉明半径。 N（K，r）随r呈指数增长，当r ≤ 2时，每个查询只需要O（1）时间来找到所有的r-邻居。汉明空间检索是指通过散列查找将汉明半径r内的散列桶中的点直接返回到每个查询的恒定时间检索场景。定义2（跨模态汉明空间检索）。假设存在跨不同模态的同构汉明空间，我们通过散列查找而不是模态同构汉明空间中的线性扫描，将汉明半径r内的一种模态的对象返回到另一种模态的查询。本文介绍了跨模态汉明哈希（CMHH），这是一个用于跨模态汉明空间检索的统一深度学习框架，如图1所示。二、所述方案通过深度表示学习和二进制散列编码的端到端流水线来实现深度表示学习和二进制散列编码：（1）用于提取有区别的视觉表示的图像网络，以及用于提取好的文本表示的文本网络;（2）两个完全连接的散列层，用于变换每个模态转换为K位哈希码hx，hy∈ {1，−1}K，（3）新的指数I j基于相似性保持学习的指数分布的焦点损失其揭示了同构汉明空间以桥接不同模态，以及（4）新的指数量化损失，用于控制二值化误差并改善模态同构汉明空间中的散列质量。3.1混合深度架构CMHH的混合深度架构如图所示。二、对于图像模态，我们扩展了AlexNet [17]，这是一种深度卷积网络，具有五个卷积层cov 1-cov5和三个完整的卷积层fc 6-fc 8。我们将分类器层fc8与K个隐藏单元的散列层fch进行比较，其将K维连续码zx∈RK图像xi.通过符号阈值hx= sgn（zx）得到hash码hx我我我由于病态梯度的存在，使得符号函数的优化变得困难，我们采用双曲正切（tanh）函数将连续码zx压缩在[-1，1]内，从而减小连续码zx与最终二进制哈希码hx之间的间隙。对于文本模态，我们遵循[24，23]并采用具有相同维度和激活函数的两层多层感知器（MLP如图像网络中的FC7和FCH我们获得每个文本yj的哈希码hyY YJ也通过符号阈值Hj= SGn（Zj）。为了进一步保证用于高效汉明空间检索的哈希码的质量，我们保持了与序列对s{（xi，yj ，sij）：sij∈S}之间的相似性，并对序列进行了编码6Yue Cao，Bin Liu，Mingsheng Long，and JianminWangy指数量化损失输入conv1conv2conv3conv4conv5Word2Vec标签fc6fc7FCH1指数0焦点损失发生率TF-IDF文本特征提取插件fc7FCH指数量化损失图二、跨模态汉明散列（CMHH）的架构由四个模块组成：（1）用于图像表示的卷积网络和用于文本表示的多层感知器;（2）用于散列码生成的两个散列层（FCH），(3)用于学习同构汉明空间的指数焦点损失，以及（4）用于控制散列质量的指数量化损失。最好用彩色。错误，两者都在同构的汉明空间中执行为了实现这一目标，本文提出了一个成对指数焦点损失和逐点指数量化损失，都来自最大后验概率（MAP）框架。3.2贝叶斯学习框架在本文中，我们提出了一个贝叶斯学习框架，通过联合保持图像-文本对的相似性关系和控制量化误差，从相似性数据中执行深度跨模态散列给定训练对，其具有类似于{（xi，yj，sij）：sij∈S}的极小值，则该对数Maxi-本文讨论了散列码HX=[HX，. . . ，hx]及y y1NxHy=[h1，. . .，hN 对于Nx个训练图像和Ny个训练文本，log P（HX，HY| S）∝ log P（S|Hx，Hy）P（Hx）P（Hy）Σ=wijlogP .ΣSIj|hx，hy+ ΣNx logP（hx）+ΣNy logP . hyΣsij∈SQIji=1Σ。ΣΣ w我j=1J（一）其中P（S|Hx，Hy）=PSIJ|hx，hyij是加权似然sij∈Sijf unction[45]，并且wij是针对一个字符串对（xi，yj，sij）的w e i g h t。F或eachp air，P（sij|hx，hy）是给定的一对中的最小区域的一致性概率ijy- 散列码hx和h，其可以基于伯努利分布来定义I j. . ..Σx关于我们xy σ dhi，hj，sij=1PSIJ|hi，hj为. .xy ΣΣ1 −σ dhi，hj，sij=0（二）. .xyΣΣsij.. .xy1−sij=σ dhi，hj1−σdhi，hj跨模态汉明散列7Ij.xyxy其中dhi，hj表示散列码hi和hj之间的汉明距离，并且σ是将在下一小节中详细描述的概率函数类似以使其在空间上清晰可见。这是一个非常重要的问题。isedata，ΣwerequireinEquation（2）dhx，hy越小 P1越大|hx，hy将是，这意味着i j i jim. 年龄文本Σ对xi和yj应被分类为相似;否则，较大的均p0 |hx，hy 将是，这意味着图像-文本对应该被分类为I j不一样因此，这是二进制类逻辑回归到配对的自然扩展，因为假设二进制类的最小值为{0，1}。受焦点损失[46]的启发，它产生了目标检测任务的最先进性能，我们将我们的模型更多地集中在硬和错误分类的图像txt对上，通过发现对一个对（xi，yj，sij）的计算效率为. .. . XyΣγ1−σ dhi，hj，sij=1wij=. σ。D. hx，hyΣΣΣγ，sij=0（三）其中γ彡0是控制错误分类对的相对权重的超参数。在图3（a）中，我们绘制了不同γ∈[0，5]的焦点损失。当γ=0时，焦点损失退化为标准交叉熵损失。随着γ变大在高置信度对（简单对）上，焦点损失变得更小，从而导致在低置信度对（硬的和错误指定的对）上相对更多的焦点3.3指数哈希学习利用贝叶斯学习框架，可以使用任何概率函数σ和距离函数d来实例化特定散列模型。以前最先进的深度跨模态散列方法，如DCMH [23]，通常采用sigmoid函数σ（x）= 1/（1+e−αx）作为概率函数，其中α>0是控制sigmoid函数饱和区的超参数到与此同时，我们还看到了这样一个问题。我不想让你失望。nerproΣductasasurrogate为了量化汉明距离，即d hx，hy =hx，hy.i j i j然而，我们发现了sigmoid函数的一个关键的错误指定问题如示于图3.第三章。我们观察到，当散列码之间的汉明距离远大于2时，sigmoid函数的概率保持较高，只有当汉明距离接近K/2时，sigmoid函数的概率才开始明显下降。这意味着先前的深度跨模态散列方法对于将相似点的散列码之间的汉明距离拉到小于2是无效的，因为小于K/2的不同汉明距离的概率不够有区分性。这是现有的跨模态散列方法的严重缺点，这使得散列查找搜索效率低下。请注意，对于汉明空间检索中的每个查询，我们只能返回汉明球内具有小半径的对象（例如2）的情况。针对上述sigmoid函数的错误指定问题，我们提出了一种基于指数分布的新概率函数：. . xyΣΣ..xy ΣΣσdhi，hj=exp−β·dhi，hj、（四）8Yue Cao，Bin Liu，Mingsheng Long，and JianminWang我我54321000.10.20.30.40.50.60.70.80.9 110.90.80.70.60.50.40.30.20.110 203040 5060432110 20 30 40 50 60概率(a) 焦点损失汉明距离(b) 概率汉明距离(c) 损失图3.第三章。[焦点损失]焦点损失（a）相对于相似数据点的条件概率（sij= 1）的值。[指数分布]关于相似数据点的哈希码之间的汉明距离的概率（b）和损失（c）的值（sij = 1）。基于sigmoid函数的概率（损失）是大（小），即使汉明距离远大于2，这是不好的指定的汉明空间检索。作为一个理想的属性，我们的损失指数分布的基础上惩罚显着相似的数据对较大的汉明距离。其中β是指数分布的标度参数，d是汉明距离。图如图3（b）-3（c）所示，当汉明距离大于2时，指数分布的概率通过使用更大的β，概率的衰减速度将甚至更快，这施加了更多的力来将类似的点集中在小的汉明球内。因此，缩放参数β对于控制精确度和召回率之间的权衡至关重要。通过简单地改变β，我们可以支持各种各样的汉明空间检索场景，具有不同的汉明半径，不同的修剪率。由于具有二进制约束h*∈ {−1， 1}K的方程（1）的离散优化具有挑战性，因此为了便于优化，将连续松弛应用于二进制约束，如大多数以前的散列方法所采用的那样[1，16，23]。骗-控制由连续松弛引起的量化误差h*−sgn（h*），以及我我为了学习高质量的散列码，我们基于指数分布的对称变体为每个散列码h*提出了一种新的（1）A =（1）A =（|h*|，1）），* ∈ {x，y}，（5）我我其中λ是对称指数分布的标度参数，1∈RK是1的向量。通过使用连续松弛，我们需要用连续码上的最佳逼近代替汉明距离这里我们采用欧氏距离作为汉明距离的近似，. xyΣ¨x y¨2d hi，hj = ¨hi−hj¨2。（六）通过将等式（2）-（5）带入（1）中的MAP估计，我们获得所提出的跨模态汉明散列（CMHH）的优化问题minL+λQ，（7）Θ焦点（p）=−（1−p）γlog（p）=5=2=1=0.5=0Sigmoid函数指数分布损失概率损失跨模态汉明散列9我X其中λ是权衡指数焦点损失L和指数量化损失Q的超参数，并且Θ表示要优化的网络参数的集合。具体地，所提出的指数焦点损失L被导出为ΣΣL=s..XyΣγ.xy Σsij∈Sij1− exp.−βd.hi，hj.βdΣΣΣhi，hj...ΣΣΣΣ（八）-（1−s ）exp−βd hx，hyγ 日志1 −exp−βd hx，hy，i jijij并且类似地，所提出的指数量化损耗被导出为ΣNXΣNy. .y.ΣQ=i=1 d（|hi|、1）+Dj=1. hj. 、1、（9）其中，d（·，·）是汉明距离，其与连续码之间的距离或欧氏距离相同。由于量化误差将由所提出的指数量化损失控制，为了便于优化，我们可以在训练期间对散列码h*使用连续松弛最后，我们通过符号阈值h ← sgn（h）得到K位二进制码，其中sgn（h）是向量上的符号函数，i = 1，. . . ，K，如果hi> 0，则sgn（hi）= 1，否则sgn（hi）=−1。请注意，由于我们在训练期间已将量化误差最小化，因此最终的二值化步骤将导致检索精度的可忽略损失4实验我们进行了广泛的实验，以评估所提出的CMHH在三个基准数据集上使用几种最先进的交叉模式散列方法的有效性：NUS-WIDE [47]，MIRFlickr-25 K [48]和IAPR TC-12 [49]。4.1设置NUS-WIDE是一个公共图像数据集，包含269，648张图像。每个图像由81个地面实况概念（类别）中的一些来注释。我们遵循与[8，50]类似的实验协议，并使用属于21个最常见概念中的一些的195，834个图像-文本对的子集。MIRFlickr-25 K [48]由25，000张图片和完整的人工注释组成，每张图片都标有38个概念中的一些。IAPR TC-12 [49]包含20，000张图像和255个概念。我们遵循[23]使用整个数据集，每个文本表示为2912维的词袋向量。我们遵循数据集分裂[24]。在NUS-WIDE中，我们随机选择每个类100对作为查询集，每个类500对作为训练集，每个类50对在MIRFlickr-25 K和IAPR TC-12中，我们随机选择1000对作为查询集，4000对作为训练集，1000对作为验证集，其余作为数据库。遵循如[23，11，37，24]中的标准协议，用于散列学习和用于地面实况评估的相似性信息由语义10Yue Cao，Bin Liu，Mingsheng Long，and JianminWang标签：如果图像i和文本j共享至少一个标签，则它们是相似的并且sij=1;否则，它们是相似的并且sij=0。然而，尽管我们使用语义标签来构造相似性信息，所提出的方法CMHH可以在只有相似性信息可用时学习哈希码我们将CMHH与八种最先进的交叉模态散列方法进行比较：两种无监督方法IMH [7]和CVH [4]以及六种有监督方法CMSSH [3]，SCM[11]，SePH [37]，DVSH [22]，CHN [24]和DCMH [23]。其中DVSH、CHN和DCMH是深度交叉模态散列方法。为了验证所提出的CMHH方法的有效性，我们首先评估的比较方法，在一般设置的跨模态检索广泛采用以前的方法：使用线性扫描，而不是哈希查找。我们遵循[37，23，24]并采用两个评估指标：平均平均精度（MAP），MAP@R = 500，以及精度-召回曲线（P@R）。然后，我们评估汉明空间检索，遵循[ 30 ]中的评估方法，由两个连续步骤组成：（1）修剪，以使用散列查找针对每个查询返回汉明半径2内的数据点;（2）扫描，以使用连续码将返回的数据点按照它们到每个查询的距离的升序重新排序。为了评估汉明空间检索的有效性，我们报告了两个标准评估度量来测量汉明半径2内的数据点的质量：精确度曲线在汉明半径2（P@H≤2）内，召回曲线在汉明半径2（R@H≤2）内。对于浅层散列方法，我们使用AlexNet [17]为每个图像提取4096维深度fc7特征。对于所有深度哈希方法，我们直接使用原始图像像素作为输入。我们采用AlexNet [17]作为基础架构，并在TensorFlow中实现CMHH。我们微调ImageNet预训练的AlexNet并训练哈希层。对于文本模态，所有深度方法都使用标签出现向量作为输入，并采用从头开始训练的双层多层感知器（MLP）。我们使用具有0.9动量的小批量SGD，并使用乘法步长交叉验证从10- 5到10- 2的学习率110个2. 我们将小批量大小固定为128，权重衰减为0。0005. 我们选择通过交叉验证确定所提出的CMHH的超参数λ、β和γ。我们还通过交叉验证选择了每种比较方法的超参数4.2一般设置结果所有比较方法的MAP结果如表1所示，其表明所提出的CMHH大幅优于所有比较方法。具体而言，与 SCM 相比， CMHH 在 NUS-WIDE，MIRFlickr-25 K和IAPR TC-12上的两个跨模态检索任务I → T/ T → I的平均MAP分别实现了5.3%/7.9%，12.5%/19.0%和4.6%/8.5%的绝对增加。CMHH在三个基准数据集上的平均MAP分别比最先进的深度跨模态哈希方法 DCMH 高出 3.5%/4.3% 、 2.9%/2.6% 和5.0%/1.4%注意，与DVSH（具有用于图像-句子检索的精心设计的架构最先进的深度跨模态散列方法）相比跨模态汉明散列11表1.所有跨模态检索方法的平均精度（MAP）任务方法NUS-wideMIRFlickr-25KIAPR TC-1216位 32位64位16位32位64位16位32位 64位[3]0.4450.4570.5350.4930.5110.5650.3450.3370.348CVH [4]0.4330.4210.4180.6620.6800.6750.3790.3690.362IMH [7]0.5170.5990.5800.6510.6690.6730.4630.4900.510I→TSCM [11]SePH [37]0.6630.5750.6950.5820.7290.5760.6680.7210.6830.7440.6790.7470.5880.5070.6110.5130.6280.515[22]第二十二话------0.5700.6320.696中国[24]0.7010.7190.7360.7640.7870.8140.5630.6130.652DCMH [23] 0.6970.7150.7280.7480.7710.7980.5780.6060.631CMHH0.733 0.738 0.774 0.783 0.814 0.821 0.603 0.657 0.703[3]0.4010.4780.4110.4250.4330.4580.3630.3770.365CVH [4]0.4180.4030.4060.5680.5920.5790.3790.3670.364IMH [7]0.6010.6530.6870.5970.6110.6160.5160.5260.534T→ISCM [11]SePH [37]0.6420.5810.6880.5870.7110.6030.5830.6180.5980.6240.6050.6330.5880.4710.6050.4800.6200.481[22]第二十二话------0.6040.6400.681中国[24]0.6710.7120.7360.7190.7480.7610.6470.6830.695DCMH [23] 0.6780.7230.7500.7310.7630.7840.6590.6740.691CMHH0.719 0.749 0.778 0.758 0.782 0.793 0.667 0.689 0.710在图像-句子数据集IAPR TC-12上，两个检索任务的平均MAP优于DVSH的2.2%/4.7%。这验证了CMHH能够基于线性扫描学习用于跨模态检索的高质量散列码。所提出的CMHH通过两个关键方面从最先进的DVSH、CHN和DCMH 进行了实质性改进：（ 1 ） CMHH 通过由加权最大似然（WML）激励的新指数焦点损失来增强深度学习以进行散列，这将更多关注于困难和错误分类的示例以产生更好的跨模态搜索性能。(2)CMHH学习同构汉明空间并控制量化误差，这更好地近似跨模态汉明距离并学习更高质量的哈希码。在NUS-WIDE和MIRFlickr-25 K上的精确-召回曲线（P@R）方面的跨模态检索结果如图所示。分别参见图4（a）、4（d）和5（a）、5（d）。CMHH显著优于所有的比较方法，具有不同长度的散列码的大幅度。特别地，CMHH在较低的召回水平下或在较少数量的顶部返回样本下实现了高得多的精确度。这对于实际搜索系统中的精度优先检索是期望的4.3汉明空间检索结果汉明半径2（P@H≤2）内的精度对于汉明空间检索是非常关键的，因为它对于每个查询只需要O如图在图4（b）、4（e）、5（b）和5（e）中，CMHH在不同码长的基准数据集上实现了最高的P@H≤2性能。这验证了CMHH可以更快地12Yue Cao，Bin Liu，Mingsheng Long，and JianminWang0.750.650.550.70.60.50.40.30.50.40.30.20.450.20.10.10.3500.10.20.30.40.50.60.70.80.91召回(a) I→T0202530354045505560的比特(b) I→T0202530354045505560的比特(c) I→T0.750.650.550.70.60.50.40.30.50.40.30.20.450.20.10.10.3500.10.20.30.40.50.60.70.80.91召回(d) T→I0202530354045505560的比特(e) T→I0202530354045505560的比特(f) T→I见图4。精确-召回（P@R）（a）（d）、汉明半径2内的精确度（P@H≤2）（b）（e）和汉明半径2内的召回（R@H≤2）（c）（f）。和高度集中的散列码，并且能够实现更有效和准确的汉明空间检索。请注意，大多数以前的散列方法在代码长度较长时检索性能较差由于汉明空间将随着更长的代码长度而变得越来越稀疏，并且更少的数据点将落在半径为2的汉明球中，因此出现了这种不期望的效果值得注意的是，CMHH使用较长的代码长度实现了相对温和的准确性降低甚至增加，验证了CMHH可以将相似点的散列码集中在一起，以在汉明半径2内，这有利于汉明空间检索。汉明半径2（R@H≤2）内的召回在汉明空间检索中更关键如图在图4（c）、4（f）、5（c）和5（f）中，CMHH在具有不同代码长度的两个基准数据集上实现了最高R@H≤2结果。这验证了CMHH成功地将更多相关点集中在半径为2的汉明球内。重要的是要注意，随着汉明空间使用更长的散列码变得更稀疏，大多数散列基线在 R@H≤2 时导致不可容忍的性能下降，即则R@H≤2趋近于零！这一特殊结果表明，现有的跨模态散列方法无法将相关点集中在小半径的汉明球内，而这是汉明空间检索的关键通过引入新的指数聚焦损失和指数量化损失，所提出的CMHH在R@H≤2时随着哈希码变长而引起非常小的性能下降，表明CMHH即使使用更长的码长也可以将更多的相关点集中在具有小半径的汉明球的CMHHDCMHCHNSephSCMIMHCVHCMSSH精度CMHHDCMHCHNSephSCMIMHCVHCMSSH精度精度精度召回召回跨模态汉明散列130.850.750.650.70.60.50.40.30.50.40.30.20.550.20.10.10.4500.10.20.30.40.50.60.70.80.91召回(a) I→T0202530354045505560的比特(b) I→T0202530354045505560的比特(c) I→T0.850.70.50.750.650.60.50.40.30.40.30.20.550.20.10.10.4500.10.20.30.40.50.60.70.80.91召回(d) T→I0202530354045505560的比特(e) T→I0202530354045505560的比特(f) T→I图五. MIRFlickr@32位上的查准率-查全率（P@R）（a）（d）、汉明半径2内的查准率（P@H≤2）（b）（e）和汉明半径2内的查全率（R@H≤2）（c）（f）采用较长代码的能力赋予CMHH权衡准确性和效率的灵活性，而这对于所有先前的跨模态散列方法是不可能的4.4实证分析消融研究我们研究了CMHH的三种变体：（1）CMHH-E是通过用流行的交叉熵损失替换指数局灶损失的变体[23];（2）CMHH-F是使用公式（3）中的focal_rew_t的方法的变体，n = 1;（3）CMHH-Q是不使用指数量化损失的变体（9），即λ =0;三种变体在三个模型上的MAP结果是：数据集报告于表2中（通过线性扫描的一般设置）。指数焦点损失。 (1)CMHH 在利润率上优于 CMHH-E在 NUS-WIDE、MIRFlickr-25 K和IAPR TC-12上进行跨模态检索时，平均MAP分别为2.7%/3.9%、2.4%/2.1%和3.6%/1.2%。指数焦点损失（8）利用指数分布将相关点集中在小汉明球内，以实现有效的跨模态检索，而S形交叉熵损失不能实现该期望的效果。(2) CMHH在三个数据集上的跨模态任务的平均MAP方面优于CMHH-F，幅度分别为2.0%/2.8%，2.5%/2.1%和2.2%/2.8%。指数焦点损失通过将更多的焦点放在困难和错误分类的示例上来增强深度散列，并获得更好的跨模态搜索精度。指数量化损失。CMHH表现优于CMHH-Q 1.9%/2.2%、1.7%/ 2.0%和2.6%/2.3%。这些结果验证了指数量化损失（9）可以提高剪枝效率，改善恒定时间跨模态检索的性能。CMHHDCMHCHNSephSCMIMHCVHCMSSHCMHHDCMHCHNSephSCMIMHCVHCMSSH精度精度精度精度召回召回14Yue Cao，Bin Liu，Mingsheng Long，and JianminWang107表2.不同CMHH变体的平均精密度（MAP）比较任务方法NUS-wideMIRFlickr-25KIAPR TC-1216位32位64位16位 32位64位16位32位 64位CMHH0.733 0.738 0.7740.783 0.814 0.8210.603 0.657 0.703I→TCMHH-QCMHH-F0.7080.7100.7150.7210.7650.7530.7620.7550.7880.7790.8040.7980.5780.5890.6230.6310.6850.677CMHH-E0.7050.7220.7360.7510.7800.8020.5840.6190.653CMHH0.719 0.749 0.7780.758 0.782 0.7930.667 0.689 0.710T→ICMHH-QCMHH-F0.7220.7180.7280.7200.7630.7580.7330.7420.7780.7710.7860.7800.6390.6420.6610.6580.6970.682CMHH-E0.6840.7250.7540.7370.7690.7880.6610.6750.6957126105846342120010203040506070汉明距离(a) CMHH0010203040506070汉明距离(b) DCMH图六、CMHH DCMH的64位相似对上的汉明距离的直方图统计学研究我们计算了s_ij = 1的所有模型对的汉明距离（0 ~64）的直方图，如图所示。六、由于跨图像和文本的大的异质性，基于基线DCMH散列码计算的跨模态汉明距离通常比汉明球半径（通常为2）大得多这就解释了图1中R@H≤2几乎为零的原因4和5. 相比之下，基于我们的CMHH散列码计算的大多数跨模态汉明距离小于汉明球半径，这使得能够成功地进行跨模态汉明空间检索。5结论本文提出了一种新的跨模态汉明散列（CMHH）方法，可以产生更紧凑，高度集中的哈希码，建立恒定时间的跨模态汉明空间检索。这是通过在贝叶斯学习框架中联合优化新的指数焦点损失和指数量化损失来完成的实验表明，CMHH产生国家的最先进的跨模态检索结果汉明空间检索和线性扫描的情况下，三个数据集，NUS-WIDE，MIRFlickr-25 K，和IAPR TC-12。6确认本课题得到了国家重点研发计划（2016YFB1000701）和国家自然科学基金（61772299，61672313，71690231）的资助。106频率频率跨模态汉明散列15引用1. 王杰，张，T.，塞贝，N.，Sh

下载后可阅读完整内容，剩余1页未读，立即下载