无监督深度哈希：DistillHash的设计与实验

42 浏览量更新于2023-10-19 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1DistillHash：通过提取数据对的无监督深度哈希杨尔坤1、2、刘同良2、邓成1、刘伟3、陶大成21西安电子科技大学电子工程学院西安7100712UBTECH Sydney AI Centre，School of Computer Science，FEIT，University ofSydney，Darlington，NSW 2008，Australia，3Tencent AI Lab，Shenzhen，Chinaekyang@stu.xidian.edu.cn，铜梁.刘@ sydney.edu.au，chdeng. gmail.com，wl2223@columbia.edu，大成. sydney.edu.au摘要由于高存储和搜索效率，散列已成为流行的大规模相似性搜索。特别是，深度哈希方法大大提高了监督场景下的搜索性能。相比之下，无监督的深度哈希模型由于缺乏可靠的超级相似性信号而难以为了解决这个问题，我们提出了一种新的深度无监督哈希模型，称为Distill-Hash，它可以学习由具有置信度相似性信号的数据对组成的蒸馏数据集。具体而言，我们调查的初始噪声相似性信号从本地结构和贝叶斯最优分类器分配的语义相似性标签之间的关系。我们表明，在一个温和的假设下，一些数据对，其标签是一致的，签署的贝叶斯最优分类器，可以潜在的蒸馏。受此启发，我们设计了一个简单而有效的策略来自动提取数据对，并进一步采用贝叶斯学习框架从提取的数据集中学习哈希函数。在三个广泛使用的基准数据集上的大量实验结果表明，所提出的DistillHash始终实现了最先进的搜索性能。1. 介绍视觉数据的爆炸性增长（例如，照片和视频）已经引起了对高效索引和搜索算法的重新关注[6，9，19，44，48，53，57，58，65-通常，散列方法可以分为有监督和无监督模型。监督哈希*通讯作者模型[7，35，40，62]，其目的是学习具有语义标签的散列函数，已经显示出显著的性能。然而，现有的监督散列方法，特别是深度散列依赖于大量标记数据示例来训练其模型。因此，当不存在足够的训练样本时，它们的性能可能会由于对那些训练样本的过拟合而急剧为了解决这一挑战，无监督哈希方法通常采用学习框架，而不需要任何监督信息。传统的具有手工特征的无监督散列方法[3，21，25，39]由于模型容量低以及分离的表示和二进制代码优化过程，无法很好地保留真实世界数据样本的相似性为了利用深度学习的最新进展[31，56，68]，还提出了采用神经网络作为哈希函数的无监督深度哈希方法[11，15，17，30，36]这些深度哈希模型通常通过最小化量化损失或数据恢复损失来训练然而，由于这些目标未能利用数据点之间的语义相似性，他们很难取得令人满意的结果。在本文中，我们提出了一种新的无监督深度哈希模型，称为DistillHash，它通过提取具有自信语义相似性关系的数据对来解决监督信号的缺失问题。特别是，我们首先利用训练数据点的局部结构为每个数据对分配一个初始相似性标签。如果我们将语义相似性标签视为真标签，则这些初始相似性标签包含标签和实例相关的标签噪声，因为它们中的许多不能表示语义相似性。通过假设我们知道给定一对数据点的语义相似性标签的概率，贝叶斯最优分类器将把语义相似性标签分配给具有更高概率（或具有大于0.5的概率在此基础上，我们对噪声标签与贝叶斯29462947最优分类器受[8]框架的启发，我们表明，在温和的假设下，具有置信语义标签的数据对可以潜在地被提取。此外，本文还从理论上给出了抽取数据对的标准，并提供了一种简单有效的自动抽取数据对的方法最后，给定提取的数据对集，我们设计了一个深度神经网络，并采用贝叶斯学习框架同时执行表示和哈希码学习。我们的主要贡献可概括如下：• 通过将从深度特征中学习到的信号视为噪声成对标签，我们成功地将噪声标签学习技术应用于我们的方法。这表明，标签与贝叶斯最优分类器分配的标签一致的数据对可以被潜在地提取。• 从理论上给出了用于哈希学习的数据对的选择标准，并进一步提供了一种简单有效的自动收集数据对的方法。• 在三个流行的基准数据集上的实验表明，我们的方法可以优于当前最先进的无监督哈希方法。本文的其余部分组织如下。我们在第2节中回顾了相关文献。我们在第3节介绍我们的新DistillHash。第4节详细介绍了实验，然后在第5节中提出结论性意见。2. 相关工作最近，围绕散列主题的文献数量显著增长[12，13，32，33，42，42，43]。根据学习阶段是否包含监督信息，现有的哈希模型可以分为两类：监督哈希方法和非监督哈希方法。监督散列方法[5，14，22，35，40，49，55，61，64]旨在学习可以将数据点映射到汉明空间的散列函数，其中可以保留语义相似性。基于核的监督哈希（KSH）[40]使用内积来近似汉明距离，并通过保持汉明空间中的语义相似性来学习哈希函数。快速监督离散散列（FSDH）[22]使用简单而有效的回归从训练数据点的类标签到相应的散列代码来加速学习过程。卷积神经网络哈希（CNNH）[61]将哈希函数学习分解为两个阶段。首先构造两两相似度矩阵，并将其分解为近似散列码的乘积。其次，CNNH模拟器通过以下方式学习表示和哈希函数：训练所述模型以预测所学习的散列码以及所述离散图像类别标签。深度柯西散列（DCH）[5]采用柯西分布在相对较小的汉明球中继续优化数据对。无监督散列方法[3，21，25，39，41]试图通过使用未标记的数据点进行训练来将原始数据编码为二进制代码。迭代量化（ITQ）[21]首先使用主成分分析（PCA）将数据映射到低维空间，然后利用交替最小化方案找到旋转矩阵，将数据映射到具有最小量化误差的二进制代码。离散图散列（DGH）[39]将图散列问题转换为离散优化框架，并显式处理离散约束，因此可以直接输出二进制代码。球面散列（Sphericalhashing，SpH）[25]最小化原始实值特征和学习的二进制代码之间的球面距离。锚图散列（AGH）[41]利用锚图获得易处理的低秩邻接矩阵并近似数据结构。虽然目前传统的无监督哈希方法取得了很大的进步，但它们通常依赖于预定义的特征，无法同时优化特征和哈希码的学习过程，从而错过了学习更有效哈希码的机会。无监督深度哈希方法[11，17，30，36，37，52，63]采用深度架构来提取特征并执行哈希映射。语义哈希[52]使用预先训练的受限玻尔兹曼机（RBM）[46]来构建自动编码器网络，然后用于生成有效的哈希码并重建原始输入。深度二进制描述符（DeepBit）[36]将原始图像和相应的旋转图像视为相似对，并尝试学习哈希码以保持这种相似性。随机生成哈希（SGH）[11]利用生成机制通过最小描述长度原则学习哈希函数。散列码被优化以最大限度地压缩数据集并重新生成输入。基于语义结构的无监督深度哈希（SSDH）[63]利用深度特征中的语义信息，并基于成对距离和高斯估计学习语义结构。然后，语义结构用于指导哈希码学习过程。通过集成特征和哈希码学习过程，深度无监督哈希方法通常会产生更好的结果。从噪声标签中训练分类器也是一个密切相关的任务。我们将噪声标签引用到数据点标签损坏的设置[4，23，24，69]。由于在许多情况下，它是既昂贵又难以获得可靠的标签，越来越多的文献一直致力于学习噪声标签。这些方法可以分为两大类：标签噪声容忍分类[2，45]和标签噪声净化方法，2948i=1ods [8，38，47，50]。前者采用决策树或基于boosting的集成技术等策略，后者利用训练样本的先验信息滤除标签噪声为了全面了解，我们建议读者阅读[20]。通过将初始相似性关系视为噪声标签，我们的方法可以显式地建模噪声标签与贝叶斯最优分类器分配的标签之间的关系，从而使我们能够以置信度提取数据对n（xi，xj）asη（xi，xj）=P（Sij=+1|xi，xj）=P（Sij=+1|xi，xj，Sij=+1）P（Sij=+1|xi，xj）+P（Sij=+1|xi，xj，Sij= −1）P（Sij= −1|xi，xj）=（1−ρ+1（xi，xj））η（xi，xj）+ρ−1（xi，xj）（1−η（xi，xj）），（三）相似性信号其中ρSij（xi，xj）=P（Sij=−Sij|xi，xj，Sij）表示3. 方法设X ={xi}N用N表示训练集，真实标签和噪声标签之间的翻转率，数据对（xi，xj）和它们的标签Sij。如果我们知道ρSij （ xi ， xj ）和 ηSij（ xi ， xj ）的值，那么 η（xi，xj ）的值就很容易推出。然而，ρS（xi，xj）的值为站，深度哈希旨在学习非线性哈希函数-tionsh：x<$→b∈ {-1，1}K，它可以将原始数据点x编码为紧凑的K位哈希码。传统的监督深度哈希方法通常接受数据对{（xi，xj），Sij}作为输入，其中Sij∈IJ未知从等式3我们可以进一步得到，当翻转率ρ+1（xi，xj）和ρ−1（ xi，xj）相对较小时，如果η∈（xi，xj）较大，则η（xi，xj）也应该较大，反之亦然。在下面的小节中，我们证明它是可能的-可以推断η（x，x）是否小于或大于0。5{+1，-1}是一个二进制标签，用于指示x且xi j1i j基于一些弱信息关于ρS（xi，xj），其中相似或不相似。然而，由于标记过程的繁琐和需要必要的领域知识，它是不可行的，直接获取标签在许多任务。因此，本文研究了非监督环境下的散列问题。受贝叶斯分类器理论[18]的启发，数据对的可靠标签可以由贝叶斯最优分类器自信地分配，即，.1，如果η（xi，xj）≥0. 五、IJ这意味着我们有可能获得可靠的标签，一些数据对。我们定义那些数据对的可靠的标签可以从S的检索作为蒸馏数据对。在下面的小节中，我们从理论上证明了蒸馏数据对可以在温和的压缩下提取。并提出了一种自动收集数据对的方法。3.1. 自动收集提取的数据对Sij=-1，如果η（xi，xi）<0. 五、（一）为了收集提取的数据对，我们首先给出以下内容假设。其中，η（xi，xj）=P（Sij=+1|xi，xj）。这种贝叶斯最优分类器意味着，如果我们可以访问η（xi，xj），我们可以用等式推断真实的数据标签1.一、然而，在无监督设置下，我们无法访问η（xi，xj）。对于无监督学习，一些最近的作品[34，51，63]证明了从原始特征学习的局部结构可以帮助捕获点之间的相似性关系受此启发，我们可以根据训练数据对的局部结构对其进行粗略标记，并构造一个相似性矩阵S.假设1. 对于任何数据对{（xi，xj），i，j=1，. N}，我们有0≤ρ+1（xi，xj）+ ρ−1（xi，xj）≤ 1。（四）这个假设意味着标签噪声不会太重。请注意，如果正确标记的数据对的数量被认为大于错误标记的数据对的数量，则翻转率ρSij（xi ，xj ）将以0为界。五、我们可以看到，假设1比上述假设弱得多。很难证明，Sij=1，若d（i，j）≤t1，-1，如果d（i，j）>t2，（二）利用局部结构满足假设1。然而，在这方面，在三个广泛使用的基准数据集上的实验结果实证地验证了这一假设的适用性其中，d（i，j）表示针对xi和xj，t1和t2是距离的阈值。然而，由于S_∞仅由局部结构构造，因此它们是不可靠的并且可能包含标签噪声。注意，基于S，我们可以学习条件概率η（xi，xj）=P（Sij=+1）的估计|xi，xj）。并且，η_i（xi，xi）和2949构建的噪声标签。在本文的其余部分，我们总是假设假设1成立。然后，我们将[8]中的噪声标签学习技术扩展到成对标签，并提出了以下关键定理，该定理给出了收集提取数据对的基本标准。[1]由于S_i中的大多数标号都是正确的，所以我们可以很容易地得到ρS_i_j（x_i，x_j）的上2950ijij2我 J我 J定理1. 对于任何数据对{（xi，xj），i，j = 1，.N}，我们有反对意见1. 给定条件概率η（xi，xj），以下不等式成立如果η∈（x，x）1−ρ+1（xi，xj），则{（x，x），s =−1}ij2i j ij是提取的数据对;如果η（x，x）>1+ρ−1（xi，xj），则{（x，x），s=+1}ρ−1（xi，xj）≤η（xi，xj），ρ（x，x）≤1−η（x，x）。（六）ij2i j ij+1i j i j是一个经过提炼的数据对证据根据等式 3、对于任何数据对{（xi，xj）|η（xi，xi）≥0。5，i，j=1，...，N}，我们有证据根据等式3、我们可以η（xi，xj）=（1−ρ+1（xi，xj））η（xi，xj）η（xi，xj）=（1−ρ+1（xi，xj））η（xi，xj）+ρ−1（x，x）（1−η（x，x））=η（x，x）（1−ρ（x，x）−ρ（x，x））+ρ−1（xi，xj）（1−η（xi，xj））=η（xi，xj）（1−ρ+1（xi，xj）−ρ+ρ−1（xi，xj）≥ ρ−1（xi，xj）。−1（xi，xj））（七）i j+1ij−1i j+ρ−1（xi，xj）1−ρ+1（xi，xj）+ρ−1（xi，xj）≥21−ρ+1（xi，xj）≥。2（五）该不等式成立，因为ρ+1（xi，xj）+ρ−1（xi，xj）≤1. 类似地，它g iv eρ+1（xi，xj）≤1−η（xi，xj）。然而，如果我们直接组合命题1和- orem1，则不能选择任何提取的数据对。因此，这里我们进一步假设翻转率是局部不变的，因此第一个不等式成立，因为η（xi，xj）≥0。5和ρ+1（xi，xj）+ρ−1（xi，xj）≤1。基于等式5、我们有η（x，x）≥0。5<$η<$（x，x）≥1−ρ+1（xi，xj），获得翻转速率上界为ρ−1max（xi，xj）=min{η（x，x）|，x∈nn（x），x∈nn（x）}，i j i j2k l kρ+1max（xi，xj）欧伊洛欧杰这意味着η（x，x）<1−ρ+1（xi，xj）<$η（x，x）<0.五、i j2 i j将该结果与等式1、我们可以标记数据对（x，x），其中S=−1，如果η<$（x，x）<1−ρ+1（xi，xj）。=min{（1−η（xk，xl））|，xk∈nno（xi），xl∈nno（xi）}，（八）其中，nn_o（xi）表示xi的前o个最近邻的集合。利用翻转率上限ρ+1max（xi，xj）和ρ−1max（xi，xj），我们有i j ijij2类似地，我们可以证明数据对（xi，xj），η（x，x）>1+ρ−1（xi，xj）可以标记为S=1−ρ+max（xi，xj）1−ρ+1（xi，xj）ij2+1。ij≤21+ρ−max（xi，xj）≥21+ρ−1（xi，xj）.（九）选择提取数据对的权衡是需要估计条件概率η和翻转率条件概率η（x，x）可以通过下式估计：ρSij（xi，xj）. 为了估计η，我们采用概率类i-ij化方法具体来说，我们设计了一个深度网络来将数据对映射到概率。由于该目标与哈希码学习相似，因此我们探索了用于估计ηk和哈希码学习的相同架构。这个深度网络的详细描述将在下一小节中介绍。对于翻转率ρ（x，x）的估计，大多数所采用的深度网络和噪声率上限可以用Eq.8. 将这些结果与Eq.9和定理1，我们可以发现，通过挑选满足η（x，x）>1+ρ−1max（xi，xj）的每个对（ x ， x ），可以成功地收集提取的数据对，分配标签Sij=+1，并挑选出每对（x，x）满足η（x，x）1−ρ+1max（xi，xj）且作为-2951Siji j ijij2现有的工程[38，50]假设噪音是标签-和实例独立或实例独立。而在我们的方法中，翻转率应该是标签和实例相关的，所以大多数现有的方法都不适合当前的问题。考虑到直接估计翻转率的困难，我们提出了一种方法来获得一个上限。形式上，我们给出如下命题。签名标签S ij=−1。提取的数据对集合可以是表示为{（xi，xi，Si，j），i，j=1，. m}，其中m是提取数据对的数量。在获得提取的数据对集之后，我们可以进行哈希码学习，这类似于监督哈希的学习过程。具体来说，我们采用贝叶斯学习框架，这将在下面的小节中详细说明。295223.2. 贝叶斯学习框架在本小节中，我们提出了一个贝叶斯学习框架来执行深度哈希学习，并估计条件概率η（xi，xj）。我们首先介绍了散列码学习的框架，然后展示了如何将其应用于估计η_i（xi，xj）。通过将提取数据的散列码表示为B =[b1 ，... ，bm]，最大似然（ML）估计散列码可以定义为：算法1：DistillHash训练阶段输入：训练图像X，代码长度K，小批量大小t，超参数o和p。程序：1. 构建初始噪声相似性标签与方程。（二）、2. 估计条件噪声标签概率对于所有训练数据对，η（·，·）3. 估计所有训练logP（S|B）=1 μmM2ΣmlogP（Sij|bi，bj），（10）数据对Eq. （八）、4. 用定理1提取数据对。i=1j =1其中P（Si，j|bi，bj）是散列码bi和bj 中相似标签Si jg i的条件概率，其可以自然地由成对逻辑函数近似.重复3.1 随机抽取t个数据对，提取的数据对集作为输入。3.2 通过所采用的网络的前向传播计算输出3.3 通过以下方式更新网络参数：logP（SIj|bi，bj）=σ（bi，bj）Sij=1，1−σ（bi，bj）Sij=−1，（十一）最小化等式（十）、直到收敛;其中σ（x）=1是sigmoid函数，并且测试阶段1+e−xI j输入：图像查询q，参数为所采用表示散列码bi和bj 的内积。这里，我们采用内积，因为如[40]所示，哈希码的汉明距离dist H（·，·）可以从内积distH（bi，bj）=1（K−kbi，bjk）中推导出来。因此，内积可以反映我网络程序：1. 计算神经网络的输出：直接前向传播输入图像。2. 使用sign函数获取哈希码。二进制哈希码的汉明距离。与逻辑回归类似，我们可以发现汉明距离distH（bi，bj）越小，则相关系数越大。内积结果bi，bji和条件概率P（1|bi ，bj ）将是。否则，条件概率P（−1）越大，|bi，bj）将是。这些结果意味着相似的数据点将被强制具有较小的汉明距离，而不相似的数据点将被强制具有较大的汉明距离，这是汉明空间相似性搜索所期望的。学习EQ。10，可以获得有效的哈希码。在训练模型后，给定一个数据点，我们可以通过所采用的网络直接向前传播来获得其哈希码，并通过以下符号函数.4. 实验我们在三个流行的基准数据集 FLICKR 25K ，NUSWIDE和CIFAR 10上评估了我们的方法，并提供了广泛的评估来证明其性能。在本节中，我们首先介绍数据集，然后介绍我们的实验结果。4.1. 数据集FLICKR 25K[26]包含从Flickr网站收集的25，000张图像。每个图像都使用提供的24个唯一标签中的至少一个进行手动注释。我们随机选择2，000张图像作为测试集;其余的图像sign（x）=1如果x≥0，−1如果x为<0.（十二）年龄被用作检索集，我们从中随机选择5，000幅图像作为训练集。NUSWIDE[10]包含269，648张图像，每张图像都用整个学习算法总结在Algo- rithm1中。由于该框架将数据对映射为相似概率，因此我们也可以使用它来估计条件概率。主要区别在于，对于散列码学习，我们使用提取的数据对作为输入，而对于构造概率估计，我们使用由局部结构构造的数据对作为输入。M2953多个标签涉及81个概念。这里使用的子集包含10个最流行的概念。我们随机选取5,000幅图像作为测试集;剩余的图像被用作检索集，并且从检索集中随机选择10，500个图像作为训练集。CI-FAR10[29]是一个流行的图像数据集，包含10个类别的60，000张图像。对于每个类，我们随机选择1,000张图像作为查询，500张作为训练图像，结果-2954在包含10，000张图像的查询集和由5，000张图像组成的训练集中进行搜索。除了查询集之外的所有图像都用作检索集。4.2. 基线方法该方法与六种最先进的传统无监督哈希方法（LSH[3]，SH [60]，ITQ [21]，PCAH [59]，DSH [28]和SpH[25]）进行了比较。以及最近提出的三种深度无监督哈希方法（DeeBit[36]，SGH [11]和SSDH [63]）。这些方法的所有代码都由作者提供。LSH，SH，ITQ，PCAH，DSH和SpH使用MATLAB实现，SGH和SSDH使用TensorFlow [1]实现，DeepBit使用Caffe [27]实现。我们在编写代码时使用TensorFlow，并在具有Titan X Pascal GPU的机器上运行算法4.3. 评价为了评估我们提出的方法的性能，我们采用三个评估标准：平均精确度（MAP），topN-精确度和精确度-召回率。前两个标准基于汉明排序，其基于数据点到查询的汉明距离对数据点进行排序;就其本身而言，查准率-查全率基于散列查找。现作较详细的介绍最大后验概率是评价检索准确性的最广泛的标准之一。给定一个查询和一个R排序的检索结果列表，可以计算该查询的平均精度（AP）。MAP被定义为以下各项的平均值所有查询的AP。对于所有三个数据集，我们将R设置为检索集的编号。TopN-precision定义为所有查询的前N个检索实例中相似实例的平均比率（以汉明距离表示）。在我们的实验中，N被设置为1000。精确召回揭示了不同召回水平下的精确度，是整体表现的一个很好的指标。通常，计算精确率-召回率曲线下的面积。较大的精确-召回率值总是表示更好的性能。4.4. 实现细节为了初始化等式中的噪声相似性矩阵（2）选取余弦距离作为度量训练样本局部结构的距离。阈值t1和t2的选择如[63]所示。对于所采用的深度网络，我们使用VGG16架构[54]，并将最后一个全连接层替换为具有K个单元的新全连接层，用于哈希码学习。为了估计条件概率ηπ，我们将最后一个全连接层的维数设置为p，在我们的实验中为48为了获得翻转速率的上限，我们将o设置为4。我们的算法关于o和p的参数灵敏度在4.6小节中进行了分析。啪新的全连接层的参数是从头开始学习的，而前面几层的参数是从ImageNet上预先训练的模型中微调的[16]。我们使用标准的随机梯度下降算法进行优化，动量为0.9，最小批量大小设置为64，学习率固定为10−3。如果两个数据点共享相同标签（对于CIFAR10）或共享至少一个公共标签（对于多标签数据集FLICKR 25 K和NUSWIDE），则将其视为相邻数据点。为了进行公平的比较，我们采用了从ImageNet上预训练的VGG16网络的最后一个全连接层中提取的深度特征，用于所有基于浅层架构的基线方法。这些深层特征也被用于构造 S形。由于 VGG16 接受大小为224×224的图像作为输入，因此在将它们输入VGG16网络之前，我们将所有图像调整为224×224随机旋转和翻转也用于数据扩充。4.5. 结果和讨论首先给出了不同哈希位长度的所有方法的MAP值，然后绘制了32和64哈希码长度的所有方法的精确度-召回率和TopN-精确度曲线，以给出更全面的比较。表1给出了DistillHash和FLICKR 25 K、NUSWIDE和CI-FAR 10上所有基线方法的MAP结果，散列代码从16到128不等。通过对数据无关方法LSH与其他数据相关方法的比较这可能是因为依赖数据的方法从数据中学习散列函数，因此可以更好地捕获所使用的数据结构。通过比较深度哈希方法和非深度哈希方法，发现非深度哈希方法在某些情况下可以超过深度哈希方法DeepBit和SGH。这可能是因为，在没有适当的监督信号的情况下，深度散列方法不能完全利用深度网络的表示能力，并且可能通过过度拟合到不良的局部最小值来实现不令人满意的性能。而深度哈希方法（SSDH和DistillHash）通过利用局部结构实现了更有希望的结果。具体地说，从 MAP 结果中，我们可以看到，DistillHash在所有三个数据集的不同哈希位长度上始终获得最佳结果。具体来说，与最好的非深度哈希方法之一，即ITQ相比，我们实现了6的绝对改进。百分之八十九，十三。97%，7。FLICKR 25K、NUSWIDE和CIFAR 10记录上不同位的平均MAP为73%。与最先进的深度哈希方法SSDH相比，我们实现了3. 08%，4.01%，2。在三个数据集上，不同比特的平均MAP分别为86%值得注意的是，DeepBit，2955表1.与MAP基线的比较最佳精度以粗体显示方法FLICKR 25K NUSWIDE CIFAR 100.800.750.700.650.6002004006008001000排名靠前的样本0.850.800.750.700.6502004006008001000排名靠前的样本0.90.80.70.60.00.20.40.60.81.0召回1.00.90.80.70.60.00.20.40.60.81.0召回(a) TopN精度，16位(b) TopN精度，32位(c) 16位查全率(d) 32位查全率图1.FLICKR 25 K上的TopN-精确度和精确度-召回率曲线，具有16和32个哈希位。0.750.700.650.600.550.500.4502004006008001000排名靠前的样本0.800.750.700.650.600.550.5002004006008001000排名靠前的样本0.90.80.70.60.50.40.00.20.40.60.81.0召回1.00.90.80.70.60.50.40.00.20.40.60.81.0召回(a) TopN精度，16位(b) TopN精度，32位(c) 16位查全率(d) 32位查全率图2.NUSWIDE上的TopN-精确度和精确度-召回率曲线，具有16和32个哈希位。0.350.300.250.2002004006008001000排名靠前的样本0.450.400.350.300.2502004006008001000排名靠前的样本0.50.40.30.20.10.00.20.40.60.81.0召回0.80.60.40.20.00.20.40.60.81.0召回(a) TopN精度，16位(b) TopN精度，32位(c) 16位查全率(d) 32位查全率图3.CIFAR 10上的TopN-精确度和精确度-召回率曲线，具有16和32个哈希位。SGH、SSDH和DistillHash都是深度哈希方法，只有SSDH和DistillHash可以利用和保持不同数据点的相似性，因此它们可以获得比其他两种更好的性能。此外，Distill-Hash通过对数据对的提取，学习到更精确的相似关系，因此比SSDH算法性能有进一步的提高。图1、图2和图3的左边两个子图显示了散列位长度为16和32的三个数据集与MAP结果一致，我们可以观察到DistillHash在所有方法中获得了最佳结果。由于MAP值和TopN精度曲线都是基于Hamming排序的度量，因此上述分析的概述表明LSHSPHSHDeepBitITQSGHPCAHSSDHDSHDistillHashLSHSPHSHDeepBitITQSGHPCAHSSDHDSHDistillHashLSHSpHSHDeepBitITQSGHPCAHSSDHDSHDistillHashLSH SpHSH深度比特ITQSGHPCAHSSDHDSHDistillHashLSHSPHSHDeepBitITQSGHPCAHSSDHDSHDistillHashLSHSPHSHDeepBitITQSGHPCAHSSDHDSHDistillHashLSHSPHSHDeepBitITQSGHPCAHSSDHDSHDistillHashLSHSPHSHDeepBitITQSGHPCAHSSDHDSHDistillHashLSHSPHSHDeepBitITQSGHPCAHSSDHDSHDistillHashLSHSPHSHDeepBitITQSGHPCAHSSDHDSHDistillHashLSH SpHSHDeepBitITQSGHPCAHSSDHDSHDistillHashLSH SpHSHDeepBitITQSGHPCAHSSDHDSHDistillHash精度精度精度精度精度精度精度精度精度精度精度精度16位32位64位128位16位32位64位128位16位32位64位128位LSH [3]0.58310.58850.59330.60140.43240.44110.44330.48160.13190.15800.16730.1794SH [60]0.59190.59230.60160.62130.44580.45370.49260.50000.16050.15830.15090.1538ITQ [21]0.61920.63180.63460.64770.52830.53230.53190.54240.19420.20860.21510.2188PCAH [59]0.60910.61050.60330.60710.46250.45310.46350.49230.14320.15890.17300.1835DSH [28]0.60740.61210.61180.61540.52000.52270.53450.53700.16160.18760.19180.2055SpH [25]0.61080.60290.63390.62510.45320.45970.49580.51270.14390.16650.17830.1840DeepBit [36]0.59340.59330.61990.63490.45420.46250.476160.49230.22040.24100.25210.2530新加坡[11]0.61620.62830.62530.62060.49360.48290.48650.49750.17950.18270.18890.1904SSDH [63]0.66210.67330.67320.67710.62310.62940.63210.64850.25680.25600.25870.2601DistillHash0.69640.70560.70750.69950.66670.67520.67690.67470.28440.28530.28670.2895295616位32位64位128位16位32位64位128位16位32位64位128位表2.DistillHash* 和DistillHash的MAP结果最佳精度以粗体显示方法FLICKR 25K NUSWIDE CIFAR 100.60.40.20.002505007501000迭代(a) FLICKR25K0.60.40.202505007501000迭代(b) NUSWIDE0.60.40.20.002505007501000迭代(c) CIFAR100.680.660.640.620.600.580.560.680.660.640.620.600.580.56图4. DistillHash在训练过程中的损失。DistillHash可以为Ham实现卓越的性能5 10 15 20O(a) MAP w.r.t.不同的O。25 50 75 100 125p(b) MAP w.r.t.不同的P。基于排名的评价。此外，为了说明哈希查找结果，我们在图1、2和3的右边两个子图中绘制了哈希位长度为16和32的所有方法的精确度-召回率曲线。从结果中，我们可以再次观察到DistillHash始终达到最佳性能，这进一步证明了我们提出的方法的优越性。为了研究训练过程中损失值的变化，我们在图4中显示了损失值。结果表明，我们的方法可以在1,000次迭代内收敛。4.6. 参数敏感性接下来我们研究超参数o和p的灵敏度。图5显示了这两个超参数对散列码长度为16、32、64和128的NUSWIDE数据集的影响。我们首先将p固定为48，并通过在2和20之间改变o来评估MAP，结果如图5（a）所示。性能表明，该算法对参数o在[2，20]范围内不敏感，可以将o设置为[2，20]范围内的任意数。在我们的实验中，我们将o设置为4。图5（b）示出了通过在16和128之间改变p而o固定为4的MAP。DistillHash的性能先提高后保持在一个相对较高的水平。结果也对[32，128]范围内的p不敏感。对于本文中的其他实验，我们选择p为48。4.7. 消融研究在本小节中，我们将深入研究所提出的蒸馏数据对学习的有效性。更具体地说，我们研究了DistillHash*，这是DistillHash的一个变体，具有相同的贝叶斯学习框架，但使用初始相似性标签S训练。Distill-Hash* 和DistillHash的MAP结果如表2所示，从中我们可以看出，DistillHash始终优于Distill-Hash *，幅度为3。11%，4. 23%，3. 49%，2。11%为FLICKR25K数据集，3. 45%，3. 95%，2. 89%，2。百分之九十六图5. NUSWIDE上o和p的参数敏感性分析对于 NUSWIDE 数据集，以及 2. 97% ， 3. 15% ， 2.94%，3。对于散列位长度分别为16、32、64和128的CIFAR10 数据集，为 12% 请注意， DistillHash 和DistillHash* 之间的唯一区别在于DistillHash是用蒸馏数据集训练的，而DistillHash* 是用初始数据集训练的。性能的改善清楚地表明了所提出的蒸馏数据对学习的优越性5. 结论本文提出了一种新的无监督深度哈希图像搜索方法DstilHash。首先，我们从理论上研究了贝叶斯最优分类器和从局部结构中学习的噪声标签其次，基于上述理解，我们提供了一个简单而有效的方案来自动提取数据对。第三，利用提取的数据集，我们设计了一个深度哈希模型，并采用贝叶斯学习框架来执行哈希代码学习。在三个基准数据集上的实验结果表明，本文提出的DistillHash方法优于其他方法。6. 确认这项工作也得到了国家自然科学基金61572388和61703327的部分支持，部分得到了重点研发计划-陕西省重点产业创新链的部分支持，基金2017 ZDCXL-GY-05-04-02，2017 ZDCXL-GY-05-02和2018 ZDXM-GY-176，部分由中国国家重点研发计划资助2017 YFE 0104100，部分由澳大利亚研究委员会项目DP-180103424、DE-1901014738和FL-170100117。16bits64位32位128位16bits64位32位128位损失损失损失地图16位32位64位128位16位32位64位128位16位32位64位128位DistillHash* 0.66530.66330.67260.67840.63220.63570.64800.64510.25470.25380.25730.2583DistillHash0.69640.70560.70750.69950.66670.67520.67690.67470.28440.28530.28670.28950.700.70地图2957引用[1] Mart´ın Abadi， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，etal. Tensorflow：一个大规模机器学习系统。在OSDI，第16卷，第265-283页，2016中。6[2] Kamal M Ali和Michael J Pazzani。通过学习多种描述减少错误。Machine Learning，24（3）：173-202，199

下载后可阅读完整内容，剩余1页未读，立即下载