贝叶斯监督哈希：自动调整超参数的一种新的散列方法的研究

19 浏览量更新于2023-10-15 收藏 1.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

43216348贝叶斯监督哈希上海交通大学计算机科学与工程系{zihaohu，chenjunxuan，htlu} @ sjtu.edu.cn，zhang-tz@cs.sjtu.edu.cn摘要在基于学习的哈希方法中，监督哈希寻求训练数据的紧凑二进制表示近年来，监督哈希的各种问题公式和优化方法已经出现。大多数算法都是在损失函数中加入一个正则化项，这可以看作是对散列码的最大后验（MAP）估计。然而，这些方法很容易过拟合，除非仔细调整超参数。为了解决这个问题，我们提出了一种新的完全贝叶斯处理监督哈希问题，命名为贝叶斯监督哈希（BSH），其中超参数在优化过程中自动调整。此外，利用自动相关性判定（ARD），可以计算出不同散列位的相对区分能力，并从中选出信息量最大的散列位。实验结果表明，在三个真实世界的图像数据集与语义信息BSH可以实现优于国家的最先进的方法具有可比的训练时间的性能。1. 介绍给定一个数据集，散列方法将数据点从原始特征空间映射到一个二进制散列代码空间，并保留成对度量距离或语义相似性。紧凑型哈希码可以在保证准确性的前提下加快检索速度。散列方法可以大致分为两大类：数据独立方法和数据依赖方法。早期对哈希的探索集中在数据独立的方法上。其中最流行的方法是局部敏感哈希（LSH）[4，17，1]，它使用随机投影来生成哈希函数。理论上，随着码长的增加，*通讯作者。距离在Hamming空间中是渐近保持的。因此，通常采用长码来获得较好的检索精度.然而，长的代码将导致低召回率与哈希查找表的使用。在实际应用中，LSH利用多个表来确保合理的召回。长代码和多表都会影响检索效率。数据依赖的方法已经被开发来通过利用训练数据来学习更紧凑的散列码。由于数据无关方法的缺点，许多研究者一直致力于设计数据依赖方法。依赖数据的方法可进一步分为两类：无监督方法和监督方法。无监督方法[19，5，10，7，20]只是使用未标记的数据来生成二进制代码，旨在保留数据点之间的度量结构。这种方式的代表性方法是ITQ [5]。ITQ先进行PCA以降低数据点的维数，然后寻找正交矩阵以最小化旋转数据点和最终二进制码之间的量化损失。与数据无关方法相比，无监督数据相关方法需要更少的比特来实现相当的性能。然而，各种图像搜索应用程序偏好语义相似的邻居。这导致监督散列的公式。与训练数据未被标记的无监督方法相比，监督散列被设计为通过利用标记的训练数据来保持语义相似性监督散列方法的代表包括[18，5，14，21，16，8，13]。在这些方法中，CCA-ITQ[5]和监督离散散列（SDH）[16]仅利用单个训练点的语义标签。CCA-ITQ首先使用CCA来找到投影方向，以最大化特征向量和标签向量之间的相关性SDH的学习目标是通过最小化线性分类损失函数来产生散列码。与这两种方法不同的是，大多数方法都是建立在成对语义相似性的基础上的43226349i=1例如，基于内核的监督哈希（KSH）[14]试图解决一个放松的优化问题，以生成保留成对相似性的哈希代码。这一思想也适用于其他监督方法。虽然大多数散列方法使用判别模型，但潜在因素模型（LFH）提出了一种生成模型，该模型假设成对语义相似性是由两个相应的潜在因素生成的。通过引入一定的先验知识，使潜在因子的MAP估计变得容易处理.然后对潜在因子进行舍入以获得最终的通过引入生成模型，LFH具有很强的能力来推断语义相似性的潜在结构，从而获得了良好的结果。然而，提供MAP估计导致选择超参数的实际挑战。选择超参数的常用方法包括网格，分别。给定向量x =（x1，···，xn）T∈ Rn，设diag（x）是n阶对角矩阵，其第i个对角元为xi. F或矩阵A=[aij]∈Rm×n，aij表示A中第i行第j列的元素，而AT表示A的转置。A·i和A·j分别表示由A的第i行和第j列形成的列向量。当A是平方时，我们让A−1是A的逆（如果e存在）。 F·F表示矩阵的Frobenius范数。I表示适当大小的单位矩阵对于概率分布，N（x|（注：注：随机向量x上的多元正态分布均值向量μ和协方差矩阵μ，以及G（τ |α，β）表示由参数α和β控制的随机变量τ上的Gamma分布。2.2. 问题定义搜索和随机搜索验证集，这是假设我们有n个点{xi∈Rd}n就像火车一样-不准确且耗时。贝叶斯方法可以通过在优化过程中自动调整超参数来解决这个问题。因此，我们提出了一个完全贝叶斯概率处理，称为贝叶斯监督哈希（BSH）。本文的主要贡献概述如下：1. 我们提出了一种新的监督哈希方法，利用完全贝叶斯处理。基于变分推理，可以从语义信息中优雅地推断出潜在的因素，同时可以自动确定超参数。2. 在学习过程中，自动相关性判定（ARD）先验可以确定不同散列位的相对因此，我们可以获得更短，但更多的信息哈希位的基础上学习较长的代码，而无需重新训练，这使得BSH更灵活的实际应用。3. 建议的BSH评估三个真实世界的数据集与语义标签。实验结果表明，BSH优于其他国家的最先进的方法。为了处理大规模数据，提出了一种线性时间变量。通过这种变体，在NUS-WIDE数据集上训练64位哈希代码的成本不到3分钟。ing数据，其中xi是第i个特征向量。这些特征向量可以用矩阵形式统一表示为X =[x1，··· ， xn]T∈Rn×d。在监督散列[12，21]的常规设置中，监督信息以语义相似度矩阵S∈ {0，1}n×n给出，其中sij=1表示点i和点j在语义上相似，而sij=0表示点i和点j在语义上不相似。在本文中，我们作为-证明S是完全可观察的，没有遗漏的条目。这个假设是合理的，因为在大多数情况下，我们可以得到任意两个点的语义相似度。监督哈希的目标是学习一个二进制代码矩阵B=[b1，b2，···，bn]T=[bij]∈{−1，1}n×q，其中bi表示用于第i次训练的学习的q位二进制代码。点另外，S中的语义相似度应该由二进制码来保证，特别是当sij=1时，bi和bj之间的汉明距离应该很小。2.3. LFH简介在这里，我们首先简要介绍了[21]中提出的潜在因素模型。回想一下，最小化两个二进制码的汉明距离相当于最小化它们的内积[14]。因此，LFH假设观察到的成对相似性是由两个相应的散列码的内积生成的，即似然性本文其余部分的组织结构如下：在第2节中，我们介绍了本文中使用的符号，被定义为.σ（1bTbj），sij=1简要回顾LFH第3节详细说明了p（sij|B）=2i、（1）1−σ（1bTbj），sij=0我们的BSH模型实验结果见第2节i第四项。最后，在第五章中对本文进行了总结。2. 相关工作2.1. 符号其中bi和bj分别是xi和xj的二进制码，而σ表示S形函数。观察到的相似性矩阵S的似然性可以写成在本文中，向量和矩阵被表示为Ynp（S|B）=Ynp（sij|B）。（二）用黑体小写字母和黑体大写字母i=1j=143236350i·我有了适当的先验p（B），B的后验可以计算如下：p（B|S）p（S|B）p（B）.（三）B的直接MAP估计是难以处理的[19]，因此，通过两个阶段计算B在第一阶段，B被表示为一个矩阵U=[uij]∈Rn×q，并学习最优的UU的第i行称为第i潜在因子. 然后在第二阶段，U被四舍五入以获得二进制码矩阵B。在学习过程中，U的每一行每次都被对于某一行，较低的一个kBKγkQUSIjn×n（一）akbkγkQVj·Ui·斯伊季 nn（b）第（1）款界由log 后验L = log p （U ）的二阶泰勒展开构造|S），然后利用牛顿法更新行的潜在因子。3. 贝叶斯监督哈希3.1. 模型配方我们提出的方法采用与LFH[21]相似的可能性，但略有修改：.σ（UTUj·）， sij=1图1.在引入V之前和之后的联合分布的概率图模型。3.2. 贝叶斯推理使用方程（7）中的联合分布对所有未知数U和γ进行精确贝叶斯推断是难以处理的，因为边际似然p（S）不能通过分析计算。因此，使用近似方法。注意，等式（4）中的似然函数的形式是类似的。p（sij|U）=i·1−σ（UTUj·），sij=0 .（四）大于逻辑回归：.潜在因子矩阵U上的先验采用以下形式：p（y|w）=σ（wTx），y=11−σ（wTx），y= 0。（八）p（U|γ）=Yqi=1N（U·i|0，γ−1I）=Yni=1N（Ui·|0，Γ−1）（5）因此，我们可以考虑使用与贝叶斯逻辑回归相似的处理方法。sigmoid函数没有其中r=diag（γ）∈Rq×q是第i个对角元素为γi的对角矩阵.我们为每个U·i引入了一个单独的超参数γi，而不是一个单一的共享超参数。因此，该制剂是类似物共轭先验但有紧界[2]σ（x）≥σ（λ）exp{（x−λ）/2+λ（λ）（x2−λ2）}，（9）其中λ是变分参数，的自动相关性确定（ARD）成功地用于稀疏贝叶斯学习。在推理过程中，如果某个超参数γi取大值，则正1λ（λ）=−4ξtanh.Σξ.（十）2U·i上的前分布将集中在0，这表示第i个散列位相对不重要。相反，超参数的小值是其鉴别性的明确为了完成完全贝叶斯处理，我们考虑一个由Gamma分布给出的γ上的共轭超先验采用这一界，W上的后验将是高斯的。然而，在等式（4）中，Ui·和Uj·都是潜变量，因此考虑到sii，Ui·的后验将是四次指数分布，这很难边缘化。[15]的作者表明，更短，更准确43236351i·p（γ|a，b）=Yqk=1G（γk|ak，bk）（6）通过引入非对称性可以获得散列码仔细考虑监督哈希的制定受此启发，我们假设生成相似性矩阵S由常数向量a=[a，a，T从两个不同的矩阵U，V∈Rn×qb=[b1，b2，···，bq]T.1 2···，aq]和.σ（UTV），因此，联合分布表示为：p（s|U)=i·j·sij=1。（十一）p（S，U，γ）= p（S|U）p（U|γ）p（γ|a、b）。（7）相应的图形模型如图1（a）所示。1−σ（UTVj·），sij=0引入V是为了打破方程（4）中的对称性，并且我们不在V上放置先验。该配方还导致IJ43236352j·Ui·上的后验概率变成高斯分布图1（b）由于logp（S）≥ L（q）≥L（q，）a总是成立，我们可以显示了引入V后的图形模型。在迭代开始时，我们假设Vi·具有与Ui·相同的分布，以保持与等式（4）中类似的结构。由于Ui·上的分布是高斯分布，我们更新了Vi·的均值向量和协方差矩阵。关于q（U，γ）优化下界L（q，γ）并求出最大logp（S）。按照标准变分处理[2]，U的近似后验由下式给出：E[Vi·]=E[Ui·]，（十二）logq（U）= log h（U，n）+Eγ[log p（U）|γ）]+常数Σn（二十）D[Vi·]=D[U·]。（13）=10gN（Ui·|，在优化过程中，我们用固定的V分布更新U和γ引入V可能会破坏贝叶斯方法的完整性，但实验性能哪里我我i=1Σn1正如我们稍后将看到的那样，它仍然令人满意。在将似然（4）替换为（11）之后，我们可以采用变分推理来解决这个问题，即基于最大化边缘上的下限L（q），µ=E[Vj·]（sij−i i2j=1巴恩），（21）−1数据对数似然∫∫Σ⋆=我E[Γ]−2j=1λ（ij）E[Vj·VT].（二十二）logp（S）=logp（S|U）p（U|γ）p（γ）dUdγ为了找到局部变化参数，哪里≥ L（q），（十四）L（q，n），其deriv ativ e关于nij我们得到了重新估计方程被设置为零，并且∫∫(ξ⋆)2=E[UTUi·]E[VTVj·].（二十三）L（q）=q（U，γ）logp（S|U）p（U|γ）p（γ）dUdγ（15）q（U，γ）我是q（U，γ）是一个近似后验分布。我们假设q（U，γ）具有以下分解形式：同样，变分后的最优解-riorq（γ）由下式获得：logq（γ）= EU[log p（U|γ）]+ log p（γ）+constYnq（U，γ）=Yqq（Ui·）q（γk）。（十六）Σq=log G（γk|a、b、c），（二十四）i=1k=1KKk=1将等式（9）和（10）中的界限应用于等式（11），对于sij的li k是由下式限定的：p（sij|U）=（σ（θij））sij（1−σ（θij））1−sij带参数a=a+n，（25）kk2=σ（−θij）esijθijb=b+1E[UTU]中。（二十六）≥exp {（s−1）θ+λ（λ））θ2（十七）kk2·k·kij2 ijijij43236353i·BBIJ所需力矩由下式给出：+ logσ（σ）1）−-λ（λ））2}，.⋆⋆一个小女孩ij2 ijijijE[Γ]=diaga1，a2，···，q、（二十七）其中θij=UTVj·。因此，p（S）上的界|U）是p（S|U）≥ h（U，λ）E[UTU·k]=⋆ ⋆⋆12qΣn .Σ（µm）2+（µm）kk.（二十八）Yn Yn=exp{（sij−）θij+λ（λij）θ2·k i k ii=1i=1 j=1+logσ（ij1）−ij22-λ（λij）2}，中国（18）算法1显示了学习过程的伪代码。3.3. 舍入在学习了最优U之后，我们可以获得最终的双-其中，n表示变量参数的集合{nij}。这导致了一个新的下界nary代码使用一些舍入技术。这里，我们根据每列的平均值简单地对U∫∫L（q，）=q（U，γ）logh（U，n）p（U|γ）p（γ）dUdγ. q（U，γ）（十九）bij=.1，uij>平均值（U·j）-1，否则.（二十九）B143236354算法1：变分贝叶斯哈希学习时间复杂度为O（mq + mq2）。时间复杂度为O（mq2+ q3），输入：X∈Rn×d，S∈ {0，1}n×n，q，τ∈N+.O（mq+q2）计算协方差矩阵和均值分别为U的向量。因此，更新的总时间-输出：U∈Rn×q，将其四舍五入得到i·二进制码矩阵B{0，1} n×q。如果U是O（（mq + q2+ mq2+ q3）n），重新估计所有的变分参数λij和λ（λij）的代价是O（mnq2+mn）样本均值μi <$N（0，I），i=1，2，···，n.设置协方差矩阵i=I，i=1，2，···，n。设置变量参数ij=0。设ak=bk=2×10−3，k=1，···，q。对于t←1到τ do通过等式（12）和（13）更新V。通过等式（21）和（22）更新U。通过（ 23 ）和（ 10 ）更新所有的 ij 和 λ（ij）。根据等式（25）和（26）更新超参数a和b。端returnU =[µ，µ，···，µ] T。时间对于超参数a和b，我们可以以O（q+qn）的代价更新它们。因此，迭代的总时间是O（（2mq2+q3）n），这是线性的n与典型的假设n<$max{m，q}。然而，如果我们选择整个S进行学习，迭代的时间成本将是O（n2q2），当n变大时，这是不可接受的。算法复杂度为O（nq），时间复杂度为O（nqd+1）。nd2+d3）。对于预定的W，查询的样本外扩展可以在O（qd）内实现。对于存储成本，均值向量和协方差为21 2N3.4. 超出样本扩展第3.2节中描述的过程仅为训练样本创建散列代码。对于查询点，我们使用线性回归构造散列码以简化。为了实现这一点，我们寻求一个线性映射W ∈Rd×q，将数据矩阵X变换为U。平方损失函数正则化项为L=U−XW2+λW2，（30）U，V的三个序列总共需要O（（m + n）（q +q ）），而变量 i ， j和 h 的超参数 a ， b 分别需要O（mn）和O（q）. 因此，总的存储成本是O（（q2+m）n），也是与n成线性关系的。因此，由于q通常很小，例如，小于64，m通常设置为1000，我们可以说，我们提出的方法的时间复杂度和存储成本都与训练样本的数量成线性关系，这使得BSH很容易扩展到非常大的数据集。4. 实验F F4.1.数据集且W具有封闭形式的最优解，W=（XTX+ λI）−1XTU。（三十一）3.5. 随机学习很明显，如果所有的监督信息都在一个空间中，时间复杂度和存储消耗都是O（n2）。S用于训练，这对于大规模数据是不切实际的。因此，我们在S中随机抽取 m 列以形成用于训练的语义信息矩阵 S，即S=[S·i1，···，S·im]。与从整个S学习相比，我们只需要将j的索引集从{1，···，n}到I={i1，···，im}。例如，方程式（21）和（22）成为使用三个带有语义标签的图像数据集来评估我们提出的方法和其他基线。它们是 IAPRTC 12 1[6] ，ESPGAME 2和NUS-WIDE 3[3]。所有它们已被广泛用于监督散列方法评估[9，11，13]。IAPRTC 12基准测试包含19627个自然图像和291个标签，而ESPGAME数据集包括20770个图像和268个关键字。每个图像可以有多个标签（关键字）。两个数据集中的每个图像都由512维GIST特征向量表示。NUS-WIDE数据集包括从Flickr收集的269648张图像，带有81个标签。我们使用500维的词袋向量的实验。值得注意的NUS-WIDE的维护者发布了抓取的标签，Σµ=E[V ] （s（32）从网站上简单的处理和地面真相，我我j∈Ij·ij 2Σ−1手动记录在下面的章节中，我们使用NUS-WIDE-GND和NUS-WIDE-TAG分别表示NUS-WIDE的具有地面实况和标签的特征向量。Σ⋆=我E[Γ]−243236355j·j∈Iλ（ij）E[Vj·VT].（三十三）活泼地NUS-WIDE-GND和NUS-WIDE-TAG将每个样本与1关联。87和0。平均86个标签。因此，从NUS学习语义信息3.6. 复杂性分析对于随机学习，V∈Rm×q。在每次迭代开始时，我们更新V的充分统计量，1http://www.imageclef.org/photodata2http://www.hunch.net/www.example.com3http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm43236356方法ESPGAMEIAPRTC128位16位32位64位8位16位32位64位CCA-ITQ0.27630.28090.27870.28110.37300.37560.37710.3804LFH0.32120.33560.35840.36110.41750.44010.47050.4658SDH0.23880.24220.24160.25460.30750.31580.31580.3344COSDISH0.29700.31490.33180.34580.39950.41680.44950.4649NSH0.29510.30130.30880.31340.39920.41440.41830.4253BSH0.33490.34720.35930.36840.44510.46120.47840.4889表1.在ESPGAME和IAPRTC 12数据集上的mAP实验性能最佳结果以粗体显示方法NUS-WIDE-GNDNUS-WIDE-TAG8位16位32位64位8位16位32位64位CCA-ITQ0.29020.30230.30520.31630.06260.06650.06710.0678LFH0.43690.47450.51100.53590.04370.12410.17790.2038SDH0.21380.21610.21370.21430.04010.04060.04050.0406COSDISH0.43760.47740.50300.51890.10410.14120.15930.1848NSH0.32870.34070.34360.35080.06510.06860.07360.0746BSH0.47510.48350.51460.52560.16350.18680.19550.2072表2.NUS-WIDE数据集上的mAP实验性能最佳结果以粗体显示WIDE-TAG 更具挑战性。 NUS-WIDE-GND 和 NUS-WIDE-TAG都在我们的实验中进行了评估。对于这三个数据集，如果两个图像共享至少一个公共标签，则认为它们在语义上相似，否则，它们在语义上不相似。4.2. 实验设置与[21，8]一样，对于所有数据集，我们随机选择1000个样本作为查询集，其余点作为训练集。注意，我们的方法不需要设置验证集，因为训练集的超参数可以在学习阶段自动确定。对于样本外扩展，我们简单地根据[21]设置超参数λ。在预处理阶段，我们对特征进行归一化，使每个维度具有零均值和等方差。我们所有的实验都是在一个拥有24个Intel Xeon CPU内核和48GB RAM的工作站上进行的，所有的结果都是10个独立分区的平均值。由于现有的研究[21，13]已经表明监督方法优于无监督方法，因此我们仅将我们的方法与几种代表性的监督哈希方法进行比较，包括 CCA-ITQ [5]，LFH[21]，SDH [16]，COSDISH [8]和NSH [13]。所有基线都是由相应作者提供的源代码实现的。所有的超参数和初始化策略都与作者提出的方法相同。对于我们的方法，我们在所有实验中设置τ=2和m=10004.3. 汉明排序性能我们利用ESPGAME，IAPRTC 12和NUS-WIDE数据集上生成的二进制代码执行汉明排名。对于每个查询，训练集中的所有点根据它们的二进制代码和查询的二进制代码之间的汉明距离进行排名平均精度（mAP）被用来评估不同监督哈希方法的性能。表1和表2显示了我们的方法的mAP和这三个数据集上的通过比较 BSH 与 CCA-ITQ 、 LFH 、 SDH 、COSDISH和NSH，我们可以发现BSH在大多数情况下优于其他基线。这是由于其他方法可以被视为MAP估计。它们的手动调整超参数强烈依赖于验证集，因此可能不适合测试集。然而，我们的方法可以通过使用训练集自动调整因此，BSH具有较好的泛化能力.此外，我们可以将代码长度q视为超参数con。一个哈希方法的模型复杂度。当q值较小时（≤32），其它方法不适用于刚性模型，且计算结果很差然而，BSH仍然通过自动调整模型复杂性来产生理想的结果。例如，通过使用8位，BSH可以产生比较结果，使用16位时，性能与其他基线相当。回想一下，短码允许非常快的汉明距离计算。更重要的是，如果我们想将数据库存储在一个允许立即查找的哈希表中，哈希表的大小与代码长度成指数关系。因此，它将二进制代码的长度限制为最多64位，43236357短码的检索性能在实际的大数据应用中是至关重要的。同样值得注意的是，对于噪声和稀疏标记的数据集，如NUS-WIDE-TAG（每个样本0.86个标记），成对相似性是罕见的。贝叶斯方法，而不是使用点估计，平均多个模型的后验分布从数据中学习，因此可以获得合理的性能与少量的成对相似性。总之，BSH可以实现比最先进的方法更好的准确性，并且对噪声具有鲁棒性。图3显示了NUS-WIDE数据集上的一些检索结果这个数据集显然是具有挑战性的，但主要的0.370.360.350.340.330.320.310.540.520.50.480.460.440.42ESPGAME010203040506070的比特NUS-WIDE-GND0.490.480.470.460.450.440.430.420.410.210.20.190.180.170.160.15IAPRTC 12010203040506070的比特NUS-WIDE-TAG检索到的图像的质量似乎是语义相关的。0.4010203040506070的比特0.14010203040506070的比特4.4. 计算成本表3显示了在NUS-WIDE-GND上使用BSH和其他基线的各种代码长度的训练时间（以秒为单位）。可以看出，这些方法都可以处理NUS-WIDE的整个训练集（约270 K个样本）。其中，只有CCA-ITQ比我们的方法更快然而，如表1和表2所示，BSH的表现远远优于CCA-ITQ。综合考虑检索精度和训练时间复杂度，BSH是最适合监督哈希的方法。方法8位16位32位64位CCA-ITQ8.29910.93016.41129.563LFH25.82834.55751.93489.469SDH72.380114.51687.152170.817COSDISH26.19557.287172.352621.564NSH52.22460.23576.648106.320BSH12.81117.82940.062140.348表3.NUS-WIDE-GND上的训练时间，以秒为单位的各种4.5. 哈希位选择通过利用等式（5）中的ARD，我们可以确定每个学习的散列位的相对辨别能力。为了验证这个论点，我们学习了一个64位长度的哈希函数，并根据γ中k个最小ARD超参数的索引简单地选择k位代码。将该方法的最大似然比与直接用BSH学习的k位二进制码我们选择在实际实验中k=4，8，···，64如图2所示，我们可以看到mAP曲线所选位（蓝色曲线）是平滑的，凹形的，并且在三个数据集上一致地接近红色曲线。蓝色曲线的下半部分说明，较早选择的散列位确实更具鉴别力。根据经验，从64位学习中选择32位代码图2. 红色曲线表示直接使用BSH学习的k位哈希码的mAP，而蓝色曲线表示根据ARD从已经学习的64位中选择的k位哈希码的mAP。k= 4，8，···，64。散列代码导致mAP的1%下降由于BSH的可扩展性，如4.4节所示，我们可以学习更长的哈希代码，并保留更短但更有区别的代码用于长期存储，这使得BSH在实际应用中更加灵活。5. 结论在本文中，我们提出了一种新的监督散列方法称为BSH。通过采用基于变分推理的完全贝叶斯通过采用一个功能强大的贝叶斯稀疏学习工具ARD，我们可以确定不同比特的相对区分能力，并从中选择信息量最大的比特，这使得我们的方法在实际应用中具有很大的灵活性。在多个图像数据集上的实验表明，BSH优于其他最先进的方法。6. 确认本文得到国家自然科学基金资助项目（No.61272247，61533012，61472075），国家863计划资助项目（SS2015AA020501），上海市科学技术委员会资助项目（16JC 1402800，15JC 1400103）。引用[1] A. 安多尼山口因迪克，T.拉霍芬岛Razenshteyn，以及L. 施密特角距离的实用和最佳lsh神经信息处理系统的进展，第1225-1233页，2015年[2] C. M.主教模式识别与机器学习（信息科学与统计）。Springer-Verlag New York，Inc.美国新泽西州锡考克斯，2006年。地图地图地图地图43236358图3.NUS-WIDE数据集上BSH的一些检索示例第一列显示查询图像，其余是数据集中返回的前5错误的预测用红框标记。[3] T.- S. Chua，J.唐河，巴西-地Hong，H.Li，Z.Luo和Y.-T.郑Nus-wide：新加坡国立大学的真实网络图像数据库。在ACM Conf.在图像和视频检索（CIVR'09），圣托里尼，希腊。2009年7月8日至10日[4] A. Gionis，P. Indyk，and R.莫特瓦尼通过散列进行高维相似性搜索。第25届超大型数据库国际会议论文集，第518-529页，1999年[5] Y. Gong和S. Lazebnik迭代量化：一种学习二进制代码的亲克鲁斯特方法。在 Computer Vision and PatternRecognition（CVPR），2011 IEEE Conference on，第817-824页中。IEEE，2011年。[6] M. Grubinge r，P. 克拉夫，H。 Müller和T. 德塞拉iaprtc-12 基准：一种新的视觉信息系统评价资源。在OntoImage 2006年LREC 2006期末课程期间举办的基于内容的图像检索语言资源研讨会上。[7] G. Irie，Z.李，X.- M. Wu和S.- F.昌用于提取非线性流形的局部线性散列。在Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition中，第2115-2122页[8] W.- C.康，W.- J. Li和Z.- H.舟基于列抽样的离散监督哈希算法。在AAAI，2016。[9] R. Kiros和C. Szepesv a'ri. 图像自动注释的深层表示和代码神经信息处理系统的进展，第908-916页，2012年[10] W.香港和W.- J. Li。Isotropic hashing 神经信息处理系统的进展，第1646-1654页，2012年[11] G.林角，澳-地申角，澳-地Shi，中国山核桃A. van denHengel和D.苏特用决策树实现高维数据的快速监督散列。在IEEE计算机视觉和模式识别会议论文集，第1963- 1970页[12] G. 林角，澳-地Shen，D.Suter和A.范登亨格尔。基于学习的哈希的一般两步方法法律程序IEEE International Conference on Computer Vision ，第2552-2559页[13] Q. Liu和H.陆自然监督哈希。第25届国际人工智能联合会议论文集，第1788-1794页，2016年[14] W.刘杰，王建，R.吉，Y G. Jiang和S.- F.昌带核函数的无约束散列。在Computer Vision and Pattern Recognition（CVPR），2012 IEEE Conference on，第2074-2081页中。IEEE，2012。[15] B.奈沙布尔N.斯雷布罗，R.R.萨拉胡季诺夫，Y. Makarychev，和P.亚多拉二进制哈希中不对称的力量。神经信息处理系统进展，第2823-2831页，2013年[16] F.申角沈，W。Liu和H.陶申。监督离散散列。在IEEE计算机视觉和模式识别会议论文集，第37-45页[17] A. Shrivastava和P.李次线性时间最大内积搜索的非对称lsh算法神经信息处理系统进展，2321-2329页，2014年[18] J. Wang，S. Kumar和S.- F.昌半监督散列算法在可伸缩图像检索中的应用。在 Computer Vision and PatternRecognition（CVPR），2010 IEEE Conference on，第3424IEEE，2010。[19] Y. Weiss，A. Torralba和R.费格斯。光谱散列。神经信息处理系统的进展，第1753-1760页，2009年[20] F. X. Yu，S.库马尔湾Gong和S.- F.昌循环二进制嵌入。机器学习国际会议，第6卷，第7页，2014年。[21] P. Zhang，W.张文--J. Li，和M。小郭。监督散列与潜在因素模型。在第37届国际ACM SIGIR信息检索研究开发集，第173-182页。ACM，2014年。

下载后可阅读完整内容，剩余1页未读，立即下载