没有合适的资源?快使用搜索试试~ 我知道了~
11690用于图像搜索的滑铁卢大学Sepehr Eghbali andLadan{sepehr.eghbali,ladan.tahvildari}@ uwaterloo.ca摘要散列法是一种将高维图像编码成紧凑离散码的方法,已被广泛应用于大规模图像检索。在本文中,我们提出了深度球面量化(DSQ),这是一种新的方法,可以使深度卷积神经网络生成有监督的紧凑二进制代码,以实现高效的图像搜索。我们的方法同时学习一个映射,将输入图像变换到一个低维的判别空间,并使用多码本量化变换后的数据点。为了消除范数方差对码本学习的负面影响,我们迫使网络对提取的特征进行L2归一化,然后使用专门为单位超球面上的点设计的新的监督量化技术对生成的向量进行量化。此外,我们引入了一个易于实现的扩展我们的量化技术,强制稀疏的码本。大量的实验表明,DSQ及其稀疏变体可以生成语义上可分离的紧凑二进制码优于许多国家的最先进的图像检索方法在三个基准测试。1. 介绍最近邻搜索是多媒体系统的基本问题之一。给定一个查询点,目标是在数据集中找到与查询最相似的项。准确性和速度是检索系统的两个关键方面,然而,随着互联网上图像、视频、文档等高维数据的爆炸式增长,传统的分支定界索引数据结构由于其查询时间和内存开销随维数呈指数级增长而被认为是不实用的。这导致了一个新兴的研究领域,近似最近邻(ANN),专注于以最小的精度损失减少存储和计算成本。在过去的二十年里,人工神经网络问题得到了大量的研究。人工神经网络的最新技术是主要集中在散列(紧凑编码),其目的是将高维媒体数据编码成短的二进制代码,以保持给定的相似性标记。二进制值表示有几个优点,例如存储紧凑,比较速度更快,使其适合大规模最近邻搜索。此外,对于二进制字符串,可以使用哈希表[13,34]或基于树的索引数据结构[11,12]实现次线性查询时间。在过去的二十年里,寻找更好地尊重给定相似性概念的紧凑二进制代码一直是许多工作的主题,在此期间,已经提出了一组丰富的散列技术。压缩编码技术大致在两个流中,通过它们计算编码项之间的距离的方式来分类:1)二进制散列将高维输入向量映射到汉明空间中,其中两个代码之间的距离可以使用按位运算符非常快速地计算。2)多码本量化(MCQ)算法与k均值算法类似,将输入空间划分为互不重叠的单元,然后用两点所在单元中心之间的距离来近似两点之间的距离。MCQ的搜索速度的提高源于这样一个事实,即细胞之间的距离可以预先计算并存储在查找表中。毫不奇怪,随着深度学习的出现,最近在紧凑编码方面的大部分深度哈希方法同时从原始图像中学习表示和哈希编码。同样,深度MCQ也是近年来的研究主题[4,17]。令人惊讶的是,尽管MCQ是一个更强大的模型,因为它能够产生更多可能的不同距离,但由于缺乏研究,它在深度监督紧凑编码的背景下的性能不如监督二进制哈希的最新技术[22]。大多数现有的深度监督MCQ技术在由深度架构生成的特征之上包括无监督量化(通常是乘积然而,所采用的网络通常产生具有相对高的范数方差的深度特征11691∈2ǁ22ǁ −ǁ ǁǁ ǁǁǁ2i1im22联系我们--∈∈这对量化的质量产生不利影响[44]。为了解决这个缺点,我们通过L2归一化深度特征来重新制定量化问题,以消除范数方差。通过利用这一事实,得到的功能在于一个超球面,我们提出了一种新的MCQ算法,下降的硬正交约束的产品量化,以实现更低的量化误差。此外,为了鼓励更好的区分性能,受最近提出的中心损失[43]的启发,我们将监督量化损失项添加到最终目标函数以增加类间方差。最后,我们提出了我们的量化算法的稀疏扩展,这对于处理大码本是必要的通过对三种标准图像检索基准测试的综合实验研究,证明DSQ生成的压缩二进制码性能优于许多现有方法。2. 相关工作现有的散列方法包括监督散列和非监督散列。我们建议感兴趣的读者参考[41]进行全面调查。无监督哈希方法学习哈希函数,该函数使用未标记的数据将数据映射到二进制代码。典型的学习标准是重建误差最小化[20],保持局部邻域[26]和量化误差最小化[15]。另一方面,监督散列旨在学习忠实于给定语义信息概念的二进制代码,例如逐点(类标签)[22,37,42],成对[2,3,6]或三元组标签[24,33]。多码本量化。多码本量化(MCQ)是非监督散列方法的一个子类,它是一个量化问题,其目标是用多个码字的和来近似向量。 形式上, 令X=[x1,. . .,xn]Rd×n表示要量化的n个点的集合,MCQ是找到1)m个码本(字典)C jRd×h,j的问题1 .一、. . ,m,每个包含h个码字,以及2)编码二进制向量bi=[bT,. . .,bT]T0,1mh×1,使量化误差最小化:Σn2给定查询,可以使用存储查询和每个码字之间的距离的查找表来在搜索时间期间可以忽略第二项,因为它对于给定的固定查询是恒定的。区分MCQ技术的关键特征之一是它们如何处理第三项。乘积量化(PQ)[18],笛卡尔K均值(CKM)[32]和优化乘积量化(OPQ)[14]限制码本相互正交,使第三项等于零。另一方面,复合量化[40]迫使它成为一个常数,这反过来又使得最终的优化问题难以解决。加法量化(AQ)[1]及其增强的扩展局部搜索量化(LSQ)[29]基于查询和码字的内积扩展q xi2,但它们的公式不仅需要近似输入向量,还需要近似其L2范数xi2。AQ提供了两个解决方案来估计范数。第一种方法是单独量化标量值xi2,这会导致额外的内存成本,该成本随数据库大小线性增长。另一种方法是用码字估计范数,这使得距离计算的成本是码本数量的二次。监控MCQ。虽然监督哈希的大多数研究都集中在监督二进制哈希上,但最近提出了一些关于在监督环境中使用MCQ的研究。监督MCQ技术在很大程度上可以被描述为监督损失函数和上述无监督MCQ技术之一监督量化(SQ)[42]将监督L2损失与CQ相结合,然而,由于其继承了CQ的恒定字典元素间乘积约束,因此产生的优化问题难以解决深度量化网络(DQN)[4]结合了深度架构和PQ。DQN的一个缺点是在码本优化过程中忽略了监督信息。SUBIC [17]在深度神经网络中集成了一个热编码层,该层使用类似于PQ的一个热块的级联对每个图像进行编码。然而,它的稀疏属性限制了它的表示能力。i=1xi− [C1,. . . ,Cm]bii2(1)方差对MCQ的影响最近,Wuetal. [44]他指出,标准偏差会对其中每个子码Bij限于仅具有一个非零条目bij1= 1,以确保每个码本仅选择一个码字。在查询阶段,MCQ使用每个点的近似,以估计查询q∈Rd与每个数据点之间的距离Σm<$q −xi<$$><$q −Cbi<$<$−(m−1)<$q <$这意味着,即使方差相对适中,无监督MCQ技术的量化误差也是如此。为了解决这个问题,作者建议在应用PQ之前分别对数据点范数进行标量然而,尚不清楚量化预算应如何此外,PQ对码本施加强正交性2 2i=1Σ+(Ctbit)TCjbijTJ2(二)这降低了倾斜码本的保真度[1]。我们通过实证显示规范方差对监督绩效的影响来总结本节。11692·→≪i=1∈X联系我们2不ǁǁ⟨ ⟩ ⟨⟩0的情况。750的情况。70的情况。65DQN [4][第24话]不同的类,而不考虑类内的紧凑性,这是至关重要的最近邻搜索的准确性[16,43]。为了增加类内变化,同时保持不同类的特征可分离,我们在softmax损失之上采用了最先进的中心损失[43]。令f(;θ):RdRp,其中pd表示将输入向量嵌入到p维深度特征中的前馈网络,还令zi表示输入xi的深度特征表示,zi=f(xi;θ),则中心损失被定义为:图1:两个监督MCQ模型的性能,并且对于64位代码,在CIFAR-10上没有特征归一化。ΣnLC=zi− φy(三)I2i=1量子化为此,我们在CIFAR-10数据集上运行了两种最先进的有监督MCQ技术,其中有和没有特征图1绘制了两种监督MCQ技术的MAP性能,它证明了在训练期间只需将特征标准化即可实现边际性能增益,而无需产生任何额外成本。3. 该方法在相似性检索中,我们给出了一个n个点的训练集,X={xi∈Rd}n,每个点与一个类标签相关联,yi1、. . .、湖给定查询点qRd,目标需要(近似地)找到在语义上最接近q的项,使得找到的邻居共享与q相同的类标签。本文遵循压缩编码技术的思想,将数据库向量转换为压缩编码,然后在压缩编码空间中进行相似性搜索,具有内存开销小、距离计算快的优点。在本文中,我们建议使用一个深度网络,将输入点映射到一个判别空间,同时对嵌入点执行一种监督MCQ形式,以实现快速检索,同时降低计算和存储开销。为此目的,我们定义了一个损失函数,包括四项,softmax损失,中心损失,量化损失,和歧视损失,其中每一个将在下面讨论。3.1. Softmax和中心损失在深度检索系统中,获得鲁棒且有区别的表示对于实现良好性能至关重要。通常,这是通过将softmaxloss应用于网络的表示层来实现的然而,使用softmax损失的监督优化的结果特征通常不够有区分力,因为softmax损失仅关注于找到将其中yi是与zi相关联的类别标签,并且φyi表示深度特征的第yi个直观地,中心丢失为每个类的特征学习一个中心,同时旨在将同一类的深层特征拉近其对应的中心。已经证明,softmax损失和中心损失的联合监督可以产生显著更好的区分深度特征[43]。3.2. 量化损失我们将深层特征约束在一个p维单位超球面上,即.f(x;θ)2= 1.除了降低深度特征的类内变异性[39]之外,归一化特征向量还有两个优点:1)范数方差严格为零,2)欧几里得最近邻搜索等效于最大内积搜索(MIPS),因为对于单位范数向量,我们有:2−2q x.处理MIPS的主要好处是,与欧盟不同,在Clidean距离(见(2))中,内部e的乘积n自然满足分配律,即q,jtj=jq,tj。MCQ工作良好,在很大程度上是因为它允许的是,查询和量化点之间的距离被计算为查询和所选择的码字之间的部分距离的总和给定查询,查询与所有码字之间的距离存储在查询特定的查找表中,然后用于计算查询与所有量化点之间的距离然而,为了使欧几里德距离满足分布律,我们要么需要对不同字典的码字施加强[18,32]/弱[46,47]正交约束,这降低了模型的保真度,并且经常导致非凸优化,要么我们必须将所有码字之间的内积存储在查找表[1,这增加了存储成本和距离计算时间。为了减小MIPS的逼近误差,需要使MCQ的距离重构误差最小。因为单位球面上的欧几里得距离等于地图非标准化标准化211693222我2I1im22i1im负点积加上常数,距离重构误差可以重写为:每次迭代更新一组参数而固定其他参数的问题。更新θ。 在C,φy是s,B固定的情况下,参数EqP(q)EqP(q)ΣΣni=1ΣΣni=1ΣnΣ|为|=Σzq,zi−zi(四)通过反向传播更新网络的所有损失中的项是可区分的。更新Φ。我们遵循与[43]相似的程序来更新中心。特别是,为了避免由少数错误标记的实例引起的大扰动,我们使用学习率参数k来训练中心:zi−<$ziφt+1=φt-(八)i=1YiYiJΣn在哪里 表示z的近似值使用MCQ和i=1<$(yi=j)·[λ(φyi−zi)+γ(φyi−Cbi)]我zq=f(q;θ).iφyj=Σni=1 (yi=j)这表明搜索精度直接取决于量化误差;低量化误差导致高搜索精度。因此,我们旨在优化的成本函数是量化损失:(九)其中,如果满足条件,则条件(condition)等于1,否则等于0。理想情况下,中心应该在每次迭代中基于整个训练集进行更新,这将是非常昂贵的。为了降低成本,在小批量上执行更新。LQ({ Cj},{bi})=Σni=1zi− [C1,. . . ,Cm]bi2更新C.给定B,φ yi优化问题是:s和θ固定,结果b=[bT,. . . ,bT]T(五)α<$Z−CB<$2+γ<$Φ−CB<$2(十)bij∈ {0,1}h,<$bij<$1= 1j= 1,. . . M相比之下,其中Z= [z1,. . .,zn],B= [b1,. . .,bn],并且Φ = [φy1,. . . ,φ yn]。这是C中的二次函数,因此存在封闭形式的解:对于那些对代码执行多个约束的人来说,[18,32,46]是多方面的;它导致了一个直接的,C=1α+γ (αZ+γΦ)BT(BBT)−1(11)更好的优化过程,也更少的实现开销。3.3. 判别式词典学习最后,我们也把监督信息在量化过程中。我们特别鼓励很容易观察到,优化问题在p维中的每一个上分解。这样,我们可以通过求解m个变量的p个最小二乘问题来减少计算量minα<$Z(t)−C(t)B(t)<$2+γ <$Φ(t)−C(t)B(t)<$2量化的点更靠近它们的中心。实现这个目标,我们使用以下损失:C(t)2t= 1,. . .得双曲余切值.2(十二)LD= Σni=1ǁφyi -Cbi2(六)每一个p问题都是一个最小二乘问题,有一个封闭的解。在线学习算法还直觉上,(6)惩罚了点<$z分配给接近φ y的聚类的情况。不加速发展[28]。更新B。 给定θ,φ yi 和C固定,优化双-我训练模型的总体损失形式如下:被称为编码相位的二元矩阵B已经成为历史。被认为是MCQ的瓶颈[1,29]。L= L softmax +αLQ +λLC +γLD(七)可以看出,组成指示符向量b独立于所有其他向量{bt}t=i。因此,OP-其中α、λ和γ是控制每个术语的影响。关于B的最小化问题可以分解为n个独立的子问题:3.4. 优化目标函数由四组可学习的参数组成,即深度网络的参数θ,cen,minb我α<$zi−Cbi<$2+γ<$φybi=[bT,. . . ,bT]T-Cbi2(十三)1个以上我11694其中,矩阵C中的码字,码字分配bij∈ {0,1}h,<$bij<$1= 1分段矩阵B.我们使用替代优化来解决i= 1,. . . ,n,j = 1,. . . ,m1169522不不2××22该问题本质上是一个高阶马尔可夫随机场(MRF)问题,是NP-难的。在[29]之后,我们使用随机局部搜索(SLS)方法来优化稀疏性约束将目标改变为正则化的二次问题。特别地,使用直接的代数操作(10)可以被重写为:比岛SLS的思想是为了逃避局部极小值,在局部搜索过程和对当前解的随机扰动为(α+γ)γαZ+γΦα+γ-CB-2−αZ+γΦ2α+ γ(十五)本地搜索,我们再次使用替代优化技术。给定{bij}jt固定,b通过穷尽地检查 Cj的所有码字并找到使(13)中的目标函数最小化的元素来更新对于SLS的扰动过程,我们从均匀分布U(1,m)中随机抽取k个码。这个...+αZ2+γΦ2由于只有第一项依赖于C,我们可以将稀疏量化的目标函数写为:min<$αZ+γΦ− CB<$2s. t.中文(简体)通过将所选择的代码中的每一个设置为在1和h之间均匀选择的随机值来扰动所选择的代码。然后,作为下一个局部搜索过程的起点,接受的结果- ING扰动的解决方案。虽然这个过程在计算上要求很高,但它可以使用GPU实现来加速[30,31],使编码甚至比码本学习更快。Cα+γ20由于L0正则化项的存在,所得优化结果是非凸的通常用凸L1模代替L0因此,我们用于学习稀疏码本的最终目标函数被定义为:αZT+γΦT3.5. 非对称距离计算minCα+γ- B型 Cβ2S.T.(17)给定查询,搜索过程首先使用训练好的网络zq=f(q;θ)嵌入查询。然后,zq和所有码字之间的内积被存储在m h查询特定查找表中。最后,查询和所有数据库向量之间的内积近似为:其本质上是对系数进行L1它可以使用各种经过高度优化的现成Lasso求解器(如特征符号搜索[21]或SPGL1求解器[38])有效地解决。4. 实验zq,ziΣmj=1zq,Cjbij在本节中,我们通过比较来衡量所提出的监督量化方法因此,计算查询和每个数据库项之间的内积需要O(m)查找和O(m)加法运算(与PQ相同),加上将查询嵌入到深层特征空间所需的时间。3.6.稀疏码本学习在稀疏码书学习中,优化问题被扩展为码字的稀疏性约束。稀疏代码本的主要优点是可以使用稀疏向量操作有效地计算查询与每个代码字之间的距离这对于具有许多码字的大型码本是实际重要的,查找表的在线构造所需的时间变得不可忽略。Zhang等人[47]已经表明稀疏码字可以将搜索速度提高到30%。顾名思义,[47]中提出的稀疏复合量化(SCQ)技术将稀疏约束添加到CQ [46]公式中,并使用坐标下降来解决优化问题。然而,CQ本身涉及硬优化问题,并且添加稀疏性约束使得问题更加困难。相比之下,在我们的公式中,码本优化简化为线性回归问题,从而增加了与三个不同的数据集进行对比4.1. 数据集和评估我们在三个标准数据集上进行实验:CIFAR-10[19],NUS-WIDE [8]和ImageNet [9]。CIFAR-10数据集由60,000个3232色图像组成,平均分为10个类别。我们遵循数据集的官方分割,并使用50K图像作为训练集,10K图像作为查询集。NUS-WIDE是一组从Flickr收集的269,648张图像。这是一个多标签数据集,其中每个图像与来自给定81个概念的一个或多个标签相关联。在[37,42]之后,我们从21个最常见的标签中收集了193,752张图像用于评估,包括天空,云,人,水,动物,草,建筑物,窗户,植物,湖泊,海洋,道路,花卉,日落,搬迁,岩石,车辆,雪,树,海滩和山脉。对于每个标签,我们随机抽取100张图像作为查询点,其余图像构成训练集。数据集ILSVRC 2012,本文命名为ImageNet,包含超过120万张图像,覆盖1,000个类别。按照[5,7]中的设置,我们选择100个类别,并在提供的ǁ11696√2ǁ ǁ ≤·ǁ ǁ ≤·训练集和验证集分别作为训练集和查询集。参数设置。在目标函数(7)中存在折衷参数:α用于量化损失,λ用于中心损失,γ用于判别损失。我们通过验证来选择参数特别是,我们选择训练集的一个子集(与查询集大小相同),并选择最佳参数,以使MAP方面的平均性能相对于验证集最大化我们将k固定为0.5,k为4。遵循几乎所有MCQ技术[1,32,47],我们选择h= 256作为码本大小,以便每个子索引适合一个字节的内存。这让我们将B存储为m×nuint8矩阵。我们改变m={2,4,6,8},使得mlog2h等于期望的比特率,即{16,32,48,64}。实验设置。我们使用原始图像作为所有深度方法的输入,但图像会调整大小以适应所采用模型的输入为了比较的公平性为了减少深度特征的大小,我们在网络中添加了一个全连接层,将网络的输出转换为256维的特征空间,因此p= 256。我们并没有为了节省时间而调整特征空间的大小,但我们认为调整它可能会产生更好的性能。使用L2归一化层对256维深度特征执行L2归一化[35]。我们对从ImageNet上预训练的AlexNet模型复制的层conv 1-由于最后一层是从头开始训练的,我们将其学习率设置为其他层的10倍。我们使用具有0.9动量的小批量随机梯度下降(SGD)作为求解器,并使用乘法步长10交叉验证了从10−5到10−2的学习率。我们还将图像的小批量大小固定为128,权重衰减参数为0.0005。在[29]之后,我们使用SPGL 1作为我们算法[38]稀疏扩展的套索求解器。对于非深度方法,我们提取深度模型[10]中的层“fc 7”的输出方法.我们将DSQ与各种各样的supervised紧凑编码方法进行比较,包括二进制哈希方法:[27][28][29][23][25][26][27][28][29]化技术:[17][18][19][1我们在Python中实现了SQ,因为在撰写本文时它的源代码不可用。我们尽最大努力忠实于论文的实验设置[42]。其他技术使用作者慷慨提供的实现4.2. 结果单域检索。 单域检索是监督二进制哈希文献中的主要实验基准,其中查询项和训练项属于同一组类别标签。为了评估不同技术的性能,我们采用了广泛使用的平均精度(MAP)。我们分别报告NUS-WIDE和Ima-geNet数据集的MAP@5000和MAP@1000结果。表1显示了DSQ对各种技术的单域检索性能观察结果是,我们提出的方法始终提供最佳的性能为不同长度的代码。我们属性的性能改善建议的损失,旨在共同保持相似性信息和控制量化误差。此外,丢弃正交性约束增加了码本的保真度,这又减小了最近邻搜索的近似最后,反向支撑所提出的监督量化损失可以显著增强深度表示的可量化性。图2还显示了不同技术在64位代码的查准率-查全率曲线方面的性能。从曲线中,我们可以观察到DSQ在相同的召回率下比最先进的紧凑编码方法这表明,DSQ也有利于精度为导向的检索系统。尽管由于篇幅限制,这里没有给出查询时间比较,但我们观察到,本研究中的所有深度MCQ技术都表现出相似的查询时间 , 主 要 是 因 为 它 们 采 用 了 相 同 的 核 心 架 构(AlexNet)。然而,二进制哈希技术通常比深度MCQ更快,因为它们结合了汉明距离来比较二进制代码。稀疏编码。我们还展示了DSQ稀疏扩展的性能。据我们所知,稀疏DSQ是第一次尝试探索监督稀疏多码本量化的语义相似性搜索。然而,我们将我们的技术与两种无监督稀疏量化技术SCQ [47]和SLSQ [29]进行了比较,这两种技术应用于[10]中深度模型的“fc 7”层的深度特征在[46]之后,我们使用两个稀疏度来评估我们算法的稀疏版本:SDSQ1(C0=hp)和SDSQ2(C0n=hp+p。由于前一个标准对码本施加了更严格的稀疏性约束,我们自然会期望实现更低的搜索精度,但更好的查询时间。我们比较了[47]中的SCQ1和SCQ2以及[29]中的SLSQ1和SLSQ2。图3显示了不同技术对三个不同数据集的性能。同样,在这种情况下,我们观察到稀疏DSQ以较大的裕度轻松地优于基线,主要是因为稀疏DSQ11697CIFAR-10 NUS-WIDE ImageNet方法163248641632486416324864KSQ0.32160.32850.33710.33840.40610.41820.42640.44360.16200.28180.34220.3934ITQ0.24120.24320.24820.25310.55730.59320.61280.61660.31150.46320.52230.5446SDH0.41990.43010.43920.44650.53420.62820.62980.63350.27290.45210.53290.5893CNNH0.53730.54210.57650.57800.62210.62330.63210.63720.28880.44720.53280.5436DPSH0.63670.64120.65730.66760.70150.71260.74180.74230.32260.54360.62170.6534DSH0.61920.65650.66240.67130.71810.72210.75210.75310.34280.55000.63290.6645HashNet0.68570.69230.71830.71870.73310.75510.76220.77620.50160.62190.66130.6824DTQ0.70370.71910.73190.73730.75110.78120.78860.78920.51280.61230.67270.6916苏比克0.65550.67890.68540.70140.70210.71310.75550.75680.55470.55970.64620.6622平方0.62120.64380.65450.65780.71260.71380.73030.74230.38650.55860.62790.6618DQN0.59790.60970.60990.61330.69130.71210.74710.75620.50650.62050.66690.6912DSQ0.72120.73460.74180.75890.77850.78990.79180.79880.57690.65410.68000.6940表1:DSQ的单域类别检索性能与16、32、48和64位代码的最新技术0的情况。80的情况。60的情况。40的情况。2CIFAR-1010的情况。80的情况。60的情况。4NUS-wide10的情况。80的情况。60的情况。40的情况。2ImageNet00。20的情况。4060810的情况。200。20的情况。406081000。20的情况。40608 1KSH [27]HashNet [5]ITQ [15][第37话CNNH [45][23]第二十三话DSH [25][17]第17届中国国际汽车工业展览会(上海)有限公司图2:CIFAR-10、NUS-WIDE和ImageNet数据集上64位代码的查准率-查全率曲线联合优化量化误差,同时保持语义相似性并满足稀疏性约束,而其他基准分别应用无监督稀疏量化,这仅使量化误差最小化。跨域检索。为了进一步评估我们的监督量化方法,我们遵循[36]的替代评估协议,其中在给定的训练类集合上学习的模型在新的不相交的测试类集合上进行测试该协议用于显示每个方法如何能够隐式地保留某些类的语义信息,即使类样本不包括在训练集中。为了实现这一目标,我们根据样本的类标签对样本进行分区注意,在这种情况下,训练集用于优化模型的参数。一旦学习完成,训练集被删除,并使用训练模型将基集的项目映射到紧凑代码最后,报告了查询集的平均性能。 我们使用80%的样本作为训练集,其余的作为查询集。该过程用随机类别划分重复5次,并报告平均结果。对于该设置,在编码阶段期间,我们将LC项从损失中删除,因为经训练的中心不对应于基集中的任何标签。类似地,SQ [42]中的回归损失项在编码过程中被丢弃,因为它直接取决于训练集的类标签。表2展示了该实验的结果,其显示了DSQ对于不同长度的代码的优越性。我们还观察到,方法的MAP性能通常高于以前的协议,因为只有3个类和更少的样本检索组成的基本集合中的变化较小。技术的等级也不同于单域实验。例如,SUBIC表现出最接近DSQ的性能,而在单域设置中DTQ是最接近的。地图116980的情况。7CIFAR-100的情况。740的情况。72NUS-wide0的情况。70的情况。65ImageNet0的情况。60的情况。70的情况。60的情况。680的情况。550的情况。516 32 48640的情况。6616 32 486416 32 48 64图3:不同稀疏量化技术对三个数据集的平均精度性能0的情况。80的情况。60的情况。40的情况。2表2:不同技术在CIFAR-10上跨域性能任务的平均精密度性能。4.3. 消融研究我们还进行了一项消融研究,通过实证比较DSQ的不同变体来展示损失函数分量对模型最终性能的一致性和重要性 我们在不同模型中评估该实验,以了解DSQ对不同术语的敏感性:1)L softmax+L Q,2)L softmax+L Q+L C,3)L softmax+L Q+L D,和4)L C+L D。对于每个模型,使用交叉验证再次调整不同项的系数,并且图4中报告了针对CIFAR-10数据集的64位代码的模型的平均性能。第一个观察结果是,所有的损失分量都有助于改善MAP。此外,该图还显示了softmax损失的重要性。这是因为softmax损失是目标函数中唯一使用该类别标签来强制不同类别的深层特征保持分离的项,如果没有它,则所产生的损失函数会降低所有要投影到单个点上的输入点。该图还展示了相当大的贡献,歧视损失,LD,显示了我们的框架在纳入语义信息的有效性,图4:当从DSQ目标函数中排除不同损失成分时,MAP的差异。实验在CIFAR-10数据集的64位代码上进行。量化。5. 结论在本文中,我们提出了一个深度监督量化技术,有效和快速的图像检索。通过引入L2规范化特征,我们提出了一种简单而有效的监督MCQ算法,用于使用相似性保持二进制码对单位规范化数据点进行我们还表明,我们的算法可以很容易地扩展到适应稀疏约束的码本,这是必要的学习大规模的码本。综合实验证明,DSQ及其稀疏扩展生成紧凑的二进制代码,在三个 标 准 基 准 测 试 ( 即 CIFAR-10 , NUS-WIDE 和ImageNet)上产生最先进的[47]第四十七届中国国际纺织品展览会[29]第29话地图地图方法16324864CNNH0.62410.64560.64780.6491DPSH0.68940.71340.71980.7256HashNet0.78260.79410.79890.8010苏比克0.78320.79310.80320.8077DSH0.73160.73880.74370.7456平方0.71120.71260.73190.7389DQN0.75620.76120.76490.7655DTQ0.75250.76850.77000.7895DSQ0.79440.81650.81950.821811699引用[1] A. Babenko和V.Lempitsky 用于极限矢量压缩的加性量化在CVPR中,第931-938页[2] Y.曹湾,澳-地Liu,M. Long,J. Wang,and M. KLissHashgan:深度学习用pair conditional wasserstein gan进行哈希。在CVPR中,第1287-1296页[3] Y. Cao,M.朗湾,澳-地Liu和J.王. 用于汉明空间检索的深柯西在CVPR),2018年。[4] Y. Cao,M.Long,J.Wang,H.Zhu和Q.文深度量化网络用于高效图像检索。在AAAI,第3457-3463页[5] Z. Cao,M. Long,J. Wang,and S. Y. Philip. Hashnet:深度学习,通过延续来散列在ICCV,第5609[6] Z. Chen,X.Yuan,J.卢角,加-地Tian和J.舟通过差异最小化的深度在CVPR,2018年。[7] Z. Chena,X. Yuana,J. Lua,Q. Tiand和J.周阿通过差异最小化的深度哈希。在CVPR中,第6838-6847页[8] T.- S. Chua,J. Tang,R. Hong,H. Li,Z. Luo和Y.郑Nus-wide:来自新加坡国立大学的真实网络图像数据库。载于2009年《公民权利和政治权利国际公约》[9] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L.飞飞 。 Imagenet : 一 个 大 规 模 的 分 层 图 像 数 据 库 。CVPR,第248-255页[10] J. Donahue,Y. Jia,O. Vinyals,J. Hoffman,N. 张先生,E. tzeng和T.达雷尔。Decaf:用于通用视觉识别的深度卷积激活功能在ICML,第647-655页[11] S. Eghbali,H. Ashtiani和L. Tahvildari。二进制空间中的在线最近邻搜索。在ICDM,第853-858页,2017年。[12] S. Eghbali,H. Ashtiani和L. Tahvildari。基于汉明权重树的在线最近邻搜索。IEEE Trans. PAMI,2019.[13] S. Eghbali和L.Tahvildari。基于角度多索引散列的二进制空间快速余弦相似性搜索IEEE Trans. on Knowledgeand Data Engineering,31(2):329[14] T. Ge,K.他,Q。Ke和J. Sun.优化产品定量。IEEETrans. PAMI,36(4):744[15] Y.贡,S. Lazebnik,A. Gordo和F.佩罗宁迭代量化:学习二进制代码用于大规模图像检索的procrustean方法。IEEE Trans. PAMI,35(12):2916[16] X.他,Y. Zhou,Z. Zhou,S. Bai,还有X。柏多视角三维物体检索中的三重中心丢失。arXiv预印本arXiv:1803.06189,2018。[17] H. Jain,J. Zepeda,P. Perez和R.格里邦瓦尔Subic:一种用于图像搜索的结构化二进制代码. InICCV,Oct2017.[18] H.杰古湾Douze和C.施密特最近邻搜索的乘积量化。IEEE Trans. PAMI,33(1):117[19] A. Krizhevsky和G.辛顿从微小的图像中学习多层特征。技术报告,Citeseer,2009年。[20] B. Kulis和T.达雷尔。学习使用二进制重构嵌入进行散列。在NIPS,第1042-1050页[21] H. Lee,A.巴特尔河Raina和A. Y. Ng.高效的稀疏编码算法。NIPS,第801-808页,2007年[22] Q. Li,Z.孙河,巴西-地他和T。Tan.深度监督离散散列。在NIPS,第2482-2491页[23] W.- J. Li,S. Wang和W.- C.康基于特征学习的深度监督散列与成对标签在IJCAI,第1711-1717页[24] B. Liu,Y.Cao,M.Long,J.Wang和J.王. 深度三重态量子化。MM,2018年。[25] H.柳河,巴西-地Wang,S. Shan和X.尘用于快速图像检索的深度监督哈希在CVPR,第2064[26] W. Liu , C. Mu ,S. Kumar 和 S.- F. 昌 离散 图 哈希 。NIPS,第3419-3427页,2014年[27] W.刘杰,王建,R.吉,Y G. Jiang和S.- F.昌带核函数的无约束散列。在CVPR,第2074-2081页,2012年。[28] J. Mairal,F.Bach,J.Ponce和G.萨皮罗稀疏编码的在线ICML,第689-696页,2009年[29] J. Martinez,J. Clement,H. H. Hoos和J. J. 点再论加性量子化。在ECCV,第137-153页[30] J. Martinez,H. H. Hoos和J.小J在gpu中解决多码书量化问题在ECCV,第638[31] J. Martinez,S. Zakhmi,H. H. Hoos和J.小J Lsq++:在多码 本量 化中 ,运 行时 间更短 ,召 回率 更高 。在ECCV,第491-506页[32] M. Norouzi和D. J·弗利特笛卡尔k均值在CVPR,第3017-3024页[33] M. Norouzi,D. Fleet和R. R.萨拉赫季诺夫汉明距离度量学习NIPS,第1061-1069页,2012年[34] M. Norouzi、A. Punjani和D. J·弗利特利用多索引散列法在汉明空间中进行快速精确搜索。IEEE Trans. PAMI,36(6):1107[35] R.兰詹角D. Castillo和R.切拉帕L2约束的softmax损失用于区分性人脸验证。arXiv预印本arXiv:1703.09507,2017。[36] A. 萨布莱罗勒湾Douze,N. R,和H. 我去。我们应该如何评估监督哈希?在ICASSP,第1732-1736页[37] F.申角沈,W。Liu 和H.陶申。监督离散散列。在CVPR,第37-45页[38] E. van den Berg和M. P·弗里德兰德探索基追踪解的帕累托 边 界 。 SIAM Journal on Scientific Computing , 31(2):890[39] H. Wang, Y. Wang , Z. Zhou ,X. Ji,D. Gong,J.Zhou,Z. Li和W.刘某Cosface:用于深度人脸识别的大幅度余弦损失在CVPR,2018年。[40] J. Wang和T.张某复合
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功