没有合适的资源?快使用搜索试试~ 我知道了~
端到端监督乘积量化-图像搜索和检索的新方法
5041用于图像搜索和检索的端到端监督乘积量化Benjamin Klein1和Lior Wolf1,21以色列特拉维夫大学布拉瓦特尼克计算机科学学院2Facebook人工智能研究摘要乘积量化是一种基于字典的散列方法,是无监督散列技术中的主要方法之一。虽然它忽略了标签,但它利用特征来构造可以近似特征空间的查找表近年来,一些作品通过以监督的方式学习二进制表示,在哈希基准上取得了最先进的结果这项工作提出了深度产品量化(DPQ),一种技术,导致更准确的检索和分类比最新的最先进的方法,同时具有类似的计算复杂性和内存占用的产品量化方法。据我们所知,这是引入基于字典的表示的第一项工作,该表示受到乘积量化的启发,并且是端到端学习的,因此受益于监督信号。DPQ显式学习软和硬表示,使一个有效的和准确的非对称搜索,通过使用直通估计。我们的方法获得了一个广泛的检索和分类实验的最先进的结果。1. 介绍计算机视觉从业者采用乘积量化(PQ)方法[15]作为在大规模数据库中进行近似最近邻(ANN)搜索的主要方法。然而,研究界最近将重点转移到使用通过监督无字典方法学习的二进制表示计算汉明距离的方法,并显示其在标准PQ技术上的优越性[14]。在这项工作中,我们提出了一种受PQ启发并命名为深度产品量化(DPQ)的技术,该技术在许多已知的基准测试中优于先前的方法。虽然标准PQ是以无监督的方式学习的,但我们的DPQ是以端到端的方式学习的,并且受益于任务相关的监督信号。PQ方法将嵌入流形分解为M个不相交分区的笛卡尔积,并将每个分区划分为K个聚类。将输入向量x∈RMD分解为R D中的M个子向量,x=[x1,x2,. . .,x M],然后通过PQ编码为zx∈ {0,1}M·log2(K)。每个log 2(K)比特组解码索引k∈{1}。. . K}的子向量所属的聚类的值(注意,簇在子空间之间变化)。代表向量Cm,k∈RD与每个分区m的每个聚类k相关联。原始向量的近似值xx可以通过连接匹配聚类的代表性向量从zx容易地重建训练PQ的常见做法是在每个分区上以无监督的方式运行K-means,并使用每个聚类的质心作为代表向量。使用PQ技术的优点是减少内存占用和加速搜索时间。将嵌入分解成M个子向量的笛卡尔积是PQ在减少检索搜索时间方面的有效性的关键成分,因为它允许使用查找表直接从一对向量x和y的压缩表示zx和zyPQ方法还可以通过使用非对称搜索来实现更好的检索性能,其中计算源向量x和压缩向量zy之间的距离,其计算量与对称搜索相同。ANN搜索的另一种常用技术是将嵌入转换为二进制表示,不使用字典,并使用汉明距离进行比较。通过学习二元表示作为端到端方式的分类模型优化的一部分,几项工作已经在检索基准上取得了最先进的结果因此,使用监督信号来训练二进制表示,因此,两个二进制表示之间的距离反映了系统的最终目标。在这项工作中,我们提出了一种新的技术,深度产品量化,据我们所知,这是第一个学习压缩表示的启发PQ,这是学习5042端到端,并且因此受益于受监督的信号。我们的贡献包括:(i)用于ANN搜索的端到端PQ方法,其通过使用字典而不是汉明距离来利用高维欧氏距离,(ii)学习软和硬表示作为训练的一部分以促进对称和非对称搜索,(iii)使用直通估计器来克服非微分argmax函数,这对于我们的硬表示是必不可少的,(iv)一种新的损失函数,名为联合中心损失,它受到中心损失的启发[33],但也减少了软表示和硬表示之间的差异,(v)一种归一化技术,改善了跨域类别检索的结果,(vi)一系列非常广泛的最新检索和分类结果,使用比任何现有工作更多的文献协议来确立我们的权利要求。2. 相关工作矢量量化技术[12]在过去的许多应用中被广泛使用,包括数据压缩,近似最近邻搜索和聚类。最经典的技术是矢量量化(VQ),它通过使用无监督聚类方法(如K-means)将空间划分为K个聚类VQ允许通过log2(K)比特对每个样本进行编码,即通过对样本所属的聚类的身份进行通过预先计算每两个簇之间的欧氏距离并将结果存储在具有O(K2)个条目的哈希表中,可以在O(1)时间内计算每两个样本之间的近似由于集群的数量呈指数增长,作为比特数的函数,可以期望VQ的性能随着更多比特的添加而提高。在实践中,由于VQ是使用K-means算法学习的,因此空间的有意义的量化需要一定数量的样本,这与聚类的数量成比例由于哈希表的簇数是二次增长的,因此对于较大的K值使用哈希表也变得不可行。这些原因限制了VQ的有效使用到少量的集群。这种限制对量化误差有影响,即,原始矢量与其匹配质心之间的距离,因此,是减小量化误差和提高检索性能的瓶颈。乘积量化[15](PQ)是一种巧妙的技术,可以克服相对于VQ增加聚类数的瓶颈,同时允许有效计算两个压缩表示之间的近似欧几里得距离,并减少量化误差。其主要思想是将RMD中的空间划分为RD中M个子向量的Cartesian积。 然后将VQ技术应用于每组子向量,从而在RD中产生M个K均值解,其中每个解具有一组不同的K簇。通过将匹配簇的索引分配给其M个子向量中的每一个,可以使用M · log 2(K)比特来编码RMD中的每个向量。PQ的表达能力使其能够将RMD中的向量转换为KM个可能的向量之一。如第3.1,PQ使两个压缩向量之间的近似距离的有效计算使用O(M)加法。这通过使用M个查找表(LUT)来实现,该查找表存储M个分区中的每个分区的每两个集群之间的距离K-means算法也不受样本数量的限制,因为1. . . M k均值解将空间划分为K个聚类,其中K通常很小(例如,K=256)。进一步减少量化误差,PQ技术还能够有效地比较未压缩的查询向量与压缩向量的数据库。后者称为非对称搜索,而前者称为对称搜索.非对称搜索是采用PQ的信息检索系统中的常见做法,因为虽然数据库向量需要被压缩以减少它们的存储器占用,但是对于查询通常没有存储器限制,查询通常是即时到达的。在PQ中,非对称搜索已被证明具有较低的量化误差,同时通过为每个查询构造LUT而具有与对称搜索相同的计算复杂度PQ技术已被信息检索和计算机视觉界广泛采用。它已经开始了对原始PQ技术的一长串改进。优化乘积量化[8](OPQ)和笛卡尔K均值[28]专注于改进空间分解和最佳码本的学习,以减少量化误差。这些贡献依赖于这样的观察,即简单地将特征划分为笛卡尔积并没有充分利用关于特征空间结构的知识,并且忽略了数据的子空间内相关性。为了创建更好的空间划分,他们建议首先通过正交矩阵R转换数据,然后进行笛卡尔分解并学习最佳聚类。LOPQ [17]使用的观察结果是,虽然PQ和OPQ在RMD中创建了指数数量的可能质心,但其中许多仍然没有数据支持,因此没有有效地使用为了缓解这个问题,他们建议首先使用粗量化器对数据进行聚类,并捕获其密度,然后对每个粗单元应用局部优化的乘积量化。尽管乘积量化技术和矢量量化技术取得了巨大的成功,但它们通常以无监督的方式进行优化,目的是减少量化误差。在这项工作中,我们进一步提高产品量化技术,通过incor- porating监督信号。以前的作品使用过苏-50432Pervision来学习二进制表示的汉明距离,这是ANN的一种流行的替代技术。给定两个矢量,它们都用M·log2(K)比特编码,在Hamming距离下,它们之间不同距离值的可能个数只有M·log2(K)+1。相反,可能的数量不同-使用PQ输入它们之间的距离值为。KM,比汉明大得多PQ丰富的表达能力使其优于以无监督方式训练的汉明距离技术。随着深度学习的出现,许多利用端到端训练的二进制编码技术[34,21,22,14],因此,受益于监督信号,已经被提出,并已被证明比以无监督方式训练的标准PQ技术更好[14]。我们的工作将PQ技术的表达能力与深度学习端到端优化技术相结合,并允许PQ从任务相关的据我们所知,我们是第一个将PQ启发的技术整合到深度学习框架中的公司。另一项工作[4]提出将PQ与深度学习结合起来用于散列目的,但与我们的工作相反相反,它们在以无监督的方式在嵌入空间上使用K-means学习PQ质心和使用CNN学习嵌入之间我们的解决方案学习CNN端到端的质心和参数,同时显式优化质心,以便在分类和检索任务中表现良好。虽然我们的技术受到乘积量化的启发而在PQ中,用于非对称搜索的软表示是嵌入本身,并且不受聚类向量的约束,在我们的工作中,如第2节所述。3、软表示学习。它是M个软子向量的级联,其中每个软子向量是学习的质心的凸组合。虽然PQ的非对称搜索能力提高了它的性能,但它并没有显式优化,它的成功是该方法设计的结果相比之下,我们的方法在训练中学习了软表示和硬表示,并直接改进了非对称搜索。 这是通过使用损失函数,联合中心损失来完成的,它受到中心损失的启发[33]。中心丢失旨在通过学习每个类的中心来提高CNN的检索性能,并添加一个术语,鼓励嵌入集中在相应类的中心周围。我们的联合中心损失为中心损失增加了这是通过优化两种表示来实现的,图1. DPQ模型的架构。 的Softmax损失和联合中心损失函数由蓝色菱形表示,基尼批量多样性和基尼样本共享正则化由绿色圆圈表示。红色箭头是非差分独热编码转换,它需要使用直通估计器,以便传递梯度。在同一个班级中心。最近提出了一种称为SUBIC的结构化二进制嵌入方法[14]。 在他们的工作中,这是当前检索技术的现状,每个样本由MK位的二进制向量表示,其中在每组K位中,只有一位是有效的。因此每个样本可以由M·10g 2(K)比特编码。与其他作品类似,SUBIC的二进制表示没有学习明确地说相反,每组K个条目是softmax函数的结果,因此充当{1,. . .,K}。在推理阶段,对应于最高概率的条目是被认为是有效位,并且所有其他位都变为0。为了减少推断和训练之间的差异,他们使用正则化来使分布函数更接近单纯形的角独热向量)。它们还通过使用查询向量的原始分布值来启用非对称相比之下,我们的工作显式地学习了软和硬表示,作为使用直通估计器技术[3]的端到端训练的一部分,并利用了欧几里得距离。这导致了更丰富的表达能力,提高了分类和检索性能,如第二节所示。4.第一章3. 深度乘积量化架构DPQ体系结构图如图所示。1.一、DPQ是在嵌入层之上学习的。这种嵌入的性质根据每个基准的协议而 变 化 , 见 第 4. 第 一 章 设 x 为 网 络 的 输 入 , 设embedding为输入x的嵌入层的输出(为简洁起见,省略了输入)。在第一步中,我们学习一个小50442MMM多层感知器(MLP),设s∈RMN为MLP的输出。然后将向量s切片为M个子向量,s=[s1,s2,. . .,sM],其中每个s m∈RN.在每个子向量之上,我们学习一个小的MLP,它以一个softmax函数结束,其中K产出我们用Pm(k)表示对应于第m个子向量的MLP的softmax的第k个条目的概率。对于每个子向量,我们还学习一个矩阵,Cm∈RK×D(由RD中的K个向量组成,K中心)。我们表示矩阵Cm的第k行Cm(k)。软表示的第m个子向量被计算为Cm的行的凸组合,其中系数是Pm的概率值:ΣK软m=pm(k)·Cm(k)(1)k=1令km=argmaxkpm(k)是pm中的最高概率的索引,并且令em是独热编码向量,使得em(km)=1并且em(k)=0,对于ki=km。然后,通过下式计算硬表示的第m个子向量鼓励来自同一类的特征聚集在一起,从而提高特征的区分能力并有助于检索性能。中心损失学习每个类的中心向量,其 中 V=MD 是 表 示 的 大 小 , 通 过 最 小 化 距 离1||ri−oyi||2之间的表示,r i∈ R V,和相应的向量同学们,我。这里介绍的联合中心损失的动机是为中心损失增加另一个作用,即减少软代表和硬表示,从而提高非对称搜索的性能。这是通过对软表示和硬表示使用相同的中心来实现的,鼓励两种表示更接近于类的相同中心。正则化DPQ使用正则化,以便确保对于每个分区M,样本到其对应聚类的近似均匀分布。这使得训练能够找到更好地利用编码中的聚类的解决方案。具体来说,如果有一批B山姆-K个,(x1,x2,...,xB),令p iΣ∈RK是概率dis-硬m=k=1em(k)·Cm(k)=Cm(k)(2)在第m个子向量的聚类上,第i个子向量的聚类上,sample. 以下与基尼系数相关的惩罚是因此,硬表示的第m个子向量定义为:.Σ等于Cm中的行对应于条目kΣKGiniBatch(pm):=1ΣB(三)概率最高的是pm. 自从转换为k=1Bi=1 pm(k)对于独热编码em的概率分布pm是不是差分操作,我们采用直通(ST)估计器[3]的思想来实现反向传播,当且仅当存在单个聚类k,其中,ki pi(k)=1,并且赫姆湾最小值1 当且仅当k:1pi(k)也就是说,在前向1K中的独热编码的计算Bi=1m通过使用argmax函数来执行然而,在反向传递中,我们将一个热编码层视为单位函数,并将由一个热编码层接收的梯度直接传递到计算pm的softmax层,而不对它们进行变换。将M个软子向量连接到最终的K. 因此,通过添加该惩罚,优化鼓励找到一个解决方案,其中样品是更均匀地分布到集群中。我们还添加了另一个正则化项,以鼓励样本i的概率分布,pi,更接近一个热编码:软表示向量,并且将M个硬子向量级联到最终硬表示向量:soft =[soft1,. . . ,软M],硬=[硬1,. . . ,硬M],GiniSample(pi):=−ΣKk=1.Σ2我pm(k)(四)其中软和硬在RMD中。对于C类分类,使用由矩阵W∈RMD×C和偏置向量b∈RC定义的全连接层来获得这些C类的预测分数。我们用predsoft和predhard表示预测,分别给出了软和硬表示损失函数。softmax loss应用于predsoft和predhard,并捕获软表示和硬表示正确分类样本我们还设计了一个受中心损失启发的新损失函数[33],称为联合中心损失。虽然softmax损失鼓励表示相对于类是可分离的,但中心损失这个术语鼓励软和硬表示,相同的样本更接近。请注意,这两个损失函数似乎是相互竞争的. 然而第一 在一个批次上计算,并鼓励在一个批次内的多样性,而第二个是每个分布计算并鼓励分布是决定性的(即,接近一个热矢量)。这些正则化的类似形式已经成功地在以前的作品中充分使用[22,14],以提高哈希技术的性能。3.1. 推理DPQ方法受益于乘积量化技术的所有优点。本节阐述我25045嗯嗯2MM关于DPQ如何用于创建对称和非对称形式的压缩表示、快速分类和快速检索。压缩表示对于给定的向量x∈RL,DPQ可以将x压缩到硬表示。具体-减少内存占用。在这种情况下,通常会将查询的单个软表示与数据库中项的许多压缩硬表示进行比较。对于该应用,可以构建M个LUT,其特定于向量软x。每一个ta-软X软X通常,x可以通过DPQ用M个分区编码,BLE,LUTASymm,有K个条目:LUTASym[k]=通过设置z =(z1,z2,. . . ,z M),ΣDd=1 (Cm)(k)[d] − softx[(m − 1)·D + d])2. 因此,al-其中z i∈ 1。. . K)是第i个park所对应的集群。x的值属于。 因此,硬表示可以然后从z和Cm完美地重建,并且需要通过执行M来降低软x和zy的比较添加:仅Mlog2(K)位用于存储。当使用float-32表示x时,可实现以下压缩比:32LMlog2(K)MDd=1ΣM(软x[d]−硬y[d])2=m=1LUTASy软x[zy]分类通过使用LUT(查找表),可以减少硬表示的分类时间。令predhard[c]是在应用softmax运算之前根据硬表示的类别cMD每个查询准备LUT的预处理时间为当数据库的大小比K大得多时,这是合理的。4. 实验我们在三个重要任务上评估DPQ的性能:单域图像检索,跨域图像predhard[c]=bc+=bc+d=1ΣMWd,c·hard[d]=ΣDW(m−1)D+d,c·Cm(zm)[d]检索和图像分类。我们的方法显示,在所有这些方面都达到了最先进的水平。我们在每个实验域中使用相同的超参数,在针对该域进行的所有实验中(大小m=1d=1使用 M LUTs 的 C ·K 条目,LUTCm[c,k]=数据集)。如图所示2、通常有产生有利结果的各种参数ΣDd=1 W(m−1)D+d,c·Cm(k)[d],可以计算具体参数见补充资料。predhard[c]通过执行M个加法来有效地进行:ΣM4.1. 单域类别检索。我们使用CIFAR-10数据集来证明DPQpredhard[c]=bc+m=1LUTCm[c,zm]单域类别检索任务的性能。由于不同的作品采用了不同的评价原型,对称比较快速对称比较.通过使用M个LUT,LUTSymm[k1,k2]中的每一个来执行在这个数据集上的不同特征,我们遵循三种不同的协议,它们共同捕获了许多数据集,K个条目:LUTSymm [k1,k2]=ΣDd=1(Cm(k1)[d] −Cm(k2)[d])2我们的作品散列技术。 我们还评估DPQImagenet-100通过遵循[5,24]的方案。CIFAR-10 -方案1 在该方案中,训练集 采用CIFAR-10对模型进行训练,然后,分别具有压缩的硬表示zx和zy的硬表示hardx和hardy之间的距离可以通过下式计算:集合用于评估检索性能,采用平均精度(mAP)度量。为了将DPQ的贡献与应用于图像的CNN的基本架构分开,我们遵循DSH [ 22 ]提出的相同架构,该架构被DSH [22]采用。MDd=1ΣM(hardx[d]−hardy[d])2=m=1LUTSym m[zx,zy]在此基准上评估的其他作品[22,14]。基准测试的协议是测量mAP,当使用12、24、36和48位时,对数据库不对称比较不对称比较是在向量的软表示上进行评估,软x,以及对y的硬表示进行编码的向量zy的压缩表示,hardy。典型的用例是当搜索系统接收到一个查询,计算其软表示,但使用硬表示来编码数据库中的向量,以便.5046向量 我们与M一起培训DPQs =4个分区,K=(8,64,512,4096)每个分区的质心,以匹配我们的实验与协议。DPQ是在基础网络的嵌入层上学习的,该嵌入层具有U=500个单元。我们首先在U的顶部添加一个完全连接的层F,其中V=M·K单位。然后我们将F∈RV分解为M等份:F=(F1,F2,. . .,F M),其中Fi ∈RK. 我们5047然后应用softmax函数,输出pm,如第2节所述。3、有K个入口。我们的聚类向量Cm被选择为在RZ中,其中Z是超参数。除了损失函数和正则化描述在节。3、我们增加了一个权值衰减来防止基网络的过拟合。如Tab.所示。1,我们的DPQ方法实现了对称或非对称检索的最新结果。如第3.1,对称和非对称方法都具有与SUBIC相同的计算复杂度[14]。此外,我们将我们的方法与[31]中建议的强而简单的基线进行了比较。由于检索系统不知道数据库的标签,因此[31]的SSH分类器+单热基线是评估我们的实验时使用的适当基线。在这个基线中,训练一个分类器,并使用类id的二进制表示因此,我们使用我们训练的分类器来编码每个样本。因此,10个类别中的每一个由4比特编码 该基线确实非常强,因为它实现了0的mAP。627 然而,当训练DPQ仅使用4位时,我们能够超过[31]通过获得0的mAP。649此外,该结果表明,具有4位的DPQ能够超过所有其他使用12位的结果,如Tab所示。1.一、CIFAR-10 -协议2在这里,从CIFAR-10的全部60K图像中选择10K图像作为查询(每个类1K)。其他50K图像用于训练并用作数据库。我们遵循在该协议下评估的其他方法[20,37,35,32],并使用VGG-CNN-F [6]的相同架构和预训练权重进行公平比较。当使用16、24、32和48位时,我们测量算法的mAP。 我们训练具有M=(4,6,8,12)分区和K=16个质心/分区的DPQ,以使我们的实验与协议相匹配。如Tab.所示2、DPQ达到最先进水平根据该协议的结果。CIFAR-10 - Protocol3 VDSH算法[36]也使用VGG-CNN-F的架构和权重,但采用不同的协议,其中从CIFAR10的60K图像中选择1000个图像作为查询(每个类别100个)。其他59K图像用于训练并作为数据库。我们应用DPQ在这个协议上,并实现了0.921的 mAP使用16位,超过了所有不同的位设置的VDSH的结果。ImageNet-100在[5]建议的这个协议中,训练集和测试集来自100个ImageNet类。我们遵循他们的实验,并使用相同的训练集和测试集定义。对于基础网络,我们使用与ResNet V2 50 [13]相同的架构和预训练权重,[24]一直在使用。如Tab.所示。3,DPQ也实现了该数据集的最新结果。方法12位24位36位48位PQ-0.295-0.290PQ标准-0.324-0.319LSQ++(SR-C)[27]-0.2662-0.2568LSQ++(SR-D)[27]-0.2578-0.2873LSQ++-norm(SR-C)[27]-0.2868-0.2801LSQ++-norm(SR-D)[27]-0.2662-0.2800[第34话]0.54250.56040.56400.5574DQN [4]0.5540.5580.5640.580[21]第二十一话0.55030.58030.57780.5885DNH [18]0.57080.58750.58990.5904DSH [22]0.61570.65120.66070.675KSH-CNN [23]-0.4298-0.4577DSRH [37]-0.6108-0.6177DRSCH [35]-0.6219-0.6305BDNN [7]-0.6521-0.6653苏比克[14]0.63490.67190.68230.6863DPQ-Sym0.74100.75280.75230.7525DPQ-ASym0.74100.75430.75390.7541表1.检索性能(mAP)的CIFAR-10数据集的不同数量的位。先前方法的结果按原样复制[14]。未报告的缺失结果,根据现有结果,预期不具有竞争力。方法16位24位32位48位DSRH [37]0.6080.6110.6170.618DSCH [35]0.6090.6130.6170.62DRSCH [35]0.6150.6220.6290.631[20]第二十话0.7630.7810.7950.807PQ0.8460.8490.8490.851PQ标准0.9060.9080.9090.910DTSH [32]0.9150.9230.9250.926DSDH [19]0.9350.9400.9390.939DPQ-ASym0.95070.95080.95070.9507表2.根据第二协议,对于不同的比特长度,CIFAR-10上的检索性能(mAP)先前方法的结果按原样复制[32]。方法16位32位64位LSH [9]0.1010.2350.360ITQ [10]0.3230.4620.552DHN [38]0.3110.4720.573HashNet [5]0.5060.6310.684[25]第二十五话0.7330.7610.769[24]第二十四话0.8380.8220.812DPQ-ASym0.8860.8770.866表3. ImageNet-100上的检索性能(mAP@1000),根据不同的位长度。先前方法的结果按原样复制[24]。4.2. 跨域类别检索。在跨域类别检索的任务中,通过在具有特定类别的数据集上训练来评估监督散列技术,并且通过使用具有不同类别集合的不同数据集上的mAP度量来[31]的作者已经证明了除了标准的单域类别检索之外,使用此任务评估协议我们遵循SUBIC [14]的协议,并在R128中的向量上训练DPQ模型,这些向量是计算的5048表4.三个数据集上的检索性能(mAP):ImageNet、Caltech和VOC2007,其中DPQ模型仅在ImageNet数据集上训练,然后在所有三个数据集上进行评估,以显示跨域检索。我们用IN表示通过在ILSVRC-ImageNet数据集上应用VGG-128 [6]预训练模型并提取嵌入表示。DPQ模型在输入上应用一个具有2048个单元的全然后,我们将得到的向量拆分为八个相等的子向量,每个子向量都在R256中。对于每个子向量,我们应用输出pm的softmax函数,如第2节所述。3,其中K=256个条目。因此,我们的DPQ将每个向量编码为压缩硬表示中的64位。我们的簇向量Cm被选择在R64中。在[14]中,使用了两种特征类型:2层和3层。2层实验是在VGG-128的嵌入表示上训练的[6],3层实验是在嵌入层之前在层的表示上训练的。然后,我们使用DPQ在ImageNet验证集以及Caltech-101和VOC 2007数据集上进行检索,以评估散列的性能。在[14]之后,我们分别使用来自Caltech-101,VOC 2007和ImageNet数据集的1000,1000和2000个随机查询图像,并使用其余作为数据库。 我们的结果在表中给出。4.第一章对于ImageNet和Caltech-101数据集,我们的方法超过了2层和3层情况下的最新结果,但在VOC2007上没有。为了进一步支持跨域散列,我们为我们的软表示和硬表示开发了一种内部规范化技术,该技术受到[1]的内部规范化技术的启发该方法改进了使用基于VLAD的表示获得的检索,该表示在一个数据集的SIFT特征之上进行训练,然后应用于另一个数据集。具体来说,我们执行图2.作为联合中心损失权重的函数的跨域类别检索基准的检索性能(mAP)。DPQ模型在ImageNet数据集上进行训练,并在三个不同的数据集上进行评估:VOC 2007,Caltech-101和ImageNet。如图所示,联合中心损失正在改善所有不同数据集的结果此外,内部归一化改善了VOC 2007和Caltech-101跨域数据集的结果,同时不影响ImageNet的性能。报告的结果是2层不对称的情况下。对每个硬m和每个软m进行L2归一化,分别得到硬范数m和软范数m然后,我们将它们连接起来,产生新的硬表示和软表示。注意,对每个子向量m=1执行L2归一化。. . M分别,而不是执行L2规范化的整个硬和软表示,并没有损害我们的能力,使用LUT的推理,如第二节所述。第3.1条我们可以简单地将Cm的簇替换为它们的归一化版本。内部规范化几乎不影响ImageNet评估,这是一个单域类别检索任务。如Tab.所示。4、非对称搜索优于对称搜索。结合内归一化技术,我们改进了VOC 2007和Caltech-101的结果。与SUBIC [14]类似,3层实验相对于2层实验在ImageNet数据集上显示出实质性的改进。作为基线,我们进行了另一个实验,其中使用L2归一化层执行L该实验在Caltech-101和VOC 2007数据集上得到了较差的结果,相对于没有L2归一化的训练和应用内归一化技术。为了研究联合中心损失的重要性,我们在图中描绘。2.作为分配给该损失的权重的函数的跨域类别检索基准的mAP。可以看出,当用联合中心权重损失0.1训练DPQ时,在数据集上观察到mAP的显著增加。随着该权重进一步增加,mAP非常逐渐地减小。方法VOC2007加州理工101ImageNetPQ [15]0.49650.30890.1650[第28话]0.49950.31790.1737LSQ [26]0.49930.33720.1882DSH-64 [22]0.49140.28520.1665PQ标准0.54950.39400.2229LSQ++(SR-C)[27]0.48230.37350.1764LSQ++(SR-D)[27]0.48240.36460.1769LSQ++-norm(SR-C)[27]0.54810.41220.2525LSQ++-norm(SR-D)[27]0.54940.41280.2534SUPIC 2-layer [14]0.56000.39230.2543DPQ-Sym 2层0.53400.40350.3183DPQ-ASym 2层0.53710.40730.3231DPQ-Sym 2层+IN0.55300.41340.3175DPQ-ASym 2层+IN0.56470.42310.3227SUPIC 3-layer [14]0.55880.40330.2810DPQ-Sym 3层0.52340.40160.3485DPQ-ASym 3层0.52920.40570.3532DPQ-Sym 3层+IN0.54970.41420.352150492ImageNet方法前1精度Top-5精度PQ [15]39.8867.22[第28话]41.1569.66苏比克[14]47.7772.16DPQ56.8077.59表5. ImageNet上使用学习的64位表示的方法牛津5K巴黎6KPQ [15]0.23740.3597LSQ [26]0.25120.3764DSH-64 [22]0.21080.3287苏比克[14]0.26260.4116DPQ(我们的)0.26430.4249PQ标准0.2646 ±0.00120.4262 ±0.0036表6.根据[14]中定义的方案,Oxford5K和Paris6K数据集上的检索性能(mAP)。前四行是从[14]复制的。最后一行中的结果是通过使用两个数据集的5个随机种子运行PQ5次来计算的。报告平均值和标准差。一个简单的无监督强基线我们发现的一个简单但强的无监督基线是对VGG的归一化特征而不是原始特征进行乘积量化。更准确地说,我们在进行乘积量化之前,先对单位球面上的特征进行归一化.在某种意义上,这相当于让乘积量化估计特征之间的如Tab.所示4这个简单的无监督基线,我们表示为PQ-范数,实现了对原始特征训练的产品量化的实质性改进,并且比监督方法(如SUBIC [14]和我们的方法)表现略差。4.3. 图像分类如第3.1,DPQ可以有效地分类样本给定其压缩表示。我们遵循SUBIC [14]的协议,并使用64位压缩硬表示在ImageNet的测试集上报告Top-1和Top- 5准确度。如Tab中所示。5、DPQ方法超越了现有技术。4.4. 基于地标SUBIC [14]报告了在牛津[29]和巴黎[30]基准上的PQ检索的改进,当使用从VGG-128的嵌入层提取的特征在地标数据集[2]的干净训练[11]子集我们的系统在这些基准测试中获得了比SUBIC稍然而,重新运行基线,使用FAISS [16]对SUBIC [14]使用的归一化特征实施PQ方法,结果与我们的方法相当,如表1所示。六、这进一步支持了第二节中介绍的简单基线。四点二。4.5. 所有成对距离DPQ在对称和非对称检索中的性能非常相似。对称检索的质量非常重要的一个应用是所有成对距离。在这个应用程序中,我们要计算数据库中每两个样本之间的距离由于数据库中的所有项目都是压缩的,因此不对称版本不可用,因此必须依赖于对称搜索的质量。DPQ的表现力定义了。KM可能的dis-向量的两个硬表示之间的距离相反,M·log2(K)位上的汉明距离定义了两个二进制向量之间的M·10g2(K)+1个可能距离 在SUBIC [14]中,硬表示被构造成使得每个群m ∈ {1,. . . .,M}仅具有一个有效位,因此仅允许两个硬表示之间的距离的M +1个可能值。验证我们的假设,我们使用SUBIC提供的代码在VOC2007数据集上评估SUBIC [14],并在使用对称搜索时测量mAP。这导致了0.4443的mAP,这低于它们的0.56的不对称搜索结果,并且低于无监督技术,如表1所示4.第一章然而,我们的对称检索达到了0.5530的mAP,并没有远离我们的非对称检索性能。5. 结论我们的方法是有监督的,并通过构建LUT来扩展无监督的乘积量化技术,LUT是从特征和标签中学习的我们的方法直接针对非对称搜索的检索进行了优化,因为它学习了软表示和硬表示作为训练的一部分。此外,如图所示,在SEC。4、DPQ的对称搜索性能并不远远落后于非对称搜索性能。这有一个优点,例如,在有兴趣在压缩数据库上执行所有与所有比较的情况下。这与一些方法形成对比,例如[14],其非对称和对称性能之间存在很大差距,如第2节所示。四点五分。虽然与乘积量化具有相同的内存占用和推理时间,但我们的实验表明DPQ在文献中常用的多个基准测试中达到了最先进的结果确认该项目已获得欧洲研究委员会(ERC)在欧盟地平线 2020 研 究 和 创 新 计 划 下 的 资 助 ( 授 予 ERCCoG725974)。第一作者的贡献是博士学位的一部分。在特拉维夫大学进行的论文研究5050引用[1] R. Arandjelovic和A.齐瑟曼。关于Vlad IEEE计算机视觉和模式识别会议论文集,第1578-1585页,2013年[2] A. Babenko、A. Slesarev,A. Chigorin和V. Lempitsky图像检索的神经代码。见《欧洲法院判例汇编》,第584-599页。Springer,2014.[3] Y. Bengio,N. L e'onard和A. 考维尔通过条件计算的随机神 经 元 估 计 或 传 播 arXiv 预 印 本 arXiv : 1308.3432 ,2013。[4] Y. Cao,M. Long,J. Wang,H. Zhu和Q.文用于高效图像检索的深度量化网络。在AAAI,第3457-3463页[5] Z. Cao,M. Long,J. Wang,and S. Y. Philip. Hashnet:深度学习,通过延续来散列在ICCV,第5609[6] K. Chatfield,K. Simonyan、A. Vedaldi和A.齐瑟曼。魔鬼的回归细节:深入研究卷积网。arXiv预印本arXiv:1405.3531,2014。[7] T.- T.做吧A D. Doan和N.- M.张学习使用二进制深度神经网络进行哈希。见ECCV,第219-234页。施普林格,2016年。[8] T. Ge,K.他,Q。Ke和J. Sun.用于近似最近邻搜索的优化乘积量化。在CVPR中,第2946-2953页[9] A. Gionis,P. Indyk,R. Motwani等人通过散列进行高维相似性搜索。Vldb,第99卷,第518-529页,1999年[10] Y.贡,S. Lazebnik,A. Gordo和F.佩罗宁迭代量化:学习二进制代码用于大规模图像检索的procrustean方法。IEEE Transactions on Pattern Analysis and MachineIntelligence,35(12):2916[11] A. Gordo,J. Alma za'n,J. R ev aud和D. 拉勒斯深度图像检索:学习图像搜索的全局表示。见ECCV,第241-257页。施普林格,2016年。[12] R. M. Gray和D. L.诺伊霍夫量化。IEEE transactions oninformation theory,44(6):2325[13] K.他,X。Zhang,S. Ren和J.太阳 深度剩余网络中的身份映射。在欧洲计算机视觉会议上,第630-645页。施普林格,2016年。[14] H. Jain,J. Zepeda,P. Perez和R.格里邦瓦尔Subic:一种用于图像搜索的监督结构化二进制代码。在ICCV。[15] H.杰古湾Douze和C.施密特最近邻搜索的乘积量化。IEEEtransactionsonpatternanalysisandmachineintelligence,33(1):117[16] J. 约翰逊,M。 Douze和H. 我去。使用gpu进行十亿级相似性arXiv预印本arXiv:1702.08734,2017。[17]
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功