基于示例SVM的图像检索方法的性能和计算优势

22 浏览量更新于2023-10-16 收藏 583KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1图像检索拉法埃尔·S Rezende1JoaquinZepeda2，3JeanPonce1，4FrancisBach1PatrickPe'rez21Inria Paris†2 Technicolor3AmazonE4E'coleNormaleSupe'rival/PSLResearchUniversity摘要Zepeda和Pe'r ez[41]最近证明了示例SVM（ESVM）作为图像检索特征编码器的前景本文将这种方法扩展到几个方向：我们首先表明，用ESVM代价函数中的平方损失替换铰链损失显著减少了编码时间，对准确性的影响可以忽略不计。我们称这种模型为平方损失样本机，或 SLEM 。然后，我们介绍了一个内核化的SLEM，它可以有效地实现通过低秩矩阵decom-位置，并显示改进的性能。这两种SLEM变体都利用了否定示例是固定的这一事实，因此大部分SLEM计算复杂性被降级到独立于肯定示例的离线过程。我们的实验建立了性能和计算的优势，我们的方法使用大量的基本功能和标准的图像检索数据集。1. 介绍由Malisiewicz等人 [24]最初提出的示例支持向量机（ESVM）利用了监督学习背景下大型无注释图像池的可用性。它使用一个大型的通用图像池作为一组负面示例，同时使用单个图像（示例）作为正面示例。给定这些训练集，学习SVM分类器，该分类器可以很好地泛化，尽管肯定示例集的大小非常有限。该分类器已成功用于分类、对象检测和标签传输[25]。Zepeda和Pe' rez[41]提出将所得分类器的权重作为图像检索的新为每个数据库和查询图像计算ESVM特征，将其视为唯一的阳性样本，同时保持通用阴性的固定池。†WILLO W和SIERRA项目组，De′ partement积极的形象。搜索相当于计算查询和数据库ESVM功能之间的距离。请注意，ESVM特征可以从任意基础特征（例如，CNN激活）和通用阴性池中的图像。ESVM特征编码方法的一个缺点是计算分类器需要为每个正例求解优化问题（即，每个查询和每个数据库图像）。这对于良好ESVM功能性能所需的较大负池大小来说可能非常耗时。在这项工作中，我们建议使用平方损失代替铰链损失，实际上将ESVM问题转换为岭回归，可以以封闭形式求解。我们称相应的分类器为平方损失样本机（或SLEM）.平方损失之前已经[37，40]），并将ESVM与经典分类器（如线性判别分析（LDA））进行比较[21]。相比之下，我们建议在这里使用SLEMs作为图像检索的特征由于计算SLEM特征需要对与训练集的协方差矩阵相关的大矩阵求逆，因此我们提出了一种有效的方法来计算此逆。与[9]的残差交叉验证方法类似，我们利用了在计算不同图像的SLEM特征时训练集中只有单个（正）示例发生变化的事实我们的实验表明，我们的表示匹配，甚至提高了ESVM功能的性能在三个标准数据集上使用广泛的基础功能，在一小部分的原始计算成本。我们还介绍了一个内核化的变体SLEM，享有类似的计算优势，提高检索性能。采用低秩分解方法对负样本核矩阵进行分解，进一步提高了计算和存储效率我们要求这种内核化的描述符和其有效的计算作为这项工作的主要贡献。本文其余部分的组织结构如下：节中239623972θ+1nθ+1µ=x，2我们提供了各种现有的特征表示方法的概述在第3节中，我们首先回顾了原始ESVM特征表示方法，并介绍了所提出的线性SLEM模型。然后，我们在第4节中介绍内核SLEM，并在第5节中介绍使其有效实现的低秩我们w.r.t. ω在Rd中，ν在R中。由方程式(1)λ和θ分别是ω上的正则化参数和调整正样本权重的正给定成本l，我们将x0相对于X的对应样本分类器定义为使损失函数J 最小化的权重ωn（x0，X）：在第6节中评估所提出的图像检索方法，并在第7节中给出结论。. ω，ν= argmin（ω，ν）∈Rd×RJ（ω，ν）。第一章（二）2. 先前工作本文讨论了设计一种适合于基于内容检索的图像表示方法的问题，特别是支持查询图片与存储在大型数据库中的图像之间的有效（判别）和高效这些表示必须对由于相机姿态、颜色差异和场景照明等引起的大图像变化具有鲁棒性。许多成功的图像检索方法依赖于码本学习的无监督模型，例如K均值[10]或高斯混合[28，33]。这些方法通过加权平均[27]、三角嵌入[18]或通用最大池化[26]将图像的局部描述符聚合到全局特征描述符中。示例SVM [24，25]是该模型的一个实例，其中l是铰链损失，其是凸的。方程的解。(2)因此，可以通过随机梯度下降[8]分别为每个阳性样本找到。下一节将展示如何通过改变损失函数来计算所有样本分类器的相似度。3.2. 平方损失现在，让我们研究平方损失函数l（y ，y）=1（y−y）2的相同学习问题。在铰链损失的情况下，方程的最小化。（1）是一个凸问题。然而，它现在是一个岭回归问题，其唯一解可以在封闭形式中找到，ω在神经网络复兴之前，这些代表着-通常优于直接利用图像特征的监督学习的方法[7，32]。ν⋆ =θ+1θ−1 −01（θx0+μ）Tω，（三）今天，随着卷积架构的成功，全局图像描述符通常通过聚合和/或池化其最后的卷积层[3，20，31]或通过向现有架构添加新的可区分层[1，14]来获得。其中：θ+1θ+12001年ni=1i（四）U=1 XXT− µµT3. 平方损失样本机在本节中，我们重新审视了[24]中提出的示例SVM模型然后，我们引入平方损失样本机（SLEM）作为该模型的一个简单变体，并研究其性质。3.1. 示例分类器我们在训练时在Rd中给出基本特征，巴恩+θ（x0−µ）（x0−µ）T+λIdd，其中Idd是大小为d的单位矩阵。伍德伯里身份。我们可以简化Eq。（3）通过在Eq.（四）、让我们定义A = 1XXT−µµT+λIdd为正则化协方差矩阵，并假设其逆矩阵A−1已知。矩阵U现在读作U=A+θδδT，其中δ = x0−µ是居中的（w.r.t. 阴性伍德伯里恒等式[39]给了我们θ正例x0inRd和一系列反面例子U−1=A−1−θδT A−1 δ+ θ+1A−1δTδA−1。（五）X=[x1，x2，...， xn]在Rd×n中，X的每一列用Rd中的一个向量表示一个例子。我们也有损失将（5）代入（3），函数l：{−1，1}×R→R+。从这些示例中学习一个示例ω=2θθ+1.A−1δ−θθδT A−1 δ+ θ+1ΣA−1 δ（ δT A−1δ）J（ ω，ν）= θ l（1，ωTx0+ ν）+1Σnn i=1l（−1，ωT2398xi+ ν）+λω2，22θ=θδTA−1δ+θ+1A−1δ。（六）(1)[1]根据损失函数l，νε（x0，X）可能不是唯一的。2399ǁω⋆ǁ我我ni=1方程（6）显示了如何通过求解A中的单个线性系统来同时求解计算多个示例分类器。还要注意，正样本权重θ不影响最优向量ωω的方向，只影响其范数。这意味着，如果搜索和排名是基于归一化特征1ωk，例如，利用余弦相似度，θ不影响两幅不同图像的SLEM向量这将SLEM其中，X × {− 1，1 }中的对（xi，yi），i=1。. . n是训练样本，并且h，h′是H中元素h和h′的内积。我们把问题称为(8)仿射监督学习问题，因为给定H的某个固定元素h和某个标量ν，h ′ ∈ h，h′∈+ν是h′的仿射函数，其零点集定义了H的仿射超平面，该仿射超平面将其自身视为仿射空间。令K表示具有条目kij的核矩阵，从需要调用此参数的ESVM中分配⟨ϕ(xi), ϕ(xj)⟩and rowskT= [ki1，ki2，...，kin]，iin[24，41]。因此，我们可以将θ的值设置为任何位置，实数3.3. LDA和SLEM{1，. . . ，n}。从现在开始，我们假设l是凸的，连续的。在这个假设下，Eq。 (8)承认，等效制剂值得注意的是SLEM和经典线性判别分析（LDA）之间的关系。让我们回到EQ。（1）假设我们有多个正minα∈Rn，ν∈R. 1Σnni=1l（ yi，kT α+v）+ΣλαTKα2、（9）样品可以示出，在这种情况下，等式（1）的相应线性分类器可以被构造为：(1)对于平方损失也由（3）给出，其中x0表示此时正样本的质心，如果正样本具有与负样本X相同的协方差矩阵λ。这个假设是相当合理的。严格的，而且可能是不现实的。然而，值得注意的是，这正是由并且（9）的任何解（α，ν）提供解（h，ν）到（8），其中h=nα（x）+ν。这个结果如下Riesz表示定理[34，38]。假设再生核是半正定的，则K是半正定矩阵，并可分解为K=BBT.使用这种因式分解，核化问题可以表示为：线性判别分析例如，如[16]所示，LDA是一个（非正则化）线性分类器，不min.1Σnl（ yi，bT β+v）+Σλǁβ ǁ2、（10）函数ωx+v，其中.ω=ω−1（x-µ），β∈Rr，ν∈Rni2i=101（7）其中bT表示B的第i行，r是数字ν=− （x0+ μ）Tω。2我B的列。如果（β，ν （1）是Eq的解。（10），这表明，对于单个阳性样本，SLEM和LDA非常相似：实际上，取λ=0（即，无正则化）和θ=1，我们有νε=ν，A=ν ε，并且方程的向量ω(7)和Eq.(6)具有相同的方向，将SLEM减少到LDA。LDA的许多有趣的特性最近已被用于分类任务[12，15]。通过我们对LDA的简单推广，我们希望获得更好的结果。4. 内核SLEM4.1. 核方法让我们回顾一下关于监督分类的核方法的一些基本事实本文考虑由集合X上的实函数构成的再生核Hilbert空间（RKHS）H，用k和k分别表示X上相应的再生核和特征映射（可能不存在已知的显式）我们解决了H×R上的以下学习问题：对应的向量α（或者更准确地说，对应的维数n ≥ r的向量）可以通过α=Pβ计算，其中P是BT的伪逆。请注意，方程式（10）被写成线性分类器的通常形式特别地，它允许我们将内核学习问题（8）写为等式（1）的实例。(1)通过设置θ=1（我们在剩下的工作中设置这个θ值），除了一个训练样本之外，所有训练样本的yi=−1对于我们的方法，我们希望针对相同的一组负训练样本来求解（10）。在下面的小节中，我们将展示如何利用固定的负样本来有效地求解（10）。4.2. 阴性样本现在让我们回到（内核化的）SLEM，取l为平方损失。为了离线计算仅依赖于负样本的所有操作，让我们用K表示负样本X的核矩阵。预-处理阶段包括计算解卷积，位置B和Eq.(6)：µ=1nbT1nλ1TTni=1iminl（yi，h（xi），h+v）+2012年2月，（8）且A=nB−µµ2400+λIdr. 这些操作完成后h∈H，ν∈Rni=12H离线并存储其结果。2401u00000我0我0我4.3. 通过列b′，b′，.的（r +1）× n矩阵Q在线添加正样本和X，b′。12N我们现在想写Eq。（10）作为示例分类器，具有一个正例x0和n个反例X。解α现在计算为α=P′β，其中P′=[u−10T;−u−1P vP]是B ′ T的伪逆。αε可以用线性系统我们用K′表示由下式获得的增广核矩阵：加入该样品，Σ Σ Σ1α0=uΣ ΣΣ0Tβ0 .（十五）K′=ΣΣk00kTk0K 、（11）αˆ4.4. 相似性分数-1PvPβ1其中k00=（x0），（x0）是标量，k0=n一旦从（14）中找到最佳参数（β，ν）和从（12）中找到b′的坐标u，v，则它们可以[（x0），（xi）]1≤i≤n是R中的向量。以下0引理说明了K′的因式分解是如何由其子矩阵K的因式分解和一个n×n线性方程组的解导出的引理1.增广核矩阵K′可以被分解为K′=B′B′T，其中直接用于度量匹配之间的相似性图像.假设给出了两个图像描述符x0和x′，我们希望计算它们的SLEM表示之间的相似性得分，表示为 s（h，h′）。We记为h′=α′（x′）+nα′（xi）+ν′。使用等式（十五） 0 0i=1iB′=ΣΣu vT0字节，v= Bt k0，u=√k00− ||v||第二条，第十二条忽略偏差ν和ν′，它们在经验上没有影响，s（h，h′）由下式给出：s（h，h′）=h，h′其中Bt是B的伪逆。=α<$TKα<$′+αk（X，x）Tα<$′+α′k（X，x′）Tα<$0 00 0+α0α′k（x0，x′）0 0证据对于由（12）定义的B′，我们有：B′B ′TΣ Σu2+v2vTBT=Bv BBT=ΣΣVT TBTBv K. （十三）=β<$Tβ<$′+λ−2（k（x0，x′）−vTv）。（十六）由于K′是半正定的，必须在列对于描述符为x0的给定图像，我们需要存储x0、β0和v来计算其相似性得分，SLEM的任何其他图像。因为我们假设空间B的B。事实上，如果我们假设k0不属于到B，则它可以唯一地分解为k0= s + t，s∈ B，t∈B <$，其中t0。一方面，K′是半正定的，意味着对所有实值a， [1 ， −atT]K′[1; −at]=k00− 2a<$t<$2≥02 。另一方面，对于一个足够大的， k00−a<$t<$2≤ 0，这是一个矛盾。因此v = B<$k0是Bv= k0的精确解。 k00− kv <$2是非负的事实来自于k00在K′中的舒尔补K − k 0kT/k00本身是正半定的事实。实际上，由于矩阵k00K − k0kT=B（k00Idr−vvT）BT也是半正定的。因此 vT （ k00Idr− vvT ） v=<$v<$2（k00− <$v<$2）≥ 0。这个引理允许我们将一个正样本添加到等式中。（十）、有了一个积极的榜样，它现在读起来基本特征x0具有维度p，β1和v各自具有维度r，我们为每个图像存储维度p +2r的向量。5. 高效执行与3.2节中的线性平方损失分类器相比，核化方法的一个缺点是我们的问题的维度随着负样本的大小n而增长K的离线分解BBT需要O（nr）的存储空间，最多O（nr2）的时间.这种因式分解可以通过两种方式获得：满秩分解和低秩分解。在本节中，我们提出了K的三种不同分解，并讨论了它们各自的优点。5.1. 满秩分解1（b′Tβ+ν−1）2+n1Σnni=1（b′Tβ+ν+ 1）2+λπβπ2，2（十四）CCD：完全Cholesky分解（CCD）是基于核学习中最常用的正定矩阵分解，因为它的时间效率[5]。我们将其用作默认分解。我们确保其中b′T是B ′的第（i+1）行，i在{0，1，.， n}。特别是，b =[u;v]，且当i >0时，b′=[0; bi]。2402在Rr+1×R中的解（β，ν）可计算为K是正定的，通过在它的对角线上加上λ m，其中λm=min（0，−λmin），λmin是K 的最小特征值n。因此，B也有秩n，可以计算之前的EQ。（3）用b′代替x0，用μ ′代替μ=1nb′T0ni=1i通过身份BB的CCD=K + IDn。2我们使用matlab符号进行水平和垂直立桩。[3]在这一小节中，我们去掉了24035.2. 低秩分解大规模检索的主要限制之一是存储的最小化如4.4节所述，对于每个数据库图像，我们存储其基本表示加上一个2r向量。因此，我们的目标是在一个小的秩上分解KR. 可以使用两种经典方法来获得低秩分解K。ICD：不完全Cholesky分解（ICD）广泛用于机器学习[5，11]。它类似于作为构建SLEM的负面图像池，我们在 Holidays 和Oxford5k中都当评估Oxford105k时，其中Flickr100k是数据库的一部分，我们使用Paris数据集[30]作为阴性样本。6.2. 内核我们测试了两个不同的内核，每个内核都有一个标量参数γ。高斯SLEM：CCD，并greatly选择K的哪一列添加到基于近似误差增益的分解[6]。算法在r步后停止，在时间O（nr2）内获得因子B。KPCA：核PCA（KPCA）[35]计算因子B聚乙烯SLEM：2k1（x，y）=e−γ x − y;（17）k2（x，y）=xTy+ γ（xTy）2.（十八）通过执行K（trun-）对于非常小的r值的cated奇异值分解），并且使因子的每一列对应于顶部r个奇异向量中的一个根据Frobenius范数，得到的矩阵B是K的最佳r秩逼近但是，KPCA的计算成本是O（n2r）[13]。当比较计算时间时，KPCA较慢对于小的r值，比ICD更快，对于r值更快，使得残差小。此外，如上所述，KPCA给出较小的残差tr（ K-BBT ） /tr （K ）。通过这些比较，我们将KPCA设置为默认的低秩分解。ICD比KPCA更合适的唯一情况是对于非常大数量的负数n，KPCA的时间复杂度成为问题，并且非常小的秩r。这一特殊情况将在第6.5节中进一步研究。6. 实验评价6.1. 数据集和评价方案我们在三个标准的图像检索数据集上进行了实验。• INRIA假日数据集[17]由1491张图像组成，分为500组匹配图像。我们手动旋转90度的一些图像，这些图像不是在它们的自然方向，以补偿CNN特征不是旋转不变的事实。ant [1，4，14，20，31].• Oxford5k数据集[29]由5063张图像组成，分为55组匹配图像，每组与牛津的一个地标相关联。我们使用• Oxford105k数据集[29]是一个大规模的数据集，包含来自Oxford5k和Flickr 100k的相同图像和查询，这是一个由105个干扰Flickr图像组成的集合。6.3. 基本视觉特征我们测试我们的特征编码器的四个不同的基本特征：手工制作的VLAD图像表示和从深度卷积神经网络的激活系数中获得的三个学习特征。我们使用与[41]中使用的[10]相同的VLAD变体，该变体依赖于密集提取的rootSIFT [2]局部描述符，每簇归一化，基于PCA的旋转和根归一化。像[41]一样，我们使用64个集群，用于最终尺寸8192。我们使用的第一个CNN特征包括激活AlexNet架构的前一层到最后一层的系数[22]，基于公开可用的预训练模型[19]。这些也是[41]中使用的特征。专门为图像检索应用定制的Sign特征[3]由19层VGG网络的最后一个卷积层的激活的空间加权和组成[36]。最后，我们使用NetVLAD特征[1]，经过位置识别训练。这些特征是通过在卷积架构的末尾添加VLAD算法[10]的可微分版本作为层来获得的。6.4. 图像检索结果我们使用上一小节的基本特征作为基线。由于Babenko和Lemptisky [3]和Arand- jelovic等人。[1]通过应用PCA然后对其特征进行白化来改善检索结果，我们还将这种后处理应用于我们的基本特征作为第二基线（PCAW），将基本特征维度压缩到原始的然后，我们将基线与原始ESVM，LDA和我们的方法（SLEM）的几个变体进行比较，因为所有这些方法都基于类似的想法。结果示于表1中。对于Oxford105k的大规模数据集，我们将实验限制在性能最好的基本特征，即Sphinx和NetVLAD。线性SLEM的性能与ESVM相似，但时间效率更高（图1）。①的人。的事实2404数据集假期牛津5k牛津105k型号、特点VLAD登录AlexNet NetVLADVLAD登录AlexNet NetVLADSundayNetVLAD基线72.776.568.285.446.354.440.667.550.165.6PCAW75.581.769.288.350.963.745.069.155.566.1LDA54.782.264.174.329.662.242.572.752.440.7ESVM [41]77.53 84.0371.391.4257.2362.143.972.556.567.5线性SLEM78.0282.372.191.3359.364.1346.2372.9356.7368.03高斯SLEM（16）76.880.371.291.4252.863.043.571.955.867.4高斯SLEM（32）77.481.772.0391.4254.963.144.071.156.067.8高斯SLEM（fr）78.186.2272.991.759.0264.947.0274.459.5270.02Poly SLEM（16）76.982.371.491.3353.063.643.671.456.167.5Poly SLEM（32）77.382.472.1291.754.963.644.171.656.367.9Poly SLEM（fr）78.186.372.991.759.364.8247.374.1262.570.2表1：INRIA Holidays和Oxford buildings数据集的平均精度（mAP）结果，以百分比表示在此表中，我们展示了VLAD [10]，卷积特征的总和池化（S）[3]，前一个到最后一个CNN层的激活系数（AlexNet）[22]和NetVLAD层的激活[1]的结果括号中是分解的秩（'fr'表示满秩分解）。对于每一列，我们以粗体显示最好的结果，并索引第二和第三个最好的结果。铰链损失分类器并不比平方损失分类器更好，这似乎是违反直觉的，但在温和的约束下，这两种分类器对于二进制分类是等效的[40]。我们使用高斯SLEM和多项式SLEM，具有两个分解：由（fr）表示的一个满秩CCD分解和由分解的秩表示的两个低秩KPCA分解。我们训练15000个阴性样本的样本分类器对于所有实验，我们校准正则化成本λ以及参数γ，类似于[41]中的校准。全秩变体对于所有基本特征都优于所有方法，尽管与线性SLEM相比的增益并不总是显著的（例如对于VLAD特征）。我们注意到，在胡里节和牛津大学的Scrum以及牛津大学的AlexNet和NetVLAD都有6.5. 时间和存储可扩展性在本节中，我们比较了我们的方法和ESVM的时间效率，以及讨论根据负样本的数量使用哪种方法和分解图1，我们看到线性SLEM效率不随n变化。实际上，如果d是基表示的维数，则A是线性SLEM的d×d矩阵，而对于满秩核，A是n×n。这解释了高斯和多项式内核的运行时间增加：存储和求解n×n系统不能扩展大量的负样本。图中的满秩核化SLEM的检索结果1表明我们可以受益于更大的阴性样本集然而，我们限制我们的满秩实验n = 15000负样本由于O（n3）的复杂性的fline步骤。当我们只考虑模型的在线过程时，即在βε的计算中，我们的核化模型具有与ESVM相似的时间效率。因此，如果我们离线预处理负样本，我们可以在与ESVM相似的运行时间内处理高斯和多项式内核的内核SLEM。对于低秩分解，我们在图中提出。2.在Holidays数据集上使用Score的KPCA和ICD分解之间的平均精度比较，固定n并改变r。优越的结果证明了我们对KPCA的偏好，尽管它的离线步骤效率较低。与KPCA相比，ICD的唯一优势是其时间复杂度，与阴性样本的数量成线性关系，这允许更大数量的阴性样本。在图3中，我们显示了更大的阴性样本池的ICD结果，KPCA分解将过于耗时。结果表明，在固定的小秩条件下，ICDSLEM的性能对负例数不敏感。如图所示2，低秩KPCA近似的mAP随着秩而增加它的最大值为该图的特征是86。3对于满秩，r=15，000（表1，col. 2）的情况。然而，图2还显示，对于200的小得多的等级，获得了合理的mAP值（约84）。为了与图像检索中的通常做法保持一致，我们进一步限制了表1和表2中所示结果中的秩，具有非常小的秩（16和32），其产生的总特征维度与基本表示相似，并允许与使用2405每个图像的时间（s）Poly SLEM高斯SLEM ESVM线性SLEM10−1868510−28410−38382810的情况。204060八十一21. 410−40的情况。204060八十一21. 4Num. n的负数。·104Num. n的负数。·104图1：INRIA Holidays的结果，使用SLEM功能和全秩SLEM的不同变体。如[41]所建议的，我们对所有n使用T=105次迭代来报告ESVM的mAP，但使用T=1报告时序。66n和[41]的表1中左：mAP;右：实线表示的计算时间，虚线表示的在线计算成本8482807876电话：020 - 400 - 600 - 80078岁278岁0七十七。8七十七。60的情况。2040的情况。608 1降低等级的值。否定数·105图2：对于n=15000个阴性样本，使用SLEM + PolySLEM的假期mAP。我们执行两个低秩分解，并比较其结果在类似的行列。这些特点直接。这种相当极端的压缩也部分是合理的，因为这些非常低秩的分解已经捕获了问题结构的合理部分事实上，在假日中，15，000个底片的相对剩余误差仅为0。对于r= 16和0，为39。r=31，r=32。作为参考，相对误差减小到0。08对于r=600，和0. 05，r=1024。6.6. 与最新技术我们将Holidays和Oxford 5k的最新全局描述符与表2中的线性 SLEM 和低秩 Poly SLEM 改进的 SLEM 和NetVLAD特征进行了比较。我们不包括重新排名，也不查询扩展。我们执行PCA和白化来压缩两个去-KPCAICD地图ICD，r =32map假期map假期2406图3：假期的mAP，使用Score + Poly SLEM，使用ICD和固定32秩。脚本到256和512，如[1，3]中所做的，并通过尺寸的括号比较结果。为了完整性，我们还添加了完整的4096维NetVLAD的括号，以便包含最佳性能。我们的方法比假日的最新技术高出2. 256维5分，0分。8在512个维度上，尽管没有使用最佳性能描述符[14]作为基本特征。7. 结论和今后的工作本文讨论了利用核化平方损失样本机进行图像检索该文件的主要新颖之处有两个方面：首先，使用平方损失，这避免了对每一个额外的正训练考试进行再训练-2407特征秩昏暗霍尔Ox5kBabenko等人[3]第一章-256 80.258.9Radenovic等[三十一]-256 81.577.4Arandjelovic等[1]第一章-256 86.062.5Kalantidis等人[20个]-256 83.165.4SLEM+线性SLEM-256 81.564.7SLEM + Poly SLEM16288 80.163.6SLEM + Poly SLEM32320 81.863.6NetVLAD +线性SLEM-256 88.565.9NetVLAD + Poly SLEM16288 87.765.5NetVLAD + Poly SLEM32320 88.365.6Radenovic等[三十一]-512 82.5七十九点七Arandjelovic等[1]第一章-512 86.765.6Kalantidis等人[20个]-512 84.9六十八点二Gordo等人[14个]-512 89.1<$83.1<$SLEM+线性SLEM-512 82.364.1SLEM + Poly SLEM16544 82.363.0SLEM + Poly SLEM32576 82.463.1NetVLAD +线性SLEM-512 89.3七十二点三NetVLAD + Poly SLEM16544 89.971.9NetVLAD + Poly SLEM32576 89.972.3Arandjelovic等[1]第一章-4096 88.369.1NetVLAD +线性SLEM-4096 91.372.9NetVLAD + Poly SLEM164128 91.371.2NetVLAD + Poly SLEM324160 91.771.7表2：将结果与相似维度的最新技术特征进行比较，未重新排序或查询扩增。使用Poly SLEM的结果为原始特征增加了32或64个维度（分别为r=16或r=32带下划线的结果是每个维度括号中的最佳结果，粗体结果是一般最佳结果。†表示最先进的技术水平。并校准其中一个参数;第二，通过使用低秩近似，在保持合理的存储器占用的同时使该方法内核化。类似的想法当然也被用在机器学习的其他环境然而，据我们所知，我们的工作是第一次将这些想法应用于基于示例的分类器，特别是在图像检索的背景下。我们已经在我们测试的基础特征上获得了显着的改进，并且在不同的数据集上优于类似的编码器。作为未来的工作，我们计划研究类似于[1]的卷积实现，以便可以以监督的方式学习其参数。其他内核函数的使用值得研究。多项式核的表现类似于高斯核，即使从高斯核获得的希尔伯特空间具有无限维，而从多项式核获得的希尔伯特空间不同的内核，如空间金字塔内核[23]是另一种选择，会增加我们方法的多样性最后，我们的方法构造了一个通用的特征编码，因此可以用于许多其他的计算机视觉问题，如对象分类和场景识别。致谢这项工作得到了ERC资助VideoWorld的支持引用[1] R. Arandjel o vi c´，P. Gronat，A. Torii、T. Pajdla和J. Si vic. NetVLAD：用于弱监督位置识别的CNN架构。Proc. IEEE Conf.补偿视觉模式记录，2016年。[2] R. Arandjelovic和A.齐瑟曼。每个人都应该知道的三件事，以提高对象检索。在proc IEEE会议补偿视觉模式记录，2012年。[3] A. Babenko和V. Lempitisky。聚合深度卷积特征用于图像检索。在Proc. European Conf. Comp. Vision，2015.[4] A. Babenko、A. Slesarev，A. Chigorin和V. Lempitisky。图像检索的神经代码。在Proc. European Conf. Comp.Vision，2014.[5] F. Bach和M.约旦.核独立分量分析。机器学习研究杂志，2002年。[6] F. Bach和M.约旦.核方法的预测低秩分解在proc Int.Conf. 机器学习，2005年。[7] C. Bilen，J. Zepeda和P. 佩雷斯。学习稀疏诱导-ING分析运营商的歧视性相似性度量。在信号处理与自适应稀疏结构表示，2015年。[8] L. 博图大规模机器学习与随机梯度下降。2010年国际计算统计会议[9] G. C. Cawley和N. L. C.塔伯特核Fisher判别分类器的有效Pattern Recognition，36（11）：2585[10] J. Delhumeau ，P. H. Gosselin ，H.Je′gou 和P.佩雷斯。重新访问VLAD图像表示。在Proceedings of ACMInternational Conference on Multimedia ，第 21 卷，第653-656页，New York，New York，USA，2013中。ACM出版社[11] S.好吧，K。Scheinberg使用低秩核表示的有效SVM训练。JMLR，2：243[12] M. Gharbi，T.Malisiewicz，S.Paris和F.杜兰德快速图像相似性的特征空间的高斯近似技术报告CSAIL-TR-2012-032，MIT，2012年。[13] G. H. Golub和C. F.范·洛恩矩阵计算，第三卷。JHUPress，2012.[14] A. Gordo，J. Almaz a'n，J. R ev aud和D. 拉勒斯深度图像检索：学习图像搜索的全局表示。在Proc. EuropeanConf. Comp. Vision，2016.[15] B. Hariharan，J. Malik和D. Ramanan用于聚类和分类的判别去相关。In Proc. Eurology Conf. Comp. Vision，2012.2408[16] T.哈斯蒂河Tibshirani和J.弗里德曼统计学习的要素。Springer，2009.第二版。[17] H.杰古湾Douze和C.施密特大规模图像搜索中的汉明嵌入和弱几何一致性在 Proc. European Conf. Comp.Vision，2008年。[18] H. J e'gou和A. 齐瑟曼。用于图像搜索的三角形嵌入和2014年[19] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构 arXiv 预印本 arXiv ：1408.5093，2014。[20] Y.卡兰蒂迪斯角Mellina和S.奥辛德罗用于聚合深度卷积特征的交叉维度加权。在Proc. European Conf. Comp.Vision，2016.[21] T.小林关于样本支持向量机的三种观点。在Proc. IEEE会议Comp. 视觉模式记录，2015年。[22] A.克里热夫斯基岛Sutskever和G.辛顿使用深度卷积神经网络的ImageNet在神经信息处理系统，第1-9页[23] S. 拉贝兹尼克角 Schmid 和 J. 庞塞 Beyond Bag ofFeatures：自然景物类别识别的空间金字塔匹配方法。正在进行IEEE会议补偿视觉模式记录，2006年。[24] T. Malisiewicz，A. Gupta和A. A.埃夫罗斯用于对象检测及其他的范例svms的集成。在Proc. Int. Conf. Comp.Vision，2011.[25] T. Malisiewicz，A.什里瓦斯塔瓦A. Gupta和A. A.埃夫罗斯视觉目标侦测、标签转移与影像撷取范例在Proc. Int.Conf.关于机器学习，2012年。[26] N. Murray和F.佩罗宁广义最大池。在Proc. IEEE会议Comp. 视觉模式记录，2014年。[27] F. Perronnin，Y. 刘，J. S a'nchez和H. 普瓦里河基于压缩fisher向量的大尺度图像检索在proc IEEE Conf. Comp.视觉模式记录，2010年。[28] F. Perronnin，J. S'nchez和T。门辛克改进fisher核用于大规模图像分类。2010年欧洲计算机视觉会议[29] J. Philbin，O. Chum，M. Isard，J. Sivic，and A. 齐塞-曼。具有大词汇量和快速空间匹配的对象检索正在进行IEEE会议补偿视觉模式记录，2007年。[30] J. Philbin，O. Chum，M. Isard，J. Sivic，and A.齐瑟曼。量化损失：改进大规模图像数据库中特定对象的检索。正在进行IEEE会议补偿视觉模式记录，2008年。[31] F. Raden o vi c'，G. Tolias和O. 好朋友 Cnn图像检索eval从bow学习到：无监督的微调与硬的例子。在Proc.European Conf. Comp. Vision，2016.[32] A. Rana，J. Zepeda，and P.佩雷斯图像检索任务的特征学习。在亚洲计算机视觉和模式识别研讨会，2014年。[33] J. 是桑切斯，弗。佩罗宁，T. Mensink，J。维尔贝克。图像分类与费舍尔向量：理论与实践。 Comp. Vision，3：222 -245，2013.[34] B. 舒奥尔科普夫河Herbrich和A. 斯莫拉一个推广的表示中心定理.计算学习理论年会，第416-426页，2001年[35] B. Schoül k opf，A. J. Smola和K.- R. 穆勒河作为核特征值问题的非线性分量分析神经计算，10（3）：1299[36] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。InInt. Conf. on Learning Representations，2015.[37] J. Suykens，T.诉Geste

下载后可阅读完整内容，剩余1页未读，立即下载