基于硬代理的深度图像相似性学习

148 浏览量更新于2023-10-18 收藏 911KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7299基于硬代理的Nicolas Aziere和Sinisa Todorovic俄勒冈州立大学网址：azieren@oregonstate.edu，sinisa@oregonstate.edu摘要本文是关于深度图像相似性学习的，使得同一类的图像比属于不同类的图像具有更相似的深度特征表示。对于学习，先前的工作通常根据深度特征之间的距离或点积来指定损失，尽管深度特征空间具有众所周知的非欧几里德性质我们的第一个贡献是在指定的N对损失使用深功能的流形相似性。我们介绍了一种新的时间和内存有效的估计流形相似性，使用封闭形式的收敛解的随机游走算法。我们随机划分深特征空间，并通过所得子空间的代表来表示流形相似性，a.k.a.代理人深度特征空间的多个随机分区给出了可以联合用于估计图像相似性的代理的集合我们的第二个贡献旨在通过估计尽可能接近彼此但保留在各自子空间中的硬代理来减少过拟合。我们在CUB- 200-2011，Cars 196和Stanford Online Products数据集上的图像检索和聚类方面都优于最先进的技术，其复杂性与相关集成方法相同。1. 介绍本文提出了一种深度度量学习的方法。我们的目标是学习图像的深层表征，使得属于同一类的图像比属于不同类的图像具有更多相似的表征这是一个具有广泛应用的重要问题，包括图像检索[16，17]，图像聚类[18]和细粒度图像分类[4，11]。最近的工作使用卷积神经网络（CNN）计算满足上述目标的图像的深度特征。CNN通常使用对比损失[2]，三重损失[7，21]或N对损失[17]进行训练。这些损失函数通常是用2-距离或点积来指定的，这不适合高度非欧几里德的深特征空间。最近的工作解决了这个问题：（i）作为深特征的流形距离的函数的反射损失[1，8，9];或(ii)首先将深层特征空间划分为子空间，然后将数据投影到由子空间的表示所跨越的新空间，最后估计新空间中的损失[10，12，13，23]。这两组方法都有我们试图减轻的缺点。第一组方法使用随机游走算法[24]来估计流形上数据点之间的测地线距离（或相似性），称为流形距离（或流形相似性）。然而，在深度学习中结合随机游走是困难的，因为前者需要访问所有数据，而深度学习则以小批量组织训练。此外，随机游走是迭代的，显著增加了训练的复杂性。第二组方法的弱点在于新嵌入空间的指定。例如，深度特征被投影到由以下各项跨越的新空间上：(a)独热向量[23]，或（b）随机采样向量，a.k.a.代理人[12]。独热向量和随机采样代理都是启发式的，而不是端到端学习的。为了解决上述缺点，我们在CNN的训练中做出了两个贡献，如图所示。1（左）。我们的第一个贡献是在指定一个时间和内存有效的算法估计损失的深功能之间的流形相似与之前的工作不同，我们采用随机游走来估计每个小批量深度学习中少量数据的流形相似性，而不是所有训练数据。这允许使用随机游走的闭合形式收敛解来有效地计算流形相似性，而不是运行其许多迭代。按照上述第二组方法，我们随机划分训练数据集，其中每个分区代表图像的元类。元类可以仅包括属于一个类的图像的一部分，或者包括来自若干不同图像类的图像。与[12]类似，我们在估计训练中的N对损失时，将元类的代表作为图像的代理具体而言，分配给元类的所有图像上的N对损失被计算为代理向量表示的损失。7300图1.（左）概述了我们在训练CNN时的两个贡献，CNN的输出图像x的深度表示应该满足这样的目标，即属于同一类的图像比属于不同类的图像具有更相似的深度表示。（右）我们的训练产生了CNN的集合，其中每个CNN都是在深度特征空间的特定随机分区上学习到元类的。为了测试，我们将所有学习者集成到集成中，以计算查询和其他测试图像之间的相似性发送那个元类。由于代理集比训练数据集小得多，因此在估计N对损失时通常考虑的图像三元组的数量可以显著减少。此外，如[12]所示，最小化用代理代替图像表示的损失相当于最小化图像之间的排名损失的上限，因此有效地实施了图像的期望距离关系我们的第二个贡献是在指定一个新的算法估计硬代理。这旨在收紧训练图像之间的期望距离关系的上限。当相关工作[12，23]随机采样代理时，它们有过拟合到图像之间的排名损失的相对“宽松”上限的风险而不是使用随机抽样，我们优化代理，使他们招致最大的N对损失。本质上，这意味着我们在深空间中搜索尽可能彼此接近的代理，但仍然远离对应于元类的深特征空间的它们各自的子空间。由于代理彼此非常相似，因此更容易违反图像之间的距离关系，因此我们对深度特征的端到端训练被强制为更精确地减少这些违规行为。与深度特征空间的过拟合和随机分割相关的一些问题可以通过集成学习来克服[10，13，23]。我们遵循这条工作路线，并采取深度特征空间的多个随机分割，因为最佳分割是未知的每个随机分区给出了相应的硬代理字典在测试中，深度图像表示是通过连接或平均由集合的每个CNN产生的深度特征来计算的，如图所示1（右）。我们的评估表明，我们的表现优于在基准数据集（包括CUB-200-2011 [20]，Cars 196 [11]和Stanford Online Products [19]）上进行图像检索和聚类的最新技术水平，与非集成方法中的每个CNN具有相同的计算复杂度接下来，SEC。2回顾以前的工作，第二。3给出了我们的方法的概述，Sec。4制定了硬prox- ies，Sec。5解释了如何用随机游走计算流形相似性，Sec。6制定了两个歧管损失函数，Sec。7描述了复杂性，SEC。8规定了实施细节，Sec.九是评价。2. 相关工作距离度量学习是一个长期存在的问题。本节只审查最密切相关的工作。损失公式：损失通常定义在图像的三元组上，以在训练中考虑类内和跨不同类的图像距离。例如，N对损失[17，19]是在一小批训练图像上计算的，这些训练图像包括一个锚点、来自同一类锚点的一个阳性图像角度损失[22]表示N对损失的变化，旨在最小化类内特征之间的角度和最大化类间特征之间的角度。指定设施位置函数以提高通过归一化互信息（NMI）测量的图像聚类质量，而不是直接优化图像距离[18]。捕获数据集的内在和上下文信息的类级树用于自适应地估计三元组损失中的裕度[5]。这些损失函数通常用深度特征的点积或λ2距离来表示在这项工作中，我们使用N对损失进行训练，并通过在深度特征之间的流形相似性方面指定损失来推进相关工作，因为这更适合于高度非欧几里德深度特征空间。7301nn|x（e）|nQn处理大量的图像三元组：选择最佳图像三元组用于更高效和有效的距离度量学习可以被完成，例如，通过在训练三元组的大空间中进行智能挖掘[7]，或者通过对从观察到的阴性样本生成的合成硬阴性进行对抗性度量学习[3]。架构，但独立地学习图像的训练集的给定随机分区。像我们这样的随机化合奏已经被证明可以提高合奏中单个成员的表现[23]。在测试中，我们首先将每个测试图像In传递到E，在这个群体中与我们最接近的方法是在深度表示x= [x（1），· · ·，x（E）]。nn n使用代理来替代原始数据点（因此减少图像三元组的大采样空间），使得代理上的损失是图像上的原始损失的紧上限[12]。然而，他们使用的代理数量与图像类的数量相同或两倍，而我们使用的代理数量要少得多，以避免过度拟合。此外，它们的随机采样代理是固定的，而学习强制执行深度特征的分布，以选择代理作为它们的聚类中心。相比之下，我们优化代理成为难以学习的硬例子也就是说，我们强制代理远离各自子空间的中心，并最大化N对损失，以避免过拟合。多种远程学习：一些方法寻求估计用于距离度量学习的图像数据集的流形结构。为此，他们使用PageRank算法[24]，或区域man- ifold上的扩散过程[1，9]。这些方法中的一些还考虑通过图像三元组的无监督流形引导选择来选择最佳训练样本[8]。然而，所有这些方法都通过固定深度特征来在后处理步骤中估计流形距离。相比之下，我们将流形距离的估计集成到深度特征的端到端训练中。集成学习：包围学习的目的是减少学习者家庭之间的差异，这通常会导致性能提高。在深度度量学习中，集合中的每个成员投票决定两点之间的距离，最终的距离通过整合所有投票来估计。例如，深度网络的最后一个嵌入层可以划分为一个嵌入集合，并使用在线梯度提升进行训练[13]。此外，不同的学习者可以使用一系列注意力掩码来定义，从而产生基于注意力的集合[10]。与[23]类似，我们使用随机集合，其中每个学习器由深度特征空间的特定随机分区定义。3. 我们的方法我们的方法学习一个合奏的CNN，E={CNN（e）：e= 1，. . .，E}，其中每个CNN（e）将输入图像I嵌入到归一化深度fea。这些深度特征用于图像相似度的估计，最后用于图像检索或聚类问题的我们将查询图像Iq和另一个测试图像In之间的相似度指定为ΣEs（xq，xn）= α（e）s（x（e），x（e）），（1）e=1其中{α（ e ）}是系综中CNN 的相对重要性权重，s（xq，xn）定义为输入特征点积s （ xq ，xn ） =xq·xn 。（二）注意，当α（e）= 1时，对于e= 1，. . .，E，我们的集成相当于将集成中CNN的所有输出连接起来，以计算（1）中的图像相似性，s（xq，xn）=xq·xn。虽然{α（e）}可以在验证集使用各种增强算法，在我们的实验中，我们没有观察到我们的性能与相对权重都设置为1时的情况有显著差异因此，本文中我们使用α（e）= 1，对于e = 1，. . . 、E.在训练中，我们在给定的图像训练集及其类标签D={（In，yn）}上独立地学习集合中的每个CNN。在CNN计算训练图像的深度特征之后，我们估计它们的mani。折叠相似性关系。任何违反所需流形相似性关系的行为都会导致损失，然后将其反向传播以训练CNN。遵循最近的方法[17，19，22]，在本文中，我们使用平滑的可微分N对损失，其有效地利用了小批量中的所有训练图像，而不是考虑单个图像三元组。具体来说，在[17，19，22]中，每个训练小批量由N个样本组成，其中一个图像x称为锚，另一个正图像x+来自同一个类作为锚点，其余N-2个负图像{x-}属于与锚点不同的类。这些方法定义了N对损耗，以便减少锚点x和底片之间的相似性{x-}，并同时增加锚点x和正图像x+之间的相似性：（e）实际x（e）=如图所示， 1（右）。因此，在本发明中，LN对（x，x+，{x−}）=log.NΣ−21个以上−es（x，xn）−s（x，xΣ）+m，在这项工作中，所有的图像嵌入都被归一化为单位球面E中的CNN具有相同的深度n=1（三）+7302.k=1nn|波多克|nK.其中m≥0是常数，并且s（·）是相似性函数，例如，由（2）给出。我们对先前工作的扩展是双重的。我们的N对损失使用流形相似性而不是它们的相似性，以及一组优化的代理来代替实际的训练图像。在我们以秒为单位指定N对损耗6，我们首先描述了如何估计代理在秒。4，以及如何计算一个训练小批量的流形相似性。五、训练图像之间的期望相似性关系。这是因为，我们的LP表示LN-对的上界，因此最小化LP有效地减少了LN-对。这可以通过遵循与[12]中所述非常相似的推导步骤来直接显示由（3）∆L=|LN-pair−LP|对于图像三元组（x，x+，x-），可以被限定为：4. 硬代理..=. 日志−1 +es（x，x.）− s（x，x+）+m ..、我们力求解决以下两个挑战，L.1+ es（x，pj）−s（x，pk）+m.CNN训练：（1）如何准确地估计图像之间的相似性，以在高度非欧几里德深度特征空间中计算由（3）给出的N对损失;以及（2）如何从图像三元组的大采样空间中有效地选择用于（3）的最优训练图像。4.1. 代理N对丢失为了解决第一个挑战，我们遵循[23]并将训练数据集D随机划分为K个不相交的子空间。≈|[s（x，x−）− s（x，x+）] − [s（x，p j）− s（x，p k）]|、=|[d（x，x+）−d（x，x−）]−[d（x，pk）−d（x，pj）]|、≤2μ g，（五）其中我们定义特征距离d（x，x′）= 1−s（x，x′），因为我们所有的特征都被归一化到单位球面上，并且n= maxxd（x，p（x）），p（x）是x的代理。由此可见，N对损失的期望可以有界于训练图像作为集合，D=KDk，其中K显著小于图像类的数量（例如，10%）。我们希望在每个分区Dk的特征将表现出更接近E[L N对] ≤E[LP]+P r[|d（x，pk）−d（x，pj）|≤2μ m]。（六）比D的整个深空间还要大。Dk中的Im- ages可能来自一个或多个类，我们说Dk定义了一个元类。在这种划分下，我们推广了正像和负像的概念，一个锚，在SEC中提到3 .第三章。具体地，对于来自Dk的锚图像x，正图像x+属于相同子集Dk，并且负图像x-属于其他子集Dj，j/=k。对于第二个挑战，我们使用与[12]中介绍的类似策略。在每个子集Dk中，我们随机选择一个图像来表示这个元类，并使用其归一化的深度特征p k=pk作为所有其他图像的代理。当估计N对损失时，Dk中的年龄以这种方式，我们形成代理的初始集合P={p，k：k= 1，. . .，K}。在获得P之后，我们以与（3）中的表达式类似的方式估计代理N对损失LP（x，x+，{x-}）。对于D k中的锚图像x，我们将其正x+替换为p k，将负{x-}替换为它们各自的代理{p j}，j/= k，导致代理N对损失：由于我们的深层特征和代理被规范化为单位球面，（6）中的上界是紧的。4.2. 硬代理的估计在这项工作中，选择作为代理的初始图像集在整个训练期间都是固定的。但是，在每个训练阶段，我们首先重新计算它们的深层特征，P，然后估计代理的最佳集合P，用于计算所有训练最小值上的最佳代理损失LP在下一个时代的批次。这是我们与先前工作的主要区别[12]，因为它们的代理P在学习中保持不变，并且它们的CNN经过训练以产生深度特征，这些特征在距离度量方面很好地聚集在代理周围。然而，在我们的实验中，我们观察到这会导致过拟合-这是因为，在某种程度上，使用距离度量在非欧几里德深空间中进行聚类给出了次优结果。过拟合的另一个原因来自于选择代理的随机结果，这可能使代理损失LPa.LP（x，x+，{x−}）=log 1+ΣKj=1，j/=kΣes（x，pj）−s（x，pk）+m.N-对损失LN-对的较宽松的上界。因此，最小化这样的LP可能对在训练图像之间实施期望的相似性关系几乎没有影响。(4)为了解决过拟合问题，我们的关键思想是估计最优从（4）中，我们有效地缓解了最优选择的问题代理，P={p：k= 1，. . .，K}，以便最大限度7303n地选择正面和负面图像进行训练减少（6）中的差异，|d（x，p）− d（x，p）|，j，k，王空军小批量，因为损失仅取决于锚im-年龄和明显少于原始图像类的数量的代理，LP（x，x+，{x-}）= LP（x）。重要的是，（4）中的代理损失LP保持了特征。在（3）中的N对损失LN对的特性和强制从而使LP_n成为LN-对的一个紧上界比最初的LP。实现这一点的一种方法是使所有代理都类似地远离深海中的所有数据点特征空间，从而得到理想的|d（x，pk）−d（x，pj）|对于所有的x和p ki= p j，7304KKKKKKKK图3.流形相似性向量Fn、fn和fp的图示，其中我们使用fn和fp来估计流形图2.代理优化：白线标记Meta类，黑点表示图像xn，黄点标记初始随机采样代理pk，而白点表示估计。配对的硬代理服务器我们的优化K K代理丢失。使用它们来计算流形代理损失。进口-K K图像xn，它表示对其他元类，而regu，证明了p≠ p仍然接近p。因此，我们的关键新颖性在于估计{f（xn，p∈）}的ev-kk kery mini-batch of our end-to-end training，而不是com-在训练前或训练后对所有数据进行多方面的相似性，这在以前的工作中很常见[1，8，9]。如示于图2、这个目标是可以实现的通过最大化p和Dk中的图像之间的距离，对于每个元类Dk。反过来，这将使每个p∈ k，k= 1，. . .，N，更接近其他元类。避免一个平凡的解决方案，其中所有代理都是平等的，我们正则化这个目标，使最佳p不是太远，我们在最近邻图上使用随机游走算法[ 24 ]计算训练小批量B中图像的流形相似性。每个B由N个训练图像和K个硬代理构建∗ ∗ ∗K初始峰这为每个元类Dk提供了以下优化：B={x1，. . . ，xn，.. . ，xN，p1，. . . ，pk，. . . ，pK}。（八）对于B，我们首先计算（N+K）×（N+K）对称-.Σp= arg min log 1 +es（p，xn）−s（p，pk）Σ、（7）ricallynormalizedadjacenc ymatrix，S<$=D−1/2SD−1/2，kp∈Rlxn∈Dk\{pk}其中S的元素是点积s（xn，xn′）=xn·xn′或s（xn，p≠ 0）=xn·p≠ 0，D是对角度ma-K K其中L是深度特征的长度，指数中的第一项将我们用梯度下降法有效地求解（7），初始值设置为D中随机选择的图像的pk。其中元素D（n，n）等于第n行的和inS.由于每个xn或p与自身的相似性是无关的（也是为了避免随机游走中的循环），我们将S的所有对角元素设置为0。然后，对于每个图像xn∈B，我们估计其与图像的多方面相似性的向量，B，Fn=[fn1，. . . ，fnN，fnp1，. . . ，fnpK]，使用闭-K使每一个人都变得更接近其他元类Dj，j/=k，是所有p∈P∈-形式随机游动的收敛解[24]为¯−1K彼此靠近这使得最小化的Fn=（1−α）（I−αS）en（9）由（4）给出的最优代理损失LPk是困难的，因为CNN必须产生更准确的深度特征以用于考虑期望的相似性关系，即来自Dk的x应该比其他代理p j更类似于p k，j=k。因此，我们称P为硬代理的集合。5. 流形相似性估计根据经验，我们发现，估计相似性-图像和（4）中的代理之间的关系，exp（s（x，p）-其中，α∈（0，1）是从第n个查询点重新开始随机游走的概率，en是在第n个位置处具有1的查询独热向量，并且I是（N+K）×（N+K）单位矩阵。由于小批量（N+K）的大小相对较小，旨在适应可用的RAM内存，因此计算可以有效地完成（9）中的逆矩阵正如下一节所解释的，流形代理损失是根据f n和fp来定义的，它们是它们各自的向量F n和F p的一部分。fn和fp仅由xn和pn与代理的多方面相似性，s（x，pk）+m），j/=k，经常给出不准确的结果，因为元类{Dk}在深度上是高度非凸集特征空间因此，与其使用点积为了估计s（x，p），我们的下一个贡献是估计K实际上，如图所示。第三章：fn=[fnp n]，. . . ，fnp，. . . ，fnpn]，7305nk1kK测地线相似性，{fk= f（x，p∈ k）：k =1，. . . ，K}，fp=[fpp，. . . ，fpp，. . . ，fpp]。（十）NPKNKkk1k k k k K在流形上，我们称之为流形相似，7306K·1KKKk kkN6. 两个流形上的代理损失函数我们扩展了由（4）给出的最佳代理损失LP，以考虑图像与小批量N个训练图像中的硬代理之间的多方面相似性。在本文中，我们考虑两个扩展：（ 1 ）Intrinsic Lint，(2)上下文Lcxt损失函数。内在流形代理损失计算为选项卡. 1将我们的训练复杂度与最先进的训练复杂度进行了比较。可以看出，我们的训练复杂度与[23]相同，仅对于额外的集成学习，我们的训练复杂度高于[ 12 ]。L（{ x }）=1ΣN.ΣK日志 1个以上efnp−fnp+mΣ、（11）intnNn=1JKj=1，jk表1.训练的复杂性与我们的方法最相关其中，如果xn ∈ Dk，则p是图像xn的硬代理，并且f np是由（10）给出的流形相似向量fn的元素。具有与LN- 对和LP- 对类似的公式，（11 ）中的固有损失Lint（{xn}N）继承了N-对损失和代理损失在解决图像三元组的大采样空间方面的优点，如在第2节中讨论的。3 .第三章。上下文流形损失引入了相对于Lint的附加约束，以更强地执行所需的相似性关系。我们还限制了每个图像xn∈ Dk也就是说，如果P很好地表示了整个数据集D，则每个xn∈ Dk与D中的其他图像之间的期望相似关系应该接近于P与P之间的相似关系。8.实现细节对于实现，我们使用Pytorch [14]。在预处理中，图像被归一化并重新调整大小为256×256像素。我们使用标准的数据增强技术，包括随机图像裁剪和旋转。最小批量大小设置为N= 128。我们的CNN集合的大小是E= 25。随机游走参数α= 0。8，余量m= 5×10−4。对于硬代理优化-此时，学习率设置为10−3。被发现的对于所有数据集，代理的最佳数量（每个元类一个）是 K= 50 。为了与之前的工作进行比较，我们在ImageNet上实现了ResNet18和GoogLeNet预训练[15]。修改最后一个全连接层1ΣN.ΣKs（f，f）−s（f，f）+m以设置深特征的尺寸L= 128。我们使用了一个Lcxt（{xn}）=Nn=1日志1+ej=1，j/=knpj氮磷钾、（十二）Adam优化器参数化，权重衰减因子为10−5。学习率初始化为10−4，并以0为因子递减。每三个时期1次，总计其中p是图像xn的硬代理，如果xn∈Dk，fn，f p由（10）给出，且s（fn，f p）= fn·f p。7. 复杂性分析我们得到一个训练数据集D，大小为|D|=M和M 3个图像三元组，用于计算三元组损失。我们使用E随机分区D到KMeta类集成学习。E个不同的CNN是并行训练的，所以我们的运行时间实际上并没有增加E倍。我们的单个CNN的每一个时期的训练复杂度如示于图1，我们有三个主要的计算步骤。首先，我们通过最小化方程来优化M个数据上的K7，其总时间复杂度为O（MK）。其次，在M个批次的每次迭代中，其中N是最小批次大小，我们计算（N+K）x（N+K）流形相似性矩阵的逆，其等于时间复杂度为O（M（N+K）3）=O（MK2），因为我们设置K<$N每次训练10次。总体而言，在Tesla K80 GPU上训练一个 CNN大约需要19. 结果数据集：使用以下三个基准数据集对图像检索和聚类问题进行评估。CUB200-2011 [20]有11，788张照片，显示了200种鸟类。数据被分成前100个类别的5，864个图像用于训练，其余类别的5，924个图像用于测试。Cars196[11]有196个汽车类别的16，185张图像。数据被分成前96个类别的8，054个训练图像和其余汽车类别的8，131个测试图像。斯坦福在线产品[19]有120，053张图片，22，634个类。数据被分成前11，318类的59，551张训练图像和来自数据集的其余类的60，502张测试图像前面提到的训练-测试分割是标准的N2(not敏感，见SEC。（八）。第三，我们计算N对损失超过M个训练数据和K个代理，这相当于O（MK2）。最后，我们的总复杂度是O（MK）+O（MK2）+O（MK2）=O（MK2）。方法训练复杂性N-Pair [17]O（M3）[第12话]O（ MK2）DREML [23]O（ EMK2）我们的方法O（ EMK2）7307并被我们之前的所有研究所使用。评估指标：在图像检索中，给定一个查询测试图像，我们从测试集中找到它的K个最近邻。我们计算检索图像的百分比R@K7308ˆ与查询具有相同类的。图像聚类使用K均值算法执行，其中K是图像类的数量，并使用归一化互信息（NMI）进行评估。对于所获得的一组线索，ters，n={ω1，.， ωK}，以及按其类别聚类的地面实况图像，Ω k ={ω1，.，ω K}，NMI定义为NMI（λ，λ）=2I（λ，λ），其中I（·）表示相互H（）+H（）信息，并且H（·）是entropy。消融术研究：我们使用我们方法的以下变体测试我们方法的各个组件的性能效果，特别是我们声称的贡献：• EDMS（RW，P*）是我们使用随机游走（RW）和硬代理来估计 Lcxt 的完整方法 Encourage DeepManifold Similarity学习。为测试中，我们使用点积相似性，其中我们的CNN的集合如（1）中所述进行融合（参见第二节）。3和图①的人。• EDMS（RW，P）不优化代理，而是使用初始P计算Lcxt，从而测试使用P_cxt与P对性能的影响。• EDMS（RW-int，P*）用L int替换Lcxt，从而评估上下文与固有流形损失• EDMS（P*）用由（4）给出的LP*替换Lcxt，从而测试随机游走对性能的影响• EDMS（w/o）用由（3）给出的LN-对代替Lcxt。我们仍然对训练集进行随机划分，并计算关于元类的LN对• EDMS（RW）类似于EDMS（w/o），但计算关于元类具有流形相似性f（xn，xn′）的LN-对基线：我们使用与他们相同的测试设置与以下最先进的方法进行Proxy-NCA[12]使用代理来估计NCA损失[6]。举结构[19]，N对[17]和角度[22]使用N对损失。[13]，ABE[10]和DREML[23]使用集成学习。为了与DREML[23]进行比较，我们使用他们在arXive上发布的最新结果并在Github页面上链接方法NMIR@1R@2R@4R@8EDMS（w/o）66.458.771.481.289.4EDMS（RW）63.456.169.279.587.6EDMS（RW，P）66.860.371.581.389.1EDMS（RW-int，P*）66.961.172.281.789.3EDMS（P*）67.263.774.282.989.7EDMS（RW，P*）68.966.176.785.591.4表2.我们对CUB数据集的消融研究：使用ResNet18的不同变体的图像聚类和检索结果。9.1. 定量结果图4显示了我们的EDMS（RW，P*）的性能如何随CUB-200-2011上的集成大小、代理数量和深度特征尺寸而我们在图上观察。图4（左）表明，在一定的系综大小之后，准确度饱和，并且作为复杂度和准确度之间的良好权衡，我们将系综中CNN的数量设置为E=25。从图4（右）中，我们得到了K= 50代理和深度特征维度l= 128的最佳结果。我们将这些参数用于所有三个数据集上的方法的所有变体。选项卡. 2介绍了我们在CUB-200-2011上使用我们方法的六种变体进行的消融研究。对于EDMS（RW），当不使用代理时，我们的召回率相对于EDMS（w/o）有所下降。这表明，我们在相对较小的小批量上对多重相似性的估计可能无法在没有代理的帮助下可靠地捕获图像之间的真实测地线距离。这在EDMS（RW，P）中进一步可见，其中通过向EDMS（RW）添加代理，我们获得了优于EDMS（w/o）和EDMS（RW）的性能改进EDMS（P*）的良好性能表明，我们对训练集的随机划分和代理的使用有助于可靠地估计图像相似性，即使没有随机游走。在EDMS中使用上下文损失（RW，P*）比在EDMS中使用内在损失（RW-int，P*）给出更好的回忆最后，我们在EDMS（RW，P*）中对硬代理的优化相对于EDMS（RW，P）提高了性能。表3和表4将我们的最佳EDMS（RW，P*）与基线进行了比较。当使用ResNet18作为CNN时，我们的性能优于最先进的集成学习方法 BIER ， ABE 和DREML。我们观察到GoogLeNet在我们的方法中给出的结果低于ResNet18。从图4中，我们可以使用小的E5，并且仍然显著优于[12]（见表13）。（3）第三章。我们在非集成学习方法上的性能增益证明了融合ECNN的运行时间略有增加。图4.CUB-200- 2011上EDMS（RW，P*）的集合大小、近端数量和深度特征尺寸的最佳选择（关于召回）（左）我们的回忆是集合规模的函数。（右）Recall@1作为代理数量和深度特征大小的函数。7309数据集Cub-200-2011中国人196方法网络NMIR@1R@2R@4R@8NMIR@1R@2R@4R@8取消[19]GoogLeNet55.3847.258.970.280.255.148.361.171.881.1[第12话]初始BN59.549.261.967.972.464.973.282.486.488.7N-pair [17]GoogLeNet60.451.063.374.383.264.071.179.786.591.6[22]第二十二话GoogLeNet61.154.766.376.083.963.271.481.487.592.1比尔[13]GoogLeNet-55.368.476.985.1-78.085.891.195.1ABE [10]GoogLeNet-60.671.579.887.7-85.290.594.096.1DREML [23]ResNet1867.863.975.083.189.776.486.091.795.097.2EDMS（RW，P*）GoogLeNet64.561.672.181.888.975.185.690.894.896.1EDMS（RW，P*）ResNet1868.966.176.785.591.476.787.692.195.297.3表3.CUB-200-2011和Cars 196数据集上的图像聚类和检索结果方法NMIR@1R@10R@100R@1000取消[19]87.463.080.591.797.5N-pair [17]87.967.783.893.097.8[22]第二十二话88.670.985.093.598.0比尔[13]-74.286.994.097.8ABE [10]-76.388.494.898.2我们的+G89.077.289.194.998.1我们的+R90.178.590.795.298.5表4.斯坦福在线产品上的图像聚类和检索结果。所有的竞争方法都使用GoogLeNet。Ours+G = EDMS（RW，P*）与GoogLeNet，Ours+R = EDMS（RW，P*）与ResNet18。图5.我们在CUB-200-2011（左）和Car 196数据集（右）上的样本检索结果。对于每个查询，我们显示4个顶部检索图像，其中顶行显示EDMS（P*）的结果，底行显示EDMS（RW，P*）的结果。使用流形相似性给出了更直观准确的结果。我们检索中的错误用黑框突出显示。9.2. 定性结果图5显示了EDMS（P*）和EDMS（RW，P*）在CUB-200- 2011和Car 196上的一些样本检索结果可以看出，在EDMS（RW，P*）中使用多方面的相似性不仅在从与查询相同的类正确检索的图像方面给出了更视觉上准确的结果而且关于3D姿态和背景。也有一些失败的情况，这似乎是由于混淆的前景和背景的图像。这可以在将来通过结合最近的视觉注意技术来解决。10. 结论我们提出了一种新的方法来集成学习深度图像表示，应该尊重它们在图像类内和跨图像类的期望相似性关系。为了解决深层特征空间的非欧几里德属性，我们在训练中做了两个关键的贡献。首先，我们指定了两个新的损失函数，称为上下文和内在流形损失，根据流形上图像的测地线相似性，使用随机游走的封闭形式解决方案有效地估计每个训练小批量。为了计算我们的流形损失，训练图像被划分为子集，并且它们的流形相似性通过随机选择的子集的代表（称为代理）来估计我们的第二个贡献涉及到优化代理，使拟议的歧管损失强制执行更强的约束学习所需的相似性关系。我们使用CUB-200-2011、Cars 196和StanfordOnline Prod-ucts数据集对图像检索和聚类进行了消融研究，并与现有技术进行了比较。我们的研究结果表明，在一个相对较小的小批量上估计人的相似性可能无法可靠地捕获真正的测地线距离之间的图像没有代理的帮助。此外，我们对训练集的随机划分和代理的使用有助于可靠地估计图像相似性，即使没有随机游走，也能获得竞争性的性能我们的完整方法在所有三个数据集上的图像检索和聚类方面都优于现有技术。确认这项工作得到了DARPA XAI Award N66001-17-2-4029的部分支持7310引用[1] S.白氏Z.作者简介：王建，张世文.巴伊湖，加-地J.Latecki和Q. 田用于检索的集合扩散。在ICCV，第774-783页，2017年。一、三、五[2] S.乔普拉河Hadsell和Y.乐存。区别性地学习相似性度量，并应用于人脸验证。计算机视觉与模式识别，2005年。CVPR 2005。IEEE计算机协会会议，第1卷，第539-546页。IEEE，2005年。1[3] Y. Duan，W. Zheng，X. Lin，J. Lu，and J.舟深度对抗度量学习。在IEEE计算机视觉和模式识别会议论文集，第2780-2789页3[4] J. Fu，H.Zheng和T.美. 近距离看更好：用于细粒度图像识别的递归注意力卷积神经网络。在CVPR，第2卷，第3页，2017年。1[5] W. Ge，W. Huang，黄氏拟谷盗D. Dong和M. R. Scott.深度矩阵学习与分层三重丢失。在欧洲计算机视觉会议（ECCV）的会议记录中，第269-285页，2018年。2[6] J. Goldberger，S. Roweis、G. Hinton和R. 萨拉赫季诺夫邻域成分分析 NIPS，2004年。7[7] B.哈伍德，V.K. BG、G.卡内罗岛Reid和T.德拉蒙德。深度度量学习的智能挖掘。《太空》卷九（13）：22。第1、3条[8] A. Iscen，G. Tolias，Y. Avritis和O.好朋友在流形上采矿：没有标签的度量学习。 arXiv 预印本 arXiv ：1803.11095，2018。一、三、五[9] A. Iscen，G. Tolias，Y. S. Avrithis，T. Furon和O.好朋友区域流形上的有效扩散：用压缩cnn表示法恢复小目标。在CVPR第1卷第4页，2017年。一、三、五[10] W.金湾，澳-地Goyal，K. Chawla，J. Lee，and K.权深度度量学习的基于注意力的集成。arXiv预印本arXiv：1804.00382，2018。一、二、三、七、八[11] J. Krause，M. Stark、J.Deng和L.飞飞用于细粒度分类的3D对象表示。第四届国际IEEE 3D表示和识别研讨会（3dRR-13），澳大利亚悉尼，2013年。一、二、六[12]Y. Movshovitz-Attias，A.Toshev，T.K. Leung，S.Ioffe，以及S. 辛格. 没有大惊小怪的距离度量学习使用代理。arXiv预印本arXiv：1703.07464，2017。一二三四六七八[13] M.奥皮茨湾Waltner，H. Possegger和H.比肖夫BIER-稳健地提升独立嵌入。 2017 年国际计算机视觉会议（ICCV）。一、二、三、七、八[14] A. Paszke，S.格罗斯，S。钦塔拉湾Chanan、E.杨，Z.De Vito，Z. Lin，L.德迈松湖Antiga和A. Lerer pytorch中的自动微分。2017. 6[15] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。Bernstein 等人图像网大规模视觉识别挑战。International Journal of Computer Vision，115（3）：211-252，2015. 6[16] O. Se

下载后可阅读完整内容，剩余1页未读，立即下载