没有合适的资源?快使用搜索试试~ 我知道了~
1HORDE度量学习:深度嵌入的高阶正则化器Pierre Jacob1,David Picard1,2,Aymeric Histace1,Edouard Klein31ETIS UMR 8051,Universite´ Paris Seine,UCP,ENSEA,CNRS,F-95000,Cergy,France2LIGM,UMR 8049,E´cole des Ponts,UPE,Champs-sur-Marne,France3C3N,Po le Judiciaire de la Gendarmerie Nationale,5 boulev ard de{pierre.jacob,picard,aymeric.histace} @ ensea.fr摘要学习图像表示之间的有效相似性度量是视觉搜索任务(例如,验证或零发射学习)。虽然度量学习部分得到了很好的解决,但该度量通常是在前深度特征的平均值上计算的。然后将该表示训练为具有区分性。然而,这些深层特征往往分散在特征空间中。因此,表示对于异常值、对象遮挡、背景变化等不稳健。在本文中,我们用一个名为HORDE 1的分布感知正则化来解决这个散射问题。该正则化器强制视觉上接近的图像具有在特征空间中很好地局部化的具有相同分布的深度特征。我们提供了一个理论分析支持这种正则化效果。我们还通过在4个知名数据集(Cub- 200-2011,Cars-196 , StanfordOnlineProducts 和 Inshop ClothesRetrieval)上获得最先进的结果来展示我们方法的有效性。1. 介绍深度度量学习(DML)是计算机视觉社区中一个重要但具有挑战性的主题,具有许多应用,如视觉产品搜索[15,18],多模态检索[1,31],人脸验证和聚类[22],人员或车辆识别[14,38]。为了处理这样的应用,DML方法旨在学习嵌入空间,在该嵌入空间中,所有视觉相关的图像(例如:相同汽车模型的图像)彼此接近并且不相似的图像(例如,,同一品牌但不同型号的两辆车的图像)相距甚远。DML的最新贡献可以分为三类。第一类包括关注1 代 码 可 在 https://github.com/pierre-jacob/ICCV2019-Horde以最大化可用于计算相似性的对或三元组的数量(例如,,N对损失[23])。第二类涉及损失函数的设计,以提高泛化能力(例如,,二项式偏差[26])。第三类涵盖了解决嵌入空间多样性的集成方法(例如,,BIER [19])。该 相 似 性 度 量 与 使 用 深 度 神 经 网 络 架 构 ( 如GoogleNet [25]或BN-Inception [8])计算的图像表示联合训练。对于所有这些网络,图像表示都是通过使用全局平均池[37]聚合深度特征来获得的。因此,使用样本均值来总结深度特征,并且训练过程确保样本均值对于目标任务具有足够的区分力。我们的见解是,忽视深层特征分布的特点会导致深层特征缺乏独特性。我们在图1中说明了这一现象。在图1a中,我们在MNIST上训练了一个DML模型,并从训练集采样的一组图像中绘制了深度特征和图像表示。我们观察到,表示是完美的组织,而深层功能是在整个空间中分散。由于表示仅使用样本平均值获得,因此它们对离群值或采样问题(遮挡、照明、背景变化等)敏感。我们称之为散射问题。我们在图1b中说明了这个问题,其中使用相同的架构计算表示,但仅对原始深度特征的1/正如我们所看到的,所产生的表示不再被正确地组织。在本文中,我们提出了HORDE,高阶正则化深嵌入解决这个散射问题。通过最小化(最大化)深度特征分布的高阶矩之间的距离,该DML正则化器从相似的(或相似的)深度特征分布强制执行深度特征分布。不同的)图像几乎相同(分别地,不重叠)。如图1c所示,我们的HORDE正则化器产生了良好的局部化特征,65396540(a) 使用所有深度特征的表示(b)使用1/6深度特征的表示(c)使用1/6深度特征的接受过部落图1:使用从MNIST数据集上的DML架构计算的t-SNE的表示(星)和深度特征(点)的2D可视化,每个类一种颜色。表示和特征来自训练集。图1a显示了区分性表示,但具有分散的深度特征(注意轴的比例)。图1b显示了使用1/ 6深度特征计算的表示,导致空间混乱。图1c显示了使用HORDE训练的相同模型:深度特征非常集中,使用1/ 6深度特征计算的表示根据类别进行组织(在计算机屏幕上最佳)。从而导致鲁棒的图像表示,即使它们仅使用原始深度特征的1/我们的贡献如下:首先,我们提出了一个高阶正则化深嵌入(HORDE),减少了散射问题,并允许样本均值是一个强大的表示。我们提供了一个理论分析,其中我们支持这一主张,显示,HORDE是一个下界的Wasserstein距离之间的深特征分布,同时也是一个上限的最大平均差异。其次,我们表明,HORDE始终改善DML与不同的损失函数,即使考虑ensem- ble方法。使用HORDE,我们能够在四个标准DML数据集(Cub-200- 2011 [27] , Cars-196 [12] , In-Shop ClothesRetrieval [15]和Stanford Online Products [18])上获得最先进的结果。本文件的其余部分安排如下:在第2节中,我们回顾了最近关于深度度量学习的工作,以及我们的方法有何不同。在第3节中,在概述了我们提出的方法之后,我们提出了HORDE的实际实现以及理论分析。在第4中,我们比较了我们提出的架构与国家的最先进的四个图像检索数据集。我们展示了HORDE正则化对不同损失函数和集成方法的好处在第5节中,我们进行了大量的实验来证明我们的正则化的鲁棒性及其统计一致性。2. 相关工作在DML中,我们共同学习图像表示和嵌入,以使欧氏距离与图像的语义内容相对应。电流方法使用预先训练的CNN来产生深度特征,然后使用全局平均池化来聚合这些特征[37]。最后,他们用线性投影学习目标表示。 整个网络根据三个标准进行微调以解决度量学习任务:损失函数、采样策略和集成方法。关于损失函数,流行的方法考虑相似/不相似样本的成对[3]或三元组[22最近的工作将这些损失函数推广到更大的元组[2,18,23,26]或改进设计[28,29,34]。训练元组的采样受到大量关注[18,22,23],无论是通过挖掘[7,22],基于代理的近似[16,17]还是硬否定生成[4,13]。最后,集成方法最近已经成为一种越来越流行的提高DML架构性能的方法[11,19,33,35]。我们提出的HORDE正则化器是一种补充方法。我们在第4节中表明,它始终改善这些流行的DML模型。最近的方法还考虑了DML的分布分析[21,13]。与我们相反,他们只考虑表示的分布来设计损失函数或硬负生成器,但他们没有考虑底层深层特征的分布因此,它们没有解决散射问题。更确切地说,Magnetloss [21]提出通过学习K模式分布而不是标准的单模假设来更好地表示给定的类流形。为此,每类分布近似使用K-均值聚类。建议的损失试图最小化表示与其最近的类模式之间的距离,并试图最大化所有其他模式之间的距离。6541××联系我们中国W××W ⟨ ⟩ ⟨⟩`x` xEMBEMBWHEMBCEMB总和Hadamard积1x1卷积嵌入全局平均池化图2:HORDE架构的全球概览。深度卷积神经网络提取hw c深度特征。标准架构(顶部蓝色块)在计算LDML损失之前依赖于全局平均池化和嵌入。底部的红色块是我们的HORDE正则化器,由所有高阶矩φk的近似,全局平均池化和嵌入组成,然后计算每个Lk损失的总和。班然而,由于磁体损耗被直接施加到深特征的样本装置,因此其导致图1中所示的散射问题。在DVML [13]中,作者假设表示遵循每类高斯分布。他们建议使用变分自动编码器方法来估计这些分布的参数。然后,通过使用学习的参数从高斯分布中采样,它们能够生成人工硬样本来训练网络。然而,没有对深特征的分布进行假设,这导致了图1中所示的散射问题(另见[13],图1)。相比之下,我们表明,专注于深层特征的分布减少了散射问题,提高了DML架构的性能在下一节中,我们首先概述了所提出的HORDE正则化。然后,我们描述了高阶矩计算的实际实现。最后,我们给出了支持HORDE正则化效应的理论见解。3. 提出的高阶正则器通过计算高阶矩(图2中右下角的红框)计算深度特征分布距离。我们递归地近似高阶矩,并在每个近似之后计算嵌入。然后,我们对这些嵌入中的每一个应用DML损失函数。3.1. 高阶计算在实际应用中,高阶矩由于维数较高,计算量非常大。此外,在[9,19]中已经表明,在所有高阶矩分量上的独立性是不现实的。因此,我们依靠因式分解方案来近似其计算,例如随机麦克劳林(RM)[10]。RM算法依赖于一组随机投影器来近似两个高阶矩之间的内积在二阶情形下,我们对两个独立的随机向量w1,w2进行哪里是1, +1的均匀分布。对于两个非随机向量x和y,它们的二阶矩之间的内积可以近似为:Ew,w <$W[φ2(x)φ2(y)]=<$x;y<$212我们首先在图2中给出所提出的方法的概述。我们首先提取一个深度特征图,=xx;yy(1)HWc使用CNN,其中h和w是高度 和特征图的宽度,c是深特征尺寸。按照标准DML实践,使用全局平均池来聚合这些特征以构建图像表示,并将其投影到嵌入中其中是克罗内克积,Ew1,w2W是经验。在随机向量w1和w2上的位置,分布和φ2(x)=w1;xw2;x. 这种方法很容易估计K阶矩之间的任何内积:在这些表示上计算基于相似性的损失函数之前的空间(图2中右上方的蓝框)。Ewk W [φK(x)φK(y)] =x;yK在HORDE中,我们通过最小化(分别最大化)相似图像(分别不同图像)的深度特征分布之间的距离来直接优化深度特征的分布。我们近似=x···x;y···yK次K次(二).Σ6542联系我们⊙O我我{∈}∈K1我其中φK(x)计算为:YKφK(x)=k=1wk;x算法1高阶矩计算要求:W1,. . . ,WK从1采样;+1确保:K个一阶矩近似值1:p rocedu reAPPRO. XMO MMMMT. S(x)Σ在实践中,我们通过使用这些随机变量的d个2:φ2(x)←√13:k←3W1x⊙W2-X投影仪 也就是说,我们对独立随机矩阵W,W,.,W∈Rc×d,我们计算向量4:当k≤ K时。Σ5:φk(x)=φk−1(x)<$Wk<$x12KD6:k←k+1φK(x)∈ R近似x的K阶矩7:结束while使用以下等式:φK(x)=.ΣW1x⊙.ΣW2-X⊙···⊙.ΣWKx(四)8:返回φ2(x),. . . ,φK(x)9:结束程序其中是Hadamard(元素方面)产品。因此,K阶矩之间的内积为:其中{xi∈I}和{xj∈J}是深度特征的集合X;Y1d从图像I和J中提取。因此,DML模型是在标准DML损失和HORDE正则化器的组合上训练的。然而,随机麦克劳林产生一致的估计,独立于所分析的分布来编码高阶矩分量,并且因此也对非信息性的高阶矩分量进行编码。为了忽略这些非信息分量,可以从数据中学习投影仪Wk中的大量参数(K2cd)使得学习一致估计量变得困难,正如我们在5.2小节中经验性地展示的那样。我们通过使用以下递推式计算高阶矩近似来解决这个问题:图像I和J:L(I,J)=LDML(I,J)+LHORDE(I,J)(9)这可以很容易地扩展到任何基于元组的损失函数。在实践中,我们对HORDE使用相同的DML损失函数(k,Lk=LDML)。还请注意,在推理时,图像表示φ1()仅由深度特征的样本均值组成:φk(x)=φk−1(x)<$.ΣWkx(六)1Σφ(I)=x,(10)最后一个等式导致了算法1中总结的HORDE的拟议级联架构。我们empir- ically显示在5.2小节,这种递归方法产生的信息高阶矩分量的一致估计。然后,HORDE正则化器包括在每个高阶矩上计算类DML损失函数,使得相似(相应地不相似)图像具有相似(相应地不相似)高阶矩:ΣK|x i ∈I|xi∈I并且可以丢弃模型的HORDE3.2. 理论分析在本节中,我们展示了优化高阶矩之间的距离与最大平均离散度(MMD)[6]和Wasserstein距离直接相关。我们考虑定义在紧空间Rc上的分布f:R →R+的再生核Hilbert空间(RKHS)H,赋予Gaussian ker-LHORDE=K=2Lk(ExI[φk(x)],EyJ[φk(y)])(7)nelk(x,y)=e−γx2− y . 然后表示图像实际上,我们无法计算期望ExI[φk(x)],因为x的分布未知。我们建议使用经验估计器来估计它:作为一个分布I∈ H,我们可以从中抽取一个集合深度特征xi我是阿吉We表示ExI[x]Rc是x的期望值。高阶矩用它们的向量化形式表示,即.ΣK1ΣE xI[x<$k]∈Rc其中x<$2=x<$x,x<$3=x<$x <$x,LHORDE(I,J)=LkK=2|x i∈I|xi∈I1φk(xi),ΣDKK6543等 通过ext e ns ion,我们使用ExI[x1] 作为平均值 。 我 们假设H中的每个分布都存在所有的矩,我们注意到,I ∈ H:|J| xj∈Jφk(yj)φ(8)maxExI[xk]100=K∞(11)6544¨1H在[6]之后,两个分布之间的MMDI并且J表示为:与p阶矩相比因此,我们有:Σ+∞MMD(I,J)=supEx<$I[T(x)]−Ey<$J[T(y)](12)MMD2(I,J)≤1 +k=1ak<$Ex<$I[x<$k]−Ey<$J[y<$k]<$2不MMD搜索最大化两个分布的期望之间的差的变换T。在-Σp≤Ak=1Exγp K然而,低MMD意味着两个分布集中在特征空间的相同区域中。在下面的定理中,我们证明距离+ 1+o(其中A= maxak。K)(17)p!在高阶矩上是平方MMD(证明主要如下[6]):定理1. 存在A∈R+*,使得对于每个分布I,J∈ H,MMD由I和J的p个一阶矩自上而下有界:这一结果意味着,将高阶矩正则化因此,来自相似图像的深度特征具有更高的概率集中在特征空间的相同区域中。接下来,我们展示高阶矩和Wasserstein距离之间的逆关系:MMD2(I,J)≤AΣpk=1¨¨ExI [xk]−EyJ[yk]¨2定理2. 存在a ∈ R+*,使得对于每个分布I,J ∈H,平方Wasserstein距离为+ 1+o(γpK )(13)由I和J的p个一阶矩自下而上限定为:p!Σp ¨<$2γp证据 由于MMD是RKHSH [6]上的距离,因此W2(I,J)≥ak=1<$ExI[xk]−EyJ[yk]<$$>-o(p!)的方式MMD的平方可以重写,例如:MMD2(I,J)=ExI[φ(x)]−EyJ[φ(y)]2(十四)(十八)证据 与定理1类似,我们可以使用其泰勒展开来下界高斯核:其中φ使用内核技巧k(x,y)定义=φ(x); φ(y) 然后,我们可以近似高斯k(x,y)≥αΣ+∞一个kk=1.Σxk;yk使用其泰勒展开的内核:其中α= exp(−2γK)且ak(2γ)kk!>0。 然后通过k(x,y)=exp(−γ<$x<$2−γ<$y<$2)exp(2γ<$x;y<$)Σ+∞(2γ)kK使用来自等式16的φ的定义,对于MMD来说,p= exp(−γx2−γy2)Σ+∞k!k=0X;YMMD2(I,J)≥αaΣ′k=1Ex]−EyJ[yk]100≤1+一个kk=1.Σxk;yk(15)-o(=6545k!1p!K√→−γpK)(19)p!其中k=(2γ)k> 0. 因此,我们可以将φ定义为其中a′= min ak。最后,MMD是KWasserstein距离[24]:所有加权和矢量化矩之和:M+∞φ(x)=akxk(16)k=1KW1(I,J)≥MMD(I,J)(20)通过组合等式19和等式20,我们得到预期的下限:γp由于所有时刻都存在,我们可以交换期望值和W2(I,J)≥a ExI[xk]−EyJ[yk]2−o()直和 此外,由于序列ak(2γ)kk!k=1(二十一)0当k→−+∞且矩有界于K,高阶矩的贡献可以忽略不计其中a=αa。=6546××Cub-200-2011汽车-196骨干R@1248163212481632损失函数或挖掘策略[29]第二十九话54.766.376.083.9--71.481.487.592.1--HDML [36]53.765.776.785.7--79.187.192.195.5--DAMLRMM [32]55.166.576.885.3--73.582.689.193.5--DVML [13]52.765.175.584.3--82.088.493.396.3--HTL [5]57.168.878.786.592.595.581.488.092.795.797.499.0GoogLeNet对比损失(我们的)对比损失+HORDE55.057.167.969.778.579.286.287.492.292.896.096.372.276.281.385.288.190.892.695.095.697.297.898.8三胞胎丢失(我们的)50.563.374.884.691.295.065.275.883.789.493.696.5三联体丢失+HORDE53.665.076.085.291.195.374.082.989.493.796.498.0二项式偏差(我们的)55.967.678.386.492.396.178.286.091.394.697.198.3二项式偏差+HORDE58.370.480.287.792.996.381.588.592.795.497.498.6二项式离差+HORDE†59.471.081.088.093.196.583.289.693.696.398.098.8多相似性损失[30]65.777.086.391.295.097.384.190.494.096.598.098.9BN-inception对比损失+HORDE66.376.784.790.694.596.783.990.394.196.398.399.2对比损失+HORDE†66.877.485.191.094.897.386.291.995.197.298.599.4集成方法HDC [35]53.665.777.085.691.595.573.783.289.593.896.798.4比尔[19]55.367.276.985.191.795.578.085.891.195.197.398.7A-BIER [20]57.568.778.386.291.995.582.089.093.296.197.898.7GoogLeNetABE [11]60.671.579.887.4--85.290.594.096.1--ABE(我们的)60.071.881.488.993.496.679.287.192.095.297.398.7ABE +HORDE62.774.383.490.294.696.986.492.095.397.498.699.3ABE +HORDE†63.975.784.491.295.397.688.093.296.097.999.099.5表1:与Cub-200-2011和Cars-196数据集上的最新技术水平的比较。结果以百分比表示。t表示使用所有高阶矩(级联+ PCA到嵌入大小)计算测试分数。斯坦福在线产品店内服装检索骨干R@110100100011020304050[29]第二十九话70.985.093.598.0------HDML [36]68.783.292.4-------DAMLRMM [32]69.785.293.2-------GoogLeNetDVML [13]70.285.293.8-------HTL [5]74.888.394.898.480.994.395.897.297.497.8二项式偏差(我们的)67.481.790.295.481.394.295.996.797.297.6二项式偏差+HORDE72.685.993.797.984.495.496.897.497.898.1BN-inception多相似性损失[30]78.290.596.098.789.797.998.598.899.199.2对比损失+HORDE80.191.396.298.790.497.898.498.798.999.0表2:与斯坦福在线产品和店内服装检索的最新技术的比较结果以百分比表示。因此,将高阶矩正则化为不同的强制不同的图像具有从不同分布采样的深度特征。因此,深度特征更有区别,因为它们是从不同图像的特征空间的不同区域采样的这在图1c(p=5)中与图1a(p=1)相比示出4. 与最新技术水平的我们通过将我们的结果与四个数据集上的最新技术进行比较,展示了我们方法的优点,即CUB-200-2011( CUB ) [27] , Cars-196 ( CARS ) [12] , Stan-2011(CUS)[13],Stan-2012(CUS)[14]。福 特 在 线 产 品 ( SOP ) [18] 和 店 内 服 装 检 索(INSHOP)[15]。我们报告了与这些数据集相关的标准DML分裂的召回@K(R@K)。按照标准做法,我们使用GoogleNet [25]作为骨干网,我们在最后添加一个完全连接的层用于嵌入。对于CUB 和CARS,我们使用5个高阶矩训练HORDE,每个实例每个批次有5个类和8个图像。对于SOP和INSHOP,我们使用4个高阶矩,批量大小为2张图像和40个不同的类,因为这些数据集中只有2张图像。我们在训练时使用256 256个crop和以下数据增强:多分辨率,其中分辨率在裁剪尺寸的[80%,180%]中均匀采样,随机裁剪和水平翻转。在推理时,我们只使用大小调整为256 256的图像。对于HORDE,我们使用8192维的所有高阶矩,我们固定所有嵌入尺寸为512。最后,我们在测试时利用高阶矩将它们连接在一起。为了与其他方法公平起见,我们使用PCA将它们的维数降低到5126547K123456n112123123412345123456R@1 55.9 57.8 58.6 56.8 58.0 56.9 57.8 58.8 57.6 56.1 57.4 57.7 56.8 56.3 53.3 57.4 57.9 57.1 55.6 54.4 50.7R@2 67.6 69.5 70.4 68.1 69.4 68.7 69.2 70.6 70.0 68.5 68.8 69.9 69.3 68.1 65.4 69.9 70.6 70.5 68.9 66.2 63.0R@4 78.3 79.0 79.8 78.3 78.8 78.1 78.6 79.9 79.2 78.1 78.7 78.8 79.2 78.0 75.9 79.4 80.0 79.9 78.7 76.5 74.0R@8 86.4 86.7 87.2 86.2 86.7 86.6 86.5 87.2 87.0 85.5 87.0 87.1 87.1 86.5 84.2 86.9 87.4 87.4 86.7 85.4 82.5表3:高阶矩作为正则化子的影响。我们在CUB上报告召回@K。k是训练时选择的阶数,n是测试时用于评估性能的阶数。k=n=1是基线。K123456n112123123412345123456R@1 55.9 57.0 53.4 57.6 54.7 50.6 57.9 55.4 52.3 47.6 58.1 55.9 53.1 48.4 43.7 58.4 55.7 52.9 47.8 43.9 40.5R@2 67.6 68.3 65.4 69.9 67.0 63.0 69.5 67.1 65.0 60.2 70.3 67.7 65.0 60.8 56.0 69.9 67.6 64.9 59.9 56.0 53.0R@4 78.3 78.3 75.8 79.1 76.8 73.6 79.6 77.5 75.2 71.0 79.9 78.2 75.5 72.8 67.2 79.8 78.0 75.6 70.2 67.2 64.7R@8 86.4 86.2 84.2 87.0 84.7 82.4 87.1 85.8 83.6 80.2 87.1 85.2 83.9 81.7 78.0 87.3 85.6 83.8 79.6 77.5 75.2表4:当训练所有参数时高阶矩的影响。我们在CUB上报告召回@K。k是在训练时选择的阶数,并且n是在测试时使用的阶数。k=n=1是基线。这些结果用†注释。首先,我们在表1的上半部分显示,HORDE显著改善了三种流行的基线(对比损失,三重损失和二项偏差)。这些改进使我们能够声称CUB上的单模型方法的最新结果为58。3% R@1(相比之下,57. HTL的R@1为1%[5]),CARS次之。我们还在表1的第二部分中给出了系综方法的结果。我们表明,HORDE也有利于集成方法,通过将ABE [11]提高2。CUB和7上的7% R@1。2% R@1在CARS上。 据我们所知,这使我们在两个数据集上的表现优于最先进的方法62。CUB上的7%R@1和86。CARS上的R@1为4%,尽管与[11]中报告的结果相比,我们实施的ABE请注意,通过在测试时使用高阶矩,单个模型和集成模型都得到了进一步改进:对于单个模型+HORDE,在CUB上+1.1%和在CARS上+1.7%,对于ABE +HORDE,在 CUB 上 +1.2%和在CARS上 +1.6%。此外,我们通过在表2中报告SOP和IN-SHOP的结果,表明HORDE可以很好地推广到大规模数据集。HORDE将我们的基线二项式偏差提高了5。2%R@1(SOP)和3。1% R@1(在车间内)。 这种改进使我们能够在INSHOP上使用84. 2% R@1(与80. HTL的9%R@1),SOP的第二佳值为72。6% R@1(与74.HTL为8% R@1)。还请注意,HORDE在4个数据集中的3个数据集上优于HTL。我们还报告了BN-Inception的一些结果[8]。我们使用HORDE和对比损失训练的模型与最近在较小数据集上使用Mining [30]的MS损失相比导致了类似的结果,而在较大数据集上,我们在SOP上的表现为1.9%,在INSHOP上为0.7%。利用高阶矩进行测试,进一步增加,并优于MS损失与采矿1.1%的CUB和2.1%的CARS。最后,我们在图3中展示了CUB的测试拆分上的一些示例查询及其5. 消融研究在本节中,我们提供了本文不同贡献的消融研究。我们在CUB数据集上进行了3次实验[27]。第一个实验显示了高阶正则化对标准体系结构的影响,同时使用随机麦克劳林近似一致地近似高阶矩。第二个实验说明了学习高阶矩投影矩阵的好处最后的实验证实了我们的级联架构的参数时,学习的统计一致性。5.1. 正则化效应在本节中,我们将评估HORDE的正则化影响。为此,我们使用第4节中详细介绍的基线,并使用2到6个高阶矩来在该第一实验中,高阶矩的计算不依赖于等式6的级联计算方法。相反,近似高阶矩的矩阵是不可训练的,并且使用等式4的随机麦克劳林方法进行采样。还要注意的是,所有高阶矩上的嵌入层都没有添加。我们使用标准参数的二项式偏差损失[26]。结果示于表3中。首先,我们可以看到,HORDE在R@1中始终将这些结果证实了我们在第3节中的理论分析的见解,也为图1中观察到的检索排名行为提供了定量评估。当考虑到-6548≥K123456n112123123412345123456R@1 55.9 57.0 53.4 57.9 56.1 54.2 57.6 55.4 54.3 53.0 58.3 56.3 56.0 54.7 52.4 57.9 56.6 55.8 55.0 53.9 51.6R@2 67.6 68.3 65.4 69.4 67.9 66.2 69.3 67.2 66.0 65.2 70.4 68.7 68.1 66.9 64.7 69.5 68.8 68.3 67.7 65.2 64.0R@4 78.3 78.3 75.8 79.2 77.8 76.4 79.5 77.2 77.0 75.8 80.2 78.5 78.3 76.9 75.6 79.6 76.6 77.9 77.9 75.3 74.4R@8 86.4 86.2 84.2 86.6 85.3 84.4 87.1 85.6 84.4 84.1 87.7 86.3 86.0 85.4 84.1 87.0 86.4 85.6 84.8 84.0 83.7表5:当使用算法1训练所有参数时级联架构的影响。我们在CUB上报告召回@Kk是在训练时选择的阶数,并且n是在测试时使用的阶数。k=n=1是基线。图3:HORDE的CUB定性结果。正确结果以绿色突出显示(不正确结果以红色突出显示)。使用高阶矩作为表示,我们观察到相对于2阶和3阶基线的改进结果。然而,请注意,报告的高阶结果与一阶结果不可比较,因为相似性度量是在8192维表示上计算的。虽然添加高于2的阶数在性能方面似乎并不有趣,但我们发现,使用5或6阶数的训练过程比仅使用2阶数的训练过程更稳定。这在实践中通过用K 8测量召回@K来观察,K8倾向于在训练步骤之间变化较小。此外,在CUB数据集上,虽然基线需要大约6k步才能达到最佳结果,但我们通常需要少1k步才能在HORDE中达到更高的准确性。5.2. 统计学一致性为了评估仅估计信息高阶矩的影响,我们首先训练投影矩阵和嵌入,但没有级联架构,并在表4中报告结果。在该第二个实验中,我们凭经验表明,这种方案还在R@1中将基线增加至少1%。值得注意的是,通过关注信息量最大的高阶矩分量,HORDE进一步将不可训练的HORDE的性能从57.8%提高到58.4%。然而,与表3相比,高阶表示的检索性能严重降低。我们将这些结果解释为由于模型过拟合而导致的高阶矩例如,第一次和第二次实验之间三阶矩的R@1损失6%,表明对更高阶矩的兴趣降低。对于第三个实验,我们在表5中报告了我们的cased架构的结果。有趣的是,从级联结构计算的矩的性能几乎与从表3的未训练方法计算的矩相同,但是具有更小的维度。此外,我们保持了表4的第二个实验的性能改进。这证实了所提出的级联架构不会过拟合其高阶矩的估计最后,与没有级联的架构相比,这种级联架构在训练期间仅产生小的计算开销。6. 结论在本文中,我们提出了HORDE,一种新的深度度量学习正则化方案,它提高了深度特征的独特性。该正则化器基于深度特征分布之间的距离的优化,为各种流行的深度度量学习方法提供了一致的改进。我们给出的理论见解,显示HORDE上限的最大均值离散和下限的Wasserstein距离。高阶矩的计算是使用可训练的随机Maclau-rin分解方案,利用该方案产生一个级联的结构,具有较小的计算开销。最后,HORDE在四个著名的数据集上实现了非常有竞争力的性能。确认作者要感谢巴黎塞纳大学、Cergy-Ponnier大学和M2M工厂提供的资金和技术支持。6549引用[1] MicaelCarv alho , Re' miCade' ne , Da vidPicard ,LaureSoulier,Nicolas Thome,and Matthieu Cord.烹饪上下文中的跨模态检索:学习语义文本图像嵌入。在第41届国际ACM SIGIR信息检索研究发展会议上,2018年。1[2] Weihua Chen,Xiaotang Chen,Jianguo Zhang,and Kaiqi Huang.除了三重态损失:一种用于人员重新识别的深度四元组网络。在IEEE计算机视觉和模式识别会议(CVPR)上,2017年7月。2[3] Sumit Chopra Raia Hadsell和Yann LeCun。学习-ing的相似性度量有区别地,与应用到人脸验证。IEEE计算机视觉与模式识别会议(CVPR),2005年。2[4] 段跃奇,郑文钊,林旭东,卢吉文深度对抗度量学习。在IEEE计算机视觉和模式识别会议,2018年6月。2[5] 葛伟峰。深度度量学习与分层三元组丢失。在欧洲计算机视觉会议,2018年9月。六、七[6] Arthur Gretton , Karsten M Borgwardt , MalteRasch,BernhardSchoülk opf,andAl e xJSmola.两样本问题的核 In Advances神经信息处理系统,第513- 520页,2007年。四、五[7] 本·哈伍德,维贾伊·库马尔B G,古斯塔沃·库塞罗,伊恩·里德和汤姆·德拉蒙德。深度度量学习的智能挖掘在IEEE国际计算机视觉会议(ICCV)中,2017年10月。2[8] Sergey Ioffe和Christian Szegedy。 批次标准化:通过减少内部协变量偏移来加速深度网络训练。第32届机器学习国际会议论文集,2015年7月。1、7[9] 赫夫·杰·古和昂德雷·查姆。 例如图像检索中的证据和共现:PCA和美白的好处欧洲计算机视觉会议(ECCV),2012年10月。3[10] Purushottam Kar和Harish Karnick。点积核的随机特征映射。第十五届人工智能和统计国际会议集,2012年4月。3[11] Wonsik Kim 、 Bhavya Goyal 、 Kunal Chawla 、Jungmin Lee和Keunjoo Kwon。深度度量学习的基于 注 意 力 的 集 成 在 欧 洲 计 算 机 视 觉 会 议(ECCV),2018年9月。二六七[12] 乔纳森·克劳斯,迈克尔·斯塔克,邓佳,李飞飞.用于细粒度分类的3D对象表示。第四届IEEE 3D表示和识别国际研讨会(3dRR-13),2013年12月。二、六[13] Xudong Lin,Yueqi Duan,Qiyuan Dong,JiwenLu,and Jie Zhou.深度变分度量学习在欧洲计算机视觉会议(ECCV)上,2018年9月。二、三、六[14] Hongye Liu,Yonghong Tian,Yaowei Yang,LuPang,and Tiejun Huang.深度相对远程学习:区分类似车辆的区别。在IEEE计算机视觉和模式识别会议(CVPR)上,2016年6月。1[15] Ziwei Liu,Ping Luo,Shi Qiu,Xiaogang Wang,and Xiaoou Tang. Deepfashion:支持强大的服装识别和检索与丰富的注释。在IEEE计算机视觉和模式识别会议(CVPR)的程序中,2016年6月。一、二、六[16] 放 大 图 片 创 作 者 : Thomas K. Leung , SergeyIoffe,and Saurabh Singh. 没有大惊小怪的距离度量学习使用代理。2017年10月在IEEE计算机视觉国际会议(ICCV)上发表。2[17] Hyun Oh Song、Stefanie Jegelka、Vivek Rathod和Kevin Murphy。通过设施定位进行深度度量学习 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),2017年7月。2[18] 宋贤伍,于翔,燕姿杰格卡,和西尔维奥萨瓦雷斯。通过提升结构特征嵌入的深度度量学习。在IEEE计算机视觉和模式识别会议(CVPR)上,2016年6 一、二、六[19] Michael Opitz、Georg Waltner、Horst Possegger和Horst Bischof。稳健地提高独立嵌入的能力. 2017年10月在IEEE计算机视觉国际会议(ICCV)上发表。一、二、三、六[20] Michael Opitz、Georg Waltner、Horst Possegger和Ho
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功