没有合适的资源?快使用搜索试试~ 我知道了~
判别零空间上的最大间隔度量学习用于人员重新识别T M FerozAli1[0000−0003−4368−5831]和Subhasis Chaudhuri11印度孟买印度理工学院{ferozalitm,sc}@ ee.iitb.ac.in抽象。在本文中,我们提出了一种新的度量学习框架,称为零空间核最大保证金度量学习(NK3ML),有效地解决了小样本量(SSS)问题固有的人重新识别,并提供了显着的性能增益超过现有的国家的最先进的方法。利用特征空间的非常高的维度,在判别性零空间上使用最大裕度准则(MMC)来学习度量,其中给定类的所有训练样本点映射到单个点上,最小化类内分散。MMC的内核版本用于获得更好的类间分离。在四个身份重识别基准数据集上的实验表明,该算法的性能优于现有的所有方法。我们在最广泛接受和最具挑战性的数据集VIPeR上获得了99.8%的rank-1准确度,而先前的技术水平仅为63.92%。关键词:人物再识别,度量学习,小样本问题1介绍人的重新识别(重新ID)的任务是匹配的图像的行人在空间上不重叠的相机,即使行人的身份是看不见的。这是一个非常具有挑战性的任务,由于照明,视点,遮挡,背景和姿态变化的大变化。用于re-ID的监督方法通常包括两个阶段:计算鲁棒的特征描述符并学习有效的距离度量。各种特征描述符,如SDALF[10],LOMO[23]和GOG[31],提高了表示人的效率但是特征描述符不太可能对数据收集过程中的大变化完全不变,因此专注于度量学习的人重新识别的第二阶段非常重要。他们学习一个有区别的度量空间,以最小化人内距离,同时最大化人间距离。 已经表明,学习良好的距离度量可以显著提高re-ID中的匹配精度。在过去的几年中,已经为re-ID开发了许多有效的度量学习方法,例如,[23],KISSME[19],LFDA[36].然而,这些方法中的大多数遭受re-ID中固有的小样本大小(SSS)问题,因为特征维度通常非常高。最近的基于深度学习的方法联合解决了特征计算和度量学习以提高性能。然而,它们的性能取决于手动标记的大型训练数据的可用性,而这在上下文中是不可能的22Feroz Ali和S. Chaudhuri因此,我们避免在本文中讨论基于深度学习的方法,并专注于以下问题:给定一组图像特征,当每个类的训练样本的数量非常小并且在训练期间测试身份不可见时,我们可以设计用于改进分类准确度的良好判别准则吗?我们的应用领域是人的重新识别。在本文中,我们提出了一种新的度量学习框架称为零空间内核最大余量度量学习(NK3ML),有效地解决了SSS问题,并提供更好的性能相比,国家的最先进的方法重新ID。判别度量空间是使用判别零空间上的最大余量准则来学习的。在学习的度量空间中,不同类别的样本类内方差为零)以最大化Fisher准则的可分性。1.1相关方法大多数现有的人重新识别方法试图建立强大的特征描述符和学习判别距离度量。对于特征描述符,已经提出了几项工作来捕获人类图像的不变和区分属性[10,23,31,12,18,59,52,26]。具体而言,GOG[31]和LOMO[23]描述符已经显示出对照明,姿态和视点变化的令人印象深刻的鲁棒性出于识别目的,最近已经提出了许多度量学习方法[62,15,36,51,19,23,6,61,54]。重ID中的大多数度量学习方法起源于其他地方,并且通过适当的修改来应用,以克服重识别中的额外挑战。Kstinger等人提出了一种称为KISSME的有效度量[19],使用两个高斯分布的对数似然比检验。Hirzer等人[15]使用了放松的Mahalanobis度量的半正定约束。Zheng等人提出的PRDC[62],其中学习度量以最大化具有比错误匹配对的距离更小的距离的一对真实匹配的概率。作为对KISSME的改进[19],Liao et al.提出了XQDA[23],以同时学习更具鉴别力的距离度量和低维子空间。 在[36]中,Pedagadi et al.成功地应用了局部Fisher判别分析(LFDA)[44],这是Fisher判别分析的变体,以保留局部结构。大多数基于Fisher型准则的度量学习方法都存在小样本量(SSS)问题[61,14]。像LOMO[23]和GOG[31]这样的各种有效特征描述器的维数是成千上万的,与通常可用于训练的样本数量这使得类内散射矩阵奇异。一些方法使用矩阵正则化[36,51,23,25,31]或无监督降维[19,36]来克服奇异性,这使得它们的鉴别力和次优性降低。此外,这些方法通常具有要调谐的多个自由参数。最近,零Foley-Sammon变换(NFST)[61,3,14]在计算机视觉应用中获得了越来越多的关注。NFST在[61]中提出,以解决re-ID中的SSS问题他们找到了一种转换,将类内训练样本折叠成一个点。通过将类间方差限制为非最大余量度量学习3WW我零,它们最大化Fisher判别准则,而不需要使用任何正则化或无监督降维。在本文中,我们首先确定一个严重的限制NFST,即。尽管NFST对于所有训练数据将类内距离最小化为零,但是它不能最大化类间距离,并且当测试样本没有映射到相应的奇异点时,在推广测试数据样本的鉴别时产生次优性的严重后果。其次,我们提出了一种新的度量学习框架,称为零空间核最大间隔度量学习(NK3ML)。该方法学习一个判别度量子空间,以最大化类间距离以及最小化类内距离为零。NK3ML有效地解决了NFST在将区分推广到测试数据样本方面的次优性。特别地,NK3ML首先利用NFST来找到低维判别零空间以将类内样本折叠成单个点。随后,NK3ML使用辅助度量学习框架来学习使用零空间的判别子空间,以最大限度地分离类间距离。NK3ML还使用适当的核将判别性零空间非线性映射到无限维空间中,建议的NK3ML不需要正则化,也不需要非监督降维,并有效地解决了SSS问题以及NFST在推广测试数据样本的判别时的次优性所提出的NK3ML具有封闭的解,并且没有自由参数可调。我们首先在第2节中解释NFST。随后,我们在第3节中介绍了NK3ML,在第4节中介绍了实验结果。2零Foley-Sammon变换2.1Foley-Sammon变换Foley-Sammon变换(FST)[38,34]的目标是学习最佳判别向量w∈Rd,使正交约束下的Fisher准则JF(w)最wT Sb wJF(w)=wTS.(一)WSw表示类内散布矩阵,Sb表示类间散布矩阵。 x∈Rd是具有类C1,. . . 其中c是类的总数。设η是样本的总数,并且η是类别Ci中的样本的数量。FST试图通过最大化Fisher准则来同时最大化类间距离和最小化类内距离。使用以下步骤生成FST的最佳鉴别向量FST的第一鉴别向量w 1是使J F(w1)最大化的单位向量。如果Sw是非奇异的,则解变成常规的特征值问题:S−1Sbw=λw,并且可以通过S−1Sb最大特征值FST的第i个判别向量wi通过以下具有正交约束的优化问题来计算最大||=1,W T W j=0||=1,WTWj=0{JF(wi)} j= l,. . .,i−1。(二)W4Feroz Ali和S. Chaudhuri不不不不不FST的一个主要缺点是,它不能直接应用时,Sw成为奇异的小样本大小(SSS)的问题。SSS问题发生在n d。常见的解决方案包括向Sw添加正则化项或使用PCA减小维数,这使得它们次优。2.2零Foley-Sammon变换FST中由于SSS问题的次优性是克服在一个有效的方式使用零Foley-Sammon变换(NFST)。NFST的目标是找到满足以下约束集的正交判别向量:wTSww = 0, wTSbw>0。(三)每个判别向量w应满足零类内散布和正类间散布。这导致JF(w)→ ∞,因此NFST试图根据Fisher准则获得最佳可分性。这样的矢量w被称为零投影方向(NPD)。零类内分散确保使用NPD的变换将类内训练样本折叠成单个点。获得零投影方向:我们解释如何获得NFST的零投影方向(NPD)总类散布矩阵St被定义为St=Sb+SW。我们也有St=1PtPT,其中Pt由零均值数据x1−m组成。. . ,xn−mnt就像它的柱子一样。设Zt和Zw分别是St和SW设Z表示Zt的正交补。注意引理[14]。引理1:设A是一个半正定矩阵。则wTAw= 0当且仅当Aw= 0。引理2:如果w是NPD,则w∈(Z∩Zw)。引理3:对于小样本量(SSS)的情况,恰好存在c-1个NPD,c为类的数量为了获得NPD,我们首先从空间Z获得向量。从这个空间,我们接下来得到也满足w∈Zw的向量。可以从形成NPD的合成向量获得一组归一化正交向量。基于引理,Zt可以被求解为:Z t={w |S t w = 0}={w |w TS t w = 0}={w|(PTw)T(PTw)= 0}={w|PTw = 0}。(四)t t t因此Zt是PT的零空间。所以Z是PT的行空间,也就是列t t t空间Pt。因此,Z是零均值数据所张成的子空间Z可以是t t使用正交基Q =(θ1,. . . ,θ n−1),其中n是总数量。样本的BER。基Q可以使用Gram-Schmidt正交归一化过程来获得。因此,Z中的任何向量都可以表示为:w=β1θ1+。. . +β n−1θ n−1= Qβ。(五)一个向量w,满足方程(5)对任意β,都属于Z_n。现在我们必须找到确保w∈Zw的特定β。它们可以通过在w∈Zw的条件中代入(5)得到,如下所示:0 =Sww=wTSww=(Qβ)TSw(Qβ)=βT(QTSwQ)β=QTSw(六)Q β。最大余量度量学习5不判别零空间投影(a)原始高维(b)低维子空间具有折叠类内样本的输入特征空间低区分度测试数据(c)预计试验数据使用NFST训练数据上的NFST测试数据上的图1:NFST中次优性的说明。每种颜色对应不同的类别。因此,β可以通过找到QTSwQ的零空间来求解。解的集合{β}可以被选择为标准正交的。由于w∈(Z∩Zw)的维数为c−1[14],我们得到β的c−1个解。现在可以使用公式(5)计算c-1的NPD由于Q和{β}是标准正交的,则所得NPD也是标准正交的。投影矩阵NFST的WN∈Rd×(c−1)现在由c−1个NPD构成。3零空间核最大间隔度量学习基于Fisher准则的方法通常使用训练样本来学习鉴别向量,使得向量也在类的可分性方面很好地推广测试数据。NFST[14,3]在[61]中提出,以解决re-ID中的SSS问题。他们通过将类内样本折叠成一个点来找到转换。我们确定了一个严重的限制NFST。最大化等式中的JF(w)(1)通过使分母为零,不允许利用分子中包含的信息如示于图1,两个不同类的NFST投影空间中的映射奇异点因此,当测试数据被投影到该NFST零空间中时,它不再映射到相同的奇异点。相反,它映射到靠近上述点的点但是该投影点可能更接近于另一类的奇异点,并且发生误分类。在NFST公式化下,由于使得wTSww= 0,所以在这方面没有控制,但是wTSbw也可以非常小而不是很大,并且分类性能可能非常差。在本文中,我们提出了一个度量学习框架,即零空间核最大间隔度量学习(NK3ML),以改善NFST的局限性,更好地处理高维数据的分类。如图2、NK3ML首先利用NFST找到一个低维判别零空间,将类内样本压缩成一个点。后来,它使用最大间隔准则(MMC)[20]的修改版本来学习使用零空间的判别子空间,以最大限度地分离类间距离。此外,为了获得基于核的技术的益处,而不是使用MMC,我们获得了归一化核最大间隔准则(NKMMC),其有效且鲁棒地学习判别子空间以最大化类之间的距离。NK 3 ML可以有效-6Feroz Ali和S. Chaudhuriv( S-S) v,b w kK判别零空间投影非线性最大裕度投影(a)原始高维(b)低维子空间(c)高维特征空间具有最大类间距离的折叠类内样本的输入特征空间广义判别测试数据(d)预计试验数据使用NK3ML零空间核最大间隔度量学习(NK3ML)图2:我们的方法NK3ML的插图每种颜色对应不同的类别。同时也解决了NFST在提高测试数据样本区分度方面的次优性问题。3.1最大间距准则最大间隔准则(MMC)[20,21]是学习最大化类之间距离 对于类C1,. . . ,C。,最大余量准则被定义为C cJ=1ΣΣp pd(C,C),(7)2i jiji=1j =1其中,类Ci和Cj的类间裕度(或距离)被定义为d ( Ci , Cj ) =d ( mi , mj ) -s ( Ci ) -s ( Cj ) ,(8)和d(mi,mj)表示均值向量mi和mj。s(Ci)是类Ci的散布,估计其中Si是类Ci的类内散布矩阵。可以求解类间裕度以得到d(Ci,Cj)=tr(Sb-Sw)。一组r个单位线性鉴别向量{vk∈ Rd|k = 1,. . . ,r}被学习,使得它们在投影子空间中最大化J。如果V∈Rd×r是投影矩阵,则MMC准则变为J(V)=tr(VT(Sb−Sw)V)。优化问题可以等价地写为:最大VKR不Kk=1(九)服从vTvk= 1,k = 1,. . . 、河通过找到Sb−Sw的归一化特征向量获得最优解对应于它的前r个最大特征向量。3.2核最大间隔准则核方法是学习非线性判别向量的公知技术。它们使用适当的非线性函数Φ(z)来将输入数据z映射到更高的最大余量度量学习7j=1Σα(M-N)α,kK1TK.ΣΣKKKRnini=1ni我维特征空间F,并找到鉴别向量vk∈ F。给定n个训练数据样本和一个核函数k(zi,zj)=<$Φ(zi),Φ(zj)<$$>,我们可以计算核矩阵K∈Rn×n。矩阵Ki∈Rn×ni,对于第i个类,其中ni为sam-ples是(K) :=k(z,z(i))。因为每个判别向量v 就在于ipq pqk映射的数据样本,它可以表示为形式vk=Σn(αk)jΦ(zj),其中(αk)j是向量αk∈Rn的第j个元素,它构成展开系数-vk的粉丝针对内核最大裕度临界(KMMC)[20]提出的优化问题是:最大αkR不Kk=1(十)若αT αk= 1,其中N:=Σc1Ki(In−11n1T)KT,In是(ni×ni)单位矩阵;我我我1n是ni维1的向量,M=Σc(m~i-m~)(m~i-m~);m~:=1Σcnim~i和(m~i)j:=1Σi=1nik(z,z,j).最优解是3.3NK3ML由KMMC[20]得到的(10)中给出的核化优化问题不强制特征空间中鉴别向量的归一化,而是对特征向量展开系数向量αk使用归一化约束。在NK3ML中,我们要求对KMMC获得的判别向量进行归一化,即,vTvk= 1。归一化鉴别向量对于保持数据分布的形状是重要的。因此,我们如下导出归一化核最大间隔准则(NKMMC)。我们将判别向量vk重写为:vk= Σj=1(αk)jΦ(zj)=ΣΦ(z1)Φ(z2). . . Φ(zn)Σαk.(十一)然后规范化约束变为n(αk)jΦ(zj)j=1ΣTnj=1(αk)jΦ(zj)Σ=1⇒α TKα k= 1。(十二)其中K是核矩阵。(10)中的优化问题现在可以被重新公式化以如下实施归一化的鉴别向量R最大αkΣαT(M-N)αk,k=1(十三)α TKα k= 1。我们引入了一个拉格朗日函数来解决上述问题。L(αk,λk)=ΣαT(M-N)αk+λk(αTKαk−1),(14)K Kk=1ni=1Nni我z∈Ci(M-N)的归一化特征向量,对应于其第r个最大特征值。8Feroz Ali和S. ChaudhuriN˜不不n其中λk是拉格朗日乘数。拉格朗日量L必须相对于αk和乘数λk最大化。L对αk的导数在驻点处应为零。<$L(αk,λk)=(M-N-λK)α=0k = 1,. . . 得双曲余切值.αkk k(十五)⇒(M-N)α k=λ kKα k。这是一个广义特征值问题。λk在该站点处的目标函数被给出为:R r rΣα T(M-N)α k= Σλ kα TKα k= Σλ k。 (十六)Kk=1Kk=1k=1因此,NKMMC中的目标函数由对应于(M-N)和K的第一r个广义特征值的广义特征向量最大化。我们选择具有正特征值的所有特征向量,因为它们确保了最大的类间裕度,即,不同类别的样本在这些特征向量的方向上被很好地分离应该注意的是,我们的NKMMC具有与原始KMMC[20]不同的解决方案,因为KMMC使用M-N的标准特征向量。NFST首先用于使用训练数据{x}来学习判别向量。NFST的判别式形成投影矩阵WN。每个训练数据样本x∈Rd被投影为z=WTx。(十七)每个投影数据样本z∈Rc−1现在位于NFST的判别零空间中。现在,我们使用所有投影数据{z}来使用NKMMC学习次级距离度量。任意一般特征向量x ∈RdNK3ML的vk分两步进行:可以投影到判别向量步骤1:将x~投影到NFST的空空间上以得到~z:~z=WNx~。(十八)步骤2:将~z投影到NKMMC的判别向量vkvkΦ(μz)=. Σnj=1不(αk)jΦ(zj)Φ(~z)=Σj=1(αk)jk(zj,~z)。 (十九)所提出的NK3ML不需要任何正则化或无监督降维,并且可以有效地解决SSS问题以及NFST在推广对测试数据样本的区分方面的次优性。NK3ML有一个封闭形式的解决方案,没有自由参数调整。唯一需要决定的问题是使用什么内核实际上,所提出的方法所做的是将数据投影在第二阶段中,通过结合NKMMC使用适当的内核来增加维度这在分类测试样品时提供了更好的界限。Σ最大余量度量学习94实验结果参数设置:NK3ML中没有自由参数可供调整,不像大多数最先进的方法必须仔细调整参数以获得最佳结果。在所有的实验中,我们使用RBF核,其核宽度被设置为样本之间的成对距离的均方根。数据集:拟议的NK3ML在四个流行的基准数据集上进行评估:PRID450S[37]、GRID[27]、CUHK01[22]和VIPeR[12]分别包含在两个不相交的相机视图中捕获的450、250、971和632个身份。CUHK01在一个相机视图中包含每个人的两个图像,所有其他数据集仅包含一个图像。很自然,这些数据集构成了SSS的极端例子按照传统的实验设置[1,31,5,23,35,52],每个数据集被随机分为训练集和测试集,每个集具有一半的身份。在测试期间,探头图像与图库相匹配。在所有数据集的测试集中,除GRID外,探针图像和图库图像的数量相等。GRID的测试集有另外775个不属于250个身份的图库图像该程序重复10次,并报告平均等级分数。特征:大多数现有方法对所有数据集使用固定的特征描述符。这样的方法对于表示每个数据集的固有特征是不太有效的因此,在NK3ML中,我们为每个数据集使用特定的特征描述符集我们从标准特征描述符GOG[31]和WHOS[26]中选择我们还使用LOMO[23]描述符的改进版本,我们称之为LOMO*。我们生成它通过concatation- nating使用YUV和RGB颜色空间分别生成的LOMO功能。比较方法:我们只使用每个数据集中的可用数据进行训练。在研究中没有使用特征或图像的单独预处理(例如域适应/已经做出了一些努力,甚至使用测试数据对re-ID结果进行重新排序[1,63,2]以提高准确性。但这些技术不适合任何实时应用,我们避免使用这样的补充方法在我们的建议。4.1与基线的在表1中,我们比较了NK3ML与基线度量学习方法的性能。由于NK3ML是针对NFST的局限性提出的改进方案,因此我们首先将NK3ML与NFST的性能进行了比较。为了与NFST进行公平的比较,我们也使用其内核化版本KNFST[61]。KNFST也是应用于LOMO描述符的最先进的度量学习方法对于均匀性,所有度量学习方法都使用相同的标准特征描述符LOMO[23],WHOS[26]和GOG[31]进行评估我们还比较了交叉视图二次判别分析(XQDA)[31],这是GOG描述符的最先进的度量学习方法。XQDA也在许多情况下成功地应用于LOMO我们使用GRID和PRID450S数据集与基线进行比较。GRID是一个非常困难的人重新识别数据集,具有差的图像质量,姿态和光照变化大,这使得获得良好的匹配精度非常具有挑战性。由于部分遮挡、背景干扰和视点变化,PRID450S也是一个具有挑战性的数据集。从表1中的结果可以看出10Feroz Ali和S. Chaudhuri表1:NK3ML与GRID和PRID450S数据集基线的比较图3:PRID450S的样品图像数据集。具有相同列的图像对应于相同的身份。NK3ML相对于所有标准特征描述符的所有基线提供了显著的性能增益与NFST的比较:NK3ML相对于NFST提供了良好的性能增益。特别是对于PRID 450 S数据集,当使用WHOS进行比较时,NK 3 ML在秩-1处提供8.09%的改善,在秩-10处提供11.02%的改善。在对GRID和PRID450S数据集使用LOMO和GOG特征时也可以看到类似的增益。与KNFST的比较:尽管KNFST是LOMO描述符的最先进的度量学习方法,但NK3ML的性能优于KNFST,具有显著差异。在GRID数据集中,NK 3 ML在rank-1中获得3.36%,在rank-10中获得2.48%对于两个数据集的其他特征也看到类似的改进。与XQDA的比较:对于GOG描述符,XQDA是最先进的度量学习方法。在rank-1,NK 3 ML在GRID中获得2.16%。类似地,其在PRID 450 S中使用WHOS描述符在秩-1处获得7.29%。基于上述比较,可以得出结论,NK3ML获得了比NFST好得多的裕度,如理论所预期的此外,NK 3 ML在所有上述标准特征描述符方面都优于4.2与最新技术水平的在NK 3 ML与最先进方法的性能比较中,我们还报告了单独行上的预/后处理方法的准确性以确保完整性。如前所述,我们的结果与前/后处理方法的直接比较是不可取的。然而,即使进行了这样的比较,我们在大多数评估的数据集上仍然具有最佳或与最佳现有技术相当的准确性。此外,我们的方法是足够的一般性,可以很容易地与现有的预/后处理方法,以进一步提高其准确性。方法网格PRID450SRank1 排名10 Rank1 排名10WHOS +NK3ML21.2055.6050.6788.09WHOS + NFST18.6452.3242.5877.07WHOS + KNFST21.1254.3245.8785.78WHOS + XQDA18.7252.5643.3877.91LOMO +NK3ML18.2443.7660.6291.96LOMO + NFST17.0442.6458.8489.42LOMO + KNFST14.8841.2859.4791.96LOMO + XQDA16.5641.8459.7890.09GOG +NK3ML26.9657.5268.0495.07GOG + NFST24.8858.0067.6094.18GOG + KNFST24.8853.2864.8094.00GOG + XQDA24.8058.4068.0094.36最大余量度量学习11表2:与(a)GRID和(b)PRID450S数据集上的最新结果的比较。最好和第二好的分数分别以红色和蓝色显示。带 * 的方法表示基于预处理/后处理的方法(a) GRID数据集(b)PRID450S数据集方法Rank1 排名10 排名20方法Rank1 排名10 排名20[61]第二十一话:我的世界PolyMap[6]LOMO+XQDA[23]MLAPG[24]KEPLER[30][45][54][55][31][55][56][57][58][59][59]14.0814.8816.3016.5616.6418.4020.6022.4024.2424.8027.2045.8441.2846.0041.8441.2050.2451.4051.2854.0858.4060.9659.8450.8857.6052.4052.9661.4462.6061.2065.2068.8871.04[29]第61话:我的世界,我的世界,我的世界[31]第23话:我的世界,我的世界!24.5841.6044.4052.8959.4759.7860.4968.0073.42-79.4082.2085.7891.9690.0988.5894.3696.31-87.8089.8093.3396.5395.2993.6097.6498.58* 语义[41]*SSM[1]44.9072.9877.5096.7686.7099.11*SSDAL[43]*SSM[1]*OL-MANS[64]22.4027.2030.1648.0061.1249.2058.4070.5659.36GRID数据集上的实验:我们使用GOG和LOMO* 作为GRID的特征描述符。表2a显示了NK3ML的性能比较GOG + XQDA[31]报告了迄今为止排名1的最佳性能24.8%NK 3 ML在rank-1时的在rank-1,NK 3 ML也优于除OL-MANS[64]之外的所有后处理方法,OL-MANS[64]使用测试数据和训练数据一起学习更好的相似性函数。然而,在秩-1处的误分类的惩罚(如果有的话)严重影响OL-MANS的秩N性能NK 3 ML在排名10和排名20时分别比OL-MANS高出11.76%和 11.68%PRID450S数据集上的实验:GOG和LOMO* 被用作PRID450S的功能描述符。如表2b所示,NK3ML在所有等级中提供最佳性能。特别是,与第二好的方法GOG+XQDA[31]相比,它在秩-1中提供了5.42%的改进幅度。在rank-1中,NK 3ML也优于所有基于后处理的方法。SSM[1]采用XQDA作为度量学习方法。正如第4.1节中所分析的,由于NK3ML优于XQDA,因此可以预期,即使是像SSM这样的重新排名方法也可以从NK3ML中受益CUHK01数据集上的实验:我们使用GOG和LOMO* 作为CUHK01的特征。数据集中的每个人在每个相机视图中具有两个图像。因此,我们在表3a和3b中报告了与单次激发和多次激发设置的比较。NK3ML提供所有级别的最先进的表演对于单次设置,它优于当前最佳方法GOG+XQDA[31],具有9.20%的高裕度类似地,对于多激发设置,NK 3 ML相对于GOG+XQDA将秩-1的准确度提高了9.49%。在rank-1中,NK 3 ML的表现优于几乎所有的前/后处理-12Feroz Ali和S. Chaudhuri方法Rank1 排名10 排名20MLFL[59]34.3065.0075.00[23]第二十三话50.0083.4089.51KNFST[61]52.8084.9791.07骆驼[53]57.30--GOG+XQDA[31]57.8986.2592.14WARCA[16]58.34--NK3ML(我们的)67.0991.8595.92* 语义[41]32.7064.4076.30[35]第三十五话53.4084.4090.50**TPC[8]53.7091.0096.30** 四联体[7]62.5589.71-*DLPAR[56]72.3094.9097.20方法Rank1 排名10 排名2011-图表[17]50.10--[23]第二十三话61.9889.3093.62骆驼[53]62.70--MLAPG[24]64.2490.8494.92SSSVM[54]65.97--KNFST[61]66.0791.5695.64GOG+XQDA[31]67.2891.7795.93NK3ML(我们的)76.7795.5898.02** 决定指导文件[50]66.60--[64]第六十四话68.4492.6795.88*SHaPE[2]76.00--表3:使用(a)单次激发和(b)多次激发设置对CUHK01数据集进行的最新结果比较。** 对应于基于深度学习的方法(a) 单次激发[56][57][58][59然而,请注意,Spindle和DLPAR使用其他相机域信息进行训练,并且SHaPE是一种重新排名技术,用于聚合来自多个度量学习方法的分数。还要注意,NK 3 ML甚至优于基于深度学习的方法(也参见表4),强调了基于深度学习的方法在具有最少训练数据的re-ID系统中的VIPeR数据集上的实验:使用连接的GOG、LOMO* 和WHOS作为VIPeR的特征。它是最广泛接受的个人身份识别基准。这是一个非常具有挑战性的数据集,因为它包含从户外环境捕获的图像,背景、照明和视点变化很大。大量的算法已经报告了VIPeR的结果,其中大多数报告了在秩-1处低于50%的准确度,如表4所示。即使使用深度学习和预/后处理re-ID方法,DCIA报告的rank-1的最佳结果也只有63.92%相反,NK 3 ML提供了前所未有的改进,并达到了99.8%的rank-1准确度。NK3ML的优异性能是由于其能够通过同时提供类之间的最大分离以及将类内距离最小化到最小值零来增强甚至对于测试数据的可辨别性4.3计算要求我们将NK3ML的执行时间与其他度量学习方法进行了比较,包括NFST[61],KNFST[61],XQDA[23,31],MLAPG[24],kLFDA[51],MFA[51]和VIPeR数据集上的rPCCA[51]。详情见表5。针对训练集中的632个样本计算训练时间,并且针对测试集计算测试时间。最大余量度量学习13方法RefR1 R10 R20ELF[12]ECCV2008 12.0 44.0 61.0PCCA[32]CVPR2012 19.3 64.9 80.3KISSME[19]CVPR2012 19.6 62.2 77.0LFDA[36]CVPR2013 24.2 67.1-eSDC[58]CVPR2013 26.7 62.4 76.4SalMatch[57]ICCV2013 30.2--MLFL[59]CVPR2014 29.1 66.0 79.9rPCCA[51]ECCV2014 22.0 71.0 85.3kLFDA[51]ECCV2014 32.3 79.7 90.9SCNCD[52]ECCV2014 37.8 81.2 90.4PolyMap[6]CVPR2015 36.8 83.7 91.7[23]第二十三话CVPR2015 40.0 80.5 91.1* 语义[41]CVPR2015 41.6 86.2 95.1QALF[60]CVPR2015 30.2 62.4 73.8CSL[39]ICCV2015 34.8 82.3 91.8MLAPG[24]ICCV2015 40.7 82.3 92.4*DCIA[11]ICCV2015 63.9 87.5-** 决定指导文件[50]CVPR2016 38.6--KNFST[61]CVPR2016 42.3 82.9 92.1方法RefR1 R10 R20SSSVM[54]CVPR2016 42.1 84.3 91.9**TPC[8]CVPR2016 47.8 84.8 91.1GOG+XQDA[31] CVPR2016 49.7 88.7 94.5SCSP[5]CVPR2016 53.5 91.5 96.7**SCNN[46]ECCV2016 37.8 66.9-**Shi等人[第四十届]ECCV2016 40.9--l1-graph[17]ECCV2016 41.5--**S-LSTM[47]ECCV2016 42.4 79.4-*SSDAL[43]ECCV2016 43.5 81.5 89.0*TMA[29]ECCV2016 48.2 87.7 93.5*SSM[1]CVPR2017 53.7 91.5 96.1* 主轴[55]CVPR2017 53.8 83.2 92.1骆驼[53]ICCV2017 30.9--*MuDeepICCV2017 43.0 85.8-[64]第六十四话ICCV2017 45.0 85.0 93.6*DLPAR[56]ICCV2017 48.7 85.1 93.0*PDC[42]ICCV2017 51.3 84.2 91.5* 形状[2]ICCV2017 62.0--NK3ML我们99.8 100 100表4:与VIPeR数据集上的最新结果的比较RN表示N级精度表5:VIPeR数据集上的执行时间(秒)比较方法NK3ML NFST KNFST XQDA MLAPG kLFDA MFA rPCCA培训测试1.640.371.470.340.370.331.350.3412.100.134.104.133.683.9923.983.74测试集中的所有316个查询训练和测试时间是10次随机试验的平均值所有的方法都是在MATLAB中实现的PC与英特尔i7-6700CPU@3.40 GHz和32 GB的内存。对于316个查询图像的集合,NK3ML的测试时间为0.37s(每个查询0.0012s),这对于实时应用是足够的。4.4在其他领域的应用为了评估NK3ML在其他对象验证问题上的适用性,我们使用LEAR ToyCars [33]数据集进行实验。它包含了14种不同的汽车和卡车的256张图像。图像在姿态、照明和背景方面具有广泛的变化。其目的是验证给定的一对图像是否相似,即使它们之前是不可见的。训练集具有7个不同的对象,提供为1185个相似对和7330个不相似对。剩余的7个对象用于具有1044个相似对和6337个不相似对的测试集中我们使用[19]中的特征表示,它使用具有HSV和Lab直方图的LBP。14Feroz Ali和S. Chaudhuri(一)10.80.60.40.20ROC曲线支持向量机(0.718)ITML(0.640)LDML(0.707)LMNN(0.697)KISSME(0.718)LFDA(0.802)0 0.2 0.4 0.6 0.81假阳性率(FPR)(a)图图4:ToyCars数据集(a)样本图像(b)ROC曲线和EER比较。我们将NK3ML的性能与最先进的度量学习方法进行了比较,包括KISSME[19],ITML[9],LDML[13],LMNN[48,49],LFDA[44,36]SVM[4]。请注意,NK 3 ML和LMNN需要真正的类标签(而不是相似/不相似对)进行训练。所提出的NK3ML学习六维子空间。为了公平比较,我们使用相同的特征,并为所有方法学习一个等维子空间。我们绘制了图1中方法的受试者操作特征(ROC)曲线。4,具有括号中所示的等错误率(EER)。NK3ML优于所有其他方法,具有良好的保证金。这个实验再次强调了NK3ML对于不可见对象的泛化是有效的。此外,它表明,NK3ML有潜力的其他对象验证问题,除了人的重新识别。5结论在这项工作中,我们提出了一种新的度量学习框架,以有效地解决小训练样本量的问题,由于高维数据的re-ID系统固有的。我们确定的次优NFST推广到测试数据。我们提供了一个解决方案,最小化训练样本的类内距离平凡到零,以及最大化类间距离到一个更高的利润,使学习的判别向量是有效的分类器性能的泛化方面的测试数据也表现。在各种具有挑战性的基准数据集上的实验尤其是,我们的方法在最广泛接受的数据集VIPeR中达到接近人类水平的完美。我们评估我们的方法在另一个对象验证问题,并验证其效率,以及推广到看不见的数据。谢谢。这项研究工作得到了印度政府电子和信息技术部(MeitY)的支持,根据Visvesvaraya博士计划。真阳性率(TPR)最大余量度量学习15引用1. Bai,S.,Bai,X.,Tian,Q.:监督平滑流形上的可扩展人员再识别CVPR(2017)2. Barman,A. Shah,S.K.:Shape:A novel graph theoretical algothm for makingconsensus- based decisions in person re-identification systems. ICCV(2017)3. Bodesheim,P.Freytag,A
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功