基于SPD矩阵的视觉表示

13 浏览量更新于2023-10-15 收藏 694KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

122基于SPD矩阵的视觉表示的Luping Zhou，Lei Wang澳大利亚伍伦贡lupingz,leiw@uow.edu.auJianjia Zhang澳大利亚CSIROseuzjj@gmail.comYinghuan Shi，YangGao南京大学，中国syh,gaoy@nju.edu.cn摘要许多视觉识别任务的成功在很大程度上依赖于一个良好的相似性度量，距离度量学习在这方面起着重要的作用。与此同时，对称正定矩阵作为多计算机视觉应用中的特征表示方法受到越来越多的关注.然而，基于SPD矩阵的距离学习还没有得到充分的研究. 现有的一些工作通过学习d×dSPD矩阵的d2×p或d×k变换矩阵来实现这一点与这些方法不同的是，本文提出了一个新的成员的距离度量学习家庭的SPD矩阵。它只学习d个参数，通过一个有效的优化方案来调整SPD矩阵此外，它表明，所提出的方法可以被解释为学习一个样本特定的变换矩阵，而不是固定的变换矩阵学习的所有样本在现有的作品。优化的d参数可以用于“按摩”SPD矩阵以获得更好的区分，同时仍将它们保持在原始空间中。从这个角度来看，所提出的方法是对现有的基于线性变换的方法的补充，而不是竞争，因为后者总是可以应用于前者的输出，以进一步执行距离度量学习。该方法已在文献中使用的多个基于SPD的视觉表示数据集上进行了测试，结果证明了其有趣的特性和有吸引力的性能。1. 介绍基于SPD矩阵的视觉表示（SPD-Rep）已被用于视觉识别任务的频谱，如其受益于考虑成像信号的高阶统计的优点。SPD-Rep最常见的形式是协方差矩阵，广泛应用于纹理分类[14]、人脸识别等除了协方差矩阵，其他形式的SPD-Rep也出现在最近的文献中。例如，[22]中的工作使用SPD内核矩阵作为通用视觉表示来建模特征的非线性关系，在一些动作识别任务中实现了最先进的性能。在[24]中已经利用高斯分布的结果矩阵来捕获图像集分类的对象变化的概率模型。在医学图像分析中，SPD矩阵长期用于扩散张量数据[1]，相关矩阵和逆协方差矩阵用于模拟脑区域成像信号的相互作用[8，25]。这一新兴的视觉表示类别对许多传统的识别方法提出了新的挑战，因为SPD矩阵驻留在特定的黎曼流形上，而不是平坦的向量空间。为了迎合这种几何结构，已经提出了各种方法来提高SPD矩阵的相似性比较。典型的包括仿射不变黎曼度量（AIRM）[4]，对数欧几里德度量[1，20，23]，Cholesky距离[3]，幂欧几里德距离[3]，Stein发散[15]等。另一方面，距离度量学习在提供对许多视觉识别任务成功至关重要的良好度量方面很重要，这是一个值得深入研究的问题[29]。经典的度量学习方法对于SPD-Rep来说是不合适的，因为它们通常是定义在矢量形式的数据和欧几里得几何结构上的。尽管它的重要性，为SPD-Rep量身定制的远程计量学习还没有得到充分的研究。一些开创性的工作利用对数欧几里德度量来适应经典的距离度量学习方法的域的SPD矩阵。例如，在[19]中，每个d×dSPD矩阵进行对数运算，然后将其向量化为经典ITML（信息理论度量学习）[2]算法的输入，用于度量学习。这就导致了对一个d2×d21Ma- halanobis矩阵的学习，随着d的增加，它很快就变得难以处理。作为一种改进，[9]中的另一个距离度量学习工作学习了一个d×k（k≤d）变换，[13]第十三章：一个人的世界[16，12]和图像集分类[7，11]等，作为区域描述符或通用特征表示。1或学习一个d×（d+1）×d×（d+1）马氏矩阵。32413242DDDDDDDD˜˜˜将SPD矩阵的对数从原始切空间投影到新的（低维）正切空间。线性空间S+上一点S上的所有导数通过矩阵对数映射logS：S+›→D d更好的辨别空间。TSS+，其中TSS+是具有内积的向量空间D d本文从一个新的角度提出了一种SPD矩阵的距离度量学习与[19]中的现有工作不同，所提出的方法不涉及SPD矩阵的任何向量化此外，它不像[9]中那样将这些矩阵投影到另一个低维空间，而是在主空间中执行度量学习Log Euclidean度量框架表明，S~+允许双不变度量，并且对应于双不变度量的测地线距离等于正切空间TS~+中内积所导出的距离.具体而言，在对数欧几里德度量的框架中，对数乘法运算：S+×S+<$→S+D d d将SPD矩阵保持在其原始空间中。具体地，众所周知，SPD矩阵可以被分解成特征向量和特征值对前者是对特征相关性或数据子空间的本质信息进行编码，后者反映了不同特征模式在表征数据中的重要性。给定一组d×dSPD矩阵，定义为S1<$S2= exp（log（S1）+ log（S2）），当两个SPD矩阵在矩阵意义上不交换时，推广了矩阵乘法。通过交换性，S ~+空间是一个Abel群，它允许双不变度量，即通过乘法和求逆不变的度量可以证明，任何度量在TIS+上通过左乘或右乘扩展到S+，DDd方法旨在通过最佳地调整d个特征值以获得更大的区分度来执行度量学习。保持特征向量不变不仅保留了关于数据的相关基本信息，而且还考虑了一些SPD矩阵相关度量，例如，对数欧几里德度量对于将一组特征向量映射到另一组特征向量一元变换是不变的所提出的方法通过有效的优化方案仅学习d个变量，与[9，19]中学习的潜在d2甚至d4此外，我们还从理论上分析了所提出的方法与现有的SPD矩阵度量学习方法之间的关系从他们的角度解释我们的方法，我们表明我们的方法本质上是学习一个样本特定的变换矩阵，这与现有的度量学习方法不同，现有的度量学习方法为所有样本学习一个固定的变换矩阵[9，19]。此外，学习的d变量可以用来“按摩”数据，而得到的数据仍然停留在原始空间中，并保持特征的原始物理意义。该性质对于一些应用（如医学成像分析）可能是有用的，其迎合结果的解释。此外，从这个角度来看，所提出的方法是对实验方法的补充，而不是竞争[9，19]，因为后者可以应用于前者的结果，以进一步提高性能。通过展示所提出的方法对各种SPD表示的性能，我们表明，所提出的方法可以丰富目前的研究距离度量学习SPD矩阵通过引入一个新的和有效的成员到这个家庭。2. 背景2.1. 对数欧几里德度量d×dSPD矩阵的空间（记为S+）形成一个李群，它是一个黎曼流形[1]，而不是一个双不变度量，其中Id表示单位元。配备利用双不变度量，S+上的测地线简单地由通过单位元的测地线的平移版本通过一些推导，可以表明S+上两个SPD矩阵之间的距离是d （ S1 ， S2 ） =logS1S2S1 =log （ S2 ） −log（S1），其中log（·）是正态矩阵对数。S+上的双不变度量称为对数欧几里德度量，因为它们对应于对数域中的欧几里德度量。2.2. SPD矩阵的距离度量学习许多视觉识别任务的成功（例如，图像检索和分类）很大程度上取决于反映人类感知的良好距离度量。远程度量学习在这方面发挥着重要作用。它旨在学习距离或相似性度量，使来自同一类的数据保持接近，并将来自不同类的数据分开。这通常涉及到马氏矩阵A的学习，使得两个数据样本x，y∈Rd之间的距离被评估为distA（x，y）=（x-y）<$A（x-y）。也就是说，每个数据样本x可以被视为被变换为Lx，然后应用欧几里得距离，其中A=Lx。已经提出了各种标准来从数据中学习A，例如logDet发散[2，19，9]，最大边缘标准[26]和k-NN分类[27]等。然而，当经典的距离度量学习方法扩展到SPD矩阵时，由于SPD矩阵的黎曼几何性，在其设计中使用的欧几里德度量变得不足这个问题的一个常见解决方案是利用对数欧几里德度量，将两个SPD矩阵的测地距离转换为对数域中的例如，在[19]（本文中表示为LE-ITML）中，d×dSPD矩阵X的对数被展开为vec（logX），其中log（·）表示矩阵对数，vec（·）表示3243XyXXYXYFXXXyXy矩阵的向量化然后利用ITML（信息理论度量学习）[2]基于距离distA（X，Y）=（vec（logX）−vec （ logY ）） <$A （vec （ logX ） − vec（logY））来学习马氏矩阵A。可以很容易地看出，要学习的矩阵A的大小是O（d4）。这可能会导致学习过程非常长，并且在训练样本数量不够大时会导致过拟合，使得距离度量学习其对角元素λi对应于特征值。假设对于所涉及的SPD矩阵中的每一个，其特征值已经以降序排序，并且特征向量也相应地排列。我们定义一个参数向量α =[α1，α2，···，αd]n，并使用αi作为每个SPD矩阵的第i个特征值的幂。所得矩阵用X（α）= UxDαU表示，其中Dα是对角矩阵，x x x原始SPD矩阵难以处理。工作在[9]对角线为（λα1，λα2，···，λαd）。定义Λ为对角线，12天采用不同的方法（本文中表示为LEML它直接学习log （ X ）的方阵上的变换函数，即， f （ log（X））=W<$log（X）W，其中对于diag（Λ）=α的nal矩阵，不难证明log（X（α））=Ux<$log[Dx]U<$$>Ux<$ExU<$，W∈Rd×k（k≤d）.通过这种方式，LEML从log（Y（α））=U <$log[D]U<$$>U <$E U<$，（2）将当前切线空间转换为新的切线空间，y yyyyy不同的班级通过变换Wd×k，X的维数降低到k×k，并且这些得到的SPD矩阵不再保持特征的原始物理意义3. 该方法在本节中，首先描述我们提出的度量学习方法，然后是优化算法和实现问题。在此基础上，从理论上分析了该方法与上述两种度量学习方法之间的关系。我们建议用SPD矩阵的特征值的幂（表示为α）来参数化SPD矩阵，然后通过使用Log Euclidean度量的距离度量学习来优化α。我们称这种方法为α-CML（α-based Covariance-like Metric Learning）。像以前的男人一样-其中log[Dx]表示将自然对数应用于Dx的对角元素后获得的对角矩阵（方括号[·]用于将其与矩阵对数区分开）。注意，最后一步是因为为了清楚起见，我们定义了Exlog[Dx]，并且因为两者都是对角的，所以ΛEx=ExΛ由方程（2）我们立即得到以下跟踪结果trace（log（X（α））log（X（α）=α<$E2α，trace（log（Y（α））log（Y（α）=α<$E2α。（三）对于交叉项，可以如下trace（log（X（α））log（Y（α）=trace（UxEx<$U<$Uy<$EyU<$）=trace（<$U<$U y<$EyU<$UxEx）因此，SPD矩阵完全由其特征值和特征向量表征在这里，我们专注于调整本征值，因为对数欧几里德度量在一元变换下是不变的。对于对数欧几里德度量，不难证明d（X，Y）=d（W<$XW，W<$YW），其中X和Y是两个SPD矩阵，而W是用于在特征向量集之间映射的也就是说，经由W将这些SPD矩阵的特征向量集合修改为另一特征向量集合将不会改变它们之间的对数欧氏距离。我们的算法描述如下。3.1. 以α为参数的对数欧氏距离（定义Wxy=U<$Uy）=trace（<$Wxy<$EyW<$Ex）（定义Bxy=EyW<$Ex）≡ 迹（<$Wxy <$Bxy）=α<$Cxyα.（四）在最后一步中，我们定义（ Cxy） ij=（ Wxy） ij（Bxy）ij，其中下标ij表示矩阵中的第ij个元素。结合上述结果，X（α）和Y（α）之间的对数欧几里德距离可以计算为：d（X（α），Y（α））=<$log（X（α））−log（Y（α））<$23244XyXy给定两个SPD矩阵X和Y，=α<$（E2−2Cxy+E2）α它们之间的距离定义为：xyd（X，Y）=log（X）−log（Y）<$F，（1）其中<$·<$F表示矩阵的Frobenius范数。对X和Y执行特征分解导致α其中Mxy定义为E2−2Cxy+E2。3.2. 基于α的距离度量学习X=UxDxU且Y=UyDyU。这里U=为了清楚起见，在下文中，我们表示[u1，u2，· · ·，ud]是d×d矩阵，其列ui对应于特征向量，D是对角矩阵矩阵Mxy作为M（X，Y）来显式地示出其对两个输入矩阵的依赖性。设{i，j，k}为a3245pppp我K我 Jp∈SpΣ。Σ三元组{Xi，Xj ，Xk}，其中Xi和Xj属于同一类，而Xi和Xk属于不同类。每个索引{i，j，k}对应于整数p∈ S，其中S包含所有可能的三元组。针对SPD矩阵开发了基于最大余量的距离度量学习，如下所示。设r为保证金，R2为松弛变量。给定一个三元组{i，j，k}，如果可能的话，（Xi，Xk）的对数欧几里德距离应大于（Xi，Xj）的对数欧几里德距离。然后，度量学习被公式化为如下的约束边缘最大化问题，P1：最大r−λ分解为一组秩一矩阵的线性凸组合根据上述规则，在每次迭代中，L被更新为Lt+1=（1−β）Lt+β <$L，（10）其中，RNL（并且在t = 0处初始化的Lt）是秩一和迹一矩阵。要求RNL的迹为1避免了优化的缩放问题。参数0≤β≤1确定更新步长，通过遵循梯度下降优化中使用的线搜索算法获得。注意，由等式1获得的Lt+1 是（10）α，αp，rpp∈S不一定是第一名然而，因为Lt被约束为秩一，所以Lt+1至多具有秩二，S.T. α <$M（Xi，Xk）α − α <$M（Xi，Xj）α ≥ r − <$p，α<$α= 1，r≥0，αp≥0，p ∈ S。（六）表示M=M（X，X）−M（X，X）并转换-其在被投影到秩一矩阵集合中时不会引起太多损失。每次迭代的最佳最小值如下所示设f（L，r）=−r + λ<$$> L，<$M<$$> F −r和<$f将最大化转化为最小化，等式（6）成为用固定的r表示f的梯度矩阵。显然为了最大限度地降低目标函数值P1：最小α，αp，r λp−rp∈S在Eqn中的更新规则。最优的最优的最S.T. α<$$> Mp α≥r−<$p，α< $α=1，r≥0，p ≥0， n ∈ S.（七）L∆LS.T.rank（rank）= 1，trace（trace）=1。（十一）此外，注意到αMpα=tr（Mpαα）并定义L=αα，优化问题P1等于优化下面的问题P2。很容易证明<$L<$=vv<$，其中v是矩阵− <$f（L，r）的首特征向量，对应于它的最大特征值。因此，优化L实际上P2：最小值L≥0，Δp，rλp−rp∈S归结为计算D维前导本征向量v。这比求解整个特征向量集要有效得多。完整的算法是S.T. <$L，<$M<$$>F ≥r−<$p，<$p∈Strace（L）= 1，r≥0，rank（L）= 1。（八）根据定义，L被约束为半正定和秩为1的矩阵。符号·，·F表示在Frobenius范数下的内积。也就是说，<$L，<$M<$$>F=trace（<$MpL），它是L的线性函数。通过某种重新安排，优化问题P2可以进一步重写如下。在算法1中总结。3.4.执行问题我们遵循[26]中的工作来生成用于训练的三元组。对于给定的样本Xi，首先确定它在同一类中的t个最近邻（称为正近邻）.然后，对于每个正邻居，如果来自不同类别的样本（称为负邻居）比这个正邻居更接近Xi，则将它们挑选Xi与其正邻居和负邻居的组合P3：最小L≥0，r -r+λΣp∈S。L，形成三胞胎。这可能导致多达数万个三胞胎。当用于在梯度下降的每次迭代中计算Δ Tf（L，r）时，大量的三元组可以S.T. 迹（L）= 1，r≥0，秩（L）= 1，（9）导致昂贵计算成本。为了加快优化速度，我们采用以下策略。注意其中，f（z）= max（0，−z）是铰链损失函数。3246pppf（L，r）=−λp∈S其中 S′表示集合违反边界的三元组的索引。所以我们3.3. 优化初始计算并存储p∈SEQUIPMENT使用优化问题P3可以通过遵循投影梯度下降框架来有效地解决关键问题是如何处理L是秩一SPD矩阵的约束已知每个SPD矩阵可以是三胞胎然后，在每次迭代中，我们仅针对变化的三元组评估CWM，即，新违反的三元组和由最后一次优化迭代引起的新满足的三元组虽然最初的三胞胎的数量可能是3247Xi=1我我我i=1˜ ˜111算法1距离度量学习与α-CML迭代，我们可以输入：训练样本集n={（Xi，yi）}n，（其中Xi∈Rd×di=1并且yi是类标签）和一组三元组。log（X（α））=UΛ log[D]U（13）1 1⊤1. 初始化L0=11Ω/d，其中1是d维向量。所有的元素都是一个。=U ~2log[D]~2U=（UΛ2U）（Ulog[D]U）（U<$2U）2. 设L=L0，求解P3得到r0.3. 设置t= 0。1=（U~2U））log（X）（U<$2U<$）1重复4. 计算3.3节中的（−f（L，r））及其对应于最大本征值的本征向量v5. 根据等式1更新Lt+1（10）;通过vv搜索获得β;通过线搜索获得β6. 将Lt+1投影回秩一矩阵。7. 通过在Lt+1固定的情况下求解P3来更新rt+18. 设定t=t+1直到收敛或最大迭代次数。输出：L_∞=L（t），α_∞是L_∞的最大特征值对应的特征向量.大，则在每次迭代中，变化的三元组的数量要小得多，通常小于100以这种方式，可以有效地解决优化问题。通常情况下，一个桌面计算机与3.0GHz的CPU和8.0G的RAM需要0。在实验中，对128个43×43的SPD矩阵进行一次迭代（不是初始迭代）优化，约有3000个三元组3.5. 与其他SPD ML方法的关系（定义 Wx<$U<$2U<$）=Wlog（X）Wx.因此，上述结果表明，α-CML也可以解释为像LEML中那样对log（X）应用线性变换W，这表明了联系。而在α- CML中，由于特征向量矩阵U依赖于X，所以Wx随X而变化。从学习线性变换的角度来看，α-CML学习特定于样本的变换。这与LEML方法相反（并且不能直接经由LEML方法实现），LEML方法学习同样应用于所有样本的固定变换W。据观察在实验中，这种特定于样本的性质甚至可以帮助α-CML在某些情况下赢得LEML，尽管参数的总数少一阶。3.5.2链接到LE-ITML [19]根据上述符号，我们将特征向量和特征值矩阵完整地写为U= [u1，u2，· · ·，ud]和D=diag（λ1，λ2，· · ·，λd）。它可以立即被...得到log（X）= Ulog [D]U=d（log λi）uiu.回想vec（·）表示矩阵的向量化提出的α-CML和另外两种方法[9，证明vec（log（X））=vddvi是很简单的，其中[19]代表三个不同的成员在家庭的满足-v∈Rd2.i=1SPD矩阵的Ric学习方法因此，有必要对二者的关系进行梳理，以更好地认识二者的联系与区别.3.5.1链接到LEML [9]如Eqn中所示(5)在[9]中，LEML的目标是学习应用于SPD矩阵Xd×d的对数的线性变换W∈Rd×k，f（log（X））= W<$log（X）W。（十二）提议。回想一下，α是X的本征值的幂，即，X（α）=UDαU。可以证明vec（log（X（α）= Γα，其中Γ= [v1，v2，· · ·，vd]，其列形成在整个Rd2空间中的d维子空间V上的d个正交基的集合. （证明（见附录）由这个命题可知，vec（log（X（α）对应于Vi（i= 1，· · ·，d ）所张成的子空间V中的点Aα=（α1，α2，· · ·，αd）<$也因为vec（log（X））=logdvi=Γ1，它对应于点A0=（1，1，· · ·，1）V的π。通过这种方式，所提出的α- CML可以被解释为学习子空间V中从点A0到Aα的映射。[19]《易经》云：“君子之道，焉可诬也？有始有终。回想一下，X的特征分解是X=UDU，log （X）=Ulog[D]U。所提出的方法α-CML将向量α= [α1，α2，· · ·，αd]分别应用于X的（排序的）特征值，并且所得到的结果3248应用线性变换L（Lvec（log（X））asLvec（log（X））=L（v1∈Rd2×p，p≤d2）到+·· ·+vd）.（十四）矩阵记为X（α）。此外，如前所述，Λ是对角矩阵，其对角线为α。被某个...类似地，这可以解释为映射点A0在V到另一个点AL。然而，区别在于3249˜由于L可以是任意的d2×p矩阵，因此，结果点AL不再一定位于子空间V中（如α-CML中的情况），而是可以位于整个空间Rd2中的任何地方。这带来了更高的学习功能为LE-ITML。然而，代价是三阶更大的参数数量和随着维度增加的可扩展性问题。在分析结束之前，值得注意的是，所提出的方法α-CML调整原始空间中的SPD矩阵，并且不涉及任何降维或投影。因此，在α-CML之后，LEML和LE-ITML等方法仍可以继续应用，以进一步追求更高的区分度。从这个意义上说，所提出的α- CML不与现有的SPD矩阵的距离度量学习方法竞争，而是补充。4. 实验结果我们在三种类型的识别任务上测试了所提出的度量学习方法：纹理图像分类，人体动作识别，脑图像分析。它们涵盖了不同类型的基于SPD的表示。具体地说，第一个任务使用协方差矩阵作为特征表示;第二种方法采用非线性核矩阵作为特征表示;最后一种方法采用逆协方差矩阵作为特征表示。这些数据集的示例图像在图中给出。1.一、遵循传统的距离度量学习，k-最近邻分类器使用对数欧几里德距离来评估所提出的方法的性能。图1. 来自所用数据集的示例图像。上图：Brodatz数据集的五个最困难的数据对。中间：采用MSR-W3 D数据集的骨架和示例动作。下图：来自ADHD-200数据集的四个静息状态fMRI图像示例。4.1. 纹理图像分类Brodatz纹理数据集在文献中通常用于评估使用基于协方差表示的算法。该数据集包含112个图像，每个图像对应于一个纹理类别后在[6]中的工作中，从每个图像中裁剪64个子区域作为相应纹理类的样本。对于每个子区域，在每个像素处提取43维向量（包括图像强度和2D Gabor小波），基于该向量，构造每个样本的协方差描述符。在实验中，对该数据集进行了二分类和多类分类测试。对于二进制分类，最难彼此区分的15对类（被识别为具有由k-NN分类器生成的最低准确度类别标签见附录）选择进行测试。其余的对不包括在内，因为几乎100%的准确度可以达到他们。对于所提出的方法α-CML，其在三重态生成中使用的参数t（正邻居的数量）被设置为3或5，并且用于平衡裕度和损失的优化问题P3中的参数λ被设置为1。0或3。0，由于不同的二进制类组的变化。由于每一对样本总共只有 128（64×2）个样本，采用留一策略充分利用样本进行训练，并使用k=1，3，5，7的k-近邻分类器报告了LOO分类精度。图2. Brodatz二元分类：应用所提出的方法α-CML后的准确性提高（以百分点为单位）。为了验证所提出的方法是否能产生一个更好的度量，因此更高的分类性能，我们比较了LOO的分类精度，得到与不应用所提出的方法。图2显示了在不同k值下15如图所示，使用所提出的方法进行度量学习是非常有前途的，并且在14对上观察到了改进。幅度可以达到10个百分点以上的有4对，5个百分点以上的有11对，最高的达到近20个百分点。同时，当k= 1、5、7时，对3显示出降低的准确度。然而，检查k= 3的结果（3250所提出的方法对于对3被设置为3），我们在度量学习之后仍然观察到明显的改进。表1给出了所有15对的平均准确度改进，并进行配对t检验以验证改进的统计学显著性。如图所示，所有这些都在0的水平上具有统计学显著性。05（由小于0的p值表示）。05）的情况。此外，有趣的是，我们使用t= 3或t= 5来生成三元组，但在大多数k值处始终观察到改进（除了对3中的情况这可以被看作是一个很好的指标，一个更好的度量确实已经通过所提出的方法学习表1. Brodatz二进制分类：平均精度提高（百分点）超过所有15对所提出的方法α-CML实现。%k=1k=3K=5K=7平均值↑4.2±5.55.6±5.35.4±5.25.6±4.5p值1e-21e-31e-33e-4对于多类分类的情况下，所有112个纹理类（7168个样本）被认为是。将数据集随机分成两个大小相等的子集进行训练和测试，并重复此过程10次以报告平均分类性能。参数t被设置为5，并且λ被设置为5。0的情况。表2中报告了平均准确度改进。与二元分类的情况类似，在所有k值上一致地观察到统计学上显著的准确度提高，再次证明了所提出的方法的有效性。表2. Brodatz多级分类：平均精度提高（百分点），在所有15对所提出的方法α-CML实现。%k=1k=3K=5K=7平均值↑2.5±1.02.8±1.12.6±1.02.4±0.8p值2e-53e-52e-54e-64.2. 人类行为识别的结果MSR-C3 D包含由10名受试者执行的20项操作。每个动作由每个受试者做两到三次。在我们的实验中只使用了骨架数据。每个动作实例包含40~60帧，每帧用120维特征向量表示，对应于一帧与相邻两帧之间的3D骨架点坐标差。根据文献[22]，我们对每个动作实例使用基于高斯RBF核矩阵的SPD表示（在该工作中称为Ker-RP-RBF），因为该表示报告了该数据的最新性能集我们希望研究应用所提出的方法是否可以进一步提高这种性能。为了便于比较，我们遵循文献使用奇数索引的主题进行训练，使用偶数索引的主题进行测试。如前所述，用于三胞胎生成的参数t被设置为3，并且参数λ被设置为1。0的情况。表3中引用了各种方法对该数据集的性能进行比较。所提出的方法的性能首先由k-NN分类器测试，结果（k= 1）在表3中给出。如图所示，4. 在Ker-RP- RBF上使用kNN分类器进行学习后，所提出的α-CML带来了6个百分点结果（92）7%）优于除[22，30，28]外的大多数方法。为了直接与[22]中该数据集的最新结果进行比较，使用具有Log Euclidean内核的SVM分类器请注意，对数欧几里德核现在通过使用Ker-RP- RBF计算，该Ker-RP- RBF通过所提出的方法α-CML调整。如图所示，[ 22 ]中的Ker-RP-RBF实现了96的精度。1% 2与SVM分类器，而我们提出的方法进一步提高这一结果为97。3%，高于所有其他方法。这一结果再次验证了所提出的度量学习方法的有效性。此外，有趣的是注意到，虽然度量学习通常应用于k-NN分类，但学习一个好的度量可以帮助核评估，从而提高SVM分类的性能，如本实验所示。表3. MSR-RISK 3D数据集的分类准确度（以百分点为单位）比较。ACC（单位：%）[21]第二十一话九十0[10]第十话九十5移动式[32]91. 7李群[18]92. 5SNV [30]九十三1空间温度[28]第二十八话94 3[17]第十七话74岁0Cov-JH-SVM [6]八十4Ker-RP-RBF+kNN88岁1Ker-RP-RBG+α-CML+kNN（拟定）92. 7Ker-RP-RBF+SVM [22]九十六。1Ker-RP-RBF+α-CML+SVM（拟定）九十七34.3. 脑图像分类ADHD-200是由神经局提供的用于预测注意缺陷多动障碍（ADHD）的可公开访问的数据集。它由768名训练受试者和197名测试受试者的静息状态fMRI图像组成为了消除图像处理步骤中的变化，我们采用了使用Athena的 ADHD-200提供的预处理数据2我们实现的结果与[22]中报告的结果略有不同，可能是由于参数的交叉验证选择。3251渠道.每个大脑图像被划分为90个大脑区域，每个区域的特征在于对应于其平均时间序列的特征向量。有26个测试样本在时间序列中包含无效值，将其从测试中删除在这个实验中，遵循文献，逆协方差表示用于每个脑图像。k-NN和SVM分类器都如表4所示，所提出的α-CML实现了4. 1%的k-NN和2。9%的SVM，这加强了我们之前的观察。此外，还给出了局部聚类系数（LCC）、Stein核（SK）和Cholesky核（CHK）在支持向量机重构中的应用结果。注意，SK和CHK是基于SPD矩阵的内核。表4.ADHD-200：在预定义训练测试分区上的分类准确性比较ACC（%）K-NNSVM现有方法ACC（%）原始64.366.7LCC+SVM64.3α-CML（拟定）68.469.6SK+SVM63.7改进4.12.9CHK+SVM63.24.4. 与现有SPD ML方法的本文将所提出的α-CML方法与另外两种SPD-ML方法LE-ITML和LEML（其代码可从各自作者的网站上请注意，在上述数据集上，LE-ITML需要求解非常大的Mahalanobis矩阵，并且在12小时后无法返回任何数据集的结果因此，在下文中，仅给出LEML和α-CML的结果表5显示了k-NN分类器在Brodatz可以看出，α-CML和LEML在不同的数据集上都可能获胜或失败，这在某种程度上是预料之中的。通过3.5节的分析，我们可以认为α-CML是在不改变原始特征空间的情况下对不同特征进行加权，而LEML是通过投影进行降维。在某种程度上，它们之间的关系类似于特征加权和降维的关系。哪一个更好是相当依赖于数据的，就像特征加权与降维的情况一样。表6比较了我们提出的α- CML与LEML，CDL [23]和RSR-ML [5]的现有方法的性能。注意，从学习变换矩阵以将SPD矩阵投影到较低维空间的角度来看，CDL和RSR-ML与SPD-ML方法相关。CDL利用对数欧几里德度量，而RSR-ML使用AIM和Stein内核。为了进行比较，我们还测试了动作数据集HDM 05 [5]，CDL和RSR-ML的结果可以引用[5]。对于HDM 05，除了COV-RP之外，还在Ker-RP上测试了LEML和我们的方法。同时，利用作者提供的程序代码，将RSR-ML应用于Brodatz、MSR-RSD 3D和ADHD-200。表6中的结果表明，与现有方法相比，α此外，表6中的最后一行给出了α- CML+ LEML在两个动作识别数据集HDM 05和MSR-E3 D上的度量学习的结果这两种方法的改进表明了结合这两种不同度量学习方案的潜在好处。表5.Brodatz的15个最困难的对的比较ACC（%）对1对2对3对4对5α-CML81.372.766.483.679.7LEML [9]82.071.176.670.372.7%对6对7对8对9对10α-CML75.089.186.789.176.6LEML [9]78.978.986.789.171.1%对11对12对13对14对15α-CML91.492.286.798.485.9LEML [9]90.690.690.698.484.4表6. 方法比较（ACC %）数据集HDM05MSR-3D打印BrodatzADHDSPD-RPCOV/Ker-RPKer-RP盖ICOVCDL [23]79岁。8N.A.N.A.N.A.RSR-ML [5]81. 9八十五0七十三。862. 6LEML [9]89岁。7/93。191. 2七十六。467岁3α-CML（拟定）91. 0/93692. 774岁368岁4α-CML+LEML（拟议）九十六。6/96。694 6−−5. 结论在本文中，我们介绍了一个新的成员的家庭的度量学习的SPD矩阵。与现有的相关方法相比，它具有一些较少的学习变量和样本特定的，并已评估不同的SPD矩阵为基础的表示。同时，通过理论分析，讨论了本文方法与现有方法的关系。我们将在未来的工作中研究该模型的丰富变体，例如学习类特定的α。6. 确认作者感谢澳大利亚研究委员会（ ARC DE160100241）和国家自然科学基金委员会（61432008，61673203）对本研究的支持。3252引用[1] V. Arsigny，P. Fillard，X. Pennec和N.阿亚奇扩散张量上快速简单演算的对数欧几里德度量。Magn ResonMed，56（2）：411-21，2006。一、二[2] J. 戴维斯湾，澳-地Kulis，P.Jain，S.先生，我。狄伦信息理论度量学习。ICML，2007年。一、二、三[3] I. Dryden，A. Koloydenko和D.舟协方差矩阵的非欧几里德统计量及其在扩散张量成像中的应用。Annu. Appl.Stat，3（3）：1102-1123，2009. 1[4] W. Forstner和B.穆南协方差矩阵的度量。柏林海德堡：施普林格，2003年。1[5] M. Harandi，M.Salzmann和R.哈特利从歧管到歧管：spd矩阵的几何感知降维。在ECCV，第17-32页，2014年。8[6] M. Harandi，M. Salzmann和F.波里克利无穷维协方差矩阵的Bregman发散。在CVPR中，第1003-1010页，2014年。六、七[7] M.哈亚特山Bennamoun和S.一个. 反向训练：一种有效的图像集分类方法。2014年，在ECCV1[8] S. Huang，J. Li，L. Sun，J. Liu，T. Wu，K. Chen，中国山核桃A. 弗莱舍E. Reiman和J.烨从神经影像学数据学习阿尔茨海默病的大脑连接NIPS，2009年。1[9] Z.黄河，巴西-地Wang，S. Shan，X. Li和X.尘对称正定流形上的对数欧几里德度量学习及其在图像集分类中的应用。ICML，2015。一二三五八[10] M. 侯赛因M.托尔基湾Gowayyed和M.艾尔萨班使用三维关节位置上的协方差描述符的时间层次的人类动作识别InIJCAI，2013. 1、7[11] A. Mahmood，A. Mian和R.欧文斯基于半监督谱聚类的图像集分类。CVPR，2014。1[12] S. 派西特克良格赖角Shen和J.张某快速行人检测使用级联的提升协方差特征。IEEE TCSVT，18：11401151，2008。1[13] Y. 庞湾，澳-地元，和X。李基于gabor的区域协方差矩阵人脸识别。IEEE TCSVT，18（7）：989993，2008。1[14] R. Sivalingam，D.Boley，V.Morellas和N.Papanikolopou-los.区域协方差的张量稀疏编码。在ECCV中，第722735页。1[15] S. SRA. 正定矩阵与s-发散。arXiv预印本，arXiv：1110.1773，2011年。1[16] O. Tuzel，F. Porikli，和P.米尔黎曼流形上通过分类的CVPR，2007。1[17] O. Tuzel，F. Porikli，和P.米尔区域协方差：一种用于检测和分类的快速描述符。在ECCV，第2006页，589-600中。7[18] R. Vemulapalli，F. Arrate，和R.切拉帕以谎言群中的点表示三维骨骼来识别人类行为。在CVPR，第588-595页，2014中。7[19] R. Vemulapalli和D.雅各布斯对称正定矩阵的黎曼度量学习。arXiv：1501.02393。一、二、五[20] R. Vemulapalli，J. Pillai和R.切拉帕流形特征外分类的核学习。在CVPR，第1782-1789页，2013年。1[21] C. Wang，Y.Wang和A.尤尔。一种基于姿态的动作识别方法在CVPR，第915-922页，2013中。7[22] L. Wang，J.张丽Zhou C.，中国青冈C.Tang和W.李超越协方差：非线性核矩阵的特征表示。在ICCV，第2015页。1、7[23] R. Wang，H.郭湖，加-地Davis和Q.戴. 协方差判别学习：一种自然而有效的图像集分类方法。在CVPR，第2496-2503页，2012年。1、8[24] W.王河，巴西-地Wang， Z. Huang，S. Shan和X.尘图像集人脸识别中高斯分布黎曼流形的判别分析。CVPR，2015。1[25] C. Wee，P. Yap，D.张丽Wang和D.沈用于mci分类的约束稀疏函数连通网络。在

下载后可阅读完整内容，剩余1页未读，立即下载