没有合适的资源?快使用搜索试试~ 我知道了~
基于核矩阵的深度学习在细粒度图像识别中的应用研究
DeepKSPD:学习基于核矩阵的SPD表示用于细粒度图像识别Melih Engin1[0000− 0001− 5074− 8533]、王磊 1[0000− 0002− 0961− 0441]、周露萍 2、 1[0000− 0003− 1065− 6604]、刘新旺 3[0000− 0001− 9066− 1475]1伍伦贡大学计算机与信息技术学院Wollongong,NSW 2500,Australia2悉尼大学电气与信息工程学院,新南威尔士州,20063国防科技大学计算机学院湖南长沙410073me648@uowmail.edu.au; leiw@uow.edu.au; luping.sydney.edu.au;xinwangliu@nudt.edu.cn抽象。协方差矩阵作为一种二阶池化表示,在视觉识别中引起了广泛的关注,最近一些开创性的工作将其集成到深度学习中。最近的一项研究表明,核矩阵的工作远远优于这种表示的协方差矩阵,通过建模的高阶,非线性关系,lationship之间的池视觉描述符。然而,在该研究中,描述符和核矩阵都没有深入学习。更糟糕的是,它们被单独考虑,阻碍了对最佳代表的追求。为了改善这种情况,这项工作设计了一个深度网络,以端到端的方式联合学习本地描述符和基于内核矩阵的池化表示。导出从局部描述符集到该表示的映射的导数以携带 反向传播更重要的是,我们引入了算子理论中的Daleckiˇ i-Kreˇ在细粒度图像基准数据集上的实验不仅显示了基于核矩阵的SPD表示与深度局部描述符的优越性,而且还验证了所提出的深度网络在追求更好的SPD表示方面的优势。此外,提供消融研究来解释为什么以及从哪里获得这些改善。关键词:核矩阵,SPD表示,深度学习,细粒度图像识别.王磊为通讯作者。2M Engin,L Wang,L Zhou,XLiu×1介绍为了处理图像变化,现代视觉识别通常通过一组局部描述符来对图像的外观进行建模。它们从早期的滤波器组响应,通过传统的局部不变特征,发展到最近的深度卷积神经网络(CNN)的激活特征图。在这一过程中,如何将一组局部描述符集合起来以获得全局图像表示一直是一个中心问题,文献[1 在过去的几年中,池化一组具有协方差矩阵的描述符引起了越来越多的关注,并在目标识别[5],图像集分类[6]等方面显示出有希望的结果。它表征了描述符分量的成对相关性,并且通常被称为对称相关性。Ric正定(SPD)表示,因为协方差矩阵是SPD。此外,这激发了关于SPD表示的分类,聚类和降维的研究[7-9]。特别地,最近的几个开创性的工作将这种基于协方差矩阵的SPD表示集成到深度CNN中,以联合学习协方差矩阵与局部视觉描述符。这些工作研究了这个深度学习框架上的多个重要问题,包括反向传播的一些基于矩阵的函数的推导,归一化协方差矩阵的正确方法,二阶信息对大规模视觉识别的帮助等等。总之,他们进一步证明了这种代表性的巨大潜力[10-14]。上述工作集中于基于协方差矩阵的SPD表示。SPD表示的最新进展是在一组描述符中对非线性信息进行建模[15-17]。特别地,[16]中的工作直接使用核矩阵来表示描述符集,证明了其优越性。给定d维描述符的集合,利用预定义的核函数来计算d d核矩阵,其中每个条目是该集合中的两个描述符分量的实现之间的核值。该方法有效地模拟了这些描述符分量之间的非线性相关性核函数可以灵活地选择,以提取各种非线性关系,协方差矩阵对应于使用线性核的特殊情况。由此产生的基于核矩阵的SPD表示保持相同的大小,其基于协方差矩阵的对应,但产生相当大的提高识别性能。在现有文献的基础上,本文从以下几个方面进一步完善了SPD表征的研究首先,与其协方差对应物不同,[16]中基于核矩阵的SPD表示既没有在深度局部描述符上开发(相反,仅使用像像素强度或Gabor滤波器响应这样的传统描述符),也没有通过深度学习框架与这些描述符联合学习因此,它的潜力还没有得到充分的开发,用于图像识别。[16]中对局部描述符和内核矩阵的单独考虑阻止了它们彼此有效地协商以获得用于分类的最终目标的最佳SPD表示。其次,将SPD表示(基于协方差矩阵或基于核矩阵)纳入深度网络用于细粒度图像识别的深度核SPD表示3使反向传播过程复杂化此外,为了使得到的SPD表示更好地与分类器一起工作,通常采用矩阵对数有时,矩阵平方根也用于此目的。在文献中,[18]中的开创性工作从头开始开发了矩阵对数的反向传播算法。尽管具有指导性和信息性,但文献中已经报道,当用于训练深度网络时,这种矩阵反向传播可能具有数值稳定性问题,并且必须开发一些补救措施来代替[12]。为了解决第一个问题,这项工作建立了基于内核矩阵的SPD表示深本地描述符和基准,它对国家的最先进的图像识别方法。此外,我们开发了一个名为DeepKSPD的深度网络,以端到端的训练方式联合学习深度本地描述符和基于内核矩阵的SPD表示特别是,对于所提出的DeepKSPD网络,我们强调了与基于协方差矩阵的SPD表示的现有深度网络不同的层,并解释了这些层的必要性。为了实现这一目标,我们向计算机视觉界引用了基于操作者理论[19,20]的Daleckiˇi-Kreˇi,并利用它来推导出- 基于核矩阵的SPD表示,以实现针对所述前向路由器k的反向传播算法。因此,无论是矩阵对数还是矩阵α-根,Daleckiˇi-Kreˇiformula都可以为我们提供关于SPD矩阵用作归一化方法。我们给出了理论证明来说明这个公式与矩阵反向传播工作的关系[18],并显示了导致[18]的数值稳定性问题的差异。在多个基准数据集上进行了实验研究,特别是在细粒度图像识别上,以证明所提出的DeepKSPD框架的有效性。首先,与现有的基于核矩阵的表示建立在传统的本地描述符相比,我们证明了基于核矩阵的SPD表示使用深度本地描述符的优越性。其次,我们展示了所提出的DeepKSPD网络在联合学习局部描述符和基于内核矩阵的SPD表示方面的性能,以及矩阵对数和矩阵α-根的归一化方法第三,进行烧蚀研究,以显示DeepKSPD中关键层的功能,由于基于核矩阵的SPD表示的改进,以及通过使用导出尽管Daleckiki-Kre-naki-kr 正如我们所看到的那样,我们所做的决定是KSPD与相关的基于深度学习的方法相比,网络在测试的基准数据集上实现了整体最高的分类准确率4M Engin,L Wang,L Zhou,XLiu××E ∈R·······2相关工作在过去的十年中,在计算机视觉和机器学习中已经从各种角度对基于协方差矩阵的表示进行了大量工作。此外,最近将这种表示与深度学习相结合,不断产生新的研究成果。在下文中,我们将重点介绍与本文提出的DeepKSPD密切相关的重要现有工作设Xd×n=[x1,x2,…,xn]表示一个数据矩阵,其中每一列包含得到从图像中提取的局部描述符xi(xid)。SPD代表所有计算机和dcovicarixoverX为Σ=X¯X¯T(或简单的XXT),其中X¯de不等于X 。 通常,该协方差矩阵被提出作为区域描述符,例如,表征图像块中的像素的颜色强度的协方差。在过去的几年中,它已被用作一个有前途的二阶池图像表示在视觉识别。对SPD表示的一条研究线在一组描述符中对非线性信息进行建模。[15]中的工作隐含地将每个描述符xi(i=1,2,…,n)映射到核诱导特征空间上,并计算其中的协方差矩阵。然而,这会导致高维(甚至无限维)协方差矩阵,难以显式或计算操作。[16]中的另一项工作直接计算X上的核矩阵K,如下所示。 设fj表示X的第j行,由X的第j个分量的n个实现组成。K的第(i,j)个条目被计算为k(fi,fi),具有预定义的核函数k,诸如高斯核。以这种方式,可以提取d个分量之间的非线性关系。得到的核矩阵K保持d d的大小,并且对由小样本引起的奇异性问题更鲁棒。协方差矩阵是k约化为线性核的特殊情况如[16]中所报告的,这种基于核矩阵的SPD表示在多个视觉识别任务上大大优于其协方差对应物和[15]中的方法。将SPD表示与深度本地描述符集成甚至集成到深度网络中的研究仍处于非常早期的阶段,但已经展示了理论和实践价值。在BilinearCNN [21,13]的最近工作中,应用外积层来组合来自两个CNN的激活特征图,这在细粒度视觉识别方面产生了明显的改进。当两个CNN被设置为相同时,该外积基本上导致协方差矩阵(以XXT的形式[18]中的工作通过使用基于协方差矩阵的SPD表示来训练用于图像语义分割的深度它从零开始仔细推导协方差矩阵函数的梯度考虑到SPD矩阵诱导黎曼几何,在文献中已经使用了各种归一化操作,以使矩阵与通常假设欧几里得几何的分类器一起工作。矩阵对数归一化,log(),已被普遍使用[22],并且它也在[18]中被采用最近,[12]中的工作表明,当应用于细粒度图像分类的基于协方差矩阵的SPD表示时,矩阵平方根归一化甚至可以比矩阵对数对应物做得更好。[10]的工作进一步表明和用于细粒度图像识别的深度核SPD表示5×××图1.一、DeepKSPD网络的结构分析了矩阵平方根归一化在大规模图像分类中的有效性。由于SPD表示对视觉识别的验证功效,最近的文献中从各种角度开发了更多的作品。例如,[17]的作者利用泰勒级数通过显式特征映射来近似核函数,而不是像往常一样直接计算核函数,这使得他们能够推广双线性CNN框架来考虑高阶特征相互作用。3建议的网络DeepKSPDDeepKSPD由三个模块组成,如图所示1.一、最左边的块经由卷积神经网络将输入图像映射到一组深度局部描述符。最右边的块包括用于分类的常用全连接层和softmax层在这两者之间是我们的KSPD块的设计,其中包含与基于内核矩阵的表示和矩阵归一化操作相关的层例如,KSPD块的输入是VGG-16网络的最后一个卷积层(conv 5 3)的输出(当然可以使用其他CNN网络)。它由d个激活特征图组成,大小为w h。它们将经过L2归一化层和KSPD层,KSPD层计算d映射中的内核值。接下来是矩阵规范化层(例如,基于矩阵对数或平方根),用于处理SPD矩阵的黎曼几何。最后,由于KSPD表示是对称矩阵,因此接下来部署提取其上三角和对角条目的层以避免冗余。特别地,在KSPD块的两端添加L2我们发现,它们有助于基于内核矩阵的SPD表示产生更好的分类。L2归一化层。如前所述,它的输入是最后一个卷积层的输出,其维数为w h d。在每个特征通道内进行L2归一化。 也就是说,具有w ×h维度的每个通道被归一化为具有单位范数。这使得特征向量和图像6M Engin,L Wang,L Zhou,XLiu在整个数据集上的表示在幅度方面是可比较的此外,它有助于将待计算的内核值渲染到其工作范围内。当使用指数且有界于(0, 1]的高斯RBF函数时,这基本上是正确的。在这种情况下,高斯宽度θ的初始化不佳(参见等式(1))。(1))可能导致K中的核值太接近边界,使得反向传播过程效率低下。此外,它可能会降低学习的SPD表示的区分能力。有了这个L2归一化层,所提出的网络变得不太敏感的初始化,通过限制特征向量到一个适当的范围,并减少其方差。内核SPD层。从L2归一化层计算的局部描述符与核函数合并,以获得全局图像表示。输入由大小为w×h的d个归一化激活特征图组成。这些特征图沿着深度维度d重新整形,这给出了数据矩阵Xd×n,其中n=w×h。然后,在X上计算核矩阵Kd×d以汇集n个深度局部描述符,从而捕获d个特征图之间的成对非线性关系。注意,在这一层中,等式(1)中的高斯宽度θ为0(1)将通过反向传播共同学习矩阵函数层在KSPD层之后,该框架执行矩阵归一化以处理SPD矩阵的黎曼几何,并且这产生矩阵H = f(K)。传统上,归一化函数f被选择为矩阵对数。最近的研究[12,10]报告说,矩阵平方根归一化在大多数情况下表现更好在我们的工作中,所有的理论分析假设没有特定的归一化操作,可以处理任何(连续可微的实)函数f的反传播。此外,利用我们工作中提供的理论结果,我们进一步将现有的矩阵平方根归一化推广到矩阵α-根归一化,其中幂α是通过反向传播自动学习的,而不是固定为0。5. 我们还发现,L2归一化的结果矩阵有一个单位范数允许更平滑的收敛。批次归一化层。在我们的框架中,批量归一化层被用作后处理步骤。在前向传播期间,每个批次被归一化为具有零均值和单位标准偏差。在测试过程中,使用总体人口统计数据。在文献中,在卷积层之后已经使用了类似的层以加速收敛并降低对初始化的在我们的框架中,这个批处理规范化层以类似的方式起作用:结合上述L2归一化层,它加速了收敛并允许初始高斯宽度θ的更宽选择,并有助于随后提高总体分类精度。在本发明中,双线性CNN模型在图像恢复阶段之后使用“element-wisesignedsquared-rootplusL 2normal”的设置作为后处理阶段。我们的调查表明,上述批量正常化设置与所提出的DeepKSPD框架一起工作得更好,因此本文采用了该设置。用于细粒度图像识别的深度核SPD表示7·◦K4DeepKSPD的端到端培训4.1X与核矩阵K之间的导数回想一下,Xd×n表示一组局部描述符。考虑到高斯RBF核在文献中常用,并且在[16]中使用它来显示基于核矩阵的表示的优点,我们使用该核来举例说明所可以以类似的方式处理诸如多项式核之类的其他核。设Id×d和1d×d表示单位矩阵和1的矩阵。令表示两个矩阵的逐项乘积(Hadamard乘积),并且exp[ ]表示以逐项方式应用于矩阵的指数函数。以这种方式,在X上计算的RBF核矩阵K可以被紧凑地表示为K= expΣ−θ·.ΣΣ(I◦XXT)1+ 1T(I◦XXT)T−2XXT 、(1)其中θ是高斯宽度。令J是要由DeepKSPD网络优化的目标函数。通过暂时假设导数J已知(将在下一节中解决),我们现在计算出衍生物J和J。J是应用于X的函数的组合,并且它可以X可以被重写为每个中间变量的函数,如下所示。J(X)=J1(A)= J2(E)= J3(K),(2)其中A、E和K分别定义为A=XXT,E=.Σ(IA)1+ 1T(IA)T−2A 、K=exp[−θ·E]。(三)遵循微分规则,可以获得以下关系式δA=(δX)XT+X(δX)T,δE=(I <$δA)1 + 1 T(I <$δA)T− 2δA,δK=(−θK)<$δE。(四)从标量值矩阵函数的微分可知,δJ= .vec∫J3K,Σ,vec(δK)=痕量. ∫,TJ3KΣδK,(5)其中,vec(·)表示矩阵的向量化,并且<·,·>表示内积。将该结果与等式中的δK=(−θK)◦δE结合。(4)使用trace(AT(B◦C))=trace((B◦A)TC)的恒等式,我们可以得到δJ=痕量. ∫,TJ3KΣδK=痕量.T−θK ◦J3δEK=痕量. ∫,TJ2EΣδE。(六)这是T。equalityholΣdsbecausefromEq. (2)我们现在知道δJ可以被写出来作为微量. J2ΣTE. 注意到Eq.(6)对于任何δE成立,我们得到J2 =(−θK)J3.(七)EδE8M Engin,L Wang,L Zhou,XLiu∂θ×KHK∈··我·HK通过使用等式中的δE和δA的关系以及δA和δX的关系重复上述过程。(4),我们可以进一步(证据在补充文件J1=I◦..简体中文 ∫J2 ,TΣΣ1T-2 J2;J.=J1+ ∫BJ1 ,TΣX. ( 八)A∂E ∂XA此外,导数J可以获得Jθ=迹线. ∫,TJ3KΣ(−K◦E) .(九)因此,当J3可用时,我们就可以求出J和J相应地K4.2矩阵函数在核矩阵K上的导数现在,为了获得J3,我们处理K和J,其可以被写为J(X)= J4(H)= J4(f(K)).(十)请注意,CRTJ4已经准备好获取,因为它只涉及分类层,如全连接层,softmax回归和交叉熵计算。关键在于如何获得。现在,我们通过Daleckiˇi-Kreˇin[19]给出了一个关于SPD矩阵函数微分的简洁而统一的结果,其中矩阵 对数 和平 方根 正规化 都是SPD 矩阵 函数 微分 的特 例。定理 1(pp.60,[20])设M_d是d_d实对称矩阵的集合。设I是开区间,Md(I)是特征值属于I的实对称矩阵的集合。 设C1(I)是I上连续可微实函数空间. C1(I)中的每一个函数f诱导出一个从Md(I)中的A到Md中的f(A)的可微映射. 设DfA()表示f(A)在A处的导数。 它是一个从Md到自身的线性映射。 当应用于B Md时,DfA()由以下公式给出:DfA(B)=U..ΣΣG◦UTBUUT,(11)其中A=UDUT是A的特征分解,其中D= diag(λ1,· · ·,λd),并且λ d是逐项乘积。矩阵G的项被定义为.f(λi)−f(λj)如果λi/=λjgij=λi−λjf′(λ),否则。(十二)该定理表明,对于应用于A的矩阵函数f(),通过少量B扰动A将使f(A)通过等式中的量DfA(B)变化。(11)其中的变化是在一阶近似的意义下。现在我们展示如何根据以下公式推导出CNOJ4和CNOJ3之间的函数关系:定理1.根据等式(2)在Eq.(5)、δJ=痕量. ∫,TJ4HΣδH=痕量. ∫,TJ3KΣδK。(十三)用于细粒度图像识别的深度核SPD表示9HK应用Daleckiˇi-Kreˇiformula,我们可以将δH近似表示为δH=DfK(δK)=U..ΣΣG◦ UTδKUUT。(十四)在等式中替换δH(13)利用该结果并应用迹(ATB)的性质J4关系和J3可以类似于在Eqs中导出。(6)(7):J3=UK∫ ∫ ,,G◦UTJ4UHUT。(十五)其中U和G是从K=UDUT的特征分解获得的。为matrixlogarithm(或sq√uare-roting)normalisation,gijinEq. (12)计算如logλi−logλj(或√λi− 当i/= j时为λ j),否则为λ −1(或1)。λi−λ jλi−λji2√λi[18]中的工作从矩阵对数的导数导出了矩阵对数的导数。不涉及矩阵微分的基本事实,这是详细的和有指导意义的。如前所述,这项工作与可良好计算的Dale ckiˇi-Kreˇifor mula无关。更重要的是,它是在设计时记录的在[18]中可能导致在训练深度模型期间的数值不稳定性[12]。为了解决这个问题并阐明与[18]中已有结果的联系,我们证明了以下命题(证明在补充文件中提供)。命题1在[18]中获得的函数关系式在等式1中示出。(16)(与本工作中的一致性符号)是等效的,在方程。(15)通过这项工作获得的。J3=UK..G.2UT ∫J4H、symΣΣUlog(D)∫+D−1∫UTJ4UH,, ΣdiagUT,(十六)其中K=UDUT;g~ij=(λi−λj)−1,其中ij和z从hwise;Adiag表示A的非对角线项全部被设置为零;并且表示(A + AT)/2。与算子理论中的结果相联系,不仅便于获得一般SPD矩阵函数的导数,而且还为我们提供了对这些函数的更多见解,这可能对未来的研究有用。4.3矩阵梯度的数值稳定性问题与[18]中的推导相关的数值稳定性问题解释如下。回想一下等式(16)在[18]中使用了m在rixfuncti上 对J3/K 的梯 度 。在rixG~ 处 ,当i= j时,在等式(1)中,e_e_g~ij=(λi-λj )-1,当i =j时,e_e_g ~i j =(λ i-λ j)-1,并且当i=j时,e_e_g ~ i j = 0。(十六)、当两个特征值太由于彼此接近,由于有限精度运算,λi将抵消λj,并且g~ij将最终消失。如[12]所报道的,这种情况在缓冲区预处理过程中发生。使用双精度不足以缓解问题所在以下是一些可能的解决方法:不包括导致该问题的批次或 导 致 该 问 题 的 批 次。然而,这些方法中的任何一种都会导致相当大的性能下降。10M Engin,L Wang,L Zhou,XLiuK∂α∼××在我们使用Daleckiˇi-Kreˇin进行建模时,这个问题在当量(12),其中gij定义为f(λi)−f(λj)λi−λ j如果当λi/=λj时λ i/=λj,且f′(λi)否则。在这种情况下,当λi太接近λj时,我们可以用公式表示当gij= limλi→λjf(λi)−f(λj),其中λj被视为常数。λi−λ j如果是不确定的,则通过应用Llimλ0f(λi)−f(λj)=lim′f(λi)= f ′(λ)。 这样,数字化的...i→λ jλi−λjλi→λj1j[18]中的不确定性是可以避免的。这一理论分析将进一步支持本文后面进行的实验。4.4矩阵α-根正规化的推广我们知道最近在深度学习结构中使用矩阵平方根[12,10]来处理SPD矩阵的黎曼几何的成功。除了强调矩阵的平方根和矩阵对数是两个特殊的情况下,我们的推导方程。(12),我们进一步将现有的矩阵平方根正规化推广到我们称之为“矩阵α -根”正规化的情况它被定义为f(λ)=λα,其中α是由我们的DeepKSPD框架共同学习的参数,而不是固定为0。5在矩阵平方根归一化。J3仍将保持在方程中。(15)并且关于参数α的导数J可以推导为:Jα=迹线. ∫J4H,TΣΣΣU(log(D)◦Dα)UT、(十七)其中U和D是前面K的特征分解。注意,这个矩阵α-rooting在反向传播中仍然保证数值稳定,如4.3节所示其性能也将在以后的实验中得到验证5实验结果我们有两个任务:i)测试基于深度本地描述符构建的KSPD的性能,以及ii)测试所提出的DeepKSPD网络在细粒度图像和场景识别上的性能。边界框并非在所有数据集中使用示例图像在补充文件中。数据集。测试了四个基准数据集。对于场景识别,MIT室内数据集有67个类,具有预定义的5600个训练图像和1340个测试图像。对于细粒度图像识别,测试了汽车[23],鸟类[24]和飞机[25]的三个数据集。 Cars数据集有来自196个类别的16185张图像;飞机包含10200个图像的100类(变种)。鸟类有11788个样本的200种鸟类。请注意,为了具有与飞机数据集上的[13]和[12]进行公平比较,首先调整图像大小512 512,然后裁剪中心448 448块。 这将分类精度提高了2%~ 3%。拟定方法的设定 对于第一个任务,我们提出了一种称为KSPD-VGG的方法,该方法在用于细粒度图像识别的深度核SPD表示11××∼在ImageNet上预训练的VGG-19深度本地描述符。具体地,最后一个卷积层的512个特征图(大小为27 - 27)被重塑以形成具有729的维度的512个向量。这些向量进一步用于计算512 512核矩阵K。然后,应用矩阵对数,并通过PCA降维(至4096维)、标准化(至零均值和单位标准差)和2归一化来进一步处理所有图像的所得KSPD表示。采用线性SVM分类器来执行分类。对于第二个任务,训练和测试所提出的DeepKSPD网络。DeepKSPD有三个模块(图1)。①的人。在局部描述符块中,网络超参数按照VGG-16设置。在建议的KSPD块中,不需要调整超参数,θ和α将自动学习,其初始值设置为0。1和0。5,对于所有实验。我们测试了矩阵对 数 ( 表 示 为 DeepKSPD-logm ) 和 矩 阵 α- 根 ( 表 示 为 DeepKSPD-rootm)规范化。在分类块中,FC层的大小被设置为每个数据集的类的数量DeepKSPD由自适应矩估计(Adam)以小批量模式(批量大小为20)进行训练。应用两步训练程序[26],因为观察到良好的性能[26,21]。具体来说,我们首先使用softmax回归对最后一总训练时期为70 100。我们只在训练时间中使用翻转作为数据增强。方法比较。 我们将我们的KSPD-VGG和DeepKSPD与文献中可比较或竞争的方法进行比较,如表1中的第一列,并大致分为三类。第一类可以被认为是特征提取方法,KSPD-VGG属于这一类。 该类 别 还 包 括FV-SIFT [27]、 FC-VGG [18]、 FV-VGG [28] 和 COV-VGG(代表基于协方差矩阵的SPD表示)。 C 0V-VGG的设置类似于KSPD-VGG的设置,只不过构造了协方差矩阵而不是核矩阵。请注意,我们直接引用了文献中FV-SIFT和FC-VGG的结果,并提供了我们自己的FV-VGG,COV-VGG和KSPD-VGG的实现,以确保公平比较的相同设置。第二类包括六种端到端学习方法。DeepKSPD-logm和DeepKSPD-rootm是所提出的方法。B-CNN表示双线性CNN方法[21],而改进的BCNN [12]是B-CNN的扩展,其中应用了矩阵平方根CBP [14]和LRBP[11]都是基于COV的方法,KP [17]使用泰勒级数估计高斯RBF特征在第三类中,引用了以前在这些数据集上报告的其他方法,以扩展比较并提供整体情况。结果和讨论。 从表1中,我们得到以下观察结果。首先,所提出的KSPD-VGG、DeepKSPD-logm、DeepKSPD-rootm证明了它们对于视觉识别的有效性。在每个数据集上,所提出的DeepKSPD都实现了最佳性能。此外,DeepKSPD优于KSPD-VGG(高达9. 7个百分点的汽车)和其他竞争性的冰毒-12M Engin,L Wang,L Zhou,XLiu表1. 方法的比较ACC(%)MIT室内汽车飞机鸟类平均[29]第二十九话–78岁0七十二5––FV-重访[30]–82岁7八十7––FV-SIFT [27]–五十九2 61岁0十八岁8–FC-VGG [21]67岁6三十六5 四十五061岁052岁5[28]第二十八话七十三。775. 2七十二7七十一3七十三。1[21]第二十一话−八十五7 78岁774岁7七十三。1COV-VGG74岁2八十381. 47678岁0KSPD-VGG(拟定)七十七。283岁583岁878岁5八十1BCNN [13]七十七。691. 386岁。684. 184. 5改进的BCNN [12]−92. 088岁5八十五8−[14]第十四话七十六。17−−84. 0−LRBP [11]−九十987岁384. 2−KP [17]−92. 486岁。986岁。2−DeepKSPD-logm(拟定)79岁。6九十591.584. 886岁。6DeepKSPD-rootm(拟定)81.093.291. 086.587.9ods , 演 示 了 基 于 内 核 矩 阵 表 示 的 端 到 端 学 习 的 要 点 。 在 两 种DeepKSPD方法中,DeepKSPD-rootm在MIT室内、汽车和鸟类上表现更好,而DeepKSPD-logm在飞机上表现更好总的来说,DeepKSPD-rootm胜过DeepKSPD-logm,这与[13]中的观察结果一致,即矩阵α-rooting似乎在矩阵对数上缩放特征值方面具有一些优势。其次,基于KSPD的方法在所有数据集上始终赢得基于COV的方法(或双耳),无论是基于特征提取(KSPD-VGG vs COV-VGG)还是使用端到端训练(Deep KSPD vs其他基于COV的方法,包括B-CNN、改进的B-CNN、CBP和LRBP)。有趣的是,通过近似核表示,KP也显示出有前途的性能,这支持了我们采用核表示进行视觉识别的论点然而,这种方法既不直接学习核表示,也不显式地处理SPD矩阵的黎曼几何,因为我们的方法。相反,它通过泰勒展开来近似核表示。第三,SPD表示(其基于外积、协方差或核矩阵)在给定任务中优于Fisher向量表示。DeepKSPD还优于从微调的VGG获得的FV-VGG-ft16. 后者达到78。7%的飞机,74。7%的鸟类,85。7%对汽车[21],这比81更糟糕。0%,86。5%,93。2%由DeepKSPD实现。第四,在文献中,由于数值不稳定性问题,直到我们的工作,矩阵对数归一化还没有非常成功地结合到深度CNN中。此外,由于与矩阵平方根相比结果较差,因此被驳回。我们的数值稳定梯度使得将矩阵对数嵌入到深度架构中成为可能。更重要的是,我们证明了矩阵对数仍然是相关的,因为它在飞机数据集上产生了最好的结果。因此,处理黎曼几何的矩阵函数可以被视为超参数,并通过验证机制适当地选择。用于细粒度图像识别的深度核SPD表示13ACC(%) MIT室内汽车飞机鸟类改进BCNN [12]−92. 088岁5八十五8深度COV-鲁特姆79岁。291. 788岁7八十五4DeepKSPD-鲁特姆81. 0九十三291. 086岁。5图二、 数值稳定性。表2. DeepKSPD vs Deep-COV。数值稳定性在结束实验部分之前,我们还对我们的矩阵导数公式的数值稳定性进行了测试。我们研究了我们的DeepKSPD-logm在MIT室内数据集上的性能,其中矩阵对数的导数分别由[18]和我们的公式计算。结果见图(二)、可以看出,我们的方法在所有时期中一致地实现了较低的分类误差。经过100次训练,分类误差为22。4%使用我们的方法,24%使用配方在[18]中,很好地证明了我们导出的统一解决方案的优点6消融研究与文献不同的是,我们的框架在池化层之前使用了L2传统上,这些层不用于双线性模型。然而,RBF核矩阵具有与协方差矩阵非常不同的性质如前所述,其核值被限制在0和1之间。如果一个特征通道在幅度方面优于其他特征通道机器学习中解决这个问题的一种常见方法是将特征通道标准化,使它们在幅度上具有可比性。我们也采用这种方法,并集成L2规范化作为一个层到我们的框架之前,内核池阶段。后处理在SPD表示中非常重要。在文献中,双线性模型[14,12,21,17,11]使用元素符号根,然后是L2归一化层,其贡献了约5.7%[21]的分类精度。在我们的框架中,KSPD层有一个参数θ,必须正确初始化。我们发现,用于处理卷积层初始化不良的批量归一化层可以用于此任务。因此,我们用批量归一化层替换逐元素符号平方根在下表中,使用在VGG-16网络上构建的DeepKSPD-rootm结构进行实验根据表3,平均而言,批次归一化层贡献2。业绩的56%;而逐元素有符号平方根+L2归一化处理将性能提高约1。百分之四十五此外,收敛大约快3倍。最重要的是,我们的设计选择允许14M Engin,L Wang,L Zhou,XLiu表3. 后处理的比较表4. 最终参数值ACC(%) MIT室内汽车 飞机鸟类DeepKSPD-sqrt-L2八十6九十1 86岁。1 84. 7DeepKSPD-不含BN七十七。689岁。684. 381. 0DeepKSPD-带BN81. 0九十三291. 086岁。5ACC(%)MIT室内汽车飞机鸟类初始θ0的情况。10的情况。10的情况。10的情况。1初始α0的情况。50的情况。50的情况。50的情况。5最终θ0的情况。631 .一、4 0的情况。670的情况。93通用初始值(我们选择0。1)对于所有数据集的参数θ。请注意,我们对θ进行网格搜索,并在表3中报告DeepKSPD-sqrt-L2和DeepKSPD-w/o BN的最佳结果。在表4中给出了α和θ的初始值和最终 在文献[12,10]中用基质生根做了类似的实验;然而,作者仅进行网格搜索以找到最佳根。在我们的工作中,我们提供了矩阵求根的导数,并在每次迭代中更新根幂α如图所示,α值与其初始值偏差不大。然而,θ值的最终值与它们的起始点大不相同。即使初始θ远低于其最终值,DeepKSPD在每种情况下都表现出色;支持我们的设计选择来解决初始化问题。6.1核表示与协方差表示由于DeepKSPD不采用与双线性方法相同的网络,为了显示纯粹来自核化的好处,我们在它们共享相同网络时测试协方差和核为此,我们引入了另一种称为DeepCOV的模型,其与DeepKSPD相同,除了Deep-COV采用基于协方差的矩阵表示。我们在表2中比较了DeepCOV如图所示,在所有数据集上,DeepKSPD都优于DeepCOV。这清楚地证明了核化局部描述符优于它们的二阶池化此外,DeepCOV的表现几乎与[12]相同。这表明,在我们的DeepKSPD中设计的层和策略很好地满足了KSPD表示的特殊特性,这些特性不一定在双线性模型中呈现。7结论受SPD表示的最新进展的启发,我们开发了一个深度神经网络,该网络联合学习局部描述符和基于核矩阵的SPD表示,用于细粒度图像识别。推导了反向传播过程所需的矩阵导数,并将其与正定矩阵理论的已有文献相在基准数据集上的实验结果表明,当构建在深度局部描述符上时,基于内核矩阵的SPD表示的性能有所改善,并且所提出的DeepKSPD网络具有优越性。用于细粒度图像识别的深度核SPD表示15引用1. Sivic,J.,齐瑟曼,A.:视频google:一种用于视频对象匹配的文本检索方法。第九届IEEE计算机视觉国际会议(ICCV 2003)。(2003)14702. 王杰,杨杰,Yu,K. Lv,F.,Huang,T.S.,Gong,Y.:用于图像分类的局部约束线性编码。在:第二十三届IEEE计算机视觉和模式识别会议,CVPR 2010。(2010)33603. 我是H., Do uze,M., Schmid,C., P'erez,P. :一种将图像压缩成紧凑图像表示的方法在:第二十三届IEEE计算机视觉和模式识别会议,CVPR 2010中。(2010)33044. 是的,J Perronnin,F., Mensin k,T., Ver bee k,J. J. :Ima g ec lasictionthfisher vector:理论和实践国际计算机视觉杂志105(3)(2013)2225. Jayasumana,S.,哈特利,RI,Salzmann,M.,Li,H.,Harandi,M.T.:内核方法对称正定矩阵黎曼流形上的ods 2013年IEEE计算机视觉与模式识别会议(2013年)736. 王,R.,郭,H.,戴维斯,L.S.,Dai,Q.:协方差判别学习:一种自然而有效的图像集分类方法。[7]二四九六至二五零三7. 2012年IEEE计算机视觉和模式识别会议,普罗维登斯,RI,美国,2012年6月16日至21日,IEEE计算机学会(2012年)8. 弗利特DJ Pajdla,T.,Schiele,B.,Tuytelaars,T.,编辑:计算机视觉- ECCV2014 -第13届欧洲会议,瑞士苏黎世,2014年9月6日至12日,Proceedings,第II部分。计算机科学讲义第8690卷Spuringer(2014)9. 巴赫,F.R. Blei,D.M.,编辑:Proceedings of the 32nd International Conferenceon Machine Learning,ICML 2015,Lille,France,6-11 July 2015. JMLR研讨会和会议记录第37卷。JMLR.org(2015)10. Li,P.,谢,J.,王建奎,左伟:二阶信息对大规模视觉识别有帮助吗?在:IEEE国际计算机视觉会议,ICCV 2017,意大利威尼斯,2017年10月22日至29日(2017年)208911. Kong , S. , Fowlkes , C.C. : 用 于 细 粒 度 分 类 的 低 秩 双 线 性 池CoRRabs/1611.05109(2016)12. Lin,T.Y.,Maji,S.:使用CNN改进双线性池。英国机器视觉会议(BMVC)(2017年)13. Lin,T.Y.,RoyChowdhury,A. Maji,S.:用于细粒度视觉识别的双线性cnn。Transactions of Pattern Analysis and Machine Intelligence(PAMI)(2017年)14. 高,Y.,Beijbom,O.,Zhang,N.,达雷尔,T.:紧凑的双线性池。Corrabs/1511.06062(2015)15. Harandi,M.T. Salzmann,M.,Porikli,F.M.:无穷维协方差矩阵的Bregman发散
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功