全局高斯分布嵌入网络对图像识别的改进

180 浏览量更新于2023-10-16 收藏 748KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2730G2DeNet：全局高斯分布嵌入网络及其在视觉识别王启龙1，李培华1，张磊21大连理工大学2香港理工大学网址：qlwang@mail.dlut.edu.cn，peihuali@dlut.edu.cn，网址：www.example.com，cslzhang@comp.polyu.edu.hk摘要最近，将可训练结构层插入深度卷积神经网络（CNN）作为图像表示已经取得了可喜的进展。然而，在以端到端的方式将参数概率分布（可以有效地对特征统计进行建模）插入深度CNN方面的工作很少。本文提出了一种全局高斯分布嵌入网络（G2DeNet），为解决这一问题迈出了一步.G2DeNet的核心是一个新的全局高斯可训练层，作为插入深度CNN的图像表示，用于端到端学习。挑战在于，所提出的层涉及高斯分布，其空间不是线性空间，这使得其向前和向后传播是非直观和非平凡的。为了解决这个问题，我们采用了一种高斯嵌入策略，该策略同时考虑了黎曼流形和高斯光滑群的结构在此基础上，我们构造了全局高斯嵌入层，并将其分解为两个子层：矩阵分解子层和平方根对称正定矩阵子层，矩阵分解子层用于解耦嵌入矩阵中的均值向量和协通过这种方式，我们可以导出与所提出的结构层相关联的偏导数，从而允许梯度的反向传播在大规模区域分类和细粒度识别任务上的实验结果表明，G2DeNet优于同类算法，能够达到最先进的性能。1. 介绍将预训练的深度卷积神经网络（CNN）的卷积层或全连接层的激活建模为图像表示已经非常困难。李晓波，谁的信件应解决，由国家自然科学基金的中国（第2009号）支持。 61471082 ）。 L. 国家自然科学基金项目（ No.61672446）。我们感谢NVIDIA公司捐赠GPU。在各种计算机视觉任务中取得了成功，例如物体识别[25]，图像检索[9]和纹理分类[6]。然而，这些方法处理特征学习、图像建模和损失函数（例如，分类器）在分离的阶段中。最近的研究表明，以端到端的方式将建模方法作为结构层插入深度CNN架构中是有意义和有帮助的[14，24，1，37]。与[9，6]相比，端到端方法可以联合利用学习特征、表示图像和训练分类器的能力[1，29]。为了表示图像，概率分布被广泛使用，因为它们通常能够对特征的丰富统计数据进行建模，从而产生固定大小的表示，而不管特征大小如何变化[28，32，33，40]。不幸的是，很少有工作试图将可训练的概率分布建模层插入深度CNN。Oliva等人[29]努力提出一种深度均值映射（DMMs）方法，该方法可以将一系列非参数分布插入深度CNN。通过利用随机傅立叶特征的平均值[31]来近似分布的平均图嵌入[11]，DMMs层被分解为卷积、逐像素余弦和平均池化的常见操作据报道，DMMs层在几个真实世界的数据集上改进了现有的CNN然而，DMMs方法不考虑单个分布的特殊特性，例如，指数分布具有特定的几何结构。尽管已经研究了DMMs方法，但是将参数概率分布建模结合到深度CNN中仍然是一个开放的问题。在本文中，我们将朝着解决这个问题迈出一具体来说，如[28，33，40]所述，我们使用全局高斯作为图像表示，并提出了一个全局高斯嵌入层，以将它们组合到深度CNN架构中。与DMM [29]相反，我们通过考虑高斯的参数（即，平均向量和协方差矩阵），而不是使用DMM中的分布的近似嵌入。这使得27311电子邮件μ2你好，你好μT1XYF（X）1AXTXA1MPLNf（Y）ESRL2AXT1bBNsymZf（Z）......图1. 全球高斯分布嵌入网络（G2DeNet）的概述.G2DeNet的核心是一个新的全局高斯层作为图像表示，以端到端的方式插入深度CNN的最后一个卷积层之后。通过首先识别高斯作为基于李群理论的SPD矩阵的平方根，我们将层分解为两个子层，并开发了一种使用矩阵变分和SVD计算偏导数的方法有关详细的数学符号，请参阅第3节。我们的方法更具挑战性，因为我们需要考虑高斯的黎曼结构及其在深层CNN中的向前和向后传播。为了将高斯表示作为深层CNN中的一层，我们首先利用基于李群理论的高斯嵌入为了使我们的全局高斯嵌入层可训练，我们将其分解为两个连续子层：矩阵划分子层和平方根SPD矩阵子层。第一子层将嵌入矩阵中纠缠的均值向量和协方差矩阵解耦，使得它可以被显式地写为特征的函数，而第二子层是通过奇异值分解（SVD）来计算SPD矩阵的平方根然后，我们开发了一种方法来计算偏导数与两个子层的基础上的矩阵变分理论通过这种方式，我们可以通过全局高斯嵌入层执行向前和向后传播。为方便起见，在下文中，所提出的网络被称为全局高斯分布嵌入网络（G2DeNet），其概述如图1所示. G2 DeNet的核心是一个全局高斯的可训练层作为图像表示，插入深度CNN的最后一个卷积层之后本文的贡献在于三个方面：（1）我们提出了一种新的可训练结构层，它可以将全局高斯分布插入深度CNN中，以实现强大的图像表示。据我们所知，这是第一次尝试将参数概率分布以端到端的形式插入CNN架构。(2)在技术上，为了使高斯流形上的前向和后向传播成为可能，我们利用了一种基于李群理论的高斯嵌入策略，并开发了一种结构化的反向传播方法。(3)在大规模MS-COCO [23]和chal-challening细粒度基准[39，27，20]上进行了广泛的实验，证明了所提出方法的优越性。2. 相关工作Ionescu等人[14]在端到端训练框架中建立全局结构化矩阵反向传播的理论和实践。特别是，他们提出了SVD或特征值分解（EIG）的变化定理，并实例化了DeepO2 P模型用于区域分类。DeepO2 P的核心是一个可训练的O2 P层，插入深度CNN架构，执行卷积特征的二阶池化。O2P层在DeepO2 P中，二阶非中心矩是SPD矩阵，其几何形状使用对数欧几里德度量[2]处理，导致SPD矩阵对数的反向传播。结构矩阵反向传播理论[14]激发了我们提出的方法在高斯流形上的反向传播。然而，与DeepO2 P不同的是，我们试图插入一个可训练的高斯分布层，其中高斯的几何形状与DeepO2 P中涉及的几何形状完全不同。具体来说，我们引入了一种基于李群理论的高斯嵌入策略，该策略将高斯唯一地注意，二阶矩可以被视为零均值的高斯分布。在第4.1节中，我们展示了我们的G2 DeNet在保持相当复杂性的同时，性能优于DeepO2P双线性CNN（BCNN）[24]模型在CNN架构中的最后一个卷积层之后插入一个该层计算来自两个CNN模型的特征的外积，然后执行求和池化和归一化。当两个CNN模型不同时，BCNN捕获不同特征源的相关性。如果两个CNN模型是相同的，那么外积加上求和池会导致二阶非线性。与DeepO2 P中一样，中心矩;不同的是，BCNN通过对所得SPD矩阵进行 2-normalization而不是DeepO2 P中使用的矩阵对数来执行spornormalizationfollo提出图像表示的参数，高斯2732]=1=1BCNN是一种用于端到端学习的分布式，同时尊重它们的流形和李群结构，这在理论和前向和后向传播的实现上都不同于BCNN。此外，第4.2节中的比较表明，在完全相同的实验设置下，提出的G2其他相关工作包括NetVLAD [1]和Fish- erNet [37]。他们都涉及到插入CNN架构，李群结构，即，它不仅是一个黎曼流形，而且是一个光滑群。本文利用文献[22]中的嵌入方法将高斯函数识别为正方形，根dSPD矩阵。Let+（+1）是所有+1阶上三角矩阵的李群的阶次，Let-1=LL是Let的逆的Cholesky分解，其中L是具有正对角的下三角矩阵通过由特征编码组成的可训练层的结构和池化以形成无序图像表示。NetVLAD实现了通用的可训练层-△（（，））= H，J=[客户端]J0 1、（1）局部聚集描述符的化向量（VLAD）[17]。FisherNet提出了一种以端到端学习方式实现Fisher向量（FV）[32]在实现方面，这两种方法都将嵌入层分解（经过适当的修改或简化）为卷积、软最大化和池化等典型操作，从而可以方便地使用层的现成实现。与他们不同的是，在我们G2 DeNet，可训练层涉及高斯分布，涉及流形上的结构反向传播，以及经典Gaussian（，n）唯一映射到矩阵H，J∈+（+1），其中eJ=L-. 然而，嵌入形式（1）不适合反向传播，Cholesky分解和矩阵求逆基于矩阵极分解和李群同构，矩阵H，J可以进一步映射到唯一的SPD矩阵设H，J=S，J，Q，J是H，J的左极分解，其中S，J和Q，J是一个（+1）×（+1）SPD矩阵和一个行列式为1的正交映射可以写成作为CNN不能简单地使用。3. 全局高斯分布嵌入（H，J）= S，J=[Σ+112、（二）网络并且Q，J是与H，J最接近的正交矩阵，即，在本节中，我们将介绍我们的全局高斯分布嵌入网络。使高斯在-Q，J=最小值R∈（+1）约翰，约翰，集成到CNN架构中，我们首先将高斯映射到平方根SPD矩阵。然后，我们提出了一种新的全局高斯嵌入层，并为我们的全局高斯嵌入层开发了一种结构化的反向传播方法。丁层。最后，对基于其他高斯嵌入方法的G2DeNet进行了简单的介绍其中表示Frobenius范数，（+1）表示（+1）×（+1）正交矩阵的集合。通过上述连续映射，我们引入的高斯嵌入可以表示如下：[1个Σ+3.1. 高斯嵌入（）（（，））=1.（三）在本文中，我们使用全局高斯作为图像表示。假设我们有一组多维特征X=[x1， . ，x]∈n×，其中e表示s矩阵转置。这些特征的高斯分布可以估计如下：大多数研究工作都是基于高斯的黎曼流形Nakayama等人[28]通过采用仿射坐标系将高斯嵌入平坦流形中。在文献[8]中，高斯映射到一个唯一的正定下三角仿射变换（PDLTAT）矩阵，其空间形成一个仿射群。（x）=1exp.-1（x-）-1（x-）2Σ）的情况下，Calvoet al.[4]和[26]第二十六话(2)2∣Σ∣2其中=1∑ x和x=1∑ （x-）（x-）分别为均值向量和协方差矩阵，其中，·表示矩阵行列式。高斯分布（，λ）由参数和λ确定。我们用（）表示多维高斯空间它早就知道[35]这个空间是黎曼空间，具有几何结构的流形。最近的一项工作[22]取得了进展，表明（）可以被赋予]212733将高斯空间嵌入Siegel群和黎曼对称空间，确定一个高斯作为一个唯一的SPD矩阵。注意，与上述仅考虑（）的黎曼流形结构的方法不同，我们引入的嵌入方法（3）利用李群结构，即，的黎曼流形的几何结构和光滑群的代数结构。高斯嵌入策略（3）不仅适用于反向传播，而且与第4.3.2节相比，还具有更好的性能。2734Y2U∂Λ（（3.2. 全局高斯嵌入层接下来，我们将根据嵌入形式（3）构造全局高斯嵌入层。为了便于实现这一层，我们将其分解为两个子层：矩阵分区子层和平方根SPD矩阵子层，如图1所示。3.2.1矩阵划分子层分区子层（4）与平方根SPD矩阵子层（6），我们可以完成高斯嵌入（3）。接下来，我们将展示所提出的全局高斯嵌入层的反向传播。3.3. 全局高斯嵌入层的反向传播算法为了实现全局高斯嵌入层的反向传播，我们需要计算e（Z），其中e（Z）[]2个X△我们表示Y=（X）=Σ+. 显然注意到G DeNet的一个子网络，其输入和输出是Z和Loss函数。在本文中，100万美元平均向量和协方差矩阵是纠缠的。该子层的目的是解耦Y并将其显式地写为输入特征X的函数。我们首先注意，存在恒等式，其中，x=1XX-。可以通过两个步骤来实现。第一步，我们计算（Z）. 为了实现这一点，我们在下面使用f（Z）代替。注意，Y是SPD矩阵，其SVDY经过一些基本的操作，我们有可以写成Y=UΛU由下式给出. 这一步Y=（X）（4）=1AXXA+2。AX1b+ B.∂ ∂ ∂：Y=：U+：Λ，（7）∂Y ∂U ∂Λ[客户端]在上面的等式中，A =I0其中I是×其中，U：V=tr（UV）表示UV的S个race，并且U表示U的变化。通过取Y的变分，我们有Y=U<$U+U <$U+U <$U。注意，U单位矩阵和0是多维零向量，b=正交，经过一些操作，我们可以得到[0，...， 0，1]是（+1）维向量，所有元素除了最后一个等于1之外，其余都是零，1是U=2U（K（ΛUYU））的情况下，其中所有元素s为一，并且f1-Λ=（U/YU），（8）nallyB=O00 1其中O是×零矩阵。的where（·）表示矩阵对角化，其中记法P=1（P+P）表示对称性Hadamard乘积，K是一个方阵，其e-如果scin =，则K=1/（2-2），否则K=0。体育教学在这样的操作之后，Y与X的意义是简单的。代入Eq.（8）转化为等式（7）、我们实现3.2.2 平方根SPD矩阵子层K= U2Λ KY（））简体中文U（）+∂Λ）联合（九）此子层的目的是计算平方根o1等式的推导[14]第一次在[14，Prop. 1]，的SPD矩阵Y，即，Z=（Y）=Y2. 很好-已知SPD矩阵可通过SVD对角化，对角线元素是正实数。具体地说，Y有SVD读者可参阅[15]以了解更多详情。我们继续计算m和m。在这里，链式法则由下式给出：Y= UΛU，（5）Z=Z∂Z ∂U：U +U∂Λ ：Λ。（十）其中eΛ=diag（1，· · ·，+1）是对角线，我们将变分Z= 2（UΛ-1按降序排列的特征值的乘积，U =1-1页2U）+[u1· · ·u+1]是一个n阶正交l矩阵x列通过对对应的特征向量进行归一化，2UΛΛU2（在上面的等式中，可以导出）埃奇价值公司Assuchesquar eroooffYcanbecom-bed=21U~2，∂1=-一个Λ2U ∂联合（十一）2735X简单地说，如下：乌兹∂Λ 2 ∂ZZ=1（Y）=U ~2U，（6）计算时间在第二步中，我们计算出par-11 1与矩阵分区子层相关联的tial导数所涉及的链式法则其中，Λ2=diag（2，···，2）被计算为元素一加一X=X：Y.（十二）特征值的明智平方根组合矩阵X2736]∂U∂ΛX高斯嵌入方法Nakayama等人[28]z=[（+），][详细]4. 实验在本节中，我们进行了两部分实验来评估我们的方法：卡尔沃等人[4]或Lovric 'et al.[26]Z=[4，26]+对数欧几里德[2]Z=log1[详细]MS-COCO 2014数据集[23]和具有挑战性的细粒度识别Birds-200-2011 [39]，FGVC-Aircraft [27]我们的Z=112 +21[20]第20话我们还验证了不同的训练方法和高斯嵌入策略对所提出的方法的影响我们通过使用表1.不同高斯嵌入方法的比较表示矩阵的向量化操作我们取Y相对于X的变化量，并将其代入方程。（十二）、经过一番安排，MatConvNet软件包[38]，并在配备单个NVIDIA Titan X GPU和64G RAM的PC。如[14]中所建议的，我们使用SVD而不是EIG来计算平方根SPD矩阵，因为SVD在数值上更稳定，并且由于2012年12月22日，= XAX+1b）（）A.（十三）Y当前GPU库对SVD或EIG的支持有限，并且由单一精度引起的结构化层的梯度精度较低。为了数值稳定性，我们增加一个小的总之，对于所提出的全局高斯嵌入-丁层，前向传播可以通过等式2来执行。（4）和（6），而反向传播可以通过等式（4）和（6）实现。（13），Eq.（9）和Eq。（十一）、我们的层可以插入到各种CNN架构中（例如，AlexNet [21]和VGG-VD-Net [34]）。在实践中，我们在最后一个卷积层之后插入我们的层（使用ReLU操作）。3.4. 基于G2DeNet的其他嵌入方法最后，我们介绍了其他三种嵌入方法，可以在我们的G2DeNet方法中使用不同高斯嵌入方法的嵌入形式比较见表1。[28]的反向传播规则由下式给出：正数1 e-3在整个文件中的对角条目的协方差矩阵。更多的实现细节在下面的小节中描述。4.1. 基于MS-COCO的区域分类用于区域分类任务的MS-COCO数据集包括来自80个类的超过89万个分割实例，分为大约60万个训练实例和29万个验证实例。在这部分实验中，我们主要将G2 DeNet与其对应的DeepO2 P [14]进行比较。为了公平比较，我们利用与[14]相同的实验设置，并使用作者1发布的代码，其中我们用建议的全局高斯嵌入层替换全局O2我们实现了G2DeNet，它表明了所提出的2016年10月21日，= 2XX（）下一页∂1：12-13）+1个（））2+ 1：2+（十四）层直接连接到softmax层，而G2 DeNet- FC表示建议的层连接到两个完全-连接层，然后是softmax层，就像AlexNet一样。两个网络都初始化为其中ey1：表示由y1， . ，表示将向量y整形为在y中具有相同数目的元素的方阵。与[4，26]相关的偏导数为AlexNet模型在ImageNet数据集上预训练[7]。我们还使用随机初始化（从头开始训练）实现了G2DeNet-FC，称为G2DeNet-FC（S）。我们将它们与相应的对应物进行2012年12月22日，=X）（）XA +1bZA.（十五）使用全局O2P层。与DeepO2 P一样，裁剪后的图像会调整大小，最大边为200像素，平移抖动和随机的水平翻转-[4，26]加上对数欧几里德框架[2]的反向传播公式的推导类似于第3.3节中描述的那些。偏导数ε和ε与等式相同。（13）和Eq.（9），分别，但和采取不同的形式如下：ping使用。我们使用随机梯度下降进行训练，动量为0.9，批量大小为100.G2DeNet、G2DeNet-FC和G2DeNet-FC（S）分别使用15、20和50个epoch进行训练，其中学习率设置为DeepO2 P中的一个epoch。（∂∂建议的G2 DeNet-FC的收敛曲线为= 2Ulog（Λ），=Λ-1UU。[2737乌兹∂ΛZ（十六）1该代码可在http://www.maths.lth.se/matematiklth/personal/sminchis/code/2738十点二十点一10010-0.110-0.210-0.310-0.4火车LVA05101520训练时期0.450.40.350.30.250.20.150.1火车Val05101520训练时期具体来说，我们与BCNN [D，D]进行比较，其中涉及的VGG-VD 16），并取得了大多数最佳结果。注意，在这种情况下，双线性池化方法共享相同的CNN模型，并导致卷积特征的二阶非中心矩。为了公平比较，我们尽可能采用与BCNN完全相同的实验设置，例如，两阶段训练方式、超参数、数据处理及SVM训练与测试2.为了实现我们的方法，我们将双线性层替换为建议的全局高斯嵌入层。图2.我们的G2DeNet-FC在MS-COCO上的收敛曲线AlexNet-FC[14]第十四话DeepO2P-FC（S）[14]DeepO2P-FC[1]呃。二十五328岁628岁9二十五2DMMs-FC[29日]2G DeNet（我们的）2G DeNet-FC(S)（我们的）2G DeNet-FC（我们的）呃。二十四岁6二十四岁4二十二岁621岁5表2. MS-COCO基准的分类错误（%）。由“AlexNet-FC”或“DeepO 2 P”指示的所有方法的结果与[ 14 ]重复。如图2所示。我们实现了最低的分类错误21。5%，第20期。我们注意到，G2 DeNet-FC的分类错误倾向于在最后一个时期之后下降，因此更多的训练时期可能会带来进一步的改善。G2DeNet-FC的训练和测试时间分别约为3我们的G2 DeNet-FC与DeepO2 P-FC具有相似的时间复杂度。MS-COCO的比较结果列于表2中。AlexNet-FC方法表示微调的AlexNet，其中最后一层被80路softmax层取代。我们还通过在AlexNet中插入4，096个频率的DMMs层来实现DMMs方法[29]，其设置与G2DeNet-FC相同，称为DMMs-FC。根据表2，我们有以下论述：(1)我们的G2 DeNet-FC达到了最佳效果，大大改进了DeepO 2 P-FC和DMMs-FC方法（3. 7%和3. 1%）;（2）在不同场景下，在相同设置下， G2DeNet 始终优于DeepO2我们归因于所提出的全局高斯嵌入层优于O2P层;（3）我们的G2DeNet-FC也远远优于AlexNet-FC，证明了将概率分布适当地插入为图像表示到深度CNN中是非常有益的。4.2. 细粒度识别实验的第二部分是在三个细粒度的图像基准上进行的，由于类内变化大，类间差异小，识别任务具有挑战性。我们主要与BCNN [24]进行比较，BCNN是我们的G2 DeNet的对应物之一，这是一种最先进的细粒度识别方法。4.2.1鸟类-200-2011年Birds-200-2011是一个具有挑战性的数据集，包括来自200种鸟类的11，788张图像。提供固定的训练和测试分割来评估不同的方法。在这个数据集上，通常考虑部分注释（Parts）和边界框（BBox）来开发训练或测试中的识别方法遵循BCNN中使用的协议，我们在两种情况下评估我们的G2 DeNet，即，使用或不使用边界框训练和测试G2不同方法的结果列于表3中。我们首先在相同的实验设置中将我们的G2DeNet与FC-CNN，FV-CNN和BCNN进行比较。FC-CNN提取倒数第二个全连接层的输出 FV-CNN [6]执行使用Fisher向量（FV）[32]方法对最后一个卷积层的特征进行编码和合并，在许多图像识别任务上取得了令人满意的结果。BCNN通过池化两个CNN模型的最后一个卷积层（使用ReLU操作）的输出的外积来获得最先进的性能[24]。这些表示被馈送到one-vs-all SVM分类器进行训练和测试。在没有边界框的情况下，我们的G2DeNet表现优于FC-CNN、FV-CNN和BCNN了16. 百分之七，十二。4%和3。1%，分别。当绑定箱使用，所有方法的性能可以提高，G2 DeNet 仍然比 FC-CNN ， FV-CNN 和 BCNN 好 11 。2%，10. 1%和2。5%，分别。这三种方法的显著改进表明，我们的全局高斯嵌入层的优越性我们还比较了最近提出的六种方法，据我们所知，这些方法报告了以前的最佳结果，而没有利用额外的训练数据3。RAID-G [40]提出了一种基于预训练VGG-VD 19模型（无微调）的鲁棒无限维高斯描述符，得到82分。1%的准确度，没有零件和BBox。PG-对齐[18]通过使用以无监督的方式进行共分割和对齐2我们使用[24]作者发布的源代码，可在https://bitbucket.org/tsungyu/bcnn-package网站。[3]最近的一项研究报告的准确率为92。3%通过使用来自网络的大规模额外注释鸟类图像[19]。目的误差2739方法火车测试预训练CNN模型准确度（%）BBox部分BBox部分[18]第十八话✓✓VGG-VD1982岁8RAID-G [40]VGG-VD1982岁1[16]第十六话Inception+BN84. 1PD+FC+SWFV-CNN [42]VGG-VD1684. 5SPDA-CNN+ensemble [41]✓✓✓VGG-VD16 + AlexNet八十五1CNN [3]✓✓✓✓AlexNet八十五4FC-CNN [D]（w/ft）VGG-VD16七十4FC-CNN [D]（w/ft）✓✓VGG-VD16七十六。4[6]第一届中国国际航空航天博览会VGG-VD1674岁7[6]第一届中国国际航空航天博览会✓✓VGG-VD16七十七。5美国有线电视新闻网（CNN）[24]VGG-VD1684. 0美国有线电视新闻网（CNN）[24]✓✓VGG-VD1684. 8美国有线电视新闻网（CNN）[24]✓✓VGG-VD16 + VGG-M八十五12G DeNet（我们的）VGG-VD1687岁12G DeNet（我们的）✓✓VGG-VD1687岁6表3.在Birds-200-2011数据集上采用不同实验方案对不同方法的分类精度进行了 FC-CNN，FV-CNN和BCNN的结果与[24]重复。其他方法的结果分别来自原始文献。结合边界框和微调的VGG-VD 19模型，PG对齐实现了82。8%的准确率。ST-CNN [16]介绍了一种可训练的空间Transformer（ST）模块，用于克服现有CNN缺乏空间不变性的问题。使用CNN架构。基于Inception架构的微调ST-CNN具有批量归一化[13]，获得了84。1%的准确度。Zhang等人[42]在考虑滤波器响应的同时提出了一种零件检测器（PD），并使用空间加权（SW）FV表示零件袋。CNN和FC-CNN。他们报告的准确率为84.5%。语义部分检测和抽象CNN（SPDA-CNN）[41]开发了一种端到端架构，包含两个子网络，用于执行语义部分检测。在一个统一的框架内进行评估和评估。SPDA-CNN的准确率为 85。VGG-VD 16模型和 AlexNet 的集成为1%。Branson等人[3]提出了一种姿势归一化深度卷积神经网络（PN-CNN）来定位和归一化图像补丁，而EM-采用深度CNN来提取用于补丁表示的特征。通过使用部分注释和边界框，PN-CNN实现了85。4%的准确率。我们的G2DeNet在所有报告的方法中取得了最好的结果.与ST-CNN相比，我们的G2DeNet产生了无序表示，它没有显式地考虑空间不变性，但优于执行特征空间变换的ST-CNN。这些方法[18，42，41，3]都利用了部分检测器或地面真实部分注释，这通常可以显著提高细粒度识别任务的识别精度。即使没有边界框和部分检测器，我们的G2 DeNet达到1. 百分之七点五。0%的涨幅超过他们。竞争结果表明，我们的G2DeNet是一个非常有鉴别力和鲁棒性的图像表示. 国际将部分标注与我们的G2 DeNet相结合可以进一步提高性能，这将是我们未来的工作。方法准确度（%）飞机汽车FC-CNN（VGG-VD16）74岁179岁。8FV-CNN（VGG-VD16）[6]七十七。6八十五7BCNN（VGG-VD16）[14]BCNN（VGG-VD16 + VGG-M）[14]84. 183岁9九十691. 32G DeNet（我们的，不带BBox）89岁。092. 5其他方法75. 九[五]九十[43]八十第七章[10]92. 第六章[18]表4. 各种方法在FGVC-飞机和FGVC-汽车基准上的分类精度。4.2.2FGVC-AircraftFGVC-飞机数据集[27]是FGComp 2013挑战赛的一部分，该挑战赛由100种飞机类别的10，000张图像组成与鸟类数据集相比，飞机的类间变化更为细微，在图像中飞机占据的区域更大，但背景更清晰我们利用数据集开发人员提供的固定训练/测试分割，并与FC-CNN，FV-CNN，BCNN与VGG-VD 16模型以及其他几种方法进行比较。不同方法的结果列于表4（中间栏）。我们可以看到，我们的G2DeNet更好比BCNN高出4倍。9%，表现优于FV-CNN和FC-CNN的11。4%和14。9%，分别。由于我们采用相同的CNN模型（即，VGG-VD 16），FC-CNN，FV-CNN和BCNN，我们将改进归因于所提出的全局高斯嵌入层。最后，我们注意到我们的G2DeNet大大优于传统方法[5，10]。4.2.3FGVC汽车FGVC-Cars数据集[20]也作为一部分呈现FGComp2013挑战赛，包含来自196个汽车类别的16，185张图片。按照通常使用的设置，我们采用提供的大致50-502740分裂除以-2741将数据转化为8，144个训练图像和8，041个测试图像。我们还比较了FC-CNN，FV-CNN，BCNN和其他两种最先进的方法。结果在表4中报告（最右列）。可以看出，我们的G2 DeNet比BCNN高出1. VGG-VD 16为9%。结合VGG-VD 16和VGG-M，BCNN得到了改善，但G2 DeNet仍然有1。2%的收益。同时，G2DeNet的性能优于最近报道的结果[43]，并且与之前的最佳结果[18]其中使用边界框4.3. 烧蚀实验与分析最后，我们使用不含BBox的Birds-200-2011数据集来分析不同训练方法的效果图3. 在Birds-200-2011数据集上使用VGG-VD 16的不同训练方法对G2 DeNet的影响可以进一步服从矩阵对数[2]，然而，这会产生不令人满意的结果。视角下和高斯嵌入策略。这里实验设置与第4.2节中的设置相同。计算，[4，26]保持特征值的[详细]14.3.1训练方法首先，我们使用三种基于VGG-VD 16模型的训练方法对我们提出的网络进行实验。第一个（VD 16-NoTr）以非端到端的方式将全局高斯嵌入层与在ImageNet数据集上预先训练的VGG-VD 16模型相结合，可以看作是没有任何训练的G2DeNet对于第二种方法，我们在鸟类数据集上对VGG-VD 16模型进行微调，然后将全局高斯嵌入层与微调后的VGG-VD 16相结合。这种方法被称为VD 16-FT，可以看作是以非端到端的方式训练G2DeNet 最后一个是我们的G2DeNet 。我们使用在ImageNet数据集上预训练的VGG-VD 16模型初始化它，然后以端到端的方式训练我们的G2DeNet。不同训练方法的结果如图3所示。我们G2 DeNet的性能优于VD 16-NoTr和VD 16-FT 5。9%和3。6%，分别。它表明，将全局高斯嵌入层插入深度CNN训练的端-to-end的训练效果明显优于未训练和单独训练的训练结果，同时也证明了本文提出的结构反向传播方法的有效性4.3.2高斯嵌入为了展示我们的高斯嵌入策略在G2 DeNet中的优势，我们将其与第3.4节中描述的其他三种高斯嵌入方法进行了比较。不同高斯嵌入方法的结果列于表5中。从它可以看出，我们介绍的嵌入方法实现了最好的性能，比竞争方法高出3%。百分之六。该-我们的嵌入方法在[28]和[29]上的改进，[4，26]可以归因于这样一个事实，即我们适当地使用李群结构的高斯，而后者两个只考虑流形结构。文[4，26]中的嵌入矩阵是对称正定的，并且[26][27][28][29][ 2分别用对数和平方根形成特征值的非线性标度我们认为，非线性标度可以看作是一种特征值归一化，在这种情况下，平方根可能比对数更有利。上述分析可以解释为什么不同的嵌入策略表现不同，但这个问题需要进一步研究在未来。方法Acc.（%）Nakayama等人[28日]83岁5卡尔沃等人[4]或Lovric 'et al.[26日]84. 1卡尔沃等人[4]或Lovric 'et al.+对数欧几里德[2]83岁8我们87岁1表5.Birds-200-2011数据集上G2 DeNet方法的不同高斯嵌入方法的比较5. 结论本文提出将全局高斯分布的可训练层作为图像表示以端到端的学习方式插入深度CNN架构中该算法在充分利用高斯的几何结构和光滑群的基础上，能有效地提取图像的一阶和二阶特征。在大规模区域分类和细粒度识别任务中的竞争性能证明了我们所提出的方法的有效性。据我们所知，我们是第一个以端到端的方式将参数统计建模与深度CNN明确结合起来的人。这可能会激发将其他参数分布插入CNN的兴趣和努力广义高斯分布[30]。所提出的全局高斯嵌入层是模块化的，并且没有要学习的参数Inception [36]和ResNet[12]）是我们未来的研究。我们还将研究所提出的方法的其他应用，例如，图像检索2742引用[1] R. Arandjelovic，P. Gronat，A. Torii，T. Pajdla和J.西维克NetVLAD：用于弱监督位置识别的CNN架构。在CVPR，2016年。第1、3条[2] V. Arsigny，P. Fillard，X. Pennec和N.阿亚奇在对数欧几里德框架中对张量进行快速简单的演算。在MICCAI，2005年。二、五、八[3] S.布兰森湾V. Horn、P. Perona和S. J·贝隆吉使用姿势归一化深度卷积网络改进鸟类识别。InBMVC，2014. 7[4] M. Calvo和J. M.奥勒基于Siegel群嵌入的多元正态分布之间的距离。JMVA，35（2）：223-242，1990. 三、五、八[5] Y. Chai，V. Lempitsky，and A.齐瑟曼。用于细粒度分类的共生分割和部分定位。InICCV，2013. 7[6] M. Cimpoi，S. Maji和A.维达尔迪用于纹理识别和分割的深度滤波器组。CVPR，2015。一、六、七[7] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。ImageNet：一个大规模的分层图像数据库。CVPR，2009。5[8] L. 龚氏T.Wang和F.刘某高斯形状作为特征描述符。CVPR，2009。3[9] Y.贡湖，澳-地王河，巴西-地Guo和S. Lazebnik深度卷积激活特征的多尺度无序池化。2014年，在ECCV。1[10] P. H. 戈塞林 Murra y，H. Je′gou和F. 佩罗宁针对细粒度分类的Fisher向量的重新评估模式识别Lett. ，49：92-98，2014. 7[11] A. Gretton，K. Borgwardt，M. 拉施湾 Schlkopf，以及A. 斯莫拉两样本问题的核方法NIPS，2007年。1[12] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。8[13] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML，2015。7[14] C.约内斯库岛Vantzos和C.斯明奇塞斯库具有结构层的深层网络的矩阵反向传播。在ICCV，2015年。一、二、四、五、六、七[15] C. 约内斯库岛Vantzos和C.斯明奇塞斯库通过矩阵反向传播训练arXiv，abs/1509.07838，2015年。4[16] M.贾德伯格K.西蒙尼扬A.齐瑟曼和K.卡武克丘奥卢。空间Transformer网络。2015年，在NIPS中。7[17] H. Je' gou，F.Perronnin，M.Douze，J.桑切斯山口。佩雷斯，还有C.施密特将局部图像描述符聚合成压缩代码。IEEETPAMI，34（9）：1704-1716，2012年。3[18] J. Krause，H. Jin，J. Yang，and L.飞飞无需零件注释的细粒度识别。 CVPR，2015。六七八[19] 克劳斯，B. 萨普A. 霍华德H. Zhou，中国古柏A.托舍夫T. Duerig，J.Philbin和L.飞飞噪声数据对细粒度识别的不合理影响在ECCV，2016年。6[20] J. Krause，M. Stark、J.Deng和L.飞飞用于细粒度分类的3D对象表示在3D表示和识别研讨会上，2013年。二、五、七[21] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS，2012年。5[22] P. 李角Wang，H.Zeng和L.张某局部对数欧多元高斯描述子及其在图像分类中的应用。IEEE TPAMI，39（4）：803-817，2017。3[23] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra- manan ， P. Dollr ，和 C. L. 齐特尼克 MicrosoftCOCO：上下文中的公用对象。2014年，在ECCV。二、五[24] T.- Y. Lin，L. RoyChowdhury和S.玛吉用于细粒度视觉识别的双线性CNN模型。在ICCV，2015年。

下载后可阅读完整内容，剩余1页未读，立即下载