深度全局广义高斯网络的研究及其在深度卷积神经网络中的应用

114 浏览量更新于2023-10-20 收藏 648KB PDF 举报

图像分类

神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5080深度全局广义高斯网络王启龙1，李培华2，胡清华1，朱鹏飞1，左旺猛31天津大学2，大连理工大学3，哈尔滨工业大学{qlwang，胡清华，朱鹏飞}@ tju.edu.cn，peihuali@dlut.edu.cn，wmzuo@hit.edu.cn摘要1最近，全局协方差池（GCP）在提高深度卷积神经网络（CNN）的分类性能方面取得了很大进展。然而，前深度GCP网络计算卷积激活的协方差池，假设激活是从高斯分布中采样的，这在实践中可能不成立，并且无法完全表征激活的统计数据。为了解决这个问题，本文提出了一种新的深度全局广义高斯网络（3G-Net），其核心是估计广义高斯的全局协方差，用于对最后的卷积激活进行建模。10.80.60.40.2(a) 输入图像0.80.60.40.200 0.2 0.4 0.6 0.8(b) 第六频道10.80.60.40.2与高斯设置下的GCP相比，我们的3G网络假设激活的分布遵循广义00 0.2 0.4 0.6 0.8(c) 第六十七频道00 0.2 0.4 0.6 0.8(d) 第125频道高斯，它可以捕获更精确的激活特征。然而，不存在广义高斯参数估计的解析解，这使得我们的3G网络具有挑战性。为此，我们首先提出了一种新的正则化最大似然估计的鲁棒估计的广义高斯，它可以通过修改的迭代重新加权的方法进行优化。然后，为了在深度CNN架构下有效地估计广义高斯的协方差，我们通过开发展开重新加权模块和平方根协方差层来近似这种重新加权方法通过这种方式，3G-Net可以以端到端的方式灵活地进行训练。在大规模ImageNet-1 K和Places365数据集上进行了实验，结果表明我们的3G-Net优于同行，同时达到了非常有竞争力的性能。1. 介绍深度卷积神经网络（CNN）在计算机视觉社区中受到了极大的关注，并在许多任务中表现出巨大的优势，特别是在大规模视觉分类中[26，34，35，17，21，20]。然而，大多数深度CNN架构胡清华为通讯作者。我们感谢NVIDIA公司捐赠GPU。图1.给定输入图像（a）的最后卷积激活的直方图或分布的图示我们在一些通道中显示了分别使用全局平均池（GAP）[17]（黑条）和协方差池[28]（红线显然，它们都有长尾，不服从严格的高斯分布。仅使用简单的全局一阶池化方法总结最后的卷积激活，严重限制了深度CNN的表示能力。为了解决这个问题，研究人员以端到端的方式将一些全局协方差池（GCP）方法与深度CNN集成在一起，这对提高深度CNN的分类性能具有很大的效果[23，32，37，28，31，27]。在这些GCP网络中，Ionescuet al. [23]首先将二阶池（O2P）[4]层集成到深度CNN中，即DeepO2 P，并开发了用于端到端训练的矩阵反向传播理论。平行的工作是双线性CNN（B-CNN）[32]，它涉及从两个CNN模型中提取的最后一个卷积激活的外积，然后是元素级功率归一化和N2-归一化。当两个CNN模型相同时，B-CNN简化为卷积激活的全局二阶池。Wang等人[37]和Liet al. [28]分别插入全局高斯分布ResNet50 +协方差（高斯）ResNet50 + GAPResNet50 +协方差（高斯）ResNet50 + GAPResNet50 +协方差（高斯）ResNet50 + GAP5081在深度卷积神经网络的最后一层卷积层后进行矩阵幂归一化协方差池化，通过考虑高斯分布的几何性和协方差的鲁棒估计，获得了更好的随后，改进的B-CNN[31]根据经验表明矩阵平方根归一化可以改进 B-CNN，并使用修改的Denman-Beavers迭代[19]来加速网络的推理。Li等[27]开发基于Newton-Schulz迭代[19]的前向和反向传播方法，以加速矩阵平方根归一化协方差池网络的训练和推理[28]。尽管之前的深度GCP网络[23，32，37，28，31，27]已被证明可以提高深度CNN的表示能力，但这些方法计算协方差池时总是假设卷积激活遵循高斯分布。这种假设在实际情况中并不总是成立的为了验证它，我们从ImageNet-1 K中随机选择一些图像[9]，并计算从具有全局平均池化（GAP）的预训练CNN模型中提取的最后卷积激活的直方图[17]，以及从预训练GCP网络中提取的拟合分布图1绘制了一些通道中一个示例（其余其他示例具有相似性）的激活的直方图和分布。我们观察到从基于GAP的CNN提取的激活直方图或从GCP网络提取的激活直方图的分布都是长尾的，而不是严格遵守高斯分布。由于高斯模型无法表征长尾分布，高斯的协方差捕获激活特征的能力有限。与高斯模型相比，多元广义高斯模型能更好地刻画复杂分布，特别是长尾分布[2]。基于上述考虑，本文提出了一种深度全局广义高斯网络（3G-Net）。3G-Net的核心是通过计算广义高斯的全局协方差来总结最后一次卷积激活的统计数据，可以更精确地捕捉卷积激活的特征然而，与高斯背景下的协方差估计不同，广义高斯背景下的协方差估计不存在解析解，为了克服这个困难，受[38]的启发，我们首先提出了一个正则化的最大似然估计，它允许我们使用修改的迭代重新加权方法来鲁棒地估计广义高斯分布的协方差根据这个估计器，我们提出了一个展开重加权模块和平方根协方差层计算广义高斯的协方差展开重加权模块被设计为以近似但有效的方式迭代地估计每个激活的权重。平方根协方差层用于计算估计协方差的矩阵平方根，这是我们修改后的结果迭代重加权法通过这种方式，我们的3G网络可以以端到端的学习方式灵活地进行训练。我们提出的3G网络的概述如图2所示。实验在两个大规模图像基准上进行ImageNet-1 K [9]和Places 365[44]。本文的贡献可以归纳为以下几点。(1)我们提出了一种新的深度全局广义高斯网络（3G-Net），通过估计广义高斯的全局协方差来总结最后一次卷积激活的统计信息，旨在捕获激活的精确特征，并进一步提高深度CNN的表示能力。(2)据我们所知，我们首次尝试在深度CNN架构下稳健地估计从实现的角度来看，我们介绍了一个展开重加权模块和平方根协方差层的基础上提出的鲁棒估计。(3)在大规模ImageNet-1 K和Places 365上的实验结果表明，所提出的3G-Net优于ResNet架构[17]下的同类产品，并实现了最先进的性能。2. 相关工作最近，将优选的池化或编码方法集成到深度CNN中已经显示出在提高分类性能方面的有效性。与上述深度GCP网络相反[23，32，37，28，31，27]，一些研究人员研究近似协方差池以获得低维表示。其中，Gaoetal. [13]和Konget al. [25]分别提出Dai等人[8]通过简单地连接它们，将额外的一阶（均值）信息Gou等人[15]近似[37]通过引入齐次映射和子矩阵平方根层，然后是紧凑的B-CNN。内核池化[7]扩展了[13]到用于细粒度视觉识别的高阶（阶数>2）汇集Cai等人[3]提出了一种基于多项式核近似和秩1张量分解的紧凑高阶池[24]。与此同时，一些作品[40，30]将局部近似二阶统计纳入深度CNN的卷积或全连接层，以增加网络的非线性工程.此外，经典的Bag-of-Words模型也被嵌入到深度CNN中[1，29]。与上述方法不同的是，我们的3G-Net将广义高斯的全局协方差引入深度CNN，获得了更好的表示和更高的分类精度。我们的广义高斯层的协方差涉及到一个展开重新加权模块，用于迭代计算激活的权重。它与最近提出的深度CNN中的自我注意机制[20，39，11，41，12]具有相似性，其中Hu等人。[20]介绍5082……XXX平方根协方差展开重加权模块XX重新加权的T区组第2区组重新加权第1区组重新加权N其中yn=xn<$t−1xn，δ=Σn（yj2δβ我.我argmin（xxn）+Nlog|Σ|.（二）N我的天啊日本语简体中文图像骨干模型广义高斯层损失图2.概述所提出的深度全局广义高斯网络（3G-Net），其中在最后一个卷积块之后插入广义高斯的全局协方差，以总结激活的统计数据基于所提出的鲁棒协方差估计器，我们的广义高斯层的全局协方差由展开重加权模块和平方根协方差层组成- 将挤压和激励模块分成卷积块，对每个卷积块的输出执行通道加权更进一步，CBAM [41]扩展了[20]通过引入额外的空间注意力模块。Wang等人[39]和Duet al.[11]分别提出了非局部Fu等人[12]提出注意力建议子网络以迭代地生成多尺度区域注意力以用于获得表示。最近的许多工作都涉及将注意力模块集成到深度CNN中，对这些方法的全面综述超出了本文的范围。与这些方法不同的是，本文在改进的迭代重加权方法的基础上，提出了一种估计广义高斯协方差的展开重加权模型3. 该方法在本节中，我们将介绍我们提出的3G网络。注意，Eqn. (1)当β = 1和β = 0时，分别约化为高斯分布和拉普拉斯分布。五、显然，与高斯模型相比，MGGD能够表征更复杂的分布。此外，MGGD能够对长尾分布进行建模，更适合卷积激活（如图1所示）。然而，对于MGGD的参数估计没有封闭形式的解决方案如[43]所示，MGGD的最大似然估计（MLE）定义为：不−1βΣnn=1基于上述MLE（2），可以通过固定点算法（或迭代重新加权方法）[33，43]估计MGGD的协方差矩阵相应地，t-迭代中的迭代次数的估计被描述为：1NdT首先，我们简要回顾了多元遗传算法的定义n=Nyt+（yt）1−β（yt）β·xnxn，（3）广义高斯分布及其参数估计然后，我们构造了广义可训练协方差，高斯层。最后，我们描述了3G的实现n=1n ntT−1j=/nJ1ββDNJ网的广义高斯层的协方差3.1. 多元广义高斯分布为了总结最后一个卷积活动X ∈ Rd× N={x1，. - 是的- 是的..MGGD的协方差），其采用以下形式：可以通过Newton-Raphson程序[33]估计，即，′β t= β t−1− f（β t−1）/f（β t−1）。（四）′这里f（βt−1）是f（βt−1）的偏导数，f（βt−1）是与yt、βt−1和双伽玛函数相关联的函数（参见[33，等式10]）。（13）]。作为在[33]中证明，基于等式的MGGD的参数估计(3)（4）能收敛到一个稳定点。Γ（d/2）p（x;β;δ）=β（一）3.2. 广义Gaussian的可训练协方差iπd/2 Γ（d/2β）2d/2 β δd/2 |Σ|二分之一exp.−1（x−1xT）β，其中β和δ分别是MGGD的形状和尺度参数;γ是MGGD的协方差矩阵，并且Γ是Gamma函数。层为了构造我们的广义高斯层，我们首先引入正则化的MLE，广义高斯协方差的鲁棒估计然后，我们通过开发一个展开重加权模块和一个平方根协方差层来实现这个估计和β5083NJt−1ΣnΣ Nnnnnnnt−1表示第（t-1）次迭代中的加权激活以来t−1Nn=1nnnyt+c（yt）1−βt−1t−1t−1ΣNdt−13.2.1广义Gauss函数的抗差协方差估计最近的工作[38，28]表明高斯协方差的经典MLE在深度架构下不稳健，而稳健估计器有助于提高性能。因此，我们将类似的思想推广到广义高斯分布的协方差估计。如[38]中所建议的，我们在极大似然估计（2）中引入了矩阵I和单位矩阵I之间的von Neumann发散[10]经过一些操作，我们有Xt1Xt11x1转换逐元素乘法元素方面此外乙状图3.在我们的展开重加权模块中重加权块的示意图。1Σargmin（y）β+ log |Σ|+ λtr（λ − log（λ）），（5）n=1迭代可以计算为其中y=xT−1xλ是正则化常数。w（xn，nt−1）=yt+（yt）1−β<$（yt）β，（7）”[38]，《礼记》。（5）允许一个鲁棒估计器，深度架构下的广义高斯方差。然而，Eqn中的目标函数（5）没有─其中yt=xT−1xn，t−1=X^t−1X^T，且X^t−1催化剂溶液对于它的优化问题，我们提出了一种改进的迭代重加权法，从而得到了每一个最优解的解析表达式。abcn（yt）β与xn无关，我们可以改写方程n。（七）气让我们为1Nw（x，n））·xxT，其中w（x，n）Nd）=.（八）nnn是第（t-1）次迭代中的估计协方差Eqn的解(5)可以归纳为以下定理。定理1设 U_t = U_diag（σ_d）U_T是奇异的这里cn是一个正常数[33，注释II.3]。给定一组激活X={x1，...，xN}，我们可以计算X的权重为：值分解（SVD），其中Diag（σd）和U是对角和正交矩阵组成的singu-wt=Nd/NdΛ（Yt−1）+cΛ（Yt−1）1−β，（9）最大值σd和特征向量。然后，目标函数（5）可以迭代地优化为：N其中Yt−1 =XT−1X，c=[c1，. -是的-是的，cN]，以及Λ（Yt−1）e提取矩阵Yt−1的对角元素。和/表示逐元素的乘法和除法，1t=Nw（xnn=1，t−1 ）·xnxT，（6）分别然而，方程. (9)涉及矩阵求逆，^t=UDiag. ..1−λ2+λσd−λ1 −λλ你好，不适合GPU并行实现，减慢了网络的训练速度。为了处理这个问题，我们采用Newton-Schulz迭代[19]和张量近似[24]的思想来开发一个重新加权的块，因为它是一个新的块。这是第t次迭代中的唯一最优解。请注意，我们在所有实验中将λ设置为1，如下所示：如图3所示，其可以近似于Eqn。(9)以有效的方式。首先，为了避免计算反演对于t−1，我们将−1分解为−1/2−1/2。然后λ=0。λ=1时，t−1t−1t−1Y可以通过计算。−1/2X−1/2XGiv en我们的正则化迭代重加权方法鲁棒估计，广义Gaussian协方差矩阵重新加权激活和计算矩阵平方根Q0=Δt−1和P0=I，Δ t−1/2可以用下式计算：Newton-Schulz迭代法[19]：协方差。由于页数限制，完整的证明西奥-rem 1载于补充材料。1Qk=Q21k−1（3I-Pk−1Qk−1），3.2.2展开重加权模块根据方程式(6)我们的鲁棒估计器需要在每次迭代中计算激活的权重。具体而言，与第t个中的每个激活xn相XCnnj/=nJ不t−1nt−1w（xn，nt−1）表示等式n中xn的权重（3）和t-1更容易实现。根据定理1，5084t−1t−1Pk=2（3I − Pk−1Qk−1）Pk−1。（十）在K次迭代之后，QK和PK将分别变为φ1/2和φ−1/2。先前的工作[31，27]已经证明了方程。（10）可以实现令人满意的性能，5085t−1^ ^您的位置：t−1^t−1^ ^您的位置：√^ ^您的位置：^KΣ.tr（t）t）和补偿后（即，Σ^cΛ（Yt−1）是一个Hadamard乘积，其中我们使用Sigmoid函数和一个1×1卷积的简单-∂Σ^好吧pt−1Qk−12 Qk−1nk−12k−1中国02 第一季度0CIP1第一季度^ ^您的位置：2∂Σ−（tr（））2中文（简体）萨普只有一次迭代。它不要求我们近似为1/2−1/2式中，n=U^Λ^U^T是SVD的。而你，是一个不平凡的人。12采用一步Newton-Schulz迭代，即，t−1的值和特征向量。啊，指示1P1 =（3I− 1）21t−1）的情况。所以你们t−1 近似为特征值的逐元素平方根很容易见Eqn的计算(14)严重依赖于SVD或特征值分解（EIG）。Yt−1ZTZ，Z=（−X^t−1X^T+3I）X.（十一）然而，SVD或EIG在GPU上受到有限的支持减慢平方根协方差因此，对于r，我们在等式中计算eΛ（Yt−1）。（9）需要Λ（ZTZ）和Xt−1XT，两者都是二阶张量。根据张量近似的思想[30]，3，40]，我们使用可学习的1×1卷积，然后是元素乘积来近似它们。给定一个W×H×d张量Xt−1，它可以被整形为Xt−1，其中N=W×H，我们可以有效地实现Λ（Yt−1）如下：Λ（Yt−1）c^onv1×.conv1×（Zt−1），层[27]。等式(10) 给出了Newton-Schulz迭代法的形式[19]，它表明，当初始化Q 0= k，P0= I时，k可以用Qk来近似。与经由SVD（14）的矩阵平方根相比，等式（14）（10）只涉及矩阵乘法，适合GPU实现。在这里，我们采用最近提出的可训练迭代方法[27]，基于方程。（10）更好地利用多GPU，加速网络的训练如[27]中所建议的，额外的预归一化（即，Q0=1=tr（）QK）Zt−1 <$[conv1×（Xt−1） <$conv1×（Xt−1）]<$conv1×（ X），（十二）其中，conv1×和c^onv1×表示1和1×1的群convolutions，分别表示卷积;表示逐元素加法。Giv enΛ（Yt−1），权重wt计算如下：被雇用。因此，可以基于矩阵反向传播[23]导出损失函数l关于X具体地，后补偿的反向传播公式采用以下形式：Nd/.Λ（Yt−1）+c <$Λ（Yt−1）1−β<$。这里，Nd/（·）可以QK.tr..中文（简体）被视为对估计权重的归一化，l= =100000I.心理学，分别。最后，我们使用以下公式计算wt根据方程式(10)，第k次迭代的梯度为wφΛ（Y）（（Λ（Y））1−β），（13）l= 1。好吧3I-QP−P尔PK其中φ是Sigmoid函数。根据Eqns。(12)和（13），我们可以使用基本-Pk−1尔Qk−1Q1×1卷积，元素操作和Sigmoid功能，赋予其效率和直接返回-1.3I-QPl−Q尔QK传播为了估计广义高斯的协方差，我们需要计算方程。(9)反复本尔- -PPkk−1Qk−1（16）结束时，如图2所示，我们提出了一个展开重新加权模块。它由多个连续的重新加权的区块，每个区块的目的是实现l=1。好吧3I−Q−l−Ql。等式（九）、通过堆叠多个重加权块，我们可以灵活地构造我们的展开重加权模块。考虑Eqn. (15)，l相对于θ可以被计算为tr..我的天啊。3.2.3平方根协方差图层100万美元=2019 - 01 -2000：00：00I ++中文（简体）（十五）t−11×1t−1Kk−1k−1Pk−1k−1PKk−1Qk−145086^. （十七）(5)，我们需要计算协方差矩阵的平方根一旦估计了重量。在这里我们构造一个正方形最后，l关于X^的偏导数ive为：root covariance层来实现它。设加权激活为X^，我们可以计算X^的平方根方差为尔X^=X^公司简介∂Σ. ∂lΣTΣ∂Σ、（十八）1I^=（X^X^T）1/2=I ^1/2=U^~^2U^T，（14）给定Eqn.（18），我们可以完成反向传播-平方根协方差层的作用。.如Eqn. (6)，用于优化正则化的MLE50873.3. 深度全局广义高斯网络正如之前的方法[23，32，37，28]所建议的那样，我们通过在最后一个卷积块之后插入广义高斯层的拟议协方差来构建我们的深度全局广义高斯网络（3G-Net）。在本文中，我们使用ResNet-50和ResNet-101[17]作为骨干模型。在[28]中的设置之后，我们添加一个在最后一个卷积块和广义协方差之间用256个滤波器进行1×1高斯层，并在最后一级去除下采样因此，最后一次卷积激活的维度从2048减少到256，而它们的大小从2048增加到256。7×7到14×14，平衡效率和效果。为了完成我们的展开重加权模块，在等式中，输入和输出的通道数为conv1×。(12) 两者都设置为256。c^onv1×由两个连续的1×1卷积组成，其中输入和第一卷积中的输出分别设置为256，64，而第二卷积的卷积分别被设置为64和1。我们放弃了Eqn的逐元素功率运算。(13)在重新加权块中，实验结果表明，它对性能的影响很小。为了保证我们的3G-Net的效率，我们分别在展开重加权模块和最终平方根协方差层中运行一次迭代和五次迭代内的Newton-Schulz迭代（10），尽管更多的迭代可能会带来进一步的改进。通过执行矩阵三角剖分，我们的广义高斯层的协方差输出一个256（256+ 1）/2维的矢量进行最终预测。值得注意的是，我们的3G网络将带来额外的0。34 ×TM个参数（T表示迭代次数），比较-在高斯设置中与现有的深度全局协方差池网络进行比较[23，32，28，27]。4. 实验为了评估我们提出的3G-Net的有效性，我们在广泛使用的ImageNet-1 K [9]和Places 365 [44]数据集上进行了实验。我们首先描述了我们的3G-Net的训练细节最后，我们在ImageNet-1 K和Places 365上进行了比较。4.1. 培训详细信息为了训练我们的3G网络，我们采用与[34，17，28]相同的数据增强策略。具体来说，所有训练图像与平均减法和标准颜色增强的大小与他们的短边随机采样上[256，512]，并且从每个调整大小的图像中随机裁剪224×224使用随机水平翻转。福尔-降低[17]中的设置，我们使用SGD优化网络参数，其中 minibatch 大小为 256 ，动量为 0.9 ，权重衰减为0.0001。学习率为2423.52322.52221.5210 1 2 3 4不图4.迭代次数（T）对ImageNet-1 K上具有ResNet-50架构的拟议3G网络的影响。初始化为0.1，并且每30个时期除以10我们分别在ImageNet-1 K和Places 365上采用单中心crop和10-crop预测，并报告验证集上的top-1和top-5错误率进行比较。所有程序都使用PyTorch包1实现，并在配备四个Titan Xp GPU和64G RAM的PC4.2. ImageNet 1K迭代次数的影响迭代次数（T）我们修改的迭代重加权方法（即，展开重加权模块中的块数）在广义高斯协方差估计中起着关键为了评估参数T对我们的3G-Net的影响，我们使用ResNet-50作为骨干模型，并在ImageNet-1 K数据集上进行实验。它包含大约128万张训练图像和50 K张验证图像，这些图像是从1,000个对象类别中收集的。我们的3G-Net在不同迭代次数下的前1个错误如图4所示，其中我们还与基线方法进行了比较，即， ResNet-50 与 GAP [17] 和 iSQRT-COV[27]。请注意，具有iSQRT-COV的ResNet-50在高斯设置中估计协方差。增加迭代次数可以实现更低的分类错误，并且我们的3G-Net的性能在T=3时饱和（Top- 1错误率为21.31%）。较大的迭代次数带来的增益可以忽略不计，但计算和内存成本更高。与基线方法相比，我们的 3G-Net 优于基于 GAP 和 iSQRT-COV 的ResNet-50，Top-1误差分别超过2.6%和0.64%。基于上述结果，我们在以下实验中将T设置为3，以平衡有效性和效率。重新加权模块的有效性为了验证我们的展开重新加权模块的有效性，我们比较了它有两个变种。第一个只雇用c^onv1×在等式中（ 12）（即，tw oconsecutiv e1×1convolu-1源代码和网络模型将在https：//github.com/csqlwang/3G-NetResNet-50（GAP）iSQRT-COV（重新实施）3G-Net（我们的）前1位误差（%）5088^ ^您的位置：(a) URM-v1（b）URM-v21x1 Conv元素Sigmoid乘法图5.我们的展开重加权模块的两个变体的图示，即，(a)URM-v1和（b）URM-v2。方法Top-1错误Top-5错误没有一21岁95六、17URM-v121岁97六、17URM-v221岁89六、14T=1的3G网络（我们的）21岁64五、81T=3的3G网络（我们的）21岁31五、61表1.ImageNet-1 K上具有不同重新加权模块的3G-Net的结果（%）方法Top-1错误前5名错误。GAP [17]二十四岁67 .第一次会议。7GAP（重新实施）23岁917 .第一次会议。15普通COV二十六岁419 .第九条。09B-CNN [32]23岁18六、962[37]第三十七话二十二岁77六、55[第28话]二十二岁73六、54[27]第二十七话二十二岁14六、22iSQRT-COV（重新实施）21岁95六、173G-Net w/o估计（5）二十五178. 143G-Net（我们的）21岁31五、61表2. ImageNet-1 K上ResNet-50架构下不同全局池化方法的结果（%）tions），这是生成空间注意力图的常用方法[41]。第二种方法是在模的第一个变体中引入一个附加的1×（Xt−1）卷积1×（Xt−1）这两个变体可以被看作是我们的展开重加权模块的两个细分，即URM。v1和URM-v2。URM-v1和URM-v2的图示如图5所示表1列出了我们使用不同重加权模块的方法的结果，从中我们可以看出，URM-v1和URM-v2都没有实现增益或增益可以忽略不计，而我们的单个重加权块在前5名误差中分别比URM-v1和URM-v2高出0.36%和0.33%由3个块组成的展开重加权模块实现了进一步的改进，显示了我们的展开重加权模块的有效性。稳健估计我们评估稳健估计（5）对我们的3G网络的影响。它不需要额外的参数，并且在空间/时间复杂度上与非鲁棒算法相当。如表2和3中所比较的，没有（w/o）鲁棒估计的3G-Net（5）优于普通COV，但明显劣于具有鲁棒估计器的3G-Net。此外，ResNet-50下的 3G-Net 在具有或不具有鲁棒估计的情况下获得43.07/13.34对 Places 365上的45.47/15.00。上述结果清楚地表明了我们的稳健估计的意义。各种全局池的比较方法骨干模型Top-1Top-5FBN [30]二十四岁07 .第一次会议。1SORT [40]23岁82六、27[42]第四十二话二十二岁11五、90[20]23岁29六、62CBAM [41]ResNet-50二十二岁66六、312A -网[6]23岁0六、5[第14话]21岁87五、98[27]第二十七话二十二岁14六、223G-Net（我们的）21岁31五、61GAP [17]23岁67 .第一次会议。15089表3.在ImageNet-1 K上与最先进方法的误差比较（%）所有方法均采用单一的224×224作物预测，竞争结果均与原始文献重复结果复制自[20]。我们的3G-Net与使用ResNet-50的几种现有全局池化方法，包括原始GAP [17]，普通协方差（COV）池化（即，XXT）、B-CNN [32]、MPN- COV [28]、G2DeNet [37]和iSQRT-COV [27]。再-GAP、MPN-COV和iSQRT-COV的结果均从原始论文中复制我们自己实现了 Plain COV ， B-CNN 和G2DeNet，我们还重新实现了GAP和iSQRT-COV。为了公平比较，我们对所有竞争对手采用相同的网络和超参数请注意，我们在B-CNN模型之后插入BN层[22]以实现稳定和快速收敛。ImageNet-1 K上不同方法的结果见表2。除普通COV外，所有在这种情况下，普通COV实现了不令人满意的结果。G2DeNet和MPN-COV得到了类似的结果，优于B-CNN。我们的3G-Net实现了最佳性能，证明广义高斯的协方差比基于高斯的协方差更有效我们的3G-Net性能优于iSQRT-COV 0.Top-5误差为56%，这是一个不平凡的改进，因为iSQRT-COV是一个非常强的基线，而在ResNet-101下具有更多参数的iSQRT-COV仅达到0。与使用ResNet-50的iSQRT-COV相比，增益为54%4.3. ImageNet 1K在这里，我们将我们的 3G-Net 在 ResNet-50 和ResNet-101架构下与ImageNet-1 K上的几种最先进的方法进行了比较。表3列出了不同方法的前1名和前5名错误，其中ResNet-200 [18]、PyramidNet-200 [16]和其余竞争方法的结果分别来自[20]和原始论文。如表3所示，我们的3G网络5090方法ResNet-50 [17]△ResNet-50+B-CNN [32]ResNet-50+iSQRT-COV[27]ResNet-50+3G-Net（Ours）ResNet-101+3G-Net（Ours）Top-1错误前5名错误。44.82十四岁7144. 24十四岁27四十三68十三岁73四十三07十三岁34四十二77十三岁12方法[35]第三十五话ResNet-152 [17]△ResNet-101 [17]ResNeXt-101 [42]CRU-Net-116 [5]Top-1错误前5名错误。四十六岁。37十六岁12四十五26十四岁9244. 09十三岁93四十三79十三岁75四十三40十三岁45表4.Places365上10种作物预测的不同方法的结果（%） △结果复制自https：//github。com/CSAILVision/places365.结果复制自[5]。在ResNet-50体系结构下，获得了所有竞争方法中最好的性能。与深度局部二阶统计网络相比，FBN [30]和SORT [40]，我们的3G-Net实现了明显的改进。同时，3G-Net优于ResNeXt [42]，后者采用更广泛的卷积滤波器。与基于各种高级自注意力方法的深度CNN相比[20，41，6]，3G-Net获得1. 98%，1. 35%，1. 69%和1 .一、01%，0. 7%、0. 前5名和前1名分别增长89%我们的3G网络获得0. 83%在前一名（0。前5名中的61%）超过顶部深度协方差池化网络[27]。当使用ResNet-101作为骨干模型时，所提出的3G-Net对具有GAP的原始ResNet-101进行了大幅度的改进。以同样的方式，我们的3G网络是优越于ResNeXt-101超过0。89%在前一名（0。43%在前5名）。同时，它分别优于SE-Net和CBAM [20，41]约2。01%和1。14%在前一名（0。9%和0。52%在前5名）。所提出的3G-Net将iSQRT-COV提高了0. 84%，0。51%分别在前一名和前五名。请注意，我们基于ResNet-50的3G-Net在前5名错误中略优于带有ResNet-101的iSQRT-COV，而我们的50层3G-Net优于152层ResNet [17]和带有SE模块的152层ResNet [20]。此外，50层3G-Net的性能优于200层ResNet [18]，而101层3G-Net在前5个错误中略优于200层金字塔ResNet [16]。我们的50层3G-Net也优于264层的DenseNet [21]。上述结果清楚地表明了我国3G网络的竞争力。4.4. 比较Places365最后，我们在标准Places 365数据集上评估了我们的3G-Net，该数据集包括365个场景类的约1.8M和36.5K图像，分别用于训练和验证。与ImageNet-1 K相比，Places 365中的每个样本图像包含更多的对象，导致更多的模糊度。使用ResNet-50和ResNet-101作为主干模型，我们比较了三种全局池化方法（即，GAP [17]，B-CNN [32]和iSQRT-COV [27]）和四个深度 CNN 架构（即， GoogLeNet [35] 、 ResNet-152[17]、ResNeXt-101 [42]和CRU-Net-116 [5]）。与现有结果相比，我们采用10作物预测。表4给出了不同方法的结果，其中我们自己实现了B-CNN，并使用作者发布的源代码我们采用完全相同的参数设置来实现公平竞争。与ResNet-50架构下的其他三种全局池化方法相比，我们的3G-Net获得了更低的分类错误。所提出的3G-Net明显优于原始GAP，并且优于B-CNN和iSQRT-COV 1。17%和0。61%的前1名的错误，分别。我们的3G-Net可以使用ResNet-101实现进一步的改进，并获得最佳效果。证明了广义高斯层的全局协方差的有效性。与先进的深度 CNN 架构相比，我们的 3G-Net 明显优于GoogLeNet 和 ResNet-152 ，同时比 CRU-Net-116 和ResNeXt-101取得更好的结果，尽管它们更深更宽。5. 结论本文提出了一种新的3G-Net，它鲁棒地估计广义高斯分布的全局协方差来总结最近的卷积激活，因为卷积激活的分布是复杂的，并且具有长尾，这不能完全用高斯模型来描述。我们的3G网络假设卷积激活的分布服从广义高斯模型，更精确地捕获激活的特征在大规模ImageNet-1 K和Places 365数据集上的实验结果表明，我们的3G-Net可以实现比深度CNN更高的分类精度，无论是GAP还是高斯全局协方差3G-Net的有效性表明，卷积激活的更精确表征有助于提高深度CNN的性能。在未来，我们将把提出的3G网络应用于动作或视频分类，并研究更多样化的分布（例如，指数家族[36]）到深度CNN中进行进一步改进。致谢本工作得到国家自然科学基金（批准号：200000000 ）的资助。 61806140 、 61471082 、61671182、61876127、61732011）、天津市自然科学王启龙获中国博士后创新人才基金资助。5091引用[1] R. Arandjelovic，P. Gronat，A. Torii，T. Pajdla和J.西维克NetVLAD：用于弱监督位置识别的CNN架构。在CVPR，2016年。[2] G. E. P. Box 和 G.C. 刁统计分析中的贝叶斯推理。Wiley，美国纽约，1992年。[3] S.蔡，W. zuo和L.张某用于细粒度视觉分类的分层卷积激活InICCV，2017.[4] J. 卡雷拉河Caseiro，J.Batista和C.斯明奇塞斯库自由形式的区域描述与二阶池。IEEE TPAMI，37（6）：1177[5] Y. Chen，X.金湾，澳-地Kang，J.Feng和S.燕. 通过集体张量因式分解共享在IJCAI，2018。[6] Y. Chen ， Y. Kalantidis ， J. Li ， S. Yan 和 J. Feng. A2-Nets：双重注意力网络。在NIPS，2018年。[7] Y. Cui，F.作者简介：王建，张世文. Liu，Y. Lin和S.贝隆吉卷积神经网络的核池在CVPR，2017年。[8] X. Dai，J. Yue-Hei Ng，and L. S.戴维斯FASON：一阶和二阶信息融合纹理识别网络.在CVPR，2017年。[9] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。 ImageNet ：一个大规模的分层图像数据库。CVPR，2009。[10] I. S. Dhillon和J. A.特罗普具有Bregman发散的矩阵逼近问题。 SIAM J. MAP，29（4）：1120-1146，2008.[11] Y. 杜角，澳-地袁湾，澳-地利湖，澳-地Zhao，Y.Li和W.胡用于动作分类的交互感知时空金字塔注意网络在ECCV，2018。[12] J. Fu，H.Zheng和T.美. 近距离看更好：用于细粒度图像识别的递归注意力卷积神经网络。在CVPR，2017年。[13] Y. Gao、黄花蒿O. Beijbom，N. Zhang和T.达雷尔。紧凑的双线性池。在CVPR，2016年。[14] G. Ghiasi，T. Y. Lin和Q. V. Le. DropBlock：卷积网络的正则化方法。在NIPS，2018年。[15] M. Gou，F. Xiong，O. Camps和M.斯奈尔MoNet：元嵌入网

下载后可阅读完整内容，剩余1页未读，立即下载