ACNet：非对称卷积块增强强大CNN的内核骨架

80 浏览量更新于2023-10-11 收藏 762KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1911ACNet：通过非对称卷积块增强强大CNN的内核骨架丁小涵1郭雨辰2丁贵光1韩军功31清华大学软件学院北京国家信息科学技术研究中心2清华大学自动化系;中国北京清华大学脑与认知科学研究所3英国考文垂华威大学WMG数据科学研究dxh17@mails.tsinghua.edu.cnyuchen.w.gmail.comdinggg@tsinghua.edu.cnjungonghan77@gmail.com摘要由于在给定应用的上下文中设计适当的卷积神经网络（CNN）架构通常涉及繁重的人力工作或大量的GPU时间，因此研究界正在征求与架构无关的CNN结构，其可以轻松地插入到多个成熟架构中以提高我们现实世界应用的性能。我们提出了非对称卷积块（ACB），一种架构中立的结构作为CNN构建块，它使用1D非对称卷积来增强平方卷积核。对于现成的架构，我们用ACB替换标准的平方核卷积层来构建非对称卷积网络（ACNet），可以对其进行训练以达到更高的准确度。在训练之后，我们等价地将ACNet转换为相同的原始架构，因此不再需要额外的计算。我们已经观察到ACNet可以明显提高CIFAR和ImageNet上各种模型的性能。通过进一步的实验，我们将ACB的有效性归因于其增强模型对旋转失真的鲁棒性和加强平方卷积核的中心骨架部分的能力1. 介绍卷积神经网络（CNN）在视觉理解方面取得了巨大的成功，这使得它们在可穿戴设备、安全系统、手机、汽车等各种应用中都很有用。由于前端设备通常在计算资源方面受到限制并且要求实时推理，因此这些应用需要CNN在一定水平的计算预算的约束下提供高精度。因此，通过简单地采用更多的可训练参数和复杂的连接来增强模型可能是不切实际的。因此，我们认为提高CNN的性能而不需要额外的推理时间计算、内存占用或能耗是有意义的另一方面，随着CNN架构设计文献的进步，现成模型的性能得到了显着提高。然而，当现有的模型不能满足我们的特定需求时，我们可能不允许以繁重的人力工作或大量的GPU时间为代价定制新的架构[36]。最近，研究界正在讨论创新的架构中立的CNN结构，例如，SE块[14]和准六边形内核[30]，它们可以直接与各种最新的架构相结合，以提高我们现实世界应用的性能。最近对CNN架构的一些研究集中在1）层如何彼此连接，例如，简单地堆叠在一起[20，28]，通过身份映射[13，31，35]或密集连接[15]，以及2）如何组合不同层的输出以增加学习表示的质量[16，31，32，33]。考虑到这一点，为了寻求一种可以与众多架构相结合的通用架构中立的CNN结构，我们试图通过挖掘正交方面来加强标准卷积层：权重与它们在内核中的空间位置之间的关系。在本文中，我们提出了非对称卷积块（ACB），这是一种创新结构，可以作为构建块来取代具有方形内核的标准卷积层，例如， 3×3层，广泛应用于现代CNN. 具体地，对于d×d层的替换19123×3转换1×3转换ReLU角落ReLU输入ACNet培训时间输入已部署模型图1：ACNet概述。例如，我们将每个3×3层替换为ACB，该ACB包括分别具有3 ×3，1×3和3×1内核的三个层，并将它们的输出相加。当训练完成时，我们通过将每个ACB中的非对称内核添加到骨架上，将模型转换回与原始结构相同的结构，这就是如图所示，方仁的十字形部分。在实践中，这种转换是通过构建具有原始结构的新模型并使用ACNet的转换后的学习参数对其进行初始化来实现的。我们构造了一个ACB，它包括三个并行层，分别具有d×d，1×d和d×1内核，其输出被求和以丰富特征空间（图1）。①的人。由于引入的1×d和d×1层具有非方形内核，因此我们将其称为非对称卷积层。”（《后汉书·卷三十三》）给定一个现成的架构，我们通过用ACB替换每个平方核层来构建非对称卷积网络（ACNet），并训练它直到收敛。在此之后，我们等效地将ACNet转换为相同的原始架构，通过将每个ACB中的非对称内核添加到方形内核的相应位置上。由于具有兼容内核大小的卷积的可加性（图1）。2），这是显而易见的，但长期以来一直被忽视，结果模型可以产生与训练时ACNet相同的输出。如将在我们的实验中所示（节。4.1，4.2），这样做可以明显提高CIFAR [19]和ImageNet [3]上几个基准模型的性能。更好的是，ACNet 1）引入了NO超参数，这样它就可以与不同的体系结构相结合，而无需仔细调整; 2）在主流 CNN 框架上实现简单，如 PyTorch [26] 和Tensorflow [1]; 3）与原始架构相比，不需要额外的推理时间计算负担。通过进一步的实验，部分地说明了ACNet的有效性.可以观察到，平方卷积核不均匀地分布其学习的在每个ACB中，我们将水平和垂直内核添加到骨架上，从而明确地使骨架更强大，遵循方形内核的性质。有趣的是，方形、水平和垂直内核的对应位置上的权重被随机初始化，并且有可能在符号上相反地增长，因此将它们相加可能导致更强或更弱的权重。吨然而，我们根据经验观察到一个一致的现象，即模型总是学习增强每一层的骨架。这一观察结果可能为未来研究不同空间位置的权重之间的关系提供参考。代码可在https://github.com/ShawnDing1994/ACNet上查阅。我们的贡献总结如下。• 我们建议使用非对称卷积来显式增强标准的代表性能力平方核层，其方式是不对称卷积可以融合到平方核中，无需额外的推理时间计算，而不是像许多现有工作那样近似平方核层[4，17，18，23，25，33]。• 我们提出ACB作为一种新的架构中立的CNN构建块。我们可以通过简单的- 用ACB替换成熟架构中的每个平方核卷积层，而不引入任何超参数，使得其有效性可以与CNN架构设计文献中的众多进步相结合。• 我们已经提高了CIFAR-10、CIFAR-100和CIFAR-100上几个常见基准模型的准确性。ImageNet以明显的优势。• 我们已经证明了标准平方卷积核中骨架的重要性，并证明了ACNet在增强此类骨架方面的有效性。• 我们已经表明，ACNet可以提高模型2. 相关工作2.1. 非对称卷积非对称卷积通常用于逼近现有的平方核卷积层以进行压缩和加速。一些先前的作品[4，17]已经表明，标准的d×d卷积层可以是fac-骨架+3×3转换3×1转换+1913：，：，k：，：，k：，：，k该算法被有序化为具有d×1和1×d内核的两层序列，以减少参数和所需的计算。背后的理论很简单：如果一个2D内核有一个秩，的一个，该操作可以等效地转换成一系列的一维卷积。然而，由于深度网络中的学习内核具有分布式特征值，因此它们的内在秩在实践中高于1，因此将变换直接应用于内核会导致显著的信息丢失[18]。Denton等人[4]通过以基于SVD的方式找到低秩近似值，然后微调上层以恢复每一层，解决了这个问题。Jaderberg等人[17]成功地通过最小化重构误差来学习水平和垂直内核Jin等人[18]应用结构约束，使2D内核可分离，并获得可比性性能与传统CNN相同，速度提升2倍另一方面，非对称卷积也被广泛用作架构设计元素以节省参数和计算。例如在Inception-v3 [33]中，7×7卷积被1×7和7×1卷积序列取代。然而，作者发现这种替换不等同于它在低级别层上工作得不好。[25]第二十五话并且在推理期间不需要额外的参数或计算。因此，在实际应用中，开发人员可以使用ACNet来增强各种模型，而无需用尽参数调整，最终用户可以享受性能提升而不会减慢推理速度。更好的是，由于我们没有将自定义结构引入到部署的模型中，因此可以通过连接修剪[9，12]，通道修剪[5，6，22，24]，量化等[2，10，27]、特征图压缩[34]等。3. 非对称卷积网络3.1. 制剂对于核大小为H×W和D滤波器的卷积层，其将C通道特征图作为输入，我们使用F∈RH×W×C表示滤波器的3D卷积核，M∈RU×V×C用于输入，其是具有U×V和C通道空间分辨率的特征图，并且O∈RR×T×D用于D通道的输出。对于这样的层处的第j个滤波器，对应的输出为特征地图通道是ΣC采用这种方法设计一个高效的语义分段网络，其中5×5卷积被去O：，：，j=k=1M：，：，k<$F（j），（1）组成，允许增加感受野与rea-合理的计算预算。EDANet [23]使用类似的方法来分解3×3卷积，从而节省了33%的参数数量和所需的计算，性能略有下降。相比之下，我们使用1D非对称卷积不是将任何层分解为架构设计的一部分，而是在训练期间丰富特征空间，然后将其学习到的知识融合到平方核层中。其中* 是2D卷积算子，M：，：，k是U × V矩阵形式的M的第k个通道，F（j）是F（j）的第k个输入通道，即，H×W的二维核。在现代CNN架构中，批量归一化[16]被广泛采用，以减少过拟合并加速训练过程。作为一种常见的做法，一批正常化-层之后通常是线性缩放变换，以增强表示能力。与等式1，则输出通道变为2.2.架构中立的CNN结构我们不打算修改CNN架构，而是使用一些架构中立的结构来增强离线的CNN。ΣC0：，：，j=（k=1M：，：，k*F（j）−µj）j+βj，（2）σj货架模型。因此，我们的方法的有效性是补充的创新架构所取得的进步具体地说，CNN结构可以被称为架构中立的，如果它1）对特定架构没有假设，因此可以应用于各种模型，并且2）带来普遍的好处。例如，SE块[14] 可以附加在卷积层之后以重新缩放特征映射通道具有学习的权重，以合理的额外参数和计算负担为代价，导致明显的准确性提高。作为另一个示例，辅助分类器[32]可以被插入到模型中以帮助监督学习过程，这确实可以通过可观察的裕度来提高性能，但是需要额外的人工工作来调整超参数。相比之下，ACNet引入了NO超参数其中，µj和σj是批次归一化的通道平均值和标准差，γj和βj分别是学习的比例因子和偏差项。3.2. 利用卷积我们寻求采用非对称卷积的方式，它们可以等效地融合到标准的平方核层中，使得不引入额外的推理时间计算负担。我们注意到卷积的一个有用的特性：如果具有兼容大小的几个2D核以相同的步幅对相同的输入进行操作，以产生相同分辨率的输出，并且将它们的输出相加，则我们可以在相应的位置上将这些核相加，以获得将产生相同输出的等效核。也就是说，可加性可以适用于γ1914conv1convbatch normconvbatch norm+=输入convbatch normBN熔合平等conv+为conv图2：我们使用滑动窗口来提供具有不同内核大小的2D卷积的可加性的一些直观。在这里，我们有三个卷积层，其内核大小分别为3×3，1×3和3×1，它们采用相同的输入。我们只在例如左上角和右下角。可以观察到，保持可加性的关键是三个层可以共享相同的滑动窗口。因此，如果我们将conv2和conv3的核在对应位置上添加到conv1，则使用所得核对原始输入进行运算将产生相同的结果，这可以仅使用乘法的分布性质容易地验证（五）。最好用彩色观看。2D卷积，即使具有不同的内核大小，IK（1）+IK（2）=I（K（1）<$K（2）），（3）其中I是矩阵，K（1）和K（2）是具有兼容大小的两个2D内核，并且是相应位置上的内核参数的逐元素加法。请注意，我可能需要适当地修剪或填充。这里兼容意味着我们可以将形式上，如果满足以下条件，则在层p和层q上的这种变换是可行的=图3：BN和分支融合。设I是输入特征图M的任意通道，对于每个分支，我们首先将批量归一化的参数等效地融合到卷积核和偏置项中，然后将融合的核和偏置项相加以获得单层。通过两个滤波器，可加性（Eq.3）如果对于一个通道上的每个点y，其在另一通道上的对应点共享相同的滑动窗口X，则成立。3.3. ACB用于改进自由推理时间在本文中，我们重点讨论了3×3卷积，这在现代CNN架构中得到了大量使用给定一个体系结构，我们通过简单地替换每3×3层（以及以下批量归一化）来层，如果有的话），其中ACB包括三个并行层，核大小分别为3×3、1×3和3×1与标准CNN中的常见做法类似，每个这三个层之后是被称为分支的批归一化，并且三个分支的输出被求和作为ACB的输出请注意，我们可以使用与原始模型相同的配置来训练ACNet，而无需调整任何额外的超参数。M（p）=M（q），Hp≤Hq ，Wp≤Wq ，Dp=Dq .（四）如将在Sect.根据第4.1节和第4.2节，ACNet可以经过训练以达到更高的准确度。当例如，3×1和1×3内核与3×3兼容。这一点可以通过计算来验证-以滑动窗口的形式进行卷积（图2）的情况。对于具有核F（j）的某个滤波器，输出通道O：，：，j上的某个点y由下式给出：当训练完成时，我们试图将每个ACB转换为产生相同输出的标准卷积层。通过这样做，我们可以获得一个更强大的网络，与正常训练的网络相比，它不需要额外的计算。该转化通过两个步骤实现，即BN融合和分支融合。ΣC ΣH ΣWy=（j）h、w、cXh，w，c，（5）BN融合。卷积的均匀性允许c=1h=1w=1其中X是输入M上的相应滑动窗口。显然，当我们总结两个输出通道产生的在批量归一化和线性缩放变换之后，将被等效地融合到具有添加的偏置的卷积从Eq可以看出。2为conv2conv3+convconvconv分支融合F1915σσj*+b，（8）每个分支，如果我们构造一个新的核为γjF（j）沿J加上偏置项−µjγj+βj，我们将产生相同的输出，可以很容易地验证。分支融合。我们通过将非对称核添加到方形核的相应位置上，将三个BN融合分支合并到标准卷积层在实践中，这种转换是通过构建原始结构的网络并使用融合权重进行初始化来实现的，因此我们可以以与原始架构相同的计算预算产生与ACNet相同的输出。形式上，对于每个滤波器j，设F ′（j）是融合的3D内核，bj是获得的偏置项，F'（j）和F'（j）是相应的k个核分别在1×3和3×1层设置滤波器，我们有F ′（j）=γjF（j）γ¯jF¯（j）γjF（j），（6）表1：ACNet的前1准确度和CIFAR-10上正常训练的基线。模型底部顶部-1ACNet Top-1首页-1↑Cifar-quick83.1384.241.11VGG94.1294.470.35ResNet-5694.3195.090.78WRN-16-895.5696.150.59DenseNet-4094.2994.840.55表2：ACNet的Top-1准确度和CIFAR-100上正常训练的基线。σjσ<$jσjb=−µjγj−µ<$jγ<$j−µjγj+β+β¯ +.（七）jσjσ¯jσjj j j然后我们可以很容易地验证，对于任意滤波器j，包括Cifar-quick [29]、VGG- 16 [28]、ResNet-56 [13]、WRN-16-8 [35]和DenseNet-40在内O：，：，j+O<$：，：，j+O<$：，：，j=ΣCk=1M F′（j）：，：，k：，：，kj[15] CIFAR-10和CIFAR-100 [19]。对于Cifar-quick、VGG-16、ResNet-56和DenseNet-40，我们使用0.1的阶梯学习率来训练模型其中O：，：，j、O<$ ：，：，j和O<$ ：，：，j分别是原始3× 3、1 × 3和3 × 1分支的输出。图3显示了一个单输入通道的示例，以获得更多直观信息。值得注意的是，虽然ACB可以等效地转换成标准层，但等效性仅在推理时间保持，因为训练动态是不同的，从而产生不同的性能。训练过程的不等价性是由于核权值的随机初始化，以及它们所参与的不同计算流所导出的梯度。4. 实验我们已经进行了大量的实验来验证ACNet在一系列数据集和架构上提高CNN性能的有效性。具体来说，我们选择一个现成的架构作为基线，构建一个ACNet对应物，从头开始训练它，将它转换为与基线相同的结构，并测试它以收集准确性。为了具有可比性，所有模型都经过训练，直到完全收敛，并且每对基线和ACNet都使用相同的配置，例如，学习率时间表和批量大小。4.1. CIFAR的性能改进为了在各种CNN架构上初步评估我们的方法，我们用几个代表进行了实验。0.01、0.001和0.0001。对于WRN-16-8，我们遵循原始论文[35]中报告的训练配置。我们使用[13]采用的数据增强技术，即，填充到40×40，随机裁剪和左右翻转。从表中可以看出。1、桌子2，所有模型的性能都有明显的提高，这表明ACB的优点可以与各种体系结构相结合。4.2. ImageNet的性能改进然后，我们通过在ImageNet [ 3 ]上进行的一系列实验来验证我们的方法在现实世界应用中的有效性，ImageNet [3]包括1280万张用于训练的图像和来自1000个类的50K用于验证的图像。我们使用AlexNet [20]，ResNet-18 [13]和DenseNet-121[15]分别作为朴素风格、残余风格和密集连接结构的代表。每个模型都是用256的批量大小训练150个epoch的，这比通常采用的基准测试要长（例如，90个时期[13]），使得精度提高不能简单地对于数据增强，我们采用标准的管道，包括边界框失真，左右翻转和颜色偏移，作为一种常见的做法。特别是，我们使用的AlexNet的普通版本来自Tensor-flow GitHub [8]，它由五个堆叠的con组成模型底部顶部-1ACNet Top-1首页-1↑Cifar-quick53.2254.301.08VGG74.5675.200.64ResNet-5673.5874.040.46WRN-16-878.6579.440.79DenseNet-4073.1473.410.271916表3：AlexNet，ResNets，DenseNet-121的ACNet对应物和ImageNet上的基线的准确性模型底部顶部-1ACNet Top-1首页-1↑底部顶部-5ACNet Top-5前5名↑AlexNet55.9257.441.5279.5380.731.20ResNet-1870.3671.140.7889.6189.960.35DenseNet-12175.1575.820.6792.4592.770.32水平核翻转方形核翻转求和前到求和后。从表中可以看出。4，移除三个设计中的任何一个都会使模型降级。然而，尽管水平卷积和垂直卷积都能提高性能，但由于水平卷积和垂直卷积的不同，图4：与方形核相比，水平核对上下翻转更鲁棒。如上所示，1×3内核将在对称翻转输入的位置，但3×3内核不会。图3示出了具有三个完全连接层和三个完全连接层的图形处理器，其中没有局部响应归一化（LRN）或跨GPU连接。为了更快的收敛，我们应用批量正常-[16]在每个卷积层上值得注意的是，由于AlexNet的前两层分别使用11×11和5×5内核，因此可以扩展ACB以具有更大的非对称内核。然而，我们仍然只对这两层使用1×3和3×1卷积，因为这种大规模卷积在mod中越来越不受欢迎ern CNN，使大型ACB变得不那么有用。如表中所示3，AlexNet，ResNet-18和DenseNet-121的单作物Top-1准确率在实践中，针对相同的精度目标，我们可以使用ACNet来增强一个更有效的模型，以更少的推理时间，能量消耗和存储空间来实现目标。另一方面，在计算芽或模型大小的相同约束下，我们可以使用ACNet以明显的幅度提高准确性，从而从最终用户的角度来看，所获得的性能可以被视为免费的好处4.3. 消融研究虽然我们已经从经验上证明了ACNet的有效性，但我们仍然希望找到一些解释。在本小节中，我们试图通过一系列消融研究来研究ACNet。具体而言，我们关注以下三个设计决策：在每个分支中使用1）水平核，2）垂直核，和3）批归一化。为了具有可比性，我们在ImageNet上使用相同的训练配置训练了几个AlexNet和ResNet-18模型值得注意的是，如果分支中的批量规格化被移除，我们将对整个ACB的输出进行批量规格化，即，批归一化层的位置从在实践中，水平和垂直方向被不平等地处理，例如，我们通常执行随机的左右而不是上下图像翻转来增加训练数据。因此，如果将颠倒的图像馈送到模型中，则原始的3×3层应该产生无意义的结果，这是很自然的，但是水平内核将产生与原始图像上轴对称位置处的输出相同（图4）. 即，ACB的一部分仍然可以提取正确的特征。考虑到这一点，我们假设ACB可以增强模型然后，我们使用来自整个验证集的旋转失真图像测试先前训练的模型，包括逆时针90°旋转，180°旋转和上下翻转。当然，每个模型的准确性都显著降低，但具有水平内核的模型在180°旋转和上下翻转的图像上提供了明显更高的准确性。例如，仅配备水平内核的ResNet-18在原始输入上的精度略低于仅配备垂直内核的ResNet-18，但在180°旋转输入上高出0.75%。与基本模型相比，该模型对原始/180幅翻转图像的识别精度分别提高了0.34%和1.27%。可以预见的是，这些模型在180°旋转和上下翻转输入上表现出类似的性能，因为180°旋转加上左右翻转相当于上下翻转，并且由于数据增强方法，该模型对左右翻转具有鲁棒性。总之，我们已经表明，ACB，特别是内部的水平内核，可以通过可观察的裕度增强模型对旋转失真的鲁棒性。虽然这可能不是ACNet有效性的主要原因，但我们认为它有希望激发对旋转不变性问题的进一步研究。4.4. ACB增强了方形核的骨架直觉上，由于将水平和垂直内核添加到方形内核上可以被视为显式增强骨架部分的一种手段，因此我们试图解释这种效果。对称轴1917表4：在ImageNet上具有不同设计配置和旋转失真的ACNet的Top-1准确度模式水平垂直BN原稿输入旋转90度旋转180度上下翻转内核内核在分支AlexNet55.9228.1831.4131.62AlexNetCC57.1029.6532.8633.02AlexNetCC57.2529.9733.7433.74AlexNetCCC57.4430.4933.9833.82AlexNetCC56.1828.8132.1232.33ResNet-1870.3641.0041.9541.86ResNet-18CC70.7841.6142.4742.66ResNet-18CC70.7042.0643.2243.05ResNet-18CCC71.1442.2042.8943.10ResNet-18CC70.8241.7042.9242.90通过研究骨架和角点处的权重之间的差异来确定ACNet的有效性。受CNN修剪方法[9，11，12]的启发，我们从在不同空间位置删除一些权重开始，并在CIFAR-10上使用ResNet- 56观察性能下降。具体地说，我们随机地将核函数中的一些独立权值设置为零，并对模型进行测试.如图对于标记为角点的曲线，我们从每个曲线的四个角点随机选择权重，3×3核，并将它们设置为零，以获得每个卷积层的给定全局稀疏率。注意4/9 = 44。4%，44%的稀疏率意味着去除四个角处的大部分权重。对于骨架，我们只从每个内核的骨架中随机选择权重对于全局，内核中的每个权重都有相同的机会被选择。用不同的随机种子重复实验五次，并描绘平均值±标准曲线如可以观察到的，由于随机效应，所有曲线示出随着稀疏比增加而减小的趋势，但不是单调地减小。很明显，从角点重新移动权重对模型的损害较小这种现象表明，骨架重量更多0.80.60.40.20.80.60.40.20.80.60.40.20 15 30 45稀疏率%(a) 正常训练的ResNet-56。0 15 30 45稀疏率%(b) ACNet对应于ResNet-56。0 15 30 45稀疏率%这对模型的表现能力很重要我们将继续验证这一观察结果是否适用于AC- Net。我们通过BN和分支融合转换ACNet对应物，然后对其进行相同的实验。如图在图5B中，我们观察到甚至更显著的差距，例如，修剪几乎所有的角权重仅将模型的准确性降低到60%以上。另一方面，修剪骨架会造成更大的破坏，因为当修剪得到的全局稀疏度比骨架仅达到13%，即，13%×9/5 = 23。百分之四骨架的权重被移除。然后，我们通过研究核的数值来探索上述观察结果的原因。公司现采用国际(c) ACNet，在边界上添加了非对称内核图5：不同ResNet-56模型在CIFAR-10上的验证精度，通过在3 ×3内核的不同位置修剪权重来提高稀疏率幅度（即，绝对值）作为参数重要性的度量，这被许多现有CNN修剪工作采用[7，9，12，21]。具体地，我们将卷积层中的所有融合的2D内核相加例如，令F（i，j）是第i个滤波器处的第j个滤波器角点骨架全局角点骨架全局角点骨架全局左上方右下边框值精度值精度值精度1918：，：，k(a) 正常0.3990.7710.3990.6741.0000.6660.3960.7530.393(b) ACNet，骨架。0.5950.5850.8100.5910.5940.7930.8140.8060.970(c) ACNet，边界。分支融合，我们将BN融合的非对称内核添加到正方形内核的右下边界（图2）。6c）为了得到等效的网络。据观察，这样的ACB也可以增强边界，但不如常规ACB对骨架那样强烈。该模型的准确率为94.67%，比常规ACNet低0.42%（表1）。①的人。此外，在融合模型上进行了类似的修剪实验（图1）。第5c段）。作为图6：的平均核幅度矩阵AResNet-56模型在CIFAR-10上以不同的方式训练3×3层，L是所有这些层的数量，max和abs分别是最大和逐元素绝对值，平均核幅度矩阵计算为观察到，修剪角仍然提供最好的准确性，并且修剪增强的右下边界给出的结果并不比左上2×2正方形好，即，尽管边界的大小增加了，但是其它部分对于整个内核仍然是必不可少的。总之：1）骨架本质上比标准方形内核中的角更重要;2）ACB可以1ΣLA= Li=1S（i）max（S（i））、（9）显著增强骨架，从而提高性能; 3）向边界添加水平和垂直核降低了模型的性能。其中，层i的绝对核的总和是ΣDi ΣCi定期ACB; 4）这样做也可以增加边界的重要性，但不能减少其他部分的重要性。因此，我们部分归因于效果，S（i）=j=1k=1abs（F（i，j））。（十）ACNet的有效性，以进一步加强骨架的能力。直观地说，ACNet遵循我们在图1中呈现了正常训练的ResNet- 56和融合的ACNet对应物的A值。图6a和图6 b，其中在某个网格处的数值和颜色指示参数在核心上的平均相对重要性。在所有3×3层上的响应位置，即，较大的值和较暗的背景颜色表示较高的平均值，参数的年龄重要性从图中可以看出。在图6a中，正常训练的ResNet-56以不平衡的方式分布参数的幅度，即，中心点的幅度最大，四个角上的点的幅度最小。图6b示出了ACNet加剧了这种不平衡，因为四个角的A值减小到低于0.400，并且骨架点具有高于0.666的A值。特别地，中心点具有1.000的A值，这意味着该位置具有主导的IM。在每一个3×3层中的重要性一致。值得注意的是，正方形、水平和垂直核具有符号相反增长的可能性，因此将它们相加可以导致更大或更小的幅度。但我们观察到一个一致的现象，即模型总是学习增强每一层的骨架。我们将继续研究如果我们将非对称内核添加到其他位置而不是中心骨架上，模型将如何表现。具体来说，我们使用与之前相同的训练算法训练ResNet-56的ACNet对应物，但将水平卷积向输入的底部移动一个像素，并将垂直卷积向右移动。因此，在平方卷积核5. 结论为了提高各种CNN结构的性能我们构造了一个非对称卷积网络（ACNet），通过用ACB替换成熟架构中的平方核层，并在训练后将其转换为原始架构。我们通过改进CIFAR和ImageNet上的各种简单风格，残差和密集我们已经证明，ACNet可以通过可观察的裕度增强模型值得注意的是，ACNet不引入要调优的超参数，不需要额外的推理时间计算，并且使用主流框架实现起来很简单。确认本工作得到了国家重点研发&计划（2005年）的资助。2018YFC 0807500）、国家自然科学基金（No.61571269）、国家创新型人才博士后流动站（No.BX20180172 ）和中国博士后科学基金（ No.2018M640131）。通讯作者：丁贵光，郭宇晨。0.8260.8600.8330.8500.9350.8670.8210.8540.8271919引用[1] Mart´ın Abadi， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，etal. Tensorflow：一个大规模机器学习系统。在OSDI，第16卷，第265-283页，2016中。2[2] Matthieu Courbariaux、Itay Hubara、Daniel Soudry、RanEl-Yaniv和Yoshua Bengio。二进制神经网络：训练深度神经网络，权重和激活限制为+1或-1。arXiv预印本arXiv：1602.02830，2016。3[3] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别，2009年。CVPR2009。 IEEE会议，第248-255页。IEEE，2009年。二、五[4] 艾米丽·L·丹顿、沃伊切赫·扎伦巴、琼·布鲁纳、扬·勒昆和罗布·弗格斯。利用卷积网络中的线性结构神经信息处理系统的进展，第1269-1277页，2014年二、三[5] 丁小寒、丁贵光、郭雨辰、韩军工。用于修剪具有复杂结构的非常深的卷积网络的向心sgd。在IEEE计算机视觉和模式识别会议集，第4943-4953页，2019年。3[6] 丁小涵、丁贵光、郭雨辰、韩俊功、严成刚。用于破坏性cnn宽度优化的近似oracle过滤器修剪在国际机器学习会议上，第1607-1616页，2019年。3[7] 丁孝汉、丁贵光、军公汉、盛唐。高效卷积神经网络的自动平衡过滤器修剪。第三十二届AAAI人工智能会议，2018。7[8] Google. Tensorflow-alexnet。https://github.com/tensorflow/models/blob/master/research/slim/nets/alexnet.py，2017. 5[9] Yiwen Guo，Anbang Yao，and Yurong Chen.动态网络外科手术用于有效的dnns。神经信息处理系统进展，第1379-1387页，2016年。三、七[10] Suyog Gupta、Ankur Agrawal、Kailash Gopalakrishnan和Pritish Narayanan。深度学习，数值精度有限。在International Conference on Machine Learning，第1737-1746页，2015年。3[11] Song Han，Huizi Mao，and William J Dally.深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv：1510.00149，2015。7[12] Song Han，Jeff Pool，John Tran，and William Dally.学习权值和连接以实现高效的神经网络。神经信息处理系统进展，第1135-1143页，2015年。三、七[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。一、五[14] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别集，第7132第1、3条[15] Gao Huang ， Zhuang Liu ， Kilian Q Weinberger ， andLaurens van der Maaten.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集，第1卷，第3页，2017年。一、五[16] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在International Conference on Machine Learning ，第 448-456页一、三、六[17] Max Jaderberg Andrea Vedaldi和Andrew Zisserman加速具有低秩扩展的卷积神经网络。arXiv预印本arXiv：1405.3866，2014。二、三[18] Jonghoon Jin，Aysegul Dundar，and Eugenio Culurciello.用于前馈加速的扁平卷积神经网络arXiv预印本arXiv：1412.5474，2014年。二、三[19] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。2009. 二、五[20] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年。一、五[21] Hao Li，Asim Kadav，Igor Durdanovic，Hanan Samet，and Hans Peter Graf.修剪过滤器以实现高效的卷积。arXiv预印本arXiv：1608.08710，2016。7[22] Zhuang Liu，Jianguo Li，Zhiqiang Shen，Gao Huang，Shoumeng Yan，and Changshui Zhang.通过网络瘦身学习高效的卷积网络。2017年IEEE国际计算机视觉会议（ICCV），第2755-2763页。IEEE，2017年。3[23] 罗绍元，杭学明，陈胜伟，林敬智。用于实时语义分割的非对称卷积的高效密集模块arXiv预印本arXiv：1809.06323，2018。二、三[24] Jian-Hao Luo，Jianxin Wu，and Weiyao Lin. Thinet：一种用于深度神经网络压缩的过滤器级修剪方法。在IEEE计算机视觉国际会议论文集，第5058-5066页3[25] Adam Paszke、Abhishek Chaurasia、Sangpil Kim和Eu-genio Culurciello。Enet：一个用于实时语义分割的深度神经网络架构。 arXiv 预印本 arXiv ： 1606.02147 ，2016。二、三[26] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。在NIPS-W，2017年。2[27] Mohammad Rastegari、Vicente Ordonez、Joseph Redmon和Ali Farhadi。Xnor-net：使用二元卷积神经网络的Imagenet分类。欧洲计算机视觉会议，第525-542页施普林格，2016年。3[28] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。一、

下载后可阅读完整内容，剩余1页未读，立即下载