加法器网络：深度学习中降低乘法计算复杂度的新方法

87 浏览量更新于2023-10-24 收藏 936KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1468AdderNet：深度学习中真的需要乘法吗陈汉廷1、2岁，王云鹤2岁，徐春静2岁，石伯新3、4岁，徐超1岁，田齐2岁，徐昌5岁1机器感知教育部重点实验室（MoE）北京大学2华为技术诺亚3NELVT，部门北京大学计算机科学系4彭城实验室。5悉尼大学工程学院计算机科学学院{htchen，shiboxin}@ pku.edu.cn，xuchao@cis.pku.edu.cn，c. sydney.edu.au{yunhe.wang，xuchunjing，tian.qi1}@ huawei.com摘要与廉价的加法运算相比，乘法运算的计算复杂度要高得多。深度神经网络中广泛使用的卷积是典型的互相关，以测量输入特征和卷积滤波器之间的相似性，这涉及浮点值之间的大量乘法。在本文中，我们提出了加法器网络（AdderNets），以将深度神经网络（特别是卷积神经网络（CNN））中的这些大规模乘法交易为更便宜的加法，以降低计算成本。在AdderNets中，我们将过滤器和输入特征之间的1范数距离作为输出响应。深入分析了这种新的相似性度量对神经网络优化的影响。为了获得更好的性能，我们通过研究全精度梯度，开发了一种特殊的加法网络的反向传播方法。然后，我们提出了一个自适应的学习率策略，以加强AdderNets的训练过程中，根据每个神经元的梯度的大小。因此，在ImageNet数据集上使用ResNet-50，所提出的AdderNets可以实现74.9%的Top-1准确率和91.7%的Top-5准确率，而无需在卷积层中进行这些代码可在https://github.com/huawei- noah/AdderNet上公开获取。1. 介绍随着图形处理单元（GPU）的出现，具有数十亿浮点数乘法的深度卷积神经网络（CNN）可以获得加速，并在各种计算机视觉任务中取得重要进展，例如。图像分类[26，17]、对象检测[23]、分割[19]和人脸验证。*同等缴款。†通讯作者。[32]。然而，这些高端GPU卡的高功耗（例如，250W+（GeForce RTX 2080 Ti）已经阻止了现代深度学习系统在移动设备上的部署，例如智能手机、相机和手表。现有的GPU卡远非苗条，无法轻松安装在移动设备上。虽然GPU本身只占了卡的一小部分，但我们需要许多其他硬件来支持，例如。存储器芯片、电源电路、电压调节器和其他控制器芯片。因此，有必要研究可以在移动设备上使用负担得起的计算资源运行的高效深度神经网络。加、减、乘、除是数学中最基本的四种运算。众所周知，乘法比加法慢，但深度神经网络中的大多数计算都是前向推理期间浮点值权重和浮点值激活之间的因此，有许多文章介绍了如何将乘法转换为加法，以加速深度学习。开创性的工作[5]提出了BinaryConnect来强制网络权重为二进制（例如-1或1），使得许多乘法-累加运算可以由简单的累加代替。之后，Hubaraetal. [15]提出了BNN，它不仅在运行时对卷积神经网络中的权重进行二进制化，还对激活进行二进制化此外，Rastegariet al. [22]引入了比例因子来近似使用二进制运算的卷积，并以较大的幅度优于[15，22Zhou等[39]利用低位宽梯度来加速训练二进制网络。Cai等人[4]提出了一种用于前向近似的半波高斯量化器，其性能更接近于全精度网络。虽然深度神经网络的二值化滤波器显著降低了计算成本，但通常无法保持原始识别精度。此外，二进制网络的训练过程不稳定，通常要求收敛速度较慢，且收敛速度较小1469(a) AdderNets中特征的可视化（b）CNN图1. AdderNets和CNN中特征的可视化。不同类别的CNN的特征按其角度划分。相比之下，AdderNets的特征倾向于向不同的类中心聚集，因为AdderNets使用N1范数来区分不同的类。可视化结果表明，在深度神经网络中，距离可以作为过滤器与输入特征之间距离的相似性度量学习率经典CNN中的卷积实际上是互相关来测量两个输入的相似性。研究人员和开发人员习惯于将卷积作为从视觉数据中提取特征的默认操作，并引入各种方法来加速卷积，即使有牺牲网络能力的风险但是，几乎没有人试图用另一种更有效的相似性度量来取代卷积，这种相似性度量最好只涉及加法。事实上，加法的计算复杂度比乘法低得多因此，我们的动机是研究在卷积神经网络中用加法代替多重运算的可行性在本文中，我们提出了加法器网络，最大限度地利用加法，同时放弃卷积运算。给定一系列小模板作为由于减法可以很容易地通过使用其补码的加法来实现，因此E1-距离可以是一种硬件友好的测量，只有加法，并且自然地成为构造神经网络的卷积的有效替代方案。设计了一种改进的正则化梯度反向传播算法，所提出的AdderNets部署在几个基准测试中，实验结果表明，AdderNets可以实现与传统CNN相当的识别精度。本文的组织结构如下。第二节研究了网络压缩的相关工作第三节提出了加法器网络，它取代了乘法器中的乘法运算，传统的卷积滤波器与加法。第4节在各种基准数据集和模型上评估了拟议的AdderNets，第5节总结了本文。2. 相关作品为了降低卷积神经网络的计算复杂度，人们提出了许多消除无用计算的方法。基于剪枝的方法旨在去除冗余权值以压缩和加速原始网络。Denton等人[6]利用奇异值分解（SVD）将全连通层的权矩阵分解为简单的计算Han等人[9]提出在预先训练的深度网络中丢弃细微的权重，以忽略其原始计算，而不影响性能。Wang等人[31]进一步将卷积滤波器转换到DCT频域，并消除了更多的浮点数乘法。此外，Huet al. [13]丢弃影响较小的冗余滤波器，直接减少这些滤波器带来的计算量。Luo etal. [21]根据重构误差丢弃冗余滤波器。Hu等人[14]提出了称为鲁棒动态推理网络（RDI-Nets）的方法，它允许每个输入自适应地选择多个输出层之一来输出其预测。Wang等人[29]提出了一种E2-Training方法，可以训练深度神经网络，节省超过80%的能量。大量的工作不是直接降低预先训练的Howard等人[12]设计的MobileNet，它分解了传统的con-sign，1470×··2∈∈∈∈卷积滤波器转换为逐点卷积滤波器和逐深度卷积滤波器，具有更少的FLOP。Zhang等人[38]第三十八话输入特征，德·德·德·奇·因-是的Σ[35]第三十五章：一个人的秘密用更少的计算构建高效的神经网络。Wu等[34]提出了一个无参数的Y（m，n，t）=i=0j =0k=0S X（m+i，n+j，k），F（i，j，k，t），（一）用零触发器和零参数操作来代替传统的滤波器，大大降低了CNN的计算和存储开销。Wang等人[30]开发了多功能卷积滤波器，利用更少的计算和参数生成更有用的特征Xu等[16]提出了扰动神经网络来代替卷积，并将其响应计算为非线性激活的加性噪声扰动输入的加权线性组合。Han等人[8]提出了GhostNet，以从廉价的操作中生成更多的功能，并在轻量级架构上实现最除了消除深度卷积神经网络中的冗余权重或滤波器外，Hinton等人。[11]提出了知识蒸馏（KD）方案，该方案将有用的信息从繁重的教师网络转移到通过最小化输出之间的Kullback-Leibler分歧，构建了一个便携式学生网络。除了模仿教师网络的最终输出，Romeroet al.[25日]其中S（，）是预定义的相似性度量。如果交叉-将相关性作为距离的度量，即，S（x，y）=xy，等式（1）成为卷积运算。当量当d= 1时，（1）也可以表示全连接层的计算。事实上，还有许多其他度量来测量滤波器和输入特征之间的距离。然而，这些度量中的大多数涉及乘法，其带来比加法更多的计算成本。3.1. 加法器网络因此，我们有兴趣部署的距离度量，最大限度地利用加法。距离计算两个点的向量表示的绝对差之和因此，通过计算滤波器和输入特征之间的距离（1）可以改写为：德·德·德·奇·因Y（m，n，t）= −|X（m + i，n + j，k）− F（i，j，k，t）|.利用提示层提取特征信息，教师网络到学生网络。 You等人[37]第三十七届i=0j =0k =0（二）利用多位教师指导学生网络的训练，取得了较好的效果。Yim等人[36]将教师网络中两层特征之间的关系视为一种新的知识，并引入 FSP （ Flow of SolutionProcedure）矩阵将这种信息传递到学生网络。然而，使用这些算法的压缩网络仍然包含大量的乘法运算，这将消耗大量的计算资源。结果，与乘法相比，减法或加法具有低得多的计算复杂度。然而，它们尚未在深度神经网络中得到广泛研究，特别是在广泛使用的卷积网络中。因此，我们建议通过用减法或加法代替乘法来最小化深度神经网络中乘法的数量。3. 无乘法网络考虑滤子F∈ Rd× d × cin× cout 处于中间加法是距离测度中的主要运算，因为使用补码可以很容易地将减法简化为加法在距离的帮助下，可以有效地计算过滤器和特征之间的相似性。虽然两者都是距离Eq。（2）和Eq.（1）可以度量滤波器和输入之间的相似性，它们的输出有一定的差异。卷积滤波器的输出作为输入特征图中的值的加权和，可以是正的因此，我们求助于批量归一化，加法器层的输出将被归一化到适当的范围，然后可以在所提出的AdderNets中使用传统CNN中使用的所有激活函数。虽然批量归一化层涉及乘法，但其计算成本明显低于卷积层，可以省略。考虑具有滤波器F的卷积层Rd×d ×cin×cout，输入XRH×W×cin和输出YRH′×W′×cut，卷积和批处理正态分布的计算复杂度分解的时间复杂度分别为O（d2cin cout HW）和O（cout H′W′）.在实践中，给定输入信道号c，512和ResNet中的内核大小d= 3，我们有深度神经网络的层，其中内核大小为d，d c输入c输出HW输出H′W′4068. 由于批处理规范化层具有输入通道是Cin，输出通道是Cout。输入特征定义为XRH×W×cin，其中H和W分别是特征的高度和宽度输出特征Y指示滤波器与对应滤波器之间的相似性。被广泛应用于最先进的卷积神经网络，我们可以简单地将这些网络升级为AddNet，将它们的卷积层替换为加法器层，以加快推理速度并降低能量成本。1471X−·∈∈d2cin直观地，Eq.（1）与计算机视觉中的模板匹配[3]有联系，其目的是找到层i以及根据梯度链式法则的层i之前的层。如果我们使用全精度梯度parts of an image that match the template. F在Eq.（一）的符号梯度对于每一层，实际上是一个模板，我们计算它与输入特征X的不同区域的匹配分数。由于在模板匹配中可以利用各种度量，因此自然可以利用λ1距离来代替等式（1）中的互相关（一）. 请注意，Wanget al.[28]还讨论了深度网络中的不同度量然而，他们专注于通过采用复杂的指标来实现高性能，而我们则专注于最小化能耗的距离3.2. 优化神经网络利用反向传播来计算这一层之前各层的梯度值会增大，而使用全精度梯度所带来的差异为此，我们将X的梯度裁剪为[ 1，1]，以防止梯度爆炸。然后，输出特征Y相对于输入特征X的偏导数被计算为：Y（m，n，t） = HT（F（i，j，k，t）− X（m +i，n + j，k））.X（m+i，n+j，k）（六）其中HT（）表示HardTanh函数：如果−1x1，滤波器的梯度和随机梯度下降来更新参数。在CNN中，输出特征Y相对于滤波器F的偏导数被计算为：HT（x）=1x>1，-1x<-13.3. 自适应学习率缩放（七）时间（m，n，t）F（i，j，k，t）=X（m+i，n+j，k），（3）在传统的CNN中，假设权重和输入特征是独立且同分布的，其中i[m，m+d]和j[n，n+d]。为了实现参数的更好更新，有必要导出遵循正态分布，输出的方差可以粗略估计为：SGD的信息梯度。在AdderNets中，Y相对于过滤器F的偏导数为：Σd Σd阿夫奇因[YCNN]=V ar[X×F]（八）i=0j =0k =0时间（m，n，t）F（i，j，k，t）=sgn（X（m+i，n+j，k）-F（i，j，k，t）），（4）=d2c in V ar[X]V ar[F]。其中sgn（·）表示符号函数，如果权重的方差为V ar[F]=1，则梯度只能取+1，0或-1。考虑下图2-norm的导数：时间（m，n，t）输出将与输入一致，这将有利于神经网络中的信息流动相比之下，对于AdderNets，输出的方差可以近似为：<$F（i，j，k，t）=X（m+i，n+j，k）−F（i，j，k，t），（5）当量（4）因此，可以导致符号SGD [2]的更新，Σd Σd阿夫奇因[YAdderNet]=Var[|X − F|]2标准然而，signSGD几乎从不使用direc-i=0j =0k =0.（九）最陡下降和方向只会变得更糟的维数增长[1]。不宜优化=πd2c2在（V ar[X]+V ar[F]），使用signSGD的大量参数的神经网络。因此，我们建议使用Eq.（5）更新AdderNet中的梯度。采用这两种梯度的收敛性将在补充资料中进一步研究。因此，通过利用全精度梯度，可以精确地更新滤波器。除了滤波器的梯度之外，输入特征X的梯度对于参数的更新也是重要的。因此，我们还使用全精度梯度（等式10）。（5）计算X的梯度。然而，全精度梯度的幅度可以大于+1或-1。将第i层中的滤波器和输入表示为Fi和Xi。Dif-1472B{··· }FiXi当F和X服从正态分布时在实践中，权重V ar[F]的方差通常很小[7]，e.G. 10-3或10-4在一个普通的CNN。因此，与将Var[X]与等式中的小值相乘相比，（8），等式中的加法运算（9）往往会在AdderNet中带来更接下来，我们继续展示这种较大的输出变化对AdderNet更新的影响为了提高激活函数的有效性，我们在每个加法器层之后引入给定输入x，在一个小批处理上 = x1，，xm ，批量归一化层可以表示为：不同于只影响Fi本身梯度的WYx−µB变化不仅会影响坡度y=γσB+β，（10）1473XYNNǁ ǁ××M我我BM我我BFLΣΣ算法1加法器神经网络的前馈和反向传播。输入：初始化加法器网络及其训练集和相应的标签，率γ和超参数η。1：重复2：从X和Y中随机选择批次{（x， y）};3:Employ the AdderNet N on the mini-batch: x →不同层的过滤器的社会考虑。为此，我们提出了一个自适应的学习速率，为不同的层在AdderNets。具体地，每个加法器层1的更新通过以下公式计算：其中，γ是整个神经网络的全局学习率N（x）;工作（例如，对于加法器和BN层），VRL（F l）是梯度，4：使用等式4计算加法器滤波器的全精度导数Δ Y和ΔY（5）和等式（6）;5.利用链式法则生成N中参数的梯度;6：计算每个加法器的自适应学习率αl根据Eq.（13）。7：使用随机梯度下降更新参数层l中的滤波器的ent，αl是其对应的局部学习率由于AdderNets中的过滤器对输入进行减法，因此过滤器和输入的大小最好相似，以便从输入中提取有意义的信息。由于批归一化层，不同层中的输入的幅度已经被归一化，这然后建议对不同层中的滤波器的幅度进行归一化。因此，局部学习率可以是8：直到收敛输出：一个训练良好的加法器网络N，几乎没有定义为：ηkα=、（十三）乘法ǁ∆L(Fl)ǁ2其中γ和β是要学习的参数，µB=1x 和σ2=1（x−µ）2是平均值，其中k表示Fl中的元素的数量，并且η是用于控制加法器滤波器的学习速率的超参数。通过使用所提出的自适应学习率尺度，ing，不同层中的加法器滤波器可以更新为小批量上的方差。的梯度然后，相对于x的损失率计算为：nearly the same step.在算法1中总结了所提出的AdderNet的训练过程。∂ℓxiΣm=j=1γm2σB.∂ℓ塞济岛-你好j[1+（xi-xj）（xjσBΣ-µB）]。4. 实验（十一）假设方程中的方差V ar[Y] =σB 根据等式（9 ），AdderNets中的梯度w.r.t X的幅度将比根据等式（9）的CNN中的梯度w.r.tX的幅度小得多。（11），然后AdderNets中的过滤器的梯度的大小将作为梯度链规则的结果而减小表1.在第一次迭代时，使用不同的网络，每层中的权重梯度的范数为2。模型层1层2层3AdderNet0.00090.00120.0146CNN0.22610.29900.4646表1报告了在第一次迭代期间使用MNIST数据集上的CNN和AdderNets的LeNet-5-BN中的滤波器F2的梯度的N2LeNet-5-BN表示LeNet-5 [18]在每个卷积层之后添加批量归一化层如该表所示，AdderNets中过滤器的梯度范数比CNN中的小得多一个简单的想法是在AdderNet中直接采用更大的过滤器学习率然而，值得注意的是，梯度范数在不同层中差异很大。如表1所示，它请求spe-在本节中，我们在几个基准数据集上实现实验来验证消融研究和可视化的功能提供进一步研究所提出的方法。实验在PyTorch中的NVIDIA Tesla V100 GPU上进行4.1. MNIST实验为了说明所提出的加法器网络的有效性，我们首先在MNIST数据集上训练LeNet-5-BN [18]。图像大小调整为32 32，并按照[18]进行处理。网络使用Nesterov加速梯度（NAG）进行优化，权重衰减和动量分别设置为5 10−4和0.9。我们使用初始学习率的余弦学习率衰减[20]0.1.批量大小设置为256。对于所提出的加法器网络，我们用我们的加法器滤波器替换LeNet-5-BN中的卷积滤波器。请注意，全连接层可以被视为卷积层，我们还将全连接层中的乘法替换为减法。我们在等式中设置超参数（13）n = 0。1、whichachi ev es b e.与其他值相比从游泳池使用一，一。2510 201474∼∼∼×∼∼×表2.CIFAR-10和CIFAR-100数据集的分类结果模型方法#Mul.#添加XNORCIFAR-10CIFAR-100VGG-smallBNN00.65G0.65G89.80%65.41%AddNN01.30G093.72%72.64%CNN0.65G0.65G093.80%72.73%ResNet-20BNN041.17M41.17M84.87%54.14%AddNN082.34M091.84%67.60%CNN41.17M41.17M0百分之九十二点二五68.14%ResNet-32BNN069.12M69.12M86.74%56.21%AddNN0138.24M093.01%69.02%CNN69.12M69.12M093.29%69.74%卷积神经网络达到了99. 4%的精度与435K乘法和435K加法。通过用加法代替卷积中的乘法，提出的AdderNet实现了99.4%的准确率，与CNN相同，870K加法，几乎没有乘法。事实上，CPU中乘法的理论延迟也大于加法和减法。有一个指令表1，其中列出了英特尔，AMD和威盛CPU的指令延迟，吞吐量和例如，在VIA Nano 2000系列中，浮点乘法和加法的延迟分别为4和2。使用LeNet-5模型的AdderNet将具有1.7M延迟，而 CNN 在此 CPU 中将具有 2.6M 延迟总之，AdderNet可以达到与CNN相似的精度注意到CUDA和cuDNN优化加法器卷积尚未可用，因此我们不比较实际推理时间。4.2. CIFAR实验然后，我们评估我们的方法CIFAR数据集，其中包括32个32像素的RGB彩色图像。由于二进制网络[39]可以使用XNOR运算来代替乘法，因此我们还比较了二进制神经网络（BNN）的结果我们使用He等人的相同数据扩充和处理。[10]用于培训和测试。继Zhouet al.[39]中，学习速率在开始时被设置为0.1，然后遵循多项式学习速率调度。这些模型被训练了400个epoch，批量大小为256。我们遵循二元网络中的一般设置，将第一层和最后一层设置为全精度卷积层。在AdderNets中，我们使用相同的设置进行公平的比较。在MNIST数据集上的实验之后，超参数η分类结果见表2。由于批量归一化层、第一层和最后一层的计算成本明显低于其他层，因此在计算FLOP时忽略这些层。我们首先在CIFAR中评估VGG-小模型[4]-10和CIFAR-100数据集。因此，AdderNets1www.agner.org/optimize/instructiontables.pdf实现了与CNN（CIFAR-10中93.80%）几乎相同的结果（CIFAR-10中93.72%和CIFAR-100中72.64%）在CIFAR-100中为72.73%。虽然BNN的模型大小比AdderNet 和 CNN 小得多，但其准确率要低得多（CIFAR-10 为89.80%，CIFAR-100为65.41%）。然后，我们转向广泛使用的ResNet模型（ResNet-20和ResNet-32 ），以进一步研究不同网络的性能至于ResNet-20，卷积神经网络实现了最高的准确性（即。CIFAR-10和CIFAR-100中的阳性率分别为92.25%所提出的 AdderNets 在 CIFAR-10 中实现了 91.84% 的准确率，在CIFAR-100中实现了67.60%的准确率，而没有乘法，这与CNN相当。相比之下，BNN在CIFAR-10和CIFAR-100 中仅达到 84.87% 和 54.14% 的准确率。ResNet-32中的结果还表明，所提出的加法器网络可以实现与传统CNN类似的结果。4.3. ImageNet上的实验接下来，我们在ImageNet数据集上进行实验[17]，该数据集由224 224像素的RGB彩色图像组成。我们使用ResNet-18模型来评估所提出的AdderNets，遵循He等人中相同的数据增强和处理。[10 ]第10段。我们利用余弦学习率衰减训练AdderNet150个epoch [20]。这些网络使用Nesterov加速梯度（NAG）进行优化，权重衰减和动量分别设置为10−4和0.9。批量大小设置为256，AdderNets中的超参数与CIFAR实验中的相同表3显示了利用不同神经网络对ImageNet数据集的分类结果卷积神经网络在ResNet-18中实现了69.8%的前1准确度和89.1%的前5准确度。然而，在该模型中，有1.8G乘法，这带来了巨大的计算复杂度。由于加法运算的计算成本比乘法小，我们提出AdderNets来用减法代替CNN中的乘法因此，我们的AdderNet在2010年达到了67.0%的top-1准确率和87.6%的top-5准确率。1475--表3.ImageNet数据集上的分类结果模型方法#Mul.#添加XNORTop-1 Acc.前5名Acc.ResNet-18BNN01.8G1.8G51.2%百分之七十三点二AddNN03.6G067.0%百分之八十七点六CNN1.8G1.8G069.8%百分之八十九点一ResNet-50BNN03.9G3.9G55.8%百分之七十八点四AddNN07.7G074.9%百分之九十一点七CNN3.9G3.9G0百分之七十六点二92.9%(a) AdderNets过滤器的可视化（b）CNN过滤器的可视化图2.MNIST数据集上LeNet-5-BN第一层中过滤器的可视化这两种方法都能提取出对图像分类有用的特征ResNet-18，它证明了加法器滤波器可以从图像中提取有用的信息。Rastegari等人[22]提出了XNOR网络，用XNOR运算代替神经网络中的乘法虽然BNN可以实现高的加速和压缩比，但它在ResNet-18中仅达到51.2%的前1精度和73.2%的前5精度然后，我们在更深层次的架构（ ResNet-50 ）上进行实验。使用 ResNet-50 ，BNN只能达到55.8%的前1准确率和78.4%的前5准确率。相比之下，所提出的AdderNets可以实现74.9%的top- 1准确率和91.7%的top-5准确率，这接近CNN的准确率（76.2%的top-1准确率和92.9%的top-5准确率）。4.4. 可视化结果特征可视化。AdderNets使用了101-distance来衡量过滤器和输入特征之间的关系，而不是CNN中的互相关。因此，重要的是进一步研究AdderNets和CNN中特征空间的差异。我们在[33]之后的MNIST数据集上训练LeNet++，该数据集有六个卷积层和一个全连接层，用于提取强大的3D特征。每个卷积层中的神经元数量分别为32、32、64、64、128、128和2。对于建议的AdderNet，最后完全连接的层被建议的添加过滤器替换。可视化结果如图1所示。卷积神经网络计算滤波器和输入之间的互相关。如果滤波器和输入是近似的，那么卷积运算就相当于计算两个向量之间的余弦距离。这可能是图1中不同类别中的特征按角度划分的原因。相比之下，AdderNets使用了101-norm来区分不同的类。因此，特征倾向于向不同的类中心聚集。可视化结果表明，所提出AdderNets可以具有与CNN相似的识别能力来对图像进行分类。过滤器可视化。我们在图2中可视化了LeNet-5-BN网络的滤波器。尽管AdderNets和CNN利用不同的距离度量，但所提出的加法器网络的滤波器（参见图2（a））仍然与卷积滤波器（参见图2（b））共享一些类似的模式。可视化实验进一步证明AdderNets的过滤器可以有效地从输入图像和特征中提取有用的信息。权重分布的可视化然后我们在LeNet-5-BN上如图4所示，AdderNets的权重分布接近拉普拉斯分布，而CNN的权重分布看起来更像高斯分布。实际上，R1-范数的先验分布是拉普拉斯分布[27]，R2-范数的先验分布是高斯分布[24]，R2-范数与交叉相关完全相同，这将在补充材料中进行分析4.5. 消融研究我们建议使用一个全精度梯度来更新我们的加法器滤波器中的滤波器，并设计一个自适应学习速率缩放来处理AdderNets中的不同层必须评估这些组件的有效性。我们首先训练LeNet-5-BN而不改变其学习率，这导致使用全精度梯度和符号梯度分别达到54.91%和29.26%的准确率。网络很难训练，因为它的梯度非常小。因此，有必要提高加法器滤波器的学习我们直接将Adder- Nets中过滤器的学习率提高了100，与池中的其他值10，50，100，200，500相比，这在全精度梯度下实现了最佳性能。如图3所示，使用自适应学习率（ALR）和增加学习率（ILR）的加法器网络实现了97.99%和97.72%的准确率1476(a) （b）损失图3.使用不同优化方案的AdderNets的学习曲线。FP和Sgn梯度表示全精度和符号梯度。所提出的自适应学习率缩放与全精度梯度达到最高的准确率（99.40%）与最小的图4.使用AdderNet（左）和CNN（右）的权重直方图。AdderNets的权重遵循拉普拉斯分布，而CNN的权重遵循高斯分布。具有符号梯度，这远低于CNN的准确率（99.40%）。因此，我们提出了全精度梯度来精确更新AdderNets中的权重。因此，具有ILR的AdderNet使用全精度梯度实现了98.99%的准确性。采用自适应学习率（ALR），AdderNet可以达到99.40%的准确率，证明了所提出的ALR方法的有效性。表4.使用LeNet-5-BN的参数η对MNIST数据集η10.50.20.10.05Acc.（%）99.2699.3099.3599.4099.32参数的影响如上所述，所提出的自适应学习速率缩放具有超参数：η。然后，我们通过在MNIST数据集上进行实验来测试其对学生网络准确性的影响我们使用LeNet-5-BN作为AdderNet的主干。其他实验设置与第2节中提到的相同。4.1.从表4中可以看出，利用自适应学习率缩放训练的AdderNet在η= 0.1时达到最高准确度（99.40%）。基于上述分析，我们保留了超参数的设置，置位法5. 结论深度CNN中使用的经典卷积的作用是测量特征和过滤器之间的相似性，我们有动机用更有效的相似性度量来取代卷积。我们调查的可行性取代乘法加法在这项工作中。探索AdderNet以有效地使用加法来构建具有低计算成本的深度神经网络。这种网络计算特征和过滤器之间的距离。采用正则化全精度梯度法，建立了相应的优化方法。在基准数据集上进行的实验表明，AdderNets可以很好地近似具有相同架构的CNN的性能可视化结果还表明，加法器滤波器是有希望取代原来的卷积滤波器的计算机视觉任务。在我们未来的工作中，我们将研究AdderNets的量化结果，以实现更高的加速和更低的能耗，以及AdderNets不仅用于图像分类，而且用于检测和分割任务的通用性。确认我们感谢匿名评论者的有益评论。这项工作是支持通过国家国家自然科学基金项目 .61876007 ， 61872012 ，中国国家重点研发 & 计划（ 2019 YFF 0302902 ），北京人工智能研究院（BAAI），澳大利亚研究委员会DE-180101438项目。1477引用[1] Jeremy Bernstein ， Kamyar Azizzadenesheli ， Yu-XiangWang，and Anima Anandkumar.非凸函数符号随机梯度下降的收敛速度。2018. 4[2] Jeremy Bernstein，Yu-Xiang Wang，Kamyar Azizzade-nesheli，and Anima Anandkumar. signsgd：非凸问题的压缩优化。arXiv预印本arXiv：1802.04434，2018。4[3] 罗伯托·布鲁内利计算机视觉中的模板匹配技术：理论和实践John Wiley Sons，2009年。4[4] 蔡兆伟，何晓东，孙健，努诺. 通过半波高斯量化进行低精度深度学习在CVPR中，第5918-5926页，2017年。1、6[5] Matthieu Courbariaux ， Yoshua Bengio 和 Jean-PierreDavid。Binaryconnect：在传播过程中使用二进制权重训练深度神经网络。NeuriPS，第3123-3131页，2015年。1[6] 艾米丽·L·丹顿、沃伊切赫·扎伦巴、琼·布鲁纳、扬·勒昆和罗布·弗格斯。利用卷积网络中的线性结构进行有效评估。InNeuriPS，2014.2[7] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。第十三届人工智能和统计，第249-256页，2010年。4[8] Kai Han ， Yunhe Wang ， Qi Tian ， Jianyuan Guo ，Chunjing Xu，and Chang Xu.Ghostnet：廉价歌剧的更多功能。arXiv预印本arXiv：1911.11907，2019。3[9] Song Han，Huizi Mao，and William J Dally.深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv：1510.00149，2015。2[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。三、六[11] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。3[12] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。2[13] Hengyuan Hu，Rui Peng，Yu-Wing Tai，and Chi-KeungTang.网络修整：数据驱动的神经元修剪方法实现高效的深度架构。arXiv预印本arXiv：1607.03250，2016。2[14] Ting-Kuei Hu ， Tianlong Chen ， Haotao Wang ， andZhangyang Wang.三连胜：通过启用输入自适应推理，同时提高准确性、鲁棒性和效率。arXiv预印本arXiv：2002.10025，2020。2[15] Itay Hubara、Matthieu Courbariaux、Daniel Soudry、RanEl-Yaniv和Yoshua Bengio。二值化神经网络NeuriPS，第4107-4115页，2016年。1[16] Felix Juefei-Xu ， Vishnu Naresh Boddeti ， and MariosSav-vides.扰动神经网络在CVPR中，第3310- 3318页，2018年。3[17] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。NeuriPS，第1097-1105页，2012年。1、6[18] YannLeCun，Le'onBottou，YoshuaBengio，PatrickHaf fner等人。基于梯度的学习应用于文档识别。Proceedingsof the IEEE，86（11）：2278-2324，1998. 5[19] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在CVPR，第3431-3440页，2015年。1[20] 伊利亚·罗希洛夫和弗兰克·哈特。Sgdr：Stochas-tic 梯度下降与热重启。 arXiv 预印本 arXiv ：1608.03983，2016。五、六[21] Jian-Hao Luo，Jianxin Wu，and Weiyao Lin. Thinet：一种用于深度神经网络压缩的过滤器级修剪方法。在ICCV，第5058-5066页，2017年。2[22] Mohammad Rastegari、Vicente Ordonez、Joseph Redmon和Ali Farhadi。Xnor-net：使用二元卷积神经网络的Imagenet分类。在《欧洲共同体刑法典》第525- 529542.施普林格，2016年。1、7[23] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。NeuriPS，第91-99页，2015年。1[24] 杰森·雷尼2范数正则化与高斯先验。2003. 7[25] Adriana Romero 、 Nicolas Ballas 、 Samira EbrahimiKahou 、 Antoine Chassang 、 Carlo Gatta 和 YoshuaBengio。Fitnets：薄而深的网的提示。arXiv预印本arXiv：1412.6550，2014。3[26] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络2015年，国际会议。1[27] 斯蒂芬·M·斯蒂格勒。统计学的历史：1900年以前的不确定性测量。哈佛大学出版社，1986年。7[28] Chen Wang ， Jianfei Yang ， Lihua Xie ， and JunsongYuan.卷积神经网络在CVPR中，第31-40页，2019年。4[29] Yue Wang，Zi

下载后可阅读完整内容，剩余1页未读，立即下载