深度神经网络权重三值化的高效压缩方法

21 浏览量更新于2023-10-19 收藏 775KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11438用截断高斯近似中佛罗里达大学Orlando，FL@ Knights.ucf.edu中佛罗里达大学Orlando，FLdfan@ucf.edu摘要近年来，深度卷积神经网络在人工智能领域取得了巨大的成功。然而，其庞大的模型规模和庞大的计算成本已成为这种强大的算法在低功耗和资源有限的移动系统中部署的主要障碍作为该问题的对策，具有三值化权重的深度神经网络-1，0，+1）的方法，以极大地减小模型大小和计算成本，并具有有限的精度下降。在这项工作中，我们提出了一种新的三端化神经网络训练方法，同时优化权值和量化器在训练过程中，区别于以往的作品。代替固定和均匀的权重三进制化，我们是第一个将权重三进制化的阈值合并到使用截断高斯近似的封闭形式表示中，从而能够通过反向传播训练同时优化权重和量化器。在第一层和最后一层都三端化的情况下，对IM-ageNet分类任务表明，与全精度对应物相比，我们的三端化ResNet- 18/34/50仅具有1. 介绍人工智能是当今最热门的研究课题之一，在过去的几年里，它吸引了来自各个领域的巨大努力。虽然计算机科学家已经成功地开发出在计算机视觉，语音识别，大数据处理等领域具有卓越性能的深度神经网络（DNN）。[13 ]第10段。最先进的DNN演变成具有更大模型尺寸、更高计算成本和更密集层连接的结构[8，25，24，11]。这种演变在计算和片上存储方面给计算机硬件带来了巨大的挑战[10]，这导致了巨大的近年来在模型压缩主题上的研究成果，包括信道修剪[9，29]，权重稀疏[7]，权重量化[6]等[10]。作为有效压缩DNN模型的权重量化技术的特殊情况，权重三值化主要提供三个好处：1）它将浮点权重转换成三进制格式（即，-1，0，+1），其中可以将模型尺寸显著减小16倍。采用适当的稀疏编码技术，可以进一步提高。2)除了减少模型大小外，三进制化的权重还可以消除硬件昂贵的浮点乘法运算，同时替换为硬件友好的加法/减法运算。因此，它可以显着减少推理延迟。3)具有零值的三值化权重内在地修剪网络连接，因此可以简单地跳过与那些零权重相关的计算。在以前的低位宽量化工作中，例如TTN [15]，TTQ[28]和BNN [5]，它们确实重新训练模型的权重，但使用固定权重量化器，并且没有与其他模型参数一起正确更新，这导致精度下降和训练收敛缓慢。在这项工作中，我们提出了一种网络三值化方法，同时更新权重和量化器（即，在培训期间，我们的贡献可以概括为：• 我们提出了一种完全可训练的DNN三进制化方法，该方法可以联合训练量化器阈值、逐层缩放因子和权重，以最小化模型压缩引起的精度下降。• 而不是利用固定和统一的三值化器，我们是第一个将阈值权重三值化为使用截断高斯近似的封闭形式的表达式，其可以通过反向传播与网络的其他参数一起11439l l=1Ll l=1• 我们用梯度校正技术进一步优化了广泛使用的直线估计（STE）[2，5]。它给出了更好的梯度逼近对于非微分阶梯三值化函数，该方法具有较快的收敛速度和较高的推理精度。• 为了验证我们所提出的方法的有效性，我们将所提出的模型三值化方法应用于 CIFAR-10 和ImageNet数据集上的对象分类任务本文的其余部分组织如下。本文首先简要介绍了模型压缩的相关工作。然后详细说明了所提出的网络三端化方法及其应用技巧在下面的部分中，我们将在各种DNN架构的小型和大型数据集上进行实验在此基础上，本文最后得出了结论。2. 相关作品最近，深度卷积神经网络上的模型压缩已经成为人工智能硬件部署有各种技术，包括网络修剪[17]，知识蒸馏[18]，权重稀疏化[7]，权重量化[6]等[22]，以执行网络模型压缩。训练的缩放因子[28]。Leng等人采用ADMM方法在可配置的离散水平中优化神经网络权重，以在准确性和模型大小之间进行权衡[14]。ABC-Net在[16]中提出了多个并行二进制卷积层，以提高网络模型的容量和准确性，同时保持二进制内核。与全精度对应物相比，所有上述积极的DNN二值化或三值化方法都牺牲了推理准确性，以实现大的模型压缩率和计算成本降低。3. 方法3.1. 问题定义至于神经网络的权重量化，现有技术的工作[26]通常将其分为两个子问题：1）最小化量化噪声（即，均方误差）之间的浮点权重和量化的权重，以及2）最小化DNN的推理误差相对于DNN推理的定义的目标函数。在这项工作中，而不是单独优化两个子问题，我们数学上的权重量化器的阈值纳入神经网络的前向路径，从而使-启用的同时优化的权重和阈值，通过反向传播方法。在这项工作中，给定向量化输入x和目标t，网络优化问题可以描述为：权重量化技术作为最流行的技术之一，在许多相关领域得到了广泛的研究arg min{w，S，±}LL（f（x;{w′}L），t）作品，可以显着缩小模型的大小和重新-LLLl=1（一）S. t. w′=Tern（wl，Sl，n±）降低计算复杂度[10]。著名的深LL压缩技术[6]采用优化的方案，其中f（x;{w′}L）计算DNN的输出，在预处理训练模型尽管深度压缩技术可以在8位量化权重下实现可忽略的精度下降，但其在低比特量化情况下的性能并不理想。此后，许多工作致力于将模型参数转换为二进制[5，20]或三进制格式 [28] ，不仅因为它极大地减少了模型大小（16×132 ×），而且计算也从浮点乘法（即，mul）运算转换为加法/减法（即，add/sub）。BinaryConnect[4]是二进制CNN的第一个工作，它可以接近CIFAR-10最先进的精度，其最有效的技术是引入梯度裁剪。之后， [20] 和 DoreFa-Net [27] 中的 BWN 在ImageNet数据集上显示出更好或接近的验证准确性。为了降低计算复杂度，XNOR-Net [20]将卷积层的输入张量二进制化，进一步将Add/Sub操作转换为逐位Xnor和位计数操作。除了权值二值化，提出了三端化神经网络权值的方法，l l=1由三值化权重参数化，对于输入X. {w′}L. L是DNN中的层数。wl是在三进制化之前的第l层中的浮点权重L（·，·）是定义的损失函数。三值化函数T ern（）在Eq.通过三值化值S1和阈值S2来参数化等式（1），其中等式细节被给出为等式（2）。（2）在下一节中。3.2. 高斯近似下的可训练三值化在本小节中，我们将首先介绍我们的权重三进制化方法。然后，我们提出的方法，将三值化阈值到神经网络的推理路径，这使得它可以通过反向传播训练，详细讨论。3.2.1网络三化：为了获得具有三值化权重和最小化精度差距的DNN，其全精度计数器11440LLLLLl=1四、第一章（二）第三章批'损失4)对于相同的输入批次，它重复步骤2，同步三值化权重{w′}Lw.r.t the在步骤3中更新阈值{δ1}L 那么，这就是说-l l=1l=1(a) 仅更新阈值δ(b) 进程仅更新权重w图 1. 的流程图的网络三化作用，哪里实线/虚线表示激活/非激活步骤转换。1）在训练期间迭代地操作步骤（1）、（2）、（3）、（2）、（4）。第三部分，一次迭代的训练方案（如图3所示）。1）一般可以列举为四个步骤：挂起阈值的更新，只允许完全-精度重量基础更新1.由于等式（1）中的阶梯三值化函数（Tern（·））（2））由于其零导数几乎处处为不可微，因此我们采用了与以前的网络方程类似的直通估计（STE）方法[2][28]第二十八话值得注意的是，我们在STE上提出并应用了梯度正确性技术，这对于提高权重重新训练的收敛速度至关重要（详见第3.3节）。现在有了三进制化的权重，DNN的主要计算从计算昂贵的浮点乘法和累加（MAC）转换为更有效和更简单的加法和减法（Add/Sub）。计算可以表示为2：xT·w′=xT·（S·Tern（w））=S·（xT·Tern（w））（3）ll llll1) 使用全精度预训练模型初始化权重。以前的工作已经实验证明，微调的预训练模型与小的学习率通常会产生一个量化的模型具有更高的精度。更重要的是，使用预训练模型作为参数初始化，其中xl和w'分别是第l层的向量化输入和三值化权重。在最先进的DNN架构中，卷积/全连接层通常遵循批量归一化层[12]（即，仿射函数）或ReLU，其中它们都执行元素-在它们的输入张量上的明智乘法（即， xT·w′）。需要较少数量的训练时期来获得模型11与从头开始的训练相比，2) 将全精度权重wl，i，t三值化为逐层阈值和量化值Sl（aka. 缩放系数）。权重三值化函数可以描述为：w′=Sl·Tern（wl，i，n±）因此，具有Sl的逐元素缩放由方程式（三）可以发出并与前向路径中的后续批处理规范/BAUCU层集成。除了上述描述之外，我们还将算法1中的操作形式化以用于澄清。3.2.2利用截断高斯分布近似的可训练阈值：l，il中国+1wl，i>+=Sl·0−≤wl，i≤+（二）在以前的工作中已经讨论过[3，1]，空间卷积层的加权分布和阿普尔−1wl，i−<注意，缩放系数S1可以被写在具有阈值的封闭形式函数中，这是将量化器优化并入DNN训练而不修改损失函数的关键。Sl的公式推导将在第3.2.2节中说明。此外，由于我们建议使用对称阈值-以µl为中心的olds用于权重三进制化，因此我们重新格式化±= µl±δl，其中µl是w l的统计平均值。3) 对于一个给定的输入批次，该步骤仅通过反向传播更新阈值{δ1}L同时，在当前步骤中暂停更新权重由于L2范数权值惩罚的正则化作用，全连接层倾向于遵循高斯例如，在Fig.在图2中，我们使用每个参数层的计算平均值和标准差示出了权重分布及其相应的概率密度函数（PDF）（即，卷积和全连接层）在ResNet-18 b [8]中。同时，进行Shapiro-Wilk正态性检验[23]以确定重量样本定量地来源于高斯分布Shapiro-Wilk正态性检验的给定检验统计量WS表明具有最小值1在训练期间，从全精度权重基实时计算三值化权重，因此对全精度权重而不是其三值化对应物执行权重更新[2]为了简单起见，我们忽略了偏置项。四、第一章（二）第三章批'损失114410.50.00.51.0=2.94E-05=1.30E-01#w=9408Ws=0.860.5 0.00.5=-3.09E-03=5.34E-02#w=36864Ws=0.820.40.20.00.2=-8.89E-04=4.52E-02#w=36864Ws=0.950.50.00.5=-2.42E-03=5.08E-02#w=36864Ws=0.90=-1.45E-03=4.16E-02#w=73728Ws=0.950.20.00.2101055000.40.20.00.2=-1.26E-03=4.40E-02#w=36864Ws=0.960.50.0 0.5=-2.59E-03=7.06E-02#w=8192Ws=0.860.40.20.00.20.4=-1.53E-03=3.42E-02#w=147456Ws=0.95=-1.27E-03=3.01E-02#w=147456Ws=0.970.20.00.20.40.20.00.2=-1.37E-03=2.90E-02#w=294912Ws=0.950.20.00.2=-7.87E-04=2.50E-02#w=589824Ws=0.960.20.00.2=-1.90E-03=3.29E-02#w=32768Ws=0.960.5 0.00.5=-8.43E-04=3.28E-02#w=131072Ws=0.960.10.00.10.2=-1.08E-04=1.32E-02#w=2359296Ws=0.98=-1.56E-03=1.99E-02#w=1179648Ws=0.98LLLl=1l=1LL∆conv12010layer1.0.conv15025layer1.0.conv2105layer1.1.conv1105layer1.1.conv2layer2.0.conv1layer2.0.conv2100 0 0 0 0layer2.0.downsample.010105layer2.1.conv1layer2.1.conv210layer3.0.conv110layer3.0.conv22010layer3.0.downsample.0201010layer3.1.conv10 0 0 0 0 0 0layer3.1.conv220100layer4.0.conv120201010000.20.0 0.2 0.4layer4.0.conv2layer4.0.downsample.020101000layer4.1.conv1layer4.1.conv2 fc2050 0图2. 权重的直方图wl（蓝色阴影o w）以及高斯分布N（µl，σ2）的PDF曲线v e（红线），对于ResNet-18 b中的每个卷积、全连接和残差层[8]。 μl和σ2是w l的统计平均值和方差，相对于i vel y。 F或具有更多数量的权重（#w）的层，权重分布更精确地符合高斯分布。..0.82值注意，不对称性（即，最后一个全连通层的偏度（Skewness）是由于偏置项的存在。在这项工作中，我们考虑参数层的权重（即，卷积和全连接层）近似遵循高斯分布，然后我们基于这种近似执行权重三值化。其中φ（x. μl，σl）和Φ（x. µl，σl）是高斯分布N（µl，σ2）的PDF和CDF。这种计算可以直接利用数学期望的封闭式表达式对于具有下界a和上界b的截断高斯分布。因此，我们最终获得了嵌入可训练阈值δ1的缩放因子的封闭形式表达式：为了使阈值{δl}L作为可训练α=a−µl=δl ;β= b−µl =+∞（6）可以通过反向传播更新的参数，必须满足两个标准：• L必须是σlσlSl（µl，σl，δl）=µl−σl·σlφ（β| 0，1）− φ（α| 0、1）Φ（β| 0，1）− Φ（α| 0、1）（七）封闭式表达式中的DNN推理路径。• 这种封闭形式的表达式对于阈值是可微的。=μ+ σ·φ（α|0、1）ll1 − Φ（α|0、1）..其中φ（·. 0，1）和Φ（·. 0，1）是PDF和CDF的标准没有r-正态分布N（0，1）。因此，我们首先假设：假设1指定层1的权重近似地遵循高斯分布（即，wl<$N（µl，σ2）），其中µl和σl是重量样本w l的计算平均值和标准差。其中这种假设是将阈值以可微封闭形式并入DNN推理路径的关键对于均匀或非均匀分布数据的量化器设计，通常将质心作为量化值以最小化量化误差[19]。因此，对于权重三值化，逐层缩放系数（即，量化值）可以被描述为：向前4205.0 2.5 2.55.0L向前5432102.01.51.00.50.0（一）2101落后Sl（ l= 0， l= 1，l） l5.0 2.5 2.5 5.0L落后S（= 0，=1，c）LL lLLSl（wl，±）=∫−Lφc（x）·xdx+−∞.∫+∞∆lφc（x）·xdx（四）5.0 2.5 2.55.0L（b）第（1）款=-1.25E-03=3.40E-02#w=147456Ws=0.940.20.00.20.40.2 0.00.2=-1.66E-03=2.24E-02#w=589824Ws=0.970.20.0 0.2=-1.44E-03=2.07E-02#w=589824Ws=0.980.20.0 0.2=-1.30E-03=1.73E-02#w=2359296Ws=0.99=-2.26E-03=1.78E-02#w=2359296Ws=0.990.20.00.2=5.85E-08=6.95E-02#w=512000Ws=0.910.25零点0.250.500.75Sl（ l= 0， l= 1， l）S（= 0，=1，c）LL lL11442LlLL5.0 2.5 2.5 5.0L=E（|wl，i|. （wl，i><$+）<$（wl，i<$−））图3. （a）Sl（μl，σl，δl）的前、后向曲线和（b）S（μ，σ，δc）w. r.tδ，其中δc为δ与剪辑CON-LLlllll其中φc（x）是在（x>+）在本工作中，通过设置±=µl±δl，我们可以束缚注意，我们选择µl= 0和σl= 1作为示例用于可视化。l l l近似Eq。（4）并将其重新格式化为：∫Sl（µl，σl，δl）=b=+∞.φ（x. µ，σ）..·xdx（5）如图所示。3a，我们绘制了Sl的函数，向和反向路径W。r.t.δl的变化进行可视化，a=μl+δlΦ（b. µl，σl）− Φ（a.µl，σl）第由于大多数流行的深度学习框架都使用11443LLLLL.数值方法（例如，Monte-Carlo法）进行分布相关计算时，计算S和δ S/δS会产生误差罗罗里奥l l l在分布的尾部（即， δl>3σl）。为了保证Sl在正反向路径上的正确性，防止帧工作一致性问题，我们对Sl进行裁剪，从而|∈（0，3 σ l）.|∈(0,3σl). 这种剪切操作在功能上等价于通过硬双曲正切函数来传播δl，该硬双曲正切函数是分段的。上下限为j的智能线性激活函数k，则具有限幅约束的可训练阈值可以表示为：Ri（一）（b）第（1）款hardtanh（x，j，k）= Clip（x，j，k）= max（j，min（x，k））（8）δc=hardtanh（abs（δl），0，3σl）（9）用δ c的截断值代替δl后，Sl的前、后向函数由图1转化为图2。3a至图 3b. 除此之外，由于权重衰减倾向于将δ 1的可训练阈值推向接近零，这使三元权重表示偏向二元对应物，因此我们在训练期间不对阈值δ1应用权重衰减。图4.量化器直通估计器的分析本文对[ 5 ]中的（a）ro=sign（ri）和（b）ro=T ern（ri）进行了其中两项都可以传递回梯度以更新嵌入参数。为了将适当的梯度分配给Tern（wl，i），我们遵循STE设计规则，其导致以下表达式：总之，我们最终确定了缩放因子项和权重三值化函数，以替代前向传播路径中的原始全精度权重：阿格夫l，i=阿鲁夫岛Tern（wl，i）阿鲁夫岛=Sltern（wl，i）阿鲁夫岛= 1（14）φ（δc/σl|0、1）Sl（µl，σl，δl）=µl+σl·（十）因此，用于三值化函数的STE可以由等式2导出。（十四）如：1− Φ（δc/σl|0、1）n（wl，i）=1我的天，我的天（十五）+1wl，i>µl+δc布里尔Tern（wl，i，µl，δl）=0µl−δc≤wl，i≤µl+δc（11）阿普尔−1wl，iµl−δc3.3. 具有梯度正确性几乎对于任何把连续值映射到离散空间的量子化函数，都遇到了同样的问题，即这种阶梯函数是不可微的。因此，广泛采用的解决方案是使用所谓的直通估计（STE）来手动将近似梯度分配给量化函数。我们以著名的二值化神经网络[5]中的STE为例进行分析（图1）。其中二值化函数的前向和后向被定义为：转发：ro=sgn（r i）（12）如在Eq中看到的（15），而不是简单地将梯度分配为1，我们缩放了ΔTern（wl，i）/Δwl，iw。r.t为Sl（µl，σl，δl）的实时值。如图4b. STE可以更好地逼近梯度，梯度校正项可调4. 实验与结果评价4.1. 实验装置在这项工作中，我们使用CIFAR-10和ImageNet数据集评估了我们提出的用于对象分类任务的所有实验均在Pytorch深度学习框架下使用4路NVIDIA Titan-XP GPU进行。为了澄清，在这项工作中，第一层和最后一层都在训练和测试阶段被.公司简介 L.阿穆尔岛CIFAR-10包含5万个训练样本和1万个向后：斯图尔岛.=⇒阿尔布尔岛|Ri| ≤1.阿尔布尔岛|≤1| ≤1= 1（13）用32×32图像尺寸的砂测试样品数据扩充方法与[8]中使用的相同为了进行微调，我们将初始其中L是DNN推理损失。这种STE设置背后的规则是量化函数r。的输出可以有效地表示全精度输入值ri。因此，Sign（·）执行与f（ri）=ri类似的函数，其导数为f（ri）/然而，在Eq. （12）和Eq. （13）导致显著的量化误差并且妨碍了网络培训当ri太大或太小（ri1或ri>>1）时，如果二值化值ro不改变，则ri<<为了克服单纯STE设计的缺点，如上所述，我们提出了一种称为梯度正确性的方法，以获得更好的梯度近似。对于我们的权重三进制化情况，全精度权+1个-1+1个-1鲁鲁里岛+1个1ros ri-1+1RiL-1O=11444重基wl由Sl（μl，σl，δl）表示。学习速率为0.1，其被调度为分别在时期80、120按0.1缩放最小批处理大小设置为128。为了在大型数据集上提供更全面的实验结果，我们使用ImageNet [21]（ILSVRC 2012）数据集检查了我们在图像分类任务ImageNet包含120万张训练图像和5万张验证图像，这些图像被标记为1000个类别。对于数据预处理，我们选择ResNet [8]采用的方案。应用于训练图像的增强可以被顺序地增强。224×224随机大小裁剪，随机水平翻转，像素归一化。所有报告的分类AC-验证数据集上的准确性是单一裁剪结果。最小批量大小设置为256。11445L′′算法1在权值服从高斯分布的假设下，训练三端化网络的权值和阈值。要求：一小批输入x及其对应的目标y t、层数N、全精度预训练权重w'、初始阈值δ全精度权重基w t和来自最后一次训练迭代t的逐层阈值δ t、学习率η、网络推理函数f（·）。确保：对于t+ 1的当前迭代索引，更新完整的精度权重wt+1，更新逐层阈值表1.使用ResNet-20在CIFAR-10数据集上对所提出的方法进行消融研究。δt+1。{步骤-1. ：}一曰：如果t= 0，则这是第一次训练迭代2：w<$w<$;δ<$δ<$3：其他负载预训练模型904：w<$wt;δ<$δt从上一次迭代开始加载第五章： end if{步骤2. 重量三进制化：}6：对于1：=1到N，7：µl← w l. mean（）; σl← w l. std（）8：w′←Sl（μl，σl，δl）·Tern（w l，μl，δl）·等式8 （10）和（11）第九章：端{步骤3. 仅更新阈值δ：}十： y←f（x，w）=前向传播，等式（3）十一： L←Loss（y，yt）排除推论错误12：对于l：=Nto1，十三：gδl←L/δl梯度反向传播14：δl←Update（δl，gδl，η）UsingvanillaSGD15：end for{重复第2步：从OP-6到OP-10}这是重要的一步！{步骤4. 仅更新权重w：}16：y←f（x，w）17：L ←损失（y，yt）18：对于1：=N至1，十九：gwl←L/w l梯度20的反向传播：wl←Update（w l，gwl，η）使用SGD/Adam21：endforreturnwt+1<$w;δt+1<$δ4.2. 消融研究为了检验我们提出的方法的有效性，我们进行了以下消融研究。实验是在CIFAR-10数据集上使用ResNet-20 [8]进行的，其中的差异足以说明有效性。4.2.1梯度正确性我们比较了有无梯度校正的STE的精度曲线收敛速度。如图5、具有梯度正确性的网络训练速度比不具有梯度正确性的网络训练速度快得多的80706050400 25 50 75 100 125 150时代图5.用于训练和测试的准确度演化曲线，适用于无或无梯度正确性的情况。导致收敛速度下降的主要原因是当逐层缩放因子小于1时，在没有梯度校正的情况下，损失函数关于权重的梯度由于链规则而被缩放因子缩放。因此，与阈值相比，权重以小得多的步长更新，当优化时，权重以相同的参数（例如，学习率等）。4.2.2阈值优化器普通SGD和Adam是量化神经网络训练中最常用的两种优化器。因此，我们以这两个优化器为例来展示训练的演变。注意，由于权重和阈值针对每个输入小批量迭代地更新，因此我们可以针对权重和阈值使用不同的优化器在这个实验中，我们使用SGD进行权重优化，同时使用SGD和Adam进行阈值优化。图中描绘的结果。6表明最好使用相同的SGD优化器来实现更高的精度。4.2.3公司简介为了检验阈值初始化对网络训练的影响，我们将阈值初始化为δl={0。05，0。1，0。15}·max（|WL|）的所有层。实验结果见Fig.7显示初始化不播放w/梯度校正测试w/梯度校正训练w/o梯度校正测试无梯度校正训练准确度（%）Ll配置精度全精度（基线）百分之九十一点七梯度正确性90.39%无梯度正确性87.89%香草SGD90.39%亚当56.31%初始化δl= 0。05最大值（|WL|）89.96%11446香草SGD测试vanilla SGD-train Adam-test亚当列车准确度（%）表2.使用各种模型量化方法在ImageNet上验证ResNet-18/34/50 b [8]的准确性（top1/top5%）权方案第一层最后层准确度（top1/top5）Comp.率ResNet-18b全精度-FPFP69.75/89.071×BWN[20]斌FPFP60.8/83.0∼32×[16]第十六话斌FP*FP*68.3/87.96.4×ADMM[14]斌FP*FP*64.8/86.2∼32×TWN[15，14]燕鸥FPFP61.8/84.2∼16×[第28话]燕鸥FPFP66.6/87.2∼16×ADMM[14]燕鸥FP*FP*67.0/87.5∼16×[第18话]燕鸥FP*FP*68.5/-∼16×这项工作燕鸥FPFP68.09/87.90∼16×这项工作燕鸥燕鸥燕鸥65.83/86.68∼16×ResNet-34b全精度-FPFP73.31/91.421×[第18话]燕鸥FP*FP*72.8/-∼16×这项工作燕鸥燕鸥燕鸥70.79/89.89∼16×ResNet-50b全精度-FPFP76.13/92.861×[第18话]燕鸥FP*FP*74.7/-∼16×这项工作燕鸥燕鸥燕鸥73.97/91.65∼16×908080607040200 25 50 75 100 125 150时代6050400 25 50 75 100 125 150时代图6.使用vanilla SGD和Adam优化器在我们的案例中，网络三端化的重要作用原因有两个：1）一方面，所有逐层三值化阈值都用小值初始化，其中差异不显著。2)另一方面，所有阈值都是完全可训练的，这将减轻训练期间的差异。4.3. ImageNet数据集上的性能除了我们在CIFAR-10数据集上进行的消融研究之外，我们还在具有ResNet-18/34/50（类型b剩余连接）网络结构的大规模ImageNet数据集上进行了实验。实验结果列于表2中图7.不同阈值初始化情况下训练和测试的精度演化曲线。结合相关工作中采用的方法由于对于在专门设计的硬件上运行的神经网络的现实情况结果表明，本文的结果可以达到目前的水平。逐层阈值被初始化为δ1=0。1×|max（wl）|. 我们使用全精度预训练模型进行权重初始化，如图所示1.一、学习速率从1 e-4开始，然后在epoch 30，40，45相应地变为2 e-5，4 e-6，2 e-6。我不知道，我也不知道。05max（|W|）-test我不知道，我也不知道。05max（|W|）-t r ainit ialwith0. 1max（|W|）-test我不知道，我也不知道。1max（|W|）-t r ain准确度（%）114475. 结论和未来工作在这项工作中，我们提出了一种神经网络三值化方法，它将阈值作为网络推理路径中的可训练参数，从而通过反向传播更新权重和阈值。此外，我们还讨论了直通估计器设计对逼近阶梯函数梯度的重要性。一般来说，我们的工作是基于深度神经网络的权重倾向于遵循高斯分布的假设。事实证明，这种假设在某种程度上成功地返回了一个抽象的模型，用于网络三端化的目的。鸣谢：这项工作得到了国家科学基金会的部分支持。1740126和半导体研究公司nCORE。引用[1] C.巴斯金，E.施瓦茨E.热尔托诺日斯基，N.利斯R. Giryes，A. M. Bronstein和A.门德尔松Uniq：用于神经网络量化的统一形式噪声注入。arXiv预印本arXiv：1804.10969，2018。3[2] Y. Bengio，N. L e'onard和A. 考维尔通过条件计算的随机神经元估计或传播 arXiv 预印本 arXiv ： 1308.3432 ，2013。二、三[3] C. Blundell，J.科尔内比斯河Kavukcuoglu和D.好极了。神经网络中的权重不确定性。arXiv预印本arXiv：1505.05424，2015。3[4] M. Courbariaux，Y.Bengio和J.P. 大卫Binaryconnect：在传播过程中使用二进制权重训练深度神经网络。神经信息处理系统的进展，第3123-3131页，2015年。2[5] M.库尔巴里奥岛Hubara，D.苏德里河El-Yaniv，以及Y.本吉奥。二进制神经网络：训练深度神经网络，权重和激活限制为 +1 或 -1 。 arXiv 预印本 arXiv ：1602.02830，2016。一、二、五[6] S. 汉，H. Mao和W. J·达利深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv：1510.00149，2015。一、二[7] S. Han，J.普尔，J。Tran和W.Dally 学习权值和连接以实现高效的神经网络。神经信息处理系统的进展，第1135-1143页，2015年一、二[8] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 770-778，2016中。一、三、四、五、六、七[9] Y.他，X。zhang和J.太阳用于加速非常深的神经网络的通道修剪。在IEEE计算机视觉国际会议论文集，第1389- 1397页，2017年。1[10] Z.他，B. Gong和D.粉丝优化深度卷积神经网络，具有三端化权重和高精度。2019年IEEE计算机视觉应用冬季会议（WACV），第913-921页。IEEE，2019。一、二[11] G. Huang，Z.Liu，K.Q. Weinberger和L.范德马滕。密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集，第1卷，第3页，2017年。1[12] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。 arXiv 预印本 arXiv ：1502.03167，2015。3[13] Y. LeCun ， Y.Bengio 和 G. 辛顿深度学习 nature， 521（7553）：436，2015. 1[14] C. Leng，H. Li，S. Zhu和R.晋极低比特神经网络：用admm挤出最后一点。arXiv预印本arXiv：1707.09870，2017年。二、七[15] F.李湾，澳-地Zhang和B.刘某三重网络arXiv预印本arXiv：1605.04711，2016。1、7[16] X. 林角，澳-地Zhao和W.锅精确二进制卷积神经网络。神经信息处理系统的进展，第344-352页，2017年。二、七[17] J. - H. Luo，J. Wu，and W.是林书Thinet：一种用于深度神经网络压缩的过滤器级修剪方法。arXiv预印本arXiv：1707.06342，2017。2[18] A. Mishra和D.马尔Apprentice：使用知识蒸馏技术提高低精度网络精度。arXiv预印本arXiv：1711.05852，2017。二、七[19] J. G. Proakis，M.萨利希Zhou和X.李通信系统工程，第2卷。新泽西州普伦蒂斯霍尔，1994年. 4[20] M. 拉斯泰加里河谷Ordonez，J.Redmon和A.法哈迪。Xnor- net：使用二进制卷积神经网络的Imagenet分类。欧洲计算机视觉会议，第525-542页。施普林格，2016年。二、七[21] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。Bernstein 等人图像网大规模视觉识别挑战。International Journal of Computer Vision，115（3）：211-252，2015. 5[22] M. Sandler ， A. Howard ， M. Zhu ，中国茶青冈 A.Zhmoginov和L.- C.尘Mobilenetv2：反演残差和线性瓶颈。在IEEE计算机视觉和模式识别集，第4510-4520页，2018年。2[23] S. S. Shapiro和M. B.威尔克正态性的方差分析检验（完整样本）。Biometrika，52（3/4）：591- 611，1965. 3[24] C. 塞格迪河谷Vanhoucke，S.Ioffe，J.Shlens和Z.沃伊纳重新思考计算机视觉的初始架构在IEEE计算机视觉和模式识别会议论文集，第2818-2826页，2016年。1[25] S. 谢河，巴西-地Girshick，P. 多拉尔，Z。 Tu和K. 他外深度神经网络的聚集残差变换。在计算机视觉和模式识别（CVPR），2017 IEEE会议上，第5987-5995页。IEEE，2017年。1[26] D. Zhang，J. Yang，D.中国农业大学学报（自然科学版）Ye和G.华Lq-nets：用于高度精确和紧凑的深度神经网络的学习量化。arXiv预印本arXiv：1807.10029，2018。2[27] S. Zhou，Y. Wu，Z. Ni、X. Zhou， H. Wen和Y.邹。Dorefa-net：用低位宽梯度训练低位宽卷积神经网络。arXiv预印本arXiv：1606.06160，2016。211448[28] C. Zhu，S.汉，H. Mao和W. J·达利经过训练的三进制量化。arXiv预印本arXiv：1612.01064，2016。一、二、三、七[29] Z. Zhuang，M.，中国昆明种植物志坦湾Zhuang，J.Liu，Y.郭角，澳-地吴先生，J. Huang和J.竹用于深度神经网络的识别感知信道神经信息处理系统的进展，第875-886页，2018年1

下载后可阅读完整内容，剩余1页未读，立即下载