基于贝叶斯优化的1位CNN：提高资源有限环境下的深度卷积神经网络性能

112 浏览量更新于2023-10-12 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4909|N贝叶斯优化的1位CNN顾嘉欣，1，<$赵俊和，1，<$蒋小龙，1，2，3张宝昌，1，*刘建庄，4郭国栋，2，3季荣荣5，61北京航空航天大学，中国北京2百度研究院深度学习研究所，北京中国3深度学习技术及应用国家工程实验室4华为诺亚5厦门大学信息科学与工程学院福建6Peng Cheng Lab，深圳，中国*通讯作者，电子邮件：bczhang@buaa.edu.cn†共同第一作者摘要深度卷积神经网络（DCNN）通过创建各种破纪录的模型，主导了计算机视觉的最新发展然而，实现强大的DCNN仍然是一个巨大的挑战在资源有限的环境中，例如在嵌入式设备和智能手机上。研究人员已经意识到，1位CNN可以是解决这个问题的一个可行的解决方案;然而，与全精度DCNN相比，它们的性能较差本文在分析了现有文献的基础上，我们提出了一种新的方法，称为贝叶斯优化的1位CNN（表示为BONN），利用贝叶斯学习，一种针对困难问题的成熟策略，显着提高极端1位CNN的性能我们将全精度内核和特征的先验分布纳入贝叶斯框架，以端到端的方式构建1位CNN，这在以前的任何相关方法中都没有考虑过贝叶斯损失的实现与理论支持，同时优化网络在连续和离散空间，聚合不同的损失联合，以提高模型的能力。在ImageNet和CIFAR数据集上进行的大量实验表明，与最先进的1位CNN相比，BONN实现了最佳的分类性能1. 介绍深度卷积神经网络（DCNN）在低级[7，15]和高级视觉任务[10，16，23，24]中都表现出了其卓越的特征表示能力。然而，这种优势与禁止计算-1 23 4图1. 先验p（x）的演变，观察y的分布，以及学习期间的后验p（xy），其中x是表示全精度参数的潜在变量，y是量化误差。在开始时，根据单模高斯分布初始化参数x当我们的学习算法收敛时，理想情况是（i）p（y）变成高斯分布（0，ν），其对应于最小重建误差，以及（ii）p（x| y）=p（x）是具有两个模式的高斯混合分布，其中二值化值x和−x位于其中。存储和存储开销。在大多数情况下，DCNN的重参数被存储为卷积点数，每个卷积点数通常需要32位，并且卷积运算被实现为卷积点操作数之间的矩阵乘法。这些基于浮动点的操作非常耗时，而且对存储要求很高。因此，由于高需求和有限资源之间的冲突，DCNN无法部署在手机和无人机等边缘设备上。为了解决这个问题，4910±±∼已经探索了通过修剪[13，9]或量化[3]来压缩 DCNN的量化是用低精度值逼近全精度值，因此可以同时加速卷积运算和节省存储开销。特别是，1位卷积神经网络（1位CNN）是量化的极端情况，其卷积核和激活被二进制化，例如[4]中的1或[20]中的α l。最近，DoReFa-Net[29]利用具有低位宽参数的1位卷积核和gra-random来加速训练和推理阶段。因此，ABC-Net [14]采用多个二进制权重和激活来近似全精度权重，从而可以减轻预测精度的下降。除此之外，调制卷积网络在[25]中仅对内核进行二进制化，并实现比比较基线更好的结果。Leng等人[12]借用了ADMM的思想，ADMM压缩了深度模型，网络权重仅由少量比特表示。双实网[17]探索了一种新的残差结构变体，以保留符号函数之前的实激活，并提出了对不可微符号函数的导数的紧密近似。 Zhuang等人[30]使用两阶段方法呈现2个4位量化，以交替地调整权重和激活，并在存储器、效率和性能之间提供最佳权衡。此外，WAGE[27]被提出来离散化训练和推理过程，它不仅量化了权重和激活，还量化了梯度和误差。在[8]中，基于离散反向传播算法通过投影引入了一种量化方法，用于更好的1位CNN。其他实践研究[21，1，6]与以前的作品相比有所改进。虽然这些流行的1位CNN使用比传统的全精度CNN少得多的存储，但与全精度CNN相比，它们在应用中的精度降低两个原因应该解释这种退化：1）没有充分研究全精度和1位CNN之间的关系，以提高1位CNN的性能; 2）贝叶斯学习作为一种成熟的全局优化策略[19，2]，在1位CNN领域被忽视，尽管根据我们的观察，它可能有利于1位CNN的优化S.在本文中，提出了一种贝叶斯学习算法来优化我们的1位CNN，从而提高准确性和效率。从理论上讲，我们在贝叶斯学习的帮助下实现了两种新的贝叶斯损失，以解决CNN二值化的困难问题对于1位CNN，全精度内核被逐渐二进制化为两个量化值（中心）。理想情况下，量化误差最小化时，全精度克尔-Nel遵循高斯混合模型，其中每个高斯以每个量化值为中心给定1位CNN的两个中心，采用形成混合模型的两个高斯来对全精度内核进行建模。整个过程可以通过图1来说明当学习算法收敛于二进制量化时，理想的结果应该是：（1）重构误差最小，（2）参数分布是高斯混合模型，两种模式分别以二进制化值为中心。这个假设导致了我们的两个新损失，称为贝叶斯核损失和贝叶斯特征损失。这些新损失的优点是双重的。一方面，它们可以与相同反向传播管道中的传统交叉熵损失联合应用，因此贝叶斯学习的优势本质上是继承的，以优化困难问题。另一方面，它们可以在内核分布和特征分布方面全面监督1位CNN的训练过程。总之，本文的贡献包括：(1) 我们提出了两种新的贝叶斯损失来优化1位CNN，它们是通过利用贝叶斯学习来设计的，以充分研究全精度和1位CNN在内核和特征方面的内在关系。(2) 我们开发了一种新的贝叶斯学习算法，以端到端的方式构建1位CNN提出的损失监督训练过程，同时考虑内核分布和特征分布，这是更全面和有效的。(3) 与ImageNet和CIFAR数据集上的其他最先进的1位CNN相比，我们的模型实现了最佳的分类性能2. 该方法贝叶斯学习是机器学习的主流之一，已被应用于构建和分析神经网络以完成计算机视觉任务[2，18]。在本文中，我们利用贝叶斯学习的效率以端到端的方式构建1位CNN。特别是，我们导致了两种新的贝叶斯损失，基于此，我们优化了1位CNN，提高了效率和稳定性。在一个统一的理论框架中，这些贝叶斯损失不仅照顾1位CNN中特定的内核权重分布，而且还监督特征分布。图图2显示了损失如何与CNN主干相互作用。为了清楚起见，在表1中，我们首先描述了以下章节中使用的主要符号。2.1. 贝叶斯损失在最先进的1位CNN [12，20，8]中，优化涉及连续和离散空间。4911我12◦∈传统CNN骨干交叉熵损失BN转换PReLU+BN转换PReLU+FC++贝叶斯核损失贝叶斯特征丢失图2.通过在贝叶斯框架中考虑核和特征的先验分布，我们实现了两个新的贝叶斯损失，以优化1位CNN的计算贝叶斯核损失改进了每个卷积层的逐层核分布，而贝叶斯特征损失引入了类内紧致性以减轻量化过程引起的干扰请注意，贝叶斯特征丢失仅适用于全连接层。表1. 简要说明论文中使用的主要符号Xl：全精度核向量wl：调制向量μl：Xl的平均值μl：Xl的协方差我我我λ：f标量的交换：fm的平均值i：内核索引l：层索引m：类索引k：维度索引L：层数M：类的数量V：量化误差的方差特别是，训练1位CNN涉及三个步骤：前向传递、后向传递和通过梯度进行参数更新。二进制化的权重（x）仅在前向传递（推断）和梯度计算被考虑。更新参数后，我们有完整的重建误差），潜变量x的分布是具有两个模式的高斯混合，位于量化值处，如图所示1.一、我们有：1精度权重（x）。正如[12，20，8]所揭示的，如何将x与x联系起来是确定网络的关键p（x|y）exp（−2（x−µ）Ψ−1（x−µ））（三）性能在本文中，我们建议在概率框架中解决它，以获得最佳的1位CNN。+exp（−2（x+µ）Ψ−1（x+µ）），贝叶斯核丢失。我们从基础开始其中我们设置µ=w−1<$x。然而，Eq。2、困难ˆ给定一个参数，我们希望它在量化之前和之后尽可能接近，从而使量化效应最小化。然后，定义迷要解了.从贝叶斯的角度来看，我们通过最大后验概率（MAP）估计来解决这个问题其中x，x≠y=w−1<$x<$−x，（1）∈Rn是全精度和量化的maxp（x| y）=maxp（y| x）p（x）=min||x−wx||2−2νlog（p（x）），（四）表示用于重构x的学习向量平均值和方差为零。Giveny，weseekxfor哪里p（y| x）exp（− 1||y||2）函数表达式（1）x−wx||2）的情况。二进制量化（1比特CNN），使得：2ν2−2ν||2（五）xx=maxp（x|（y）、（2）这表明在最可能的y（对应于y=0和x=w−1<$x<$）下，i。e. 最小值不不4912由方程式5，我们假设量化误差y的所有分量都是独立同分布的，从而得到这样一种简化形式。如图1，对于1位CNN，x通常被量化为具有相同绝对值的两个数字因此，p（x）是4913−我我FF1（2π）−Ndet（π）−1{exp（−++++）≈2我我我K我我2||−◦||N1建模为具有两种模式的高斯混合如下：我我L=λ{||2||21−−（x−µ）TΨ−1（x−µ）B2ii2l=1i=1p（x）=（2π）22det（det）2{exp（−2）11Tl −1 l lT −1+ν（Xi+−µi+）（中文）（Xi+−µi+）（x +µ）+exp（−2（x+µ））}+ν（X1i−+微升i−）T（i−）−1（Xl i−+微升）i−（九）（x−µ）T−1（x222-µ）θ22+exp（−（x−+µ−）T−1（x−+µ−））}+的σ−2（fm，k−cm，k）2+log（σ2）}，2（六）k=1m，km，k其中x根据x中元素的符号分为x+和x-，N是x的维数。当量哪里Xl，l∈{1，.，L}，i∈{1，.，Il}是向量化6是基于以下假设获得的：第i个核矩阵在第l个卷积层处的重叠x+和x-之间的关系被忽略。因此，Eq.4canwl是用于调节Xl的向量，而μl和μ l是用于调节X l的向量。改写为：2T −1分别是第l层第i个核向量的均值和协方差。此外，我们假设同一核中的参数是独立的，因此，变成具有相同值（σl）2的对角矩阵，M i n ||x−wx||2+ν（x+−µ+）+（x+−µ+）的方差第i个内核的我第l层。在这种情况下，+ ν（x− + µ−）T−1（x− + µ−）+ ν log（det（det）），加速了对R1的倒数的计算，并且还-（7）l的所有元素我L. 注意其中µ−和µ+是独立求解的因此，det（k）被设置为矩阵k −或k+的行列式。我们叫Eq。7贝叶斯核损失。贝叶斯特征丢失。这种损失旨在减轻1位CNN中极端量化过程引起的干扰。考虑到类内紧致性，第m类的特征f m假定遵循高斯分布，其平均值c m在中心损失中显示[26]。类似于贝叶斯核损失，我们定义ym=fm−cm和ym<$N（0，σm），并且有：Min||F−c||+σ（f−c）+lo g（σ），2− 222i是相同的，等于i在我们的实现中，在前向过程期间，W 1的所有元素都被它们的平均值替换。因此，只有标量而不是矩阵参与推理，因此计算速度大大加快。在BONN中，交叉熵损失Ls，贝叶斯核损失和贝叶斯特征损失被聚合在一起以构建总损失为：L=L S+L B（十）贝叶斯核损失将卷积核的分布为具有两个模式的对称高斯混合，并且同时通过X轴WLXl2项。与此同时，贝叶斯特征损失修改了m m2k=1m，km，km，km，k（八）功能，以减少类内的变化，以更好地分类。这被称为贝叶斯特征损失。由方程式8，σm，k，fm，k和cm，k是σm，fm和cm的第k个元素，分别2.3. 反向传播为了最小化Eq.9，我们更新Xl，wl，µl，σl，cm和我我我使用随机梯度下降（SGD）算法计算σm，下文将详细说明M2K++νlog（det（l））}+{||f m−c m||m=14914我X我2.2. 使用贝叶斯学习优化的1位CNN我们采用两个贝叶斯损失来促进1位CNN的优化。我们将此方法命名为2.3.1更新Xl我们将δl定义为全精度核的梯度我Xl，并且具有：贝叶斯优化的1位CNN（BONNs）。现在我们可以δXl = 公司简介L=L萨尔湾（十一）L将1位CNN的两个贝叶斯损失重新公式化为iXiXiXi+4915X我LLIl我i，kIlµ我我=i i我I+I+X我我i，ki，k∼我我对于Eq中的每个项11、我们有：LSXl（w lXl算法1使用贝叶斯学习优化的1位CNN输入：训练数据集;全精度内核X;调制向量w;学习率η，正则化我我=LS1我我−1≤wl<$Xl≤1我◦ w，（十二）参数λ、θ和方差ν。输出量：基于更新的X、w、µ、σ、cm的BONN，σm。LB=λ{wl<$wl<$Xl−X<$l我1：随机初始化X和w，然后分别基于X的平均值和方差估计μ、σXl+ν[（σl）−2<$（Xl我我-µ）（十三）2：重复3：//前向传播+（σl）−2<$（Xl+μl）]，5：X轴 =wlsign（Xl），i;//wl的每个元素是我我其中1是指示函数，广泛用于估计不可微参数的梯度[20]，并且（σl）−2是所有元素都等于的向量l−2用所有元素的平均值代替6：执行激活二值化;//使用sign函数7：用X射线1、X射线1执行2D卷积;（σi）。2.3.2更新wl8：结束9：//反向传播10：计算δε l=ε Ls，ε l，i;我同样，δ由以下两部分组成Xi11：对于l=L至1，Xwl12：计算δl，δwl，δ我l，δ我l;//使用公式11 18我公司简介萨尔湾13：使用SGD更新参数Xl、wl、μl、σlδwl = 阿格夫l=10wl+ 阿格夫l.（十四）14：结束我我我对于Eq中的每个项14、我们有：15：更新cm，σm;16：直到算法收敛。LS=L我阿格夫l（wl◦ Xl）i=1（十五）LS我其中XlL我，k∈{1，…KIl}，表示第k个元素= i=1X我<$1−1≤wl<$Xl≤1<$Xi，向量X l我们用同样的策略更新c m作为微调过程中的中心损耗[26]，而基于LB更新σm，k是直接的，这不是萨尔湾L=λ（wl<$Xl−X<$l）<$Xl。（十六）在此详细阐述。上述等式表明，阿格夫li=1我我我所提出的方法可以端到端的方式训练最后，我们总结了整个学习过程，2.3.3更新µl和σl算法1.我我请注意，我们对每个内核使用相同的µl和σl，因此我我这里的梯度是标量。梯度δµl和δσl 是计算为：Lδl= 100μl=1000 LB100μl我我3. 实验我们在CIFAR上执行图像分类任务λνKIl（σl）−2（µl−XlKIl（σl）−2），Xl），Xl≥0，<0，（十七）10/100 [11]和ILSVRC 12 ImageNet数据集[5]来评估-评估BONN的性能考虑到有利的Xµσ4：对于l=1到L，阿格夫l=我我4916σ我我我i，k我我i，k我以下章节中报告的性能验证了Lδl=k=1i=1000LBσlii，ki，k我们的方法的泛化能力，BONNs可以是集成在任何DCNN变体中。为了与其他最先进的1位CNN进行公平的比较，我们应用Wide-Resnet（WRN）[28]和ResNet 18 [10]作为全精度CNN。λνKIl−（σl）−3（XlKIl−（σl）−3（Xl-µl）2+（σl）−1，Xl+ µl）2+（σl）≥0，<0，骨干网在接下来的实验中，k=1ii，kiii，k（十八）我们的BONN的优势=内核和激活被二进制化。领导4917×−−−−3.1. 数据集和实施详细信息3.1.1数据集CIFAR-10 [11]是一个自然图像分类数据集，由训练集和测试集组成，每个训练集和测试集分别有50，000和10，000 32 32彩色图像。这些形象跨越了10个不同的类别，包括飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车。相比之下，CIFAR-100是一个包含100个类的更全面的数据集在CIFAR-10/100上，WRN 被用作BONN的骨干。相比之下，ILSVRC 12 ImageNet对象分类数据集[5]更加多样化和具有挑战性。它包含120万张训练图像和50，000张验证图像，跨越1000个类。为了与该数据集上的其他最先进的方法进行比较，我们采用ResNet18作为骨干来验证我们的BONN的有效性和优越性。3.1.2WRNWRN的结构一般类似于ResNet。此外，引入深度因子k以通过3个阶段来控制特征图深度扩展，同时保持特征的空间维度相同。为了简洁起见，我们在实验中将k设置为1此外，第一阶段的信道数是WRN中的另一个重要参数我们将其设置为16和64，从而产生两个网络配置：16-16-32-64 和 64-64- 128-256 。在 64-64-128-256 网络中，增加了一个比率为0.3的dropout层，以防止过拟合。学习率最初设置为0.01，每60个epoch衰减20%，直到在CIFAR-10/100上达到最大epoch 200对于WRN中的量化误差，我们将ν设置为1e4 贝叶斯特征损失仅用于微调过程。其他培训细节与[28]中描述的相同WRN-22表示具有22个卷积层的网络，WRN-40也是如此。3.1.3ResNet18对于ResNet 18，我们在主干卷积层中二进制化特征和内核，而不是在快捷方式中的卷积层，遵循Bi-Real Net中的设置和网络修改[17]。SGD算法的动量为0.9，权重衰减为1e4。对于wl，σl的学习率被设置为0.01，而对于Xl，μl和其他图3. 我们展示了BONN的第一个二值化卷积层的内核权重分布。在训练之前，我们将内核初始化为单模高斯分布。从第2个epoch到第200个epoch，λ固定为1e4，内核权重的分布变得越来越紧凑，有两种模式，这证实了贝叶斯内核损失可以将内核正则化为一个有希望的二值化分布。图4. XNOR和BONN 的权重分布，均基于200个epoch后的WRN 22（第2、第8和第14卷积层）。XNOR和BONN 之间的权重分布差异表明，在卷积层中，内核使用我们提出的贝叶斯内核损失进行了正则化。表2.在ImageNet数据集上使用或不使用贝叶斯损失的影响。它的主干是ResNet18。贝叶斯核损失贝叶斯特征丢失准确度最高-1 56.3 58.3 58.459.3前五名79.8 80.8 80.881.63.2. 消融研究在本节中，我们评估了超-我我我参数，速率设置为0.1。对于ResNet 18中的量化误差，ν被设置为1e3还采用了学习率衰减的策略，即在算法达到最大历元70之前，每30个历元下降10%。参数对BONN性能的影响，包括λ和θ。贝叶斯核损失和贝叶斯特征损失分别由λ和θ平衡，以更好地调整核和特征的分布。实验中使用CIFAR-10和WRN 22的4918−| |−- -×表3.在CIFAR-10/100数据集上测试准确性BONN基于WRN [20]。我们计算每个模型的参数数量，这些数量是指CIFAR-10上的模型请注意，对于全精度模型，每个参数需要32位，而对于二进制模型，每个参数仅需要1位。Model Kernelstage#参数数据集图5.在XNOR和BONN的训练过程中，二进制值xs的演变它们都基于WRN 22（第2、第3、第8和第14卷积层），并且曲线不共享相同的y轴。XNOR Net的二值化值倾向于收敛到较小且相似的值，但BONN的二值化值是经过学习的。实施细节在下面给出我们首先改变λ，并将其设置为零，以验证贝叶斯核损失对核分布的影响贝叶斯核损失的利用有效地提高了CIFAR-10的精度。但精度并不随λ的增大而增大，这说明我们需要的不是一个更大的λ，而是一个合适的λ，以合理地平衡交叉熵损失和贝叶斯核损失之间的关系。例如，当λ被设置为1e4时，我们获得了最佳平衡，分类精度最好。超参数θ控制了特征的类内变化，并通过改变θ研究了贝叶斯特征丢失对特征的影响. 结果表明，分类精度的变化规律与λ相似，证明了当θ选取适当时，贝叶斯特征损失可以获得更好的分类精度。为了更好地理解贝叶斯损失，我们进行了一个实验，以检查每个损失如何影响性能。根据上述实验，我们将λ设为1e4和θ到1e3，如果它们被使用。如表2所示，贝叶斯核损失和贝叶斯特征损失都可以独立地提高ImageNet上的准确率当一起应用时， Top-1 准确率达到最高值59.3%。此外，Fig.3说明了内核权重的分布，λ固定为1e4。在训练过程中，分布逐渐接近先前假设的双模式GMM，以更直观的方式确认贝叶斯核损失的有效性。我们还比较了XNORNet和BONN的核权分布。如图所示4、在XNORNet中学习的核权重紧密地分布在阈值周围，但在BONN中，这些权重以双模式GMM风格进行正则化。图图5显示了XNOR Net和BONN训练过程中二值化值的演变。这两种不同的模式表明在BONN中学习的二进制值更加多样化。3.3. CIFAR-10/100数据集我们首先评估了我们提出的BONN与具有WRN主干的XNOR-Net [20]的比较，并报告了CIFAR-10和CIFAR-100上全精度WRN的准确性选择三种WRN变体进行全面比较：22层WRN，内核级为16-16-32-64和64-64-128-256。我们还使用数据增强，其中每个图像的填充大小为4，并随机裁剪为CIFAR-10/100的32 32。表3表明，在所有三种情况下，BONN在两个数据集上的表现都大大优于XNOR-Net 与全精度WRN相比，BONN将精度下降消除到可接受的水平，例如。，只有2.6%留在骨干WRN22上，64-64-128-256，这验证了我们的方法在构建1位CNN方面的优势。3.4. ImageNet数据集上的结果为了进一步评估我们方法的性能，我们在ImageNet数据集上评估了BONN图图6显示了Top-1和Top-5训练/测试准确度的曲线CIFAR-10CIFAR-100WRN 2216-16-32-640.27M91.6667.51XNOR-Net16-16-32-640.27M81.9053.17波恩16-16-32-640.27M87.3460.91WRN 2264-64-128-2564.33M94.96-XNOR-Net64-64-128-2564.33M88.52-波恩64-64-128-2564.33M92.36-4919×−×××ImageNet上的Top-16055504540353025201510010203040506070时代ImageNet上的前5名80706050403020010203040506070时代3.5. 内存使用和效率分析在全精度网络中，每个参数需要32位来保存。而在1位CNN中，每个参数仅存储1位。在BONN中，我们遵循XNOR-Net采用的策略，该策略在第一个卷积层、所有11个卷积和全连接层中保持全精度的参数。这导致ResNet18的整体压缩率为11.10对于效率分析，如果卷积的所有操作数都是图6.当λ=1 e4时，ImageNet上的训练和测试精度，这表明了所提出的 BONN 优于XNOR-Net 。这两个网络的主干是ResNet18。表4.在ImageNet上测试精度“W”和“A”分别指权重和激活位宽。所有模块的骨干是ResNet18。型号W A Top-1Top-5 ResNet 18 3232 69.3 89.2BWN 1 32 60.8 83.0DoReFa-Net1 4 59.2 81.5TBN 1 2 55.6 79.0BNN 1 1 42.2 67.1XNOR-Net 1 1 51.2 73.2ABC-Net 1 1 42.7 67.6双真实网络1 1 56.4 79.5PCNN 1 1 57.3 80.0波恩1 159.3 81.6值得注意的是，我们在训练集中采用了两种数据增强方法：1）在随机位置将图像裁剪为224224的大小，以及2）水平裁剪图像。在测试集中，我们简单地将图像裁剪为中心的224 224。 ResNet18是主干，只有轻微的结构调整，如[17]所述。我们将BONN的性能与其他最先进的量化网络进行了比较，包括 BWN [20] ， DoReFa-Net [29] ， TBN[22]，XNOR-Net [20]，ABC-Net[14]、BNN [4]、Bi-Real Net [17]和PCNN [8]。表4表明，我们的BONN在这些1位CNN中获得了最高的精度，其中Bi-Real Net和PCNN 的性能与 BONN 最相似，但BONN在Top-1精度方面分别优于它们约3%和2%。此外，由于应用了裁剪函数[17]，Bi-Real Net在两阶段过程中进行训练，这需要额外的成本。还值得一提的是，DoReFa-Net和TBN使用超过1位来验证激活，但相比之下，我们仍然获得了更好的性能。这些结果表明，BONN不仅限于小数据集，而且在大数据集上也能很好地工作。这进一步验证了我们的BONN的泛化能力。二进制，则卷积可以通过XNOR和位计数操作来估计[4]的文件。通过这种方式，我们可以在CPU上获得58快[20]。4. 结论和今后的工作在本文中，我们提出了贝叶斯优化的1 位 CNN（BONN），它考虑了全精度内核和特征分布，从而产生了一个统一的贝叶斯框架，具有两个新的贝叶斯损失。贝叶斯损失用于调整内核和特征的分布以获得最优解。对贝叶斯损失的超参数进行了全面的研究。在CIFAR和ImageNet上进行的大量实验表明，BONN实现了WRN和ResNet18的最佳分类性能，并且比其他1位CNN具有更好的性能。未来，我们计划在更深层次的网络（如ResNet34）上探索我们提出的BONN，以及分类以外的其他任务。5. 确认本课题得到了国家自然科学基金中央高校基础研究基金项目（ 61672079 ）和深圳市科技计划项目（No.KQTD2016112515134654）的资助。引用[1] MiladAlizadeh，J avierFer na'nnoun-Marq u'e's，NicholasDLane和Yarin Gal。二元神经网络优化的实证研究。在2018年国际学习代表会议上[2] CharlesBlundell，JulienCornebise，KorayKavukcuoglu，and Daan Wierstra.神经网络中的权重不确定性国际机器学习会议，第1613-1622页，2015年。[3] MatthieuCourbariaux ， Yoshua Bengio 和 Jean-PierreDavid。Binaryconnect：在传播过程中使用二进制权重训练深度神经网络。神经信息处理系统进展，第3123-3131页，2015年。[4] Matthieu Courbariaux、Itay Hubara、Daniel Soudry、Ran El-Yaniv和Yoshua Bengio。二进制化神经网络：使用权重和激活训练深度神经网络波恩火车波恩试验XNOR列车XNOR测试波恩火车波恩试验XNOR列车XNOR测试精度精度4920限制为 +1 或 -1 。 arXiv 预印本 arXiv ： 1602.02830 ，2016。[5] JiaDeng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在 IEEE Conference on Computer Vision andPattern Recognition，第248[6] RuizhouDing，Ting-Wu Chin，Zeye Liu，and DianaMarculescu. 正则化用于训练二进制深度网络的激活分布。在IEEE计算机视觉和模式识别会议论文集，第11408[7] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoouTang. 学习用于图像超分辨率的深度卷积网络欧洲计算机视觉会议论文集，第184Springer，2014.[8] Jiaxin Gu ，Ce Li，Baochang Zhang，Jungong Han ，XianbinCao，Jianzhuang Liu，and David Doermann.基于离散反向传播的1位cnn投影在AAAI人工智能会议上，2019年。[9] Song Han，Jeff Pool，John Tran，and William Dally. 学习有效神经网络的权重和连接。神经信息处理系统进展，第1135-1143页，2015年。[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上，第770[11] Alex Krizhevsky Vinod Nair 和 Geoffrey Hinton 。CIFAR-10 数据集。在线：http：//www. CS. 多伦多edu/kriz/cifar. html，2014.[12] 冷聪、窦泽生、李昊、朱圣火、容瑾。极低位神经网络：用admm挤出最后一位。在AAAI人工智能会议上，2018年。[13] Hao Li ， Asim Kadav ， Igor Durdanovic ， HananSamet，andHans Peter Graf.修剪过滤器以获得有效的卷积网络。在2017年国际学习代表会议上[14] 林小凡，赵聪，潘伟。精确的二进制卷积神经网络。神经信息处理系统的进展，第345-353页，2017年。[15] Guilin Liu，Fitsum A Reda，Kevin J Shih，Ting-ChunWang，Andrew Tao，and Bryan Catanzaro.使用部分卷积的不规则孔图像修复在欧洲计算机视觉会议论文集，第85- 100页，2018年。[16] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，ChristianSzegedy，Scott Reed，Cheng-Yang Fu，andAlexander C Berg.Ssd：单发多盒探测器。在欧洲计算机视觉会议的会议记录中，第2137. 施普林格，2016年。[17] Zechun Liu ， Baoyuan Wu ， Wenhan Luo ， XinYang，Wei Liu，and Kwang-Ting Cheng.双实网络：通过改进的表示能力和先进的训练算法来增强1位cnn的性能。法律程序欧洲计算机视觉会议，第747- 763页。Springer，2018.[18] 大卫·JC·麦凯。反向传播网络的一个实用的基本框架。神经计算，4（3）：448 - 472，1992年。[19] Jonas Mockus，Vytautas Tiesis和Antanas Zilinskas。求极值的贝叶斯方法的应用 Towards global optimization，2（117-129）：2，1978.[20] Mohammad Rastegari 、 Vicente Ordonez 、 JosephRedmon和Ali Farhadi。Xnor-net：使用二进制卷积神经网络的Imagenet分类欧洲计算机视觉会议论文集，第525-542页，2016年。[21] 唐伟，华刚，王亮。如何训练一个高精度的紧凑型二进制神经网络在2017年第31届AAAI人工智能会议[22] 万帝文、沈富民、刘丽、范铸、秦杰、凌少、沈衡涛。Tbn：具有三元输入和二元权重的卷积神经网络。在欧洲计算机视觉会议论文集，2018年9月。[23] 方晚，刘畅，魏柯，季向阳，焦建斌，叶麒翔C-mil：用于弱监督对象检测的连续多实例学习。在IEEE计算机视觉和模式识别会议论文集，第2199-2208页，2019年。[24] 方晚，魏鹏旭，焦俊，韩真君，叶奇香。弱监督目标检测的最小熵潜在模型。 IEEE Transactions on PatternAnalysis and Machine Intelligence，2019。[25] XiaodiWang ， Baochang Zhang ， Ce Li， RongrongJi，Jungong Han，Xianbin Cao，and Jianzhuang Liu. 调制卷积网络。在IEEE计算机视觉和模式识别会议上，第840[26] Yandong Wen，Kaipeng Zhang，Zhifeng Li，and YuQiao. 一种用于深度人脸识别的区分性特征学习方法。欧洲计算机视觉会议论文集，第499施普林格，2016年。[27] Shuang Wu，Guoqi Li，Feng Chen，and Luping Shi.在深度神经网络中使用整数进行训练和推理。在2018年国际学习代表会议上。[28] Sergey Zagoruyko和Nikos Komodakis 广残的关系网。英国机器视觉会议。英国机器视觉协会，2016年。[29] ShuchangZhou ， Yuxin Wu ， Zekun Ni ， XinyuZhou，He Wen，and Yuheng Zou. Dorefa-net ：用低位宽梯度训练低位宽卷积神经网络。 arXiv预印本arXiv：1606.06160，2016。[30] BohanZhuang ， Chunhua Shen ， Mingkui Tan ，Lingqiao Liu，and Ian Reid. 有效的低位宽卷积神经网络。在IEEE计算机视觉和模式识别会议，2018年6月

下载后可阅读完整内容，剩余1页未读，立即下载