局部二进制卷积神经网络：参数节省与高性能的近似标准卷积层

17 浏览量更新于2023-10-16 收藏 2.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1局部二进制卷积神经网络卡内基梅隆大学felixu@cmu.edu密歇根州立大学vishnu@msu.edu卡内基梅隆大学msavvid@ri.cmu.edu摘要我们提出了局部二进制卷积（LBC），这是标准卷积神经网络（CNN）中卷积层的LBC的设计原则是由局部二进制模式（LBP）激发的。LBC层包括一组在训练过程中不更新的固定稀疏预定义二进制卷积滤波器线性权重组合激活的滤波器响应以近似标准卷积层的对应激活的滤波器响应。LBC层提供了显着的参数节省，与标准卷积层相比，可学习参数的数量为此外，与标准卷积层相比，权重的稀疏和二进制性质还导致模型大小节省高达9倍至169倍我们从理论和实验上证明，我们的局部二进制卷积层是标准卷积层的一个很好的近似从经验上讲，具有LBC层的CNN（称为局部二进制卷积神经网络（ LBCNN ））在一系列视觉数据集（MNIST，SVHN，CIFAR-10和ImageNet）上实现了与常规CNN的性能等同，同时节省了大量计算。1. 介绍深度学习在广泛的应用中取得了压倒性的成功，例如计算机视觉，语音识别/自然语言处理，机器翻译，生物医学数据分析等等。特别是深度卷积神经网络（CNN）在过去几年中在解决许多计算机视觉问题方面取得了巨大成功，这要归功于许多有效架构的巨大发展， AlexNet [21] ， VGG [30] ， Inception [33] 和ResNet [12，13]仅举几例。然而，使用完全可学习的卷积核（如标准实践）端到端地训练这些网络（1）在计算上非常昂贵，（2）导致大的模型大小，无论是在内存使用还是磁盘空间方面，(3)在有限的数据下，由于大的参数的数量另一方面，越来越需要在资源受限的平台上部署这些系统，用于学习和推理，如自动驾驶汽车，机器人，智能手机，智能相机，智能可穿戴设备等。为了解决这些缺点，已经提出了CNN的几个二进制版本[6，5，28]，其近似于具有二进制权重的密集实值权重。二进制权重通过二进制卷积的有效实现而节省了大量计算然而，与实值网络权重相比，CNN的完全二进制化在本文中，我们提出了一种替代方法来降低CNN的计算复杂性，同时表现得与标准CNN一样好。我们引入了局部二进制卷积（LBC）层，它近似于标准卷积层的非线性激活响应。LBC层包括固定稀疏二进制滤波器（称为锚权重）、非线性激活函数和一组可学习线性权重，其计算激活的卷积响应映射的学习简化为优化线性权重，而不是优化卷积滤波器。根据卷积滤波器的空间维度（分别为 3×3 至 13×13 大小的滤波器），以及由于二进制滤波器的稀疏特性而节省的计算和内存，在学习阶段可以实现至少9×至169×具有LBC 层的 CNN ，称为局部二进制卷积神经网络（LBCNN）1，具有更低的模型复杂度，因此不太容易过度拟合，非常适合在资源受限的环境中学习和推理我们的理论分析表明，LBC层是一个很好的近似标准卷积层的非线性激活。我们还根据经验证明，具有LBC 层的 CNN 在一系列视觉数据集（ MNIST ，SVHN，CIFAR-10和ImageNet）上执行规则的CNN，同时在训练过程中的参数数量方面1实施和未来更新将在xujuefei.com/lbcnn上提供。192001 10 001 01 10 0 C1 010 00 001 01 0计算，以及由于我们的二进制滤波器的稀疏和预定义的性质的存储器要求，与密集的可学习的实值滤波器一致。相关工作：将二进制滤波器用于卷积层的想法并不新鲜。BinaryConnect [6]已经被提出来近似具有二进制权重的神经网络中的实值权重。给定任何实值权重，它随机分配+1，概率p取自实值权重的硬S形输出，并且概率为1-p。权重仅在前向和后向传播期间被二进制化因此，BinaryConnect在网络训练过程中在二进制和实值权重之间交替在BinaryConnect [6]的基础上，已经提出了二进制神经网络（BNN）[5]和量化神经网络（QNN）[14]，其中权重和激活都被限制为二进制值。这些方法通过将大多数32位浮点乘法累加替换为1位XNOR计数操作来大幅提高运行时效率BinaryConnect 和 BNN 都证明了二进制网络在MNIST、CIFAR-10和SVHN数据集上的有效性。最近，XNOR-Net [28]建立在BNN的设计原则基础上，并提出了一种可扩展的方法来学习用于大规模图像识别任务的二值化网络，在ImageNet分类任务上表现出高性能。所有上述方法在权重更新期间使用高精度实值权重，并使用XNOR位计数实现高效实现XNOR-Net在二值化方法和网络结构上与BNN不同除了网络二值化之外，模型压缩和网络量化技术[15，35，10，2，7，11，31，8]是另一类寻求解决CNN计算限制的技术。然而，这些方法的性能通常是上界的未压缩和未量化的模型。我们提出的LBCNN与完全二进制化的神经网络明显不同，并从局部二进制模式中汲取灵感。LBCNN具有固定权重和可学习权重的混合组合，提供了完全可学习卷积层的替代公式。通过只考虑固定权重的稀疏和二进制权重，LBCNN还能够利用稀疏和权重二进制化提供我们从理论和经验上证明，LBCNN是标准可学习卷积层的一个非常好的近似2. 用卷积滤波器形成LBP局部二进制模式（LBP）是一个简单但非常强大的手工设计的描述符，用于植根于人脸识别社区的图像。LBP已被广泛采用，CC1010 C1100图1：（L-R）3×3补丁及其LBP编码，5×5补丁及其LBP编码。许多其他计算机视觉，模式识别和图像处理应用[27]。传统的LBP算子[18，25，19，17]对大小为3×3，5×5等的图像块进行操作。LBP描述符通过顺序比较相邻像素的强度与块内中心像素的强度来形成。与中心像素相比，具有更高强度值的相邻像素被分配值1，否则被分配值0。最后，顺序读取该位串，并将其映射为十进制数（使用基数2），作为中心像素的特征值。这些聚合特征值表征图像中的局部纹理。块内的中心像素（xc，yc）的LBP可表示为100- 1LBP（xc，yc）=n=0s（in，ic）·2n，其中in表示第n个相邻像素的强度，ic表示inten。中心像素的sity，L是序列的长度，并且如果in≥ ic，则s（·）=1，否则s（·）= 0。例如，一个N × N邻域由N2− 1个相邻像素组成，因此会产生一个N2−1长的比特串。图1显示了大小为3 × 3和5 × 5的局部图像块的LBP编码示例。LBP公式的不同参数和配置可导致显著不同的特征描述符。我们现在提出一些可以帮助推广基本LBP描述符的变体基数：基数为2通常用于编码LBP描述符。因此，用于编码LBP位串的权重被约束为2的幂。放松这些约束并允许权重取任何实值可以潜在地概括LBP描述符。枢轴：通常选择邻域的物理中心作为枢轴，用于比较面片中像素的强度选择面片中的不同位置作为枢轴可以使LBP能够编码不同的局部纹理模式。此外，比较函数s（·）可以是导致局部纹理的更细粒度编码的多个枢轴的函数排序：LBP通过选择特定的像素顺序来编码补丁的局部纹理，以部分保留补丁的空间信息对于一个固定的邻域大小和枢轴，不同的选择的顺序的邻居导致不同的编码的局部纹理。所有上述变化即，主元、基和编码邻居的顺序的选择通常是21111加权所有位图的总和11111-1-1-1-1-1-1-1-1图2：使用卷积滤波器重构LBP编码。根据经验确定并取决于应用。能够在可学习的框架中概括这些变化因素是LBCNN设计背后的动机和灵感之一，如下所述。首先，让我们使用卷积滤波器更有效地重新制定LBP编码传统的实现方式编码LBP特征使用3×3窗口以重叠方式扫描整个图像每3×3补丁，编码涉及（1）计算差是-例如，在LBP中，首先通过卷积滤波器组对图像进行滤波，然后通过Heaviside阶跃函数进行非线性运算最后，将得到的位图线性组合以获得最终的LBP位图，其可以用作下一层的输入以进行进一步处理。LBP 的这种替代观点促使将局部二进制卷积（LBC）层设计为标准卷积层的替代方案。在本文的其余部分，具有LBC层的神经网络被称为局部二进制卷积神经网络（LBCNN）2。如图3所示，LBCNN的基本模块由m个预定义的固定卷积滤波器（锚权重）bi，i∈[m]。输入图像xl由这些LBC滤波器滤波以生成m个差异图，然后通过非线性激活函数，产生m个位图。为了允许通过LBC 层进行反向传播，我们用可微激活函数（sigmoid或ReLU）替换LBP中不可微的Heaviside阶梯函数。最后，通过m个可学习权重Vl，i，i ∈ [m]线性组合m个位图，以生成最终LBC层响应的一个通道。LBC 层的特征图用作下一层的输入xl+1。LBC层对广义多通道输入xl的响应可以是在枢轴和相邻像素（或更一般地，像素对）之间，（2）非线性阈值化操作映射-表示为：Xt.ΣmΣ=σΣbstpalexs·Vt（一）将像素差ping为二进制值，以及（3）池化l+1i=1i l l，iS二进制值通过加权和。现在，用8个3 × 3卷积滤波器对整个图像进行简单卷积，然后进行简单的二值化，可以实现相同的目标，如图2所示。每个卷积滤波器是一个2稀疏差分滤波器。还示出了二值化之后的8个所得位图。LBP的标准公式只是使用预定义的权重向量v对所有位图进行加权求和=[27，26，25，24，23，22，21，20]。因此，我们认为，站立-标准LBP特征提取可以重新公式化为y=其中t是输出通道，s是输入通道。值得注意的是，计算激活的加权和的最后一步可以通过使用大小为1×1的滤波器的卷积运算来实现。因此，每个LBC层由两个卷积层组成，其中第一卷积层中的权重是固定的且不可学习的，而第二卷积层中的权重是可学习的。LBC层中可学习参数的数量(with1×1卷积）明显小于相同大小的标准卷积层8i=1 σ（bi<$x）·vi，其中x∈Rd是卷积核和输入输出的数量原始图像，B1σ是非线性二值化算子，在这种情况下是Heaviside阶跃函数，并且y∈Rd是所得到的LBP图像。通过适当地改变线性权重v，可以改变编码的基础和排序类似地，通过适当地更改卷积滤波器允许我们改变主元。如上所述的LBP的重构形成了所提出的LBC层的基础3. LBCNN渠道设输入和输出通道的数量分别为p和q对于大小为h×w的卷积核，标准卷积层由p·h·w·q个可学习参数组成相应的LBC层由p·h·w·m个固定权重和m·q个可学习参数（对应于1×1卷积）组成，其中m是LBC层的中间通道数，本质上是LBC滤波器的数量1×1卷积作用于固定滤波器的m个激活图以生成q通道输出。CNN和LBC中参数数量的比例为：3.1. 局部二进制卷积模块# param.在CNNp·h·w·q p·h·w=-# param. 在LBCNN中m·q m令人惊讶的是，传统为了简单起见，假设p=m，则将比值减小为h·w。上面描述的LBP描述符拥有所有的主要组件，卷积神经网络所需的ponents在本文中，我们假设卷积滤波器没有偏置项。22WL奥杜勒VlCNN Mxlxl+1xlxl+1LBCNN模块图3：CNN和LBCNN中的基本模块Wl和Vl是每个模块的可学习权重因此，数值上，LBCNN在学习过程中至少保存9×、25×、49×、81×、121×和169×3×3、5×5、7×7、9×9、11×11和13×13卷积滤波器。3.2. 使用LBC层学习用LBC层而不是标准卷积层来训练端到端的网络很简单。Gra-tagrance可以通过LBC层的锚权重反向传播，其方式与它们可以通过可学习的线性权重反向传播的方式大致相同这类似于通过没有可学习参数的层传播梯度（例如，ReLU、Max Pooling等）。然而，在学习过程中，只有可学习的1×1滤波器被更新，而锚权重不受影响。LBC中大小为p×h×w×m的锚权重（假设总共有m个中间通道）可以确定性地（如LBP中所实践的）或随机生成。我们使用后者进行实验。具体来说，我们首先确定一个稀疏度，即可以承受非零值的权重的百分比，然后以相等的概率随机分配1或-1给这些权重（伯努利分布）。这个过程是传统LBP中权重的推广，因为我们允许比较多个邻居图4：（L-R）在LBC过滤器中增加稀疏级别（2-稀疏，4-稀疏和9-稀疏）。粉红色位置的值为1，黑色位置的值为-1。绿色位置为0。稀疏度是指非零元素的数量。3.3. 理论分析我们现在从理论上分析相似性，即，LBC层和标准卷积层之间的近似质量，我们推导出LBC层的近似误差的上界在第l层，设x∈R（p·h·w）×1是一个向量化的单曲面片从p通道输入映射，其中h和w是空间卷积滤波器的大小设w∈R（p·h·w）×1是卷积滤波器组W∈Rp×h×w×m中的一个向量化的单卷积滤波器，在第l层有m个可学习的滤波器.为了简洁起见，我们去掉了层订阅l在标准CNN中，这个补丁x被投影到滤波器w上，然后是非线性激活，从而产生输出特征值d。输出特征图的每个值都是将输入图x与卷积滤波器W.这个微观过程可以表示为：到多个枢轴，类似于3D LBP公式，时空应用[27]。图4显示了一个pic-d=σ ReLU（w）（2）由我们的随机过程产生的权重的梯度描述，用于增加（从左到右）稀疏性水平3。我们的随机LBC权重生成过程允许在每一层使用更多样化的过滤器，同时对权重的稀疏性进行细3在我们的论文中，稀疏度是指非零元素的百分比即，稀疏度=100%对应于密集权重张量。所提出的LBC层的相应输出特征图值是来自中间位图的多个元素的线性组合（实现为1×1卷积）。该位图的每个切片通过将输入映射x与一组m个预定义的和固定的卷积进行卷积来获得卷积滤波器B∈Rm×p×h×w，然后是一个非线性滤波器activation. 对应的输出特征图值d对于LBCNN，通过经由卷积将m个中间位图与q个卷积滤波器线性组合来23ReLUReLUReLUReLU参数为：v1，v2，. . . ，vm的大小为1 × 1。整个过程可以表示为：定理3.5. 设B∈Rm×N是一个Bernoulli随机矩阵，具有与（5）相同的次高斯参数c，d′=σ（Bx）= c第五章（三）x∈ RN是一个固定向量，且n x ∈2> 0，其中N = p·h·w.乙状结肠m×1联系我们m×1乙状设λ=Bx∈Rm.然后，对于所有的t∈（0，1），存在一个其中B现在是大小为m×（p·h·w）的2D矩阵，矩阵B和索引i∈[m]，使得m过滤器堆叠成行，稍微滥用了符号。√v=[v1，. . . ，vm]n∈Rm×1。ReLU激活Pi≥（1−t）<$x<$2<$$> ≥1−2exp（−c<$t2m）（7）联系我们当量 2限制了输出范围，即， d≥0。当量3也对输出值设置了类似的约束，c sigmoid =σsigmoid（Bx）∈（0，1），这是由于sigmoid的激活. 因此，我们总是可以得到一个v，使得>0定理3.5表明，在很高的概率下，Bx=Bx向量中的元素大于零，这确保了在ReLU激活下d>0的情况下，⊤乙状v=d′= d。向量v使得d以高概率满足d′。然而，选择ReLU作为LBC作用诱导以下表达：该分析对于使用CNN和LBCNN滤波器卷积的单个图像块有效。我们现在考虑d′=σReLU （Bx）v=c第五章（四）每个图像总共有τ个补丁的宽松场景。的我们考虑两种情况（i）d = 0：由于crelu= σrelu（Bx）≥0，总存在一个向量v ∈ Rm×1使得d′= d.然而，当（ii）d>0时：很明显，近似图像的输出特征图是τ维向量d∈Rτ，其中每个元素di，i∈[τ]是CNN中第i个补丁的标量输出类似地，对于LBCNN，输出当crelu =0时不成立。接下来，我们将展示...特征地图是向量d′= Cv，其中Crelu∈Rm×τ条件（定理3.5），其中crelu>0，以确保近似d′d成立。定义3.1（亚高斯随机变量）。一个随机变量X称为次高斯的，如果存在常数β，并且C_relu中的每一列对应于来自τ个图像块中的每一个的m个位图。观察到向量v现在在所有τ图像块之间共享，即， τC中的列relu近似于d。当τ ≤ m时，向量0，则P（|X|≥ t）≤ βe−κt2 对于所有t > 0。可以求解v，使得d′= Cv.然而当引理3.1. 设X是一个次高斯随机变量，E[X]= 0，则存在一个只依赖于β和κ>0的常数c，使得对任意的θ∈ R ，E[exp（θX）]≤exp（cθ2）. 相反，如果上述不等式成立，则E[X]= 0且X是次高斯的，参数β =2且κ= 1/（4c）。定义3.2（各向同性随机向量）。设R是RN上的随机向量。如果 E[|2000 年， x|2]=<$x<$2 ，对所有x∈RN，则τ> m时，问题归结为一个超定系统线性方程组的最小平方误差解v是g iv en ，其中v=（CC）−1Cd′，使得d′<$C<$v<$。该分析表明，使用更大数量的中间滤波器m可以导致标准卷积层的更好近似。根据经验我们可以测量d′离d通过测量归一化均方误差（NMSE）：d′−d我们把这50，000个32×32英寸的-22 2随机向量称为各向同性随机向量。定义3.3（亚高斯随机向量）。设λ是R~N上的随机向量.如果对所有的x∈RN，且nxn=1，随机变量n xn是次高斯的，且次高斯参数c与x无关，即E[e×p（θ∈R，x∈R）]≤e×p（cθ2），f或所有θ∈R，x∈ R=1（5）那么，k称为亚高斯随机向量。引理3.2. 伯努利随机矩阵是次高斯矩阵。引理3.3. 伯努利随机向量是各向同性的。引理3.4. 设B是m×N的随机矩阵，具有独立的、迷向的和次高斯的行，且具有（5）中相同的次高斯参数c.然后，对于所有x ∈ RN和每个t∈（0，1），. ..Σ. 122.22C24年龄来自CIFAR-10训练集并测量NMSE，如图6（L）所示对于CNN，对于每个单独的图像，密集实值滤波器独立地生成为高斯随机滤波器对于LBCNN，稀疏LBC滤波器也是针对每个单独图像独立生成的。针对 10 个稀疏度水平（ 10% ，20%，. . . ，100%）和3个中间通道数选择，64，128和512。我们可以看到，使用更多的过滤器和更高的稀疏性，近似值更好我们推测，这可能是由于d实际上是稀疏的，由于ReLU激活，因此对LBC过滤器B强制执行无稀疏约束实际上使近似更难。4. 实验结果我们将评估拟议的LBC层的有效性P. Bx ≥t<$x<$2≤2exp（−c<$tm）（6）. M.其中Rec仅取决于c。并将其性能与几个数据集上的标准卷积层进行比较，包括小规模和大规模。25数据集：我们考虑了四个不同视觉数据集的分类任务， MNIST ， SVHN ， CIFAR-10 和 ILSVRC- 2012ImageNet分类挑战。MNIST [22]数据集由60K的训练集和10K的手写数字32×32Q163264128192256384512LBCNN82.7485.5788.1890.7091.5892.1392.9692.09LBCNN-分享82.7085.2687.8590.2691.3791.7292.9191.83基线84.1386.3088.7790.8691.6992.1592.9391.87表1：CIFAR-10上的分类准确度（%），LBCNN，LBCNN-share和CNN基线上有20个卷积层和512个LBC过滤器从0到9。 SVHN [24]也是广泛使用的数据集，分类数字，在这种情况下是来自街道视图图像的门牌数字。它由604K的训练集和26K的32×32彩色图像测试集组成，这些图像显示了房屋号码数字。CIFAR-10[20]是一个图像分类数据集，包含50 K的训练集和10 K32×32彩色图像的测试集，分为以下10个类别：飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车。ImageNet ILSVRC-2012分类-10090807060504030LBCNN测试精度LBCNN训练精度LBCNN共享测试准确度LBCNN共享训练精度0 20 40 60 80100时代605504.5404303.5203102.5020 10 20 30 40 50 60时代tion数据集[29]由1000个类组成，有128万个图像用于训练，50K图像用于验证。我们首先考虑这个数据集的一个子集我们随机选择了图像数量最多的100个类（每个类1300个训练图像，总共130K个训练图像和5K个测试图像），并报告该子集上的前1准确度完整的ImageNet实验结果也将在随后的部分中报告。实现细节：从概念上讲，LBCNN可以在任何现有的深度学习框架中轻松实现。由于卷积权重是固定的，我们不必计算梯度，也不必更新权重。这导致从计算的观点和算法的观点两者的节省。此外，由于权重是二进制的，所以可以纯粹通过加法和减法来执行卷积运算。我们基于ResNet [13]评估本文中的模型架构，默认为3 × 3过滤器大小。我们的基本模块是图3所示的LBC模块，以及ResNet中的身份连接。我们使用不同数量的LBC单元进行实验，10，20和75，相当于20，40和150个卷积层。对于LBCNN，卷积权重是按照第3.2节中描述的过程生成的。我们使用512个随机生成的锚权重，稀疏度为0.1，0.5或0.9，用于我们所有的实验。在卷积层之后采用空间平均池化，将图像的空间维度降低到6 × 6。我们使用1 e-3的学习率，并采用[13]中的学习率衰减时间表。我们使用ReLU而不是sigmoid作为我们的非线性函数，以提高计算效率和更快的收敛速度。一个重要而实际的考虑是避免在LBC层之前使用ReLU激活。这是为了确保由于输入（由于ReLU激活）和卷积权重的稀疏性而没有不可恢复的信息丢失。基线：为了确保公平的比较，并量化我们的LBCNN方法和传统CNN之间的确切经验差异，我们对两个网络使用完全相同的架构，尽管是稀疏的，二进制的和固定的。图5：（L）在CIFAR-10上表现最好的LBCNN和LBCNN份额的准确性。(R)完整ImageNet分类的准确性和损失。LBCNN中的权重和CNN的密集可学习权重。我们还在卷积滤波器的数量、初始学习率和学习率计划方面使用了完全相同的数据和超参数。因此，在这些使用3×3卷积核的实验中，LBCNN的可学习参数减少了10倍（基线CNN还包括1×1卷积层）。MNIST 、 SVHN 和 CIFAR-10 的结果：表 1 比较了LBCNN 、具有共享卷积权重的 LBCNN 以及具有CIFAR-10数据集上的常规卷积层的相应网络所实现的准确度。注意，在卷积层数量、输入和输出通道数量固定的情况下，网络的性能随着输出通道数量q的增加而增加。值得注意的是，参数少10倍的LBCNN与相应的CNN性能一样好。表2汇总了我们在各种数据集上进行的实验的图像分类结果将性能最好的LBCNN与其相应的CNN基线进行比较，以及与最先进的方法进行比较，例如BinaryCon[6]，Binarized Neural Networks （BNN）[5]，ResNet[12] ， Maxout Network [9] ， Network in Network（NIN）[23]。对于所考虑的每个数据集，性能最好的LBCNN模型是：• MNIST：150个卷积层（75个LBCNN模块），512个LBC滤波器，16个输出通道，0.5稀疏度，全连接层中的128个隐藏单元。• SVHN：80个卷积层（40个LBCNN模块），512个LBC滤波器，16个输出通道，0.9稀疏度，512个隐藏单元。• CIFAR-10：100个卷积层（50个LBCNN模块），512个LBC滤波器，384个输出通道，0.1稀疏度，全连接层中的512个隐藏单元。精度准确度（%）AlexNet（准确度）LBCNN（准确度）AlexNet（损失）LBCNN（损失）损失26LBCNN基线BinaryConnect [6]BNN [5，14]ResNet [12]Maxout [9]NIN [23]MNIST99.5199.4898.9998.60/99.5599.53SVHN94.5095.2197.8597.49/97.5397.65CIFAR-1092.99（93.66NetEverest）92.9591.7389.8593.5790.6591.19表2：分类准确度（%）。LBCNN列仅显示性能最好的模型，基线列显示特定的CNN对应模型。表3：100类ImageNet的分类准确率（%），不同的LBC过滤器大小。具有共享权重的LBCNN：我们考虑一种情况，即网络中的所有LBC层共享相同的卷积权重集，而不是在每层随机生成新的卷积权重。对于具有D个LBC层的网络，跨层共享卷积权重会导致模型大小大约小D倍。从表1的第二行可以看出，第4层384×（3×3×192）=663，552 384×256=98，304第5层256×（3×3×192）=442，368 256×256=65，536共计2，332，704（2002. 33M） 352，256（100. 352名男性）表4：AlexNet和AlexNet与LBCNN模块中卷积层该方法节省了6。卷积层中的622×LBCNNAlexNet（我们的）AlexNet（BLVC）[1] ImageNet 54.9454 56.7821 56.9表5：完整ImageNet上的分类准确率（%）在图5（L）中，具有权重共享的网络的性能与没有权重共享的网络相当。这个实验证明了在内存受限的嵌入式系统上使用LBCNNNetEverest：通过至少9倍的参数减少，现在可以训练更深的网络，大约从100层到1000层，或者从1000层到10000层。LBC模块允许我们使用8848个卷积层（4424个LBC模块）有效地训练极深的CNN，称为NetEver。1816141210864200 20 40 60 80 100稀疏度（%）0.970.960.950.940.930.920.911 23 4 5层使用一个nVidia Titan X GPU。的体系结构NetEverest：8848个卷积层（4424个LBC模块），32个LBC过滤器，32个输出通道，0.1稀疏度，全连接层中的512个隐藏单元在我们的实验中，该网络在CIFAR-10上实现了最高的准确性，如表2所示。100-Class ImageNet Subset的结果：我们在表3中报告了ImageNet 2012分类挑战数据集的100类子集的前1名准确率。ImageNet的输入图像的分辨率比MNIST、SVHN和CIFAR-10中的图像高得多，这使得我们可以使用不同的LBC过滤器大小进行实验。LBCNN和我们的基线CNN 共享相同的架构： 48 个卷积层（ 24 个 LBC 模块），512个LBC滤波器，512个输出通道，0.9稀疏度，全连接层中的4096个隐藏单元。完整ImageNet上的结果：我们在完整的ImageNet分类数据集上训练 AlexNet [21] 架构的LBCNN版本。AlexNet架构由五个连续的卷积层和两个完全连接的层组成，将图像（224×224×3）映射到1000维特征表示进行分类。使用的卷积滤波器的数量及其空间大小列于表4中。对于这个实验，我们创建了AlexNet架构的LBCNN版本，图6：d ′和d之间的（L）NMSE，LBC滤波器内的稀疏性水平增加。(R)LBCNN和CNN滤波器的归一化相关性度量。值越小，它们越不相关。AlexNet中的每个卷积层都有一个LBC层，具有相同数量的输入和输出通道以及滤波器大小表4通过将输出通道的数量设置为q=256，比较了AlexNet及其LBCNN版本中卷积层中可学习参数的数量。可以看出，LBCNN达到了6。622倍减少卷积层中可学习参数的数量，同时执行AlexNet的卷积（见表5）。AlexNet及其相应的LBCNN版本集在55个epoch中的验证准确性和训练损失的进展如图5所示。5. 讨论我们现在讨论所提出的局部二进制卷积层在常规卷积层上提供的计算：LBC层的参数化在训练和推理期间将可学习参数的数量减少了9倍至169倍。此外，卷积权重的稀疏性和二进制性质，64 LBC过滤器128 LBC过滤器LBCNN权重CNN权重归一化相关测度NMSE（%）LBC过滤器尺寸3×35×57×79×911×1113×13层AlexNet [21]LBCNN（AlexNet）LBCNN62.5662.2962.8063.2463.0862.43层196×（11× 11× 3）=34，84896× 256= 24，576基线65.7464.9066.5365.9165.2264.94层2层3256×（5× 5× 48）=307，200384×（3× 3× 256）=884，736256× 256= 65，536384× 256= 98，30427CNN训练准确度CNN测试准确度LBCNN训练精度LBCNN测试精度LBCNN训练精度LBCNN测试精度CNN训练精度CNN测试精度LBCNN训练精度LBCNN测试精度CNN训练精度CNN测试精度10010010010090 9090 9080 8080 8070605040302010050100150200250300时代350706050403020100 50 100150时代7060504030201000 50 100150时代7060504030201000 50 100 150时代图7：（L1）过拟合实验的结果。(R3)分别对FRGC的10级、50级和100级实验结果进行了分析从而降低了训练和推理期间的计算复杂度以及存储器较低的内存需求使得能够学习更深的神经网络，从而允许通过更深的架构学习更好的表示[30，12，13]。此外，在所有LBC层之间共享卷积权重，导致进一步减少内存需求，从而能够在资源受限的嵌入式系统上学习深度CNN。统计学：与CNN相比，LBCNN是一种更简单的模型，具有更少的可学习参数，可以有效地正则化学习过程并防止过度拟合。诸如具有规则卷积层的深度CNN之类的高容量模型通常由非常大量的参数组成。引入了Dropout [32]，DropConnect [34]和Maxout [9]等方法来在训练过程中正则化网络的全连接层，以避免过度拟合。与正则化网络的全连接层[32，34，4]相反，LBCNN直接正则化卷积层，这也很重要，如[32，3]所述。网络正则化技术，如 Dropout [32] 和 BatchNormalization [16]，可以防止神经元激活的共适应并减少内部协变量偏移。最近Cogswell et al. [4]提出了一种方法来显式地去相关和最小化隐藏激活的互协方差，以提高性能并防止过拟合。它鼓励多样化或非冗余的表示。LBCNN自然地为激活提供去相关，因为卷积滤波器是随机生成的稀疏伯努利滤波器。图6（R）显示了LBCNN和LBCNN中的归一化相关性（Δ kk2-Δdiag（k）k2）/Δk2的量。CIFAR-10 数据集。训练子集随机挑选 25% 的图像（5000×0. 25= 1250），同时保持测试集完整。我们为CNN和LBCNN选择了第4节中描述的CIFAR-10上性能最好的架构。图7（L1）所示的结果表明，LBCNN训练速度更快，并且不太容易对训练数据进行过度拟合。为了提供扩展的评估，我们在有限的样本复杂度设置下对FRGCv2.0数据集[26]每个类别中的图像数量范围从6到132（平均51.6）。虽然总共有466个类，但我们尝试增加随机选择的类的数量（10，50和100），其中60-40训练/测试分裂。在类的数量上，我们的网络参数保持不变，除了最后的分类全连接层。我们从我们的发现中进行了一些观察（见图7（R3））：（1）LBCNN比CNN收敛得更快，特别是在小数据集上，(2)LBCNN在这项任务上优于CNN。较低的模型复杂度有助于LBCNN防止过度拟合，尤其是在中小型数据集上。6. 结论受传统局部二进制模式的启发，在本文中，我们提出了局部二进制卷积（LBC）层作为标准CNN中卷积层的替代。LBC层包括一组稀疏的、二进制的和随机生成的固定卷积权重集和一组可学习的线性权重。我们从理论上和经验上证明，LBC模块是标准卷积层的一个很好的近似，同时也大大减少了卷积层的数量。F2FCNN过滤器用于第4节中描述的CIFAR-10上性能最佳的架构的前5层。归一化相关的较小值对应于激活之间的较大去相关。样品复杂度：LBCNN较低的模型复杂度使其成为低样本复杂度学习的有吸引力的选择。为了证明LBCNN的统计效率，我们对一个子集进行了实验，训练时要学习的参数，对于3×3，9 ×到169 ×和13×13大小的过滤器。具有LBC层的CNN非常适合低样本复杂度的学习，深度CNN在资源受限的环境中，由于其低模型和计算复杂度。所提出的LBCNN在不同网络架构的多个小型和大型数据集上表现出出色的性能和标准CNN的性能。精度LBCNN训练精度LBCNN测试精度CNN训练精度CNN测试精度精度精度精度28引用[1] 伯克利视觉和学习中心（BLVC）。ImageNet 2012验证集上的BVLCAlexNet准确性。https://github.com/BVLC/caffe/wiki/Models-accuracy-on-ImageNet-2012-val，2015. 7[2] W. 陈，J.T. 威尔逊，S。Tyree，K.Q. 温伯格，以及Y.尘使用哈希技巧压缩神经网络。2015年第32届国际机器学习会议（ICML）。2[3] D.- A. Clevert，T.Unterthiner和S.Hochreiter。通过指数线性单元（ELU）进行快速准确的深度网络学习。2016年国际学习表征会议（ICLR）。8[4] M. Cogswell，F.艾哈迈德河吉希克湖zitnick和D.巴特拉通过解相关表示减少深度网络中的过拟合。国际学习表征会议（ InternationalConferenceonLearningRepresentations，ICLR），2016。8[5] M. Courbariaux和Y.本吉奥。BinaryNet：训练权重和激活约束为+1或-1的深度神经网络。arXiv预印本arXiv：1602.02830，2016。一、二、六、七[6] M. Courbariaux，Y.Bengio和J.P. 大卫BinaryConnect：在传播过程中使用二进制权重训练深度神经网络。神经信息处理系统进展，第3105-3113页，2015年一、二、六、七[7] M. 德尼尔湾沙基比湖Dinh，M.Ranzato和N.de Freitas深度学习中的参数预测神经信息处理系统进展（NIPS），第2148- 2156页，2013年2[8] S. K. 埃塞尔河Appuswamy，P.Merolla，J.诉Arthur和D.S.莫达能量高效神经形态计算的反向传播神经信息处理系统进展（NIPS），第1117-1125页，2015年。2[9] I. J. Goodfellow ， D. Warde-Farley ， M. Mirza ， A.Courville和Y.本吉奥。Maxout Networks. 2013年第30届国际机器学习会议（ICML）。六七八[10] S.汉，H. Mao和W. J·达利深度压迫：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。国际学习表征会议（International Conference on Learning Representations，ICLR），2016。2[11] S.

下载后可阅读完整内容，剩余1页未读，立即下载