查找卷积神经网络LCNN的快速准确性

97 浏览量更新于2023-10-15 收藏 677KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1LCNN：基于查找的卷积神经网络Hessam Bagherinezhad1， 2 Mohammad Rastegari2， 3 Ali Farhadi1， 2， 31华盛顿大学2XNOR.AI3Allen Institute for AI{hessam，mohammad，ali}@ xnor.ai摘要将最先进的深度学习算法移植到资源受限的计算平台（例如，VR、AR、可穿戴设备）极具挑战性。我们提出了一个快速，紧凑，准确的卷积神经网络模型我们介绍了LCNN，这是一种基于查找的卷积神经网络，它通过对字典的少量查找来编码卷积，该字典经过训练以覆盖CNN中的权重空间。训练LCNN涉及联合学习字典和一小组线性组合。字典的大小自然会在效率和交流之间进行权衡牧师我们在ImageNet Challenge上的实验结果表明，LCNN可以提供3. 2倍加速，同时实现55.使用AlexNet架构的1%top-1准确率。我们最快的LCNN提供37。6倍速度超过AlexNet，同时保持44。3%top-1准确度。LCNN不仅在推理方面提供了显著的速度提升，而且还实现了高效的训练在本文中，我们展示了LCNN在少次学习和少次迭代学习中的优势，这是深度学习模型在设备上训练的两个关键方面。1. 介绍近年来，卷积神经网络（CNN）在改善计算机视觉中广泛问题的最新技术水平方面发挥了重要作用，包括图像分类[25，37，39，18]，对象检测[25，37，39，18tion [11，10，36]，分割[34，32]等。这些模型在计算和计算方面非常昂贵。例如，AlexNet[25]具有61M个参数，并执行1.5B高精度操作来对单个图像进行分类。对于更深的网络，这些数字甚至更高，例如，VGG [37].这些模型的学习和推理的计算负担明显高于大多数计算平台所能承受的。虚拟现实（ Oculus 的 VR ） [33] ，增强现实（HoloLens的AR）[14]和智能可穿戴设备的最新进展增加了获取我们状态先进的深度学习算法在这些便携式计算平台上。将深度学习方法移植到这些平台上具有挑战性，主要是因为这些平台可以提供的内容与我们的深度学习方法之间存在差距。更有效的深度神经网络方法是应对这一挑战的关键。最近关于有效深度学习的工作集中在模型压缩和降低神经网络中运算的计算精度[3，15，35]。CNN遭受过度参数化[7]，并且经常编码高度相关的参数[22]，导致低效的计算和内存使用[7]。我们的关键见解是杠杆年龄的参数之间的相关性，并表示由一个紧凑的权重向量集，称为字典的参数空间。在本文中，我们介绍了LCNN，这是一种基于查找的卷积神经网络，它通过少量查找将卷积编码到一个字典中，该字典经过训练以覆盖CNN中的权重空间。训练LCNN涉及联合学习字典和一小组线性组合。字典的大小自然会在效率和准确性之间进行权衡活泼我们在ImageNet挑战中使用AlexNet的实验结果表明，LCNN可以提供3. 2倍加速，同时实现55. 1%top-1准确度。我们最快的LCNN提供37。6倍加速超过CNN，同时保持44。3%top-1准确度。在ResNet-18中，最准确的LCNN提供了5倍的加速比，为62。2%的准确率和最快的LCNN- fers 29. 2倍加速，51. 8%的准确度此外，LCNN可以实现高效的训练;几乎所有高效深度学习的工作集中在资源受限平台上的高效推理[35]。在这些平台上进行培训更具挑战性，需要解决两个主要问题：I. few-shot learning- ing：设备上训练的设置指示对于新类别将没有足够的训练示例。事实上，大多数训练需要用很少的训练实例来完成;二. 少迭代学习：在计算和功率方面的限制要求训练是轻便和快速的。这对训练中的迭代次数施加了严格的限制。LCNN在深度设备训练中为这两个问题提供了解决方案71207121少样本学习（Few-shot learning），即从很少的样本（有时甚至是一个样本）中学习新类别的问题，在机器学习和计算机视觉中得到了广泛的研究[9]。然而，这个话题对于深度学习来说相对较新[17]，其中的主要挑战是避免过拟合。参数的数量明显高于从几个例子中可以学到的LCNN由于需要学习的参数较少（仅为典型网络参数的7%左右），为这一挑战提供了简单的我们的字典可以从训练数据中离线学习，其中每个类别存在足够的训练示例当面对新的类别时，我们需要学习的只是稀疏重建权重集我们的实验评估表明，在少数拍摄学习的显着增益; 6。3%，每个类别一个训练示例。少迭代学习的问题是，在资源受限的平台所能提供的较少迭代中尽可能地精确。在典型的CNN中，训练通常涉及数十万次迭代。对于最近更深的架构，这个数字甚至更高 LCNN提供了一个解决方案：LCNN中的字典是架构不可知的，并且可以跨架构或层传输。这允许我们使用浅层网络训练字典，并将其转移到更深层的网络。和以前一样，我们需要学习的只是几个重建权重;字典不需要再训练一次。我们对ImageNet挑战的实验评估表明，使用LCNN，我们可以用10层ResNet的预训练字典训练18层ResNet，并实现16层。在10K次迭代中，top-1精度提高2%。在本文中，我们1）介绍LCNN; 2）使用LCNN显示CNN中最先进的高效推理; 3）展示使用每个类别少至一个示例训练深度CNN的可能性4）显示少量迭代学习的结果。2. 相关工作已经提出了各种方法来解决深度神经网络中的有效训练和推理。在这里，我们简要地研究了这些方法下的主题与我们的方法。重量压缩：已经进行了几次尝试来减少深度神经网络的参数数量。大多数这样的方法[13，46，3，15，38]是基于压缩包含大部分权重的全连接层。这些方法在速度上没有太大的提高。在[21]中，提出了一个小型DNN架构，它是完全连接的，与AlexNet [26]相比，参数少50倍。然而，他们的模型比AlexNet慢。最近[16，15]通过修剪减少了参数的数量。所有这些方法都更新了预先训练的CNN，而我们建议训练一个紧凑的结构，以实现更快的推理。低阶假设：[22，7]已经探索了用低秩张量展开来近似卷积层的权重。他们只在大卷积的情况下证明了加速。[8]使用SVD进行张量分解，以减少预训练CNN的下层计算。[47]最小化CNN中非线性响应的反射误差，受到低秩约束，这有助于降低滤波器的复杂性值得注意的是，所有这些方法都是对已训练CNN的权重进行后处理，并且没有一种方法从头开始训练较低等级的网络。低精度网络：比较了8位整数的定点实现和32位浮点实现激活[41，20]。[13，1，29，29，19]提出了几种网络量化方法。最近，二元网络在ImageNet上取得了相对较好的结果[35]。他们已经训练了一个网络，除了第一层和最后一层之外，该网络主要使用二进制运算来计算输出。[5]使用权重的实值版本作为二值化过程的关键参考。[4]是[5]的扩展，其中权重和激活都被二进制化。[23]用二进制权重和二进制输入重新训练先前训练的神经网络。我们的方法与这条工作线正交。事实上，这些方法中的任何一种都可以应用到我们的模型中，以降低精度。稀疏卷积：最近，已经进行了几次尝试来稀疏卷积层的权重[31，45，44]。[31]显示了如何减少使用稀疏分解的CNN参数。[45]提出了一个框架，同时加快计算和减少CNN的存储。 [44]建议结构化稀疏学习（SSL）方法来正则化结构（即，滤波器、通道、滤波器形状和层深度）。只有在[44]中，稀疏CNN才是从头开始训练的，这使得它与我们的方法更相似然而，我们的方法提供了一组丰富的字典，使执行卷积与查找操作。少量学习：在[40，2，30]中已经研究了学习新类别的问题。从[17]探索的每个类别的几个[9，42，24]赞成-提出了一种方法，每个类别从一个训练样本中学习，称为一次性学习。没有任何训练样本的学习，零射击学习，由[27，28]研究。3. 我们的方法概述：在CNN中，每个卷积层由n个大小为m×kw×kh的立方权重滤波器组成，其中m和n分别是输入和输出通道的数量而kw和kh是滤波器的宽度和高度。因此，每个卷积层中的权重由长度为m的nkw kh个向量组成。这些向量被证明具有冗余信息[7]。为了避免这种情况再次发生-7122Skwkh[ 1， 24， 33]M我KWCS锦[ 0。2，0。七比零。第1页]锦洪WKKW字典≤k[ 6、 13、 40][ 0。3，0。6，0。四、10的情况。2240的情况。70的情况。13360的情况。3130的情况。6400的情况。4图1. 该图演示了在LCNN中构建权重滤波器的过程。权重过滤器中的向量（灰度张量W中的长彩色立方体）由从字典D中查找的几个向量的线性组合形成。指数及其系数存储在张量I和C中。因此，我们为每一层建立一个相对较小的向量集，我们将其称为字典，并将权重过滤器中的每个图1显示了我们模型的概述。图左侧的灰色矩阵是字典。虚线显示了我们如何从字典中查找一些向量，并将它们线性组合以构建权重过滤器。使用这种结构，我们设计了一个快速的推理算法的CNN。然后，我们表明，字典提供了一个强大的先验的视觉数据，使我们能够从几个例子中学习。最后，我们证明了字典可以在不同的网络上传输。查找索引 I∈Ns×kw×kh ，以及每层查找系数C∈Rs×kw×kh的张量对于对（r，c），I[：，r，c]是长度为s的向量，其条目是字典的行的索引，其形成W[：，r，c]的线性分量。向量C[：，r，c]的条目指定分量应使用的线性系数。可以组合成W[：，r，c]（在图1中的灰色立方体内有一个长的彩色立方体）。我们设置s，权重过滤器向量中的分量数，为一小部分。权重张量可以构造如下：Σs建筑这使我们能够加快训练深度通过将字典从较浅的W[：，r，c]=t=1 C[t，r，c]·D[I[t，r，c]，：] nr，c（1）模型3.1. LCNNCNN 中的卷积层由四个部分组成： 1 ）输入张量X∈Rm×w ×h;其中m、w和h分别是输入通道的数量、宽度和高度2）n个权重滤波器的集合，其中每个滤波器是张量W∈Rm×kw×kh，其中kw和kh是宽度，滤波器的高度，3）每个滤波器的标量偏置项b∈R该过程如图1所示。在LCNN中，不是存储卷积层的权重张量W，而是存储权重张量的构建块D、I和C因此，我们可以通过减少字典大小k和线性组合中分量的数量s来在下一节中，我们将讨论LCNN如何使用这种表示来加速推理。′ ′ter，以及4）输出张量Y∈Rn×w×h;其中每个3.1.1使用共享字典的快速卷积′ ′通道Y[i，：，：]∈Rw×h 由W <$X + b计算。这里表示离散卷积运算1。对于每一层，我们定义一个矩阵D∈Rk×m作为向量的共享字典。如图1所示，在左边。这个矩阵包含k个长度为M.字典的大小k对于网络的不同层可能会有所不同，但它应该始终小于nkw kh，即一层所有权重过滤器中的向量总数。除了字典D，我们还有一个张量，7123X W X W卷积层中的前向传递由n个卷积组成输入X和每个权重滤波器之间的卷积W. 我们可以将一个m×kw×kh权重滤波器和输入X之间的卷积写成kw kh个单独的（1 ×1）卷积之和：kh，kw=移位r，c（r，c1从NumPy中借用（：）符号来选择维度中的所有条目。其中移位r，c是沿着行和列的矩阵移位函数，其中相对于滤波器大小具有零填充。现在7124[t，r，c][t，r，c]1613 P24 33400的情况。2070的情况。1优惠0. 30604S图2. S是字典与输入张量卷积的输出。该图的左侧说明了推理时间正向传递。输入和权重滤波器之间的卷积通过查找S的通道和一些线性组合来执行。张量I和C的直接学习简化为难以处理的离散优化。该图的右侧显示了基于稀疏卷积的训练的等效计算参数P可以使用SGD来训练P中的小立方体表示非零项。我们使用权重的LCNN表示（等式1）来重写每个1×1卷积：3.1.2训练LCNN到目前为止，我们已经讨论了LCNN如何表示权重X WΣ=r，cΣ2、C=C（ΣsΣst=1C[t，r，c]·D[I，：]））通过共享字典中元素子集的线性组合进行过滤。我们还展示了LCNN如何在两个阶段有效地执行卷积=r，cC+t=1 C[t，r，c]（XD[I，：]））（三）卷积：将输入与一组1×1滤波器进行卷积（公式4）。2-搜索和缩放：在公式3表明，我们可以将输入与所有字典向量进行卷积，然后根据I和C计算输出，而不是重建权重张量W并与输入进行卷积。由于字典D在层中的所有权重过滤器之间共享，因此我们可以预先计算输入tensorX和所有字典向量之间的卷积设S∈Rk×w ×h是将输入X与所有字典卷积的输出，零矢量D，即，S[i，：，：]=X<$D[i，：]<$1 ≤i≤k（4）一旦计算出S的值，我们就可以根据I通过查找S的通道来重建卷积的输出，然后用C中的值来缩放它们：张量的通道后接线性组合（等式5）。现在，我们解释如何联合训练字典和查找参数I和C。直接训练所提出的基于查找的卷积会导致组合优化问题，其中我们需要找到整数张量I的最佳值。为了解决这个问题，我们使用具有稀疏约束的标准卷积来重新制定查找和缩放阶段（等式5设T∈Rk×kw×kh是一个独热张量，其中T[t，r，c]=1，其它元素均为零.容易观察到，将张量S与T卷积将导致移位r，c（S[t，：，：]）。我们使用此观察来转换查找和缩放阶段（等式5）到标准卷积。查找和尺度可以通过张量S和稀疏张量P之间的卷积来表示，其中P∈Rk×w ×h，并且P[：，r，c]是对于所有XW=kh，kwr，cC+Σst=1C[t，r，c]S[I[t，r，c]，：，：]）（5）空间位置（r，c）。P中非零项的位置由索引张量I确定，它们的值由系数张量C确定。张量P如图2（左）所示的小型化字典k降低了计算S的成本，可以用I和C表示：.向前传球更快。由于S是通过密集矩阵乘法计算的，因此我们仍然能够使用OpenBlas [43]进行快速矩阵乘法。此外，通过推动价值Pj，r，c=Ct，r，c，nt：It，r，c=j（六）0，否则如果s很小，我们可以减少查找和浮点运算的次数。注意，这种转换是可逆的，即，我们可以创建I和C的位置和非零值我[ 1、 24、 33][ 6、 13、 40]C[ 0。2，0。七比零。第1页][ 0。3，0。6，0。四、161324 33 400. 2+ 0。7+ 0。1S0的情况。3+0。6+ 0。47125[t，r，c]P条目P.通过这种转换，查找和缩放阶段（等式5）变为：3.2. 少拍学习LCNN中的共享字典允许神经网络Σ（2）C++（RCΣst=1C[t，r，c]S[I ，：，：]）=SP（7）从很少的训练样本中学习新的类别，这被称为少数学习[17]。一个好的少量学习模型应该有两个属性：这在图 2- 右中示出现在，我们可以用范数约束（<$P[：，r，c]<$<$0=s）训练张量P，然后从P构造I和C，而不是直接训练I和C。然而，范数是一个处处梯度为零作为一种变通方法，我们将其放宽到101-norm。在每次训练迭代中，为了强制P[：，r，c]的稀疏性约束，我们按绝对值对所有条目进行排序，并保留顶部的s个条目，并将休息在训练过程中，除了分类损失外，L我们也尽量减少P[：，r，c][r，c]项λP1到损失函数。相对于P中的值的梯度通过下式计算a）数据的强先验，以及b）很少的可训练参数。LCNN具有这两个属性。在大型图像数据集上训练的LCNN（例如，ImageNet [6]）在每个卷积层都有一个丰富的字典D这本字典提供了一个强大的视觉数据先验在对具有少量训练样本的新类别集进行微调时，我们仅更新C中的系数。这大大减少了可训练参数的数量。在标准CNN中，要使用预先训练的网络来分类一组新类别，我们需要随机重新初始化分类层。这引入了大量的参数，我们没有任何先验知识LCNN，（L+ λℓ1（八）相反，可以使用分类层的字典λP=λP+λsign（P）其中，RSL是通过标准反向传播计算的梯度。λ是一个超参数，用于调整CNN损失函数和λ1正则化器之间的权衡我们还可以允许稀疏因子s在每个空间位置（r，c）处不同，并在训练时自动确定这可以通过应用阈值函数来实现预训练模型，因此只需要学习I和C从头开始，它们形成了一组小得多的参数。此外，对于所有其他层，我们仅微调系数C，即，只更新P的非零项。注意，在训练期间，字典D在所有层上都是固定的，只有很少的例子。3.3. 少量迭代学习δ（ x）=.x，|公司简介|> ǫ0，否则（九）训练非常深的神经网络是计算性的昂贵并且需要数十万次迭代。这主要是由于这些模型的复杂性为了限制复杂性，我们应该限制在训练过程中P的值我们也支持-门通过这个阈值函数来计算相对于P的梯度。阈值函数的导数在除|X|<0，即0。因此，如果P的任何条目在某个迭代中变为0，则它们永远保持为0。使用阈值函数，我们让每个向量是任意向量的组合。年底在训练中，每个空间位置（r，c）处的稀疏性参数s由P[r，c]中非零值的数量确定。虽然我们的工作重点是加快会议-由于大多数计算都在传统的层上进行，因此我们基于查找的卷积模型也可以应用于全连接（FC）层。一个FC层，从m输入到n个输出可以被视为具有输入张量m×1×1和n个权重滤波器的卷积层，每个权重滤波器的大小为m×1×1。我们采用相同的方法来加速全连接层。在训练之后，我们将P转换为每个层的索引和系数张量I和C。在测试时，我们遵循等式5来有效地计算每个卷积层的输出。可学习的参数。LCNN有一个合适的设置，允许我们在不改变架构的情况下限制可学习参数的数量。这可以通过将共享字典D从较浅的网络转移到较深的网络来完成。我们不仅可以跨层共享字典D，还可以跨不同深度的不同网络架构共享它。字典D∈Rm×k可以用在任何卷积层中，其中输入通道大小为m，CNN架构。例如，我们可以在浅层CNN上训练我们的字典，并在具有相同通道大小的深层CNN中重用。在更深的CNN上，我们只需要训练索引和系数张量I和C。4. 实验我们评估了不同设置下LCNN的准确性和效率。我们首先评估了我们模型在对象分类任务中的准确性和加速比，并在 ImageNet 的标准图像分类挑战ILSRVC2012 [6]上进行了评估。然后，我们评估的准确性，我们的模型在几个镜头设置。我们证明了7126ResNet-18模型加速比top-1top-5CNN1 .一、0×69岁。3九十0XNOR-网络[35]10个。6×51岁2七十三。2LCNN-fast29岁2×51岁8七十六。8LCNN精确5×62. 284. 6表1. 比较AlexNet上不同的有效方法。精度是ILSVRC 2012验证集上的分类精度。给定一组新的类别，每个类别只有一个训练样本，我们的模型能够学习一个分类器，它比CNN基线更快，更准确。最后，我们证明了在LCNN中训练的字典与标准CNN相比，这导致在少量迭代中具有更高的准确性4.1. 实现细节我们遵循[12]中引入的高斯分布初始化卷积层的常见方式，包括稀疏张量P。我们在等式9中为每一层设置阈值，以这样的方式，所有层的初始稀疏度相同。也就是说，我们将每一层的阈值设置为f=c·σ，其中c是跨层的常数，σ是该层高斯初始化的标准差。我们使用c=0。01，c=0。001.ResNet类似地，为了在各层之间保持相同的稀疏度水平，我们需要λ（等于第8项），它与高斯初始化器的标准偏差成比例我们使用λ=λ′ λ，其中λ′在各层中是常数，λ′是该层的阈值我们尝试λ ′∈ {0. 1，0。2，0。对于AlexNet和ResNet都是3}，以在P中获得不同的稀疏度。字典大小k、正则化器系数λ和阈值λ是获得加速的三个重要超参数。字典越大，模型就越准确（但速度越慢）。第一层字典的大小不需要很大，因为它我们观察到，对于第一层，小到3个向量的字典大小对于AlexNet和ResNet都是足够的。相反，AlexNet的全连接层具有更高的维度，并且需要相对较大的字典来覆盖输入空间。我们发现字典大小512和1024适合全连接层。在AlexNet中，我们在其他层中使用相同的字典大小，我们会有所不同。2他们没有报告AlexNet上的整体加速，而只是每层的加速。3 .第三章。1×是其每层加速比的加权平均值。3XNOR-Net在32位机器上获得32倍逐层加速。然而，因为他们还没有二进制化的第一层和最后一层（其中有9。64%的计算），它们的总体加速比为8。0×。表2. 在ResNet-18上比较LCNN和XNOR-Net。精度是ILSVRC2012验证集上的分类精度。从100到500，用于不同的实验。在ResNet中，除了第一层之外，所有其他卷积层都分为4种类型的ResNet块。输入的维数在相同的ResNet块类型之间相等，并且对于连续的不同块类型加倍。以类似的方式，我们为不同的ResNet块设置字典大小：相同块类型之间相等，不同连续块类型之间加倍。我们在不同的实验中改变第一个块的字典大小从16到128。4.2. 图像分类在本节中，我们评估LCNN用于图像分类任务的效率和准确性。我们提出的基于查找的卷积是通用的，可以应用于任何CNN架构。我们在实验中使用AlexNet[25]和ResNet [18我们使用Ima-geNet挑战ILSVRC 2012[6]来评估我们模型的准确性。我们报告标准的前1名和前5名的classifica- tion准确性1K类的对象在自然场景中。为了评估效率，我们比较了浮点运算的数量我们模型的速度和精度取决于两个超参数：1）k，字典大小，以及2）λ，其控制P的稀疏性;即，线性组合中的随机分量的平均数。人能图3. 精度与加速。通过调整字典大小，LCNN实现了一系列的加速。AlexNet模型加速比top-1top-5CNN1 .一、0×五十六6八十2Wen等人[第四十四届]3 .第三章。1×255. 4N/AXNOR-网络[35]8. 0×344. 269岁。27127CNNLCNN52.7847.7539.9137.9445.0752.16前1精度55 8550 7545 6540 55351 24每个类别(a) 不包括猫、沙发和自行车451 2 4每个类别(b) 排除10个随机类别图4.LCNN和CNN基线在少数样本学习上的性能比较，每个类别有{1， 2， 4}个示例在(a)所有的猫（7类），沙发（1类）和自行车（2类）都是少数拍摄学习。在（b）中，10个随机类别被用于少量学习。我们对10个随机类别重复采样5次，以避免过度拟合特定的采样。通过调整这两个参数，在LCNN的准确性和效率之间进行权衡我们将我们的模型与几个基线进行比较：1-XNOR-Net [35]，它将权重和输出的精度降低到1位，因此乘法可以用二进制运算代替。在XNOR-Net中，除了第一层和最后一层（在AlexNet中，它们包含9层）之外，所有层都被二进制化。计算的64%）。2-Wen等人[44]，它通过稀疏化权重滤波器来加速卷积。表1比较了LCNN的前1和前5分类准确性与AlexNet架构上的基线。它表明，在足够小的字典和稀疏线性组合的情况下，LCNN提供了37。6倍加速，XNOR-Net的特性另一方面，如果我们设置了dic-如果模型足够大，LCNN可以像Wen等人的较慢模型一样准确。在LCNN-fast中，中间层卷积的字典大小为30，全连接层的字典大小为512。在LCNN精确中，中间层卷积的字典大小为500，而全连接层的字典大小为1024。LCNN-快速和LCNN-精确的正则化器常数（第4.1节）λ '为0。3和0。1所示。根据字典大小和λ'，LCNN可以实现各种加速和准确度。图3显示了不同的精度与我们的模型能达到的速度。准确度由top-1度量计算，加速比相对于原始CNN模型。有趣的是，趋势几乎是线性的。最适合的直线的斜率为-3。08，即，我们在top-1中每牺牲1%的准确率，我们就获得3。更多的加速。我们还评估了LCNN在ResNet- 18架构上的性能。ResNet-18是一个紧凑的架构，与AlexNet相比，它的参数少了5倍，而它达到了12个。前1名准确率提高7%。这使得它成为一更具有挑战性的架构，以进一步压缩。然而，我们表明，我们可以获得大的加速与准确度下降了几个点。表2比较LCNN，XNOR-Net [35]和原始模型（CNN）的准确性。LCNN-fast获得了与XNOR-Net相同的精度，同时获得了更大的加速比。此外，LCNN-accurate获得了更高的精度，但保持了相对较大的加速比。LCNN-fast具有用于不同块类型的大小为16、32、64和128的LCNN-accuracte有更大的字典：128、256、512和1024用于不同的块类型。4.3. 少拍学习在本节中，我们将评估LCNN在少量学习任务上的性能为了评估LCNN在这项任务上的性能，我们将ImageNet挑战ILSVRC 2012的类别分为两组：i）基本类别，我们用于预训练的990个类别的集合，以及ii）小说类别，我们使用的一组10个类别，我们在每个类别的1，2和4个样本下进行实验我们采取两种策略来分割类别一种是随机分割，我们将数据集随机分为990和10个类别。我们重复随机分裂5次，并报告所有的平均值另一个策略是将所有的猫（7个类别）、自行车（2个类别）和沙发（1个类别）用于少量学习，并使用其他990个类别进行预训练。通过这种策略，我们可以确保基本类别和新类别不会共享类似的对象，比如不同品种的猫。对于每一次分割，我们重复每个类别的1，2和4个训练图像的随机采样20次，并获得所有的平均值。重复对少数样本的随机采样对于任何少数样本学习实验都至关重要，因为模型很容易过拟合到特定的图像样本。CNNLCNN79.4872.361.4255.166.976.96前1精度7128100在图4中，我们比较了CNN和LCNN在少数样本学习上的性能。我们首先在基本类别的所有训练图像（990个类别，每个类别1000个然后，我们用随机初始化的10路线性分类器替换990路分类层在CNN上，这位亲-引入了10×4096个随机初始化的权重，我们没有任何先验知识这些参数需要训练仅仅从几个例子。然而，在LCNN中，我们将在990路分类层中训练的字典转移到新的10路分类器中。这将随机初始化参数的数量减少了至少4倍。我们使用AlexNet LCNN精确模型（与60504030201000 10 20 30 40 50表1）用于少量学习。在微调时，迭代次数X1000我们保留所有层中的字典固定，仅微调稀疏P张量。这将需要微调的参数总数减少了14倍。我们对随机初始化的分类层（需要完全训练）和先前的预训练层（需要完全训练）使用不同的学习率η和η'。只需要进行微调）。我们尝试了η′=η，η′=η，图5.LCNN可以在较少的迭代次数下获得更高的精度通过从较浅的架构转移字典D。该图说明了LCNN和标准CNN的top-1准确度的学习曲线。LCNN的准确率为16。在迭代10K时比CNN高2%。5. 结论η′=η和η′10对于CNN和LCNN都=0，然后选择随着虚拟现实技术的发展，增强最适合每种配置。图4显示了我们的模型的前1精度和我们的少数学习实验的两个分裂策略的基线在图4（a）中，我们拿出了所有的猫、沙发和自行车类别（共10个类别）进行少量学习。LCNN在每个类别的{1，2，4}个示例中始终击败基线。图4（b）显示了随机拆分策略的比较。我们重复随机分为990和10个类别5次，并报告所有的平均值。在这里，与每个类别的{1，2，4}图像的基线相比，LCNN在前1精度方面获得了更大的改进。4.4. 少量迭代学习在3.3节中，我们讨论了LCNN中的字典可以从较浅的网络转移到较深的网络。因此，与标准CNN相比，可以在更深的网络中训练更少的在这个实验中，我们用每种类型的1个块训练ResNet，总共10然后，我们将每层的字典转移到ResNet-18的相应层（有18层）。转移后，我们保持字典固定。我们表明，与标准CNN相比，我们在少量迭代中获得了更高的准确性图5显示了LCNN和标准CNN的top-1准确度的学习曲线LCNN的测试准确率为16. 在迭代10K时比CNN高2%。实线表示训练精度，虚线表示测试精度。现实和智能可穿戴设备，将最先进的深度学习算法应用到这些资源受限的计算平台上的需求增加。将最先进的深度学习算法移植到资源受限的计算平台是极具挑战性的。我们介绍了LCNN，这是一种基于查找的卷积神经网络，它通过少量查找将卷积编码为字典，该字典经过训练以覆盖CNN中的权重空间。训练LCNN涉及联合学习字典和一小组线性组合。字典的大小自然会在效率和准确性之间进行权衡LCCN实现高效推理;我们在ImageNet Challenge上的实验结果表明，LCNN可以提供3. 2倍加速，同时实现55. 1%的前1位准确率，使用AlexNet架构。我们最快的LCNN提供37。6×在AlexNet上加速，同时保持44。3%的前1位准确度。LCNN不仅在推断方面提供了戏剧性的速度提升，这是一个很好的方法，但它也可以有效地进行培训。深度学习方法的设备上训练需要能够处理少量和少量迭代约束的算法。LCNN可以简单地处理这些问题，因为我们的字典是架构不可知的，并且可以跨层和架构转移，使我们能够只学习很少的线性组合权重。我们未来的工作包括探索低精度字典以及字典的紧凑数据结构致谢：这工作是在部分由ONR N00014-13-1-0720、NSF IIS-1338054、NSF-1652052，NRI-1637479，艾伦杰出研究员奖，艾伦人工智能研究所。CNN火车CNN测试LLNN训练NN测试CC前1精度百分之十六点二7129引用[1] S. Anwar，K.Hwang和W.宋用于对象识别的深度卷积神经网络的固定点在声学，语音和信号处理（ICASSP），2015年IEEE国际会议上，第1131-1135页IEEE，2015年。2[2] H. Azizpour，A.Sharif Razavian，J.Sullivan，A.Maki和S. 卡尔森从一般到具体的视觉识别深度表示。在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition Work-shops，第36-45页，2015年。2[3] W. 陈，J.T. 威尔逊，S。Tyree，K.Q. 温伯格，以及Y.尘用散列技巧压缩神经网络。ICML，2015。一、二[4] M. Courbariaux和Y.本吉奥。Binarynet：训练深度神经网络，权重和激活被限制为+1或-1。 CoRR，2016年。2[5] M. Courbariaux，Y.Bengio和J.P. 大卫Binaryconnect：在传播过程中使用二进制权重训练深度神经网络。神经信息处理系统的进展，第3105-3113页，2015年2[6] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。Imagenet：一个大规模的分层图像数据库。2009年CVPR09中。五、六[7] M. 德尼尔湾沙基比湖Dinh，M.Ranzato和N.de Freitas深度学习中的参数预测。在NIPS，2013年。一、二[8] E. L. Denton，W. Zaremba，J. Bruna，Y. LeCun和R.费格斯。利用卷积网络中的线性结构进行有效评估。在NIPS，2014。2[9] L.费费河Fergus和P.佩洛娜对象类别的一次性学习。IEEE Transactions on Pattern Analysis and MachineIntelligence，28（4）：594-611，2006。2[10] R.娘娘腔。快速R-CNN。IEEE国际计算机视觉会议，第1440-1448页，2015年1[11] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。在IEEE计算机视觉和模式识别会议论文集，第580-587页1[12] X. Glorot和Y.本吉奥。了解训练深度前馈神经网络的困难。AISTATS，2010年。6[13] Y.贡湖，澳-地Liu，M. Yang和L.布尔德夫使用矢量量化压缩深度卷积网络。arXiv预印本arXiv：1412.6115，2014。2[14] M.戈特默用微软全息眼镜融合现实和虚拟。2015. 1[15] S.汉，H. Mao和W. J·达利深度压缩：利用修剪、训练量化和哈夫曼编码压缩深度神经网络。2015年，国际会议。一、二[16] S. Han，J.普尔，J。Tran和W.Dally 学习权值和连接以实现高效的神经网络。神经信息处理系统进展，第1135-1143页，2015年2[17] B. Hariharan和R.娘娘腔。低镜头视觉物体识别。arXiv预印本arXiv：1606.02819，2016。二、五[18] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。CoRR，2015年。1、6[19] I.胡巴拉M. Courbariaux，D.苏德里河El-Yaniv，以及Y.本吉奥。量化神经网络：用低精度权重和激活训练神经网络。arXiv预印本arXiv：1609.07061，2016。2[20] K. Hwang和W.宋使用权重+1，0和-1的定点前馈深度神经网络设计。在信号处理系统（SiPS），2014年IEEE研讨会上，第1-6页。IEEE，2014。2[21] F. N. Iandola，M. W.莫斯基维茨K.阿什拉夫S.汉，W。J.达利和K.库茨Squeezenet：Alexnet级精度，参数减少50倍，…1MB型号大小。CoRR，abs/1602.07360，2016。2[22] M. Jaderberg，A. Vedaldi和A.齐瑟曼。加速具有低秩扩展的卷积神经网络。英国机器视觉会议（BMVC），2014年。一、二[23] M. Kim 和 P. Smaragdis 。按位神经网络 arXiv 预印本arXiv：1601.06071，2016年。2[24] G. 科赫河 Zemel 和 R. 萨拉赫季诺夫 Siamese neur- ralnetworks for one-shot image recognition. ICML深度学习研讨会，2015年。2[25] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展，第1097-1105页，2012年。1、6[26] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS，2012年。2[27] C. H. Lampert，H. Nickisch和S.伤害。基于属性的零拍视觉对象分类。IEEE Transactions on Pattern Analysisand Machine Intelligence，36（3）：453-465，2014。2[28] J. Lei Ba，K. Swersky，S. Fidler等人使用文本描述预测深度零触发卷积神经网络。在IEEE计算机视觉国际会议论文集，第4247-4255页，2015年。2[29] Z.林，M。库尔巴里奥河Memisevic和Y.本吉奥。具有少量乘法的神经网络。 arXiv 预印本 arXiv ：1510.03009，2015年。2[30] E. Littwin和L.狼鲁棒迁移学习的多重宇宙损失arXiv预印本arXiv：1511.09033，2015年。2[31] B. Liu，M.Wang，H.Fo

下载后可阅读完整内容，剩余1页未读，立即下载