基于梯度下降的深度网络连接学习方法

11 浏览量更新于2023-10-13 收藏 957KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

MaskConnect：通过梯度下降进行连接学习Karim Ahmed和Lorenzo Torresani达特茅斯学院计算机科学系网址：karim@cs.dartmouth.edu，LT@dartmouth.edu抽象。尽管深度网络最近已经成为许多计算机视觉问题的首选模型，但为了产生良好的结果，它们通常需要耗时的架构搜索。为了对抗设计选择的复杂性，现有工作已经采用了模块化设计的原理，其在于根据拓扑上相同或相似的构建块（a.k.a.模块）。这将架构搜索减少到确定要组成的模块的数量以及如何连接这些模块的问题。同样，由于设计复杂性和训练成本的原因，先前的方法依赖于简单的连接规则，例如，将每个模块仅连接到紧邻的前一个模块或可能连接到所有的前一个模块。这种简单的连通性规则不太可能产生给定问题的最佳架构在这项工作中，我们删除这些预定义的选择，并提出了一种算法来学习网络中的模块之间的连接。而不是由人类设计者先验地选择，通过使用梯度下降的修改版本优化最终任务的损失函数，与网络的权重同时学习连接性我们使用两种流行的架构在多类图像分类问题上展示了我们的连通性学习方法：ResNet和ResNeXt。四个不同的数据集上的实验表明，使用我们的方法的连接性学习产生一致的更高的准确性相比，依赖于传统的预定义规则的连接性。此外，在某些设置中，它导致参数数量的显著节省关键词：连通性学习，图像分类1介绍深度神经网络已经成为需要学习复杂函数和涉及大量训练数据的问题的最突出模型之一。虽然深度学习最近在许多应用领域实现了显着的性能改进，但深度架构的设计仍然是一项具有挑战性且耗时的工作。困难在于许多体系结构的选择，这些选择通常会显著影响系统的性能。在图像分类这一特定的领域，也是本文的研究重点，大量的研究工作已经投入到2Karim Ahmed，LorenzoTorresani深度、过滤器大小、特征图数量和选择的实证研究的非线性影响性能[1，2，3，4，5，6]。最近，几位作者提出通过根据拓扑相同或相似的构建块或模块的组成来定义卷积神经网络（CNN）来简化架构设计。这种策略可以说是由VGG网络[7]首先推广的，VGG网络是通过堆叠一系列具有相同滤波器大小（3× 3）的卷积层构建的。其他示例是通过堆叠固定拓扑的残差块来构造的ResNets [8]、使用多分支残差块模块的ResNeXt模型[9]、使用密集块的DenseNets [10作为构建块，或使用由路由器（“trans is t or s”）连接的并行分支（“光纤”）的多光纤网络[11]。虽然模块化设计的原则大大简化了构建有效的图像分析架构的挑战，但如何组合和聚合这些构建块的计算的选择为了避免组合爆炸的选项，以前的工作依赖于简单，统一的规则的聚合和组成。例如，在ResNets和DenseNets中，每个构建块仅通过身份映射，卷积或池化连接到前一个构建块。ResNeXt模型[9]使用一组简化假设：分支因子C（也称为基数）在网络的所有层中固定为相同的常数，模块的所有分支都被馈送相同的输入，并且并行分支的输出通过以下方式聚合：一个简单的加法运算，它将输入提供给下一个模块。虽然这些简单的连通性规则使网络设计更易于管理，但它们不太可能为给定问题产生最佳连通性在本文中，我们删除这些预定义的选择，并提出了一种算法，学习结合和聚合的神经网络的构建块，直接优化模块的连接相对于给定的任务。在这种新的机制中，网络连接性自然是训练的结果，而不是由人类设计师手动定义的。虽然在原则上，这涉及到一个指数数量的连接配置的搜索，我们的方法可以有效地优化训练损失的连接使用反向传播的变体。这是通过连接掩码来实现的，即，学习的传统方法将网络中的最终通信网络中的“s”定义为“s”掩码与网络的卷积权重一起学习，作为相对于问题的给定损失函数的联合优化的一部分。我们使用两种流行的模块化架构：ResNet和ResNeXt对多类图像分类问题进行了评估。我们证明，我们学习的连接模型始终优于基于预定义规则的连接，对于相同预算的残差块（和参数）的网络。我们的方法的一个有趣的副产品是，在某些设置中，它可以自动识别多余的模块，即，对于最终目标是不必要的或有害的。在优化结束时，这些未使用的模块可以被修剪掉，而不会影响学习的假设，同时大大减少了运行时间和要存储的参数数量。MaskConnect：通过梯度下降进行连接学习3通过将训练过程重新设计为对学习权重和连接性的优化，我们的方法有效地搜索了更大的解决方案空间这产生了比那些被限制使用预定义连接的网络实现更高准确性的网络与使用固定连接的学习相比，平均训练时间开销适中，范围在13%（ResNet模型）和39%（ResNeXt模型）之间，但准确率较低最后，我们指出，虽然我们的实验是使用ResNet和RexNeXt模型进行的，但我们的方法是通用的，适用于其他形式的网络架构和图像分类以外的其他任务，而无需进行重大修改。原则上，我们的方法还可以用于学习传统（即，非模块化）神经网络或CNN。然而，现代网络通常包括非常大量的层（数百甚至数千[12]），这将使我们的方法非常昂贵。模块之间的学习连接性更易于管理，因为每个模块封装许多层，因此即使对于深度网络，模块的总数通常也很小。2相关工作尽管深度网络被广泛采用，但它通常需要费力的模型搜索才能产生好的结果。因此，大量的研究工作一直致力于自动模型选择算法的设计。然而，大多数这种先前的工作属于超参数优化[13，14，15]的类型，进化搜索已经被提出作为一个有趣的框架来学习神经网络中的结构和连接[16，17，18，19，20，21，22，23，24]。架构搜索最近也被制定为一个强化学习问题，并取得了令人印象深刻的结果[25]。一些作者提出了通过从网络中修剪不重要的权重来学习连接性[26，27，28，29，30]。然而，这些现有方法分阶段操作，其中最初具有完全连接性的网络被配置为在网络中传输。并且然后根据重要性准则贪婪地移除连接。与所有这些先前的方法相比，我们的工作提供了学习的连接性的优势，直接全局优化的损失函数的问题，而不是贪婪的优化的辅助代理标准或昂贵的进化搜索。我们的技术方法与“Shake-S hake”规则[ 31 ]有相似之处。这一过程是在两个分支ResNeXt模型上进行的，包括在训练期间随机缩放由并行分支产生的张量，而在测试时，网络使用统一的张量加权。相反，我们的算法学习并行张量相对于训练目标的最佳二进制缩放，并在测试时使用具有稀疏连接的网络。虽然我们的算法仅限于优化预定义架构内的连接结构，亚当斯等人。[32]提出了一种使用MCMC在无限网络上搜索的非参数贝叶斯方法。我们的方法可以被看作是两个极端之间的中间地带：使用手动定义的网络与学习/搜索完整的4Karim Ahmed，LorenzoTorresani建筑从零开始其优点是，与使用固定连接相比，我们的连接学习可以在不增加大量训练时间开销的情况下完成（根据架构仅增加13-39%缺点是我们的方法所考虑的模型空间比一般架构搜索的情况下受到更多的约束Saxena和Verbeek [33]介绍了卷积神经结构，它们是可学习的3D网格，可以在CNN的不同层本地连接响应图。与我们的工作类似，它们可以优化指数级大家族的连接性，尽管与这里考虑的不同。最后，我们的方法也与条件计算方法[34，35，36，37，38，39，40，41，42，43]相关，这些方法学习丢弃单元块。然而，与这些技术不同的是，我们的算法学习一个固定的，稀疏的连接，不随输入而变化，因此它保持运行时成本和使用的参数的数量恒定。3技术途径3.1模块化架构我们首先定义将由我们的框架使用的模块化架构为了全面展示我们的方法，我们将在通用模块化架构的上下文中描述它，然后我们将以实验中使用的两个模型（ResNet和ResNeXt）的形式实例化我们假设一般的模块化架构由L个模块的堆栈组成。（当使用ResNet时，模块将是残差块，而对于ResNeXt，每个模块将由多个并行分支组成。我们用x j表示第j个模块的输入，其中j = 1，. . . ，L.每个模块的输入是从先前模块之一计算的激活张量我们假设该模型是G（. ）通过ylearnableweleighsθj进行并行化。权重可以例如表示卷积滤波器的系数因此，输出j由j-时间模给出，yyj=G（xj;θj）。在现有的模块化架构中，例如ResNet、ResNeXt和DenseNet，模块之间的连接性是根据一个非常简单的规则先验地手动定义的：模块的输入是前一个模块的输出换句话说，x j← y j−1。虽然这使得网络设计变得简单，但它极大地限制了为给定任务考虑的架构拓扑。在下一小节中，我们将描述如何对架构进行参数化，以消除这些约束，并在模块化网络中实现连通性学习。3.2掩模结构我们现在引入定义网络中的连通性的可学习掩码。具体地，我们希望允许每个模块j从前面的模块k = 1，. . . ，j-1。为了实现这一点，我们为每个模块定义了一个二进制掩码向量，该向量控制该模块的输入路径。二进制掩码向量与网络的权重联合学习让MaskConnect：通过梯度下降进行连接学习5jj，1j， 2j，j−1m=[m，m，. . .，m] e{0，1}j-1是定义馈送第j个模块的活动输入连接的二进制掩码向量。如果m，j，k= 1，则由第k个模块产生的激活体积作为输入被馈送到第j个模块。如果m，j，k=0，则来自第k个模块的输出被第j个模块忽略。来自活动输入连接的张量全部加在一起（以逐元素的方式）以形成到模块的输入。因此，如果我们再次用yk表示由第k个模块计算的输出激活张量，则第j个模块的输入Xj将由以下等式给出：Σj−1Xj =k=1mj，k·yk（1）然后，通过通常的计算得到该模块的输出，即：例如， yj=G（xj;θj）。我们不希望这种模式在模块之间具有可靠的连接性。相反，掩码mj现在为每个模块选择性地确定来自先前模块的哪些输出将被聚合并形成到块的输入。在本文中，我们限制聚合的输出从活跃的连接是在简单的加法的形式，因为这不需要新的参数。当不同的模块产生特征图时对于不同大小的特征张量，我们使用零填充快捷方式将特征张量的维度增加到最大大小（如[8]中所示）。这些快捷键不受参数限制。我们留给未来的工作调查更复杂的，参数化的聚集计划。我们指出，根据定义的限制，在mj，不同的有趣的模型可以实现。例如，通过引入约束Σ对于每个块j，k=1，则每个模块将从只有一个前面的模块（因为每个m，j，k必须是0或1）。在频谱的另一端，如果我们为所有模块j，k设置mj，k=1，则所有连接都将是活动的。在我们的实验中，我们将证明，最佳结果通常是在这两个极端之间的值，即，通过将每个模块连接到K个先前的模块，其中K是整数值超参数，使得11），而是因为它学习了连通性。事实上，表1中的结果表明，使用MaskConnect学习连接性始终比使用多个随机连接或到前一个块的单个连接产生更高的准确性基于多分支ResNeXt的CIFAR-100结果。扇入效应（K）。即使对于ResNeXt，我们也从研究扇入超参数（K）的影响开始。对于该实验，我们使用通过堆叠L=6个多分支残差模块获得的模型，每个模块具有基数C=8（每个模块中的分支数）。我们使用由3个卷积层组成的残差块，其中瓶颈在特征通道的数量上实现降维，如图1（b）所示该实验的瓶颈设定为w=4。由于每个残差块由3层组成，因此网络在可学习层方面的总深度为D=2+ 3L=20。我们使用不同的扇入值来训练和测试此架构：K = 1，…，8. 同样，改变K不会改变参数的数量结果如图3所示。我们可以看到，通过将每个残差块连接到每个模块中的总C = 8中的K = 4个分支，可以实现最佳精度。注意，当设置K=C时，不需要学习掩码。在这种情况下，每个掩码简单地由来自所有分支的输出的逐元素相加来替换这使得模型等效于ResNeXt[9]，它具有固定的连接性。基于图3的结果，在我们下面的所有实验中，我们使用K= 4（因为它给出最佳准确度），但也使用K= 1，因为它给出高稀疏性，正如我们将很快看到的，这意味着节省参数数量改变模型。在表2中，我们显示了不同深度和基数的ResNeXt模型所达到的分类准确度（每个模型的详细信息在补充材料中列出）。对于每个架构，我们还包括使用完全（与学习相反）连接实现的准确性，这对应于ResNeXt。这些结果表明，学习连接性始终比使用固定连接性产生更高的准确性，准确性增益高达2。2%，与最先进的ResNeXt模型相比。此外，我们可以注意到，与我们的方法相比，基于随机连接（固定-随机）的模型的准确性要低得多，尽管具有相同的连接密度（K=4）。这表明，我们的方法相对于ResNeXt的改进不是由于稀疏连接，而是由于12Karim Ahmed，LorenzoTorresani图3：改变我们模型的扇入（K），即，到每个剩余块的有效输入分支的数目该图报告了使用具有基数C=8和瓶颈宽度 w=4 的 L=6 个ResNeXt模块的网络堆栈在CIFAR-100 上实现的准确性。所有模型具有相同数量的参数（0.28M）。图4：ResNext的固定连接性（左）与我们的方法（右）使用K=1学习的连接性的可视化。每个绿色方块是一个剩余块，C=8方块的每一行是一个多分支模块。箭头指示连接相邻模块的残余块的路径。可以注意到， MaskConnect 学习稀疏连接。没有内/外边缘的正方形是在学习结束时修剪这产生了沿着网的深度变化的分支因子。由于学习的连通性。我们注意到，这些准确性的提高几乎没有计算训练成本：与给定固定连接性仅学习权重相比，使用我们的未优化实现，用于学习掩码和权重的平均训练时间开销约为39%。参数节省。我们提出的方法提供了自动识别不必要的残留块的好处。在训练结束时，可以修剪掉未使用的残留块。这节省了参数的存储和测试时的计算。在表2中，列Train和TestunderParams显示了参数的原始数量（在训练期间使用）和修剪后的参数数量（在测试时使用）。请注意，对于最大的架构，与具有完全连接性的ResNeXt相比，我们使用K=1的方法产生了40%的参数节省（20. 5M vs 34。4M），同时达到相同的精度。因此，总之，使用扇入K= 4给出了具有与ResNeXt相同数量的参数的模型，但是它们产生更高的准确度;使用扇入K= 1给出了与ResNeXt相当的参数数量和精度的显著节省。学习到的连通性的可视化图4提供了针对模型{D= 29，w= 8，C= 8}的MaskConnect针对K = 1学习的连接性与ResNeXt的固定连接性的图示。而ResNeXt提供相同的MaskConnect：通过梯度下降进行连接学习13表2：通过使用预定义的完全连接（固定-完全）[9]、随机连接（固定-随机，K=4）和通过我们的算法学习的连接（学习，K=1，K= 4）训练的两个ResNeXt架构实现的CIFAR-100准确度。每个模型使用不同的随机初始化训练4次我们报告了最佳测试性能以及从4次运行计算的平均测试性能。我们列出了在训练期间使用的参数的数量（Params-Train）和在修剪未使用的块之后获得的参数的数量（Params-Test）。我们使用K=4学习的连通性产生了准确性增益与强ResNeXt模型相比，K = 2.2%，而使用K=1产生等同于ResNeXt的结果，但它引起测试时参数数量的显著减少型号节省40%{ 29，64，8}）架构连接Params准确度（%）{深度（D），瓶颈宽度（w），基数（C）}列车试验最佳（平均值±标准差）固定-完全，K=8 [9]0.86M 0.86M73.52（73.37±0.13）【2019 - 08 - 28】已学习，K=10.86M 0.65M73.91（73.76±0.14）已学习，K=40.86M 0.81M75.89（75.77±0.12）固定-随机，K=40.86M 0.85M72.85（72.66±0.24）固定-完全，K=8 [9]34.4百万34.4百万82.23（82.12±0.12）【2019 - 12 - 19 00：00：00】已学习，K=134.4百万20.5百万82.31（82.15±0.15）已学习，K=434.4百万32.1百万84.05（83.94±0.11）固定-随机，K=434.4百万34.3百万81.96（81.73±0.20）输入到模块的所有块，我们的算法学习每个块的不同输入路径，并产生沿深度变化的分支因子。4.2ImageNet最后，我们在大规模ImageNet 2012数据集[48]上评估了我们的方法，该数据集包括1000个类的图像我们在训练集（1.28M图像）上训练我们的方法，并在验证集（50K图像）上对其进行评估。基于ResNet架构的ImageNet结果。对于该实验，我们使用具有瓶颈架构的具有3个卷积层的L=16个残差块的堆栈。因此，总层数为D=2 + 3L =50。与使用固定连接的传统ResNet相比，使用扇入K=10的MaskConnect训练的相同网络产生的前1精度增益为1。94%（78.09%对76。15%）。基于多分支ResNeXt的ImageNet结果。在表3中，我们报告了三种不同ResNeXt架构的最高精度对于这些实验，我们设定K=C/ 2。我们可以观察到，对于所有三种架构，我们学习的连接性都比固定的完全连接性提高了准确性[9]。14Karim Ahmed，LorenzoTorresani表3：使用ResNeXt的预定义连接（固定-完全）与我们的算法学习的连接（学习）的不同架构实现的ImageNet准确度（单次裁剪）体系结构连接准确性{深度（D），瓶颈宽度（w），基数（C）}前5名{50，4，32}固定-完全，K=32 [9] 77.8 93.3已学习，K=16 79.1 94.1{101，4，32}固定-完全，K=32 [9] 78.8 94.1已学习，K=16 79.5 94.5{101，4，64}固定-完全，K=64 [9] 79.6 94.7学习，K=32 79.8 94.85结论在本文中，我们介绍了一种学习深度模块化网络连通性的算法。该问题被制定为一个单一的联合优化模型中的模块之间的权重和连接。我们在具有挑战性的图像分类基准测试中测试了我们的方法，与使用固定连接的最先进的ResNet和ResNeXt模型相比，它的准确性得到了显着提高我们的方法的另一个好处是，它可以自动识别多余的块，这些块可以在训练后被修剪，而不会影响准确性，以实现更有效的测试，并减少要存储的参数数量。虽然我们的实验是在两种特定的架构（ResNet和ResNeXt）和一种特定形式的构建块（残差块）上进行的，但我们希望我们的方法的好处可以扩展到其他模块和网络结构。例如，它可以应用于学习DenseNets [10]中跳过连接的连接性，这些连接性目前基于预定义的连接性规则。在本文中，我们的面具执行非参数添加剂聚合的分支输出。对来自各个分支的输出进行可学习（参数化）聚合的实验会很有趣。我们的方法是有限的学习连接在一个给定的，固定的架构。未来的工作将探索使用可学习的掩码进行全面的架构发现。鸣谢。这项工作的部分资金由NSF奖CNS-120552。我们非常感谢NVIDIA和Facebook捐赠用于部分工作的GPU。MaskConnect：通过梯度下降进行连接学习15引用1. Glorot，X.，Bordes，A.，Bengio，Y.：深度稀疏整流神经网络。在：第十四届人工智能和统计国际会议论文集，AISTATS 2011，劳德代尔堡，美国，2011年4月11日至13日。（2011年）3152. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：Imagenet分类与深度卷积神经网络。 In ： Advances in Neural Information ProcessingSystems25 ，LakeTahoee，Nevada，UnitedStates.（2012）11063. Sermanet，P.，Eigen，D.张，X.，Mathieu，M.，费格斯河LeCun，Y.：Overfeat：使用卷积网络集成识别、定位和检测国际学习表征会议（ICLR）（二零一三年）4. Maas，A.L.，Hannun，A.Y.，Ng，A.Y.：整流器非线性改善了神经网络声学模型。ICML Proc.30（2013）15. Zeiler，医学博士，Fergus，R.：可视化和理解卷积网络。In：ComputerVision - ECCV 2014 - 13th European Conference ， Zurich ， Switzerland ，September6-12，2014，Pr oce edings，PartI. （2014）8186. 塞格迪角刘伟，Jia，Y.，Sermanet，P.，Reed，S.E.，Anguelov，D.，Erhan，D.，Vanhoucke，V.，Rabinovich，A.：更深的回旋。在：IEEE计算机视觉和模式识别会议，CVPR 2015，美国马萨诸塞州波士顿，2015年6月7日至12日。（2015）17. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络国际学习表征会议（ICLR）（2015年）8. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习在：计算机视觉和模式识别（CVPR），2016年IEEE会议9. Xie，S.， Girshi ck，R. B、 Doll'ar，P.， Tu，Z.， He，K. ：用于深度神经网络的ggreggatedresid ualtransformations。IEEE计算机视觉与模式识别会议（ IEEE Conference on Computer Vision and Pattern Recognition ， CVPR ）（2017年）10. Huang，G.，刘志，Weinberger，K.Q.：密集连接的卷积网络。IEEE计算机视觉与模式识别会议（ IEEE Conference on Computer Vision and PatternRecognition， CVPR）（2017年）11. 陈玉，Kalantidis，Y.，李杰，Yan，S.，Feng，J.：用于视频识别的多光纤网络。欧洲计算机视觉会议（ECCV）（2018年）12. 他，K.，张，X.，Ren，S.，孙杰：深度剩余网络中的身份映射。 In：Computer Vision - ECCV 2016 - 14th European Conference，Amsterdam，TheNetherlands，Oct

下载后可阅读完整内容，剩余1页未读，立即下载