奇异值定界：提高深度神经网络训练的方法

10 浏览量更新于2023-10-16 收藏 706KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4344通过奇异值定界改进深度神经网络的训练奎佳1、大成涛2、高盛华3、徐祥民11华南理工大学电子与信息工程学院，广州，中国2UBTech Sydney AI Institute，SIT，FEIT，The University of Sydney，澳大利亚3上海科技大学信息科学与技术学院{kuijia，xmxu}@ scut.edu.cn，dacheng. sydney.edu.au，gaoshh@shanghaitech.edu.cn摘要近年来，深度学习方法在许多计算机视觉问题上取得了巨大成功尽管有这些实际的成功，深度网络的优化仍然是深度学习研究中的一个在这项工作中，我们专注于调查的网络解决方案的属性，可以潜在地导致良好的性能。我们的研究受到了使用正交矩阵初始化网络的理论和实证结果的启发，但我们感兴趣的是研究正交权重矩阵在网络训练收敛时的表现。为此，我们提出在网络训练的整个过程中，将权矩阵的解约束在正交可行集中，并通过一种简单有效的方法--奇异值定界（SVB）来实现在SVB中，每个权重矩阵的所有奇异值都被简单地限制在值1周围的窄带中。基于同样的动机，我们也提出了有界批量归一化（BBN），它通过消除其潜在的病态层变换的风险来改进批量归一化我们提出了理论和实证结果来证明我们提出的方法。在基准图像分类数据集上的实验表明，我们提出的SVB和BBN的有效性特别是，我们实现了国家的最先进的结果3。CIFAR10和16的错误率为06%。90% 基于 CIFAR100 ，使用现成的网络架构（ WideResNets）。我们的初步结果在ImageNet上也展示了大规模学习的前景。我们在www.aperture-lab.net/research/svb 上发布了我们方法的实现代码。1. 介绍深度学习方法不断为许多计算机视觉问题设定新的最先进技术，图像分类[20]和对象检测[16]是突出的例子。这些实际成功主要是通过以下方式实现的：新提出的具有巨大模型容量的深度架构，如Inception[25]和ResNet [7]。这些超深/超宽网络的训练是通过现代技术实现的，例如批量归一化（BN）[11]和残差学习[7]。然而，尽管取得了这些实际成功，深度网络的优化仍然是深度学习研究中的一个活跃话题直到最近，深度网络被认为是难以训练的。研究人员认为造成这种困难的不同原因，例如梯度的消失/爆炸问题[6，18]，特征统计的内部偏移[11]以及鞍点的扩散[5，12]。为了解决这些问题，分别提出了参数初始化[6，21]、快捷连接[7，8]、内部激活的归一化[11]和二阶优化方法[5]的不同方案。在这项工作中，我们关注另一个重要问题，以解决训练深度神经网络的困难特别是，鉴于深度网络的高维解空间，目前还不清楚（可以说）最优解的属性，这些最优解可以提供良好的推理性能。在不知道这一点的情况下，通过指定的目标函数进行训练很容易产生意想不到的结果，部分原因是局部最优/临界点的扩散[5，12]。例如，在[7]中根据经验观察到，向标准卷积网络（ConvNet）添加额外的层并不一定会提供更好的图像分类结果。这个不清楚的问题被其他（上述）优化困难进一步复杂化。现有的深度学习研究对网络参数的解决方案[4，21]以及可以给出理想解决方案的网络架构[25，3，7]有一些好处。本文受文献[21]中正交初始化分析的启发，提出在网络训练的全过程中为此，我们提出了一种简单而有效的方法，称为奇异值-4345=1=1=1∂Θ.Σ∂ΘUE边界（SVB）。在SVB中，每个权重矩阵的所有奇异值都被简单地限制在值1周围的窄带中（第3节）。当使用随机梯度下降（SGD）或其变体进行网络训练时，这相当于每隔指定次数的迭代就打开SVB我们使用深度线性网络进行理论分析，以展示这种学习网络如何更好地向前传播以实现训练目标，以及训练错误的向后传播（第4节）。批量归一化[11]是一种非常有效的改进和加速网络训练的方法。我们证明了在我们的理论分析框架下，BN中的可训练参数可能导致病态层变换。因此，我们提出了 Bounded BatchNormalization（BBN），这是一种通过消除这种风险而不牺牲所有其他好处来改进BN的技术（第5节）。BBN通过在训练期间简单地限制BN参数的值来实现这一点。我们使用ConvNets [22]和现代网络架构[8，27，25]（第6节）进行了基准图像分类我们的研究结果表明，SVB确实比基于SGD的方法在训练各种深度网络架构方面有所改进，并且在许多情况下具有很大的优势。我们提出的BBN进一步改进了BN。特别是，我们实现了国家的-艺术成果3。CIFAR10和16的错误率为06%。百分之九十在CIFAR100 [13]上，使用现成的网络架构，tures（Wide ResNets [27]）.我们在大规模ImageNet数据集上的初步结果与中等规模数据集上的结果一致。2. 相关作品在本节中，我们简要回顾了密切相关的深度学习方法，这些方法也关注网络解决方案的属性Saxe等人 [21]从理论上研究了深度线性网络的梯度下降学习动态，并对深度非线性网络给出了他们进一步表明，使用权值矩阵的正交初始化可以实现类似于无监督预训练的学习效率。Mishkin和Matas [17]使用[21]中的正交初始化思想，提出了图像分类的有希望的结果我们在第4节中的理论分析遵循[21]，但在以下方面有所不同。我们专注于研究网络训练收敛时的条件，而[21]则专注于网络初始化后的条件。我们的分析中心围绕我们提出的SVB方法，我们讨论了如何SVB可以解决出现的问题，作为网络训练的收益。我们还将我们的理论分析扩展到BN [11]，并提出了一种新的BBN方法，该方法在训练现代深度网络时优于BN。从最终恢复的角度来看。特别是，他们研究了自动编码器的反向数据生成特性，其中输入样本是从隐藏表示的真实信号生成的。他们证明，对于稀疏的真实信号，例如，对于ReLU激活之外的那些，如果权重矩阵是高度不相干的，则可以实现强恢复。与文献[4]不同的是，我们主要关注的是网络参数的性质，这些参数可以通过前馈计算提供良好的图像分类性能。在[18]中，提出了一种软约束技术来处理训练递归神经网络（RNN）中的消失梯度软约束使权重矩阵的学习规则化，使得更好地实现跨层误差信号的范数p保留的权重矩阵受到青睐。相比之下，我们提出的SVB方法直接控制权矩阵的奇异值，误差信号的范数保持只是我们的好处的一部分。Wisdom和Powers等人最近的一项工作[26]表明，全容量酉递归矩阵可以用于RNN中，并且可以在酉矩阵的可微流形上进行优化，这比[2]有所改进。相反，我们在这项工作中专注于卷积网络，其中权重矩阵不是正方形。我们只强制ConvNets权重矩阵的列或行向量接近正交，同时赋予它们更大的灵活性，以便更好地学习训练任务。这种严格正交性的放松使我们能够使用非常简单的算法与标准的SGD训练兼容。实际上，我们观察到我们的SVB算法与基于SGD的训练一样有效，同时实现了近正交性3. 提出的奇异值定界算法假设我们有成对的训练样本{，}，其中e∈ i是测试输入，d是其对应的输出。对于回归问题，∈ R可以是具有连续项的向量，或者二进制独热向量分类问题。多层深度神经网络执行f=（）=（-1+）∈N的级联计算为=1， … 其中e-1∈n-1是分层r的输入特征，（·）是一个元素式作用函数，且d∈n×-1且d∈n 分别是逐层权重矩阵和偏置向量。我们有0=。在适当的训练准则下，网络优化的目的是找到网络参数-sΘ ={，}的解，因此训练的网络w或k能够对任何测试样本产生良好的估计。训练通常基于SGD或其变体[24]。给定训练损失函数ε{，};Θ，SG_D基于Θ+1←Θ-ε的简单实现来更新sΘ，其中Arpit等人。 [4]还研究了网络PA的特性，是学习率。梯度梯度通常是计算机-参数，可以有良好的性能，但从一个小批量的训练样本签名网络训练4346=1=1=1=1=1⊤⊤=1通过对每次迭代进行小批量采样，0.7{，}，直到指定的迭代次数或0.6训练损失平台。现有的深度学习研究表明，为了获得良好的性能，θ的初始化很重要。特别地，提出了缩放随机高斯矩阵，0.50.40.3[6]一个初始化s的加权矩阵s{}得双曲正弦值.0.2随机正交的主张[21，17]。给定不同的初始化，这些方法使用SGD或其变体训练深度网络。 [21]中的理论分析和0.100 0.5 11.5 2[17]中的经验结果表明正交初始化优于高斯初始化。在这项工作中，我们有兴趣进一步了解当网络训练收敛时，而不仅仅是在初始化时，Θ的解决方案是什么对于正交情况，我们的经验结果（cf.图1）显示，随着训练的进行，权重矩阵的奇异值谱偏离其初始条件。因此，根据图1的经验观察和[21]中的理论分析，我们有动力沿着这条路线进行更具体地说，我们提出了一个简单而有效的-网络权值矩阵的奇异值图1. 针对CIFAR10图像分类训练的38层ConvNet的权重矩阵的归一化奇异值直方图（参见有关网络架构的详细信息，请参见第6.1红色的楼梯来自基于SGD的训练，蓝色的楼梯来自我们提出的SVB方法。对于这两种方法，当网络训练从正交初始化收敛时，分别对较低、中间和较高网络层的三个直方图进行计数。考虑到两种方法之间奇异值谱的巨大差异，有趣的是观察到两种方法都给出了相当好的性能，我们的方法甚至优于基于SGD的训练。的网络训练方法，它保持了正交，网络训练过程中权矩阵的性质。这相当于解决以下约束优化问题算法1：奇异值定界输入：具有可训练参数Θ ={，}，t训练损耗，学习率，tminΘ={，}。{，};θ最大训练迭代次数，指定的次数迭代步骤，一个小常数1初始化Θ，使得=或=为=1，…，S. t. {1，...，}，（1）2 对于= 0，...，- 1个∂ℒ3使用基于SGD的方法更新Θ+1<$Θ-<$Θ其中，表示矩阵的行或列的集合。UMN向量是标准正交的。与标准S-4.当每次迭代都进行训练时，5for= 1，.，做GD，问题m（1）的可行性设置为{}是6Perform[，，]= svd（）=1降低为对于一个新的分层结构，问题m（1）在公式7中8设{}=1为对于= 1，...，做t将其解集约束为称为9的黎曼流形=1 +如果>1+Stiefel流形[1].在这项工作中，我们考虑近或-10thonormalityoff{}，anddproposetoapproximate11= 1/（1+）如果1/（1+）<端基于预计SGD（或其变体）解决此问题在SGD训练的每次迭代之后，我们简单地绑定每个的奇异值，对于=1，.，，在一个narrowband[1/（1+），（1+）]中围绕值f1，其中是一个指定的小常数。算法1提供了详细信息121314151617端部端端如果网络包含BN层，则使用算法2的BBN更新BN参数端我们提出的奇异值定界（SVB）方法。在第4节中，我们对深度线性网络进行了理论分析，以证明我们提出的SVB在实现训练目标的前向传播和训练误差的方面的优势。经验计算成本将SVB应用于网络训练相当于求解所有网络层的权重矩阵的奇异值分解（SVD）。我们注意到，这一成本可以通过每隔一段时间进行SVB来摊销。迭代次数我们通常在SGD训练的每一个时期应用一次SVB 当一组训练山姆-PLES是巨大的（例如，ImageNet数据集），挂钟归一化直方图。4347输出：具有用于推理的由SVB计算引起的时间实际上可以忽略;事实上，当使用SVB时，我们经常观察到甚至更快的训练，这可能是由于SVB产生的重量矩阵的更好的调节。4. 用奇异值有界表示变在本节中，我们将介绍对深度线性网络的理论分析，以讨论前向网络的重要性。4348.Σ2⊤21.Σ211⊤=1）.Σ211⊤⊤=12=12和=1。∂ℒ哪里=′为-1···与特别=在（7）中，=。类似于（3），当我们初始化）（）（∏∏传播训练目标的所有方向和反向传播训练误差的方向，以便更好地训练深度神经网络。我们的分析与[ 21 ]中的分析相似，但又不同（参见[22]）。第2节详细说明差异）。这些分析证明了我们提出的SVB算法，并得到了第6节中报告的实验结果的支持。由于是固定的，上述条件确保1和2沿着它们各自独立的变化方向被优化。表示e和d，=1，...，min（，1，）是1和2所示。通过优化变量的变化，表（2）可以进一步简化为每个可变4.1. 前向传播我们开始分析最佳网络解决方案，∂ℒ∂=（- -一种）的方式∂ℒ、∂=（- -一种）的方式. （五）一个简单的两层线性网络，其计算21，其中我们已经使用了dalinearactivation（） =1，并且为了简单起见忽略了偏差使用平方欧几里德分布-实际上，梯度s（5）w。r. t. 并由以下能量函数产生作为训练标准的tance给出了以下损失函数：1998年，1，）=（- -一种）2、（6）方程1=1∑1 -21∑2。为了最大限度地减少2关于（w.r.t.）1和2，我们注意到，opti-mal解决方案的特点是梯度显示出最佳配对的产品接近和ap-∂ℒ--∂1∂ℒ=- ，（2）∂2随后，我们将分析从（2）扩展到（6），用于层的深层线性网络在平方欧几里德距离的损失函数相同的情况下，由梯度表征的分层∑ ∑（=1）（）（-、（7）当训练深度网络工作时，输入样本{}通常通过白化进行预处理，即，各有零均值和=。通过输入数据白化，∂∏′=+1′ ′=1=1实际上是输入之间的互协方差矩阵和输出训练样本，它模拟了输入如何当我们假设，差异与产出的差异有关因此，获取所有决定学习结果的信息结果（2）w.r.t. 1和2. 将SVD应用于深p网w或kas=+1的权t矩阵s对于n y ∈{1， . ，}，其中每一个都是n正交的，给为其中，正交矩阵在1=和+1=的特殊情况下，并且每一个都是具有非负项的对角矩阵其中，正交矩阵∈ N×包含输出空间中的奇异向量列，这些奇异向量表示输出变化的独立方向，正交矩阵∈ N×con-保留输入空间中的奇异向量列，并且在优化过程中保持p{}+1不变，（7）最优解可以推导为：表示输入变化的独立方向，以及是一个具有有序奇异性的对角矩阵∂ℒ∂=+1（⊤--）（-1。（八）lar值s1≥2≥···≥min（，）。=+1=1=1正如[21]中所建议的，当我们将1和2初始化为1=1<$，2=2<$，（3）其中∈ <$1×1是任意正交矩阵，通过改变优化变量，（8）可以进一步简化为以下独立梯度：具有≤=min（， . . . . 、）的内容1和2是具有非负元素的对角矩阵并且在优化期间保持固定，则最优解处的梯度（2）可以导出为：∂ℒ∂==+1--一种=1-一个=1、（9）∂ℒ1=2英里。-21小时1或者，可以放松此约束并更新{}使用标准方法（如SGD），并更改每个更新的左和右奇异向量，以满足y=+1（其中+1个∂ℒ=- 。（四）其中=1=1=1为4349∂2{}=1的值）。然而，这将导致不同的混合物跨层连接输出/输入空间中的方向。4350∂=+1=+1∂ℒ+1+1∂在g方法中，没有任何约束，=+1∂∏）在所有人中-它就是能量函数的梯度跨层传播的混合强度。如果没有这样的约束，一些变化方向可能是（1， . ，）=1- -一种2.（十）过度放大，而其他人强烈衰减，当2=1信号从较低层传播到较高层。4.2. 反向传播（10）中的正标量表示输入-输出相关性的正向强度。它通常是固定的给定的训练数据。表征（10）的最小能量的条件cannbeachieved，denotemax =max（1， . ，）和对于执行级联计算的深度线性网络， f=-1for=1， . . . ，损失函数的梯度为0.层输出激活被写为min=min（1， . ，）。2016年01月05日@上午10时30分（→ ∞，必须使最大>1和min<1.一、∂=）（）相反，不实现的充分条件（10）的最小项Rgy是Rmax>1或Rmin>1，=+1当→ ∞。其中，包含反向传播的误差向量。对于任何固定的和有限的，我们提出的SVB算法- m潜在地能够实现（10）的最小能量（尽管它不满足用于导出（10）的假设），通过选择适当的值，使得val-对于一个y∈{+1， . . . ，}，满足条件=+1的情况下，我们使用从（7）到（10）的顺序，分析类似于前向传播案件，我们有我们的服务=1 都学会了在狭窄的（∑∂=（）=+1）∂ℒ、（十三）可以自由地放大或缩小方向，其中e+1（or+1）表示f+1的第s个列inveryyy evenmagnitud edistribution of {{}}.=1 =1（或+1），并且d=min（， . ，）。一个网络工作因此，训练很容易落入局部最小值，（10）对某些方向，但不是对所有的方向，深入（即，变大），会-如果不满足必要条件，一个。只有部分输入输出相关性在学习过程中加以考虑我们从（7）到（8）的推导要求输出sin-=+1类似于一个实现小的必要条件，（10）.因此，可计算的分量误差vec-层的权重矩阵的角向量是输入的奇异值。tor（英语：tor）+1+1中国（13）如果是，层r+1的网格向量。但是，这并不成立在基于SGD的算法1中，在没有这种限制的情况下进行更新考虑（7）中的两层基本分量t+1，其传播S信号。最终激活（以及输入变化的信息）爆炸或消失当算法1中的→0时，我们提出的该方法保证误差向量的所有分量将传播到较低层而没有衰减或爆炸。在这种情况下，我们方法还保证了，至P-∂ ∂从层到层+1。SGD更新后，算法1计算更新d+1和d的SVDs，结果gin+1=+1 + 1 + 1+1π。虽然可以初始化e+1并且假设t+1=，但是在SGD更新之后，它们一般不相等。表示=+1+1，wehav e，′=+1′+1′，（11）其中e，′是f的（，′）entry，+1是columumno f+1，“是”no f，andd+1“的列保留误差向量的范数。如果没有这样的约束，则f{}的奇异值但仍有可能通过放大某些奇异值而缩小另一些奇异值来保持误差向量的范数，如[6]的文件。然而，它的范数保持是以相当各向异性的方式实现的。5. 与批量标准化的兼容性在本节中，我们将研究我们提出的网络训练算法如何与Batch Normal兼容和′分别是奇异值of+1和d. 通过投影到o+1，+1′上化[11]。 BN解决了网络培训问题，内部协变量偏移，这会减慢训练速度-表示层的输出空间中的变化的"“方向与输入中的”“方向的混合层R+1的空间。通过结合+1和d′，因为每层输入的分布 BN通过插入-进入网络可训练的规范化层，这也不是-提出的SVB算法控制独立的（当=′，并且从（7）到（8）的假设成立），并且将每一层以小批量和神经元方式进行方差}∂∂ℒ∂ℒ∂∂=∂、（十二）band[1/（1+），1 +].这适用于任何一个方向-∂ℒ投入产出相关性的概念。现有网络列车-=1（4351关于我们=1联系我们，{}--=1=1=1=1=1=1=1=1=1=1=1非零项s{}= 1，l e tmax=max（n =1，. ，张伟）=1牺牲某些输入输出方向的传播.形式上，对于网络层计算（）=（）∈N，BN在前一个正规化算法2：有界批量归一化输入：具有BN层的网络，可训练参数激活函数，给出新层（BN（））==1=1统计数据{}=1个（BN（）），其中我们已经忽略了比较，因为-BN层t迭代，小常数t迭代，复杂性实际上，BN应用以下线性变换：1 从{0} =1更新{0 + 1 } = 1（从{0}=1和{+1}=1{}），使用基于SGD的方法倾向于=12 从{0} =1更新{0 + 1 } = 1（从{0} =1和{+1}=1BN（）= F（-）+，（14）=1样品），使用运行平均值对小批量的统计数据进行处理其中，每个元素是3对于= 1，...，做层的神经元，对角矩阵<$∈<$×4设{}=1登录注册且{1/}=1和Σ分别为对角线包含s{1/}=1的条目，该条目是神经元的输入。+1个1∑+1个明智的输出标准偏差（通过添加s-5Let==1/小常数的方差数值稳定性），F∈×是一个包含可训练标量pa的对角矩阵6for= 1，.，做7=（1+1）if1/>1 +18=/（1+1）如果1/1/（1+1）rameters{}= 1，且d∈It'sat rainable.It'satrainable.请注意，在训练期间，每个神经元的和都是使用小批量样本计算的，而在推理期间，是固定的，表示所有训练群体的统计数据，这些统计数据通常通过移动平均获得因此，在网络训练之后，针对每个样本的计算（14插入=到（14）中，我们得到BN（）=+s.t. =F9端部10端部输出：迭代+1时更新的BN参数和统计数据输出s由y{}补偿，因此BNtransform-m总体上是恒等变换[11]。人们可能会认为，每个在F中的值与相应的在F中的值相似。然而，实际上并非如此事实上，{}大量的额外和重要的好处是，=1它只是一个标准的网络层，变量下面的引理表明，我们可以定义了对角矩阵F和BN的乘积的熵{ / }，使我们提出的SVB算法与BN兼容.深度神经网络的训练：使规模的大小功能在不同的净-工作层变得可自由调节，以实现更好的训练目标。受此BN方案的启发，我们引入了一个解耦标量，并提出了控制×重新缩放版本{1/}，instea dof{/}，到引理1对于矩阵∈单值-=1=1所有1的ues，和一个对角矩阵∈<$×，使我们建议的SVB与BN兼容我们设定=1∑并且dmin=min（m， . ，则/在网络训练期间。请注意，重新-n=isboundedin[，ma x]. 当他胖的时候这意味着可以不合理地缩放。=1所有也就是说， ≤，且rank（）=，奇异值（10）对于某些层的方向，同时，其他层的比例缩小，这不会导致引理的证明是在补充马-材料。引理1表明，对于具有B的深度网络，N层中，可调参数s{}与样本统计量{}相结合，可以改变相关性算法2提出了我们的改进BN trans-Bounded Batch Normalization（BBN）我们注意到在算法2中，我们不取绝对值。这是因为{}的值通常初始化数据1，层变换，因此信号跨网络层传播。特别是当AB-根据经验观察，网络培训的过程。第6节实验解决方案价值{/}F的对角项，表明当所有网络层同时向上或向下漂移从值1开始，当网络深入时，信号传播将易于爆炸或衰减消除这种风险的一个直接方法是控制价值-使用BBN而不是BN，证明了一致性-我们的理论分析和实际结果之间6. 实验{/}例如，让他们在1左右。然而，在这方面，我们目前的图像分类结果显示的EF-这也将消除国阵的一个重要好处更具体来说，引入可训练的缩放参数我们建议的SVB和BBN的虚构性。我们使用基准CIFAR10，CIFAR100 [13]和ImageNet [20]的数据集。{}在BN中，确保在神经元智能或-CIFAR10广泛用于我们的对照研究。我们malizationby{}（和d{}），更改为图层研究SVB和BBN在标准Con上的表现，}=1缩放不同图层areexactly{编辑}4352vNets，以及ResNets [8]和Wide ResNets [27]的现代架构（预激活版本）。我们在所有网络中使用BN层或我们提出的BBN层训练基于SGD，使用softmax损失函数进行动量。我们使用正交权重矩阵（cf.算法1）。除了表3中报道的实验之外，所有其他实验都基于小批量大小为128，动量为0。9，并且权重decay为0。0001;学习率从0开始。5，结束于0。001，并且每两个时期衰减一次，直到训练的160个时期结束。当SVB打开时，我们将其应用于在每个训练时期之后所有层2的权重矩阵6.1. 使用ConvNets的在本节中，我们使用ConvNets来研究我们提出的SVB算法在深度网络训练中的行为。我们从[22，7]中选择现代卷积架构该网络从16个3×3过滤器的conv层开始，然后依次堆叠三种类型的3×3过滤器的2个conv层，每种过滤器的特征图大小分别为32，16和8，过滤器编号分别为16，32和64特征图的空间子采样通过步幅2的卷积层来实现。网络以全局平均池化和全连接层结束因此，对于每个网络，我们总共有6+ 2个权重层。我们认为=3和=6在我们的研究。使用的CIFAR10数据集由10个目标类别组成，包含60，000幅32×32的彩色图像（50，000幅训练图像和10，000幅测试图像）。我们使用未经预处理的原始图像数据增强遵循[14]中的标准方式：在训练过程中，我们沿每个图像侧零填充4个像素，并从填充图像或其水平翻转中采样32×32区域裁剪;在测试过程中，我们使用原始的非填充图像。图2显示，对于每个深度情况，我们使用SVB的结果始终优于使用动量的标准SGD的结果，验证了对权重矩阵奇异值的限制确实改善了层变换的条件。用BBN 代替 BN 得到类似的性能。这表明，在普通ConvNet-s的情况在更复杂的ResNet类型架构中，BBN有效地改进了BN，如不久所述图2中的比较结果还表明，随着网络层，训练变得更加困难：较深网络（=6）的结果比较浅网络（= 3）的结果差。这与[7]中的观察一致。6.2. 使用ResNet的我们进行实验，以调查是否我们提出的SVB和BBN方法是有效的2当将SVB应用于卷积层时，我们将其大小为×× ××的核张量转换为大小为××的矩阵，其中和表示输出和输入特征通道的数量，并且和分别表示核的高度和表1. CIFAR10上的消融研究，使用预激活ResNet，具有68个3×3卷积滤波器的权重层我们使用标准数据增强[14]运行每个设置5结果采用最佳（平均值+标准值）格式。错误率（%）新加坡元与动量+BN6。10（6. 22 ±0。14）SVB+ BN5. 65（5. 79 ±0。10）、SVB+ BBN5. 37（5. 49 ±0。第十一章学习我们使用类似于[7]中第4.2节中提出的架构，但将其更改为预激活版本[8]。网络构建基于6.1节中介绍的ConvNets，我们使用“identify shortcut在本节中，我们使用=11的网络进行实验，它提供了68个权重层。我们通过打开或关闭SVB，以及关闭或关闭BBN来进行消融研究。参数s和d固定为0。分别为5和1。所有实验进行5次，我们在表1中报告了最佳、平均和标准的去离子结果。这些结果表明，使用SVB改进了深度残差学习，BBN进一步改进了标准BN，证明了我们提出的方法对现代深度架构的有效性6.3. 与最新技术水平的比较我们使用Wide ResNet [27]与CIFAR10和CIFAR100的最新结果CIFAR100数据集与CIFAR10具有相同数量的32×32彩色图像，但它有100个对象类别，每个类别包含CIFAR10的十分之一图像我们使用未经预处理的原始数据，并以与CIFAR10相同的方式进行数据增强。我们的Wide ResNet架构与[ 27 ]中的“WRN-28-10”相同第6节的开头）与[27]中的不同当BBN被打开时，我们将所有BN层替换为BBN个。参数s和d是固定的。5和d1恢复。在不使用SVB和BBN的情况下，我们的Wide ResNet给出的错误率为4。CIFAR10和20各50美元CI-FAR 100上有78个。使用SVB和BBN，结果显著提高到3。CIFAR 10和18的58。CIFAR100上的32个与最先进的DenseNet[9]，我们使用受[9]启发的改进的训练超参数：我们对CIFAR 10使用64的batchsize，对CIFAR 100使用128的batchsize，并训练300个 e-pochs的延长持续时间;所有其他训练参数与那些在第6节中描述。我们将我们的方法的有效性设为0。5和0。2分别。表3报告了比较结果。表3中的WideResNet使用与[ 27 ]中的“WRN-28-10”相同的架构435320层ConvNet的错误率（%）38层ConvNet的错误率（%）38层ConvNet的错误率（%）35 35 35 3530 30 30 3025 25 25 2520 20 20 2015 15 15 1510 10 10 10560 80 100120140160时代560 80 100120140160时代560 80 100120140160时代560 80 100120140160时代图2. CIFAR10上的验证曲线分别使用20和38个权重层的两个ConvNet。蓝线是SGD有动量的结果。红线是SVB在不同值（0.010 05，0。2，0。5，1）中的算法1。黑线是使用bothS V B的结果（固定=0）。05）和BBN在不同的f（0. 010 05，0。2，0。5，1））。这些参数设置只是随意的选择。左边两个图来自20层ConvNet，右边两个图来自38层ConvNet。表2. CIFAR10和CIFAR100上不同方法的错误率（%）[13]。所有方法都使用标准数据扩充，如[14]。“方法CIFAR10CIFAR100 #layers#params表3. 在CIFAR10和CIFAR100 [13]上与最先进方法DenseNet[9]的错误率（%）比较。我们的结果是通过使用受[9]启发的改进的训练超参数获得的。所有方法都使用标准数据扩充，如[14]。我们注意到DenseNet实际上比Wider ResNet消耗更多的GPU内存。[15]第十五话八十一- -响应[ 27 ]中的我们提出的SVB和BBN改进了这两种架构，并实现了新的国家的最先进的结果3。CIFAR10和16的06。CIFAR100上的903.这些结果证明了SVB和BBN在训练现代深度架构方面的巨大潜力。6.4. ImageNet上的初步结果我们在ImageNet上给出了初步结果[20]，其中有1。1000个类别的2800万张图像用于训练，5万张图像用于验证。数据扩充方案如下[25]。我们调查SVB和BBN如何可能有助于大规模学习，为此我们使用 Inception-ResNet的预激活版本[25]。公司现采用国际3在表3中，Wider ResNet的模型参数比DenseNet多得多。然而，我们注意到DenseNet在训练和推理中实际上消耗了更多的GPU内存。这是由于DenseNet的架构设计：在DenseNet（的每个阶段/块）中，上层的输入通过连接其所有下层的输出特征图来形成;因此当每层的输出特征图的数量（即，[9]中的增长率很大。这确实是[9]实现的最佳结果的模型设置的情况表4.ImageNet验证集上单模型和单作物测试的错误率训练方法Top-1 error（%） Top-5 error（%）Our Inception-ResNet21.61591Our Inception-ResNetWITH SVB+BN21.205. 57与第6.3节中的CIFAR10实验相同的参数设置，除了从0开始的学习率。045表4显示SVB和BBN确实改善了大规模学习，对于前1和前5个错误具有类似的性能增益。改进是如何-比我们预期的要低我们有兴趣在未来的研究中进一步研究我们注意到，我们的架构几乎与[25]相同，但我们没有设法在[25]中得到结果，可能是由于梯度下降方法的不同选择（[25]使用RMSProp，而我们的基于动量SGD）。确认这项工作得到了中国千人计划（面向年轻专业人员）和澳大利亚研究委员会项目FT-130101457、DP-140102164、LP-150100671的部分支持。20层ConvNet的错误率（%）[19]第十九话8. 39-19二、5M方法CIFAR10CIFAR100层数#参数[第14话]7 .第一次会议。97---DenseNet [9]3 .第三章。46十七岁18190二十五6M机场班车[23]7 .第一次会议。54三十二2419二、3米我们的宽ResNetResNet [7]六、43二十五161101 .一、7MW/O SVB+BBN3 .第三章。7819号。9228三十六5M斯托克深度[10]4.第一章91-120210个。2M我们的宽ResNet4354引用[1] P. A.阿布西尔河Mahony和R.坟墓矩阵流形上的优化算法.普林斯顿大学出版社Princeton，NJ，USA，2007. 3[2] M. Arjovsky，A. Shah和Y.本吉奥。酉进化递归神经网络。CoRR，arXiv：1511.06464，2016。2[3] S.阿罗拉A.巴斯卡拉河Ge和T. MA.学习一些深度表示的可证明边界在 Proceedings of the 31 th InternationalConference on Machine Learning ， ICM-L 2014 ，Beijing，China，2014年6月21-26日，第584-592页1[4] D. Arpit，H. Q.恩戈岛Zhou，N. Napp和V.戈文达拉。非线性网络的最优性条件。CoRR，abs/1605.07145，2016。一、二[5] Y. N. 多芬河我是斯卡努。 Gu？ lcehre，K. 周，S。ganguli和Y.本吉奥。高维非凸优化鞍点问题的识别与求解。在Advances in Neural Information Processing Systems27：Annual Conference on Neural Information ProcessingSystem-s 2014中，2014年12月8-13日，加拿大魁北克省蒙特利尔，第2933-2941页，2014年。1[6] X. Glorot和Y.本吉奥。了解训练深度前馈神经网络的困难。人工智能与统计国际会议（AISATS10）人工智能与统计学会，2010年。一、三、五[7] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在arXiv prepring arXiv：1506.01497，2015中。一、七、八[8] K.他，X。Zhang，S. Ren和J. Sun.深度剩余网络中的身份映射。欧洲计算机视觉会议（ECCV），2016年。一、二、七、八[9] G. Huang，Z.Liu和K.Q. 温伯格密集连接的卷积网络。CoRR，abs/1608.06993，2016。七、八[10] G. Huang，Y.黄氏Y.太阳，Z. Liu，L. Sedra和K.温伯格深度随机的深度网络。在 arXiv prepring arX-iv ：1603.09382，2016中。8[11] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。在 Proceedings of the 32ndInternational Conference on Machine Learning ， ICML2015，Lille，France，6-11 July 2015，pages 448一、二、五、六[12] K. 川口深度学习，没有糟糕的局部最小值。神经信息处理系统进展（NIPS），2016年。1[13] A.克里热夫斯基从微小的图像中学习多层特征。Tech.2009年报告。二、六、八[14] C. 李，S。Xie，山核桃P.W. Gallagher，Z.zhang和Z.涂。深层监控网。在第十八届人工智能和统计国际会议的会议记录中AISTATS，2015. 七、八[15] M.林角，澳-地Chen和S.燕.网络中的网络。载于ICLR会议记录，2013年。8[16] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra- manan ， P.Dollr ，和 C.L. 齐特尼克 Microsoftcoco：Common上下文中的对象欧洲计算机视觉会议，2014年。

下载后可阅读完整内容，剩余1页未读，立即下载