深度网络训练的初值方法

157 浏览量更新于2023-10-16 收藏 836KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1你所需要的只是一个好的初始化：探索更好的训练具有正交规范性和调制的极深卷积神经网络的解决方案狄谢xiedi@hikvision.com江雄xiongjiang@hikvision.com海康威视研究院中国杭州蒲世良pushiliang@hikvision.com摘要深度神经网络很难训练，随着深度的增加，这种这个问题的本质在于反向传播误差的大小，它将导致梯度消失或爆炸现象。我们表明，一个变种的正则化，利用不同的滤波器组之间的正交性可以allevate这个问题。此外，我们设计了一种基于两个连续参数层之间的准等距假设的后向误差调制机制有了这两种成分，我们提出了几种新的优化解决方案，可用于训练特定结构（Conv-BN- ReLU的重复三重模块）的极深卷积神经网络（CNN），而无需从头开始任何捷径/身份映射。实验表明，我们提出的解决方案可以在CIFAR-10和ImageNet数据集上实现44层和110层普通网络的明显改进。此外，我们可以成功地训练普通的CNN，以匹配剩余的性能。此外，我们还从正交性的启示中提出了网络结构设计的新原则.结合残差结构，我们在ImageNet数据集上实现了比较性能。1. 介绍深度卷积神经网络在更广泛的计算机视觉任务中提高了性能，特别是对于图像分类[17，34，39，31，45]，ob。对象检测[42，26，33]和分割[20，5，25]。这种改进的大部分归功于逐渐深入的网络架构。在短短的四年时间里，网络的层数从几层上升到几百层，它从大量的数据中学习更抽象和更有表现力的表示，例如。[27]第10段。只是-将更多的层附加到当前的体系结构上不是一个合理的解决方案，这会导致梯度消失/爆炸[4，9]。为了处理相对较浅的网络，提出了各种初始化和归一化方法[9，30，12，37，15，22，13，1]，而深度残差学习[11]用于处理极深的残差学习。虽然其他作品，例如。[36，35]，也宣布他们可以训练一个具有改进性能的极深网络，深度残差网络[11]仍然是处理随着深度增加训练精度下降的最佳和最实用的解决方案。然而，正如Veit等人的解释，剩余网络是相对较浅网络（通常只有10-34层深）的指数集合体是很重要的。[41]，它避免了消失/爆炸梯度问题，而不是直接解决它。本质上，网络的性能增益是由其多样性决定的，而不是深度。因此，如何训练一个超深度网络仍然是一个开放的研究问题，很少有人关注。大多数研究仍然集中在基于残差块及其变体设计更复杂的结构[18，43]。无论如何，是否存在一种适用的方法，可以用于训练真正的深度网络？在本文中，我们试图找到一个直接可行的解决方案来回答上述问题。我们认为批量归一化（BN）[13]对于确保超深度网络中前向传递的传播稳定性是必要的，而学习可用性的关键存在于以自上而下的方式传播错误的后向传递中。我们将网络的结构限制为由卷积，BN和ReLU [ 23 ]层组成的重复模块（图11）。1）并分析连续模块之间输出相对于输入的雅可比矩阵。我们发现BN不能保证误差的大小在反向传递中是稳定的，并且这种对信号的放大/衰减效应将逐层累积，导致梯度爆炸。61766177ConvBNReLU图1. 本文中的普通CNN网络架构（左）和重复三层模块（右）图。绿色框用于输入数据，红色表示参数层（卷积或全连接），黄色表示批量归一化层，蓝色表示激活层。实际上，这种结构与He等人设计的普通CNN类似。[11 ]第10段。消失/消失。从保范数的角度出发，我们发现在学习过程中保持滤波器组之间的正交性是保证后向误差稳定的充分必要条件。而这个条件在含有BN的非线性网络中是不能满足的，这个正交约束可以减轻后向信号的衰减，我们通过实验证明了这一点。引入一个正交正则化子，取代传统的权重衰减正则化[8]。实验表明，在CIFAR-10上，44层网络有3%~4%的然而，随着深度的增加，超过100层，BN、ReLU和梯度更新引起的非正交影响累积，这破坏了动态等距[30]并使学习不可用。为了中和这种影响，我们设计了一个调制机制的基础上两个连续的参数层之间的准等距假设我们用数学分析和实验证明了它的准等距性。通过调制，可以在以逐层方式的向后通过期间稍微肆无忌惮地将全局比例因子应用于误差的大小结合正交性，实验表明，图1所示的普通CNN。1可以被训练得相对较好，并且与其剩余对应物的性能相匹配。本文的主要贡献如下：1)我们证明了应用BN的必要性，并解释了在优化深度CNN时导致退化问题的潜在原因; 2）提出了一种简洁的方法学，该方法具有正交性和调制性，为理解CNN的学习动力学提供了更多的见解; 3）实验和分析显示了互异现象和有前途的研究方向。2. 相关工作神经网络中的神经网络随着深度的增加，高斯初始化不足以从头开始训练网络[34]。两个最流行的作品是由Glorot Bengio [9]和He等人提出的。[12]分别。他们工作的核心思想是保持每层输出的单位方差。Sussillo& Abbott [37]提出了一种新的随机游走初始化方法，主要关注于调整所谓的标量因子g，以使输入/输出误差之比恒定在1左右。Kr aühenb uühl等[15]引入数据相关的初始化，以确保所有层以相等的速率进行训练。此外，还考虑了可操作性。Saxe等人[29，30]分析线性深度神经网络中的学习动态。结果表明，权值随机正交初始化的收敛速度与无监督预训练的收敛速度相当，均优于随机高斯初始化。提出了LSUV初始化方法[22]，该方法不仅利用了正交性，而且还利用了每层输出的单位方差。在我们看来，一个行为良好的初始化是不足以抵抗随着学习的进展，这就是说，有一个良好的初始条件（例如。等距）不能确保优选条件始终保持不变这一论点形成了激励我们探索真正深度网络解决方案的基本思想。信号传播归一化。正常化是机器学习社区中常见且普遍存在的技术。输入数据的白化和去相关给深度学习和其他机器学习学习算法，这有助于加快训练过程[19]。批量归一化[13]推广了这一思想，以确保每一层的输出都是相同的分布，从而减少内部协变量的偏移。权重归一化[28]受到BN的启发，通过将权重向量的范数与其方向解耦，同时在minibatch中的示例之间引入独立性为了克服BN依赖于小批量的缺点，提出了层归一化[2]来解决递归神经网络的归一化问题但这种方法不能应用于CNN，因为该假设违反了隐藏层的统计数据。为了更适用于CN- N，Arpitet al.引入归一化传播[1]来减少卷积层甚至整流线性单元的内部协变量移位。规范化每一层的激活的想法是有前途的，但在实践中有点理想化。由于权值矩阵的非相干先验在初始化阶段实际上并不成立，甚至在迭代过程中恶化，因此在极深网络中无法保证每层活动的归一化幅度在我们的实施中，它甚至不能防止爆炸6178Bǁ ǁ ǁ ǁ∈ ℜ ∈ ℜ∈ ℜǁ ǁBxi∂ ℓ ∂ ℓIJmj=1xTx在初始化之后激活的BN。µ=1Σmδ是缩放输入误差的平均值δmi=1ix −µ信号调制在这方面的工作做得很少，虽然很夸张，但隐含了调制的概念。在其中m表示迷你批次相应的正常化激活。xi=IB 是σ2+σ从广义上讲，调制可以被看作是一种持续的亲，利用归一化和其他方法的组合有了这样的认识，我们就可以用一个统一的框架来概括上述所有方法，例如：用于激活调制的批量归一化[13]、用于参数调制的权重归一化[28]等。3. 方法3.1. 为什么BN是必需品？由于非线性神经网络学习的复杂性[30]，即使是一个成熟的数学理论也不能保证在实际应用中各种信号同时保持等距。深度本身导致了指数扩散的最近提出的方法[1，37，15]，利用异构体不能保持稳定的传播信号在超过100层的网络。这些方法试图稳定来自一个方向（前向/后向）的信号的幅度，作为控制两个方向上的信号的替代方式S.然而，由于信号的复杂性变化，仅用一种调制方法不可能在两种方式上都保持条件。另一种选择是简化这个问题，以约束任一方向的信号幅度，我们可以将全部注意力集中在另一个方向1。批量规格化是一种满足我们要求的现有解决方案。它在前向传递中进行归一化，以通过逐层方式2减少内部协变量偏移，在我们看来，这使我们将所有分析集中在相反的方向上。公式1表示误差信号δ i的一种如果输入误差δi的分布均值为零且对称，则可以推断，输出误差的乘积近似为零。它集中了误差和最后一项x∈iMδjxj将使dis偏置-但是这些偏差可以相互抵消，从而得到非正态分布的标准化系数x∈i此外，误差用不匹配方差归一化这种变换将以逐层的方式改变误差信号然而，当我们只考虑一对连续层时，这种现象可以忽略不计在某种意义上，我们可以认为反向传播的误差也被归一化，以及它的正向传递，这就是为什么我们应用随着深度的增加，有偏分布效应会逐渐积累，使输入信号的原始分布失真在下一节中，我们将尝试在一定程度上解决这个问题。3.2. 正交性范数保持是本节的核心思想。向量xdx 由线性变换映射mation Wdx× dy 另一个向量ydy，比如y=WTx。如果y=x，那么我们称这种变换为保范变换。显然，标准正交性，而不是[1]单独提出的标准化，对于保持这个方程是充分和必要的，因为根据[13]，在通过BN的损耗梯度的反向传播期间，我们可以将相邻层之间的误差公式化如下：ǁyǁ=√√yT y=xT WWTx ==xiff. WWT=I（二）∂ ℓ1 =√（δ−µ我x−（1）假设前向传递中的信号是绝对标准化，这里我们可以分析xiσ2+σδmj jj=1误差的变化仅在反向传递中。保持相对于前一层范数的输入的梯度其中xi是小批量中的第i个样本（我们省略激活index for simplicity），因此表示输出错误。δi=·γ其中是输入误差，γ是尺度参数保留，可以直接得出结论，我们在学习过程中更好地保持特定层中权重矩阵的列4之间的正交性，而不是塞济岛塞济岛根据Eq. 2，相当于1对于连接第l层中的第i个神经元的指定权重，第（l+1）层中的第k个神经元，w（l），其梯度可以计算为使雅可比矩阵成为理想的动力等距矩阵[30]。显然，在CNN中，这种属性无法确保，因为δw（l）= a（l）× δ（l+1）。如果两个变量相互独立，i j i j否则，梯度的大小可以直接与一个因素（激活/错误）相关。2方法调制信号没有一个分层的方式，例如，[1]的方法，将不确定性以超线性方式累积，最终导致传播信号失控。3另一个原因是将ReLU放在BN之后可以保证大约50%的激活是非零的，而如果将其放在卷积运算之后，则该比率可能不稳定。[4]注意方向，这会导致等式2中符号的交换。所以矩阵的行和列也是交换的。√M6179∈ℜ11M伊112M伊21MM伊MT2× ×ǁ·ǁ−B√·M≈······....Mf输入 ×f输出1）梯度更新，使权值的相关性随着学习过程的进行而增强; 2）非线性运算，如BN和ReLU，雅可比矩阵是J110···0破坏了正交性然而，我们认为，J=0J22···0分钟（四）合理的强制学习参数符合。. . .与正交群，这可以减轻消失/爆炸现象的大小er-0 0··· JddMD×MD积累非线性后的误差和信号失真其中每个Jkk是m×m方阵，即转型这些陈述和假设的合理性已被实验所证实.为了适应卷积运算的正交性，我们推广了正交表达式与直接修改。设W ×H×C×M 表示第l层卷积核的集合，其中W、H、C、M分别为宽度、高度、输入通道数和输出通道数我们替换了原来的重量衰减northonormal regularizer正则化：JKKy（k）∂y(k)∂x(k)（k）2∂x(k)∂y(k)x（k）y（k）x（k）（k）2x（k）.y（k）x（k）······. ..···∂y(k)x（k）（k）2x（k）∂y(k)x（k）（五）λD W Wl− I（三）这里i表示第i个样本的输出的偏导数x（k）关于第k个分量中的第j个样本。BN的雅可比矩阵有其特殊性，即它的偏导数不2l Fi=1其中λ是作为权重衰减的正则化系数，D是卷积层和/或全连接层的总数，I是单位矩阵，Wl∈ N其中f in=WHC和f out=M。F表示Frobenius范数换句话说，等式3约束不仅与活化组分有关，而且与一个小批次中由于激活的每个分量k被BN独立地变换，所以J可以用分块对角矩阵表示为等式4.第一章同样，由于激活之间的独立性，我们可以分析d个子雅可比行列式中的一个，例如。Jkk.从等式1中，我们可以得到Jkk的条目，即一层中滤波器之间的正交性，这使得学习的特征与其他特征具有最小的相关性，从而隐式地减少冗余并增强yj=ρxiΣΣ（i=j）1+xM（六）过滤器之间的多样性，特别是来自下层的过滤器[32]。此外，正交约束为学习过程中权空间的探索提供了L2它通过将参数集限制在正交空间而不是超球面内来提供更多的概率。3.3. 调制其中，ρ =γ，并且（）是指示符运算符。这里σ2+σ我们仍然省略索引k，因为丢弃它不会带来歧义。当量6显然得出结论，JJTI。因此，BN运算后的正态性不成立现在，W的列之间的相关性直接受到归一化激活的影响，而相应的权重反过来决定这些激活，这导致了复杂的情况。幸运的是，我们可以推导出根据矩阵秩的次可加性，神经网络中信号传播的动力学等距性已经被提及并强调了几个方面。1−λ100···0λ时间[1，30，13]，它相当于保持单数0 1−20···0雅可比矩阵的值，例如J=在这里，大约1。在这xJ=PTρ0 0 1···0P（7）第一节，我们将分析奇异值的变化，。. . .雅可比矩阵通过不同类型的层详细。为了简单和清楚，我们0 0 0···1m×m对于线性情形，我们有y=WTx，这表明由于J=WT和JJT=WTW，所以具有动力学等距等价于保持正交性。接下来，让我们考虑归一化变换后的激活，y=BNγ，β（WTx），我们从[13]中借用符号。假设输入维等于输出维，并且都是d维向量，其中P是由J的特征向量组成的矩阵。λ1和λ2是U的两个非零特征值，设Uij= 1 +x<$ix<$j，i=1m，j=1M.当量7表明JJTρ2I5。近似值来自等式中的前两个对角项7可能5ReLU之后的雅可比矩阵相当于将标量乘以J[1]，我们可以将其合并为ρ。=12MJ...6180≥≥f在×××××××接近于零。我们认为这是违背理想动态等距性而导致这种非满秩退化问题的原因之一。由于ρ的值由γ和σB决定，只要这两个变量在学习过程中保持稳定，它就是有界的，这就实现了所谓的拟等距性[6]。请注意，ρ随γ和σB而变化，而γ和σB将在每次迭代中变化基于观察，我们建议比例因子ρ应该动态调整，而不是像[1，37，30]那样固定它根据[30]，当非线性为奇数时，使得每一层中的平均活性近似为0，神经群体方差或输出误差的二阶矩可以定量地捕获这些动力学性质。ReLU的非线性是不满足的，但由于伪归一化，我们可以认为通过BN反向传播的误差具有零均值，这使得二阶矩统计是合理的。4. 实现细节我们坚持在整个训练过程中保持正交性，因此我们在初始化和正则化中都实现了这个约束。对于第l层的卷积参数Wl∈n×fut，我们初始化子集在第一个输出变量上，内尔然后应用Gram-Schmidt过程依次逐通道产生下一正交向量在数学上，在满足n > d的d维空间中生成n个正交向量是不适定的，因此是不可能的。因此，在设计网络结构时，一种解决方案是避免核的扇入和扇出违反fin f out原则;另一个候选是我们提出的分组正交化。如果f in来华传教士。McClelland和S.甘古利。深度线性神经网络中学习的非线性动力学的精确解。第1312.6120页，2013年。一、二、三、四、五[31] P.Sermanet ， D. Eigen ， X. Zhang ， M. 马蒂厄河Fergus和Y.勒昆Overf

下载后可阅读完整内容，剩余1页未读，立即下载