DNN训练中的正交化与性能优化

120 浏览量更新于2023-10-25 收藏 792KB PDF 举报

正交化方法

权重初始化

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6429ǁ − ǁDNN训练中的可控训练黄磊1刘莉1朱凡1万棣文1袁泽寰2李波4邵凌11阿联酋阿布扎比人工智能研究所2电子科技大学，中国成都3字节跳动人工智能实验室，北京，中国4伊利诺伊大学香槟分校美国伊利诺伊州摘要权矩阵1 11神经网络被广泛用于训练深度神经DNN网络（DNN），由于其能够保持所有奇异雅可比矩阵的值接近1，并减少表示中的冗余。本文提出了一种计算高效数值稳定的正交化方法使用牛顿迭代（ONI）来学习DNN中的逐层或正交权重矩阵。ONI通过迭代地将权重矩阵的奇异值拉伸到1.这个属性使它能够通过迭代次数来控制权矩阵的正交性。我们表明，我们的方法提高了图像分类网络的性能，通过有效地控制正交性，以提供优化效益和表示能力降低之间的最佳权衡。我们还表明，ONI通过保持网络的Lipschitz连续性来稳定生成对抗网络（GAN）的训练，类似于频谱归一化（SN），并通过提供可控的正交性进一步优于SN。1. 介绍Training deep neural networks (DNNs) is often difficultdue to the occurrence of vanishing/exploding gradients [7,14, 47].初步研究[36，14]表明，权重初始化技术对于避免这些问题至关重要。因此，各种工作都试图通过设计权重矩阵来解决这个问题，这些权重矩阵可以为来自不同层的激活提供几乎相等的方差[14，18]。这样的属性可以通过正交权重初始化进一步放大[54，42，58]，由于其能够获得DNN输入输出雅可比矩阵的所有奇异值都集中在1. 在[54，42，49，65]中根据经验观察到正交初始化的改进性能，并且它甚至可以训练10，000层DNN [65]。然而，初始正交性可以被打破，并且不一定在整个训练过程中保持[66]。图1. ONI通过迭代地将其奇异值向1拉伸来控制权重矩阵的正交性的幅度（测量为δ=WWTIF）。以前的工作试图通过对目标函数施加额外的正交性惩罚来保持正交权重矩阵，可以看到作为这些方法在图像分类[66，71，37，5]，抵抗来自对抗性示例的攻击[12]，神经照片编辑[11]和训练生成对抗性网络（GAN）[10，43]方面表现出改进的性能然而，引入的惩罚就像一个纯粹的正则化，是否真正保持正交性或训练ben-e-fitted是不清楚的。已经开发了其他方法来直接求解然而，黎曼优化经常遭受训练不稳定性[17，24]，而正交权重归一化[24]需要计算上昂贵的特征分解，并且通过该特征分解的必要反向传播可能遭受数值不稳定性，如[30，40]所示。我们建议通过牛顿迭代法（ONI）[41，8，26]执行正交化，以学习精确的正交权重矩阵，这在计算上是有效的，并且在数值上是稳定的为了进一步加快牛顿迭代的收敛速度，我们提出了两种技术：1）通过中心化改进代理矩阵的条件; 2）探索一种更紧凑的谱定界方法，使代理矩阵的初始奇异值更接近于1。正交性T=0T=1…T=N6430∈√∈∈∈我们提供了一个有见地的分析，并表明ONI通过迭代地将权重矩阵的奇异值拉伸到1来工作（图1）。即使权重矩阵是奇异的（具有多个零奇异值），该属性也使ONI工作良好，在该奇异矩阵下，基于特征分解的方法[24]经常遭受数值不稳定性[30，40]。此外，我们表明，控制正交性是必要的，以平衡优化的增加和代表能力的减少，ONI可以通过其迭代次数优雅地实现这一点（图1）。此外，ONI提供了行/列正交性的统一解决方案，而不管权矩阵的输出维度是我们还提出了有效学习DNN中正交加权矩阵的实用策略我们引入常数2用于初始缩放正交权重矩阵，以便可以很好地保持深度 ReLU 网络的动态等距[54][45]。我们对多层感知器（MLP）和卷积神经网络（CNN）进行了我们提出的方法有利于训练，并提高了多个数据集的测试性能，包括ImageNet [51]。我们还表明，与广泛使用的光谱归一化相比，我们的方法稳定了GAN的训练，并在无监督图像生成方面实现了性能的提高[43]。2. 相关工作正交滤波器在信号处理中得到了广泛的研究，因为它们能够保留活化能并减少表示中的冗余[72]。Saxe等人[54]介绍了DNN的正交权重矩阵，并表明它实现了近似的动态等距[54]对于深度线性神经网络，因此显著提高了优化效率[42，58]。Pennington等人[49]进一步发现，当与正交权重初始化结合时，非线性S形网络也可以获得动态等距[49，65，67]。研究也已经进行到使用正交矩阵来避免递归神经网络（RNN）中的梯度消失/爆炸这些方法主要集中在构造正交矩阵/酉矩阵周期预测[31]。我们的方法的目标是解决“硬约束”，并提供可控的获得精确正交性的一种方法是通过黎曼优化方法[46，17]。这些方法通常需要收缩操作[2]将更新的权重投影回Stiefel流形[46，17]，这可能导致DNN的训练不稳定[17，24]。我们的方法通过采用重新参数化来构造正交矩阵来避免这种情况[24]。我们的工作与正交权重归一化[24]，它也使用重新参数化来设计正交变换。然而，[24]通过计算昂贵的本征分解解决了这个问题，并可能导致数值不稳定性[30，40]。我们使用牛顿我们进一步认为，完全正交化权重矩阵限制了网络另一个相关的工作是谱归一化[43]，它使用重新参数化来限制最大特征值为1。通过改变迭代次数，我们的方法可以有效地在谱归一化和完全正交化之间进行插值。牛顿[40]和[38]集中于计算协方差矩阵的平方根，而我们的方法计算协方差矩阵的平方根逆，就像[26]中的工作一样然而，我们的工作与[26]有几个主要区别：1）在[26]中，他们旨在使用牛顿迭代在批量数据上对激活[25]进行迭代，而我们的工作旨在学习正交权重矩阵，这是一个完全不同的2)与[ 26 ]中提出的牛顿迭代相比，我们通过提供更紧凑的边界进一步提高了收敛速度; 3）我们的方法可以保持网络的Lipschitz连续性，因此具有稳定GAN训练的潜力[43，10]。目前还不清楚[26]中的工作是否具有这样的属性，因为它是数据依赖的归一化[29，43，10]。3. 该方法RNN中隐到隐变换的矩阵给定数据集D={（xi，yi）}M构成的[4，62，13，61，27，32，21]。这是由两种结构完成的-输入x∈Di=1C使用具有受限[4]或完全表示能力[62，21]的分解酉权重矩阵，或者通过使用软约束[61]。与这些需要平方权矩阵并且仅限于RNN中的隐藏到隐藏变换的方法不同，我们的方法更通用，并且可以适应权矩阵不是平方的情况。我们的方法与对损失函数施加正交惩罚的方法有关[47，61，5]。大多数作品建议在标准Frobenius范数下使用软正交正则化[47，61，5]，尽管在[5]中探索了其他替代正交惩罚。也有一些方法建议将奇异值与我R及其对应的标号yi我们代表-将标准前馈神经网络表示为由θ参数化的函数f（x;θ）。 f（x; θ）是L个简单非线性函数的复合。其中每一个都由具有可学习权重 Wl 的线性变换hl=Wlhl−1+bl Rnl×dl和偏置blRnl，后跟一个元素-明智的非线性：hl=l（hl）。这里l{1、2、…L}in-对图层进行标记。我们将可学习参数表示为 θ={Wl，bl|l=1，2，. . .，L}。训练神经网络涉及最小化期望输出y和预测输出f（x;θ）之间的差异，由a损失函数L（y，f（x;θ））。因此，优化目标是：θ∈E（x，y）∈D[L（y，f（x; θ））]。6431ONI特征值∈D√−λ）ij∈≤≤≤≤≤≤≤WV茨基−算法1牛顿迭代法（ONI）。1：输入：代理参数ZRn×d和迭代次数T。2：限定Z的奇异值：V=Z。F3：计算协方差矩阵：S = VVT。4：B0= I。算法2带加速的ONI。1：输入：代理参数Z ∈ Rn×d和迭代次数N。2：定心：Zc= Z1Z 11T。3：Z的奇异值的定界：V = Zc。ZcZT5：对于t=1至T，6： Bt=3Bt−1−1B3 S。4：执行步骤。算法1中的3到8。5：输出：正交化权重矩阵：W∈ Rn×d。27：结束2t−18：W = BTV9：输出：正交化权重矩阵：W∈ Rn×d。8由Ki，j=（λ1，其中ij. 这可能会导致数字61004210-2不稳定时，存在S的相等特征值，在[30，40]中讨论，并在我们的初步观察实验，特别是对于高维空间。我们观察到Eqn的解2可以表示1 100 2 4 6 8 10迭代（一）0 20 40 60特征值指数（b）第（1）款W=S−2V，其中S−2可以通过牛顿公式计算迭代[41，8，26]，这避免了特征分解，前向传递和潜在的数值不稳定性，图2.牛顿迭代法的收敛性。代理矩阵ZR64×256的元素是从高斯分布N（3，1）中采样的。我们展示了（a）正交性的大小，测量为δ=WWT-IIF，相对于迭代和（b）分布（对数标度）反向传播3.2. 用牛顿迭代法进行归一化1牛顿的特征值的WWT与不同的迭代。B0= IBt=1（3Bt−1−B3S），t = 1，2，...，T（四）3.1. 预赛本文从学习深度神经网络（DNN）的正交滤波器组（权重矩阵的行正交化）开始。为了简单起见，我们假设n为d，并将在3.4节讨论n > d的情况。该问题在[24]中被公式化为具有逐层正交约束的优化，如下所示：θE=argminθE（x，y）∈D[L（y，f（x;θ））]S.T. W1（W1）T= 1，1 =1，2，...，L.（一）为了直接解决这个问题，Huanget al. [24]提出使用代理参数V，并通过在可行变换集上以Frobenius范数最小化它们来构造正交权重矩阵W，其中目标是：�ΣTminφ（V）tr（W−V）（W −V）S.T.W=φ（V）和WWT= I。（二）他们在一个封闭的形式中解决了这个问题，用正交变换，2t−1其中T是迭代次数。条件下1证明B1-S2-<1，B1-T将收敛到S2-1 [8，26]。V在Eqn中2可以初始化，以确保S=VVT初始满足收敛条件，例如，确保0σ（V）1，其中σ（V）是V的奇异值。然而，当训练DNN时，由于V变化，该条件很可能被违反为了解决这个问题，我们建议保持另一个代理参数Z并进行变换V=φN（Z），使得0σ（V）1，这是受重新参数化方法[53，24]的启发。一个简单的方法来确保0σ（V）1是划分Z的谱范数，就像谱归一化方法一样[43]。然而，由于需要进行奇异值分解，精确计算谱范数的计算量很大因此，我们建议划分Z的Frobenius范数来执行谱边界：Z形成为：W =φ（V）=DΛ−1/2DTV，（3）V =φN（Z）=捷克共和国.（五）其中Λ ={λ 1，...， λ n}和D是协方差矩阵S=VVT的特征值和相应的特征向量。考虑到梯度Δ L，反向传播必须通过正交变换法计算更新的最小值V. 封闭式表述是简洁的;然而，它在实践中遇到以下问题：1）需要本征分解，这在计算上是昂贵的，特别是在GPU设备上[40]; 2）通过本征分解的反向传播需要矩阵K [24]的逐元素乘法，其元素被给定T1 T3 T5 T7 T9|WW T-I|FC6432很5满足牛顿迭代法的收敛条件，并证明了该方法与文[ 26 ]中提出的牛顿迭代法是等价的算法1描述了所提出的方法，称为牛顿迭代正交化我们发现算法1收敛得很好（图2）。然而，关注的是收敛的速度，因为需要10次迭代以获得良好的正交化。因此，我们进一步探索方法，以加快收敛的ONI。6433ONIONI+中心ONI+中心+CSBONIONI+中心ONI+中心+CSB柱行//特征值特征值∈∈≤−−ǁ − ǁ ǁ − ǁǁ ǁi=1ǁǁ√n144n8 10161004210-2五点五00 2 4 6 8 10迭代（一）0 20 40 60特征值指数（b）第（1）款00 2 4 6 810迭代（一）00 20 40 60特征值指数（b）第（1）款图3.加速牛顿迭代的分析代理矩阵ZR64×256的元素是从高斯分布N（3，1）中采样的. （a）收敛性的比较;（b）在迭代t = 1时WW T的特征值分布的比较。3.3. 加速牛顿迭代法的收敛我们提出的用于获得正交矩阵W的牛顿收敛的速度取决于V的奇异值最初与1的接近程度[8]。我们观察到以下因素有利于牛顿迭代的收敛：1）Z的奇异值具有平衡分布，这可以通过矩阵Z的条件数来评估;2）在谱边界之后，V的奇异值应该尽可能地接近1（Eqn.（五）。为了实现Z的特征值的更平衡的分布，我们对代理参数Z执行中心操作，如下所示Z= Z1Z 11T.（六）Cd然后在中心参数Zc上执行正交变换。如[36，55]所示，中心矩阵Zc的协方差矩阵比Z.我们还通过实验观察到，中心参数Zc（表示为（图 3 （ b ）），因此收敛速度比原始 ONI （图 3（a））。紧谱边界为了在谱边界之后获得V的更大奇异值，我们寻求更紧的谱边界因子f（Z），使得f（Z）>ZF并且V满足一致性条件。我们发现f（Z）=ZZTF满足要求，这在SM中得到了证明。因此，我们执行频谱边界基于以下公式：图4.统一的行列正交化。代理矩阵ZR64×32的元素是从高斯分布N（0，1）中采样的。（a）δ Row= WWTIF与δColumn= WTW IF的归一化比较;（b）不同迭代次数下WWT的特征值分布。3.4. 统一的行和列归一化在前面的部分中，我们假设n d，并获得正交化解。剩下的一个问题是当n>d时如何处理这种情况。当n> d时，W的行不能正交，因为W的秩小于/等于d。在这种情况下，使用基于本征值分解的解决方案（Eqn. 3）可能导致数值不稳定，因为对于协方差矩阵存在至少n d个零特征值。这些零特征值特别导致反向传播过程中的数值不稳定性（当按元素乘以缩放矩阵K时，如第3.1节所述）。我们的牛顿迭代正交化解决方案因此，我们的ONI可以解决Eqn。2在n> d的情况下。更有趣的是，我们的方法可以实现列正交的权重矩阵W（即，WTW = I），通过解决Eqn。2直接在n> d下。图4显示了行和列正交化的收敛行为。我们观察到ONI以迭代方式将协方差矩阵S的非零特征值向1拉伸，并且因此等效地将权重矩阵V的奇异值向1拉伸。因此，它保证了在n >d的情况下列的正交性。我们的方法统一了行正交化和列正交化，我们在第节中进一步展示了3.5，它们都有利于在训练DNN时保持激活/梯度的范数/分布。注意，对于 n > d ， Huanget al. [24]通过将权重{wi}n划分为大小为NG≤d的组并执行正交化，V =φN（Z）=�ZZZT.（七）在每个组上，使得每个组中的权重是行正交然而，这种方法不能确保更紧凑的频谱边界（CSB）是使用方程。7，与Eqn相比。五、例如，假设Z具有g个等效奇异值，当使用等式（1）时，在频谱边界之后V的初始奇异值将为17，而使用Eqn.五、我们还通过实验观察到，使用Eqn.7（在图3中用算法2描述了具有居中和更紧凑的谱边界的加速ONI方法（等式2）。（七）.整个矩阵W是行或列正交的（详见SM）。3.5. 控制非线性正交矩阵的一个显著性质是，在适当的假设下，它可以保持线性变换的范数和激活分布。这样的性质在下面的定理中描述。Theo rem1. 设h∈R=Wx，其中W∈ WT=I，W∈Rn×d.T1T3T5T7F|WW T-I|6434普通OrthInitONI错误特征值∈∈i=1xH1x∂hˆ2假设：（1）Ex（x）=0，cov（x）=σ2I，以及（2）EL（L）=0，1001.51小时∂hˆcov（σL）= σ2I. 如果n = d，我们有以下性质：（1）12000年2月50日（2）E（h）=0，cov（h）=σ2I;（3）EL=EL;（4）EL（L）=0，cov（L）=σ2I. 特别是，如果n d，x财产（2）和（3）持有;如果n > d，则性质（1）和（4）成立。SM中提供了证明。定理1表明，00 20 40 60 80历元（一）00 100 200特征值指数（b）第（1）款从优化的角度来看，正交性在防止梯度膨胀/消失方面的好处此外，正交权矩阵可以看作是具有一个自由度的嵌入Stiefel流形On×dnd−n（n+1）/2[1，24]，它正则化了神经网络-图5.保持正交性的效果实验在10层MLP上执行。(a)相对于训练时期的训练（实线）和测试（虚线）误差;（b）在200次迭代时，第5层的权重矩阵W工作，可以提高模型然而，这种正则化可能会损害表示能力并导致退化的性能，如[24]所示，并在我们的实验中观察到。因此，在训练DNN时，控制正交性对于平衡优化效益的增加和代表性能力的减少是必要的我们的ONI可以有效地控制1005000 20 40历元60 801005000 20 40历元60 80正交性使用不同的迭代次数。(a) 6层MLP(b) 20层MLP3.6. DNN中的正交权矩阵图6. 缩放正交图对权重的影响。无标度正交化二、我们评估培训基于算法2及其相应的向后传递，我们可以将我们的方法包装在线性模块中[53，24]，以学习DNN的正交约束的滤波器/权重。在训练之后，我们计算权重矩阵W并保存它用于推理，就像标准模块中一样分层动态等距定理1表明，对于线性变换，正交矩阵对于表示正、反向过程中激活的范数/分布具有显著的性质然而，在这方面，实际上，我们还需要考虑非线性函数在这里，我们表明我们可以使用一个额外的常数来缩放ReLU非线性的权重矩阵的大小[45]，使得每层的输出-输入雅可比矩阵具有动态等距。定理2. 设h=max（0， Wx），其中WwT=σ2I，（a）6层MLP上的（实线）和测试（虚线）和（b）20层MLP。对激活具有不同贡献的过滤器。为了实现这一点，我们建议使用可学习的标量参数g来微调每个滤波器的范数[53，24]。卷积层对于由权重WCRn×d×Fh×Fw参数化的卷积层，其中Fh和Fw是滤波器的高度和宽度，我们将W C重新整形为WRn×p，其中p=d·Fh·Fw，并且在展开的权重矩阵W∈Rn×（d·Fh·Fw）上执行正交化。计算复杂度考虑一个卷积层，滤波器W∈Rn×d×Fh×Fw，m个minibatchW∈ Rn×d。假设x是一个正态分布，其中E x（x）=0，数据{xi∈Rd×h×w}m . 我们的计算成本cov（x）= I. 将雅可比矩阵表示为J = Δh。如果σ2=2，则有Ex（JJT）= I。证据在SM中得到了证明。我们建议采取多种方式方法，主要来自Al-出租m1中的第3、6和8行，对于训练期间的每次迭代为2n2dFhFw+3Nn3ONI相对于宪法的相对成本层为2n+3Nn. 在推理过程中，我们使用正交加权矩阵W乘以因子2为净-MHWmdhwFhFw使用ReLU激活。我们的实验表明，这提高了4.1节中的训练效率。注意，定理1和2是基于逐层输入是高斯的假设。这样的属性可以使用批量归一化（BN）[29]来实现。此外，如果我们在线性变换之前应用BN，则不需要在线性模之后再次应用它，因为根据定理1BN的归一化性质被保持。我们在4.1.3节中通过实验证明了这样的过程可以提高性能。可学习标量遵循[24]，我们将正交规范的约束放松为正交，其中WTW = Λ，其中Λ是对角矩阵。这可以看作是正交的。正交化权重矩阵W，因此不引入额外的计算或存储成本。我们提供SM中的挂钟时间。4. 实验4.1. 图像分类我们在 Fashion-MNIST [64] ， CIFAR-10 [34] 和ImageNet [51]数据集上评估我们的ONI。我们在第4.1.4节中提供了ONI迭代次数T的消融研究。由于篇幅所限，我们只提供了实验装置的基本组成部分;详情请参普通OrthInitONI平原OLM-NSOLMONI-NSONI平原OLM-NSOLMONI-NSONI错误错误0.56435阅SM。该代码可在https://github.com/huangleiBuaa/ONI上获得。6436√√√√√√平原11.349.849.4710.328.738.5510.669.008.43WN11.199.559.4910.269.268.199.909.338.90正交初始化10.579.499.3310.348.948.2810.3510.69.39OrthReg12.0110.3310.319.788.698.619.397.927.24OLM-1 [24]OLM-10210.658.988.329.238.057.239.387.457.0410.158.327.808.747.236.878.026.796.56ONI9.958.207.738.647.166.708.276.726.52表1.在VGG型网络上测试CIFAR-10分类的错误（%）。结果在三次独立运行中取平均值4.1.1MLP on Fashion-MNIST我们使用带有ReLU激活的MLP [45]，并改变深度。每层神经元的数量为 256 。我们采用随机梯度下降（SGD）优化，批量大小为256，学习率基于验证集（来自训练集的5，000个样本）从{0. 05，0。1，0。5，1}。我们首先展示了保持-正交性可以提高训练性能。我们比较了两个基线：1）2) ‘OrthInit’, in which the orthogonal initialization [训练表现如图5（a）所示。我们观察到正交初始化可以提高初始阶段的训练效率（与“plain”相比），之后由于权重的更新，正交性的缩放的影响我们通过实验证明了通过以下因子对正交权重矩阵进行线性缩放：表2.110层残差网络的测试误差（%）比较[19]第29话，不求回报，只求回报。我们报告了五次独立运行的中位数。带“*”的方法在80和120个时期，学习率提高5，在160个时期结束训练。我们将我们的“ONI”与几个基线进行比较注意，OLM [24]最初使用一个比例尺为1（表示数据为'OLM-1'），我们二、我们也将这种技术应用于其中正交化是通过特征分解来解决的第我们将结果示于图六、我们观察到缩放技术没有显著的对浅层神经网络影响，6层MLP。然而，对于更深的神经网络，它产生了显着的性能提升。例如，对于20层MLP，在没有附加缩放因子的情况下，"此外，我们的（五）。4.1.2CIFAR-10上的CNN在这里，我们在具有3×3卷积层的VGG风格神经网络上评估ONI。该网络从32k个滤波器的卷积层开始，其中k是基于不同配置的变化宽度然后，我们依次堆叠三个块，每个块都有g个卷积层，滤波器数分别为32k，64k和128k我们在{2，3，4}中用g改变深度，在{1，2，3}中用k改变宽度。我们使用SGD，动量为0.9，批量为128。最佳初始学习率从{0。010 02，0。05}在来自训练集的5，000个样本的验证集上，我们将建议按比例缩放，2（表示为表1示出了结果。‘ONI’ and ‘OLM- 我们还观察到此外，我们提出的请注意，我们使用G = 64的组大小训练我们还尝试了'OLM- 2 '的完全正交化然而，我们观察到性能退化或数值不稳定（例如，本征分解不能收敛）。我们认为，主要原因是完全正交化解决OLM过约束的权重矩阵，这损害了性能。此外，基于特征分解的方法更有可能导致高维空间中的数值不稳定性，因为在反向传播期间矩阵K的元素乘法[40]，如第3.1节所讨论的。批量归一化（ BN ）对于稳定和加速 DNN 的训练[29][19，23，20，59]至关重要。它是残差网络中的标准配置[19]。然而，它有时会遇到小批量问题[28，63]，并在调试时引入太多的随机性[60方法g=2，k=1 g=2，k=2 g=2，k=3 g=3，k=1 g=3，k=2 g=3，k=3 g=4，k=1 g=4，k=2 g=4，k=3批量大小=128批量大小=2[68]第六十八话6.61–[24]第二十四话7.78–[69]第六十九话7.24–w/BN6.827.24Xavier Init8.439.74组规范7.337.36ONI6.566.6764371614121080 2 4 68不（一）9870123456不（b）第（1）款33323130012345不(c)表3.使用VGG-16评估的ImageNet验证集（单一模型和单一作物测试）的测试误差（%）[57]。时间成本在训练时期上求平均。方法不含BN的列车试验ResNet列车试验ResNetVar列车试验平原31.7633.8429.3329.6428.8229.56ONI27.0531.1729.2829.5728.1228.92表4.使用18层ResNet在ImageNet上进行消融研究我们评估前1名的训练和测试错误（%）。方法测试误差（%）50 101时间（分钟/分钟）时代）50 101ResNet23.8522.406678ResNet + ONI23.5522.177492ResNetVar23.9422.766678ResNetVar + ONI23.3021.897492表5.ImageNet上的50层和101层ResNet结果神经网络。一些研究试图在没有BN的情况下训练深度残差网络[56，69]。在这里，我们表明，当使用我们的ONI时，没有BN的残差网络也可以很好地训练。实验在110层残差网络（Res-110）上进行。我们遵循与[19]相同的实验我们还比较了Xavier Init [14，9]和组归一化（GN）[63]。ONI可以以0.1的大学习率进行训练，并且在训练时期方面比BN收敛得更快（参见SM）。我们观察到ONI的测试性能略优于BN（表2）。最后，我们还测试了小批量2的性能。在这种情况下，我们发现ONI继续具有比BN更好的性能，并且对批量大小不敏感，如GN [63]。4.1.3大规模ImageNet分类为了进一步验证我们的ONI在大规模数据集上的有效性，我们在ImageNet-2012数据集上对其进行了评估。我们保持几乎所有的实验设置与公开的PyTorch实现相同 [48] ：我们应用 SGD ，动量为 0.9 ，权重衰减为0.0001。我们总共训练了100个epoch，并将初始学习率设置为0.1，在epoch 30，60和90时将其降低了10倍。有关不同架构和方法之间细微差异的更多详细信息，请参见SM。VGG网络表3显示了16层VGG的结果[57]。我们的此外，图7.所提出的ONI的迭代次数T的影响。(a)Fashion-MNIST的6层MLP;（b）VGG型网络，（g=2，k=3）用于CIFAR-10;（c）用于ImageNet的18层ResNet0.01）。我们还在表中提供了运行时间3 .第三章。与“普通”相比，“ONI”引入的额外成本可以忽略不计（7. 2%）。残差网络我们首先应用我们的ONI对18层残余网络（ResNet）[19]进行消融研究。我们使用原始的ResNet和没有BN的ResNet [29]。我们还考虑在非线性之后插入BN的架构，我们称之为我们观察到，我们的ONI在所有三种架构上都提高了性能，如表4所示。一个有趣的发现是，ONI在没有BN的ResNet上实现了最低的训练错误，这证明了它能够促进大规模数据集的优化。我们还观察到，ONI在ResNet上的性能与“plain”没有显著差异一个可能的原因是BN模块和剩余连接非常适合于信息传播，导致ONI对于这样的大规模分类任务具有较低的净增益然而，我们观察到，在ResNetVar上，ONI获得了明显优于“plain”的性能。我们认为，这种提升是由于正交矩阵我们还将ONI应用于50层和101层的残差网络。结果示于表5中。我们再次观察到ONI可以提高性能，而不会引入显著的计算成本。4.1.4迭代次数的消融研究ONI通过迭代数T控制权重矩阵的频谱，如前所述。在这里，我们探讨了T在不同数据集和架构上对ONI性能的影响。我们考虑三种配置：1)Fashion-MNIST的6层MLP; 2）CIFAR-10的VGG型网络（g=2，k=3）;以及3）用于ImageNet的18层无BNResNet。相应的实验设置与之前描述的相同。我们改变T并在图7中显示结果。我们的主要观察结果是，使用小或大的T都会降低性能。这表明我们需要控制正交性的大小，以平衡增加的优化效益和减少的代表能力。 Our em- pirical observation is that T = 5 usuallyworks the best for networks without residual connections,whereas T = 2 usu- ally works better for residual networks.我们认为残差网络本身已经具有良好的优化[19]，这降低了正交性的优化效益。测试误差（%）测试误差（%）测试误差（%）前1名（%）前5名（%）时间（分钟/分钟）时代）平原27.479.0897WN27.339.0798正交初始化27.759.2197OrthReg27.228.94986438454035302520050100150200历元（一）3028262422201816一BCDEF（b）第（1）款40353025200 50 100 150200历元40353025200 50 100 150 200历元图8.DCGAN上SN和ONI的比较（a）金融情报部（一）（b）第（1）款关于训练时期。(b)六种配置的稳定性实验，见[43]。此外，我们还观察到，对于简单数据集，较大的Ts具有几乎等效的性能，例如。Fashion-MNIST，如7（a）所示。这表明，放大对应于小奇异值的本征基不能提供更多帮助，即使具有完全正交化权重矩阵的网络可以很好地拟合数据集。进一步给出了SM中正交化权矩阵奇异值的分布。4.2. GAN的稳定训练如何稳定GAN训练是一个开放的研究问题[15，52，16]。一个开创性的工作是谱归一化（SN）[43]，它可以通过将其权重矩阵的最大特征值限制为1来保持网络的Lipschitz连续性这种技术已广泛用于当前的GAN架构[44，70，10，35]。如前所述，我们的方法不仅能够将最大特征值限制为1，而且还可以控制正交性以通过增加迭代来放大其他特征基，同时正交正则化也是训练GAN的好技术[10]。在这里，我们在CIFAR-10上进行了一系列无监督图像生成实验，并将我们的方法与广泛使用的SN [43]进行了比较。实验设置我们严格遵循SN论文[43]中报告的网络架构和训练协议。我们使用DCGAN [50]和ResNet [19，16]架构。我们在SM中提供了实现细节。我们将相应网络中的所有SN模块替换为ONI。我们评估生成样本质量的主要指标是Fre'chet初始距离（FID）[22]（越低越好）。我们还在SM中提供了相应的初始评分（IS）[52]。DCGAN我们使用标准的非饱和函数作为DCGAN架构中的对抗损失[15，35]，如下[43]。对于优化，我们使用Adam优化器[33]使用默认的超参数，如[43]：学习率α =0。0002，第一动量β 1=0，第二动量β 2=0。9，并且每次发生器更新的重复更新次数n_dis=5。我们训练网络超过200个epoch，批量大小为64（近200k生成器更新），以确定它是否受到训练不稳定性的影响。图8（a）显示了当牛顿迭代次数T从0变化到5时SN和ONI的FID一个有趣的观察是，仅具有公式7（T=0）中描述的初始频谱边界的ONI也可以稳定训练，即使它已经降低了性能。图9. SN和ONI在ResNet GAN上的比较。我们表明当使用（a）非饱和损失和（b）铰链损失时，相对于训练时期的FID。对比一下SN。当T=1时，ONI实现比SN更好的性能。这是因为，根据我们所观察到的，ONI将最大特征值拉伸到接近1，同时放大其他特征值。最后，我们发现ONI在T=2时达到最佳性能，得到FID=20。75，相比之下，SN的FID = 23。31岁进一步增加T会损害训练，可能是因为太强的正交化会降低网络的容量，如[43，10]所述。我们还进行实验以验证我们提出的ONI在不同实验配置下的稳定性：我们使用六种配置，遵循[43]，通过改变α，β 1，β 2和ndis（由A-F表示，更多细节请参见SM）。图8（b）显示了在这六种配置下SN和ONI（T=2）的结果。我们观察到，我们的ONI始终优于SN。ResNet GAN 对于 ResNet 架构的实验，我们使用与DCGAN相同的设置除了标准的非饱和损耗[15]，我们还评估了最近流行的铰链损耗[39，43，10]。图9显示了结果。我们再次观察到，我们的ONI在ResNet架构下实现了比SN更好的性能，无论是在使用非饱和损耗还是铰链损耗时。5. 结论在本文中，我们提出了一个有效的和稳定的正交化方法牛顿我们对ONI进行了深入的分析，并证明了其控制正交性的能力，这是训练DNN的理想属性ONI可以实现为线性层，并通过简单地将其替换为标准线性模块来学习正交权重矩阵。在训练过程中，ONI能有效地约束权值均值（σmin，σmax这种特性使得ONI成为验证与DNN泛化相关的一些理论结果的潜在工具[6]中所示的边界）和抵抗来自对抗性示例的攻击[12]。此外，ONI在稳定训练w/o BN（BN通常会干扰理论分析，因为它取决于具有随机性的采样小批量输入[29，26]）方面的优势使得有可能在真实场景下验证这些理论论点。致谢我们感谢Anna Hennig和Ying Hu在校对方面的帮助。SNONIT0ONIT1ONIT2ONIT3ONIT5SNONISNONIFIDSNONIFIDFIDFID6439引用[1] P. - A.阿布西尔河Mahony和R.坟墓矩阵流形上的优化算法。普林斯顿大学出版社Princeton，NJ，2008. 5[2] 皮埃尔-安托万·阿布西尔和杰罗姆·马利克。矩阵流形上的类投影收缩SIAM Journal on Optimization，22（1）：135-158，2012. 2[3] Jaweria Amjad，Zhaoyan Lyu和Miguel RD Rodrigues。反向问题的深度学习：边界和正则化器。arXiv预印本arXiv：1901.11352，2019。1[4] Mart 'ın Arjovsky，Amar Shah，and Yoonge Bengio.酉进化递归神经网络。InICML，2016. 2[5] Nitin Bansal，Xiaohan Chen，and Zhangyang Wang.在训练深度cnn时，我们能从正交正则化中获得更多吗NeurIPS，2018。一、二[6] Peter L Bartlett，Dylan J Foster，and Matus J Telgarsky.神经网络的谱归一化边界在NeurIPS中。2017. 8[7] Y. Bengio，P. Simard，and P.弗拉斯科尼用梯度下降学习长期依赖关系是困难的。译尼尔网络，5（2）：157-166，Mar. 1994. 1[8] 达里奥尼古拉斯·比尼Higham，and Beatrice Meini.矩阵p次根的算法。数值算法，39（4）：349-378，2005年8月。一、二、三、四[9] Nils Bjorck，Carla P Gomes，Bart Selman，and Kilian QWeinberger. 了解批处理规范化。在NeurIPS中。2018. 7[10] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安大规模GAN训练用于高保真自然图像合成。2019年，在ICLR。一、二、八[11] 放大图片作者：Andrew Brock，Theodore Lim，JamesM.里奇和尼克·韦斯顿使用内省对抗网络进行神

下载后可阅读完整内容，剩余1页未读，立即下载