迭代归一化：高效美白，超越标准化【文件】

131 浏览量更新于2023-10-18 收藏 936KB PDF 举报

数据白化

批量归一化

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4874迭代归一化：超越标准化，迈向高效美白Lei Huang Yi Zhou Fan Zhu Li Liu Ling Shao InceptionInstitute of Artificial Intelligence（IIAI），阿布扎比，阿联酋{雷.黄，易.周，范.朱，李.刘，凌.邵}@ inceptioniai.org摘要批量归一化（BN）被广泛用于加速神经网络训练，并通过在小批量内执行标准化来提高去相关批归一化（DBN）通过白化进一步增强了上述效果。然而，DBN严重依赖于大的批量大小或本征分解，这在GPU上效率很低我们提出了迭代归一化（IterNorm），它采用牛顿此外，我们开展了一个全面的研究，以显示IterNorm有更好的优化和泛化之间的权衡为此，我们专门引入了随机归一化扰动（SND），它测量了样本在应用于归一化操作时的固有随机不确定性。在SND的支持下，我们从优化的角度对一些现象提供了自然的解释为什么DBN的逐组白化通常优于全白化，以及为什么BN的准确性随着批量大小的减小而退化我们通过在BN和DBN上的CIFAR-10和ImageNet上进行的大量实验，证明了IterNorm的一贯改进性能1. 介绍对输入数据进行居中、缩放和去相关被称为数据白化，它在加速训练方面取得了巨大的成功[25]。批量归一化（BN）[19]将操作从输入层扩展到小批量内每个中间层的居中和缩放激活，以便每个神经元具有零均值和单位方差（图1（a））。BN已广泛用于各种网络架构[11，43，12，50，42，14]，因为它在提高优化效率[19，9，21，5，37]和泛化能力[19，3，5，48]方面都有好处。然而，BN仅能够执行标准化，而不是执行白化，标准化使激活居中和缩放，但不使它们去相关[19]。上(a) BN的标准化（b）DBN的ZCA增白(c)IterNorm的高效ZCA白化图1.集中数据的多种标准化方法的说明。(a)BN [19]通过沿轴拉伸/压缩数据来执行标准化，使得每个维度具有单位方差;（b）DBN通过沿着特征向量拉伸/压缩数据来执行ZCA白化，使得协方差矩阵相同。(c)IterNorm通过沿特征向量逐步调整数据而无需特征分解来执行有效的ZCA白化。另一方面，以前的工作表明，进一步去相关的激活是有益的优化[9，29]和推广[6，49]。为了通过白化来改善BN，提出了去相关批量归一化（DBN）[17]来消除小批量内每个层的激活，使得每个层的输出具有等距对角协方差矩阵（图1（b））。DBN在训练效率和泛化能力方面都优于BN，但它严重依赖于大批量和特征分解或奇异值分解（SVD），这在GPU上的效率很差。为了解决这些问题，我们提出了迭代规范化（IterNorm），以进一步增强BN，更有效地白化。IterNorm通过采用牛顿迭代来近似白化矩阵，从而避免了特征分解或SVD因此，可以有效地利用GPU的能力。在迭代前对协方差矩阵的特征值进行归一化处理，保证牛顿迭代的收敛性。如图1（c）所示，IterNorm沿着特征向量逐步拉伸维度，使得相关的特征值在归一化后收敛到1一个理想的属性是4875STDMSTD不M−X��T1DIIterNorm沿特征向量的收敛速度与相关特征值成比例[4]。这意味着对应于小/零（当应用小批量时）特征值的维度可以在很大程度上被忽略，给定固定的迭代次数。因此，IterNorm对批量大小的敏感性可以显著降低。当数据批次过小时，已知测试数据的白化和标准化性能可能会显着降低[18，48]。然而，出乎我们的意料，我们观察到，在相同的条件下，训练集上的性能也显着退化。我们进一步观察到这种现象是由基于小批量的归一化引入的随机性引起的[44，39]。为了更深入地理解和评估随机性，我们引入了随机归一化扰动（SND），这将在第4节中讨论。在SND的支持下，我们对归一化方法的性能进行了全面的分析，包括批量大小和特征维度，并表明IterNorm在优化和泛化之间具有更好在CIFAR-10 [22]和ILSVRC-2012 [8]上的实验证明了IterNorm相对于BN和DBN的一致改进。2. 相关工作规范化激活[38，33，31，46]长期以来一直被认为有利于神经网络训练。一些研究方法试图通过将群体统计数据视为参数并在训练期间直接估计它们来规范化激活[31，46，9]。其中一些方法包括以受限玻尔兹曼机[31]/前馈神经网络[46]为中心的激活和激活白化[9，29]。这种类型的标准化可能会受到不稳定性（如发散或梯度爆炸）的影响，这是由于1）局部数据样本对总体统计的不准确近似[46，19，18，17]和2）内部协变移位问题[19]。反向传播转换。我们的方法旨在更有效地近似DBN中的ZCA白化矩阵，并根据第4节中的分析表明近似白化更有效。我们的方法也与归一化网络权重的工作有关（例如，或者通过重新参数化[36，16，15]或者权重正则化[23，32，35]），并且专门设计缩放系数偏置值[1] 或非线性函数 [20] ，以归一化激活脉冲 [39] 。IterNorm与这些工作的不同之处在于，它是一种依赖于数据的归一化，而这些归一化方法与数据无关。牛顿这些方法专注于通过约束协方差矩阵的功率来构建双线性[28]或二阶池化[26]，并且仅限于产生完全连接的激活，而我们的工作提供了一个通用模块，可以在各种神经网络框架中无处不在。此外，我们的方法计算协方差矩阵的平方根逆，而不是计算协方差矩阵的平方根[28，26]。3. 迭代归一化设X∈Rd×m是表示某层上m个小批量输入的数据矩阵.BN [19]通过标准化小批量输入的激活来工作：1=φStd（X）= Λ2（X−μ·1），（1）其中μ=1X·1是X的平均值，Λstd= diag（σ 2，. . .，σ2）+ σ 1，σ 2是对应于第i维度的维度方差，1是所有1的列向量，并且σ>0是用于防止数值不稳定性的小数字。直观地说，标准化确保了标准化输出对每个维度给予同等的重要性，1乘以缩放矩阵Λ2（图1（a））。DBN [17]进一步使用ZCA白化来产生白化输出，为1：Ioffe等人，[19]建议对小批量数据执行标准化，并通过φZCA（X）=DΛ12D（X−µ·1T）、（2）转变已经发现了用于标准化小批量数据的多种标准化选项，包括L2标准化[19]，L1标准化[47，13]和L∞标准化[13]。然而，这些方法的一个关键问题是，它通常需要一个理由-估计均值和方差的有效批量为了解决这样的问题，提出了大量的消除方法[3，48，34，30，18，27，45，24，7]。我们的工作在这些方法的正交方向上发展，旨在用去相关的激活来改善BN。除了标准化，Huanget al.[17]提出DBN，其通过特征分解使用ZCA白化，其中Λ=diag（σ 1，. . .，σ d）和D=[d1，...，dd]是的特征值和相关的特征向量，即， D =DΛDT。T=1（X−µ·1T）（X−µ·1T）T+I是中心输入的协方差矩阵。ZCA增白其工作原理是沿着特征向量拉伸或压缩维度，使得相关的特征值为1（图1（b））。白化激活可确保沿特征向量的所有维度在后续线性层中具有同等重要性。ZCA白化的一个关键问题是计算白化矩阵需要特征分解或1DBN和BN都使用可学习的维度尺度和移位参数来恢复可能损失的表示能力。−4876−M2不X2P−=M3K1221算法1用牛顿迭代法白化激活3. 给定-1，我们可以计算-1一曰：输入：小批量输入X ∈Rd×m。第二章：超参数：G，迭代次数T。3：输出：ZCA白化的行为X。1如下所示：2N1−1Σ2Σ2N2 基于Eqn。 4的�tr（m）。（五）4：计算小批量平均值：µ=X ·1。不1给定λ2，很5：计算中心激活：XC = X − µ·1。Σ− 16：计算协方差矩阵：XT+ GI.C2 与中心输入。总之，算法1描述了我们提出的白化激活方法第七章：通过等式2计算迹归一化协方差矩阵4.第一章8：P0= I。9：对于k=1至T，在神经网络中。我们的方法首先规范化的特征值的covari-10： Pk=（3P11：结束k−1k−1<$N）1�矩阵，从而满足牛顿迭代法的收敛条件然后我们逐步拉伸12：计算白化矩阵：tr（m）。沿着特征向量的维度，使得最终的asso-13：计算白化输出：X�=X-一个2C.如图1（c）所示，这些特征值都是注意，特征向量的收敛速度与相关特征值成正比[4]。也就是说，SVD，如Eqn中所示2，这严重限制了它的实际应用。我们观察到Eqn。2可以被视为协方差矩阵的平方根逆，表示为-1，它乘以中心输入。利用牛顿3.1. 用牛顿迭代法计算n−1给定方阵A，牛顿12 通过以下迭代[4]：�特征值越小，其相关维数沿特征向量收敛得越快。如[17]中所指出的，这种机制是控制增白程度的值得注意的性质，这对于增白活化的成功是必不可少的，并且将在第4节中进一步讨论。3.2. 反向传播正如[19，17]所指出的，将标准化或白化视为小批量数据的函数并通过归一化变换反向传播对于稳定训练至关重要。在这里，我们推导出IterNorm的反向传播过程将L表示为损失函数，关键是在给定的情况下计算ΔL。让P0=I（三）1P=Σ∂Σ∂Σ−1/2P=1（3P k−13k−1 A），k=1，2，.，TTN2，其中T是迭代次数。基于其中T是迭代次数。 Pk将收敛到链规则，我们有：1升A−1，条件为A− <1。=�2P−1在应用牛顿-一个Ttr（）2ΣT协方差矩阵的反平方根2、一个关键L=−1（P-3））TL问题是不能保证满足收敛性∂Σ2k−1 P条件−I2<1.一、这是因为，NL1k=1LK1T型在小批量样本上，因此在训练期间变化如果收敛条件不能完全满足，∂Σ=tr（）N-（tr（））2tr（（一）训练可能非常不稳定[4，26]。为了解决这个问题，我们观察到转换的一个充分条件-一个2（tr（））3/2tr（（L中国-1/2）TPT（六）gence是为了确保协方差矩阵的特征值小于1。因此，我们建议构造一个变换<$N=F （F），使得<$N<$21，并确保<其中LK 可以通过以下迭代计算：变换是可微的，使得梯度可以3升 =3升-1公升（P2Σ）T−1（P2）T 联系我们通过这种转换反向传播一个可行变换是将特征值归一化如下：nk−12 Pk12PkTLk−1 N不2k−1PkNN=-（Pk−1）2Pk（Pk−1<$N），k=T，...，1.一、（七）其中tr（m）指示m的迹线。请注意，N也是一个半定矩阵，因此它的所有特征值都大于或等于0。此外，NNN具有其特征值之和为1的性质。因此，该算法可以满足收敛条件。因此，我们可以计算-一个通过牛顿法求出平方根的注意，在Eqn. 在图4和图5中，tr（tr）是用于小批量示例的函数，并且需要通过它反向传播以稳定训练。算法2总结了我们提出的IterNorm的反向传播过程反向传播推导的更多细节在补充材料中显示。/- -PA−−- -P2N4877�P于我��X∂ΣM�系我��我总体平均值μm和白化矩阵μmJ222Σ� −� − −算法2算法1的相应反向传递。1：输入：关于白化激活的小批量梯度当尺寸d较大时的效率。我们还比较了IterNorm、DBN[17]和3 ×3L 来自相应的正向传递的辅助数据：（1）X（3）{P}.（二）补充材料中的卷积。在推理过程中，IterNorm可以被看作是一个1 ×12K2：输出：相对于输入的梯度：L卷积并合并到相邻卷积。因此，我们认为，-一个联系我们不IterNorm不会在内存中引入任何额外的成本，3：计算相对于θ2的梯度：−1=θX�XC。4：基于Eqn. 6和图75：计算：f=1μL·1。∂Σ2在推理期间计算。4. 归一化的随机性1000升-1升T1LLT6：计算：<$X=<$2（<$X−f·1）+m（+）XC.基于小批量的标准化方法对批量大小[18，17，48]。如[17]所述，完全激活激活可能会导致性能3.3. 训练和推理与之前的归一化激活方法[19，3，17，48]一样，我们的IterNorm可以作为一个模块使用，并广泛地插入到网络中。由于IterNorm也是一种用于小批量数据的方法，因此我们使用运行平均值来计算1，其中而小批量中的数据数量是不够的。他们[17]因此建议使用分组白化[17]。此外，标准化也会在微批处理的情况下受到性能退化的影响[45]。这些作品认为，规模过小的数据批，使估计人口统计非常嘈杂，这导致了退化-在推理过程中使用。具体来说，在训练过程中，我们将μm初始化为0，将μm-1初始化为I，并按以下方式更新它们在推理过程中的表现[3，18，48]。在本节中，我们将提供有关规范化方法性能的更全面的分析，= （1−λ）µ+λµ1 1 12=（1−λ）2+λ2，（8）其中μ和μ−1是在训练期间在每个小批次内计算的均值和白化矩阵，λ是移动平均值的动量。此外，我们还使用了额外的可学习参数γ和β，如之前的归一化方法[19，3，17，48]，因为归一化激活会限制模型这一过程已被证明是有效的[19，3，17，48]。卷积层对于CNN，输入是X关于批量大小和特征尺寸。我们表明，标准化（标准化或白化）与undermassive数据批不仅遭受退化性能在推理过程中，但也遇到困难，在优化训练。这是由随机归一化扰动（SND）引起的，我们将对此进行描述。4.1. 随机归一化扰动给定来自分布Pχ的样本x ∈ Rd，我们取样本集XB={x1，.，xB，xi<$Px}，其大小为B. 我们将归一化运算表示为F（·），标准化输出为x=F（XB;x）。F或某个x，XB高×宽 ×深×米C ∈可以看作是一个随机变量[2，44]。因此，x是a其中h和w表示特征图的高度和宽度，d和m分别是特征图和示例的数量。在[19]之后，我们将特征图的每个空间位置视为样本。因此，我们将XC展开为X∈Rd×（mhw），其中有m×h×w个例子，d特征图。白化操作是在展开的X.计算成本我们的迭代范数的主要计算包括计算协方差矩阵，迭代操作和白化输出。第一次和第三次操作的计算成本相当于表示随机性的随机变量探索x的统计动量来度量随机性的大小是很有趣的这里，我们将样本x在归一化F（·）上的随机归一化扰动（SND）定义为：<$F（x）=EXB（<$x<$−EXB（x<$）<$2）。（九）如果不对随机变量X B做进一步的假设，很难准确地计算这个动量，但是，我们可以在采样集上探索它的经验估计，如下所示1×1卷积。第二个操作我们的方法是可比的卷积运算。具体地说，考虑到内部激活��F（x）=1Σssi=1F（XB;x）−1Σssj=1F（XB;x），（10）XC∈Rh×w ×d ×m，具有相同输入和输出特征图的3 × 3卷积花费 9hwmd2 ，而我们的 Iter-Norm 花费2hwmd2+Td3。3×3卷积的IterNorm的相对成本是2/9+Td/mhw。此外，我们可以使用组式白化，如[17]中所介绍的，以改善其中s表示采样时间。图2给出了样本x我们可以发现SND与批量大小密切相关。当批量较大时，给定的样本x具有较小的SND值，并且转换后的输出具有紧凑的C4878A（x）=0.0016示例标准化点采样点A（x）=0.0007示例标准化点采样点误差Ni=13 31002 21 1500 02.521.510.5- 一个00 20 40 60 80100迭代0010002000300040005000迭代次数（x100）-2 - 2(a) 批量为60，000(b) 批量大小为2-3-3-2-1 0 1 23(a) 批量16-3-3-2-1 0 1 2 3(b) 批量64图3.在MNIST上训练4层MLP的消融研究。每个隐藏层中的神经元数量为100。我们使用图2.不同批量的SND图示我们从高斯分布中抽取3000个样本（黑点）我们给出了一个给定的示例x（红色十字）及其BN输出（蓝色加号），当在不同的样本集XB上归一化时。(a)和（b）分别显示批量B为16和64的结果。分布因此，随机不确定性x可以低。全批次梯度，并报告最佳结果学习率中的训练损失={0.2，0。5，1，2，5}，以及在学习率中批量大小为2的随机梯度{0。005，0。010 02，0。05，0。1}。(a)显示了相对于迭代的训练（实线）和测试（虚线）误差，并且（b）显示了训练损失。SND可用于评估归一化操作后样本的随机性，其工作原理类似于丢失率[41]。我们可以进一步定义归一化运算F（·）1021010.050.040.030.02P=F=1N时的概率估计其中，N是00.01抽样样本数WMF描述了101001011021030100101102103相应的归一化操作的随机性。探索SND的确切统计行为是困难的尺寸(a) 条件数尺寸(b) SND并且超出了本文的范围然而，我们可以探索SND与批量大小和特征维度的关系我们发现，我们定义的SND给出了一个合理的解释，为什么我们应该控制白化的程度，为什么基于小批量的规范化具有退化的性能时，给定一个小的批量大小。4.2. 控制美白的程度我们从MNIST数据集上的多层感知器（MLP）实验开始，使用完整的批处理梯度（批处理大小= 60，000），如图3（a）所示我们发现，所有的归一化方法显着提高性能。一个有趣的观察是，在训练效率方面，使用如此大的批量大小完全白化激活仍然低于IterNorm的近似白化。直观地，完全白化激活可能导致放大具有小本征值的维度，这可能对应于噪声。夸大这种噪声可能对学习有害，特别是降低泛化能力，如图3（a）所示，DBN降低了测试性能。我们提供了进一步的分析的基础上SND，随着条件分析。研究表明，改善条件反射可以加速训练[25，9]，而增加随机性可以减缓训练，但可能会改善泛化[41]。我们通过 BN （标准化）、 DBN （全白化）和IterNorm（近似）实验探索了SND的改进条件反射[25]的后续效果。图4.比较不同的归一化操作，归一化输出（a）和SND（b）的协方差矩阵的版本号。我们从高斯分布中抽取了60，000个样本，并选择了1024的批量大小，并观察了从21到29的维度的结果，平均超过10次。用5次迭代进行白化我们计算归一化输出的协方差矩阵的条件数，以及不同归一化方法的SND（如图4所示）。我们发现，DBN有最好的条件与一个确切的条件数为1，但它显着扩大SND，特别是在一个高维空间。因此，即使对于高度改善的调理，全美白也不能持续地改善训练效率，这被较大的SND所平衡这样的观察也解释了为什么基于组的白化[17]（通过减少将被白化的维度的数量）从训练的角度来看效果更好。与BN相比，IterNorm在不同维度上不断改进调节。有趣的是，Iter-Norm在高维空间中具有降低的SND，因为它可以基于牛顿迭代法的收敛理论因此，IterNorm在改进的条件和SND之间具有更好的权衡，这自然说明IterNorm可以更有效地训练。我们还提供了IterNorm在补充材料中应用不同迭代次数时的结果。普通BNDBNIterNorm纯BNIterNormBNDBNIterNormBNDBNIterNorm条件数一训练损失48790.040.030.020.010BNIterNorm0 200 400 600 8001000批量（一）0.080.060.040.020100101102103尺寸（b）第（1）款5.1.敏感性分析我们在CIFAR-10数据集[22]上分析了CNN架构上提出的方法，该数据集包含10个类，50k个训练示例和10k个测试示例。该数据集包含32×32彩色图像，具有3个通道。我们使用为32×32输入量身定制的VGG网络[40]（16个卷积层和1个全连接层），图5.从SND的角度说明BN的微批量问题。（a）显示了在尺寸128下相对于批量大小的SND(b)显示了与批量大小为2的尺寸相关的SND。4.3. BN的微批量问题如果批量数据过小，BN会遭受退化的测试性能[48]。我们还表明，BN遭受的优化困难与小批量。我们在图3（b）中显示了批次大小为2的MNIST数据集上的实验结果。我们发现BN几乎不能学习并产生随机结果，而没有归一化的朴素网络这样的观察清楚地表明，BN在使用较小的数据批次进行训练时遇到更多困难为了深入研究，我们从128维（图5（a））的数据中取样，发现BN具有显著增加的SND。随着批量的增加，BN的SND可以逐渐降低。同时，减少SND导致更稳定的训练。当我们将批量大小固定为2并改变维数时（如图5（b）所示相反，BN的SND可以在高维空间中增加。因此，可以解释为什么BN在小批量期间遇到困难，以及为什么基于组的规范化[48]（通过减少维度并添加要隐式标准化的示例）解决了这个问题。与BN相比，IterNorm在生产SND时对小批量的敏感性要小得多。此外，IterNorm的SND更稳定，即使维度显著IterNorm的这些特性主要归因于其归一化中的自适应机制，即在给定固定迭代次数的情况下，它沿着大特征值拉伸维度并相应地忽略小特征值[4]。5. 实验我们在CIFAR数据集上使用CNN评估IterNorm[22] 表明与BN [19]和DBN [17]相比，具有更好的优化效率和泛化能力。此外，将应用带有残差网络的IterNorm来显示CIFAR-10和ImageNet [8]分类任务的性能改进。重现实验的代码可在https://github.com/huangleiBuaa/IterNorm获得。网络的尾部显示在补充材料中。数据集的预处理与均值减法和方差除法。我们还执行正常的数据扩充操作，例如随机翻转和随机裁剪，[11]如图所示实验设置我们使用批大小为256的SGD来优化模型。我们将初始学习率设置为0.1，然后在60和120 epoch时将学习率除以5，并在160 epoch时完成训练所有结果均为3次运行的平均值。对于DBN，我们使用[17]中推荐的16个组大小，并且我们发现DBN对于32或更大的组大小是不稳定的，这是由于本征分解操作不能收敛的事实。主要原因是批量大小不足以让DBN完全激活每一层。对于IterNorm，我们在实验中不使用分组白化，除非另有说明。迭代次数的影响IterNorm的迭代次数T控制白化的程度。在这里，我们探索T对IterNorm性能的影响，范围为{0，1，3，5，7}。注意，当T=0时，我们的方法简化为归一化特征值，使得特征值之和为1。图7（a）显示了结果。我们发现，最小（T=0）和最大（T=7）的迭代次数都有训练效率方面的性能较差此外，当T=7时，IterNorm具有显著更差的测试性能。这些观察结果表明：（1）在一个小批量内的白化可以提高优化效率，因为IterNorm沿着特征向量的维度逐步拉伸数据，使得随着迭代T的增加，对应的特征值朝向1;（2）控制白化的程度对其成功至关重要，因为沿着小的特征值拉伸维度可能会产生大的SND，如第4节所述，这不仅使估计总体统计量变得困难-因此导致更高的测试误差-而且使优化变得困难。除非另有说明，否则我们在后续实验中使用迭代次数5。小组规模的影响我们还研究了小组规模的影响。我们在{256，64，32，1}中改变组大小，与IterNorm的全白化操作（组大小为512）一致请注意，我们的组大小为1的IterNorm，像DBN一样，也被简化为批量归一化[19]，这是由等式n确保的。4和5.结果如图7一BNIterNorm一4880BNDBNIterNormBNDBNIterNormBNDBNIterNorm误差误差误差20 20 20 2015 15 15 1510 10 10 105 5 5 500 50 100 150历元(a) 基本配置00 50 100 150历元(b) 批量102400 50 100 150历元(c) 批量1600 50 100 150历元(d) 10倍的学习速度图6.BN，DBN和IterNorm在CIFAR-10数据集上VGG的比较我们报告训练（实线）和测试（虚线）相对于时期的错误。201510500 50100历元（一）Iter0Iter1Iter3Iter5Iter7150201510500 50100历元（b）第（1）款G512G256G64G32G11501510500 50 100 150200历元(a)WRN-28-101510500 50 100 150 200历元(b)WRN-40-10图7.基于CIFAR-10数据集的VGG消融研究。我们报告训练（实线）和测试（虚线）误差曲线。(a)显示了不同迭代次数对IterNorm的影响;（b）显示了IterNorm的不同组大小的影响。（b）. 我们可以发现，我们的IterNorm，不像DBN，是不敏感的大组大小，不仅在训练中，而且在测试中。主要原因是IterNorm沿着特征向量的维度逐渐拉伸数据，使得对应的特征值朝向1，其中每个维度的收敛速度与相关特征值成比例[4]。即使在高维空间中有许多小特征值或零，IterNorm也只是在给定小迭代T的情况下沿着相关特征向量稍微拉伸了维度，这引入了很少的SND。在实践中，我们可以使用较小的组大小，这可以降低计算成本。我们建议使用64的组大小，这是在5.2节和5.3节的实验中为IterNorm提出的。基线比较我们将T=5的IterNorm与BN和DBN进行比较。在基本配置下，我们还对其他配置进行了实验，包括（1）使用1024的大批量;（2）使用16个小批量;以及（3）将学习率提高10倍，并且考虑基于小批量的归一化高度依赖于批量大小，并且它们的益处来自于改进的条件以及因此更大的学习率。所有实验设置都是相同的，只是我们在{ 0}中搜索不同的学习率。四，零。1，0。0125}对于不同的批量大小，基于线性缩放规则[10]。图6显示了结果。我们发现我们提出的IterNorm收敛最快图8.基于CIFAR-10的宽残差网络的比较数据集。实线表示训练误差，虚线表示测试误差。(a)显示了WRN-28-10和（b）WRN-40-10的结果。比BN更强的泛化能力特别是IterNorm使BN的绝对测试误差降低了0. 79%，0. 53%，1. 11%，0. 75%，DBN为0。22，0。37，1. 05，0。五十八结果表明，我们的IterNorm优于BN和DBN的优化质量和泛化能力。5.2. CIFAR-10宽残差网络我们将IterNorm应用于宽残差网络（WRN）[50]提高CIFAR-10的性能。遵循[50]中的常规描述，我们使用焦度WRN-d-k来指示具有深度d和宽度K.我们采用公开可用的Torch实现2，并遵循与[50]相同的设置。我们将IterNorm应用于WRN-28-10和WRN-40-10，将所有BN模块替换为IterNorm。图8给出了与训练时期相关的训练和测试误差。我们清楚地发现，在优化效率和泛化能力方面，我们提出的IterNorm的宽残差网络表1显示了与先前报告的基线和DBN结果相比的最终测试误差[17]。结果表明，IterNorm在CIFAR-10上使用 BN和DBN特别是，我们的方法将测试误差降低到3。WRN-28-10为56%，相对改善8。5%的表现超过而在《易经》中，最好的，也是最好的。从BN到DBN。DBN也有更好的优化和2https://github.com/szagoruyko/wide-residual-networksBNDBNIterNormBNIterNormBNIterNorm误差误差误差误差误差4881方法Top-1Top-5基线 *[11]30.43 10.76DBN-L1*[17]基线DBN-L1IterNorm-L1 29.34 10.22IterNorm-Full 29.30 10.21IterNorm-L1 + DF28.86 10.08方法WRN-28-10WRN-40-10基线 *[50]3.893.80[17]第十七话3.79 ±0.093.74 ±0.11基线3.89 ±0.133.82 ±0.11IterNorm3.560.12±3.590.07表1.CIFAR-10上宽残差网络的测试误差（%）。所有结果均在5个随机种子上计算，并以“平均值±标准差”的格式显示。我们根据[ 50 ]中发布的代码复制了表2. ILSVRC-2012上18层残差网络的验证误差（%，单一模型和单一作物）比较。‘Baseline*’[17]训练90次。5.3. 使用残差网络我们验证了我们的方法在1000类ImageNet分类的残差网络上的有效性[8]。我们使用给定的官方1.28M训练图像作为训练集，并在50k图像的验证集上评估前1和前5个分类错误Res-18的消融研究我们首先对18层残差网络（Res-18）执行消融研究，以探索用IterNorm替换BN的多个位置。使用的模型如下：（a）“IterNorm-L1”：我们仅替换ResNet-18的第一个BN模块，使得来自先前层的装饰相关信息可以通过[ 17 ]中描述的身份连接直接传递到后面的层;（b）我们还替换了被指示为“IterNorm-full”的所有BN模块;我们遵循与[ 11 ]中描述的相同的实验设置，除了我们使用1个GPU并训练超过100个epoch。我们应用SGD，小批量大小为256，动量为0.9，重量衰减为0.0001。初始学习率设置为0.1，在30、60和90个epoch时除以10，并在100个epoch时结束训练。我们发现，无论是使用DBN还是IterNorm，仅替换第一个BN都有效地提高了原始残差网络的性能。我们的 IterNorm 的性能比 DBN 稍好。我们发现，替换IterNorm的所有层与仅替换第一层相比没有显著的改善。我们推测，原因可能是学习的残差函数表3. ILSVRC-2012上50/101层残差网络的测试误差（%，单一模型和单一作物）比较。https://github.com/KaimingHe/deep-residual-networks‘Baseline*’倾向于具有如[11]所示的小响应，并且将该小响应拉伸到前一个的幅度可能导致负面影响。基于我们发现这显著提高了性能，如表2所示，称为这种应用IterNorm的方式可以改善原始残差网络，并引入可以忽略不计的计算成本。我们还尝试使用DBN去相关的特征表示。然而，它总是遭受的问题，特征分解不能收敛。Res-50/101上的结果我们进一步将我们的方法应用于50层和101层残差网络（ResNet-50和ResNet-101），并执行单一模型和单一作物测试。我们使用与之前相同的实验设置，除了我们使用4个GPU并训练超过100个epoch。结果示于表3中。我们可以看到，与原始残差网络相比，“IterNorm-L1”实现了更低的测试错误。'IterNorm-L1 + DF '进一步提高了性能。6. 结论本文提出了基于牛顿迭代法的迭代归一化（Iter-Norm）.该算法通过去相关激活提高了标准BN的优化效率和泛化能力，通过避免计算量大的特征分解提高了 DBN 的优化效率我们引入了随机归一化扰动（SND）来度量归一化中固有的随机不确定性。在SND的支持下，我们对归一化方法的性能进行了全面的分析我们在CIFAR-10和ImageNet数据集上展示了Iter-Norm的一致性能改进。结合条件反射和SND的分析可能会为未来的归一化工作带来新的愿景，我们提出的IterNorm可能会用于设计网络架构。方法RES-50前5名Res-101前5名基线 *[11]24.707.8023.607.10基线23.957.0222.456.29IterNorm-L123.286.7221.955.99IterNorm-L1 + DF22.916.4721.775.944882引用[1] Devansh Arpit，Yingbo Zhou，Bhargava Urala Kota，andVenu Govindaraju.归一化传播：一种用于消除深度网络中内部协变量偏移的参数技术。InICML，2016. 2[2] Andrei Atanov，Arsenii Ashukha，Dmitry Molchanov，Kirill Neklyudov，and Dmitry Vetrov.通过随机批量归一化的不确定性估计。在ICLR研讨会，2018年。4[3] Lei Jimmy Ba、Ryan Kiros和Geoffrey E.辛顿层归一化。CoRR，abs/1607.06450，2016。一、二、四[4] 达里奥尼古拉斯·比尼Higham，and Beatrice Meini.矩阵p次根的算法。数值算法，39（4）：349-378，2005年8月。二三五六七[5] 约翰·比约克，卡拉·戈麦斯，巴特·塞尔曼。了解批处理规范化。在NIPS，2018年。1[6] 放大图片作者：Michael Cogswell，Faruk Ahmed，RossB.吉希克，拉里·兹尼克，和德鲁夫·巴特拉.通过解相关表示减少深度网络中的过拟合ICLR，2016年。1[7] TimCooijmans，NicolasBallas，Ce'sarLaurent和AaronC.考维尔循环批处理规范化。在ICLR，2017。2[8] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞ImageNet：一个大规模的分层图像数据库。CVPR，2009。二、六、八[9] 纪尧姆·德雅尔丁，凯伦·西蒙尼扬，拉兹万·帕斯卡努，和科雷·卡武库奥卢。自然神经网络2015年，在NIPS中。一、二、五[10] PriyaG o yal ， PiotrDoll a´r ， RossB.Girshick ，PieterNoord-huis ，Lukasz Wesolowski ，Aapo Kyrola ，Andrew Tulloch，Yangqing Jia，and Kaiming He.精确的大批量 SGD ： 1 小时内训练 imagenet CoRR ，abs/1706.02677，2017。7[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在CVPR，2016年。一、六、八[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射在ECCV，2016年。1[13] Elad Hoffer ， Ron Banner ， Itay Golan ， and DanielSoudry.规范事项：深度网络中高效、准确的规范化方案。arXiv预印本arXiv：1803.01814，2018。2[14] Gao Huang，Zhuang Liu，and Kilian Q.温伯格密集连接的卷积网络。在CVPR，2017年。1[15] 黄磊，刘祥龙，勃朗，亚当斯，魏宇，王永良，李波。正交权重归一化：深度神经网络中多个相关stiefel流形上的优化解决方案。在AAAI，2018。2[16] 黄磊，刘祥龙，刘洋，勃郎，陶大成。中心权重归一化加速深度神经网络训练InICCV，2017. 2[17] 黄磊、杨大伟、勃郎、邓佳。解相关批处理归一化。在CVPR，2018年。一二三四五六七八[18] 谢尔盖·约菲批量重正化：减少批量标准化模型中的小批量依赖在NIPS，2017年。二、四[19] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML ，2015。一二三四六[20] GunterKlambauer ， ThomasUnterthiner ， AndreasMayr ，andSepp Hochreiter.自规范化神经网络在NIPS。2017. 2[21] Jonas Kohler ， Hadi Danesh

下载后可阅读完整内容，剩余1页未读，立即下载