批量白化的随机性及其在深度学习中的应用

168 浏览量更新于2023-10-24 收藏 12.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

-202-3-2-10123-202-3-2-10123-202-3-2-10123-202-3-2-1012364390对批量白化的随机性进行调查0黄磊† 赵磊周毅† 朱凡† 刘力† 邵灵†0† 人工智能启示研究所（IIAI），阿布扎比，阿联酋0{lei.huang, yi.zhou, fan.zhu, li.liu, ling.shao}@inceptioniai.org bhneo@126.com0摘要0批量归一化（BN）在各种网络架构中广泛应用，通过在小批量中执行标准化来实现。对该过程的全面理解一直是深度学习社区的一个核心目标。与现有的研究不同，本文不仅分析标准化操作，还研究了更一般的批量白化（BW）。我们的研究源于这样一个观察结果：虽然各种白化变换可以等效地改善条件，但它们在有区分性的场景和训练生成对抗网络（GAN）中表现出明显不同的行为。我们将这种现象归因于BW引入的随机性。我们定量地研究了不同白化变换的随机性，并展示了它与训练过程中的优化行为之间的相关性。我们还研究了随机性与推理过程中的总体统计估计之间的关系。基于我们的分析，我们提供了一个在不同场景下设计和比较BW算法的框架。我们提出的BW算法在ImageNet分类任务上显著改进了残差网络的性能。此外，我们还展示了BW的随机性可以提高GAN的性能，但牺牲了训练的稳定性。01. 引言0标准化技术在数据预处理期间广泛用于学习算法[24, 22,11]。已经证明，对输入进行居中、缩放和去相关操作可以加速训练[24]。此外，将所有上述操作结合在一起对输入进行白化，可以改善Hessian的条件，使梯度下降更新类似于牛顿更新[24, 44,15]。批量归一化（BN）[18]将将输入标准化扩展到深度神经网络（DNN）的中间层激活，并在深度学习社区中代表了一个里程碑式的技术[11, 41,45]。BN通过在一个小批量数据中执行居中和缩放来标准化激活，从而促进了优化[18, 21, 34]和泛化[3,4]。批量白化（BW）进一步扩展了BN的范围，通过消除标准化激活的相关性来改善性能[15]，在有区分性的场景和生成对抗网络（GAN）中得到了应用[37]。0示例归一化点采样点0（a）BN标准化0示例归一化点采样点0（b）PCA白化0示例归一化点采样点0（c）ZCA白化0示例归一化点采样点0（d）CD白化0图1.我们从16维空间中的高斯分布中采样1000个样本（黑色点），并在二维子空间中展示这些样本（第6和第16维）。给定一个样本x（红色菱形），当与100个不同的小批量XB（B=64）组合时，我们提供归一化的输出ˆx（黄色五角星），其中（a），（b），（c）和（d）分别显示了BN标准化，PCA，ZCA和CD白化的结果。0（BW）通过消除标准化激活的相关性，进一步扩展了BN的范围。已经证明它可以改善有区分性的场景[15]和生成对抗网络（GAN）[37]的性能。0尽管BW在改善条件的理论支持下，仍存在一些有趣的与BW相关的观察结果尚未深入探索。首先，虽然各种白化变换可以等效地改善条件，但它们在性能上存在显著差异：1）主成分分析（PCA）白化几乎无法收敛，而零相位分析（ZCA）白化在有区分性的场景中效果良好；2）Cholesky分解（CD）白化在GAN训练中的性能明显优于ZCA，但在有区分性的情况下略差。其次，基于组的白化——将特征分成组并在每个组内进行白化——在有区分性的场景中是必不可少的。64400[15,30]已经证明，在训练GANs时，完全特征白化可以获得更好的性能[37]。本文重点解释了BW的上述观察结果。我们发现，归一化批次数据引入的随机性（图1）可能是揭示BW有趣现象的关键。我们使用称为随机归一化扰动（SND）[16]的评估方法，定量地研究了不同白化变换中的随机性大小。通过这样做，我们证明了PCA白化具有显著较大的随机性，无论是通过增加批次大小还是使用基于组的白化都很难控制。另一方面，ZCA白化具有最小的随机性，而CD白化具有适度的随机性，并且更重要的是，它们的随机性可以很好地控制。这表明ZCA白化在训练中应具有更好的优化行为，而PCA白化由于增加的随机性而在收敛方面存在问题，从而减慢了优化的进展[40,16]。我们还研究了推理过程中的随机性，这是由于在训练过程中通过小批量统计平均估计总体统计。我们表明，在估计白化矩阵的总体统计时，间接使用小批量协方差矩阵（我们在训练后计算白化矩阵）比直接使用小批量白化矩阵更稳定。我们进一步进行了实证研究，以了解这一观察结果背后的原因，并发现与协方差矩阵相比，小批量白化矩阵的随机序列具有更大的多样性。基于以上分析，我们提供了一个在不同场景中设计和比较BW算法的通用框架。我们设计了新的BW算法，并将其应用于ImageNet数据集[7]的残差网络[11]，显著提高了原始算法的性能。我们还对训练GANs进行了全面的实验。我们表明，当与着色结合使用时，完全特征白化可以提高评估的最终得分。然而，它会降低训练的稳定性，并且对超参数配置更敏感。我们将这种现象归因于BW引入的随机性产生的两个主要影响：1）强随机性可以增加生成图像的多样性，从而提高GAN的性能；2）同时，高随机性会损害优化，因此对超参数更敏感。我们认为，在训练GANs中控制白化的幅度（随机性）也很重要，并通过实验证实了这一观点。02. 相关工作0以前对BN的分析主要集中在优化方面。一个主要观点是，BN可以改善优化问题的条件。这个观点最初在BN论文中提出[18]，并且进一步0研究表明，在某些假设下，BN可以使优化问题的景观更加平滑[34]。Ghorbani等人[9]通过计算大规模数据集的Hessian矩阵的谱来研究这个解释。人们认为，改善的条件使得可以使用更大的学习率，从而提高泛化性能，如[4]所示。另一个观点是，由于其尺度不变性[18,3]，BN可以自适应地调整学习率[6, 14,1]。这个效应在与权重衰减[47]结合讨论时进一步讨论过。其他研究还包括对信号传播和梯度反向传播的研究[46]。与这些方法不同，我们的工作侧重于分析批次数据上白化的随机性。白化对批次数据的归一化引入的随机性首次在BN论文中提到[18]，并在[2,42]中从贝叶斯优化的角度进一步探讨。这种随机性导致训练分布（使用小批量统计）和测试分布（使用估计的总体统计）之间存在差异[17]，这被认为是BN的小批量问题的主要原因[45]。为了解决这个问题，已经提出了一些方法[45, 32,28, 17, 43,39]。此外，还观察到BN在训练过程中也遇到了优化困难[35,16]。这种现象在[16]中的随机分析中得到了探讨。与上述侧重于标准化的研究不同，我们首次分析了批次白化的随机性。我们提出，分析白化而不是标准化，在理解归一化批次数据行为方面具有几个优势：1）白化变换有无限多种，主要变换在第1节中讨论时显示出显著差异；2）白化的程度（随机性）可以通过批次和组大小很好地控制，这在设计实验时提供了更多信息。我们的工作与关于DNN激活的白化方法有关。一种方法是将白化矩阵视为要使用完整数据估计的模型参数[8, 27]。这种白化方法也被用于图像风格转换任务[25,36]。另一种研究方向是批次白化，这是本文讨论的内容。该方法将归一化视为对小批量输入的函数。主要的工作包括PCA白化、ZCA白化[15]及其近似ItN[16]，以及CD白化[37]。Pan等人[30]提出了可切换白化，以学习DNN中不同的批次/实例白化/标准化操作。然而，他们只使用了ZCA白化变换。我们的工作旨在通过随机分析来理解不同白化变换的行为。03. 批量白化的随机性分析0设 X ∈ R d × m 是表示某一层中大小为 m的小批量输入的数据矩阵。为了简化讨论，我们假设数据已经居中，通过执行population statistics �G (Eqn. 2) can be viewed as stochasticvariables, because they depend on the mini-batch inputswhich are sampled over datasets. For illustration, we deferthe analysis of the stochasticity to Sections 3.2 and 3.3, andﬁrst provide a review of the whitening transformations.3.1. Whitening TransformationsThere are an inﬁnite number of possible whitening ma-trices, as shown in [19, 15], since any whitened data with arotation is still whitened. This paper focuses on the whiten-ing transformations based on PCA, ZCA and CD, since thesethree transformations have shown signiﬁcant differences inperformance when used in training DNNs [15, 37]. Note thatBN [18] can be viewed as a special case of batch whitening,since it performs standardization without removing correla-tions, where GBN = (diag(Σ))−1/2 with diag(·) setting theoff-diagonal elements of a matrix to zeros. To simplify thedescription, this paper regards BN as a (reduced) whiteningtransformation, unless otherwise stated.PCA Whiteninguses GP CA = Λ− 12 DT , where Λ =diag(σ1, . . . , σd) and D = [d1, ..., dd] are the eigenvaluesand associated eigenvectors of Σ, i.e. Σ = DΛDT . Underthis transformation, the variables are ﬁrst rotated by theeigen-matrix (D) of the covariance, then scaled by the squareroot inverse of the eigenvalues (Λ− 12 ). PCA whitening overbatch data suffers signiﬁcant instability in training DNNs,and hardly converges, due to the so called Stochastic AxisSwapping (SAS), as explained in [15].212325272910-410-2100"27282921021121210-310-210-1"64410X := X - µ ∙ 1 T，其中 µ = 1/m X ∙ 1 是 X 的均值，1是全为1的列向量。白化通过以下方式对小批量输入进行归一化：� X= GX，(1)其中 G 是从相应的协方差矩阵 Σ = 1/m XX^T导出的小批量白化矩阵。用于推断的白化矩阵 � G的总体统计通常通过对小批量进行运行平均计算得到，如下所示：�G = (1 - λ) � G + λG。 (2)02 D T ，其中PCA白化输入通过相应的旋转矩阵 D旋转回来。ZCA白化通过沿特征向量方向进行拉伸/压缩来工作。已经证明ZCA白化在区分性分类任务上避免了SAS并且具有比标准化（BN中使用的方法）更好的性能[15]。CD白化使用 G CD = L^(-1)，其中 L是来自Cholesky分解的下三角矩阵，满足 LL^T =Σ。这种白化方法通过递归地将当前维度与先前不相关的维度进行去相关，从而得到其白化矩阵的三角形形式。已经证明CD白化在训练GANs时达到了最先进的性能，而ZCA白化的性能退化。0维度0BN PCA ZCA CD0批量大小0BN PCA ZCA CD0(b) 图2.不同批量白化方法的SND比较。我们从高斯分布中采样了60,000个示例作为训练集。为了计算SND，我们使用 s = 200 和 N = 20。我们展示了(a)与维度范围从 2 到 9 相关的SND；(b)与批量大小范围从 2 的 7次方到 2 的 12 次方相关的SND，维度为128。0对于维度范围从 2 到 9 ，在批量大小为1024的情况下；(b)对于批量大小范围从 2的 7 次方到 2 的 12 次方，在维度为128的情况下的SND。0本文的主要动机是研究以下问题：尽管所有白化方法都等效地改善了层输入的条件，为什么它们在训练DNNs时表现出明显不同的行为？在接下来的章节中，我们提供了一个统一的分析，并证明关键在于归一化过程中批量数据引入的随机性。03.2. 训练过程中的随机性0给定一个来自分布 P χ 的样本 x ∈ R d ，我们用大小为 B的样本集 X B = { x 1 , ..., x B , x i � P χ }来采样。白化后的输出 ˆ x 可以表示为 ˆ x = G(X B ;x)。对于一个特定的 x ，X B 可以被视为一个随机变量 [2,42, 16]。因此，ˆ x也是一个显示随机性的随机变量。在这里，我们研究不同白化变换的随机性效应。为了提供更直观的说明，我们进行了一个玩具实验，展示了当与不同的样本集 X B结合时，一个样本的归一化输出如何改变，通过执行不同的白化方法。图1(a)、(b)、(c)和(d)分别显示了进行BN、PCA、ZCA和CD白化时的结果。很明显，一个样本的PCA白化输出的分布非常稀疏，这意味着ˆ x具有显著的多样性。这表明PCA白化提供了较大的随机性。另一方面，BN标准化输出显示出紧密的高斯分布，这表明BN具有较小的随机性。需要注意的是，BN不能保证归一化输出具有单位协方差矩阵，而其他白化方法可以。类似地，我们还观察到与CD相比，ZCA白化提供了较小的随机性。事实上，已经证明ZCA白化可以最小化原始变量和白化变量之间的总平方距离[19,15]。我们推测这种属性导致ZCA白化的随机性比CD小。03.2.1定量分析0为了提供定性比较，我们利用了[16]中引入的称为随机归一化干扰（SND）的评估。对于0102030050100BNCDPCAZCA05100510BNCD-16ZCA-16�∆G(x) = 1�G(XBi ; x) − 12123252729Group Size10-310-210-1100"BNCDPCAZCAItN5ItN70246G1G16G32G128G256G51264420Epochs0训练错误率(%)0Epochs0训练错误率(%)0(b) 图3.在每层具有256个神经元的4层MLP上进行实验，用于MNIST分类。我们使用批量大小为1024，并报告训练错误。(a) 全白化方法的结果；(b)基于分组的白化方法的结果，其中'ZCA-16'表示组大小为16的ZCA白化。0样本x在归一化G(∙)之后的随机性定义为：0s0s �0s0j =1 G ( X B j ; x ) � , (3)0其中s表示从数据集中随机抽样的小批量{X Bj}sj=1的数量。SND可用于评估归一化操作后样本的随机性[16]。此外，归一化操作G(∙)的经验SND定义为� ∆ G = 1 N �Ni=1 � ∆(xi)给定N个样本。� ∆G描述了相应归一化操作的随机性的大小。在这里，我们进行实验以定量评估不同归一化方法的效果。值得注意的是，随机性与批量大小m和维度d有关。图2(a)显示了在固定批量大小为1024时，不同归一化方法相对于维度的SND。我们发现，PCA白化在所有维度上都显示出最大的SND，而BN则最小，这与图1中的观察结果一致。我们注意到，所有白化方法在维度增加时都有增加的SND。此外，ZCA在所有维度上的SND小于CD，这也与图1中的数据一致。图2(b)显示了在固定维度为128时，不同归一化方法相对于批量大小的SND。有趣的观察是，PCA白化在不同批量大小之间几乎具有相同的大SND。这表明，无论小批量协方差矩阵的估计有多准确，PCA白化都极不稳定。这种效应与[15]中显示的随机轴交换（SAS）的解释一致，其中在执行PCA白化时，示例的微小变化导致表示的大变化。为了进一步研究这种随机性如何影响DNN训练，我们在每层具有256个神经元的四层多层感知器（MLP）上进行实验。我们评估与时代相关的训练损失，并在图3(a)中显示结果。我们发现，在所有白化方法中，ZCA效果最好，而PCA效果最差。我们认为这与它们产生的SND密切相关。显然，增加的随机性会减慢训练速度，即使所有白化方法都具有相等的00 100 200 300 400 500 索引0特征值0(b) 图4. 基于分组的白化实验。(a)我们显示了不同归一化操作相对于组大小的SND。实验设置与图2相同，输入维度为d = 512。(b)我们显示了ZCA白化输出的协方差矩阵的频谱（注意，CD/PCA白化与ZCA白化具有相同的频谱），其中'G16'表示组大小为16的白化。0改进的条件。有趣的观察是，在这种情况下，BN的效果比ZCA白化更好。这令人惊讶，因为ZCA通过消除相关性[15]而改善了条件，理论上应该具有更好的优化行为。然而，ZCA白化的放大随机性减弱了这种优势，从而导致性能退化。因此，从优化的角度来看，我们应该控制随机性的程度。3.2.2通过分组控制随机性0Huang等人[15]提出使用组来控制白化的程度。他们认为当批量大小不足够大时，该方法减少了估计完整协方差矩阵的不准确性。在这里，我们通过实验证明了基于组的白化如何影响SND，提供了在引入随机性和改善条件之间取得良好平衡的方法。这对于实现更好的优化行为至关重要。我们通过改变组大小（从2到512）来评估不同白化变换的SND，如图4(a)所示。我们还在图4(b)中显示了基于组的白化输出的协方差矩阵的频谱。我们发现组大小有效地控制了ZCA/CD白化的SND。随着组大小的减小，ZCA和CD显示出降低的随机性（图4(a)），同时也出现退化的条件（图4(b)），因为输出只是部分白化。此外，我们观察到，PCA白化在所有组大小上仍然具有较大的SND，并且没有显著差异。这一观察进一步证实了[15]中给出的SAS的解释，即PCA白化极不稳定。我们还在图4(a)中显示了近似ZCA白化方法（称为ItN[16]）的SND，该方法使用牛顿迭代来近似计算白化矩阵。我们将“ItN5”表示为迭代次数为5的ItN方法。有趣的观察结果是，当使用较大的组大小（例如256）和较小的迭代次数（例如T=5）时，ItN的SND比BN小。这表明我们可以进一步结合组大小和迭代次数来控制ItN的随机性，为近似ZCA白化提供一种高效稳定的解决方案。��3.3. Stochasticity During InferenceIn the previous section we have shown that performingdifferent whitening transformations, by introducing differentmagnitudes of stochasticity, results in signiﬁcantly differenttraining behaviors from an optimization perspective. It’sclear that such a stochasticity will also affect the ﬁnal testperformance during inference, because the population statis-tics �G is estimated by running average (Eqn. 2) over thestochastic sequences {Gt}Tt=1, where T is the total numberof training iterations. The more diverse of the stochasticsequence {Gt}Tt=1, the more difﬁcult to accurately estimate�G. Rather than estimating �G directly, Siarohin et al. [37]proposed to ﬁrst estimate the population statistic of the co-variance matrix �Σ, then compute �G based on �Σ after training.However, no further analysis was provided to explain whythey do like this.Here, we provide an empirical investigation on how the es-timation object (G/Σ) in Eqn. 2 affects the test performance.Let �GG and �GΣ denote the method to estimate �G by Gand Σ, respectively. We conduct experiments on MLP withvariations in width (the number of neurons in each layer) andbatch size, for MNIST classiﬁcation. Figure 5 (a) and (b)show the results of ZCA and CD whitening, respectively. Weﬁnd that �GΣ has better performance than �GG, especiallyunder the scenarios with large width and small batch size (In-tuitively, estimating in high-dimensional space with a smallbatch size will make the estimation noisier). This suggeststhat using Σ to estimate �G indirectly is more stable than00.10.20.30.4100102104FrequencyZCAGZCA'00.0020.0040.0060.0080.010.0120200040006000800010000FrequencyZCAGZCA'64430无效数据0无效数据0无效数据0无效数据0无效数据0无效数据0无效数据0无效数据0无效数据0无效数据0无效数据03.3. 推理过程中的随机性在前一节中，我们已经展示了通过引入不同程度的随机性进行不同白化变换，从优化的角度来看，会导致显著不同的训练行为。很明显，这种随机性也会影响推理过程中的最终测试性能，因为人口统计学�G是通过对随机序列{Gt}Tt=1（其中T是训练迭代的总数）进行运行平均（方程2）来估计的。随机序列{Gt}Tt=1的多样性越大，准确估计�G的难度就越大。Siarohin等人[37]提出首先估计协方差矩阵的人口统计量�Σ，然后在训练后基于�Σ计算�G。然而，他们没有进一步分析为什么要这样做。在这里，我们对方程2中的估计对象（G/Σ）对测试性能的影响进行了实证研究。用�GG和�GΣ分别表示通过G和Σ估计�G的方法。我们对具有不同宽度（每层神经元数量）和批量大小的MLP进行MNIST分类训练实验。图5(a)和图5(b)分别显示了ZCA和CD白化的结果。我们发现，�GΣ比�GG具有更好的性能，特别是在宽度较大和批量大小较小的情况下（直观上，使用小批量大小在高维空间中进行估计会使估计结果更加嘈杂）。这表明间接使用Σ来估计�G比直接估计更稳定。0上述观察结果为神经网络中白化的应用提供了重要的见解（特别是在需要装饰某一层激活的情况下），我们将在第4节中进一步阐述。我们还在四层MLP实验中使用了基于组的ZCA/CD白化方法。结果如图3(b)所示。我们观察到，ZCA和CD白化在控制随机性的情况下，通过使用组大小为16，实现了比BN更好的训练行为。0(b) ˜δ(�GM)的直方图图6.估计�G的随机序列多样性分析。我们报告了δ(�GM)和˜δ(�GM)的直方图。0直接使用G。另一个有趣的观察是，通过比较图5(a)和(b)，使用CD白化的估计方法之间的差异小于ZCA白化。我们进一步分析随机序列{Mt}Tt=1的多样性如何影响对�G的估计，其中M∈{G,Σ}。直观上，如果随机序列具有较高的多样性，则估计的效果将更差。我们将�G的每个元素视为一个独立的随机变量，并在训练过程中计算每个元素的标准差，计算公式如下：0δ(�GijM)=010T0t=1(Mijt−10T0t=1(Mijt�))2，(4)0其中�Gij(Mijt)表示�G(Mt)的第(i,j)个元素。此外，我们计算每个元素的标准差的归一化值˜δ(�GijM)，如等式4所定义的，计0计算公式：Mijt=Mijt/∑Tt=1(Mijt)2。图6(a)和0(b)显示了使用ZCA白化时δ(�GM)和˜δ(�GM)的直方图。我们清楚地发现，�GG的平均标准差较大，因此总体上具有较大的多样性，相比之下，�GΣ的多样性较小。这揭示了使用Σ相对于使用G来估计�GG更稳定的原因。04.视觉任务评估0根据前面的分析，我们可以设计新的BW算法，并通过使用BW构建更有效的DNN。我们在分类和训练GANs中进行了研究。可以在https://github.com/huangleiBuaa/StochasticityBW上找到重现实验的代码。04.1.批量白化算法的全貌我们提供了算法1中针对矢量输入X∈Rd×m的批量白化算法的总体视图。反向传播需要通过白化变换，我们在补充材料中提供了详细信息以保证完整性。对于特征图输入XF∈Rh×w×d×m，其中h和w表示高度和宽度，白化变换在展开的X∈Rd×(mhw)上执行，因为特征图的每个空间位置可以视为一个样本[18]。请注意，算法1的第11行提供了一个额外的步骤来恢复归一化的表示能力，该步骤在[18,3, 15, 45]中被证明在实践中是有效的。0204060801001200204060BNZCA-16ItNCD-512CD-256CD-128CD-64CD-1602040608010012010203040BNZCA-16ItNCD-512CD-256CD-128CD-64CD-1664440算法1批量白化算法的总体视图。01：输入：小批量输入X∈Rd×m。2：输出：Y∈Rd×m。3：如果训练，则执行以下步骤：4：计算协方差矩阵：Σ=1mXXT+εI。5：计算白化矩阵：G=φ1(Σ)。06：计算白化输出：�X=GX。7：更新总体统计数据：�G=φ2(Σ/G)。8：否则9：计算白化输出：�X=�GX。10：结束如果11：恢复表示：Y=φ3(�X)。0组件值0白化变换{‘ZCA’，‘PCA’，‘CD’，‘ItN’}；估计对象{‘Σ’，‘G’}；恢复操作{‘缩放和平移’，‘上色’}0表1.本文讨论的不同组件在算法1中的值范围。值的笛卡尔积考虑了本研究中使用的批量白化算法的全貌。0对于φ3有两种选择：一种是逐维度缩放和平移[18,15]：Yk=γk�Xk+βk，(k=1，...，d)；另一种是上色变换：Y=W�X+b，该变换在[37]中提出，以在训练GANs时获得更好的性能。通过结合白化变换φ1、估计对象φ2和恢复操作φ3，我们可以设计不同的BW算法。表1显示了本文讨论的不同组件的值范围。请注意，ItN[16]是ZCA白化的高效且数值稳定的近似方法。我们对所有算法使用“缩放和平移”操作φ3，除非另有说明。04.2. 对区分场景的研究在本节中，我们首先从优化的角度研究了不同的白化变换对于CIFAR-10数据集[22]中VGG网络[38]的训练的影响。然后，我们通过在残差网络[11]上应用设计的BW算法，展示了在大规模ImageNet分类[7]上的性能。04.2.1 CIFAR-10上的VGG0我们使用适用于32×32输入的VGG网络[38]（16个卷积层和1个全连接层）。我们在VGG中的每个卷积层之后添加了归一化方法。我们比较了几种方法，包括：1）完全白化方法'PCA'、'ZCA'和'CD'；2）近似白化'ItN'和标准化'BN'；3）基于组的白化方法，组大小范围为{512,256,128,64,32,16}。我们将'ZCA-16'表示为组大小为16的ZCA白化。我们重点比较了从优化的角度来看训练性能，并在推理过程中使用小批量协方差矩阵'Σ'作为所有方法的估计对象。我们使用批量大小为256的SGD来优化模型。我们将初始学习率设为0.1，然后在60个epoch后将其除以50Epochs0训练错误（%）0Epochs0（b）测试错误图7. CIFAR-10分类的VGG实验0epochs并在120个epoch时完成训练。主要的实验观察包括：1）'PCA'在所有配置下都无法训练，这意味着训练损失要么不下降，要么出现数值不稳定。这个观察结果与之前的MLP模型一致。2）'ZCA-16'可以很好地训练，而其他与'ZCA'相关的配置由于数值不稳定而无法训练。这是由于反向传播需要不同的特征值来进行特征值分解，而小批量协方差矩阵[15,37]需要不同的特征值。3）'CD'没有数值不稳定性，并且可以确保模型的完全白化特征。与基于组的特征相比，完全白化特征在图7中显示的性能明显较差。这再次表明对于区分模型来说，控制白化的程度是至关重要的。4）我们发现'ItN'（ZCA白化的近似方法）效果最好。04.2.2 在ImageNet上的残差网络0我们研究了各种白化算法在具有1000个类别的ImageNet分类[7]的残差网络上的有效性。我们使用给定的官方1.28M训练图像作为训练集，并在包含50k图像的验证集上评估top-1准确率。0对ResNet-18进行消融研究首先，我们对18层残差网络（ResNet-18）进行消融研究，探索用BW替换BN的多个位置。我们考虑了三种架构：1）ARCA：我们只替换了[15]中提出的ResNet-18的第一个BN模块；2）ARCB：在最后的平均池化之后（最后一个线性层之前），根据ARC A进一步插入BW层，以学习基于ARCA的不相关的特征表示，如[16]中所提出的；3）ARCC：在ARCB的基础上，我们还替换了{2n，n=1,2,...}个BN模块（对于ResNet-50是第{3n}个）。我们在表1中比较了所有的白化变换和估计对象。'ZCA'和'ZCAΣ'分别表示使用G和Σ估计种群统计量的ZCA白化。对于'PCA'、'ZCA'和'CD'，我们使用{16,64}的组大小，并报告这两个配置中的最佳性能。我们遵循[11]中描述的相同实验设置，只使用一个GPU进行100个epoch的训练。我们使用小批量大小为256的SGD，动量为0.9，权重衰减为0.0001。初始学习率设为0.1，并在30、60和90个epoch时除以10。结果如表2所示。对于ARC A，我们发现64450��0��0��0��0��0��0��0��0��0��0��0��0��0��0��0��0��0��0��0��0��0��0��0��0��0图8. 使用Hinge Loss [29,5]进行GAN的稳定性实验，用于无条件图像生成。箱形图显示四分位数，须显示其余分布（为了更好的表示，我们将FID限制在（20,100）范围内，完整的FID范围请参见补充材料）。请注意，所有方法都使用协方差矩阵来估计总体统计量。0方法 ARC A ARC B ARC C0基线[11] 70.31 – – PCA[15] 59.93（下降10.38） – – PCA Σ70.01（下降0.30） – – ZCA[15] 70.58（上升0.27） – – ZCA Σ70.62（上升0.31） – – CD 70.46（上升0.15） 70.80（上升0.49）68.15（下降2.16） CD Σ[37] 70.55（上升0.24）70.89（上升0.58） 68.56（下降1.75） ItN[16] 70.62（上升0.31）71.14（上升0.83） 71.26（上升0.95） ItN Σ 70.63（上升0.32）71.33（上升1.02） 71.62（上升1.31）0表2.在ImageNet上使用18层残差网络的验证准确率（%，单模型和单裁剪）的比较。0除PCA相关方法外，所有白化方法都改善了基线的性能。我们观察到ZCA（ZCA Σ）及其近似的ItN（ItNΣ）的性能略优于CD（CDΣ），这一观察结果与[37]中的结果一致。这表明ZCA白化在减小白化引入的失真（在L2距离下）方面通常比其他白化方法更好，适用于判别分类任务。在ARC B和ARCC下，ZCA/PCA相关方法受到数值不稳定性的影响。我们还观察到CD相关方法在ARCC下性能明显下降。这意味着用CD白化来去相关多层引入的随机性对学习有害。我们发现ItN相关方法可以有效控制随机性，并在ARCC上进一步提高性能。我们尝试了将所有BN层替换为ItN的ResNet-18。然而，该网络在ARCA上没有性能改进，而引入的计算量却很大，这已经在[16]中观察到。这些结果表明，控制白化的程度（随机性）对于在标准化基础上实现性能改进是重要的。从所有的架构和白化方法中，我们观察到使用Σ来估计总体统计量比使用G更好，尤其是在ARC C上。0基于上述观察，我们进一步将ItNΣ应用于ResNet-50。除了之前使用的标准步长学习率衰减[11]之外，我们还考虑了余弦衰减[26]。0方法步长衰减余弦衰减0基线 76.20 76.62 ItN Σ -ARC B77.18（上升0.98） 77.68（上升1.06） ItN Σ-ARC C 77.28（上升1.08） 77.92（上升1.30）0表3.使用ResNet-50在ImageNet上的结果。我们评估了验证集上的top-1准确率（%，单模型和单裁剪）。在设置上，我们还考虑了余弦学习率衰减[26]，这也是在ImageNet上训练时的基本设置[12]，我们希望说明所提出的方法在不同设置下都可以获得改进。对于余弦衰减，我们从学习率0.1开始，在100个epoch内衰减到0.00001。我们发现所提出的模型在所有配置下都显著改善了原始模型的性能。‘ItN Σ -ARCB’和‘ItN Σ -ARCC’的额外时间成本分别比原始模型高出7.03%和30.04%。请注意，ItNΣ相对于[16]中提出的原始ItN，在这个实验中对所有配置都提供了轻微的改进（大约为0.1到0.4），详细信息请参见补充材料。此外，ItNΣ可以承受比ItN更大的组大小和更小的批量大小，这在训练GAN的场景中尤为重要，我们将在后面讨论。4.3.对

下载后可阅读完整内容，剩余1页未读，立即下载