没有合适的资源?快使用搜索试试~ 我知道了~
基于单元化的内部协变量转移约束算法
than training shallow networks because of deep architec-tures. It was commonly thought that stacking more layerssuffers from the problem of vanishing or exploding gradi-ents [7], but there are some problems of training with un-clear definitions. A problem called Internal Covariate Shift(ICS) [15] may hinder the convergence of training DNNs.ICS is derived from Covariate Shift (CS) that is causedby using data from two different distributions to respec-tively train and test a model, generally in the supervisedlearning process [28]. However, ICS mainly exists in thefeed-forward networks. Considering the lth layer of a net-work with L layers, a stack of following L − l layers formsa local network fl+1:L, whose input is the output of the lthlayer. Thus, the distribution of the input is affected by all theformer l layers’ weights. In detail, the objective function offl+1:L is defined as84650通过对层输出进行单元化,为深度神经网络提供了一种内部协变量转移约束算法0福州大学 黄幼0youhuang0607@gmail.com0于元龙 �0福州大学0yu.yuanlong@fzu.edu.cn0摘要0批归一化(BatchNormalization,BN)技术旨在通过保持层输出的分布不变来减少所谓的内部协变量转移(Internal CovariateShift,ICS)。实验证明,它们在训练深度神经网络时具有有效性。然而,由于这些BN技术只控制了前两个矩,似乎对层分布施加了较弱的约束,并且是否这种约束可以减少ICS尚不清楚。因此,本文提出了一种通过使用地球移动(EarthMover,EM)距离来衡量ICS的方法,并推导出该衡量的上下界,以提供对BN的理论分析。上界表明,BN技术只能控制低维度和小噪声的输出,而在其他情况下其控制是无效的。本文还证明了这种控制只是对ICS的界限而不是对ICS的减少。同时,分析表明,BN无法控制的高阶矩和噪声对下界有很大影响。基于这种分析,本文进一步提出了一种通过使用可调参数对输出进行单元化以进一步约束ICS的算法,以应对BN的问题。所提出的单元化的上界是无噪声的,仅由参数主导。因此,可以训练该参数来调整界限并进一步控制ICS。此外,单元化被嵌入到BN的框架中以减少信息损失。实验证明,该算法在CIFAR-10、CIFAR-100和ImageNet数据集上优于现有的BN技术。01. 引言0近年来,深度神经网络(DNNs)在图像识别[18]、语音识别[13]和其他领域[23,32]中表现出良好的性能。然而,由于深度结构,如何训练DNNs仍然是一个更复杂的问题。人们普遍认为,堆叠更多的层会遇到梯度消失或梯度爆炸的问题[7],但是对于训练的一些问题,定义不清晰。一种称为内部协变量转移(Internal CovariateShift,ICS)[15]的问题可能会阻碍训练DNNs的收敛。ICS源于协变量转移(CovariateShift,CS),后者是由于在监督学习过程中使用来自两个不同分布的数据来分别训练和测试模型而引起的[28]。然而,ICS主要存在于前馈网络中。考虑到具有 L 层的网络的第 l 层,后面的 L - l 层堆叠形成一个局部网络 f l +1: L,其输入是第 l 层的输出。因此,输入的分布受到所有前面 l 层的权重的影响。具体而言,f l +1: L 的目标函数定义为0� 通讯作者。0L ( Θ l +1: L ; p ( t ) l , p y ) = E x � p ( t ) l , y � p y ( ∙| x ) [h ( x , y ; Θ l +1: L )] , (1) 其中 p ( t ) l 是第 l 层在第 t次迭代的输出的分布; p y 是给定 x的最后一层的真实值的条件分布; Θ l +1: L 是 f l +1: L的权重; h ( x , y ; Θ l +1: L ) 是样本对 ( x , y )的损失。我们使用反向传播算法来训练网络。然而,在第 ( t+1) 次迭代中,目标函数 L ( Θ l +1: L ; p ( t +1) l , p y )与之前的目标函数不同,因为分布从 p ( t ) l 变为 p ( t +1)l 。因此,使用从 L ( Θ l +1: L ; p ( t ) l , p y )得到的梯度来更新 Θ l +1: L 可能无法减小 L ( Θ l +1: L ; p( t +1) l , p y ) ,因为 p ( t ) l 和 p ( t +1) l之间存在发散。此外,随着网络层数的增加,发散会变得更大。称为批归一化(BatchNormalization,BN)的技术已被提出,以尝试使分布保持不变。在实践中,BN通过规范化输出来控制前两个矩,即均值和方差,并使用两个可调参数来恢复在规范化输出中丢失的信息。实证结果表明,BN可以加速网络训练。84660提高成功率[11,29]。然而,BN是否真的能够降低ICS在理论上并不清楚。显然,第一个问题是如何衡量差异。此外,由于BN技术只控制了一阶和二阶矩,BN对分布的约束是弱的。因此,如何在理论上分析BN技术对ICS的约束是第二个问题。同时,一些实验表明,BN的性能提升似乎与ICS的减少无关[27]。实际上,当我们基于梯度策略训练网络时,ICS总是存在的,因为梯度策略必须给出权重更新,以使每一层的分布变化。此外,在梯度消失的情况下,ICS完全消除。然而,网络训练无法进行。这个案例说明了非常微小的ICS无法支持有效的训练。因此,控制ICS而不是消除ICS对于训练网络是有效的。因此,如何控制ICS以改善网络训练是另一个挑战。本文提出了一种ICS度量,即使用EarthMover(EM)距离[33]来衡量差异,受到Wasserstein生成对抗网络(WGAN)[1]成功的启发。此外,本文通过利用Kantorovich-Rubinstein对偶性[33]简化了度量。基于这个提出的ICS度量,本文进一步推导了在第(t +∆t)和第t次迭代时p(t +∆t)l和p(t)l之间的ICS的上界。上界表明,BN技术可以在低维情况下控制ICS的约束,且噪声较小。否则,使用BN技术时上界无法控制。因此,需要分析ICS的下界,特别是对于非平凡分布。因此,本文还推导了ICS的下界。结果表明,高阶矩和噪声对下界有很大影响。为了控制ICS,本文提出了一种利用归一化输出的算法。显然,归一化输出可以引入依赖矩的上界,但是当矩估计不准确时,这种归一化会降低。相反,本文在这个提出的算法中引入了一个可训练的参数α,使得上界是可调节的,通过微调α可以进一步控制ICS。重要的是,为了减少信息损失,所提出的归一化嵌入到BN框架中。实验证明,所提出的归一化在包括CIFAR-10、CIFAR-100 [17]和ImageNet[25]在内的基准数据集上优于现有的BN技术。02. 相关工作0批量归一化旨在通过稳定层输出的分布来降低ICS[15]。实际上,BN通过对输出进行归一化来控制前两个矩,这受到了将输出进行白化以加快训练的思想的启发[20]。然而,BN需要与足够大的批量大小一起工作,以减少矩的噪声,并且在某些任务中,当对批量大小的限制更严格时,BN的性能会下降[6, 9, 24]。因此,包括LN [2]、IN [5]和GN[36]在内的方法已经被提出。这些变种在每个样本中估计矩,减轻了微批量的影响。Kalman归一化(KN)通过Kalman滤波的优点来解决这个问题[34],并且提出了一种称为“EvalNorm”的方法来在推理过程中更准确地估计BN的矩。受BN启发的其他方法已经被提出来改进网络训练。权重归一化通过重新参数化权重将权重的长度与方向解耦,并加速训练的收敛[26]。Cho和Lee将BN层中的权重空间视为Riemann流形,并提供了一种遵循该流形的内在几何的新的学习规则[4]。余弦归一化使用余弦相似性并限制点积的结果,解决了大方差的问题[22]。Wu等人提出了一种使用l1范数对层输入进行归一化以减少计算和内存的算法[35]。Huang等人提出了装饰批量归一化,它对激活进行白化而不是归一化[14]。然而,对于BN,目前还没有完整的理论分析。Santurkar等人试图通过实验证明BN的性能提升与ICS的减少无关[27]。然而,第一个实验只是表明BN可以通过其他方式改善网络训练。在第二个实验中,梯度之间的差异不适合作为ICS的度量,因为梯度是敏感的,准确的估计需要足够的样本。Kohler等人对BN进行了理论分析[16],但是需要强假设。此外,Cai等人关注普通最小二乘回归,并分析了带有BN的梯度下降在稳定性和收敛性方面的影响[3]。另一方面,Yang等人发现由于BN引起的梯度爆炸,具有BN的网络的最大可训练深度受到限制[37]。总的来说,BN起作用的原因仍然不清楚。03. 单位化0EM距离需要较弱的假设,并且在改进生成对抗网络(GANs)[8]方面已经经过实证证明是有效的,它取代了传统的KL散度来制定目标函数W(p(t+∆t)l, p(t)l ) =infγ∈�(p(t+∆t)l,p(t)l)E(x,y)∼γ ||x − y|| ,W(p(t+∆t)l, p(t)l ) =sup||f||L≤1 Ex∼p(t+∆t)l[f(x)]−Ey∼p(t)l [f(y)],(µ(t+∆t)i− µ(t)i )2� 12 + 2.(4)(ǫ(t+∆t)µ,i− ǫ(t)µ,i)2� 12 + 2.(5)W(p(t+∆t)l, p(t)l ) =sup||f||L≤1 Ex∼p(t+∆t)l[f(x)] − Ey∼p(t)l [f(y)]1d12�C(−C)n +�xi>CCn�.(7)≥12C0d12����d�i=1(ǫ(t+∆t)µ,i)2 + ǫ(t+∆t)σ2,i− (ǫ(t)µ,i)2 − ǫ(t)σ2,i����.(8)�̸84670[1]。根据EM距离,第 l 层输出的ICS度量定义为0(2) 其中 � ( p ( t +∆ t ) l , p ( t ) l )表示所有联合分布的集合,其边际分布分别为 p ( t +∆ t ) l和 p ( t ) l[1]。然后,根据Kantorovich-Rubinstein对偶性[33],EM距离方程(2)可以重写为0(3) 其中距离是通过在1-利普希茨函数空间上优化 f而得到的(见补充材料中估计EM距离的算法)。03.1. 上界0对于第 l 层的 d 维输出,记为 µ ( t ) = ( µ ( t ) 1 , µ ( t ) 2, . . . , µ ( t ) d ) 和 ( σ ( t ) ) 2 = (( σ ( t ) 1 ) 2 , ( σ ( t ) 2) 2 , . . . , ( σ ( t ) d ) 2 ) ,分别表示分布 p ( t ) l的均值和方差。上界 W ( p ( t +∆ t ) l , p ( t ) l )由前两个矩形成(见补充材料中所有定理的证明)。0定理1. 假设 | µ ( t ) i | < ∞ , | µ ( t +∆ t ) i | < ∞ , 1≤ i ≤ d 。那么,0W ( p ( t +∆ t ) l , p (t ) l ) 小于等于0对于任意的 i,有 i =1 (σ ( t +∆ t ) i ) 2 +0对于任意的i,有 i =1 ( σ (t ) i ) 20+ d 个0在BN中,输出通过估计的均值 ˆ µ i 和标准差 ˆ σ i进行归一化。因此,对于归一化的输出,假设 µ ( t ) i = � (t ) µ,i , ( σ ( t ) i ) 2 = 1 + � ( t ) σ 2 ,i , 1 ≤ i ≤ d ,0其中 � ( t ) µ,i , � ( t ) σ 2 ,i , 1 ≤ i ≤ d是噪声。根据上述定理,上界为0W ( p ( t +∆ t ) l , p (t ) l ) 小于等于0对于任意的 i,有 i=1 � ( t +∆ t ) σ 2,i +0对于任意的 i,有 i=1 � ( t ) σ 2 ,i + 2d0+ d 个0显然,通过无噪声矩阵对输出进行归一化将导致一个恒定的上界,并对ICS施加约束。相比之下,未归一化输出的距离是无界的(参见补充材料中无界距离的示例)。然而,在实践中无法控制噪声,对于0对于高维输出,方程(5)中的上界可能过于宽松,无法有效约束距离,因为 d很大。在这种情况下,非平凡分布的ICS不能像BN技术一样通过控制前两个矩来有效地限制。因此,需要对下界进行分析。03.2. 下界0为了方便起见,令 x = ( x 1 , x 2 , . . . , x d ) 和 y = ( y1 , y 2 , . . . , y d ) 。然后,通过构造一个 1-利普希茨函数来获得距离的下界。0定理2. 假设 C > 0 是一个实数,n ≥ 2 是一个整数。那么,0对于任意的 x � p ( t +∆ t ) l 和 y � p ( t ) l,有E x [ f n,C ( x )] − E y [ f n,C ( y )] ≥ ��0其中 f n,C 是定义为 1 -利普希茨函数的0对于任意的 x,有 fn,C ( x ) = 10对于任意的 i,有| x i |≤ C x n i + �0为了简化分析,假设分布的支持是[−C0,C0]d的子集,其中C0 >0。那么,下界由n阶矩形成。对于n >2,很明显高阶矩会影响下界,而这不能通过BN来控制,特别是在放松上界的情况下。另一方面,对于n =2和归一化输出,下界为0W(p(t+∆t)l, p(t)l)0方程(8)中的下界由噪声主导。因此,在这种情况下,BN在特别是对于微批次的情况下会退化。一些方法已经被提出,例如GN,用于减少矩的噪声而不是消除噪声。因此,下界仍然依赖于矩。基于对BN的这种分析,本文提出了一种具有可调上界的算法,该算法是无噪声且与矩无关的,进一步限制了距离。03.3. 原始单位化0所提出的算法对层的输出进行单位化,原始的单位化变换定义为0g(x) =0c, || x || 2 = 0, (9).(13)(15)̸(17)84680其中c是一个常数单位向量。类似地,对于单位化输出,上界也给出了。实际上,g(x)的EM距离定义为0W(p(t+∆t)U, p(t)U)0= sup || f || L ≤ 1 E x � p(t+∆t)l [ f ( g ( x ))] − E y � p(t)l[ f ( g ( y ))] , (10)0其中p(t)U是单位化输出的分布。0定理3.1. 假设对于x � p(t)l,g(x) � p(t)U。那么,0W(p(t+∆t)U, p(t)U) ≤ 2. (11)0对于g,上界绝对是一个常数,与包括d在内的所有参数无关。然后,尽管分布p(t)l的限制,单位化输出的ICS完全由这个常数上界控制。然而,常数上界会导致另一个问题。对于t = 0和任意∆t >0,分布p(∆t)U受到约束,使得p(∆t)U和p(0)U之间的距离不超过常数2。这可能是一个严重的问题,特别是当网络初始化不良时。因此,单位化必须被修改。03.4. 修改的单位化0为了缓解非常紧的上界的问题,定义部分单位化输出的变换为0g(x; α) =0� c, || x || 2 = 0, α = 1 x0α || x || 2 + (1 - α), 其他,0(12)其中α ∈ [0, 1]是一个参数。类似地,对于g(x;α),上界也给出了。0定理3.2. 假设对于α ∈ [0, 1]和x � p(t)l,g(x; α) �p(t)U。那么,0W(p(t+∆t)U, p(t)U) ≤ I α =0 ( α ) ∙ ( E x � p(t+∆)l [ ||x || 2 ]0+ E y � p(t)l [ || y || 2 ]) + I α > 0( α ) ∙ 20注意,α = 0意味着g(x; α)是一个恒等映射,而α >0意味着距离被2/α精确地限制。因此,上界由α主导,并且通过在[0,1]上微调α来获得最佳上界。此外,考虑一组参数α = (α1,α2, ..., αd) ∈ [0, 1]d,通用单位化定义为0g(x; α) = � 0, || x || 2 = 0 � ( || x || 2 - 1) ∙ diag(α) + E � -1 x, || 2 > 0,0其中diag(α)是 α 的对角矩阵,E是单位矩阵。同样,给出了g(x; α)的上界。0定理3.3. 假设对于 α ∈ [0,1] d 和 x � p(t)l,g(x;α)�p(t)U。那么,0W(p(t +∆t)U,p(t)U)≤I min jα j > 0(α)∙ 20min j α j + I min j α j=0(α)∙(Ex�p(t +∆)l [|| x || 2]0+ E y�p(t)l [|| y || 2] +2)。0最小的 α � = min j α j 支配了上界。如果 α � = 0,则存在i,使得单元化后 xi 的尺度保持不变,并且 xi 的边缘分布的EM 距离是无界的。相反, α � > 0 得到常数界 2 / α�。此外,如果 α i 对于某个 i 是固定的,则其他参数 α j,j≠ i 可以在 [α i,1] 上自由微调而不改变界限。因此,g(x;α)更加灵活,并在所提出的算法中使用。然而,单元化的输出会丢失一些信息,例如样本之间的相似性,这不能通过类似于 BN中的仿射变换来恢复。较小的界限导致更多的信息丢失,需要权衡。然后,给出了单元化算法。03.5. 算法0对于一个网络,每个单元化层中的 α都是通过权重进行训练以减少目标函数。然而,由于 α ∈[0,1]d,训练会导致一个受限制的优化问题。为了避免问题并使训练稳定,本文使用了简单的插值方法来处理公式(14)。实际的变换定义为0g(x; α,�)= 10|| x || 2 2 + � α + (1−α) ⊙ x,(16)0其中 � > 0 使得非零分母,⊙表示逐元素乘积。同样,我们为实际单元化提供了上界。0定理3.4. 假设对于 α ∈ R d,� > 0 和 x � p(t)l,g(x;α,�)�p(t)g。那么,0W(p(t +∆t)g,p(t)g)≤2 || α || ∞ + || 1−α || ∞(Ex�p(t+∆t)l [|| x || 2]0+ E y�p(t)l [|| y ||2])。0直观地说,理论单元化(14)和实际单元化(16)通过 α以类似的方式调整界限(15)和(17),其中 α →1−得到紧密的界限,而 α → 0+得到宽松的界限,尽管界限84690(17)对于实际的界限相对较宽松。此外,(17)中第二项的 || 1−α || ∞ 要求 α ∈[0,2] d 以减少 ICS,这是一个较弱的约束,与理论界限(15)中的 α ∈ [0,1] d相比。因此,实际单元化的效果与理论单元化的效果类似。在所提出的算法中,单元化公式(16)被嵌入到 BN 的框架中以减少信息损失。实际上,只有单元化可能需要较大的 α来限制带有更多信息损失的 EM 距离。相比之下,在 BN中的信息损失较小,因为归一化输出之间的相似性保持不变,并且 BN中的仿射变换可以恢复一些信息。因此,所提出的算法将这两种技术集成在一起,以在合理的信息损失范围内限制 ICS。算法如算法1所示,其中逐元素除法也用 / 表示。矩0推理中的推断以相同的方式计算[15]。0算法1 单元化算法 输入:数据集 {xi}ni = 1,可训练参数 α,γ和β 输出:单元化结果{yi}ni = 1 1:µ ← 10i xi 2:σ2 ← 10n0i(xi − µ)20σ^2 + � 5: p ← 1 / √0||ˆxi||^2 + � 6: xi ← [pα + (1 −α)] ⊙ ˆxi 7: yi ← γ ⊙ xi + β 8:end for03.6. 单元化卷积层0为了考虑图像数据的空间上下文,本文还提出了单元化卷积层。如[15]所推荐,算法1中的矩µ和σ^2是在整个小批量数据中相对于特征图的不同位置计算的,并且它们在同一特征图中共享(图1(a))。但是单元化中的范数是以不同的方式计算的。如何计算范数取决于图像数据的单个样本的定义。一个简单的算法遵循卷积层中BN的思想,将所有通道中相同位置的像素视为一个单个样本(图1(b)),然后通过其范数对该样本进行单元化。然而,该算法通过位置相关的范数对像素进行缩放,忽略了空间上下文。因此,范数的计算必须进行修改。相反,图像中所有特征图中所有位置的像素形成一个单个样本(图1(c))。该样本的范数将是与位置无关的,并在这些像素之间共享。然而,这将导致像素的范数非常大。作为范数的倒数,算法1中的p将是相对较小的,并在调整α时被忽略。然后,α只通过1−α对ˆxi进行缩放,但缩放已由γ控制。因此,在单元化之前,范数将被与像素数量相关的常数除以。修改后的单元化算法如算法2所示,其中x(k)ij表示第i个位置的第j个值0算法2 卷积层的单元化算法 输入:数据集D = {x(k)ij | 1 ≤ k≤ N, 1 ≤ i ≤ C, 1 ≤ j ≤ HW},可训练参数α、γ和β输出:单元化结果{y(k)ij | 1 ≤ k ≤ N, 1 ≤ i ≤ C, 1 ≤ j ≤HW}01: for k ← 1 to N do 2: s ← 0 3: for i ← 1 to Cdo 4: for j ← 1 to HW05: ˆx(k)ij = BN(x(k)ij; D)06: s ← s + ˆx(k)2ij 7:end for 8: end for 9: s← s/(nHW)010: p ← 1 / √ s + � 11: fori ← 1 to C do 12: for j← 1 to HW do013: ¯x(k)ij ← [pαi + (1 − αi)]ˆx(k)ij014: y(k)ij ← γi¯x(k)ij + βi 15:end for 16: end for 17: endfor0相对较小,并且在微调α时忽略pα。然后,α仅通过1−α对ˆxi进行缩放,但缩放已由γ控制。因此,在单元化之前,范数将被与像素数量相关的常数除以。修改后的单元化算法如算法2所示,其中x(k)ij表示第i个位置的第j个值0特征图,由第k个训练样本生成;ˆx(k)ij,0¯x(k)ij和y(k)ij的定义方式相同;BN(∙;D)表示卷积层的归一化变换[15],使用数据集D进行变换;αi、γi和βi分别表示α、γ和β的第i个元素;第9行中的n是一个超参数,默认设置为HW。04. 实验04.1. 估计的矩0为了验证单元化控制高阶矩的能力,我们在MNIST数据集[19]上训练简单的神经网络,并估计某一层输出的矩。网络架构:网络的输入是28×28的图像,接下来是一堆具有ReLU激活函数的全连接层,包括10个100单元的层和一个8单元的层。之后是一个BN/单元化层。BN84700(a)0(b)0(c)0图1:估计统计量的不同方法。与归一化方法的可视化类似[36],每个子图显示一个特征图张量,其中 N、C 和 (H, W)分别表示批次轴、通道轴和空间轴。(a)显示红色像素的值用于计算BN中的矩和标准差µ和σ,而(b)和(c)显示像素的值用于获取范数。估计的矩和范数在这些像素之间共享。0单元化0(a)均值0(b)方差0(c)偏度0(d)峰度0图2:对8个单元层输出进行估计的矩。子图中的每条线表示相对于一个单元输出的矩。总体上,使用单元化得到的矩更加稳定。0每个全连接层。网络以一个包含10个类别的全连接层结束。0实现细节:网络使用Mini-batch GradientDescent进行200个epoch的训练,批量大小为128。学习率从0.05开始,在第61、121和161个epoch时除以5。在每个epoch结束时,将训练样本输入网络以获得归一化/单元化的8个单元层输出。然后,我们对输出进行均值、方差、偏度和峰度的估计。0结果:如图2所示,无论是BN层还是单元化层,估计的均值和方差在训练过程中都是稳定的。然而,相对于BN层,估计的偏度和峰度不稳定,红线波动较大。根据公式(6)中的下界,EM距离将会很大。相比之下,单元化输出的偏度和峰度更加稳定。所提出的单元化方法控制了高阶矩04.2. CIFAR上的分类结果0对于图像识别任务,我们在CIFAR-10和CIFAR-100数据集上运行实验[17],按照[21]推荐的数据增强方法进行操作(将与GN[36]的单元化比较的实验提供在补充材料中)。网络架构:我们训练了ResNet-20、ResNet-110和ResNet-164 [11,12],其中包括BN和单元化两种方式,以比较它们的性能。ResNets遵循[12]的通用架构,具有完全预激活块。实现细节:在每个实验中,对于BN和单元化,网络的初始化权重都是使用[10]的方法生成的,以减少初始化的影响。每个网络都是通过Mini-batch GradientDescent与Nesterov的动量进行训练的,使用的学习率与动量实验中相同。动量为0.9,权重衰减为0.0005。训练中的小批量大小分别为128和64 { ResNet-20,ResNet-20 (BN)12891.79%ResNet-20 (Unitization)12892.21%ResNet-110 (BN) [12]12893.63%ResNet-110 (BN)12893.99%ResNet-110 (Unitization)12894.12%ResNet-164 (BN) [12]12894.54%ResNet-164 (BN)6494.34%ResNet-164 (Unitization)6494.62%ResNet-20 (BN)12866.43%ResNet-20 (Unitization)12867.49%ResNet-110 (BN)12872.27%ResNet-110 (Unitization)12873.31%ResNet-164 (BN) [12]12875.67%ResNet-164 (BN)6476.56%ResNet-164 (Unitization)6477.58%84710ResNet-110 }和ResNet-164,分别。每个网络在经过200个epoch后进行评估,并报告5次运行的中位数准确率。参数α初始化为0。参数γ和β初始化为1和0,如[15]所建议。0表1 CIFAR-10测试数据集上的分类准确率。0网络 小批量大小 准确率0结果:表1显示了在CIFAR-10数据集上的结果,其中也提供了[12]中的结果进行比较。所提出的算法在每个ResNet上的分类准确率上表现更好,相比于BN,提高了分类准确率。但是在更深的网络中,准确率的提升较小,这可能是由于在更深的网络中叠加更多层次的收益较少。实际上,ResNet-1001[12]的准确率只有95.08%,这是使用BN的这些ResNet的极限。[12]中的ResNet-164的准确率只比ResNet-1001低0.54%,但使用单元化可以提高0.08%的准确率。在CIFAR-100数据集上的结果报告在表2中,其中单元化仍然优于BN,在每个实验的准确率上提高了1%以上。0表2 CIFAR-100测试数据集上的分类准确率。0网络 Mini-batch大小 准确率04.3. ImageNet上的分类结果01.28M个训练图像,并在50k个验证图像上进行评估。仅使用尺度增强[11,30]。网络架构:仅训练ResNet-101与BN或单元化进行性能比较。网络遵循架构[11],但使用完全预激活块[12]。此外,每个快捷连接和最终块的输出未进行归一化或单元化。实现细节:与CIFAR数据集上的实验一样,权重使用方法[10]进行初始化,实验之间共享,并使用相同的动量进行训练梯度下降,但权重衰减为0.0001。学习率从0.01开始,在第31、61和91个时期除以5。单个GPU的批量大小为64。经过120个时期后,通过两种方法在验证数据上评估网络。第一种方法将图像调整为{224, 256, 384, 480,640}中较短的一边,并在所有尺度的42个裁剪上对分数进行平均(224尺度图像为2个中心裁剪,其他调整大小的图像为10个标准裁剪)。第二种方法采用全卷积形式,并在相同的多尺度图像上对分数进行平均[11]。此外,算法2的第9行中的n是固定的,并且在多尺度图像的训练中设置为相同的值。0表3 ImageNet数据集上的分类准确率。0算法 方法/Mini-batch大小 Top-1 Top-50BN 多尺度裁剪/64 78.12 % 93.45 % Unitization多尺度裁剪/64 78.33 % 93.22 %0BN 全卷积/64 76.47 % 93.02 % Unitization 全卷积/6477.84 % 93.33 %0BN [11] 全卷积/256 80.13 % 95.40 %0结果:在结果中,单元化算法总体上优于BN,只有第一种方法的前5个准确率低于BN。然而,再现结果与[11]中的准确率之间存在性能差距,这可以通过不同的实现细节来解释,包括数据增强、架构和超参数(如批量大小和学习率)。但是对于[11]推荐的全卷积评估方法,使用单元化后准确率提高了超过1%。总体而言,单元化在分类任务中显示出更高的性能。05. 结论0本文通过使用EM距离提出了一种ICS度量,并通过上下界对BN进行了理论分析。上界的依赖矩和噪声已经表明BN技术只能有效控制具有小噪声和低维输出的ICS,但在其他情况下会降低。同时,高阶矩和超出BN控制范围的噪声对下界有很大影响。因此,本文提出了具有无噪声和独立于矩的上界的单元化算法。通过训练单元化中的参数,可以进一步调整上界以进一步控制ICS。实验证明了所提算法对高阶矩的控制以及在包括CIFAR-10、CIFAR-100和ImageNet在内的基准数据集上的性能。84720bound has shown that BN techniques can effectively controlICS only for the low-dimensional outputs with small noise inthe moments, but would degrade in other cases. Meanwhile,the high-order moments and noise that are out of BN’scontrol have great impact on the lower bound. Then, thispaper proposes the unitization algorithm with the noise-freeand moment-independent upper bound. By training theparameter in the unitization, the bound can be fine-tuned tofurther control ICS. The experiments demonstrate theproposed algorithm’s control of high-order moments andperformance on the benchmark datasets including CIFAR-10,CIFAR-100 and ImageNet.0参考文献0[1] Martin Arjovsky, Soumith Chintala, and L´eon Bottou.Wasserstein generative adversarial networks. In InternationalConference on Machine Learning, pages 214–223, 2017. [2]Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hin- ton.Layer normalization. arXiv preprint arXiv:1607.06450, 2016. [3]Yongqiang Cai, Qianxiao Li, and Zuowei Shen. A quantitativeanalysis of the effect of batch normalization on gradientdescent. arXiv preprint arXiv:1810.00122, 2018. [4] MinhyungCho and Jaehyung Lee. Riemannian approach to batchnormalization. In Advances in Neural Information ProcessingSystems, pages 5225–5235, 2017. [5] Victor Lempitsky DmitryUlyanov, Andrea Vedaldi. Instance normalization: The missingingredient for fast stylization. arXiv:1607.08022, 2016. [6] RossGirshick. Fast r-cnn. In Proceedings of the IEEE internationalconference on computer vision, pages 1440–1448, 2015. [7]Xavier Glorot and Yoshua Bengio. Understanding thedifficulty of training deep feedforward neural networks. InProceedings of the thirteenth international conference onartificial intelligence and statistics, pages 249–256, 2010. [8]Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu,David Warde-Farley, Sherjil Ozair, Aaron Courville,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功