稀疏可切换归一化（SSN）：一种改进深度学习中归一化方法的稀疏版本

165 浏览量更新于2023-10-19 收藏 1.9MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

443SSN：通过SparsestMax邵文琪1，孟天健2，3，李静宇2，张瑞茂1，李宇典2，王晓刚1，罗平11香港中文大学CHUK-SenseTime联合实验室2商汤科技3匹兹堡大学{weqish@link.，张瑞茂，xgwang@ ee. }cuhk.edu.hk，tianjian. pitt.edu{lijingyu，liyudian}@ sensetime.com，pluo. gmail.com摘要归一化方法改进了ConvNets的优化和泛化。为了进一步提高性能，最近提出的可切换归一化（SN）为深度学习提供了一个新的视角：它学习为ConvNet的不同卷积层选择不同的归一化器。然而，SN使用softmax函数来学习重要性比率以组合归一化器，导致与单个归一化器相比的冗余计算。这项工作解决了这个问题，提出稀疏可切换归一化（SSN）的重要性比被约束为稀疏。与在优化中施加困难的101和100约束不同，我们通过提出SparsestMax（softmax的稀疏版本）将SSN有几个吸引人的属性。(1)它继承了SN的所有优点，例如适用性在各种任务和鲁棒性，以广泛的批量大小。(2)保证每个归一化层只选择一个归一化器，避免冗余计算。 (3)SSN可以转移到各种任务中，端到端的方式。大量的实验表明，SSN在各种具有挑战性的基准测试中表现优于同行，如ImageNet，Cityscapes，ADE 20K和Kinetics。代码可在https://github.com/switchablenorms/Sparse_SwitchNorm上获得。1. 介绍规范化技术[1，9，25，28]，如批量规范化（BN）[9]是深度神经网络（DNN）[6，8]中不可或缺的组件。它们提高了DNN的学习和泛化能力。不同的规格化器具有不同的属性。例如，BN [9]充当正则化器并改进深度网络的泛化[15]。层规范化（LN）[1]加速了列车-*同等缴款。通过稳定递归神经网络（RNN）中的隐藏状态来实现递归神经网络（RNN）。实例归一化（IN）[25]能够过滤掉复杂的外观差异[19]。组归一化（GN）[28]在广泛的批量大小范围内实现稳定的准确性为了进一步提高DNN的性能，最近提出的可切换归一化（SN）[14]提供了深度学习的新观点：它学习重要性比来计算IN、BN和LN的加权平均统计量，从而为DNN的不同卷积层学习不同的组合归一化器。SN适用于各种计算机视觉问题，并对各种批量具有鲁棒性。虽然SN取得了很大的成功，但由于每个归一化层都是多个归一化器的组合，因此它的测试速度较慢。为了解决上述问题，这项工作提出了稀疏可切换归一化（SSN），学习从一组归一化方法中为每个卷积层选择一个归一化器SSN没有使用101和100正则化来学习这种稀疏选择，这增加了训练深度网络的难度，而是将这种约束优化问题转化为前馈计算，使自动微分适用于最流行的深度学习框架，以端到端的方式训练具有稀疏约束的深度模型总的来说，这项工作有三个主要贡献。(1) 我们提出了稀疏可切换归一化（SSN），它可以学习为深度网络的每个归一化层选择单个归一化子，以提高泛化能力，并与SN相比加快推理速度SSN继承了SN的所有优点，例如，它适用于许多不同的任务，对各种批量大小具有鲁棒性，并且没有任何敏感的超参数。(2) SSN使用一种新的SparsestMax函数进行训练，该函数将稀疏优化问题转化为深度网络的简单向前传播SparsestMax是softmax的扩展，具有稀疏性保证，旨在成为学习one-hot分布的通用技术。我们提供了它的几何解释相比，其内涵-4442KK·∀∈≥/·k=1联系我们--12 3K2ǁ− ǁ例如softmax和sparsemax [17]。(3) SSN在多个计算机视觉任务中得到了证明，包括ImageNet [21]中的图像分类，Cityscapes [4]和ADE 20K[30]中的语义分割，以及Kinetics [11]中的动作识别。系统实验表明，采用SparsestMax的SSN具有与其他归一化方法相当或更好的性能。2. 稀疏可切换归一化（SSN）本节介绍SSN和SparsestMax。2.1. SSN的制定我们将SSN公式化为hncij=γ赫恩奇.Σ| Ω|-k=1 pkµk+β，（1）Σ| Ω| p′ σ2+σS. t. Σ|Ω|pk=1，k=1K KΣ|Ω|p′=1， pk，p′{0，1}图1. 比较softmax、sparsemax和sparemax-最大 O是R3的起源。正三角形表示二维单形△2嵌入R3。u是单纯形的中心的k=1K Kk=1立方体表示维数为N×C×H×W的特征图。我们通过对不同维度着色来表示IN、BN和LN其中hncij和hncij指示归一化之前和之后的隐藏像素el。下标表示小批量中第n个样本的第c个通道中的像素（i，j）。γ和β分别是尺度和移位参数N = IN，BN，LN是一组正规化子。 µk和σk是它们的均值和方差，其中k 1，2，3对应于不同的归一化子。pk和p ′分别是均值和方差的重要性比。我们把p=（p1，p2，p3）和p′=（p′，p′，p′）记为两个比率向量根据方程式(1)，SSN是一个具有三个约束的正规化子，其中包括<$p ∈1= 1，<$p′∈1= 1，且对所有pk，p ′∈ {0，1}.这些限制促使SSN这些立方体。每个顶点表示三个规格化器之一。如上图所示， softmax 的输出比 sparsemax 和 SparsestMax 更接近uSparsestMax从这三种归一化方法中只选择一种归一化子，使重要的和任务。这不同于在损失函数中添加100或101惩罚，这使得模型开发变得繁琐，因为这些惩罚的系数通常对批量大小，网络架构和任务敏感（4）稳定性。p的优化应该是稳定的，这意味着f（）应该能够在训练阶段保持稀疏性为每个规范化选择一个规范化器莱耶河如果稀疏约束条件pk，p′∈{0，1}与例如，如果f（·）返回一个正常值，则训练是困难K一个软约束pk，p ′（0，1），SSN降解SN[14]。例如，可以使用p= softmax（z）来学习SN中的重要性比率p，其中z是softmax函数1的可学习控制参数，并且z可以使用反向传播（BP）来这种松弛已被广泛用于现有工程[10，12，16]。要求. 设p = f（z）为学习SSN中p的函数。在给出它的公式之前，我们介绍了f（z）的四个要求，以便使SSN尽可能有效和易于使用。（1）单位长度。p的范数为1，且对所有pk0。(2)完全稀疏的比率。 p是完全稀疏的。换句话说，f（z）需要返回一个独热向量，其中只有一个条目是1，其他条目是0。（3）使用方便。 SSN可以作为一个模块来实现，并且可以很容易地插入任何网络在当前步骤中使用一个izer，在下一步中使用另一个izer。Softmax和Sparsemax？两个相关的函数是soft-max和sparsemax，但它们并不满足上述所有要求。首先，softmax（z）在SN中使用[14]。然而，其参数z总是具有完全支持，即，pk= softmaxk（z）= 0，其中softmaxk（）指示第k个元素，这意味着归一化器的选择在SN中不是稀疏的。其次，另一个候选者是sparsemax [17]，它扩展了softmax以产生稀疏分布。sparsemax（z）通过最小化p和z之间的欧几里德距离，将z投影到（K-1）维单纯形上的最近点p，sparsemax（z）：= argminp z2，（2）p∈△K−11softmax函数定义为pk=softmaxk（z）=其中△K−1表示（K-1）-D单形，它是凸的exp（zk）/exp（zk）|Ω| exp（zk）.包含K个顶点的多面体。我们有△K−1：4450不△K}−≥不△0−R2SparsestMax（;r）：= argmin-，ǁ−ǁ ≥ǁ − ǁ{p ∈ RK|1 p = 1，p ≥ 0}，其中1是1的向量。为例如，当K= 3时，2表示一个二维单纯形，正三角形三角形的顶点分别表示BN、IN和LN，如图1所示。通过比较图1顶部的softmax和sparsemax，当z相同时，softmax yellow dot的输出p比sparsemax blue dot更接近u（单纯形的中心）。换句话说，sparsemax产生的p比soft-max更接近单纯形的边界，这意味着sparsemax比softmax产生更多的稀疏取z=（0. 八比零。6，0。1）作为示例，softmax（z）=（0. 43，0。35，0。22）而sparsemax（z）=（0. 6，0。4，0），表明sparsemax很可能使p的某些元素为零。然而，不能保证完全稀疏的比率，因为单纯形上的每个点都可能是方程n的解。（二）、2.2. SparsestMax为了满足上述所有约束条件，我们引入了SparsestMax，这是softmax函数的一个新的稀疏版本SparsestMax函数定义如下：（3）第一次见面。K−12p∈△r图2.图中示出了（a）softmax、（b）sparsemax、（c-f）当 K=3 时的 Spars-estMax 和（ g-i ）当 K=4 时的SparsestMax。 u是单纯形的中心对于K=3，u=（1，1，1）33 3并且对于K = 4，u =（1，1，1，1）。给定z=（0. 5，0。3，0。2）、其中△ K−1：={p∈RK|1Tp= 1，np−un ≥r，p ≥444 40是具有循环约束的单纯形 pu2r，1Tp= 1。这里u=1，1是单纯形的中心，1是一个向量，r是圆的半径与sparsemax相比，SparsestMax引入了具有直观几何意义的循环约束p u2r，1 p= 1。与解空间为K−1 的sparsemax不同，SparsestMax的解空间是一个圆心为u、半径为r的圆，不包括在单纯形中。为了满足完全稀疏的要求，我们在训练阶段将r从零线性增加到rcrc是单形的外接圆的半径。我们通过强调两种情况来理解r所起的重要作用当r≤p0−u 02时，其中p0是sparsemax的输出，则p0也是方程n的解。(3)因为p0满足循环约束。当r=rc时，解空间的Eqn。(3)只包含单纯形的K个顶点，使得SparsestMax（z;rc）完全稀疏。举个例子图2（a-f）示出了在K= 3和z=（0. 5，0。3，0。2）的情况。我们可以看到softmax的输出比sparsemax更均匀随着r的增长，SparsestMax产生的输出随着半径r在训练阶段逐渐增加，SparsestMax的计算如下所述。第一阶段。如图2（b，c）所示，稀疏- max的解为p0=（0. 5，0。3，0。2）给定z =（0. 5，0。3，0。2）的情况。当p =（0. 39，0。32，0。29）和p =（0. 5，0。3，0。2）分别。（c-f）示出了对于r = 0的SparsestMax的结果。15，0。3，0。6和0。816个p0=（0. 5，0。3，0。2），p1 =（0. 56，0。29，0。15），p3=（0. 81，0。19，0）和p3=（1，0，0）时，在第1-4阶段给出了具体计算。当K=4时，给定z=（0. 3，0。25，0。23，0。22），（g-i）p1 = 0。49，0。25，0。15，0。11），p3 =（0. 75，0。23，0。02，0）和p3 =（1，0，0，0），其中r = 0。3，0。6和0。866人。所有的 p2都是通过 p2 = sparsemax（ p1）获得的。（e）和（f）表明，当p1在单形△K−1之外时，则投影空间减少为△K−2，其中K=3和K= 4。r= 0。15，p0满足约束条件<$p0−u<$2≥r。因此，p0也是SparsestMax的解。在这种情况下，SparsestMax的计算方法与sparsemax相同，以返回最佳比例。第二阶段。如图2（d）所示，当r增加到0. 3，因此<当p0=（0. 5，0。3，0。2），这意味着不满足循环约束在这种情况下，SparsestMax返回圆上的点p1，它是通过将p0投影到圆的表面来计算的，即，p1= rp0 −u+ u =（0. 56，0。39，0。15）作为输出。2第三阶段如图2（e）所示，当r= 0. 6，p1移出单纯形。在这种情况下，p1被投影回单纯形上的最近点，pupu均p0u(a)softmax(b)稀疏矩阵p3p1p1(c)r=0.15p1p3pp2p2ppu0u0u(d)r=0.3p3(e)r=0.623(f)r=0.816p2p1pp3pu'21pp1 均p00 upu0 u(g)r=0.3(h)r=0.6(i)r=0.866(a)和（b）显示softmax和sparsemax的输出是446即p2，然后447K联系我们我--20−8：p=r+uO0−-− ǁ02210当K = 3时，通过使用具有SparsestMax的算法1SSN的SparsestMax函数推到p 3。p2−u′输入：z、z′、u、r、µk、σ2从零p3=r′p2−u′+u′，（4）在训练阶段，到rc;µk和σk表示均值，来自不同标准化器的方差，k1，2，3输出：μ、σ2和SSN中的均值和方差其中u'= max（p1）i，0，i= 1，2，3，p=.1：p0= sparsemax（z）2sparsemax（p1）和r ′=r2−u−u′n。事实上，p2第二章：如果np0−u n2≥r，则3：p=p0位于△1上，u′是△1的中心，△1是△2的三条边。等式(4)表示从4：否则p1=rp0−u+u2P2到P3。我们有p3=（0。81，0。19，0）作为输出。值得注意的是，当p1在单纯形之外时，p3是单纯形与圆的交点。以这种方式，等式。(4)可以用argmax函数代替。然而，方程. (4)在可微学习方面表现出很大的优势，5：如果p1≥0，则6：p=p17：else计算u′、r′和p2参见阶段3′′p2−u′p2−u′9：如果结束当K>3时，参数z。10：如果是13，则结束11：返回µ=Σ3pk µk，σ2=p′σ2普伊斯第四阶段如图2（f）所示，圆变成了当r = rc= 0时，单形的外接圆。K =3时为816p3移动到三个顶点之一该顶点将k=1计算结果与p相同k=1K K是最接近p0的点。我们有p3=（1，0，0）作为输出.实施. 事实上，Eqn。(3)是一个同时具有线性和非线性约束的优化问题。上述四个阶段可以严格地从优化问题的KKT条件导出在算法2.3中给出了K= 3的情况下SparsestMax的具体评估过程我们看到Al-租m 2.3的运行时间主要取决于sparse- max的评估 [26]（第1行）。对于SSN，我们采用（KlogK）算法[7]来计算sparsemax. SparsestMax可以使用流行的深度学习框架（如PyTorch）轻松实现[20]。2.3. 讨论如前所述，我们研究了不同阶段的上述性质在这里，我们分别将p u和p u2表示为pk= 0的情况只发生在阶段1和阶段23. 在第一阶段，SparsestMax变成了sparsemax [17]，这表明如果pk= 0，p中的第k个分量比其他分量重要得多。因此，停止学习pk是合理的。在阶段3中，当p0移动到p1，然后p2时，发生pk= 0。在这种情况下，我们声称p1在离开单纯形之前已经学习了一个好的稀疏方向。为了证明这一点，当np0−u n2 ri = 6 /6），则稀疏方向可能停止更新。在这种情况下，归一化器的选择是确定的，因为gra-wrt。控制参数变为零。因此，r到达ri的时间戳在递增调度中最重要。在我们的默认设置中，当训练100个epoch时，r将在大约41 epoch处增加到ri在我们的实验中，我们使r分别在40，50，60和70个时期达到ri结果表明，该算法的性能稳定在77.2 ± 0.04%，表明该算法对最终性能的贡献很小。一个阶段VS。两个阶段。我们使用argmax从预训练的SN模型中导出稀疏归一化器架构，并将其与SSN进行比较。为了进行比较，我们继续以0.001的初始学习率和余弦退火学习率衰减方案训练argmaxed SN 20个epoch结果表明，SN模型得到的稀疏结构总之，SSN具有稀疏结构，计算量小，性能较好。图6. 比较的收敛的重要性在整个网络的一些归一化层中的比率。这些图分别显示 ResNet-50 的（layer3.0.norm2）、（layer3.1.norm1）、（layer3.1.norm2）、（layer3.2.norm1）、（layer3.3.norm1）和（layer3.4.norm1）中的方差重要性比。四个正规化器在。为了评估SparsestMax的可扩展性，我们将GN [28]引入到包含IN，BN和LN的初始队列中对于GN，我们使用组号32，这与[28]中的默认设置相同。我们将SN和SSN应用于ResNet-50，并给出了新的批量大小为32的实例在这样的设置中，SSN获得了比 SN 中的 76.8% 更高的准确性 77.3% ，证明了SparsestMax在更广义的场景中的潜在可4.2. ADE和Cityscapes中的语义分割为了研究SSN在各种计算机视觉任务中的泛化能力，我们用两个标准的基准来评估SSN在语义分割中的泛化能力。BNINLN3x3 BN3x3 IN3x3 LN下采样快捷方式BNINLN3x3 BN3x3 IN3x3 LN下采样快捷方式451×}{--××ADE20K mIoU%城市景观mIoU%SyncBN37.772.7GN36.372.2SN39.175.8SSN39.375.7表4. 在ADE20K验证集和城市景观测试集上的实验结果。主干网络是具有扩展卷积层的ResNet-50。我们在测试阶段使用多尺度推理SyncBN表示BN的多GPU同步ADE20K [30]和Cityscapes [4]。对于这两个数据集，我们每个GPU使用2个样本。为了与SN [14]进行公平比较，我们还采用了DeepLab [3]，其中ResNet- 50作为骨干网络，其中输出步幅=8，原始ResNet中的最后两个块分别包含速率=2和速率=4的粗糙卷积层。然后使用双线性运算将分数映射上采样到地面实况的大小。在训练阶段，我们在两个数据集中使用[29]也有相同的我们比较了建议SSN与同步BN（SyncBN），GN和SN。对于前三种归一化方法，我们在ImageNet中采用了它们的预训练对于SSN，我们使用SN ImageNet预训练模型[14]并使用SparsestMax使重要性比率完全稀疏。请注意，SN和SSN中均未采用同步BN。对于ADE 20K，我们将输入图像的大小调整为450450，并在初始lr0.02的情况下训练100，000次迭代。对于多尺度测试，我们设置输入大小= 300，400，500，600。表4报告了ADE 20K验证集的实验结果。SSN的性能优于SyncBN和GN，在训练阶段没有任何花哨的标记。在多尺度测试中，它还实现了比SN高0.2%的mIoU。对于Cityscapes，我们对所有模型使用大小为713713的随机裁剪，并用400个epoch训练它们。初始LR为0.01。多重推理量表为1.0、1.25、1.5、1.75。根据表4，SSN的性能比SyncBN和GN好得多。其结果与SN相当（75.7vs. 75.8）在此基准中。4.3. 动力学中的动作识别我们还将SSN应用于Kinet-ics数据集中的动作识别任务[11]。在这里，我们使用膨胀3D（I3 D）卷积网络[2]，ResNet-50作为骨干。的表5. ResNet-50 I3 D在不同归一化层和批量的动力学中的结果。SSN1来自ResNet- 50 SSN ImageNet预训练模型，SSN2来自ResNet-50 SN ImageNet预训练模型。通过网络。为了评估SSN，我们在这里使用了两种类型的预训练模型，所有normalizer选择固定的ResNet-50SSN和组合normalizer的ResNet-50SNResNet-50 SN使用SparsestMax进行训练，以学习Kinetics中的稀疏归一化器选择所有模型都在Kinetics训练集中使用8个GPU进行训练，这里使用的批量大小设置为8和4个视频。在评估过程中，对于每个视频，我们将10个剪辑的softmax分数平均作为最终预测。这些片段是从整个视频中均匀采样的，每个片段包含32帧。动力学验证集中的评价准确度见表5。SSN1和SSN2在每GPU 8个视频的批量大小上都优于BN和GN的结果，并且SSN1实现了最高的top-1精度，它对于较小的批量设置，SSN的性能介于SN和GN之间。5. 结论在这项工作中，我们提出了SSN的性能提升和推理加速。SSN继承了SN的所有优点，例如对大范围批量大小的鲁棒性和对各种任务的适用性，同时避免了SN中的冗余计算。这项工作证明了SSN为了实现SSN，我们提出了一种新的稀疏学习算法SparsestMax，将约束优化问题转化为可微前馈计算。我们表明，SparsestMax可以构建为在任何深度学习架构中学习one-hot discovery的块，并且预计将在没有任何敏感超参数的情况下进行端到端训练建议SparsestMax的应用可以是一个富有成效的未来的研究方向。致谢我们谢谢挂周为他的糖，网络结构和训练/验证设置都遵循-低ResNet-50 I3 D [27，28]。我们使用32帧作为每个视频的输入，这些帧被顺序采样，彼此之间有一帧间隙，并随机重新调整大小为[256，320]。然后对重新缩放的帧应用224 224随机裁剪，并传递裁剪后的帧图的配置上进行了详细说明。这项工作是部分由商汤科技集团有限公司资助，部分由香港研究资助局的“优配研究基金”资助，拨款编号为CUHK14202217 、 CUHK 14203118 、 CUHK 14205615 、CUHK 14207814、CUHK 14213616。batch=8，length=32 batch=4，length=32top1top5top1top5BN73.390.772.190.0GN73.090.672.890.6SN73.591.273.391.2SSN173.891.272.890.6SSN273.491.173.091.2452引用[1] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。[2] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在Computer Vision and PatternRecognition（CVPR），2017 IEEE Conference on，第4724-4733页中。IEEE，2017年。[3] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834[4] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。 IEEE计算机视觉与模式识别会议（CVPR），2016年。[5] PriyaGo yal ， PiotrDolla´r ， RossGirshick ， PieterNoord-huis ， Lukasz Wesolowski ， Aapo Kyrola ， AndrewTulloch，Yangqing Jia，and Kaiming He.准确、大的小批量sgd：1小时内训练imagenet arXiv预印本arXiv：1706.02677，2017。[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-

下载后可阅读完整内容，剩余1页未读，立即下载