学习深度表示的示例归一化

107 浏览量更新于2023-10-24 收藏 13.9MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

127260学习深度表示的示例归一化0张瑞茂1�，彭张林1�，吴凌云1，李震3，4，罗平201 SenseTime研究，2 香港大学，3 香港中文大学（深圳），4 深圳大数据研究院0{zhangruimao，pengzhanglin，wulingyun}@sensetime.com，lizhen@cuhk.edu.cn，pluo.lhi@gmail.com0摘要0归一化技术在不同的高级神经网络和不同的任务中非常重要。本文通过提出示例归一化（EN）来研究一种新颖的动态学习归一化（L2N）问题，EN能够为深度网络的不同卷积层和图像样本学习不同的归一化方法。EN显著提高了最近提出的可切换归一化（SN）的灵活性，SN通过线性组合每个归一化层中的几个归一化器来解决静态L2N问题（组合对所有样本相同）。EN的内部架构经过精心设计，以稳定其优化过程，从而带来许多吸引人的优势。（1）EN使得不同的卷积层、图像样本、类别、基准和任务能够使用不同的归一化方法，为整体分析提供了新的视角。（2）EN对于各种网络架构和任务都是有效的。（3）它可以替换深度网络中的任何归一化层，并仍然能够产生稳定的模型训练。大量实验证明了EN在包括图像识别、噪声标签学习和语义分割在内的广泛任务中的有效性。例如，通过在普通ResNet50中替换BN，EN的改进效果比SN在ImageNet和噪声WebVision数据集上的改进效果提高了300%。01. 引言0归一化技术是改善卷积神经网络（CNNs）性能和加速训练的最重要组成部分之一。最近，提出了一系列归一化方法，包括批归一化（BN）[14]，实例归一化（IN）[36]，层归一化（LN）[1]和组归一化0� 平等贡献0（a）EN在三个层中四个类别的比例学习动态。0（b）EN及其对应方法在各种CV任务上的性能。0图1.（a）提出的示例归一化（EN）使得不同类别能够在不同层中学习选择不同的归一化器。图中展示了ResNet50的三个层（即底部、中间和顶部）中ImageNet的四个类别（即长笛、秃鹰、纽芬兰和城堡）。（b）EN在使用不同网络架构的各种计算机视觉任务（即图像分类、有噪声的监督分类和语义图像分割）上优于其对应方法。0化（GN）[39]。由于这些方法是为不同的任务设计的，它们经常对来自不同维度的CNN的特征图进行归一化处理。为了结合上述方法的优点，提出了可切换归一化（SN）[23]及其变体[33]，以学习每个卷积层的归一化器的线性组合。我们将这种归一化设置称为静态的“学习归一化”。尽管这些方法取得了成功，但一旦使用它们来优化CNN，它们对数据集中的所有图像样本都采用相同的归一化方法的组合比例，无法适应不同的实例，因此无法适应不同的实例。127270渲染次优性能。如图1所示，本文研究了一种新的学习问题，即动态“学习归一化”，通过提出示例归一化（EN），能够在端到端的方式中为不同的卷积层、图像样本、类别、数据集和任务学习任意归一化器。与以前的条件批归一化（cBN）使用多层感知器（MLP）来学习归一化层中的数据相关参数不同，EN的内部架构经过精心设计，仅使用少量参数就能够学习数据相关的归一化，从而稳定训练并提高CNN的泛化能力。EN具有几个吸引人的优点。（1）它可以作为CNN的“解释工具”。每个EN层中的基于示例的重要比例提供了分析不同样本、类别和数据集在各种任务中的特性的信息。如图1（a）所示，通过在ImageNet上训练ResNet50[9]，不同类别的图像会在同一EN层中选择不同的归一化器，从而实现了比普通网络更好的性能。（2）EN使归一化层的“多功能设计”成为可能，因为EN适用于各种基准和任务。与图1（b）中的最先进的对应方法相比，EN在许多基准上始终表现出色，例如ImageNet[6]用于图像分类，Webvision[18]用于噪声标签学习，ADE20K [42]和Cityscapes[5]用于语义分割。（3）EN是一个“即插即用”的模块。它可以插入到各种CNN架构中，如ResNet [9]，Inception v2[35]和ShuffleNet v2[26]，以替换其中的任何归一化层并提升其性能。本文的贡献有三个方面。（1）我们提出了一种名为动态“学习归一化”的新型归一化学习设置，通过提出示例归一化（EN），为不同的图像样本在不同的归一化层中选择不同的归一化器。EN能够在训练和测试阶段对图像样本进行归一化。（2）EN提供了一种灵活的方式来分析不同层中选择的归一化器，不同样本及其深度表示之间的关系。（3）作为一种新的构建模块，我们将EN应用于各种任务和网络架构。大量实验证明了EN在广泛的基准和任务中优于其对应方法。例如，通过在普通ResNet50[9]中替换BN，EN的改进效果比SN在ImageNet[6]和噪声WebVision[18]数据集上的改进效果提高了300%。02. 相关工作0许多归一化技术被开发出来用于归一化特征表示[14, 1, 36,39, 23]或滤波器的权重[12, 32, 27]以加速训练和提高0CNN的生成能力。其中，批归一化（BN）[14]、层归一化（LN）[1]和实例归一化（IN）[36]是最流行的计算通道、层和小批次统计量的方法。后续的位置归一化[17]独立地在每个空间位置上对通道进行归一化。除了归一化特征图的不同维度外，另一类方法改进了BN处理小批次大小的能力，包括组归一化（GN）[39]、批次重归一化（BRN）[13]、批次卡尔曼归一化（BKN）[37]和流归一化（StN）[20]。在最近的研究中，使用多个归一化器的混合来构建单个归一化层已经引起了很多关注[29, 28, 24, 30,25]。例如，Pan等人引入了IBN-Net[29]，通过手动设计IN和BN的混合策略来提高CNN的泛化能力。在[28]中，Nam等人采用了相同的方案进行风格转换，他们使用门控函数来学习IN和BN的重要比例。Luo等人进一步提出了可切换归一化（SN）[23,22]及其稀疏版本[33]，将这种方案扩展到处理任意数量的归一化器。最近，引入了动态归一化（DN）[25]来估计特定层的统计计算模式。我们的工作受到了这一系列研究的启发，但提供了一种更灵活的方式来学习每个样本的归一化。自适应归一化方法也与我们相关。在[31]中，引入了条件批归一化（cBN），以自适应地学习BN的参数（即缩放和偏移）作为输入特征的函数。注意力归一化（AN）[19]学习基于样本的系数来组合特征图。在[21]中，Deecke等人提出了模态归一化（MN），以实时检测数据的模态并对其进行归一化。然而，这些方法无法像EN一样为不同的卷积层和图像学习各种归一化器。所提出的EN还与卷积和池化中学习数据相关[15]或动态权重[41]的方法有关。计算重要比例的子网络在形式上也类似于SE-like[11, 2,38]注意力机制，但它们在技术上是不同的。首先，SE-like模型鼓励通道对特征表示的贡献相等[34]，而EN学习在不同层中选择不同的归一化器。其次，SE通过使用不同的方案将其插入到不同的网络中。EN可以直接替换其他归一化层。03. 样本归一化（EN）03.1. 符号和背景0概述。我们将归一化介绍为一个4D张量，它是归一化层中的输入数据�Xn = γXn − �k λkµk��k λk (δk)2 + ǫ+ β(2)�Xn =�kγk( λknXn − µk�(δk)2 + ǫ) + βk(3)SoftmaxN*C*HW*KX N*C*HWX N*C*HWx N*C*1x N*K*Cz N*K*(C/r)v N*KKλ N*K^Ω^FC+Tanh+FCλn = F(Xn, Ω; Θ)(4)127280mini-batch。令X∈RN×C×H×W为输入的4D张量，其中N、C、H、W分别表示图像的数量、通道的数量、通道的高度和宽度。这里的H和W定义了单个特征图的空间大小。令矩阵X n∈RC×HW表示第n个图像的特征图，其中n∈{1, 2, ...,N}。不同的归一化器通过在不同维度上去除其均值和标准差来归一化X n，执行如下公式0X n = γX n 0（δ k）2 + � + β（1）0其中X n是归一化后的特征图。µ k和δk是由第k个归一化器计算的均值和标准差向量。这里定义k∈{BN, IN, LN, GN,...}。缩放参数γ∈R C和偏移参数β∈RC被用来重新缩放和重新平移归一化后的特征图。�是一个小常数，用于防止除以零，√∙和(∙)2都是逐通道操作。可切换归一化（SN）。与以前估计输入张量不同维度的统计量的方法不同，SN[23,24]学习了现有归一化器的统计量的线性组合0其中 λ k ∈ [0 , 1]0k λ k = 1 .实际上，这个重要比例是通过使用softmax函数计算得到的。均值和方差的重要比例也可以不同。尽管SN在各种任务中优于单个规范化器，但它通过在每一层中切换多个规范化器来解决一个静态的“学习规范化”问题。一旦SN被学习到，它的重要比例对于整个数据集是固定的。因此，SN的灵活性有限，并且会导致训练集和测试集之间的偏差，从而导致次优结果。本文提出了示例规范化（EN）来研究一个动态的“学习规范化”问题，在每一层中为不同的图像样本学习不同的数据相关规范化。EN极大地扩展了SN的灵活性，同时保留了SN的差分学习、模型训练稳定性和多任务能力的优点。03.2. EN的公式化0给定输入特征图 X n ，示例规范化（EN）定义为0其中 λ k n ∈ [0 , 1]表示第n个样本的第k个规范化器的重要比例。与SN类似，我们0平均池化0规范化0矩阵乘积规范化0线性组合0统计估计0卷积0图2.示范规范化（EN）层的示意图，能够通过使用多个规范化器来学习基于样本的重要比例来规范化输入特征图。注意，方程（3）中的缩放参数 γ 和偏移参数 β 被省略以简化图表。0k λ k n = 1 .与方程（2）和方程（3）相比，SN和EN之间的差异有三个。（1）SN中均值和标准差的重要比例可以不同，但EN避免了这种方案，以确保训练的稳定性，因为EN的学习能力已经通过为不同的样本学习不同的规范化器而优于SN。（2）我们使用重要比例来组合归一化的特征图，而不是组合规范化器的统计量，减少了SN在组合标准差时的偏差。（3）EN中采用多个 γ 和 β来重新缩放和重新平移归一化的特征图。为了计算依赖于个别样本特征图的重要比例 λ k n ，我们定义0其中 λ n = [ λ 1 n , ..., λ k n , ...λ K n ] ， K是EN中规范化器的总数。 Ω表示不同规范化器的统计信息的集合。我们有 Ω = { ( µ k , δk ) } K k =1 。 F ( ∙ )是一个函数（一个小型神经网络），根据输入特征图 X n和统计信息 Ω 来计算基于实例的重要比例。 Θ 表示函数 F (∙ )的可学习参数。我们在下一小节中精心设计了一个轻量级模块来实现函数 F ( ∙ ) 。03.3. 一个示例规范化层0图2显示了EN层中关键操作的示意图，包括重要比例计算和特征图规范化。给定输入张量 X ，估计一组统计量 Ω。我们用 Ω k表示第k个统计量（均值和标准差）。然后EN层使用 X 和Ω来计算重要比例，如图2右侧蓝色分支所示。如图2左侧分支所示。127290图2中，还计算了多个归一化张量。在图2中，有三个步骤来计算每个样本的重要比例。（1）首先使用平均池化对输入张量X在空间维度上进行下采样。输出特征矩阵表示为x∈RN×C。然后我们使用每个Ωk通过减去均值并除以标准差来对x进行预归一化。有K个统计量，因此我们有ˆx∈RN×K×C。然后，使用一维卷积算子将ˆx的通道维度从C减少到C/r，如图2中的第一个蓝色块所示。这里r是一个指示减少率的超参数。为了进一步减少上述操作中的参数，我们使用组卷积，组数为C/r，以确保卷积参数的总数始终等于C，与r的值无关。这一步的输出表示为z。（2）第二步是计算每个样本的不同归一化器之间的成对相关性，这是由高阶特征表示[7,4]所激发的。对于第n个样本，我们使用zn∈RK×C及其转置z T n来计算成对相关性v n = z n z Tn∈RK×K。然后将vn重塑为一个向量来计算重要比例。直观上，成对相关性捕捉了每个样本中不同归一化器之间的关系，并允许模型整合更多信息来计算重要比例。在实践中，我们还发现这样的操作可以有效地稳定模型训练并使模型达到更高的性能。（3）在最后一步中，上述向量vn首先被送入一个全连接（FC）层，然后是一个tanh单元。这是为了将其维度提高到πK，其中π是一个超参数，而K的值通常很小，例如3。在实践中，我们将π的值设置为50。然后，我们执行另一个FC层将维度降低到K。输出向量λn∈RK×1被视为第n个样本的K个归一化器的重要比例，其中每个元素对应一个单独的归一化器。一旦我们获得重要比例[λ 1，λ 2，...，λ N]T，就应用softmax函数以满足不同归一化器的重要比例之和为1的约束条件。复杂性分析。不同归一化方法的参数数量和计算复杂性在表1中进行了比较。EN中的额外参数主要来自卷积和FC层，用于计算数据相关的重要比例。在SN[23]中，这个数字是2K，因为它采用了全局重要比例来计算均值和标准差。在EN中，用于生成数据相关的重要比例的总参数数量为C +Ψ(K)，其中C等于卷积层的输入通道大小（即图2中的“Conv.”具有C个参数）。Ψ(K)是K的函数，它确定了两个FC层中的Θ的数量（即图2中的顶部蓝色块）。在实践中，由于数量0表1.不同归一化器的参数和计算复杂性的比较。γ和β表示方程（2）中的缩放和偏移参数，Θ是所提出的EN中“Conv.”和FC层的参数。K表示归一化器的数量，Ψ(∙)是一个确定Θ数量的函数。{ω k，νk} K k = 1是SN [23]中可学习的重要比例。0方法参数＃参数计算复杂性0BN [14] γ，β 2 CO（NCHW）IN [36] γ，β 2 CO（NCHW）LN[1] γ，β 2 CO（NCHW）GN [39] γ，β 2 CO（NCHW）BKN[37] A C 2 O（NC 2 HW）SN [23] γ，β，{ω k，ν k} K k = 1 2C + 2 K O（NCHW）0EN γ，β，Θ 2 KC + O（NCHW）C + Ψ（K）0当K很小时（例如3�4），Ψ(K)的值大约为0.001M。在本文中，EN使用与SN相同的一组归一化器，即{IN，LN，BN}。因此，用于估计统计量的SN和EN的计算复杂度都为O(NCHW)。我们还在第4节中比较了FLOPs，结果显示与SN相比，EN的额外参数数量较少，但相对于普通BN的改进幅度比SN大300%。04. 实验04.1. 使用ImageNet数据集进行图像分类0实验设置。我们首先检查了在ImageNet[6]上的性能，这是一个用于高分辨率图像分类的标准大规模数据集。根据[23]的方法，所有归一化方法中的γ和β都初始化为1和0。在训练阶段，批量大小设置为128，并且对于所有方法都采用与[9]相同的数据增强方案。在推理中，基于224×224中心裁剪的单裁剪验证准确性被报告。我们使用ShuffleNet v2 x 0.5 [26]和ResNet50[9]作为骨干网络来评估各种归一化方法，因为它们的网络架构和参数数量有所不同。与[26]一样，ShuffleNetv2使用Adam优化器进行训练，初始学习率为0.1。对于ResNet50，所有方法都使用随机梯度下降（SGD）进行优化，学习率采用阶梯式衰减。ShuffleNet v2 x0.5和ResNet50中的超参数r分别设置为8和32，因为最小通道数不同。超参数π为50。为了公平比较，我们将比较的归一化器在骨干网络的所有归一化层中替换为EN。结果比较。表2报告了EN与其对手（包括BN[14]）的效率和准确性。127300表2.使用不同网络架构在ImageNet验证集上使用各种方法的分类准确率（%），网络参数（Params.）和每秒浮点运算次数（GFLOPs）的比较。0骨干网络方法 GFLOPs 参数 top-1 top-50BN 0.046 1.37M 60.3 81.9 ShuffleNet SN 0.057 1.37M 61.282.9 v2 x0.5 SSN 0.052 1.37M 61.2 82.70EN 0.063 1.59M 62.2 83.30SENet 4.151 26.77M 77.6 93.70AANet 4.167 25.80M 77.7 93.80BN 4.136 25.56M 76.4 93.00GN 4.155 25.56M 76.0 92.8 ResNet50 SN 4.225 25.56M76.9 93.20SSN 4.186 25.56M 77.2 93.10EN 4.325 25.91M 78.1 93.60GN [39]，SN [23]和SSN[33]。对于这两个骨干网络，EN在计算成本上提供了超高性能和竞争力。例如，通过考虑基于样本的比例选择，EN在使用ShuffleNet v2x0.5和ResNet50时的top-1准确率上分别比SN提高了1.0%和1.2%，只增加了少量的GFLOPs。在图3中，我们展示了在ImageNet的训练和验证集上使用BN、SN和EN时，ResNet50的top-1准确率曲线。我们还将性能与最先进的基于注意力的方法（即SENet [11]和AANet[2]）进行了比较，即使没有任何额外的技巧，提出的EN仍然优于这些方法。04.2. 使用Webvision数据集进行嘈杂分类0实验设置。我们还使用Webvision数据集[18]评估了EN在嘈杂图像分类任务上的性能。我们采用Inception v2[35]和ResNet50 [9]作为骨干网络。由于Inceptionv2中最小的通道数为32，因此在该网络架构中，第一个“Conv.”的特征缩减率r设置为16。在ResNet50[9]中，我们保持与Imagenet相同的缩减参数r =32。推理中采用图像大小为224×224的中心裁剪。所有模型都使用SGD进行优化，学习率初始化为0.1，并在{30，50，60，65，70}×104的迭代中以10的倍数递减。批量大小设置为256，并且使用数据增强和数据平衡技术，按照[8]的方法进行。在训练阶段，我们将比较的归一化器替换为骨干网络中的EN的所有归一化层。结果比较。表3报告了各种归一化方法的top-1和top-5分类准确率。EN在使用这两种网络架构时都优于其对手。特别是在使用ResNet50作为骨干网络时，0(a) 在CIFAR-10上的ResNet20 (b) 在CIFAR-10上的ResNet200(c) 在ImageNet上的ResNet50 (d) 在ImageNet上的ResNet500(e) 在Webvision上的ResNet50 (f) 在Webvision上的ResNet500图3.CIFAR-10、ImageNet和Webvision数据集上不同归一化方法的top-1训练和验证准确率曲线。放大三倍以获得最佳视图。0骨干网络EN相对于SN将top-1准确率从72.8%提高到73.5%。与普通的普通ResNet50相比，EN相对于SN的改进约为3倍。这种性能提升与ImageNet上的结果一致。训练和验证曲线如图3所示。还进行了跨数据集测试，以研究EN的迁移能力，因为ImageNet和Webvision中的类别是相同的。在一个数据集上训练的模型用于在另一个数据集的验证集上进行测试。结果如图4所示，EN仍然优于其他方法。04.3. 使用CIFAR数据集的小图像分类0实验设置。我们还在CIFAR-10和CIFAR-100数据集上进行了实验。训练批次大小为128。所有模型都是使用单个GPU进行训练的。训练过程包含165个epoch。初始学习率设为0.1，并在第80个和第120个epoch时进行衰减。我们还采用了热身方案[9, 10]。Inception v2BN2.05611.29M70.788.0SN2.08111.30M71.388.5EN2.12212.36M71.688.6ResNet50BN4.13625.56M72.589.1SN4.22525.56M72.889.2EN4.32525.91M73.589.4ImageNet→ WebvisionBN67.985.8SN68.086.3EN68.486.8Webvision → ImageNetBN64.484.3SN61.181.0EN64.784.6CIFAR-10ResNet2091.5491.8192.41ResNet5693.1593.4193.73ResNet11093.8894.0194.22CIFAR-100ResNet2067.8767.7468.78ResNet5670.8370.7072.01ResNet11072.4172.5373.32ssmsssUmsSyncBN36.437.769.773.0GN35.736.668.473.1SN37.738.472.275.8EN38.238.972.676.1127310表3.使用不同网络架构和归一化方法在Webvision验证集上的分类准确率（%）、网络参数和GFLOPs的比较。最佳结果为粗体。0模型归一化 GFLOPs 参数 top-1 top-50表4.跨数据集结果的top-1和top-5准确率（%）。在“→”之前采用的数据集用于使用不同归一化方法训练ResNet50。在“→”之后的验证集用于测试。两个数据集中的类别数相同。0训练集 → 验证集方法 top-1 top-50表5. 使用不同网络在CIFAR-10和CIFAR-100数据集上的top-1准确率（%）。最佳结果为粗体。0数据集骨干网络 BN SN EN0在所有模型训练中，EN将学习率从0增加到0.1，即在第一个epoch中。结果比较。在CIFAR数据集上的实验结果如表5所示。与之前的方法相比，EN在各种深度的ResNet[9]上显示出比其他归一化方法更好的性能。特别是在CIFAR-100上，EN的top-1准确率相对于不同网络深度的SN分别提高了1.04%、1.31%和0.79%。04.4. 语义图像分割0实验设置。我们还使用标准基准ADE20K [42]和Cityscapes[5]数据集评估了EN在语义分割任务上的性能，以展示其泛化能力。与[23,40]一样，我们使用ResNet50作为骨干网络，并在最后两个块中采用速率为2和4的空洞卷积。骨干网络的下采样率0表6.ADE20K和C-ityscapes数据集上的语义分割结果。骨干网络是带有扩张卷积的ResNet50。下标“ss”和“ms”分别表示单尺度和多尺度测试。最佳结果以粗体显示。0方法 ADE20K Cityscapes0表7.使用EN-ResNet50在ImageNet上的top-1准确率（%），使用不同升序维度超参数π。0方法 SN EN（超参数π的值）1 10 20 50 1000top-1 76.9 77.1 77.5 77.8 78.1 78.0 ∆ vs. SN - +0.2 +0.6+0.9 +1.2 +1.10网络为8，并采用双线性操作将预测的语义地图上采样到输入图像的大小。所有模型都使用每个GPU的2个样本进行“ploy”学习率衰减训练。ADE20K和Cityscapes上的初始学习率分别设置为0.02和0.01。评估使用单尺度和多尺度测试。请注意，SN和EN未使用同步方案来估计跨多个GPU的批次均值和批次标准差。为了在语义分割上微调模型，我们使用8个GPU，每个GPU上32个图像对EN-ResNet50在ImageNet进行预训练，因此我们报告与SN相同的配置（即SN（8,32）[24]）以进行公平比较。结果比较。表6报告了ADE20K验证集和Cityscapes测试集上的mIoU分数。EN的性能改进与分类结果一致。例如，使用多尺度测试，ADE20K和Cityscapes上的mIoU从38.4%和75.8%提高到38.9%和76.1%。04.5. 切除研究0超参数π。我们首先研究了Sec.3.3中超参数π的影响。使用ResNet50作为骨干网络，在ImageNet上的top-1准确率报告在表7中。所有的EN模型都优于SN。随着π的数量增加，分类性能稳步增长。除了π=1外，最低和最高之间的差距约为0.6%，这表明在大多数情况下，模型对超参数π不敏感。为了兼顾分类准确率和计算效率，我们将π设置为50。超参数r。我们还通过控制超参数r来评估第一个“Conv。”的不同组划分策略。尽管具有不同r的“Conv.”层的参数总数相同，但减小的特征维度是不同的，导致不同的计算复杂性，即r越大，后续块中的计算成本越小。表8显示了使用第一个“Conv.”中不同组划分的EN-ResNet50在ImageNet上的top-1准确率。所有的配置都比SN实现了更高的性能。随着r值的增长，EN-ResNet50的性能稳定增加，除了等于ResNet50中最小通道数的64。这些结果表明，特征维度的减小有益于性能的提升。然而，如果减小率等于最小通道数，则此优势可能消失。其他配置。我们替换EN层中的其他组件以验证其有效性。比较的配置如下所示。a）在图2中，使用2层多层感知器（MLP）替换设计的重要比率计算模块。MLP将特征维度降低到第一层的1/32，然后通过激活函数将维度降低到第二层中的重要比率数量。b）省略图2中的“Conv.”操作，并直接计算Sec.3.3‘step(2)’中的成对相关性vn。c）将图2中顶部蓝色块中的Tanh激活函数替换为ReLU。d）不使用Eqn.（3）中的多个γ，β（即每个γ，β对应一个标准化器），而采用单个γ，β。表9报告了使用不同内部配置的EN与其他变体的比较。根据结果，当前的EN配置与其他变体相比实现了最佳性能。值得注意的是，我们发现2层MLP的输出在训练阶段（即重要比率）发生了剧烈变化，使得重要比率的分布发生了变化。EN-ResNet5078.1 / 93.6-127320表8.使用EN-ResNet50在ImageNet上的top-1准确率（%），使用Sec.3.3中‘Conv.’的不同超参数r。注意，具有不同r的参数总数相同。0方法 SN EN（超参数r的值）2 4 16 32 640top-1 76.9 77.7 77.9 77.9 78.1 77.7 ∆ vs. SN - +0.8 +1.0+1.0 +1.2 +0.80表9.使用EN-ResNet50在ImageNet上的top-1和top-5准确率（%），使用不同配置。0方法 top-1 / top5 top-1 / top5 ∆ vs. EN0a. → 2层MLP 76.7 / 92.9 - 1.4 / - 0.7 b. → w/oConv. 77.6 / 92.9 - 0.5 / - 0.7 c. → ReLU 77.7 /93.4 - 0.4 / - 0.2 d. → 单个γ，β 77.6 / 93.3 - 0.5/ - 0.30使用不同r时，“Conv.”层中的参数总数相同，但由于特征维度的减小，计算复杂度不同，即r越大，后续块中的计算成本越小。表8显示了使用第一个“Conv.”中不同组划分的EN-ResNet50在ImageNet上的top-1准确率。所有的配置都实现了比SN更高的性能。随着r值的增长，EN-ResNet50的性能稳定增加，除了等于ResNet50中最小通道数的64。这些结果表明，特征维度的减小有益于性能的提升。然而，如果减小率等于最小通道数，则此优势可能消失。其他配置。我们替换EN层中的其他组件以验证其有效性。比较的配置如下所示。a）在图2中，使用2层多层感知器（MLP）替换设计的重要比率计算模块。MLP将特征维度降低到第一层的1/32，然后通过激活函数将维度降低到第二层中的重要比率数量。b）省略图2中的“Conv.”操作，并直接计算Sec.3.3‘step(2)’中的成对相关性vn。c）将图2中顶部蓝色块中的Tanh激活函数替换为ReLU。d）不使用Eqn.（3）中的多个γ，β（即每个γ，β对应一个标准化器），而采用单个γ，β。表9报告了使用不同内部配置的EN与其他变体的比较。根据结果，当前的EN配置与其他变体相比实现了最佳性能。值得注意的是，我们发现2层MLP的输出在训练阶段（即重要比率）发生了剧烈变化，使得重要比率的分布发生了变化。0(a) ImageNet验证集上的平均比率0(b) Webvision验证集上的平均比率0图4.在ImageNet和Webvision验证集上，ResNet50不同层的平均样本比率。y轴表示经过softmax操作后（即总和为1）不同归一化器的重要比率。x轴显示ResNet50的不同残差块和每个块中的图像分辨率。不同数据集在网络的不同层学习了不同归一化器的平均比率。0不同迭代中的特征图变化太大，导致准确率大大降低。04.6. EN的分析0数据集上的比率学习动态。由于EN层中用于学习重要比率λ的参数初始化为0，在模型训练开始时，每个样本在每个层中的重要比率具有统一的值（即1/3）。在训练阶段，λ的值在0和1之间变化。我们首先研究了ResNet50在ImageNet和Webvision验证集上不同层的平均样本比率。我们使用优化后的模型计算每个层中每个样本的比率，然后计算所有验证集上每个层的平均比率。根据图4，一旦确定了训练数据集，不同数据集的学习到的平均比率通常是不同的。为了分析训练过程中比率的变化，图5绘制了ResNet50中53个归一化层的100个epochs的比率学习动态。每个比率值都是在ImageNet验证集上所有样本上求平均得到的。从整个数据集的角度来看，EN每层的比率变化与SN相似，其值在训练阶段有平滑的波动，这意味着不同的层可能需要自己偏好的归一化器来优化不同epochs的模型。类别和图像上的比率学习动态。与SN相比，EN的一个优点是能够学习适应不同样本的重要比率。为了说明EN的这种优势，我们进一步绘制了不同层中不同类别（即具有相似外观和不具有相似外观的类别）的平均重要比率，如图6所示，以及不同层中不同图像样本的重要比率，如图7所示。我们得出以下观察结果：（1）不同类别在不同层中学习了自己的重要比率。然而，一旦神经网络在某个数据集上进行了优化（例如ImageNet），比率变化的趋势在不同epochs中是相似的。例如，在图6中，波斯猫和暹罗猫具有相似的外观，它们的比率曲线非常接近，甚至在某些层中重合，例如Layer5和Layer10。而Cheeseburger类别的比率曲线与上述两个类别相差很远。但在大多数层中，不同归一化器的比率变化基本相同，只有数值上的细微差异。（2）对于具有相同类别索引但外观不同的图像，它们在不同层中学习到的比率也可能不同。这些情况在图7中显示。所有图像都来自糖果类别，但外观各异，例如糖果和售卖糖果的货架。根据图7，来自同一类别的不同图像在底部、中间和顶部的归一化层中获得了不同的比率。127330图5.在ImageNet上训练的EN-ResNet50的53个归一化层中，平均样本比率的可视化结果，训练了100个epochs。每个子图的y轴表示不同归一化器的重要比率。x轴显示不同的训练epochs。放大三倍以获得最佳视图。0在不同epochs中，不同类别的比率变化趋势相似。例如，在图6中，由于波斯猫和暹罗猫具有相似的外观，它们的比率曲线非常接近，甚至在某些层中重合，例如Layer5和Layer10。而Cheeseburger类别的比率曲线与上述两个类别相差很远。但在大多数层中，不同归一化器的比率变化基本相同，只有数值上的细微差异。（2）对于具有相同类别索引但外观不同的图像，它们在不同层中学习到的比率也可能不同。这些情况在图7中显示。所有图像都来自糖果类别，但外观各异，例如糖果和售卖糖果的货架。根据图7，来自同一类别的不同图像在底部、中间和顶部的归一化层中获得了不同的比率。05. 结论0在本文中，我们提出了示例标准化方法，以样本为基础的方式学习不同标准化器的线性组合。我们展示了EN在各种计算机视觉任务（如分类、检测和分割）中的有效性，证明了其比静态学习标准化方法（如SN）具有更好的学习和泛化能力。此外，学习到的重要比例的可解释化可视化揭示了类别和数据集的特性。未来的工作将在更智能的任务中探索EN。此外，对重要比例的任务导向约束也将是一个潜在的研究方向。致谢：本工作部分支持了No.2018YFB1800800，深圳大数据研究院开放研究基金No.2019ORF01005，2018B030338001，2017ZT07X152，ZDSYS201707251409055，HKU基础研究和创业基金。0图6.ResNet50的6个不同层次中3个类别（波斯猫、暹罗猫和芝士汉堡）重要比例的可视化。每列表示一个标准化器。0图7.ResNet50中来自糖果类别的3个样本在不同层次中重要比例的可视化。[1] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E. Hinton.Layer normalization. arXiv:1607.06450, 2016.[2] Irwan Bello, Barret Zoph, Ashish Vaswani, Jonathon Shlen-s, and Quoc V Le. Attention augmented convolutional net-works. In ICCV, 2019.[3] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos,Kevin Murphy, and Alan L Yuille. Deeplab: Semantic imagesegmentation with deep convolutional nets, atrous convolu-tion, and fully connected crfs. IEEE transactions on patternanalysis and machine intelligence, 40(4):834–848, 2017.[4] Yunpeng Chen, Yannis Kalantidis, Jianshu Li, ShuichengYan, and Jiashi Feng. Aˆ 2-nets: Double attention networks.In NeurIPS, 2018.[5] Marius Cordts, Mohamed Omran, Sebastian Ramos, Tim-o Rehfeld, Markus Enzweiler, Rodrigo Benenson, UweFranke, Stefan Roth, and Bernt Schiele.The cityscapesdataset for semantic urban scene understanding. In CVPR,2016.[6] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li,and Li Fei-Fei. Imagenet: A large-scale hierarchical imagedatabase. In CVPR, 2009.[7] Zilin Gao, Jiangtao Xie, Qilong Wang, and Peihua Li. Glob-al second-order pooling convolutional networks. In CVPR,2019.[8] Sheng Guo, Weilin Huang, Haozhi Zhang, Chenfan Zhua

下载后可阅读完整内容，剩余1页未读，立即下载