滤波器响应归一化：消除深度神经网络训练中的批量依赖

184 浏览量更新于2023-10-25 收藏 615KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1«ą滤波器响应归一化层：消除深度神经网络训练中的批量依赖谷歌研究{saurabhsingh，skrishnan}@ google.com摘要78Batch Normalization（BN）使用小批量统计数据来规范训练期间的激活，从而在小批量元素之间引入依赖性。如果mini-batch大小太小，或者元素是相关的，则这种依赖性会损害性能。已经提出了几种替代方案，如批重整化和群归一化（GN）然而，它们要么不匹配BN的大批量的性能，或仍然表现出性能下降的小批量，或引入人工约束的模型架构。在本文中，我们提出了滤波器响应归一化（FRN）层，这是一种归一化和激活函数的新组合我们的方法在每个批处理元素的每个激活通道上独立地操作，消除了对其他批处理元素的依赖我们的方法优于BN和其他替代品在各种设置的所有批量大小。对于使用InceptionV 3和ResnetV 2 -50架构的Imagenet分类，FRN层在大小批量的top-1验证准确度上比BN高0.7- 1.0%。此外，它在小的小批量制度下对相同问题的表现比GN好1%。对于COCO数据集上的目标检测问题，FRN层优于所有其他方法在所有批量范围内至少增加0.3- 0.5%。1. 介绍批量归一化（BN）[18]是当前高性能深度神经网络模型的基石BN的一个经常讨论的缺点是它依赖于足够大的批量[17，31，36]。当用小批量训练时，BN表现出显著的性能下降。该问题归因于BN依赖随机小批量产生的训练和测试差异因此，已经提出了几种方法来改善随机性[17，31]引起的问题，或者通过消除批次依赖性来提供替代方案[2，36]怎么-767472706866641 2 4 8 16 32每GPU的图像数（批量大小/8）图1：我们的方法始终优于其他标准化方法，即使在最大批量时，其他方法与批量标准化相比也很困难（见插图）。该图报告了使用ImageNet上不同批量大小的8个GPU训练的ResNetV 2 -50模型的验证性能然而，这些方法此外，它们在较小批量时仍表现出性能下降例如，批量重正化，或者对模型架构和大小引入约束，例如，组归一化要求层中的通道数量是理想组大小的倍数，例如32。在这项工作中，我们提出了滤波器响应归一化（FRN）层，由一个规范化和激活功能，完全消除了这些缺点。我们的方法不具有任何批次依赖性，因为它独立地对每个批次样品的每个激活通道（过滤器响应）进行操作，并且在各种各样的评估设置中优于BN和替代方案例如，在图1中，FRN层在ImageNet分类上的ResNetV 2 -50的所有批量大小BN对大批量大小的依赖阻碍了更高容量模型的开发，这是由于显著更高的内存要求，并对需要处理更大输入的任务的为11237组规范FRN层BatchNormBatchRenaissance准确度（精密度@1）11238ą例如，对象检测和分割在更高分辨率的输入下执行得更好;类似地，视频数据往往是非常高维的。因此，这些系统被迫在模型容量和训练更大批量的能力之间进行权衡。如图1所示，我们的方法通过在一系列批量中保持一致的性能来解决这一问题。FRN层由两个新颖的组件组成，它们共同工作以产生高性能：1）滤波器响应归一化（FRN），一种归一化方法，通过将每个滤波器的响应除以其未中心二阶矩的平方根来独立地归一化每个批处理元素的每个滤波器的响应，而不执行任何平均减法，以及2）离散线性单元（TLU），一种逐点通过学习的校正阈值参数化的激活，允许偏离零的激活。FRN层优于BN超过0.7-1.0%，具有使用InceptionV 3和ResnetV 2 -50 架构的Imagenet分类的大小批量大小。此外，它执行在小的小批量范围内，在相同的问题上比GN好1%。对于COCO数据集上的对象检测，FRN层在所有批量大小范围内至少优于所有其他方法0.3-0.5%最后，FRN层在我们测试的所有批量大小中保持一致的性能总之，所提出的FRN层不依赖于用于归一化的其他批元素或通道，但优于BN和用于归一化的其他替代方案。所有批量大小和各种设置。贡献：1. 滤波器响应归一化（FRN），一种归一化方法，使使用每通道归一化训练的模型能够实现高精度。2. 线性单位（TLU），一个与FRN一起使用的激活函数，可以进一步提高准确性，并在所有批量大小下超过BN，而没有任何批量依赖性。我们将这种组合称为FRN层。3. 几个见解和实际考虑导致FRN和TLU的结合成功。4. 一个详细的实验研究比较流行的规范化方法在大规模图像分类和目标检测任务使用各种架构。2. 相关工作已知训练数据的归一化有助于优化。例如，白化输入是训练浅层模型（如支持向量机和逻辑回归）的常见做法类似地，对于训练深度网络，建议对输入和中间表示进行归一化以实现有效学习[9，20，21]。批量归一化（BN）[18]加速学习并实现非常深的神经网络的训练通过稳定中间特征分布来改进架构。通过使用整个小批量中为该通道计算的平均值和方差统计信息，独立地对每个激活通道进行归一化来实现稳定。然而，BN在使用较小的小批量训练时表现出性能的显著下降[31，36]。为解决这一不足，提出了若干办法，可分为两大类：1）减少批量归一化模型中的训练-测试差异的方法，2）避免批量归一化的基于样本的归一化方法。减少训练-试验批处理标准化误差的方法。Ioffe [17]注意到，在训练和测试期间用于归一化的统计数据之间的差异可能是由于小的小批量和非iid样本导致的偏差而他们提出批量重整化（BR），通过将小批量时刻限制在特定范围内，限制训练期间小批量统计的变化来这种方法的一个关键好处是，用BR训练的模型的测试时间评估方案与用BN训练的模型的测试时间评估方案完全相同相比之下，EvalNorm [31]没有修改训练方案。相反，它提出了对仅在评估期间使用的归一化统计这种方法的主要优点是模型不需要重新训练。然而，这两种方法对于小的小批量仍然表现出性能下降另一种方法是设计系统，通过在GPU上为需要大输入的任务分配更大的批次来规避这个问题[25]。然而，这种方法需要相当大的GPU基础设施。避免使用小批量标准化的方法。几种方法通过完全不依赖随机小批量来回避BN遇到的问题[2，35，36]。相反，归一化统计量是从样本本身计算的。层归一化（LN）[2]计算来自整个层的归一化统计，即使用所有激活通道。与此相反，像BN一样，实例归一化（IN）[35]独立地计算每个通道的归一化统计，但仅从被归一化的样本中，而不是像BN那样从整个批次中计算。IN被证明是有用的风格转移appli-阳离子，但没有成功地应用于识别。组归一化（GN）[36]填补了两者之间的中间地带。它计算信道组上的归一化统计。实验确定了理想的组大小。虽然GN此外，GN所需的组的大小对网络大小和架构施加了约束，因为每个归一化层需要具有多个信道，11239yv2ř2我我NyX我z我我我？ν`2ǫ βFRNTLU俄.西pq我我“““FRN层X z图2：拟议的FRN层的示意图。由GN确定的理想组大小的倍数。其他办法。权重标准化[28]建议根据方向对滤波器进行重新参数化和一个规模和报告加速收敛。 NormalizationPropagation [1]使用理想化的矩估计来归一化每一层。参见Ren et al.[26]对于各种标准化方法的统一看法。分裂归一化（DN）[6，16]已经被提出来用相邻激活的函数来归一化每个激活，并且已经在各种上下文中进行了研究，包括密度建模[3]，图像压缩[4，5]，灵敏度最大化[7]，分布式神经表示[29]和注意力[27]等。3. 方法我们的目标是消除深度神经网络训练中的批量依赖性，而不会牺牲BN在大批量下的性能增益。我们从我们的建议的主要细节开始，然后讨论我们的方法背后的基本原理。3.1. 具有阈值激活的为了说明的目的，我们假设我们正在处理前馈卷积神经网络。我们遵循通常的惯例，即在卷积操作之后产生的滤波器响应（激活图）是具有形状B、W、H、C的4D张量X，其中B是小批量大小，W、H是图的空间范围，并且C是卷积中使用的滤波器的数量。C也被称为输出通道。令x X b ，：，cRN，其中N WH，是第b个批次点的第c个滤波器的滤波器响应的向量。设ν2x2N，是x的均方范数。然后，我们提出滤波器响应归一化（FRN）如下：Xx“？第2节，（1）其中，k是一个小的正常数，以防止被零除。关于所提出的归一化方案，有几个观察是合乎顺序的：1. 类似于其他归一化方案，FRN去除了由于滤波器权重和预激活两者引起的缩放这是已知的[28]，以沿着权重的方向去除噪声更新并减少梯度协方差。2. 我们建议中的一个主要区别是，我们没有在标准化之前去除均值。虽然均值减法是批量归一化的一个重要方面，但它是任意的，并且对于独立于批量的归一化方案没有真正的理由3. 我们的标准化是在每个通道的基础上完成的。这确保了所有过滤器（或权重矩阵的行）在最终模型中具有相同的相对重要性。4. 乍一看，FRN似乎非常类似于Krizhevsky等人提出的局部响应归一化（LRN）[19 ]第10段。然而，除了其他差异之外，LRN在相同空间位置处对相邻信道进行归一化，而FRN是在空间范围上的全局归一化。与其他方案一样，我们还在归一化后执行仿射变换，以便网络可以消除归一化的影响：y其中γ和β是学习参数。我们的FRN层的最后一个添加是激活函数。3.1.1双端线性单元（TLU）FRN中缺少平均居中可能导致激活具有远离零的任意偏差这种偏见与ReLU结合可能会对学习产生不利影响，并导致性能低下和死亡单元。我们建议通过使用学习阈值 τ来增强 ReLU 来解决这个问题，以产生TLU，定义为：z由于max y，τ 最大yτ，0τ ReLU yτ τ，TLU激活的效果与在ReLU之前和之后具有共享偏置相同。然而，根据我们的实验，这似乎与吸收先前和后续层中的偏差并不相同。我们假设TLU的形式更有利于优化。TLU显著提高了使用FRN的模型的性能（见表5），优于BN和其他替代方案，并导致我们的方法，FRN层。图2显示了我们提出的FRN层的原理图。3.2. FRN层在本节中，我们推导出在存在FRN层的情况下流经网络的梯度的表达式由于所有变换都是按通道执行的，因此我们只导出每个通道的梯度。让我们假设在网络中的某个地方，激活x被馈送到FRN层，并且输出是z（在转换11240Bzp qByi““Bfbronx，ą2“p′{q2´µˆB2|| || “在等式（1）、（2）和（3）中描述）。设f z是网络应用于z的映射，梯度Bf向后流动。注意，参数γ、β和τ是大小为num个通道的向量，因此每个通道的更新是标量的。#1.00.50.0BZIBτ0，如果我灵芝τ1、否则（四）0.51.0注意，梯度Bzi与上面的相同，with the cases reversed.然后，对τ的梯度更新具有以下形式：10 5 0 5 10Input（x）图3：在该案例中，BfBτbˆBfBZBTBZB，（5）Bτ的N1.对于非常小的值，FRN变成一个步骤function while for higher values it behaves like a softsignfunction, allowing the gradients to flow. 在具有完全连接层的模型中，拥有一个可学习的模型是至关重要的，其中，zb是第b个通道的每通道激活的向量批次点。tγ和β的导数如下：低维激活图一个固定不变的值为10′ 6。在我们的实验中，我们发现硫锑铅矿BBf，BfTBb¸Bf（六）可学习的参数化对于训练InceptionV3模型是有用的，其中辅助logits头产生Bγ Bβbb1 - 1激活图，并用于VGG-A [30]架构使用等式（2），我们可以看到Bf“γ Bf. 最后，这颗-它使用完全连接的层。BxBy从FRN层流回的流可以写为自2000年以来，我们探索了两种替代参数化来强制执行此约束：绝对值和指数。f1“怎么样？我xxTstecBf（七）虽然两者都训练得很好，但绝对值参数化10英尺6英寸|布里尔|（图1是学习参数），产生的控制，Bxν2`NBx我们对梯度做了一些观察等式（5）表明在常规ReLU激活中被抑制的部分梯度现在用于更新τ，并且在某种意义上不是浪费 d 。以来xN，方程（7）表明梯度w.r.t到x与x正交（假设x=0），因为x<$x<$TN在x <$方向上投影出分量。该属性不是我们的归一化所独有的，但已知有助于减少SGD期间的梯度变化并有利于优化[28]。3.3. 学习计划在到目前为止的讨论中，我们假设滤波器响应具有大小为N W H的大空间范围。然而，在Incep-tionV 3[33]和VGG-A [30]等真实网络中，有些层会产生1× 1的激活图。在该设置（N获得了较好的实证结果。这种形式的参数化也是优选的，因为对于Rxl的梯度幅度与Rxl的值无关。3.4. 均值中心化批量归一化被提出来对抗深度神经网络训练期间内部协变量偏移的影响解决方案是保持数据集上激活分布的统计不变;实际上，他们选择在每一步对小批量的一阶和二阶矩进行归一化。包括均值居中的独立于批次的替代方案没有任何特殊考虑，似乎只是批次归一化的遗留问题。以实例规范化（IN）为例。使用与第3.1节相同的符号，INcomputability是nor-使用channe l统计量µ“的情况下，如等式（1）中所提出的归一化变成符号函数（参见图3），并且几乎在任何地方都具有非常小的梯度。这将不可避免地对学习产生不利影响。相比之下，较高的α值导致变体和σ2ipxi′µq{N如下：Xx“？σ2`（8）更容易学习的平滑软符号函数。因此，对于完全连接或导致11个激活图的模型，适当的α值变得至关重要从经验上讲，我们将R2转换为此类模型的可学习参数（初始化为10′ 4对于其他模型，我们使用= 0。001= 0。010= 1。000 = 10。000No rmalize d（x）“11241随着激活图的大小减小（如在更靠近输出的层中常见的，其经受下采样，或者由于存在完全连接的层），IN产生零激活。层和组规范化是通过规范化来规避此问题的方法11242„1ˆˆ{（所有或部分）信道。由于各个过滤器负责每个通道的激活，因此跨通道的标准化在过滤器更新中引入了不必要的交互。因此，似乎唯一的原则性方法是分别归一化激活图的每个通道，而不诉诸均值居中。这也具有去除滤波器之间的相对缩放的期望效果，已知这极大地有助于优化。不执行平均居中的负面影响是激活可以任意偏离零，使ReLU激活不太理想。我们通过在第3.1.1节中引入非线性保持线性单元（TLU）来缓解这个问题。从经验上讲，非中心归一化与TLU激活的组合优于BN和所有其他替代方案。3.5. 实施和实际考虑FRN很容易在自动区分框架中实现。我们在清单1中提供了一个使用Tensorflow的 python API的示例实现。此外，为了使FRN达到峰值精度，我们发现必须注意以下实际考虑事项。FRN对每一个的敏感性都依赖于架构。学习率时间表：我们发现，更常见的步衰减学习率（LR）的时间表是不是最佳的FRN。相反，连续LR衰减时间表，如余弦衰减（没有重新启动）执行更好的所有方法，并消除了需要调整步衰减超参数。预热：由于FRN不执行均值居中，我们根据经验发现某些架构对初始LR的选择设置较高的初始LR会导致大量更新，这会导致训练早期的大量激活，并导致学习速度减慢清单1：FRN层的Tensorflow实现def FRNLayer（x，tau，beta，gamma，eps= 1 e-6）：# x：形状为[BxHxWxC]的输入张量。# tau、beta、gamma：形状变量[1，1，1，C]。# eps：标量常量或可学习变量。#计算每个通道激活的平均范数。nu2 = tf.reduce_mean（tf.square（x），axis=[1，2]，keepdims=True）#执行FRN。x = x* tf.rsqrt（nu ~ 2 + tf.ABS（EPS））#应用Offset-ReLU非线性后返回。returntf.maximum（gamma* x +对于评估来说，目标检测通常需要高分辨率输入，并且特别受到BN的大批量要求的限制。在Imagenet分类上，我们证明了我们的方法在三种不同的网络架构上优于其他归一化方法。此外，我们的方法在我们实验的所有批量下都一致地做到了这一点。最后，我们验证了我们的方法在对象检测上的性能，它在所有批量大小上都优于其他归一化方法。4.1. ImageNet分类数据集：ImageNet分类数据集[8]由1000个类组成我们在1号线上训练。28M训练图像和50000个验证图像的报告结果。对于本节中的所有模型，我们将图像大小调整为299 299，并在训练时使用[34模型架构：我们使用三种不同的模型架构进行比较：1）ResnetV 2 -50 [14]：具有身份快捷方式的流行模型，2）InceptionV 3 [32]：没有身份快捷方式和完全连接层的高性能模型，以及3）VGG-A [30]：具有卷积层和完全连接层的前馈模型。为所有这是由于？v2`Bf梯度中的因子Bx（请参阅使用GN的模型，我们使用32的组大小但由于VGG-A在所有层中不使用32的倍数过滤器，我们等式（7））。这种情况在架构中更常见它使用了几个最大池化层，比如VGG-A。我们通过使用LR从0缓慢增加到峰值的初始翘曲阶段来解决这个问题由于我们所有的实验都使用余弦LR衰减时间表，因此我们也使用请注意，热身阶段是非常常见的，经常用于训练[11，13，14]。可学习的参数：如第3.3节所讨论的，对于使用11激活图的模型，将参数转换为学习参数并使用较大的值初始化以防止类似阶跃函数的行为并启用训练是至关重要的。4. 实验我们在两个任务上广泛地评估了我们的方法：1）Imagenet上的图像分类，以及2）COCO上的对象检测。而图像分类是事实上的标准将过滤器的数量增加到最接近的倍数。培训：我们遵循He等人使用的培训设置。[13 ]第10段。所有模型都使用8个GPU上的同步SGD进行300000步的训练。通过在所有GPU上求平均值来计算权重。对于BN，每个GPU计算归一化统计。这种设置对于在Tensorflow和PyTorch中使用同步SGD的多GPU训练很常见。初始学习率为0。1批次大小 256和余弦衰减时间表。我们遵循[13，14]的其他实现细节。使用两个图像分类度量报告结果：1）与标准化方法的比较：在表1中，我们比较了我们的方法与各种归一化方法，11243“表1：FRN层在ResnetV 2 -50 [14]和InceptionV 3 [32]的Imagenet Classification上0.90.8方法ResnetV2 50 InceptionV30.70.60.5表2：用于标准化的小批量的影响ResnetV 2 -50的ImageNet分类[14]。每GPU图像数32168421@1Batchnorm76.21 75.55 74.04 71.96 65.091.58对伦茨75.85 75.96 75.59 74.18 70.75 37.55CISI群范数75.67 75.77 76.14 76.02 76.20 75.93reFRN层[Ours]77.21 77.10 77.16 77.18 77.33 77.36P∆+1.54 +1.33 +1.02 +1.16 +1.13 +1.43Batchnorm92.98 92.81 92.12 90.98 86.514.00ll@5伦茨92.90 92.98 92.80 92.10 89.81 57.18ECA群范数92.70 92.72 92.89 92.87 92.92 92.73RFRN层[Ours]93.62 93.59 93.60 93.49 93.61 93.61∆+0.92 +0.87 +0.71 +0.62 +0.69 +0.88常规批量大小为32张图像/GPU。这导致有效批量为328 256，是BN的最有利配置。这是图像分类的最强基线，BN的所有替代方案都在这种情况下挣扎即使对于这种大批量，FRN也优于所有方法，包括BN，在两种架构上都有健康的利润。关键的要点是，高性能不需要依赖于批处理的训练。在这种大批量下，下一个最好的执行归一化方案是BN和BatchRenminbi，这两种方法都是批量归一化方法，其次是其他基于样本的归一化方法。图4比较了使用ResnetV 2 -50架构的各种归一化方法的训练和验证我们观察到FRN层比BN实现了更高的训练和验证精度，这表明随机批次依赖的去除简化了优化，使模型能够更好地训练。一般化的差距，即。训练和验证精度之间的差异也有所增加。但是，改进的优化会在验证方面带来净相比之下，GN的训练误差也比BN低，但在验证方面表现更差。每GPU少量图像的效果：我们研究了用于归一化的小批量大小（图像/GPU）对图中各种方法性能的影响。0.40K 50K 100K 150K 200K 250K 300K训练步骤图4：使用ResnetV 2 -50模型的Imagenet分类的各种归一化方法的训练和验证曲线比较。图1和表2。所有方法都使用8个GPU进行训练，使用6个不同的总批量大小8，16，32，64，128，256，每个GPU分为相等数量的图像，导致1，2，4，8，16和32个图像/GPU。如图1所示，已知当批量较小时BN的性能会降低[17，31]。GroupNorm（GN）仅在最大批量时表现出更一致的性能，低于BN。批处理重整化在最大的两个批处理大小上优于GN，但在较小的批处理大小上表现出性能下降。我们的方法FRN在所有批量大小下都始终优于所有归一化方法。分析FRN和TLU的效果：在表3中，我们对FRN和TLU的影响进行了详细的消融研究。我们将它们与各种归一化方法相-BatchNorm（BN）、GroupNorm（GN）、LayerNorm（LN）和InstanceNorm（IN），并为两种高性能但不同的模型架构-ResnetV 2 -50和InceptionV 3-的每个组合训练模型。我们或者用TLU替换ReLU激活，或者修改归一化技术以抑制均值居中和除以非居中的二阶矩而不是方差（等式（1）而不是等式（8））。对应的归一化在表3中以FRN后缀对于BN，我们只是替换了激活函数，而没有改变归一化技术，并且我们观察到性能没有显著差异然而，我们注意到，IN受益于使用FRN（IN+ReLU vs. FRN+ReLU），导致ResnetV 2的3.61 P@1增益-50.添加TLU导致另一个1.97分增益（FRN + TLU）。对于InceptionV3也观察到类似的改进。事实上，GN和LN也可以看到类似的改善趋势。这个实验结果表明，FRN和TLU对于我们的方法的高性能至关重要，并提供互补的增益。具有全连接（FC）图层的模型：FC层是归一化方法的病态情况，尤其是BatchNormBatchNorm列车组NormGroupNorm列车FRN层FRN层列车准确度（精密度@1）P@1R@5P@1R@5Batchnorm76.2192.9878.2494.07BatchRenaissance75.8592.9078.1994.01群范数75.6792.7078.1493.98层范数72.7591.1976.7593.37即时通讯71.6390.4673.9391.60FRN层[Ours]77.2193.5778.9594.4911244：：：“表3：我们的方法在ResnetV 2 -50 [14]和InceptionV 3[32]的Imagenet分类上的消融。我们评估我们的方法与现有的规范化的各种组合。包含我们的一个支持程序的组合标记为。我们的方法FRN + TLU在底部标记为[Ours]。ResnetV2-50InceptionV3方法P@1R@5P@1 R@5BN + ReLU 76.21 92.98 78.24 94.07表4：具有全连接层的模型。我们提供了使用两个完全连接层的VGG-A模型的Imagenet分类比较。上半部分显示了初始学习率为0.01（默认率）的训练结果。下半部分显示了具有较高学习率0.1的训练结果。基础模型以这个速率发散，而具有Batchnorm的模型表现出不稳定性。FRN和Groupnorm训练得很好，FRN的表现优于其他所有人。方法学习率P@1 R@5BN + TLU：76.03 92.94 78.22 94.13GN + ReLU 75.67 92.70 78.14 93.98GN + TLU：76.59 93.16 78.50 94.18GFRN + ReLU：75.93 92.65 78.1694.03GFRN+ TLU：76.44 92.80 78.1894.05LN+尿素72.75 91.19 76.75 93.37LN + TLU：73.99 91.60 77.21 93.48LFRN + BAUG：75.03 92.50 77.62 93.65LFRN + TLU：76.17 92.89 78.12 94.02IN + ReLU 71.63 90.46 73.93 91.60IN + TLU 71.72 90.53 74.81 92.01FRN + ReLU 75.24 92.65 77.98 94.02FRN + TLU [Ours]77.21 93.57 78.95 94.49每个样本方法（GN、LN、IN、FRN），因为要标准化的激活数量相对较小。因此，在FC层之后通常不应用归一化层。在本节中，我们评估在所有层之后应用归一化的效果，而不管它们是FC层还是卷积层。请注意，FC层是FRN最具挑战性的场景，因为我们正在对单个激活（N1）进行归一化。我们报告了FC层输出标准化的1)表1和2中的InceptionV 3）表4中的VGG-A。请注意，虽然ResnetV 2 -50在全局池化之后也具有FC层以产生logit，但归一化是在池化之前执行的，因此在这里不相关InceptionV 3在辅助logits分支中具有完全连接的层，而VGG-A在主网络中具有它们。即使在这两种架构上，FRN也优于所有其他归一化方法。请注意，在训练InceptionV 3和VGG-A时，使用学习率预热（参见第3.5节）和学习的训练（参见第3.3节）对于FRN实现峰值性能至关重要。FRN在In-ceptionV 3上的表现不如其他方法，并且在没有预热的情况下无法在VGG-A上完全学习。其他方法没有受到明显影响。我们发现，在没有预热阶段的情况下，最大池化层的输出在最初的几步中增长到非常大的幅度。这使归一化激活饱和（见图3），并由于梯度流动不良而防止学习有趣的是，对于VGG-A，BN在默认学习率为0.01时的表现比“无归一化”差。在表4中，我们还报告了使用更高的学习率0.1。在这个学习速率下，预热阶段对所有模型都很有用然而，相比之下，FRN和GN都受益于更高学习率的训练，并产生改进的性能，其中FRN优于GN。TLU与相关变体的比较：在表5中，我们将TLU与ImageNet上ResnetV 2 -50的三个相关变体进行了比较。所有四个对应于具有尺度κ和偏置τ的不同组合以计算阈值。首先观察TLU，尽管有一个不太一般的形式，优于其他。其次，所有具有可学习阈值的变体都优于BN，而BN我们的结论是，一个可学习的阈值是必要的高性能结合FRN，但它不需要输入依赖。有趣的是，虽然其中两种变体对应于通常已知的激活-注意，Affine-TLU不同于Maxout [10]，Maxout [ 10 ]计算跨通道组的最大值，并且与Affine-TLU不同，导致通道数量减少。4.2. 基于COCO的目标检测接下来，我们评估我们的方法的任务对象检测（OD），并证明它始终优于其他规范化方法，在所有的批量大小，我们评估。由于OD框架通常使用高分辨率输入进行训练，因此它们仅限于使用小的迷你批量大小。这一约束使得OD成为基于样本的归一化方法的理想评估基准，这些方法可以实现小批量的训练。无标准化0.0169.0488.99Batchnorm0.0167.8288.11群范数0.0169.3589.12FRN0.0170.04 89.42无标准化0.1发散发散Batchnorm0.162.6184.56群范数0.169.9489.57FRN0.171.66 90.6911245PTU{表5：ResnetV 2 -50的Imagenet分类上结合FRN的激活比较。我们观察到，与BN相比，可学习阈值是我们方法高性能的关键，BN方法P@1R@5BN + max px，0 q（ReLU）76.2192.98BN + max px，τ q（TLU）76.03九十二点九四FRN + maxpx， 0q（ReLU）75.2492.65表6：COCO上的对象检测结果。我们的方法，FRN，优于所有批量大小的其他方法。请注意，虽然BN在较小批量时表现出性能急剧下降，但FRN表现出相对较小的退化，并且始终优于GN，后者也表现出类似的稳定性能。请注意，BNx模型是通过微调imagenet预训练模型来训练的，而其他模型则是从头开始训练的。方法AP AP50AP75imgs/gpu8 4 2 8 4 2 8 42最大px，κxq（PReLU）[12] 76.43 93.30最大px，κx`τq（仿射-TLU）76.71 93.32最大px，τq（TLU）77.21 93.57实验装置。我们在COCO数据集[ 22 ]上进行了实验，其中包含80个对象类。我们训练自己-使用train2017集，并在val2017（minival）分割中对5k图像进行评估。我们报告了具有不同IoU阈值的平均精度的标准COCO评估指标，即AP，AP50，AP75 Lin et al。[22 ]第20段。模型：我们使用 RetinaNet [24] 对象检测框架。RetinaNet是一个统一的单级检测器，包括三个概念组件：1）具有现成体系结构的骨干网络，其用作给定高分辨率输入图像的卷积特征提取器，2）卷积对象分类子网络，其作用于由骨干网络提取的特征，以及，3)卷积边界框回归子网络。我们使用ResnetV 1 -101特征金字塔网络骨干[23]并将输入图像大小调整为1024 ×1024。训练：为了简化实验和评估，我们只在从头开始训练的模型上比较所有方法。我们根据[15]的结论证明了这一选择，即通过更长的训练时间，从头开始训练的模型可以赶上通过微调预训练模型训练的模型。为了确保这一点，我们从一个基线微调模型开始，由我们在最大批量64下训练，在25K训练步骤中实现了38.3的AP（BNx，表6），并且接近[24]中报告的39.1的相应结果。接下来，我们根据经验找到25K的最接近的倍数，当从头开始训练到125K步时，它可以达到类似的精度（BN，表6）。我们将125K设置为最大批量的训练步骤的基数。我们使用8个GPU训练我们的模型，并在{64，32，16}，每GPU对应{ 8，4，2}个图像，活泼地对于较小的批量大小M，我们将训练步骤设置为125000 64M，并将学习速率设置为base lrM64。我们报告最好的性能使用基地lr 0。01 0 05，0。1.一、所有模型都使用0.9的动量和4 * 10* 4的权重衰减进行训练。归一化方法的比较：在表6中，我们观察到FRN在所有批次中均优于BN和GN大小，进一步验证了我们在上一节中的结果。与表2中的观察结果一致，在评价的批量下，FRN和GN的准确度均高于BN。在最大批量时，FRN的表现优于BN，差异显著，为0.9AP点，而在最小批量时，这一差距扩大到8.9此外，FRN始终实现比GN更高的精度。批量的影响：BN表现出显着的性能下降，从头开始训练的模型下降了8.5 AP点，因为每个GPU的图像数量减少到2。相比之下，FRN和GN都显示出相对更稳定的准确性，并且下降不到0.6AP点。有趣的是，最小批量的微调BNx相比之下，FRN在所有批量的所有指标上保持一致的领先优势。5. 结论在本文中，我们提出了FRN层，这是滤波器响应归一化（FRN）和阈值激活（TLU）函数的一种新组合，消除了对批量相关训练的需要它在各种设置中都优于BN，并在大批量和小批量训练中表现出始终如一的高性能。此外，在所有探索的设置中，FRN还优于组归一化，该组归一化是BN的领先的基于样本的归一化替代方案我们还证明了成功的FRN在病理的情况下，完全连接的层，通常是不规范的。然而，由于不同的规范化方法在不同的问题领域取得了成功，例如，层规范化在NLP中取得了成功，因此我们将FRN对这些领域的探索作为未来的工作。谢谢。我们要感谢Vivek Rathod在物体检测实验方面的帮助。BNx38.3 37.1 32.957.2 55.4 49.1 41.5 40.4 35.9BN38.7 37.9 30.2 56.6 55.2 44.5 42.1 41.4 32.5GN39.3 39.0 38.7 57.8 57.5 56.9 42.6 42.3 41.8FRN39.6 39.5 39.1 58.5 58.4 57.5 43.1 43.3 42.311246引用[1] Devansh Arpit， Yingbo Zhou ， Bhargava U Kota ， andVenu Govindaraju.归一化传播：一种用于消除深度网络中内部协变量偏移的参数技术。arXiv预印本arXiv：1603.01431，2016年。3[2] Jimmy Lei Ba，Jamie Ryan Kiros，Geoffrey E Hinton.层归一化。arXiv预印本arXiv：1607.06450，2016。一、二[3] 约翰内斯·鲍尔、瓦莱罗·拉帕拉和埃罗·西蒙切利。使用广义归一化变换的图像密度建模。ICLR，2016年。3[4] 约翰内斯·巴尔·莱、瓦莱罗·拉帕拉和埃罗·西蒙切利。端到端优化的图像压缩。在ICLR，2017。3[5] 约翰内斯 Ba lle' ， Da vidMinnen ， SaurabhSingh ，SungJinHwang和Nick Johnston。基于尺度超先验的变分图像压缩。ICLR，2018年。3[6] AB债券。抑制在猫纹状皮层细胞定向选择性特化中的作用。视觉神经科学，2（1）：41-55，1989年。3[7] Matteo Carandini和David J Heeger。规范化作为一种典型的神经计算。Nature Reviews Neuroscience，13（1）：51，2012. 3[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别，第248-255页。Ieee，2009年。5[9] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。第十三届人工智能和统计国际会议论文集，第249-256页，2010年。2[10] Ian J Goodfellow，David Warde-Farley，Mehdi Mirza，Aaron Courville ， and Yoonne Bengio.Maxout 网络。arXiv预印本arXiv：1302.4389，2013。7[11] PriyaG o yal ， PiotrDoll a´r ， RossB.Girshick ，PieterNoord-huis ，Lukasz Wesolowski ，Aapo Kyrola ，Andrew Tulloch，Yangqing Jia，and Kaiming He.精确的大批量 SGD ： 1 小时内训练 imagenet CoRR ，abs/1706.02677，2017。

下载后可阅读完整内容，剩余1页未读，立即下载