加速训练与稳定分布：Batch Normalization详解与代码实现

需积分: 0 40 浏览量更新于2024-08-05 收藏 624KB PDF 举报

Batch Normalization (BN) 是一种深度学习中常用的技术，旨在解决神经网络训练过程中隐藏层特征分布不稳定的问题。其核心动机是假设当输入特征满足标准正态分布时，模型性能更好。然而，随着网络深度增加，由于非线性变换的影响，隐藏层的特征往往会变得相关且分布发生变化，这可能导致训练难度增大。 BN的主要作用有两个： 1. 加速训练收敛：通过标准化每个 mini-batch 的特征，BN有助于减少内部协变量位移（covariate shift），使得模型能够更快地收敛到全局最优解。 2. 提高模型稳定性：BN使得隐藏层输出特征的分布更加稳定，有利于防止梯度消失或爆炸问题，从而提升模型学习的效果。 BN的实现主要包括前向传播和反向传播两个步骤：前向传播： - 计算当前 mini-batch 的特征均值和方差。 - 对每个特征进行标准化处理，即减去均值并除以方差（或使用缩放因子和偏置调整）。 - 训练时记录所有 mini-batch 的均值和方差，以便在测试阶段使用无偏估计。反向传播： - 在反向传播过程中，BN层需要考虑标准化后的梯度，因此涉及到对均值和方差的导数计算。 - BN层的公式涉及一系列复杂的数学关系，包括均值、方差、缩放因子和偏置的导数。具体来说，通过定义辅助变量，可以简化公式，降低实现的复杂度。 - 实现时，通常使用 PyTorch 或 TensorFlow 这样的深度学习框架提供的内置BN层，或者根据公式手动实现计算。 BN的代码实现通常包括一个前向函数，负责标准化和缩放操作，以及一个反向函数，处理梯度的传递和参数更新。这个过程既体现了理论上的数学推导，也展示了如何将这些理论应用到实际的编程环境中，以优化模型性能和训练效率。

Batch Normalization（BN）的动机

一般来说，如果模型的输入特征不相关且满足标准正态分布时，模型的表现一般较好。在训练神经网络模型时，我们可

以事先将特征去相关并使得它们满足一个比较好的分布，这样，模型的第一层网络一般都会有一个比较好的输入特征，

但是随着模型的层数加深，网络的非线性变换使得每一层的结果变得相关了，且不再满足分布。更糟糕的是，可能这些

隐藏层的特征分布已经发生了偏移。

论文的作者认为上面的问题会使得神经网络的训练变得困难，为了解决这个问题，他们提出在层与层之间加入Batch

Normalization层。训练时，BN层利用隐藏层输出结果的均值与方差来标准化每一层特征的分布，并且维护所有mini-

batch数据的均值与方差，最后利用样本的均值与方差的无偏估计量用于测试时使用。

鉴于在某些情况下非标准化分布的层特征可能是最优的，标准化每一层的输出特征反而会使得网络的表达能力变得不

好，作者为BN层加上了两个可学习的缩放参数和偏移参数来允许模型自适应地去调整层特征分布。

BN层的作用

贴出论文中的两张图，就可以说明BN层的作用

1.使得模型训练收敛的速度更快

2.模型隐藏输出特征的分布更稳定，更利于模型的学习

下载后可阅读完整内容，剩余3页未读，立即下载

查理捡钢镚

粉丝: 24

加速训练与稳定分布：Batch Normalization详解与代码实现

cudnn-linux-x86-64-8.6.0.163-cuda11-archive.zip

Python库 | batch22-0.1.2021.1.1.0-py3-none-any.whl

CS231n课程笔记翻译：神经网络笔记 2 - 知乎专栏1

Batch-Normalization-Accelerating-Dng-Internal-Covariate-Shift.md

keras.layers.batchnormalization

tf.keras.layers.batchnormalization

tf.keras.layers.BatchNormalization

layers.BatchNormalization

layers.batchnormalization

tf.keras.layers.BatchNormalization()

最新资源