批量归一化：加速深度网络训练的策略

需积分: 0 56 浏览量更新于2024-06-30 收藏 309KB DOCX 举报

"翻译稿WORD版1" 批量归一化（Batch Normalization）是深度学习中一种重要的技术，它通过对每层神经网络的输入数据进行规范化处理，有效地解决了内部协变量转移（internal covariate shift）的问题。内部协变量转移指的是在深度神经网络训练过程中，由于前层参数的更新导致后层输入数据分布的变化，这使得训练过程变得复杂，需要精心选择初始参数和使用较小的学习率。批量归一化将规范化操作内置于网络结构中，对每个训练小批量的数据进行处理，不仅提高了训练效率，还能使用较高的学习率，降低了对初始化的敏感度。批量归一化的工作原理是在每一层的激活函数之前或之后（取决于网络结构），对小批量数据的每个特征维度进行标准化，使其均值为0，方差为1。这样做的好处是可以稳定网络的训练过程，使得网络的内部表示（internal representations）在训练过程中保持相对稳定，从而加速学习。批量归一化还具有一定的正则化效果，可以减少对Dropout等正则化技术的依赖。在实际应用中，批量归一化在图像分类任务上表现优异，比如在ImageNet大规模视觉识别挑战赛中，采用批量归一化的网络模型显著减少了训练时间，并且在验证和测试误差上取得了超越人类评估者的表现。除了批量归一化，随机梯度下降（Stochastic Gradient Descent, SGD）及其变种如动量法（Momentum）和Adagrad也是深度学习中常用的优化算法。它们的目标是通过最小化损失函数来调整网络的权重参数。SGD以小批量数据为单位进行参数更新，相比单个样本，小批量的梯度估计更稳定，同时利用现代硬件的并行计算能力，提高了训练效率。动量法引入了一种惯性效应，帮助网络更快地收敛，而Adagrad则自适应地调整每个参数的学习率，根据参数历史梯度的平方调整其学习速度。批量归一化结合这些优化策略，如动量和Adagrad，能够进一步提升深度学习模型的训练效率和性能。通过减少内部协变量转移的影响，批量归一化使得深度网络能够在更深、更复杂的结构下依然保持良好的训练效果，从而推动了深度学习在视觉、语言和其他领域的广泛应用。

2 减少内部协变量转移

我们把在训练期间由于网络参数的变化而造成的网

络激活函数输出值分布的变化称为定义为内部协变量转

移。为了增强训练，我们要寻求减少内部协变量转移。

我们期待通过在训练过程中保持层输入

的分布来提高

训练速度。众所周知如果层输入被白化(whitened)，也

就是说把层输入线性变换为零均值和单位方差并且去相

关，则网络训练就会收敛得更快。由于每层的输入是由

下面层产生的输出，因此对每层输入进行相同程度的白

化将是有利的。通过白化每层输入，我们就可以向实现

输入的固定分布，并向消除内部协变量转移的不良影响

的目标前进一步。

我们可以考虑对每个训练步骤或者以一定间隔的激

活函数进行白化，也可以通过直接修改网络或者根据网

络激活值改变优化算法的参数。但是，如果仅仅将这些

修改与优化步骤直接穿插摆放，则梯度下降的步骤对参

数的调整可能会改变激活输出的分布并导致重新归一化，

而这有可能会使得梯度下降的效果减弱。比如，考虑一

个层，输入是

加上学习偏置

，并且通过减去在训练数

据上计算的激活的平均值来对结果进行归一化：

[ ]

x xEx

= -

)

其中

x ub

= +

，

{ }

...N

是训练集上

值的集合，

[ ]

Ex x

�

。如果一个梯度下降步骤忽略了

[ ]

对

的依

赖性，则它更新

的值就是

b b b

� +D

，其中

b / x

D -��

)

。然

后

( ) ( )

[ ]

u b b Eu b b ubEub

+ +D - + +D = + - +

� �

。因此，对 b 的更新

和随后的归一化中的变化这两者的组合导致层的输出没

有改变[读不通]，所以也不会改变损失函数。随着训练

继续，

将无限增长，而损失函数则保持固定不变。如

果归一化不仅中心而且缩放激活[?]，这个问题可能变

得更糟。我们在初始试验中观察到，当归一化参数在梯

剩余22页未读，继续阅读

卡哥Carlos

粉丝: 33
资源: 300

批量归一化：加速深度网络训练的策略

翻译版本1

翻译译文1

翻译定稿1

大学生经典英语演讲稿带翻译（WORD可编辑）..docx

2017百度世界大会李彦宏演讲稿Word文档

最新全文英语合同翻译平台翻译服务通用版协议书WORD格式可编辑.docx

【优质】3分钟英语演讲稿【双语版】word版本(9页).pdf

2022年名著阅读发言稿[Word稿].doc

(完整word版)基于单片机温度监测系统设计的外文翻译.doc

最新设计稿版权申请样书年论文版权转让通用版合同书WORD样本.docx

最新资源