深度学习中的BN层详解：加速训练，缓解梯度消失

需积分: 0 155 浏览量更新于2024-08-05 收藏 1.13MB PDF 举报

"这篇文章主要探讨了BN层（Batch Normalization层）在深度学习中的作用，以及它是如何解决内部协变量转移（internal Covariate Shift）问题的。BN层通过规范化每一层的数据分布，使得网络能够更快地训练，并防止梯度消失。文章还提到了BN层的核心公式，以及可训练的参数伽马（γ）和贝塔（β）的作用。" 深度学习中，BN层的引入是为了解决一系列关键问题。首先，BN层有助于防止梯度消失，这对于深度神经网络至关重要，尤其是在使用如Sigmoid这样的饱和激活函数时，梯度消失可能导致网络难以训练。通过标准化输入，BN层可以确保梯度在反向传播过程中的稳定性，从而更有效地训练深层网络。其次，BN层能加速训练过程，并允许使用更大的学习率。在没有BN的情况下，由于数据分布的变化，网络需要调整权重以适应新的分布，这可能导致训练速度减慢。BN层通过保持每层输入数据的标准化，减少了这种适应的需求，使得网络可以使用更大的学习率进行训练，从而提高训练效率。 BN层的核心在于它对数据进行的规范化处理。对于每个批次（batch）的数据，BN层首先计算其均值和方差，然后将数据转换到标准正态分布（均值为0，方差为1），这一步称为批标准化。随后，通过可训练的参数γ和β，可以调整规范化后的数据分布，使得网络能够在保持标准化的同时，适应特定任务的特性。γ可以放大或缩小特征的尺度，而β则可以移动特征的中心位置。除了批标准化，还有其他类型的规范化方法，如Group Normalization (GN)、Layer Normalization (LN)和Instance Normalization (IN)。它们分别以不同的方式处理数据的集合，以适应不同场景的需求。 BN层是深度学习中一个非常重要的技术，它提高了模型的训练速度，增强了模型的泛化能力，并帮助解决了深度网络中常见的训练难题。理解并熟练应用BN层，对于提升模型性能和优化训练流程具有重大意义。

问

题

在

深

度

⽹

络

训

练

过

程

中

是

⾮

常

好

⽤

的

trick

，

在

笔

试

中

也

很

常

考

，

⽽

之

前

只

是

⼤

概

知

道

它

的

作

⽤

，

很

多

细

节

并

不

清

楚

，

因

此

希

望

⽤

这

篇

⽂

章

彻

底

解

决

揭

开

的

⾯

纱

。

层

的

由

来

与

概

念

讲

解

之

前

，

我

们

需

要

了

解

是

怎

么

被

提

出

的

。

在

机

器

学

习

领

域

，

数

据

分

布

是

很

重

要

的

概

念

。

如

果

训

练

集

和

测

试

集

的

分

布

很

不

相

同

，

那

么

在

训

练

集

上

训

练

好

的

模

型

，

在

测

试

集

上

应

该

不

奏

效

（

⽐

如

⽤

ImageNet

训

练

的

分

类

⽹

络

去

在

灰

度

医

学

图

像

上

ﬁnetune

再

测

试

，

效

果

应

该

不

好

）

。

对

于

神

经

⽹

络

来

说

，

如

果

每

⼀

层

的

数

据

分

布

都

不⼀

样

，

后

⼀

层

的

⽹

络

则

需

要

去

学

习

适

应

前

⼀

层

的

数

据

分

布

，

这

相

当

于

去

做

了

domain

的

adaptation

，

⽆

疑

增

加

了

训

练

难

度

，

尤

其

是

⽹

络

越

来

越

深

的

情

况

。

实

际

上

，

确

实

如

此

，

不

同

层

的

输

出

的

分

布

是

有

差

异

的

。

的

那

篇

论

⽂

中

指

出

，

不

同

层

的

数

据

分

布

会

往

激

活

函

数

的

上

限

或

者

下

限

偏

移

。

论

⽂

称

这

种

偏

移

为

internal Covariate Shift

，

internal

指

的

是

⽹

络

内

部

。

神

经

⽹

络

⼀

旦

训

练

起

来

，

那

么

参

数

就

要

发

⽣

更

新

，

除

了

输

⼊

层

的

数

据

外

(

因

为

输

⼊

层

数

据

，

我

们

已

经

⼈

为

的

为

每

个

样

本

归

⼀

化

)

，

后

⾯

⽹

络

每

⼀

层

的

输

⼊

数

据

分

布

是

⼀

直

在

发

⽣

变

化

的

，

因

为

在

训

练

的

时

候

，

前

⾯

层

训

练

参

数

的

更

新

将导

致

后

⾯

层

输

⼊

数

据

分

布

的

变

化

。

以

⽹

络

第

⼆

层

为

例

：

⽹

络

的

第

⼆

层

输

⼊

，

是

由

第

⼀

层

的

参

数

和

input

计

算

得

到

的

，

⽽

第

⼀

层

的

参

数

在

整

个

训

练

过

程

中⼀

直

在

变

化

，

因

此

必

然

会

引

起

后

⾯

每

⼀

层

输

⼊

数

据

分

布

的

改

变

第

⼀

层

输

出

变

化

了

，

势

必

会

引

起

第

⼆

层

输

⼊

分

布

的

改

变

，

模

型

拟

合

的

效

果

就

会

变

差

，

也

会

影

响

模

型

收敛

的

速

度

（

例

如

我

原

本

的

参

数

是

拟

合

分

布

的

，

然

后

下⼀

轮

更

新

的

时

候

，

样

本

都

是

来

⾃

分

布

的

，

对

于

这

组

参

数

来

说

，

这

些

样

本

就

会

很

陌

⽣

）

就

是

为

了

解

决

偏

移

的

，

解

决

的

⽅

式

也

很

简

单

，

就

是

让

每

⼀

层

的

分

布

都

normalize

到

标

准

⾼

斯

分

布

。

（

是

根

据

划分

数

据

的

集

合去

做

Normalization

，

不

同

的

划分

⽅

式

也

就

出

现

了

不

同

的

Normalization

，

如

，

）

核

⼼

公

式

这

两个

是

可

以

训

练

的

参

数

（

分

⺟

加

是

为

了

防

⽌

⽅

差

为

）

对

上

述

公

式

的

解

释

：

即

⼀个

batch

中

的

数

据

，

先

计

算

的

均

值

与

⽅

差

，

之

后

将

集

合

的

均

值

、

⽅

差

变

换

为

、

即

标

准

正

态

分

布

，

最

后

将

中

的

每

个

元

素

乘以

再

加

上

然

后

输

出

，

和

是

可

训

练

的

参

数

，

这

两个

参

数

是

层

的

精

髓

所

在

，

为

什

么

这

么

说

呢

？

和

卷

积

层

，

激

活

层

，

全

连

接

层

⼀

样

，

层

也

是

属

于

⽹

络

中

的

⼀

层

。

我

们

前

⾯

提

到

了

，

前

⾯

的

层

引

起

了

数

据

分

布

的

变

化

，

这

时

候

可

能

有

⼀

种

思

路

是

说

：

在

每

⼀

层

输

⼊

的

时

候

，

再

加

⼀个

预

处

理

就

好

。

⽐

如

归

⼀

化

到

均

值

为

，

⽅

差

为

，

然

后

再

输

⼊

进

⾏

学

习

。

基

本

思

路

是

这

样

的

，

然

⽽

实

际

上

没

有

这

么

简

单

，

如

果

我

们

只

是

使

⽤

简

单

的

归

⼀

化

⽅

式

：

下载后可阅读完整内容，剩余4页未读，立即下载

琉璃纱

粉丝: 19
资源: 298

深度学习中的BN层详解：加速训练，缓解梯度消失

[其他类别]达达ASP.NET三层架构添删改查实例_bn388.zip

[其他类别]达达ASP.NET三层架构添删改查实例_bn388（ASP.NET源码）.rar

合并bn层和生成特征图的python脚本.rar

可视化pytorch 模型中不同BN层的running mean曲线实例

基于人工神经网络有无BN层对CIFAR10数据集的分类识别功能实现

双层石墨烯中h-BN缓冲层对Co（111）的影响

登录BN文件BNetEditor

BN搭建全过程

深入浅出Yolo系列之Yolov3&Yolov4&Yolov5&Yolox核心基础知识完整讲解_江南研习社-CSDN博客_深入浅

BN015-大型OA源码

最新资源