BN与Dropout在训练测试中的差异及其应用

需积分: 0 118 浏览量更新于2024-08-05 1 收藏 620KB PDF 举报

本文主要讨论了两种在深度学习中常用的正则化技术——批量归一化(Batch Normalization, BN)和Dropout，并分析了它们在训练和测试阶段的区别。 BatchNormalization（批量归一化）是一种用于加速深度学习模型训练并提高泛化能力的技术。其主要目标是使网络各层的输入保持相对稳定的分布，从而缓解内部协变量漂移问题。在训练过程中，BN对每一批次的数据进行归一化，利用该批次数据的均值和方差。而在测试阶段，由于没有批次的概念，BN使用的是整个训练集的均值和方差，这些统计量通常通过移动平均在训练过程中计算并保存。使用全量训练集的均值和方差可能导致过拟合，因此BN在训练时采用每批数据的统计信息，增加了模型的鲁棒性。 Dropout是一种随机失活机制，主要用于减少神经元之间的依赖，防止过拟合。在训练期间，Dropout以预设的概率随机关闭（或“失活”）一部分神经元，使得模型在每次前向传播时都能看到不同的子网络。这等效于集成多个简化版的网络，提升了模型的泛化性能。然而，在测试阶段，我们不再使用Dropout，而是使用完整的模型进行预测。为了解决训练和测试阶段之间输入量级的差异，训练时会将前一层的输出除以(1-p)，其中p是Dropout概率，以补偿神经元失活的影响，保持训练和测试期间输入的期望值一致。 BatchNormalization和Dropout在实践中经常结合使用，但需要注意，它们的使用策略和作用机理略有不同。BN主要通过调整输入分布来优化模型的学习过程，而Dropout则是通过随机失活来增加模型的多样性。在应用时，通常建议先进行BN，再进行Dropout，以确保Dropout操作不影响BN的归一化效果。 BN和Dropout都是为了提高深度学习模型的性能和泛化能力，它们在训练和测试阶段各有特定的实现方式，以适应不同的优化目标。理解和合理运用这两种技术对于构建高效、鲁棒的深度学习模型至关重要。

BatchNormalization

Dropout

BN和Dropout共同使用时会出现的问题

BatchNormalization

BN，Batch Normalization，就是在深度神经网络训练过程中使得每一层神经网络的

输入保持相近的分布。

训

练

和

测

试

时

的

参

数

是

一

样

的

嘛

？

对于BN，在训练时，是对每一批的训练数据进行归一化，也即用每一批数据的均值

和方差。

而在测试时，比如进行一个样本的预测，就并没有batch的概念，因此，这个时候用

的均值和方差是全量训练数据的均值和方差，这个可以通过移动平均法求得。

对于BN，当一个模型训练完成之后，它的所有参数都确定了，包括均值和方差，

gamma和bata。

训

练

时

为什么不

用

全

量

训

练

集

的

均

值

和

方

差

呢

？

因为用全量训练集的均值和方差容易过拟合，对于BN，其实就是对每一批数据进行

归一化到一个相同的分布，而每一批数据的均值和方差会有一定的差别，而不是用

固定的值，这个差别实际上能够增加模型的鲁棒性，也会在一定程度上减少过拟

合。

也正是因此，BN一般要求将训练集完全打乱，并用一个较大的batch值，否则，一个

batch的数据无法较好得代表训练集的分布，会影响模型训练的效果。

Dropout

下载后可阅读完整内容，剩余4页未读，立即下载

練心

粉丝: 27
资源: 305

BN与Dropout在训练测试中的差异及其应用

深度学习中dropout技术的原理与应用

PyTorch进阶实践：Early Stop与Dropout策略

深度学习入门实战：Early-stopping与Dropout技术

BN-CNN_python_BN_cnn轴承_时频图CNN_轴承_源码.zip

pytorch:model.train和model.eval用法及区别详解

基于人工神经网络有无BN层对CIFAR10数据集的分类识别功能实现

优化深度学习：Dropout技术对抗过拟合的专家级指南

YOLOv1的训练策略和技巧

批量归一化(BN)深度剖析：深度学习模型性能优化的关键

最新资源