深度解析：CNN中的dropout技术及其作用

需积分: 0 42 浏览量更新于2024-08-05 收藏 2.04MB PDF 举报

"CNN中的dropout理解 - Dod_Jdi的博客 - CSDN博客1" Dropout是在卷积神经网络（CNN）中广泛使用的一种正则化技术，由Geoffrey Hinton等人提出，它有助于防止过拟合并提升模型的泛化能力。在训练过程中，dropout通过以一定的概率随机“关闭”或“丢弃”一部分神经元，使得网络在每次迭代时都会以不同的子网络进行学习。这种随机性使得网络不能依赖于特定的特征组合，从而鼓励网络发展出更多的鲁棒特征。 Dropout的基本操作是，对每个神经元赋予一个保持概率p，每次前向传播时，每个神经元被保留的概率为p，被丢弃的概率为1-p。如果神经元被丢弃，它的输出会被设为0，这样在反向传播时，它也不会影响其他神经元的权重更新。在测试阶段，不使用dropout，而是将每个神经元的输出乘以保持概率p，以确保整个网络的期望输出与训练阶段一致。论文中提到的“组合派”观点，是将dropout视为一种近似的集成学习（ensemble learning）方法。在集成学习中，通常会训练多个不同的模型，然后将它们的预测结果综合考虑，以提高整体性能。 Dropout通过在训练期间创建大量的、结构各异的子网络，实现了类似的多样性效果，但不需要在测试时运行多个网络，从而节省了计算资源。过拟合是深度学习中的常见问题，当模型过度适应训练数据，导致在未见过的数据上表现不佳。大规模的神经网络更容易发生过拟合，因为它们拥有更多的参数，可以学习到训练数据的噪声和细节，而不仅仅是普遍规律。为了解决这个问题，dropout提供了一种高效且计算成本较低的解决方案，它通过减少网络之间的依赖，强制网络学习更为独立的特征，从而增强了模型的泛化能力。除了防止过拟合，dropout还有助于缓解训练过程中的梯度消失和梯度爆炸问题，因为它促使每个神经元都能独立地学习，而不是依赖于其他神经元的输出。此外，dropout还可以看作是一种形式的正则化，类似于L1或L2正则化，但它是针对网络结构的正则化，而非直接作用于权重。在实际应用中，dropout的参数p需要根据具体任务和网络结构进行调整。较高的p值可能导致模型过于稀疏，而较低的p值可能不足以充分减少过拟合。通过实验确定最佳的保持概率是优化模型性能的重要步骤。 dropout是深度学习中一种强大的工具，它利用随机丢弃神经元的方式，提高了模型的泛化能力和鲁棒性，尤其是在处理复杂任务如图像识别、自然语言处理等领域时，能够显著提升模型的表现。尽管dropout最初在全连接层中被广泛使用，但现在也被应用于卷积层和池化层，以增强CNN的性能。

2018/10/23 CNN中的dropout理解 - Dod_Jdi的博客 - CSDN博客

https://blog.csdn.net/dod_jdi/article/details/78379781 3/11

测试层面

预测的时候，每一个单元的参数要预乘以p。

论文中的其他技术点

防止过拟合的方法：

提前终止（当验证集上的效果变差的时候）

L1和L2正则化加权

soft weight sharing

dropout

dropout率的选择

经过交叉验证，隐含节点dropout率等于0.5的时候效果最好，原因是0.5的时候dropout随机生成的网络结构最多。

dropout也可以被用作一种添加噪声的方法，直接对input进行操作。输入层设为更接近1的数。使得输入变化不会太大（0.8）

训练过程

对参数w的训练进行球形限制(max-normalization)，对dropout的训练非常有用。

球形半径c是一个需要调整的参数。可以使用验证集进行参数调优

dropout自己虽然也很牛，但是dropout、max-normalization、large decaying learning rates and high momentum组合起来效果更好，比如max-norm regularization

的learning rate导致的参数blow up。

使用pretraining方法也可以帮助dropout训练参数，在使用dropout时，要将所有参数都乘以1/p。

部分实验结论

该论文的实验部分很丰富，有大量的评测数据。

maxout 神经网络中得另一种方法，Cifar-10上超越dropout

文本分类上，dropout效果提升有限，分析原因可能是Reuters-RCV1数据量足够大，过拟合并不是模型的主要问题

dropout与其他standerd regularizers的对比

L2 weight decay

lasso

KL-sparsity

max-norm regularization

dropout

特征学习

标准神经网络，节点之间的相关性使得他们可以合作去fix其他节点中得噪声，但这些合作并不能在unseen data上泛化，于是，过拟合，dropout破坏了这种相

autoencoder上，有dropout的算法更能学习有意义的特征（不过只能从直观上，不能量化）。

产生的向量具有稀疏性。

保持隐含节点数目不变，dropout率变化；保持激活的隐节点数目不变，隐节点数目变化。

数据量小的时候，dropout效果不好，数据量大了，dropout效果好

模型均值预测

使用weight-scaling来做预测的均值化

使用mente-carlo方法来做预测。即对每个样本根据dropout率先sample出来k个net，然后做预测，k越大，效果越好。

剩余10页未读，继续阅读

虚伪的小白

粉丝: 26
资源: 321

深度解析：CNN中的dropout技术及其作用

深度学习文本分类教程：使用TensorFlow和NLP技术

A20-v2_原理图详解：关键接口与组件布局

NAGD-CNN+Dropout：提升面部表情识别的深度卷积神经网络

Singal-CNN-master_CNN_cnn处理信号分类_卷积神经网络_卷积神经_信号识别_

BN-CNN_python_BN_cnn轴承_时频图CNN_轴承_源码.zip

Cifar10-Classify(deep CNN)_planetmft_python_cifar10_CIFAR-10_cif

CNN_Hyperspectral_Classification-master_光谱_神经网络_神经网络图像_高光谱CNN_高光

CNN.rar_CNN_Neural networks_Neural-Networks_the code_theybne

using-convnets-with-small-datasets_keras_CNN_图像识别_

Basic_CNNs_TensorFlow2-master_CNN_python_卷积神经网络_tensorflow_

最新资源