深度学习：ReLU的挑战与权重初始化策略

需积分: 0 126 浏览量更新于2024-08-05 收藏 608KB PDF 举报

"关于神经网络几个小点2" 在神经网络领域，我们经常遇到几个关键概念，包括激活函数、权重初始化以及验证集与测试集的使用。这篇内容主要围绕这些主题展开，以帮助我们深入理解神经网络的运作机制。首先，让我们讨论激活函数。ReLU（Rectified Linear Unit）是最常用的激活函数之一，它在输入为正时输出其本身，输入为负时输出0。ReLU的优点在于其导数在正区间内恒为1，这减少了梯度消失问题，从而加速了大型神经网络的训练。然而，ReLU的一个主要缺点是可能出现“死亡ReLU”现象，即神经元在权重更新后可能永远无法激活，导致其在后续训练中不起作用。这通常是由于过大的梯度导致的，而学习速率的适当地调整可以缓解这一问题。权重初始化是神经网络训练中的另一个关键环节。权重的初始值对模型的收敛速度和性能有很大影响。通常，权重会被初始化为小方差的高斯分布，方差的大小决定了概率分布的陡峭程度。较小的方差意味着分布更平坦，不确定性更大，这有助于在训练初期避免梯度消失或爆炸。权重初始化的方差通常与输入节点数量成反比，以便在网络开始学习时保持合适的激活分布。接下来，我们谈谈验证集和测试集。验证集是用于调整模型超参数（如神经网络层数、神经元数量等）的数据集，它是独立于训练过程的。然而，尽管我们不直接用验证集上的数据来更新模型，但根据验证集的表现调整超参数实际上使得模型在某种程度上“拟合”了验证集。因此，为了得到模型泛化能力的真实评估，我们需要一个完全独立的测试集，这个测试集在整个训练过程中不参与模型的优化，用于最后评估模型的性能。神经网络的优化涉及到多个方面，包括选择合适的激活函数以避免训练难题，合理初始化权重以促进有效学习，以及正确使用验证集和测试集以确保模型的泛化能力。理解并掌握这些概念对于构建和优化神经网络模型至关重要。

tensorflow入门入门 .md to tensorflow入门入门 .pdf by

MARKDOWN-THEMEABLE-PDF

Page 1/4 © Copyright Wednesday, Nov 14, 2018, 4:45 PM by COMPANYNAME

激活函数

ReLU 激活函数是你可以使用的最简单非线性激活函数。当输入是正数时，导数是 1，所以没有 S 型函数的反向传播错误导致的消失效果。研究表明，对于大型

神经网络来说，ReLU 的训练速度要快很多。TensorFlow 和 TFLearn 等大部分框架使你能够轻松地在隐藏层使用 ReLU，你不需要自己去实现这些 ReLU。

不足不足

有时候一个非常大的梯度流过一个 ReLU 神经元，更新过参数之后，会使ReLU神经元始终为 0（这个神经元再也不会对任何数据有激活现象了）。这些“无效”的

神经元将始终为 0，很多计算在训练中被浪费了。

摘自 Andrej Karpathy 的 CS231n 课程:

遗憾的是，ReLU 单元在训练期间可能会很脆弱并且会变得单元在训练期间可能会很脆弱并且会变得 “无效无效 ”。例如，流经 ReLU 神经元的大型梯度可能会导致权重按以下方式更新：神经元将再也不

会在任何数据点上激活。如果发生这种情况，那么流经该单元的梯度将自此始终为零。也就是说，ReLU 单元会在训练期间变得无效并且不可逆转，因为它们可

能会不再位于数据流形上。例如，学习速度（learning rate）设置的太高，你的网络可能有高达 40% 的神经元处于“无效”状态（即神经元在整个训练数据集上从

未激活）。如果能正确地设置学习速度，那么该问题就不太容易出现。

权重初始化

对于权重的初始化的问题对于权重的初始化的问题 ,通常的思路是按照高斯分布来决定其初始值，但是其权重初始方差大小也需要考虑：

首先方差决定了初始化训练中概率分布的陡峭程度

方差越大概率分布越集中于峰值区域，表示确定性很强,方差小代表高斯分布平坦，集中率和确定性较弱。

通常选择确定性较弱的分布开始初始化权重，然后让梯度训练算法来不断迭代增强其确定性

所以通常采用小方差的高斯分布，即输入节点的反比输入节点的反比来确定其方差大小

关于验证集和测试集

验证集验证集：用来调整分类器超参数的样本集，如在神经网络中选择隐藏层神经元的数量，相对独立于训练相对独立于训练 ,虽然验证集是独立于训练过程的的，但是因为人

为根据验证集的表现调整了超参数，所以本质上训练数据还是拟合了验证集，即通过人的行为验证集和训练过程产生了交互，所以需要一个完全独立的测试

集。

测试集测试集：仅用于对已经训练好的分类器进行性能评估的样本集，完全独立完全独立

在对机器学习算法进行学习和实践的时候，我们经常会遇到“验证集”和“测试集”，通常的机器学习书籍都会告诉我们，验证集和测试集不相交，验

证集和训练集不相交，测试集和训练集不相交。也就是验证集与测试集似乎是同一级的东西，那么我们自然而然会有一个困惑为什么还要分测试

集和验证集呢？其实问题的答案是：训练集用于训练模型参数，测试集用于估计模型对样本的泛化误差，验证集用于“训练”模型的超参数。

下载后可阅读完整内容，剩余3页未读，立即下载

胡说先森

粉丝: 410
资源: 280

深度学习：ReLU的挑战与权重初始化策略

小波神经网络代码请大家支持-MATLAB－小波神经网络.doc

一个简单的关于神经网络的c程序

小波神经网络_小波神经网络_小波神经网络算法_

卷积神经网络 卷积神经网络 卷积神经网络卷积神经网络.txt卷积神经网络.txt

神经网络

神经网络用于结构损伤识别的几个关键问题研究

小波神经网络_神经网络_神经网络交通_discussioo_小波神经_交通流量预测_

神经网络知识点.docx

神经网络知识点.pdf

关于神经网络的数学建模论文

最新资源

卷积神经网络卷积神经网络卷积神经网络卷积神经网络.txt卷积神经网络.txt