神经网络梯度下降详解：数据标准化与反向传播算法

需积分: 0 58 浏览量更新于2024-08-04 收藏 315KB DOCX 举报

在神经网络的实现中，梯度下降是关键的优化算法，用于调整网络中的权重以最小化损失函数。本章节专注于标准梯度下降方法在多层神经网络中的应用，特别关注数据预处理和误差计算的调整。首先，数据清理至关重要，通过标准化输入数据，确保其均值为0，标准偏差为1，可以避免sigmoid函数对极端值的敏感性导致梯度消失问题。这有助于初始化权重时避免过大的步长，使得网络能够稳定训练。其次，误差计算不再使用简单的SSE（均方误差），而是改为计算MSE（均方误差的平均值），以减少大规模数据下梯度更新过大导致的收敛困难。通常会选择较小的学习率，如0.01至0.001，且除以数据点数量来取平均，使更新更稳健。对于多层神经网络，反向传播算法是梯度下降法在深层结构中的具体应用。通过链式法则，我们可以逐层计算误差并逆向传播到每一层。对于隐藏层，其误差是输出误差乘以输出层与隐藏层之间的权重矩阵，然后根据wij（输入和隐藏层间的权重）和xi（输入值）计算出权重更新的梯度下降步长。例如，对于隐藏节点j，其误差δj可以通过以下公式表示：δj = δko * wij，这里的δko是输出节点k的误差。这个过程适用于任意层数的网络，权重更新遵循梯度下降的基本原则，即wij_new = wij_old - learning_rate * δj * xi。使用sigmoid激活函数时，由于其导数的最大值仅为0.25，隐藏层的误差会迅速减小，靠近输入层的权重更新会快速减弱。这在处理深度网络时可能会造成梯度消失问题，因此在实际应用中，可以选择其他非线性激活函数，如ReLU，来缓解这个问题。这一部分介绍了如何在多层神经网络中通过标准梯度下降、数据标准化和反向传播算法来调整权重，以优化模型性能，尤其是在处理深度结构和大量数据时。理解并掌握这些技术是构建高效神经网络模型的基础。

1、标准梯度下降

2、数据清理

我们还需要把输入数据标准化，也就是说使得它们的均值为 0，标准偏差为 1。因为

sigmoid 函数会挤压很大或者很小的输入，所以这一步是必要的。很大或者很小输入

的梯度为 0，这意味着梯度下降的步长也会是 0。由于可能输入的数值都相当大，我们

在初始化权重的时候需要非常小心，否则梯度下降步长将会消失，网络也没法训练了。

相对地，如果我们对数据做了标准化处理，就能更容易地对权重进行初始化。

均方差

这里我们要对如何计算误差做一点小改变。我们不计算 SSE，而是用误差平方的均值

（mean of the square errors，MSE）。现在我们要处理很多数据，把所有权重更新加

起来会导致很大的更新，使得梯度下降无法收敛。为了避免这种情况，你需要一个很小

的学习率。这里我们还可以除以数据点的数量 mm 来取平均。这样，无论我们有多少数

据，我们的学习率通常会在 0.01 to 0.001 之间。我们用 MSE（下图）来计算梯度，

结果跟之前一样，只是取了平均而不是取和。

下载后可阅读完整内容，剩余4页未读，立即下载

豆瓣时间

粉丝: 28
资源: 329

神经网络梯度下降详解：数据标准化与反向传播算法

第一章神经网络第一节神经网络简介1

机器学习-03. 梯度下降和过拟合和归一化（下）

第一章神经网络第二节回归1

07第7章 人工神经网络及其MATLAB实现_人工神经网络算法_

第1章 BP神经网络的数据分类.zip_BP神经网络_bp网络分类_神经网络分类_第1章 BP神经网络的数据分类

神经网络模型中的梯度下降算法详解

梯度下降算法在神经网络中的应用

梯度下降算法在神经网络训练中的应用

循环神经网络中的梯度消失与梯度爆炸问题

【卷积神经网络的反向传播】：深入理解梯度下降算法

最新资源

07第7章人工神经网络及其MATLAB实现_人工神经网络算法_