前向传播与梯度下降法详解：成本函数求导与优化

需积分: 0 23 浏览量更新于2024-08-05 收藏 544KB PDF 举报

在本节内容中，我们主要探讨了神经网络训练中的两种关键算法：前向传播和梯度下降法。前向传播在深度学习中用于计算模型预测结果与实际标签之间的成本函数J，如在逻辑回归中的交叉熵损失\(ℒ(𝑦 ̂,𝑦)\)，其中\(\hat{y}\)由sigmoid激活函数\(σ(z)\)决定，\(z\)则是线性组合\(wTx+b\)的结果。计算\(ℒ\)的过程涉及到链式法则的应用，例如对于权重\(w_1\)的偏导数\(\frac{\partialℒ}{\partial w_1}\)，可以通过链式法则逐步分解，最终得到\(\frac{\partialℒ}{\partial w_1} = x_1(\hat{y} - y)\)。后向传播是求解成本函数关于模型参数的梯度的关键步骤，它通过从输出层开始，沿着神经元之间的连接逐层反向传播误差，以计算每个权重和偏置的梯度。对于逻辑回归，计算成本函数对权重\(w_i\)和偏置\(b\)的偏导数，例如\(\frac{\partialℒ}{\partial w_i}\)的计算过程涉及到了链式法则的运用，以及利用激活函数\(σ(z)\)的导数特性，简化了计算。在实际Python编程中，这些偏导数会被存储在变量如`dw1`, `dw2`, `db`等中，然后通过梯度下降法更新模型参数，即通过迭代更新公式： \[ w_i := w_i - \alpha \cdot \frac{\partialℒ}{\partial w_i} \] \[ b := b - \alpha \cdot \frac{\partialℒ}{\partial b} \] 其中，\(\alpha\)是学习率，控制着参数更新的步长。这种方法适用于凸型成本函数，但需注意在实际应用中可能需要调整学习率、选择适当的优化算法（如批量梯度下降、随机梯度下降或动量梯度下降）以达到更好的收敛性能。总结来说，这部分内容强调了神经网络训练中前后向传播的作用，特别是如何利用链式法则计算成本函数的梯度，并在Python代码中实现权重和偏置的更新过程。这对于理解和实现简单的神经网络模型至关重要。

前向传播用于计算成本函数的数值。后向传播用于计算成本函数的导数。

举个简单的例子，假设成本函数 J(a,b,c)=3(a+bc)。

设一些过程变量：

u=bc

v=a+u

J=3v

则计算成本函数 J 的过程可以表示为下图中的黑色和蓝色部分：

FIGURE. 示意图 1-导数的后向传播

求微分的过程，是通过橙色线条，将因为输入的波动而得到的输出的变化反馈给输入，从而

完成导数的计算。此即为反向传播过程。不相连的单元间的偏导计算，将通过链式法则来计

算。

在 python 中，通过链式求导法则的计算，成本函数对所有变量的偏导信息储存在 dvar 中。

在上图中，dJ/dv 将被表示为 dv，dJ/da 将被表示为 da。

在二分类中提到过：

(w

x+b)，where 

󰇛



󰇜











󰇛



󰇜

󰇛

󰇛

  

󰇜



󰇛

  

󰇜

󰇜

为了使流程更加清晰，增加过程变量来描述上述关系：

z= w

x+b

(z)



󰇛



󰇜

󰇛 

󰇛

  

󰇜



󰇛

  

󰇜

󰇜

下载后可阅读完整内容，剩余5页未读，立即下载

阿玫小酱当当囧

粉丝: 19
资源: 324

前向传播与梯度下降法详解：成本函数求导与优化

sklearn0.19中文文档

改进型BP算法

优化算法：梯度下降法与反向传播算法

【MATLAB梯度下降法精通】：从原理到实践的进阶指南

随机梯度下降法在凸优化中的应用：斯坦福教材技巧解读

【梯度下降法在凸优化中的应用】：算法到实践的飞跃

神经网络中的梯度下降与反向传播算法

神经网络中的梯度下降与反向传播算法解析

神经网络中的梯度下降与反向传播算法详解

深度学习中的优化算法：梯度下降与反向传播

最新资源