推导多层网络的反向传播算法权重参数更新迭代公式

时间: 2023-06-17 19:08:41 浏览: 81
假设我们有一个 $L$ 层的神经网络,第 $l$ 层的神经元数量为 $n^{[l]}$,输入为 $a^{[l-1]}$,输出为 $a^{[l]}$。我们需要计算每个神经元的权重和偏置参数的梯度,以便更新它们。为了方便,我们用 $z^{[l]}$ 表示第 $l$ 层神经元的加权和,用 $W^{[l]}$ 和 $b^{[l]}$ 分别表示第 $l$ 层神经元的权重和偏置,用 $\sigma^{[l]}$ 表示第 $l$ 层神经元的激活函数。 对于一个训练样本 $(x,y)$,我们定义代价函数为 $J(W,b;x,y)$,其中 $W$ 和 $b$ 分别表示所有神经元的权重和偏置,$x$ 和 $y$ 分别表示输入和输出。我们的目标是最小化代价函数 $J$。 反向传播算法的核心是计算代价函数的梯度。假设我们已经计算出了代价函数 $J$ 对于输出层的加权和 $z^{[L]}$ 的梯度 $\frac{\partial J}{\partial z^{[L]}}$,我们可以通过链式法则依次计算出前面各层的梯度。具体来说,我们需要计算以下梯度: $$ \frac{\partial J}{\partial z^{[l]}} \quad \text{for} \quad l = L, L-1, ..., 2 $$ 根据链式法则,我们有: $$ \frac{\partial J}{\partial z^{[l]}} = \frac{\partial J}{\partial a^{[l]}} \frac{\partial a^{[l]}}{\partial z^{[l]}} $$ 其中,$\frac{\partial J}{\partial a^{[l]}}$ 表示代价函数 $J$ 对于 $a^{[l]}$ 的梯度,$\frac{\partial a^{[l]}}{\partial z^{[l]}}$ 表示 $a^{[l]}$ 对于 $z^{[l]}$ 的梯度。这两个梯度分别可以用以下公式计算: $$ \frac{\partial J}{\partial a^{[l]}} = \frac{\partial J}{\partial z^{[l]}} \frac{\partial z^{[l]}}{\partial a^{[l]}} = W^{[l+1]T} \frac{\partial J}{\partial z^{[l+1]}} $$ $$ \frac{\partial a^{[l]}}{\partial z^{[l]}} = \frac{\partial \sigma^{[l]}(z^{[l]})}{\partial z^{[l]}} $$ 其中,$\frac{\partial z^{[l]}}{\partial a^{[l]}} = W^{[l]}$ 表示 $a^{[l]}$ 对于 $z^{[l]}$ 的梯度。 最终,我们可以得到代价函数 $J$ 对于 $W^{[l]}$ 和 $b^{[l]}$ 的梯度: $$ \frac{\partial J}{\partial W^{[l]}} = \frac{\partial J}{\partial z^{[l]}} \frac{\partial z^{[l]}}{\partial W^{[l]}} = \frac{\partial J}{\partial z^{[l]}} a^{[l-1]T} $$ $$ \frac{\partial J}{\partial b^{[l]}} = \frac{\partial J}{\partial z^{[l]}} \frac{\partial z^{[l]}}{\partial b^{[l]}} = \frac{\partial J}{\partial z^{[l]}} $$ 其中,$\frac{\partial z^{[l]}}{\partial W^{[l]}} = a^{[l-1]}$ 和 $\frac{\partial z^{[l]}}{\partial b^{[l]}} = 1$ 分别表示 $W^{[l]}$ 和 $b^{[l]}$ 对于 $z^{[l]}$ 的梯度。 最后,我们可以利用梯度下降算法来更新权重和偏置参数: $$ W^{[l]} = W^{[l]} - \alpha \frac{\partial J}{\partial W^{[l]}} $$ $$ b^{[l]} = b^{[l]} - \alpha \frac{\partial J}{\partial b^{[l]}} $$ 其中,$\alpha$ 表示学习率,它决定了参数更新的步长。这样,我们就完成了多层神经网络的反向传播算法的权重参数更新迭代公式的推导。

相关推荐

最新推荐

recommend-type

神经网络参数更新公式推导(一).docx

主要介绍了单隐层网络的发展历程,发展期间遇到的问题机器解决方案,根据目标函数和网络结构列出其权重和阈值的递推公式,有助于加深对神经网络的理解,设计自己的网络或者目标函数。
recommend-type

神经网络参数更新公式推导(二).docx

从整个网络框架到每一层配置,详细推导了全连接深度神经网络权重矩阵(W)和偏置(B)递推公式,有助于理解BP反向传播算法和深度神经网络的参数优化过程,为设计新的深层网络打下基础。
recommend-type

LLC串联谐振电路设计要点及公式推导.docx

在传统的开关电源中,通常采用磁性元件实现滤波,能量储存和传输。开关器件的工作频率越高,磁性元件的尺寸就可以越小,电源装置的小型化、轻量...LLC串联谐振电路设计要点及公式推导让有基础的人快速入门LLC电源设计。
recommend-type

VCO交叉耦合CMOS管源极串联Cs时的导纳公式推导

原创博文《交叉耦合管的-2/gm负阻分析》https://blog.csdn.net/Clara_D/article/details/118610260最后一个电路图中VCO交叉耦合管串联Cs的导纳分析计算过程。
recommend-type

稀疏编码公式推导:LASSO,ISTA,近端梯度优化,软阈值

稀疏编码中涉及到的: LASSO,近端梯度优化(PGD),迭代软阈值算法(ISTA),L-Lipschitz条件,软阈值的公式推导
recommend-type

zigbee-cluster-library-specification

最新的zigbee-cluster-library-specification说明文档。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

MATLAB柱状图在信号处理中的应用:可视化信号特征和频谱分析

![matlab画柱状图](https://img-blog.csdnimg.cn/3f32348f1c9c4481a6f5931993732f97.png) # 1. MATLAB柱状图概述** MATLAB柱状图是一种图形化工具,用于可视化数据中不同类别或组的分布情况。它通过绘制垂直条形来表示每个类别或组中的数据值。柱状图在信号处理中广泛用于可视化信号特征和进行频谱分析。 柱状图的优点在于其简单易懂,能够直观地展示数据分布。在信号处理中,柱状图可以帮助工程师识别信号中的模式、趋势和异常情况,从而为信号分析和处理提供有价值的见解。 # 2. 柱状图在信号处理中的应用 柱状图在信号处理
recommend-type

用Spring boot和vue写一个登录注册界面

好的,这是一个比较常见的技术问题,我可以为您提供一些参考资料和思路。首先,您可以使用Spring Boot作为后端框架来处理用户认证和注册的逻辑,比如使用Spring Security实现用户登录认证。同时,您还需要设计相应的数据模型和数据库表结构来存储用户信息。在前端方面,您可以使用Vue.js作为框架来构建登录注册页面,使用Axios来发起API请求并和后端进行交互。当然,在实现过程中,还需要考虑一些具体细节,比如数据校验、安全性和用户体验等方面。希望这些信息能够帮助到您。
recommend-type

JSBSim Reference Manual

JSBSim参考手册,其中包含JSBSim简介,JSBSim配置文件xml的编写语法,编程手册以及一些应用实例等。其中有部分内容还没有写完,估计有生之年很难看到完整版了,但是内容还是很有参考价值的。