神经网络梯度更新优化器详解笔记.docx_torch.optim

需积分: 50 141 浏览量更新于2023-03-03 收藏 1.88MB DOCX 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源推荐

阅读“An overview of gradient descent optimization

algorithms”笔记

一、前言：

最新的深度学习库包含各种优化梯度下降的算法，比如有

cae、keras、tensorow、pytorch 等，但是通常这些算法被当做一个黑匣子使用，

所以无法比较这些算法的优与劣。

二、梯度下降变形形式

1、批量归一化（BGD）

每次经过完整一轮训练后更新一次参数，这使得梯度下降过程变得比较慢，并且需

要很大内存保存中间结果。

代码表示：

'''

for i in range(nb_epochs):

params_grad = evaluate_gradient(loss_function, data, params)

params = params - learning_rate * params_grad

'''

2、随机梯度下降（SGD）

随机梯度下降是对每个训练样本就更新一次网络参数，这样使得网络更新参数速度

很快，但是问题就是由于训练数据多样，容易朝偏离网络最优点方向训练，网络训练

不稳定。

代码表示：

'''

for i in range(nb_epochs):

np.random.shue(data)

for example in data:

params_grad = evaluate_gradient(loss_funcon, example, params)

params = params - learning_rate * params_grad

'''

3、小批量梯度下降（MBGD）

小批量梯度下降是批量梯度下降与随机梯度下降之间的一个折中，即经过一个小批

量的训练数据更新一次参数，可以保证网络训练速度不太慢，也能使训练方向不至于

偏离太多，具有一定稳定性。当使用小批量梯度下降时，通常也使用 SGD 这个术语。

代码表示：

'''

for i in range(nb_epochs):

np.random.shue(data)

for batch in get_batches(data, batch_size=50):

params_grad = evaluate_gradient(loss_funcon, batch, params)

params = params - learning_rate * params_grad

'''

三、梯度下降遇到的困难

小批量梯度下降不仅不能保证良好的收敛性，而且也存在一些其他的问题：

（1）很难选择一个合适的学习率，如果学习率太小，将会导致收敛非常缓慢；如果学

习率太大，也会阻碍收敛，导致损失函数值在最小值附近波动甚至发散。

（2）上述问题可以通过提前定义一个学习速率表，当达到相应轮数或者阈值时根据表

改变学习率，但是这样无法适应训练数据本身特征。

（3）并且，对于所有参数我们使用同一个学习速率，如果我们的数据是稀疏的或者我

们特征具有不同的频率，我们可能不希望将它们更新到同样的程度，并且我们希望对

那些出现频率低的特征更新更快。

（4）另外在神经网络中，普遍是具有非凸的误差函数，这使得在优化网络过程中，很

容易陷入无数的局部最优点，而且更大困难往往也不是陷入局部最优点，而是来自鞍

点（也就是在一个维度上其梯度是递增，另一个维度其梯度是递减，而在鞍点处其梯

度为 0），这些鞍点附近往往被相同误差点所包围，且在任意维度梯度近似为 0，所以

随机梯度下降很难从这些鞍点逃出。如下图：

四、梯度下降优化算法

接下来将列举一些被深度学习社区广泛用于解决上述困难的算法，这些算法有个共

同之处，一般是求一阶动量(m)和二阶动量(V)，然后利用一阶、二阶动量本身或者他

们组合来优化梯度下降（其中一阶动量为与梯度相关函数，二阶动量为与梯度平方相

关的函数）

首先还是给出梯度下降的公式：

t +1

=θ

−η

∂

(

Loss

)

∂θ

引入梯度下降优化算法后：

t +1

=θ

−η

√

1、动量（momentum）

随机梯度下降的方法很难通过峡谷区域（也就是在一个维度梯度变化很大，另一个

维度变化较小），这个很好理解，因为梯度下降是梯度更新最大的反方向，如果这个

时候一个维度梯度变化很大，那么就很容易在这个方向上振荡，另一个方向就更新很

慢，如下图：

剩余13页未读，继续阅读

恩泽君

粉丝: 180
资源: 9

会员权益专享

神经网络梯度更新优化器详解笔记.docx

深度学习，各类优化器优缺点总结。

2012高教杯大学生数学建模竞赛C题详解解读.docx

2011年软考信息系统项目管理师学习笔记.docx

《信息系统项目管理师考试全程指导》笔记.docx

两个docx文档，1.docx和2.docx，需要将1.docx文档中的页眉页脚复制到2.docx，用java编写，使用开源jar包，比如poi，poi-tl，docx4j等等，请注意验证你提供的代码中的方法，麻烦给我源码。

.docx文件在vscode打开后。.docx文件发生了错误

使用python将xx文件夹下的.sv文件复制到mode.docx文件并另存为.sv文件名的.docx文件

数值分析期末复习笔记.docx

两个docx文档，1.docx和2.docx，需要将1.docx文档中的页眉页脚同步到2.docx，用java编写，使用开源jar包，比如poi，poi-tl，docx4j等等，麻烦给我源码

将每个子文件夹里的.docx文件都合成一个.docx文件

将xx文件夹下的每个子文件夹里的.docx文件都合成一个.docx文件

数值分析第五版(李庆扬编著)期末复习笔记.docx

dtc status定义及更新详解.docx

"linkUrl ": [ {label: "avue文档.docx", value: "http://59.219.204.221:2015/vingsoft/upload/20230721/d70856f4050948bd2de3d01a7014dd76.docx"}, {label: "avue文档.docx", value: "http://59.219.204.221:2015/vingsoft/upload/20230721/d70856f4050948bd2de3d01a7014dd76.docx"}, ] 遍历这个数组

在vs code里怎么打开.docx文件

单相光伏并网逆变器系统设计.docx

使用python编写代码将一个文件夹下的所有子文件夹下的.sv文件按照文件名称为model.docx的文件格式转化为与.sv同名的.docx的文件，页眉写上该.SV文件的名称

会员权益专享

最新资源