深度学习优化技巧：梯度下降与动量法解析

需积分: 0 11 浏览量更新于2024-08-05 收藏 1.12MB PDF 举报

"这篇翻译的CS231n课程笔记主要涵盖了神经网络的优化方法，包括梯度检查、学习过程的合理性检查、损失函数、训练与验证准确率、权重更新的比例、激活数据与梯度分布的可视化，以及一系列优化算法如随机梯度下降、动量方法、Nesterov动量、学习率退火、二阶方法和适应性学习率方法。此外，还提到了超参数调优、模型集成和总结，并提供了拓展阅读资料。" 在神经网络的训练过程中，梯度检查是一种验证反向传播算法是否正确计算梯度的方法，它通过比较数值梯度和解析梯度的差异来确保计算的准确性。合理性检查则用来确认网络的学习过程是否正常，例如，损失函数应该随着训练而减小，训练和验证准确率应逐渐提高。损失函数是衡量模型预测与真实值之间差距的指标，常见的损失函数有交叉熵损失、均方误差等。在训练过程中，我们需要监控损失函数的变化，以调整模型参数。训练与验证准确率是评估模型性能的关键指标，验证准确率能反映模型在未见过的数据上的泛化能力。权重更新比例是优化过程中一个重要的考虑因素，不同的层可能需要不同的更新步长。激活数据与梯度分布的可视化有助于理解网络内部的工作机制，如梯度消失或爆炸的问题。优化方法中，随机梯度下降（SGD）是最基础的，它每次仅基于一个样本来更新权重，容易受到噪声影响。动量方法引入了惯性概念，加速了权重更新，Nesterov动量则改进了动量方法，使其更早地考虑梯度变化。学习率退火是指随着训练进行，逐渐降低学习率，以避免在局部最优处震荡。二阶方法如牛顿法利用了二阶导数信息，可以更快收敛，但计算成本较高。Adagrad、RMSProp等适应性学习率方法根据参数的历史梯度调整每个参数的学习率，有效解决了不同参数需要不同学习率的问题。超参数调优是寻找最佳模型配置的过程，通常通过网格搜索或随机搜索来实现。模型集成如bagging和boosting能够结合多个模型的预测，提高整体性能。这篇笔记提供了丰富的深度学习优化知识，适合初学者和有一定经验的开发者参考。通过深入理解和实践这些方法，可以提升神经网络的训练效果和泛化能力。

随

时

间

变

化

的

设

置

有时

能

略

微

改

善

最

优

化

的

效

果

，

其

中

动

量

在

学

习

过

程

的

后

阶

段

会

上

升

。

一个

典

型

的

设

置

是

刚

开

始

将

动

量

设

为

0.5

而

在

后

面

的

多

个

周

期

（

epoch

）

中

慢慢

提

升

到

0.99

。

通过

动

量

更

新

，

参

数

向

量

会

在

任何

有

持

续

梯

度

的

方

向

上

增

加

速

度

。

Nesterov

动

量

与

普

通

动

量

有

些

许

不

同

，

最

近

变

得

比

较

流

行

。

在

理

论

上

对

于

凸函

数

它

能

得

到

更

好

的

收敛

，

在

实

践

中也

确

实

比

标

准动

量

表

现

更

好

一

些

。

Nesterov

动

量

的

核

心思

路

是

，

当

参

数

向

量

位于

某

个

位

置

时

，

观

察

上

面

的

动

量

更

新

公

式

可

以

发

现

，

动

量

部

分

（

忽

视

带

梯

度

的

第

二

个

部

分

）

会

通过

mu * v

稍

微

改

变参

数

向

量

。

因

此

，

如

果

要计

算

梯

度

，

那

么

可

以

将

未来

的

近

似位

置

x + mu * v

看

做

是

“

向

前

看

”

，

这

个

点

在

我

们

一

会

儿

要

停

止

的

位

置

附

近

。

因

此

，

计

算

x + mu * v

的

梯

度

而

不

是

“

旧

”

位

置

的

梯

度

就

有

意

义了

。

————————————————————————————————————————

Nesterov

动

量

。

既

然

我

们

知

道

动

量

将

会

把我

们

带

到

绿

色

箭

头

指

向

的

点

，

我

们

就

不

要

在

原

点

（

红

色

点

）

那

里

计

算

梯

度

了

。

使

用

Nesterov

动

量

，

我

们

就

在

这

个

“

向

前

看

”

的

地

方

计

算

梯

度

。

————————————————————————————————————————

也

就

是

说

，

添

加

一

些

注

释

后

，

实

现

代

码

如

下：

x_ahead = x + mu * v

计算

dx_ahead(

在

x_ahead

处的梯度，而不是在

处的梯度

)

v = mu * v - learning_rate * dx_ahead

x += v

然

而

在

实

践

中

，

人们

更

喜

欢

和

普

通

SGD

或

上

面

的

动

量

方

法

一

样

简

单

的

表

达

式

。

通过

对

x_ahead

= x + mu * v

使

用

变

量

变

换

进

行

改

写

是

可

以

做到

的

，

然

后

用

x_ahead

而

不

是

来

表

示

上

面

的

更

新

。

也

就

是

说

，

实

际

存

储

的

参

数

向

量

总

是

向

前

一

步

的

那

个

版

本

。

x_ahead

的

公

式

（

将

其

重

新

命

名

为

）

就

变

成

了

：

剩余10页未读，继续阅读

设计师马丁

粉丝: 21
资源: 299

深度学习优化技巧：梯度下降与动量法解析

CS231n课程笔记翻译：神经网络笔记1（下） - 知乎专栏1

CS231n课程笔记翻译：神经网络笔记 2 - 知乎专栏1

CS231n课程笔记翻译：线性分类笔记（下） - 知乎专栏1

CS231n课程笔记翻译：神经网络笔记3（上） - 知乎专栏1

CS231n课程笔记翻译：神经网络笔记1（上） - 知乎专栏1

CS231n课程笔记翻译：线性分类笔记（上） - 知乎专栏1

CS231n课程笔记翻译：最优化笔记（上） - 知乎专栏1

CS231n课程笔记翻译：卷积神经网络笔记 - 知乎专栏1

CS231n课程笔记翻译：反向传播笔记 - 知乎专栏1

深度学习课程CS231n：最优化方法与梯度计算

最新资源