深度学习优化函数解析：SGD到Adam的演变与解决局部最优

需积分: 0 148 浏览量更新于2024-08-05 收藏 992KB PDF 举报

深度学习优化函数的发展脉络是一个重要且复杂的话题，它涉及到神经网络训练过程中的核心要素。在众多优化方法中，如随机梯度下降(SGD)、Adam等，选择哪种取决于具体的应用场景和模型需求。然而，优化函数并非孤立存在，而是与损失函数紧密配合，它们共同决定了模型的学习速度和收敛性能。首先，理解优化算法的基本框架是关键。这个框架通常包括以下几个步骤： 1. 梯度计算：针对当前参数，计算损失函数的梯度，这是优化的核心，它指示了参数需要调整的方向。 2. 动量计算：引入一阶动量和二阶动量的概念，前者是基于历史梯度的一次函数，帮助平滑更新过程，减少震荡；后者则是历史梯度的二次函数，用于更精细的调整。 3. 下降梯度：结合一阶和二阶动量，计算出用于更新的下降梯度。 4. 参数更新：利用学习率和下降梯度，对参数进行更新，使模型朝着损失函数更低的方向前进。其中，SGD简单直接，仅依赖当前梯度，可能导致陷入局部最优。为解决这个问题，指数加权移动平均（EMA）被引入，它通过考虑过去一定时间窗口内的梯度平均，引入了历史信息，避免了梯度为零时的停滞。指数衰减的特性使得较远的历史梯度影响逐渐减小，只有最近的梯度具有较大权重，从而实现动态调整。具体到指数加权移动平均，其计算公式基于高数中的极限公式，确定一个时间窗口内权重的衰减程度。权重衰减有助于平衡当前梯度和历史趋势，找到一个平衡点，使得算法既能跳出局部最优，又不会过度依赖历史信息。选择深度学习优化函数时，不仅需要考虑函数本身的特性，还要考虑其与损失函数的匹配度，以及在特定问题中的表现。实践中的选择往往需要通过实验和调整来确定最佳组合，这体现了优化函数作为超参数的重要性。理解这些基础概念有助于我们更好地设计和优化深度学习模型。

问

题

深

度

学

习

中

有

很

多

优

化

函

数

，

常

⻅

的

那

些

你

还

记

得

它

的

定

义

以

及

优

缺

点

吗

？

背

景

知

识

深

度

学

习

⽹

络

训

练

中

，

有

很

多

可

供

选

择

的

优

化

函

数

如

SGD

、

Adam

等等

，

到

底

⽤

哪

个

好

呢

？

其

实

这

个

问

题

没

有

确

切

的

答

案

，

优

化

函

数

是

需

要

配

合

损

失

函

数

使

⽤

的

，

说

⽩

了

，

优

化

函

数

也

是

⼀

种

超

参

数

，

是

需

要

尝

试

的

，

哪

个

效

果

好

就

⽤

哪

个

……

这

些

优

化

函

数

其

实

差

别

不

⼤

，

都

是

基

于

⼀个

基

本

框

架来

演

进

的

，

所

以

下

⾯

先

介

绍

下

优

化

算

法

的

基

本

框

架

：

１

、

优

化

算

法

基

本

框

架

（

记

住

这

个

框

架

！！！）

假

设

当

前

时

刻

待

优

化

的

参

数

为

，

损

失

函

数

为

，

学

习

率

为

，

参

数

更

新

的

框

架

为

：

计

算

损

失

函

数

关

于

当

前

参

数

的

梯

度

：

根

据

历

史

梯

度

计

算

⼀

阶

动

量

和

⼆

阶

动

量

：

即

⼀

阶

动

量

为

包

含

当

前

梯

度

在

内

的

历

史

梯

度

的

⼀

次

函

数

，

⽽

⼆

阶

动

量

是

历

史

梯

度

的

⼆

次

函

数

。

计

算

当

前

时

刻

的

下

降

梯

度

：

根

据

下

降

梯

度

更

新

参

数

：

２

、

指

数

加

权

移

动

平

均

值

SGD

只

计

算

当

前

梯

度

更

新

参

数

，

完

全

没

有

考

虑

历

史

梯

度

，

但

这

样

有

⼀个

问

题

是

假

如

当

前

参

数

处

在

损

失

函

数

的

局

部

最

低

点

处

，

即

梯

度

为

，

因

为

梯

度

为

，

所

以

参

数

不

再

更

新

，

也

就

是

说

不

管

你

之

前

历

史

梯

度

多

⼤

，

下

降

地

多

快

，

只

要

你

当

前

梯

度

为

，

那

就

只

能

停

在

这

⾥

，

也

就

意

味

着

冲

不

出

这

个

局

部

最

低

点

。

要解

决

这

个

问

题

就

需

要

将

历

史

梯

度

考

虑

进

来

，

但

是

这

⾥

⼜

有

⼀个

问

题

：

历

史

梯

度

那

么

多

，

全

部都

考

虑

吗

，

还

是

只

考

虑

⼀

部

分

？

其

实

我

们

只

要

考

虑

最

近

的

⼀

段

历

史

梯

度

即

可

，

这

段

历

史

梯

度

怎

么

截

就

⽤

到

了

指

数

加

权

移

动

平

均

值

的

概

念

。

假

设

是

时

刻

的

指

数

加

权

移

动

平

均

值

，

是

当

前

时

刻

的

观

测

值

，

那

么

时

刻

的

指

数

加

权

移

动

平

均

值

为

：

递

推

下载后可阅读完整内容，剩余5页未读，立即下载

三山卡夫卡

粉丝: 26
资源: 323

深度学习优化函数解析：SGD到Adam的演变与解决局部最优

yolov5深度学习模型在小程序中的应用

深度学习电商情感分析项目及源码指导

"高效学习函数和数列极限：核心试题及答案合集

江苏专用2020高考语文二轮复习第二板块高考题型四散文阅读第1讲“读懂”层面2考点__理清思路解读形象课件

新课标2020高考语文二轮复习专题一抢分点一论证分析题__理清论证思路辨明论证手法限时规范练含解析

Python函数详解，帮你理清函数学习总线

理清文章脉络

C++深入学习之彻底理清重载函数匹配

需求分析 理清框架与脉络

优化迁移视角下高中地理深度学习的构建与思考——以“季风”为例.pdf

最新资源

需求分析理清框架与脉络