优化算法对比：SGD、AdaGrad、Adam的异同解析

需积分: 0 170 浏览量更新于2024-08-05 收藏 933KB PDF 举报

"这篇文章主要探讨了优化算法在机器学习中的重要性，并通过一个统一的框架对比了SGD、AdaGrad和Adam等优化算法的异同。作者提到了尽管Adam算法非常流行，但学术界仍有很多研究者倾向于使用基础的SGD，甚至加入动量项或Nesterov动量。" 在机器学习中，优化算法扮演着至关重要的角色，它们决定了模型训练的速度和最终的性能。优化的目标是找到使目标函数最小化的参数值。这里，我们将深入理解三种常见的优化算法：随机梯度下降（SGD）、AdaGrad和Adam。 1. 随机梯度下降（SGD） SGD是最基础的优化算法，它每次迭代时只考虑一个样本来更新参数。公式如下： \[ \theta_t = \theta_{t-1} - \eta \cdot g_t \] 其中，\(\theta_t\) 是第 \(t\) 步的参数，\(\eta\) 是学习率，\(g_t\) 是在当前参数上的梯度。SGD的优点是计算速度快，但缺点是可能会振荡或错过全局最小值。 2. 带动量的SGD（SGD with Momentum）为了改善SGD的稳定性，引入了动量项，它可以捕获梯度的方向并加速收敛。动量项通常用指数移动平均来计算，公式如下： \[ v_t = \gamma v_{t-1} + (1 - \gamma) g_t \] \[ \theta_t = \theta_{t-1} - \eta \cdot v_t \] 这里的 \(v_t\) 是动量，\(\gamma\) 是动量因子。 3. Nesterov Accelerated Gradient (NAG) NAG改进了动量项，使得参数更新考虑到了动量的影响，避免了过度预测。公式调整为： \[ \theta_t = \theta_{t-1} - \eta \cdot v_{t-1} \] \[ v_t = \gamma v_{t-1} + (1 - \gamma) \nabla f(\theta_t) \] 4. AdaGrad AdaGrad是一种自适应学习率的优化算法，它根据每个参数的历史梯度平方和来调整学习率，使得频繁更新的参数学习率降低，减少噪声影响。公式如下： \[ g_t^2 = \sum_{i=1}^{t} g_i^2 \] \[ \theta_t = \theta_{t-1} - \frac{\eta}{\sqrt{g_t^2 + \epsilon}} \cdot g_t \] 这里的 \(g_t^2\) 是梯度平方的累计和，\(\epsilon\) 是一个小的正数防止除以零。 5. AdaDelta AdaDelta试图解决AdaGrad学习率逐渐减小的问题，通过计算梯度变化的窗口大小来调整学习率。公式如下： \[ E(g^2)_t = \rho \cdot E(g^2)_{t-1} + (1 - \rho) \cdot g_t^2 \] \[ \Delta \theta_t = - \frac{\sqrt{E(\Delta \theta^2)_{t-1} + \epsilon}}{\sqrt{E(g^2)_t + \epsilon}} \cdot g_t \] \[ E(\Delta \theta^2)_t = \rho \cdot E(\Delta \theta^2)_{t-1} + (1 - \rho) \cdot (\Delta \theta_t)^2 \] 这里，\(E(g^2)_t\) 和 \(E(\Delta \theta^2)_t\) 分别是梯度平方和参数更新平方的指数移动平均。 6. Adam（Adaptive Moment Estimation） Adam结合了动量和自适应学习率的思想，它维护了一阶矩估计（动量）和二阶矩估计（方差）。公式如下： \[ m_t = \beta_1 \cdot m_{t-1} + (1 - \beta_1) \cdot g_t \] \[ v_t = \beta_2 \cdot v_{t-1} + (1 - \beta_2) \cdot g_t^2 \] \[ \theta_t = \theta_{t-1} - \frac{\eta}{\sqrt{v_t} + \epsilon} \cdot m_t \] 这里，\(\beta_1\) 和 \(\beta_2\) 是衰减系数，\(m_t\) 和 \(v_t\) 分别是动量和方差的指数移动平均。通过这个框架，我们可以更清晰地看到各种优化算法之间的联系和区别。例如，Adam在动量项和自适应学习率上都有所改进，但某些情况下可能过于依赖初始学习率设置，导致在某些任务中不如简单如SGD的效果。此外，由于AdaGrad和AdaDelta学习率的自适应性，它们在稀疏数据上表现良好，但在某些情况下可能学习率过早减小。在实际应用中，选择哪种优化算法取决于具体任务和数据特性。理解这些算法的工作原理，有助于我们做出更明智的选择，以提高模型的训练效率和性能。

⼀个

框

架

看

懂

优

化

算

法

之

异

同

SGD/AdaGrad/Adam

清

华

⼤

学

计

算

机

科

学

与

技

术

博

⼠

取

消

关

注

、

等

3,153

⼈

同

了

该

⽂

章

Juliuszh

王

赟

Maigo

张

珊珊

Adam

那

么

棒

，

为

什

么

还

对

SGD

念念

不

忘

(1)

⸺

⼀个

框

架

看

懂

优

化

算

法

机

器

学

习

界

有

⼀

群

炼

丹

师

，

他们

每

天

的

⽇

常

是

：

拿

来

药

材

（

数

据

），

架

起

⼋

卦

炉

（

模

型

），

点

着

六

味

真

⽕

（

优

化

算

法

），

就

摇

着

蒲

扇

等

着

丹

药

出

炉

了

。

不

过

，

当

过

厨

⼦

的

都

知

道

，

同

样

的

⻝

材

，

同

样

的

菜

谱

，

但

⽕

候

不⼀

样

了

，

这

出

来

的

⼝

味

可

是

千

差

万

别

。

⽕

⼩

了

夹

⽣

，

⽕

⼤

了

易

糊

，

⽕

不

匀

则

半

⽣

半

糊

。

机

器

学

习也

是

⼀

样

，

模

型

优

化

算

法

的

选

择

直

接

关

系

到

最

终

模

型

的

性

能

。

有

时

候

效

果

不

好

，

未

必

是

特

征

的

问

题

或

者

模

型

设计

的

问

题

，

很

可

能

就

是

优

化

算

法

的

问

题

。

说

到

优

化

算

法

，

⼊

⻔

级

必

从

SGD

学

起

，

⽼

司

机

则

会

告

诉

你

更

好

的

还

有

AdaGrad/AdaDelta

，

或

者

直

接

⽆

脑

⽤

Adam

。

可

是

看看

学

术

界

的

最

新

paper

，

却

发

现

⼀

众

⼤

神

还

在

⽤

着

⼊

⻔

级

的

SGD

，

最

多

加

个

Moment

或

者

Nesterov

，

还

经

常

会

⿊

⼀下

Adam

。

⽐

如

UC Berkeley

的

⼀

篇

论

⽂

就

在

Conclusion

中

写

道

：

Despite the fact that our experimental evidence demonstrates that adaptive methods are

not advantageous for machine learning, the Adam algorithm remains incredibly popular.

We are not sure exactly as to why

……

⽆

奈

与

酸

楚

之

情

溢

于

⾔

表

。

这

是

为

什

么

呢

？

难

道

平平

淡淡

才

是

真

？

⾸

发

于

机

器

学

习

札

记

同

3153

125

条

喜

欢

收

藏

申

请

转载

分

享

下载后可阅读完整内容，剩余5页未读，立即下载

SeaNico

粉丝: 26
资源: 320

优化算法对比：SGD、AdaGrad、Adam的异同解析

深度学习优化算法详解：从SGD到Adam

深度学习优化算法详解：SGD到AdamW的统一框架与实战代码

深度学习优化算法对比：SGD、Momentum、Nesterov、Adagrad等

从SGD到NadaMax，十种优化算法原理及实现 - 知乎1

FactorizationMachines-LogisticRegression-Momentum-NAG-Adagrad-RMSProp-Adam-Adadelta:使用MomentumNAGAdagradRMSPropAdamAdadelta实现分解机和逻辑回归

libzmq-mt-sgd-4_3_2.lib--vs2019编译的libmq（zeromq）

利用Matlab构建深度前馈神经网络以及各类优化算法的应用（SGD、mSGD、AdaGrad、RMSProp、Adam）-附件资源

libboost_regex-vc80-mt-sgd-1_34.lib

Python库 | nnabla_ext_cuda80-1.0.17-cp27-cp27m-win_amd64.whl

Python-知乎看山杯init队解决方案

最新资源