深度学习优化算法详解：从SGD到Adam

需积分: 0 57 浏览量更新于2024-07-01 收藏 2.75MB PDF 举报

"该串讲主要讲解了优化算法在深度学习中的应用，涵盖了从基本的随机梯度下降(SGD)到更高级的优化算法，如动量法(Momentum)，牛顿法(NAG)，Adagrad，RMSProp/AdaDelta，Adam以及Nadam等。这些算法都是为了更有效地寻找损失函数的最小值，从而改进模型的训练过程。" 在深度学习中，优化算法是训练神经网络的关键步骤，它们负责调整模型参数以最小化损失函数。以下是各种优化算法的详解： 1. **SGD (随机梯度下降)**：是最基础的优化方法，它每次仅使用一个样本来计算梯度并更新参数。这使得SGD在大数据集上速度快，但可能因为样本的随机性导致训练不稳定，收敛速度较慢。更新公式：θ_t+1 = θ_t - η * g_t，其中g_t是当前批次的梯度，η是学习率。 2. **Momentum**：为了解决SGD的震荡问题，引入了一阶动量m，它是一个历史梯度的加权平均，可以加速学习过程并平滑更新。更新公式：m_t = ϕ(g_t, g_{t-1}, ..., g_{t-n})，V_t = ψ(g_t, g_{t-1}, ..., g_{t-n})，Δθ_t = -η * V_t / m_t，θ_t+1 = θ_t + Δθ_t。 3. **NAG (牛顿法带动量)**：在Momentum的基础上，提前一步应用动量，使得参数更新更加平滑，有助于更快地逃离局部最小值。更新公式：Δθ_t = -η * (1 + γ) * g_t - η * γ * V_{t-1}，其中γ是动量项。 4. **AdaGrad**：根据每个参数的历史梯度平方和自适应调整学习率，适合稀疏数据。更新公式：θ_t+1 = θ_t - η / √(E[g^2]_t) * g_t。 5. **RMSProp/AdaDelta**：对AdaGrad的改进，通过指数移动平均来解决AdaGrad学习率过快衰减的问题。更新公式：R_t = ρ * R_{t-1} + (1 - ρ) * g_t^2，θ_t+1 = θ_t - η * √(E[g^2]_t / R_t) * g_t。 6. **Adam**：结合了Momentum和RMSProp，同时引入了偏置校正，适用于非平稳目标和大规模数据集。更新公式：m_t = β1 * m_{t-1} + (1 - β1) * g_t，v_t = β2 * v_{t-1} + (1 - β2) * g_t^2，m_t^* = m_t / (1 - β1^t)，v_t^* = v_t / (1 - β2^t)，θ_t+1 = θ_t - η * m_t^* / (√v_t^* + ε)。 7. **Nadam**：是Adam的变种，引入了NAG的思想，使得Adam的动量项也具有适应性。更新公式：同Adam，但在动量项m_t上应用了NAG的提前一步更新。优化算法的选择取决于具体任务的需求，包括数据特性、模型结构以及计算资源等因素。正确选择和调参优化算法能显著提升模型的训练效率和最终性能。

2020/2/25 optimization.html

ﬁle:///Users/sm1les/helloworld/markdown/notes/optimization.html 5/22

指

数

加

权

移

动

平

均

值

（

xpo

nen

iall

eigh

ing

age

，

）：

假

设

是

时

刻

的

指

数

加

权

移

动

平

均

值

，

是时

刻

的

观

测

值

，

那

么

时

刻

的

指

数

加

权

移

动

平

均

值

为

= βv

+ (1 − β)θ

t−1 t

= (1 − β)θ

(1 − β)β θ

i=1

∑

t−1

t−i

其

中

。

显

然

，

由

上

式

可

知

，

时

刻

的

指

数

加

权

移

动

平

均

值

其

实

可

以

看

做前

时

刻

所

有

观

测

值

的

指

数

加

权

平

均

值

，

除

了

第

时

刻

的

观

测

值

权

重

为

外

，

其

他

时

刻

的

观

测

值

权

重

为

。

由

于

通

常

对

于

那

些

权

重

小

于

的

观

测

值

可

以

忽

略

不

计

，

所

以

忽

略

掉

那

些

观

测

值

以

后

，上

式

就

可

以

看

做

在

求

指

数

加

权

移

动

平

均

值

。

men

hale

t−1

t − 1 θ

t t

0 ≤ β < 1, v

0 t

t t 1 − β

(1 − β)β

剩余21页未读，继续阅读

张匡龙

粉丝: 25
资源: 279

深度学习优化算法详解：从SGD到Adam

"LR神奇之处：经典分类算法解密

数据结构基础：算法与数据组织

JVM入门与调优实战详解：从Class到性能优化

机器学习经典分类算法串讲（1）.pptx

【美赛必备】MATLAB常用算法串讲

数据结构串讲、上机题

自考场营销学 知识串讲

EDA技术及应用整学期串讲材料

Java面试：核心考点突击大串讲

38-知识串讲：用双十一的故事串起碎片的网络协议（中）1

最新资源

自考场营销学知识串讲