随机梯度下降算法在深度学习中的应用与进展

版权申诉

79 浏览量更新于2024-06-27 收藏 1.73MB DOCX 举报

“随机梯度下降算法研究进展” 随机梯度下降算法（Stochastic Gradient Descent, SGD）是机器学习，特别是深度学习领域中的核心优化算法之一。它的主要作用是在大规模数据集上高效地寻找模型参数的最优解。随着大数据时代的到来，传统的梯度下降法由于需要计算所有样本的梯度，其计算复杂度随样本数量线性增长，因此在处理大规模问题时效率低下。机器学习的目标是通过学习经验数据来理解和预测数据的内在规律。监督学习是其中一种常见类型，包括回归和分类问题。在监督学习中，我们利用带有输入数据和目标数据的训练集来建立参数化的模型，并通过经验风险最小化（Empirical Risk Minimization, ERM）来优化这些参数。经验风险最小化涉及到找到使所有样本损失函数平均值最小的参数。梯度下降法是解决ERM问题的常用手段，它沿着目标函数梯度的负方向更新参数，以期望逐渐减小损失函数。然而，当数据集非常大时，每次计算所有样本的梯度变得极其耗时。随机梯度下降法应运而生，它在每次迭代时仅使用一个或一小部分随机选取的样本的梯度来更新参数，极大地减少了计算量，使得在大数据集上的训练成为可能。随机梯度下降法的历史可以追溯到1951年Robbins和Monro的随机逼近理论，随后在模式识别和神经网络中得到应用。感知机，作为早期的神经网络模型，就采用了SGD的思想，每次迭代只处理一个误分类样本。后来，多层神经网络的反向传播算法也利用了类似的概念，即随机或按顺序选取样本更新参数。随着深度学习的爆发式发展，SGD的重要性进一步提升。它现在不仅用于传统的机器学习任务，如逻辑回归、岭回归、Lasso、支持向量机和神经网络，还在深度神经网络、主成分分析（PCA）、奇异值分解（SVD）、典型相关分析、矩阵分解与补全、分组最小角回归和稀疏学习等更复杂的任务中展现出强大的能力。 SGD的变种和改进策略也在不断涌现，比如动量法、Nesterov动量、AdaGrad、RMSProp、Adam等，它们旨在提高SGD的收敛速度和稳定性，使其能在更广泛的优化问题中发挥作用。尽管SGD存在收敛速度较慢、可能会陷入局部最优等问题，但其在实际应用中的有效性不容忽视，特别是在处理大规模数据和复杂模型时。

$$ {\boldsymbol{\theta}}_{t+1} = {\boldsymbol{\theta}}_{t}-\frac{\alpha_{t}}{B_{t}}\sum\limits_{k = 1}^{B_{t}}\nabla

f_{i_{k}}({\boldsymbol{\theta}}_{t}) $$

(7)

其中, ${B_t} $表示第${t} $轮更新所选样本的批容量. 在实际操作中, 通常将全体训练

样本随机分成数目大致相等的若干组, 一般每组含${10\sim{100}} $个样本. 在每轮迭代时,

依次抽取其中一组样本用于更新目标参数; 待所有分组样本使用完毕后, 再对全体训练样本

重新随机分组, 继续下一轮更新

[47]

. 当${J} $为凸函数时, Mini-batch 可实现次线性收敛速度

${{{\rm{O}}}(1/\sqrt{B_{t}t}+1/t)}$

[45]

2. 基于动量的随机梯度下降算法

SGD 所生成的梯度方向常与目标函数的峡谷长轴垂直, 并沿其短轴来回振荡, 因此目

标参数在长轴上缓慢移动, 无法快速到达目标函数的谷底. 物理学中的“动量”可以有效地避

免峡谷中的振荡, 从而加快在长轴上的位移. Qian

[25]

证明了结合动量的梯度下降算法与保守

力场中的牛顿粒子运动具有统一性, 从而得出了在梯度下降算法基础上添加动量项可以提

升优化效率的结论.

2.1 随机经典动量算法

随机经典动量算法(CM)在 SGD 的基础上添加了动量项, 综合了历史参数改变量, 以加

快优化进程

[25, 48]

. 在 SGD 的更新式中, 令${\Delta{\boldsymbol{\theta}}_{t} =

{\boldsymbol{\theta}}_{t+1}-{\boldsymbol{\theta}}_{t}} $, 则有

${\Delta{\boldsymbol{\theta}}_{t} = -\alpha_{t}\nabla{f_{i_{t}}}({\boldsymbol{\theta}}_{t})}

$. CM 的动量更新式为

$$ \Delta{\boldsymbol{\theta}}_{t} = -\alpha_{t}\nabla f_{i_{t}}({\boldsymbol{\theta}}_{t})+\rho \Delta {\boldsymbol{\theta}}_{t-1} $$

(8)

其中, ${\rho} $为动量系数(一般取 0.9).

关于添加动量项的有效性, 一些学者认为可以将梯度看作施加在粒子上的力, 将

${{\boldsymbol{v}}_{t} = -\Delta{{\boldsymbol{\theta}}_{t}}}$看作速度, 通过力改变速度,

从而改变位置

[40]

. 结合式(8), 有

$$ {\boldsymbol{v}}_{t} = \alpha_{t}\nabla f_{i_{t}}({\boldsymbol{\theta}}_{t})+\rho {\boldsymbol{v}}_{t-1} $$

(9)

其中, ${\rho\ {\boldsymbol{v}}_{t-1}}$为动量项, ${{\boldsymbol{v}}_{t-1}}$为历史累

积梯度. 因此, CM 的更新式亦可写为

$$ {\boldsymbol{\theta}}_{t+1} = {\boldsymbol{\theta}}_{t}-{\boldsymbol{v}}_{t} $$

(10)

2.2 Nesterov 加速梯度算法

剩余29页未读，继续阅读

罗伯特之技术屋

粉丝: 4452
资源: 1万+

随机梯度下降算法在深度学习中的应用与进展

golang解析.docx文件包使用详解

MATLAB实现梯度下降算法完整教程与代码

探索***.docx文档的深度知识

基于深度确定性策略梯度的随机路由防御方法.docx

人工智能模型数据泄露的攻击与防御研究综述.docx

视频序列中的运动对象检测和跟踪算法.docx

深度学习中对抗样本的构造及防御研究.docx

机器学习算法的数学解析与Python实现.docx

机器学习的简要介绍.docx

人工智能和深度学习基础.docx

最新资源