机器学习优化算法详解：从梯度下降到Adam

需积分: 0 136 浏览量更新于2024-08-05 收藏 644KB PDF 举报

本文主要介绍了机器学习中常用的优化算法，包括梯度下降法、共轭梯度法、Momentum算法以及一系列变体如牛顿法、拟牛顿法（L-BFGS）、AdaGrad、Adadelta、RMSprop、Adam和Nadam。文章着重讲述了梯度下降法的基本原理和不同变体，分析了其优缺点，并引出了Momentum算法以改善梯度下降的稳定性。在机器学习中，优化算法扮演着至关重要的角色，它们用于寻找模型参数的最优值，以使损失函数达到最小。当问题没有解析解或解析解难以计算时，迭代优化方法成为首选。梯度下降法是最基础的优化算法之一，其核心在于沿着梯度的负方向移动，以期望快速降低损失函数的值。在第n次迭代时，参数更新通过泰勒展开式进行，选择合适的步长α（学习率）和梯度的负值来更新θ。梯度下降法有三种变体：全量梯度下降、批量梯度下降和随机梯度下降（SGD）。全量梯度下降使用所有数据进行更新，而批量梯度下降和随机梯度下降则分别使用一部分数据。批量梯度下降（通常指Mini-batch-Gradient-Descent）在实践中更为常见，它在效率和精度之间取得平衡。随机梯度下降的优势在于计算量小，尤其适用于大数据集。然而，它也存在一些缺点，比如学习率α的选择直接影响收敛速度和结果质量，过小可能导致慢速收敛，过大则可能引起震荡。此外，对于非凸问题，SGD可能陷入局部最优解。为了解决SGD的不稳定性，Momentum算法引入动量概念，它结合了过去梯度的信息，使得更新更加平滑，有助于跨越局部最小值和鞍点。这种思想类似于物理中的动量，可以累积之前的运动趋势，从而加速收敛并提高稳定性。除了Momentum，还有其他优化算法如AdaGrad、Adadelta、RMSprop和Adam，它们都针对学习率的调整进行了改进，适应不同的问题场景。例如，AdaGrad通过累积梯度平方来动态调整学习率，Adadelta和RMSprop进一步优化了这一过程，而Adam结合了Momentum和RMSprop的优点，通常在实践中表现出良好的性能。机器学习中的优化算法是一门深奥的学问，选择合适的优化算法对于模型训练的效率和效果至关重要。随着研究的深入，更多的创新算法将持续涌现，以应对日益复杂的学习任务。

    在机器学习中，有很多的问题并没有解析形式的解，或者有解析形式的解但
是计算量很大（譬如，超定问题的最小二乘解），对于此类问题，通常我们会选
择采用一种迭代的优化方式进行求解。
    这些常用的优化算法包括：梯度下降法（Gradient Descent），共轭梯度法
（Conjugate Gradient），Momentum算法及其变体，牛顿法和拟牛顿法（包括L-
BFGS），AdaGrad，Adadelta，RMSprop，Adam及其变体，Nadam。
梯
度
下
降
法
（
Gradient Descent
）
    想象你在一个山峰上，在不考虑其他因素的情况下，你要如何行走才能最快
的下到山脚？当然是选择最陡峭的地方，这也是梯度下降法的核心思想：它通过
每次在当前梯度方向（最陡峭的方向）向前“迈”一步，来逐渐逼近函数的最小
值。
    在第n次迭代中，参数θn=θn−1+Δθ
    我们将损失函数在θn−1处进行一阶泰勒展开：
L(θn)=L(θn−1+Δθ)≈L(θn−1)+L′(θn−1)Δθ
    为了使L(θn)<L(θn−1)，可取Δθ=−αL′(θn−1)，即得到我们的梯度下降的
迭代公式:
θn:=θn−1−αL′(θn−1)
    梯度下降法根据每次求解损失函数L带入的样本数，可以分为：
全
量
梯
度
下
降
（计算所有样本的损失）
，
批
量
梯
度
下
降
（每次计算一个batch样本的损失）
和
随
机
梯
度
下
降
（每次随机选取一个样本计算损失）。
PS：现在所说的SGD（随机梯度下降）多指Mini-batch-Gradient-Descent（批量
梯度下降），后文用gn来代替L′(θn)

下载后可阅读完整内容，剩余8页未读，立即下载

型爷

粉丝: 24
资源: 337

机器学习优化算法详解：从梯度下降到Adam

智能优化算法--沙丘猫优化算法SCSO

猎人猎物优化算法MATLAB代码，猎食者优化算法代码，Hunter-Prey Optimizer（HPO）代码

鸽群优化算法PIO-Transformer-GRU故障诊断分类【含Matlab源码 6257期】.zip

凌日优化算法TSOA-Transformer-GRU故障诊断分类【含Matlab源码 6273期】.zip

蜣螂优化算法DBO-Transformer-GRU故障诊断分类【含Matlab源码 6279期】.zip

黏菌优化算法SMA-Transformer-GRU故障诊断分类【含Matlab源码 6277期】.zip

花朵授粉优化算法FPA-Transformer-GRU故障诊断分类【含Matlab源码 6263期】.zip

人工蜂群优化算法ABC-Transformer-GRU故障诊断分类【含Matlab源码 6281期】.zip

【1】从零开始学习目标检测：YOLO算法详解_yolo单类别目标检测_迪菲赫尔曼的博客-CSDN博客.mhtml

多目标粒子群算法分享 - CSDN博主dkjkls

最新资源