优化方法对比：从SGD到Adam

需积分: 9 73 浏览量更新于2024-07-10 收藏 1.96MB PDF 举报

该资源是一份关于机器学习和深度学习的学习笔记，主要涵盖了优化方法的比较，包括SGD、SGD-M（带动量的SGD）、NAG（Nesterov Accelerated Gradient）、AdaGrad、AdaDelta/RMSprop、Adam以及Nadam等。笔记详细介绍了这些优化算法的工作原理和特性，并探讨了它们在训练神经网络中的应用。在机器学习和深度学习领域，优化方法是训练模型的关键部分。优化的目标是找到使损失函数最小化的参数值。梯度下降是最常用的优化算法之一，其基本流程包括计算目标函数关于参数的梯度，然后根据梯度信息更新参数。传统的梯度下降（GD）在大型数据集上效率低下，因此通常使用随机梯度下降（SGD），它仅使用单个样本的梯度信息，从而加快了训练速度。然而，SGD可能会在局部最小值或鞍点处震荡，导致收敛速度慢。为了改善SGD的性能，引入了动量概念。SGD with Momentum（SGD-M）通过考虑过去的梯度方向来加速下降过程，减少震荡。Nesterov Accelerated Gradient（NAG）则进一步改进了动量的概念，使得模型能够预测下一步的梯度方向，从而更加高效地更新参数。 AdaGrad是自适应学习率方法的先驱，它根据参数的历史梯度平方和来调整学习率，使得频繁更新的参数学习率变小，不常更新的参数学习率变大。然而，AdaGrad的学习率会随时间逐渐减小，可能导致训练过早停止。为了解决这个问题，AdaDelta和RMSprop引入了指数移动平均来计算二阶动量，限制了历史梯度的累积影响。 Adam结合了一阶动量和二阶动量的自适应学习率方法，同时引入指数移动平均，进一步提高了优化效果。Nadam则是Nesterov动量与Adam的结合，使得模型能更快速地适应参数更新的方向。除了这些一阶优化方法，还有二阶优化方法，如牛顿法和拟牛顿法。牛顿法利用二阶导数信息，即海森矩阵，但计算复杂度高。拟牛顿法如BFGS和L-BFGS通过近似海森矩阵的逆来简化计算，提供了接近牛顿法的优化效果，但计算成本相对较低。在神经网络优化中，选择合适的优化算法至关重要，因为它直接影响模型的训练速度、收敛性和最终性能。不同的优化器适用于不同的问题，例如，AdaGrad和RMSprop对稀疏数据表现良好，而Adam和Nadam在许多任务上表现出色且易于使用。理解这些优化方法的工作原理和优缺点，对于调参和优化模型性能至关重要。

L2正则项对b的更新没有影响，但是对的更新有影响：

在不使⽤L2正则化时，求导结果中前的系数为1，现在前⾯的系数⼩于1，它的效果是减⼩，

也就是权重衰减的由来。

为什么变⼩可以防⽌过拟合：更⼩的权值，表示⽹络的复杂度更低，对数据的拟合刚刚好

（奥卡姆剃⼑法则）。

过拟合的时候，拟合函数的系数往往⾮常⼤，如下图所示，拟合函数需要顾忌每⼀个

点，最终形成的拟合函数波动很⼤。在某些很⼩的区间⾥，函数值的变化很剧烈，这就

意味着函数在某些⼩区间⾥的导数值（绝对值）⾮常⼤，由于⾃变量值可⼤可⼩，所以

只有系数⾜够⼤，才能保证导数值很⼤。

L1为什么能让参数稀疏？L2为什么能让约束参数的值？

剩余25页未读，继续阅读

boombung

粉丝: 8

优化方法对比：从SGD到Adam

gcc-linaro-7.4.1-2019.02-x86_64_arm-linux-gnueabihf.tar.xz

编译buildroot-2020.02.9.tar.bz2时自动下载所必需的源码

MLDL:李宏毅2020深度学习笔记（自用）

DL-面试笔记：深度学习机器学习

matlab滑动条代码-mldl:机器学习和深度学习资源

科技行业先锋系列报告12：Amazon_AI，人工智能的全方位部署-20190109-中信证券-15页.pdf

Federated Learning in Mobile Edge Networks: A Comprehensive Survey .pdf

集群服务：大数据流框架上的分布式自动模型推理.pdf

deeplearning-ai-books-深度学习资源包

深入学习机器学习与深度学习技术

最新资源