优化深度学习：高次指数平滑约束下的动态边界SGD改进

版权申诉

133 浏览量更新于2024-06-29 收藏 927KB DOCX 举报

本文主要探讨了一种基于高次指数平滑动态边界限制的深度学习优化算法，该算法旨在解决现有优化器如Adam算法在复杂神经网络训练中的收敛问题。在深度学习中，模型优化器的选择对模型性能至关重要，尤其是在网络结构日益复杂、参数增多的情况下。传统的梯度下降法和随机梯度下降(SGD)算法虽然基础，但它们分别存在难以处理大规模数据集和步长固定的问题。 Adam算法作为一种自适应学习率优化器，结合了一阶动量和RMSProp算法，能够根据参数更新频率调整学习率，适应性较强。然而，Adam算法的二阶动量部分依赖于固定时间窗口内的梯度积累，这可能导致在训练后期，当参数更新频率变化时，二阶动量不再单调增长，进而引发学习率振荡，阻碍模型收敛。针对这一问题，作者提出了一种创新的优化策略。通过引入三个超参数β3、β4和β5，实现高次指数平滑，这种平滑方式能够有效地约束二阶动量的变化，避免其剧烈波动。这样做的效果是使二阶动量保持单调递增趋势，同时使得学习率随着参数更新的频率自然减小，避免了不规则的大学习率，从而有效缓解了学习率的振荡现象，加快了模型的收敛速度。此外，该优化算法不仅适用于一般的深度学习模型训练，例如在二维目标检测任务中，通过应用本文提出的算法，可以更有效地找到最佳参数组合，进一步降低损失函数，提升模型的性能。这项工作提供了一种改进的优化框架，有望在深度学习的训练过程中提高模型的稳定性和效率，从而推动深度学习技术的发展。

其中，M

和 M

是根据 f 和 ϕ 设计的模块，可以指定为梯度算子，近端算子或 Nesteroy 加速算子；

○表示操作组合，基于这个公式，可以简单地将迭代求解方式简化为 f 和 ϕ 的指定模块间的问题. 这里提

供了显式动量和隐式动量两种自适应的迭代求解方式. 其中，显式动量可以直接进行判断，通过对当前结

果与上一次迭代结果的函数值进行对比. 如果当前的值小于上次结果的值，则说明该模块可以找到下降方

向，当前迭代有效；若不小于上次迭代结果，则返回. 结合近端梯度法

[14]

进行校正可以得到，若显式动量

生成序列{x

}，t∈N，则存在一个大于 0 的序列{β

}，t∈N，使得第 t 次迭代中存在 φ(x

t+1

)≤φ(v

) -β

‖x

t+1

‖

. 其中，{x

}(t∈N)为有界序列.

显式动量可以从迭代序列中得到一个子序列，证明子序列的收敛性，但是无法得到迭代序列的收敛

性，因此还需要隐式动量判断准则和校正机制.

隐式动量判断准则属于一种间接措施，首先证明一阶最优性误差是否有界，即通过证

明‖d

tut

‖≤C

‖u

-φ

‖，其中 d

tut

为一阶最优性误差. 同样地，若不等式成立，则该判断准则有效；若不成

立，则退回到上一步迭代，最后仍然结合近端梯度法进行校正.

显式动量和隐式动量判断准则互相补充，并结合近端梯度法进行校正，组成了可学习迭代方法框

架，为非凸函数的收敛性的分析提供了一种更加灵活的方法.

非收敛性通过 Kingma 等

[4]

证明，可以得出当学习率以一定速度衰减时，假设函数 f

为有界梯度，

R(T)存在上界，Adam 收敛；反之，若无法保证学习率的衰减，Adam 可能无法收敛. 在 Adam 算法中，

令学习率，ε=10

-8

. 若要保证 Adam 收敛，就得使得学习率衰减. Yamada 等

[15]

提出矩阵

来定义学习率的单调性：

(8)

简单地描述了学习率倒数的变化情况，其中 V

=diag(V

). 当 Γ

≥0，学习率单调衰减. 但是对于

Adam 算法来说，所使用的指数移动平均法更新准则会导致学习率无规律地变化，无法保证 Γ

≥0.

定理 1 在二次函数实例中，Adam 算法存在非收敛性：当 T→∞时，R(T)/T 无法趋向于 0.

证明构建二次函数：

(9)

其中，D≥2，θ∈[-1, 1]. 从式(9)可知，当 θ= -1/D 时，R(T)最小.

剩余15页未读，继续阅读

罗伯特之技术屋

粉丝: 4558

优化深度学习：高次指数平滑约束下的动态边界SGD改进

基于深度学习的高噪声图像去噪算法.docx

动态环境下的语义SLAM算法.docx

基于多级箱与深度森林的雷达信号分选算法.docx

基于扩散滤波的图像边缘检测算法.docx

基于canny算子的改进边缘检测算法.docx

边缘检测算法.docx

基于SIFT特征检测和三次插值样条的快速曲面重构算法.docx

基于Canny准则的颗粒图象边缘检测算法.docx

基于高斯滤波器的尺度相乘边缘检测算法.docx

基于Canny算子的改进型边缘检测算法.docx

最新资源