深度学习中Hessian矩阵与牛顿法的理解

需积分: 50 117 浏览量更新于2024-08-29 收藏 264KB PDF 举报

"这篇文档深入探讨了Hessian矩阵与牛顿法在深度学习中的应用，主要关注数值计算的稳定性以及优化方法的选择。" 在深度学习领域，优化算法是训练模型的关键部分，其中最常用的是梯度下降法。然而，梯度法并非没有问题，它在面对某些特定情况时可能会表现不佳。这主要涉及到一个概念——条件数，它是衡量函数对输入变化敏感度的指标。当条件数较大时，意味着函数对输入微小的变化非常敏感，这在数值计算中可能导致不稳定的结果。例如，一个矩阵如果其特征值差距悬殊，那么它的条件数就可能很大，导致在求逆过程中对输入误差特别敏感，甚至在存在0特征值时矩阵无法求逆。 Hessian矩阵是二阶偏导数的矩阵，用于描述目标函数的曲率信息。当Hessian矩阵的条件数很大时，会出现两个问题：一是最大特征值与最小特征值差异显著，这意味着在不同方向上的曲率变化极大，梯度下降法在这种情况下可能会在某些方向上进展缓慢，而在其他方向上快速下降，导致优化过程不稳定；二是如果最大特征值较大，那么在与该特征值对应的特征向量方向上，最优的迭代步长会受到限制，这对梯度寻优不利，因为曲率大的方向并不一定与梯度方向一致，而梯度是衡量下降速度的。为了解决这些问题，牛顿法应运而生。牛顿法是一种二阶优化方法，通过利用目标函数的二阶导数信息（即Hessian矩阵）来更新参数。在一维情况下，牛顿法通过对函数进行二阶泰勒展开，找到使二阶导数为零的点作为极小值点。在多维情况下，牛顿法同样利用二阶泰勒展开，然后通过求解Hessian矩阵的逆来确定下一步的更新方向。这种方法理论上可以更快地收敛到全局最小值，因为它不仅考虑了梯度，还考虑了曲率信息。然而，牛顿法也有其挑战，比如需要计算和存储Hessian矩阵，对于高维问题来说计算成本非常高，而且如果Hessian矩阵不可逆或者条件数过大，牛顿法也可能失效。为了解决这些挑战，实践中通常会采用拟牛顿法或准牛顿法，如L-BFGS等，它们能在保持牛顿法的基本思想的同时减少计算复杂性。理解Hessian矩阵和牛顿法对于优化深度学习模型至关重要，特别是在处理复杂问题和寻找更稳定的优化路径时。通过合理运用这些工具，我们可以改进模型的训练效率和最终性能。

Hessian 矩阵与牛顿法

为什么要用牛顿法？梯度法不香吗？是的，梯度法有瑕疵。

先说一下病态条件与条件数：

条件数是指函数值相对于输入微小的变化时变化的快慢程度。输入被轻微扰动就迅速发生较

大变化的函数对于数值计算来说可能是有问题的。

考虑这样一个函数：

()

xAx



 ，当



 具有特征值分解时，其条件数为

max



这是矩阵最大特征值与最小特征值的模之比。当这个数很大时，矩阵求逆对于输入的误差特

别敏感。极端情形下，存在 0 特征值，条件数无穷大，矩阵根本求不了逆。

（存在 0 特征值，由于

12 n





  ， 0A  ，又由于矩阵可逆的充要条件是 0A  ，

所以存在 0 特征值，矩阵无法求逆）

那么，当 Hessian 矩阵的条件数很大是会造成什么局面呢？

考虑正定 Hessian 矩阵，1）最大的特征值与最小的特征值差别比较大时，会造成再某一特

征方向上（特征向量对应的方向）曲率较大，在另一个特征方向曲率较小，这时，梯度下降

法会表现得很差（稍后解释）。2）最大特征值较大，对迭代速率会有不利影响，因为在最大

特征值对应的特征向量方向上，最优迭代步长（学习率）为

max



，当梯度方向与最大特征

值对应的特征向量方向一致时（需要注意，曲率最大的方向不一定是梯度方向，曲率衡量的

是拐弯急不急，梯度衡量的是下降的快不快），这对于梯度寻优时不利的。

牛顿法：

一维情形

设

()

的极小值点为

，将

()

在

处进行二阶泰勒展开

() () ()( ) ()( )

kkk kk

x fx fxxx fxxx



  

我们认为

()

和

() ()( ) ()( )

kkk kk

x fxxx fxxx



 近似相等，那么既然

下载后可阅读完整内容，剩余4页未读，立即下载

Hi喀什噶尔的胡杨

粉丝: 10

深度学习中Hessian矩阵与牛顿法的理解

MATLAB实现高斯牛顿法与QRLS算法的非线性最小二乘问题求解

MATLAB数值优化：最速下降法与牛顿共轭梯度法详解

浙大研究生课程：最优化原理与方法基础笔记

Jacobian矩阵和Hessian矩阵.pdf

matlab最优化-牛顿法.pdf

matlab最优化-牛顿法(20211029182424).pdf

论文研究-基于牛顿法的并行优化算法.pdf

基于LQA的牛顿迭代算法.pdf

一种基于拟牛顿法的大类别分类算法.pdf

基于近似牛顿法的分布式卷积神经网络训练.pdf

最新资源