大规模优化：L-BFGS算法详解与应用

需积分: 0 99 浏览量更新于2024-08-05 收藏 402KB PDF 举报

大规模优化算法——LBFGS算法1 大规模优化是现代计算机科学中的核心议题，特别是在深度学习和大数据处理中。L-BFGS（Limited-memory Broyden-Fletcher-Goldfarb-Shanno）算法作为一种高效且空间效率高的优化技术，尤其适用于大规模数值计算。本文首先概述了最优化方法的基本迭代思想，强调迭代过程的核心在于初始点x_0、搜索方向d_k和步长a_k的选择。最优化方法通常采用迭代策略，以一个初始点出发，通过遵循特定的规则生成一系列点{x_k}，目标是寻找函数的局部或全局最小值。迭代过程的核心是确定每个步骤的改进方向，如最速下降法（Gradient Descent，GD）利用函数的一阶导数确定下降方向，尽可能地减小函数值。GD法的基本假设是函数在x_k处可导，通过泰勒展开逼近，选择使函数值下降的负梯度方向。然而，GD方法的局限性在于它依赖于局部信息，步长选择可能受制于极值点附近，导致收敛速度较慢。为此，引入了牛顿法（Newton's Method），它利用二阶导数（Hessian矩阵）的信息，找到局部曲率最小的切线方向，从而实现更快的收敛。牛顿法的迭代公式基于牛顿-Raphson迭代，但存储和计算Hessian矩阵在大规模问题中是不可行的。为了解决这个问题，拟牛顿法如DFP（Davidon-Fletcher-Powell）和BFGS（Broyden-Fletcher-Goldfarb-Shanno）算法被提出，它们通过构建和更新一个近似的Hessian矩阵，无需实际存储全部信息，降低了空间需求。DFP方法直接更新方向，而BFGS算法通过序列化信息更新，更高效地估计方向。这两种方法都是为了在保持快速收敛的同时，降低内存消耗。 L-BFGS算法作为BFGS的变体，进一步简化了内存使用，它仅保存最近若干步的信息，实现了在大型数据集上的高效优化。L-BFGS不仅保留了牛顿法的优点（即收敛速度快），还克服了存储复杂度的问题，成为许多机器学习和计算机视觉应用中的首选优化算法。尽管L-BFGS算法在数学基础方面对数学功底有一定要求，但在实践中，理解这三个关键因素（初始值、方向和步长）以及其生成原理就足以开始学习和应用。深入研究这些算法背后的理论，有助于我们更好地应对大规模优化问题，尤其是在当今数据驱动的世界中。

http://blog.sina.com.cn/s/blog_eb3aea990101gflj.html

L-BFGS 算法比较适合在大规模的数值计算中，具备牛顿法收敛速度快的特点，但不需要牛顿法那样存储 Hesse 矩阵，因此节省了大

量的空间以及计算资源。本文主要通过对于无约束最优化问题的一些常用算法总结，一步步的理解 L-BFGS 算法，本文按照最速下降

法 - 牛顿法 - 共轭梯度法 - 拟牛顿法 - DFP 矫正 - BFGS 矫正 - LBFGS 算法这样一个顺序进行概述。（读了一些文章之后，深感

数学功底不够，在计算机视觉领域和机器学习领域，数学还是王道）

1. 最优化方法的迭代思想：最优化方法采用的都是迭代的方法，基本思想是给定一个初始的点 x_0，按照某一个迭代的规则产生一个

点列{x_k}，在点列有限的情况下最后一个 x_k 就为最优解，当点列无穷的时候，则极限点为最优解。基本的迭代方程形式如下：

其中 x_k 就是迭代点列中的点，d_k 为第 k 次搜索的方向，a_k 为步长。

在所有的优化方法中三个关键的因素是：初始值 x_0, 方向 d_k 以及步长 a_k，因此在一般的对于优化算法的学习，只需要搞懂这三个

东西是怎么生成的，也就可以了。进一步理解则需要对于其理论进行深入的分析了。

2. 最速下降法（Gradient descent）：GD 算法是无约束最优化算法中最简单的一种算法，它的各种变种也被应用到大规模的机器学

习任务中来，比如 SGD，batch GD，mini-batch 等。

GD 算法的一个基本假设就是函数 f(x)在 x_k 处是连续可谓的，并且其导数 g_k 在 x_k 处不为 0. 将一个函数在 x_k 这一点做一阶的泰

勒展开，得到：

优化的目的是让函数值随着点列{x_k}的渐进，逐渐下降，在上式中就是让 f(x)小于 f(x_k)，如何达到这一个目的呢。

由于泰勒展开余项的值相对很小，因此我们可以忽略它。看第二项，如果它为负值，就可以达到我们的目的。

记，那么的方向 d_k 就是下降的方向，这个方向有无穷多个，那那个最大呢，由 Cauchy-Schwartz

不等式，有

这样我么可以很容易的推导出当且仅当时候，第二项最小，由此得到最速下降法的迭代公式

这里需要注意的是，最速下降方向仅仅是算法的局部性质，也就是说在局部它是一个下降最快的方向，并不是在全局上。在极值点附

近，步长越小，前进越慢。

3. 牛顿法（Newton method）

最速下降法采用的泰勒的一阶展开，而牛顿法采用的是泰勒二阶展开。

其中 s = x-x_k，将右边的式子最小化，就可以得到牛顿法的迭代公式

下载后可阅读完整内容，剩余5页未读，立即下载

咖啡碎冰冰

粉丝: 18
资源: 292

大规模优化：L-BFGS算法详解与应用

MATLAB深度学习工具包-LBFGS算法实现

仅需头文件的C/C++ LBFGS无约束优化库介绍

MATLAB实现L-BFGS优化算法源码分享

大规模优化问题matlab代码-LBFGS/FR/PRP/BB.zip

LBFGS优化算法 Using Matlab Code

matlab编写的LBFGS优化算法

cpp-lbfgs将liblbfgs包装为FFI接口

lbfgs优化包

matlab中存档算法代码-L-BFGS-B:大规模约束约束优化

多变量函数优化的L-BFGS算法MATLAB程序

最新资源