LightGBM算法详解：提升树与预排序优化

需积分: 40 161 浏览量更新于2024-09-09 收藏 761KB PDF 举报

LightGBM算法是一种强大的机器学习算法，它在众多强化树方法中脱颖而出，特别是在提升树模型如CART、AdaBoost、GBDT和xgBoost的基础上进行了优化。本文将深入探讨LightGBM的发展背景、关键技术和优势。首先，LightGBM的发展源于对现有算法的改进。CART模型虽然基础，但可能因为过于简单而在预测精度上有所限制。为了解决这个问题，AdaBoost引入了提升树的概念，通过调整数据权重和弱分类器的组合，形成更强的模型。然而，AdaBoost存在两个主要挑战：一是如何动态调整样本权重，二是如何组合弱分类器。 GBDT（梯度提升决策树）是AdaBoost的一种变体，它通过计算负梯度来改进模型，通过反复迭代寻找最能减小目标函数误差的方向。这使得GBDT在功能上与梯度下降算法（GradientDescent）相结合，从而实现模型的优化。然而，GBDT也存在一些局限性，如预排序方法导致的空间和时间消耗，以及对缓存优化的不友好性。正是在解决这些痛点的基础上，LightGBM应运而生。它采用了直方图加速技术，通过减少特征维度的离散化，显著减少了存储需求，解决了空间效率问题。此外，LightGBM摒弃了预排序策略，改为基于叶节点的划分，减少了计算分割点时的时间消耗，并优化了特征访问顺序，提高了缓存利用效率。另外，LightGBM利用了预剪枝策略，通过在构建过程中就检查子树的性能，避免了不必要的分支，进一步节省了计算资源。这种设计使得LightGBM在保持高预测精度的同时，实现了更快的训练速度和更低的空间复杂度。 LightGBM算法通过结合直方图加速、预剪枝和预排序优化等技术，显著提升了决策树的性能，使之成为机器学习领域的一个重要工具。它的优势在于高效、准确且易于扩展，适用于大规模数据集和在线学习场景，尤其在处理高维数据和稀疏数据时表现出色。理解并掌握LightGBM算法，对于数据科学家来说，无疑能够提升他们的建模能力和实践效率。

Lightgbm 算法

一. 发展过程----why Lightgbm

   

)3.0(C CART Gini AdaBoost GBDT xgBoost Lightgbm         信息增益，信息增益率提升树

CART 模型往往过于简单无法有效地进行预测，因此一个更加强力的模型叫做

tree ensemble。

1. AdaBoost 算法

AdaBoost 是一种提升树的方法，和三个臭皮匠，赛过诸葛亮的道理一样(类似于

专家打分)。

AdaBoost 两个问题：

(1) 如何改变训练数据的权重或概率分布

提高前一轮被弱分类器错误分类的样本的权重，降低前一轮被分对的权重

(2) 如何将弱分类器组合成一个强分类器，亦即，每个分类器，前面的权重如何

设置

采取”多数表决”的方法.加大分类错误率小的弱分类器的权重，使其作用较大，

而减小分类错误率大的弱分类器的权重，使其在表决中起较小的作用。

2.GBDT 算法以及优缺点

GBDT 和 AdaBosst 很类似，但是又有所不同。

GBDT 和其它 Boosting 算法一样，通过将表现一般的数个模型（通常是深度

固定的决策树）组合在一起来集成一个表现较好的模型。AdaBoost 是通过提升

错分数据点的权重来定位模型的不足， Gradient Boosting 通过负梯度来识别问

题，通过计算负梯度来改进模型，即通过反复地选择一个指向负梯度方向的函数，

该算法可被看做在函数空间里对目标函数进行优化。

因此可以说

Gradient Boosting Gradient Descent Boosting

。

缺点：

GBDT ->预排序方法(pre-sorted)

(1).空间消耗大。这样的算法需要保存数据的特征值，还保存了特征排序的

结果（例如排序后的索引，为了后续快速的计算分割点），这里需要消耗训练

数据两倍的内存。

(2).时间上也有较大的开销，在遍历每一个分割点的时候，都需要进行分裂

增益的计算，消耗的代价大。

(3).对 cache 优化不友好。在预排序后，特征对梯度的访问是一种随机访

问，并且不同的特征访问的顺序不一样，无法对 cache 进行优化。同时，在每

一层长树的时候，需要随机访问一个行索引到叶子索引的数组，并且不同特征

访问的顺序也不一样，也会造成较大的 cache miss。

3.Why？

常用的机器学习算法，例如神经网络等算法，都可以以 mini-batch 的方式训

练，训练数据的大小不会受到内存限制。而 GBDT 在每一次迭代的时候，都需要

下载后可阅读完整内容，剩余6页未读，立即下载

Daisy和她的单程车票

粉丝: 76
资源: 20

LightGBM算法详解：提升树与预排序优化

lightGBM中文文档（高清，离线）

lightgbm算法原理.pptx

GBM数据挖掘算法

LightGBM算法的核心

lightgbm算法matlab

lightgbm算法 预测

lightgbm算法流程图

LightGBM算法使用的CART决策树原理

lightgbm算法机器学习

如何在Matlab环境下实现CPO-LightGBM算法，并利用Python调用LightGBM库来提升分类预测的准确率？

最新资源

lightgbm算法预测