GBDT与XGBOOST详解：机器学习中的提升方法

需积分: 0 169 浏览量更新于2024-08-05 收藏 2.12MB PDF 举报

"这篇博客主要总结了机器学习中的两种重要算法——GBDT（Gradient Boosting Decision Tree）和XGBOOST，这两种算法都是基于加法模型和前向分布算法的提升方法。作者通过介绍前向分布算法的核心思想，阐述了如何通过逐步优化来逼近全局最优解。接着，详细讨论了GBDT的原理，它使用CART回归树作为基学习器，通过拟合残差来不断改进模型。" 文章详细讲解了机器学习中的一种常用算法集合——Boosting，特别是其中的两种代表算法：GBDT和XGBOOST。Boosting是一种集成学习方法，通过结合多个弱学习器形成一个强学习器。在这个过程中，加法模型和前向分布算法起到了关键作用。前向分布算法是为了简化加法模型的学习过程，避免复杂的优化问题。它通过逐步增加模型组件，每次只优化一个模型和一个参数，从而逐步减小损失函数。这一过程始于一个简单的初始模型，并在每次迭代中优化损失函数，以找到最优的模型组合。 GBDT是这种思想的具体实现之一，它以CART决策树作为基学习器，特别是在回归任务中。不同于Adaboost，GBDT并不改变样本权重，而是每次迭代时针对上一轮模型预测结果与真实值的残差进行拟合。以一个连续的回归问题为例，假设目标是预测年龄，GBDT会逐步用较小的误差去拟合之前模型的残差，从而逐渐减少整体的预测误差。虽然原文没有提及XGBOOST，但XGBOOST是GBDT的一种高效实现，它优化了计算效率，同时提供了更好的泛化性能。XGBOOST在损失函数的优化上采用了二阶导数信息，即梯度和Hessian矩阵，使得模型训练更加精确且收敛速度更快。此外，XGBOOST还支持并行计算，使得大规模数据处理成为可能。总结来说，GBDT和XGBOOST是强大的机器学习工具，它们利用Boosting的思想和前向分布算法，通过迭代和残差拟合不断提升模型的预测能力。这些算法在许多实际应用中都表现出优秀的性能，尤其是在数据挖掘竞赛和工业级预测任务中。

机器学习算法总结(四)——GBDT与XGBOOST

Boosting方法实际上是采用加法模型与前向分布算法。在上一篇提到的Adaboost算法也可以用加法模型和前向分布算法来表示。以

决策树为基学习器的提升方法称为提升树（Boosting Tree）。对分类问题决策树是CART分类树，对回归问题决策树是CART回归树。

1、前向分布算法

引入加法模型

在给定了训练数据和损失函数的条件下，可以通过损失函数最小化来学习加法模型

然而对于这个问题是个很复杂的优化问题，而且要训练的参数非常的多，前向分布算法的提出就是为了解决模型的优化问题，其核心

思想是因为加法模型是由多各模型相加在一起的，而且在Boosting中模型之间又是有先后顺序的，因此可以在执行每一步加法的时候对模

型进行优化，那么每一步只需要学习一个模型和一个参数，通过这种方式来逐步逼近全局最优，每一步优化的损失函数：

具体算法流程如下：

1）初始化；

2）第m次迭代时，极小化损失函数

3）更新模型，则$f_m

(x)$：

4）得到最终的加法模型

Adaboost算法也可以用前向分布算法来描述，在这里输入的数据集是带有权重分布的数据集，损失函数是指数损失函数。

2、GBDT算法

GBDT是梯度提升决策树（Gradient Boosting Decision Tree）的简称，GBDT可以说是最好的机器学习算法之一。GBDT分类和

回归时的基学习器都是CART回归树，因为是拟合残差的。GBDT和Adaboost一样可以用前向分布算法来描述，不同之处在于Adaboost

算法每次拟合基学习器时，输入的样本数据是不一样的（每一轮迭代时的样本权重不一致），因为Adaboost旨在重点关注上一轮分类错

误的样本，GBDT算法在每一步迭代时是输出的值不一样，本轮要拟合的输出值是之前的加法模型的预测值和真实值的差值（模型的残

差，也称为损失）。用于一个简单的例子来说明GBDT，假如某人的年龄为30岁，第一次用20岁去拟合，发现损失还有10岁，第二次用6

岁去拟合10岁，发现损失还有4岁，第三次用3岁去拟合4岁，依次下去直到损失在我们可接受范围内。

以平方误差损失函数的回归问题为例，来看看以损失来拟合是个什么样子，采用前向分布算法：

公告

昵称：微笑sun

园龄： 2年

粉丝： 315

关注： 18

+加关注

< 2020年3

日一二三

1 2 3 4

8 9 10 11

15 16 17 18

22 23 24 25

29 30 31 1

5 6 7 8

搜索

积分与排名

积分 - 194656

排名 - 2439

随笔分类 (132)

Python(3)

tensorflow(10)

对话系统(4)

机器学习(25)

论文阅读(3)

微笑sun

博客园

首页

新随笔

联系

管理

(

))

(

) = 0

下载后可阅读完整内容，剩余6页未读，立即下载

林祈墨

粉丝: 36
资源: 324

GBDT与XGBOOST详解：机器学习中的提升方法

xgboost-0.80-cp36-cp36m-win_amd64.whl下载.zip

集成学习终篇：从CART回归树开始，经历BDT、GBDT彻底理解XGBoost - 知乎1

[校招-基础算法]GBDT_XGBoost常见问题 - 知乎1

(3 条消息) 机器学习算法中 GBDT 和 XGBOOST 的区别有哪些？ - 知乎1

梯度提升算法详解：从GBDT到xgBoost

梯度提升算法解析：从GBDT到XGBoost

GBDT与XGBoost · 语雀1

gbdt和xgboost算法详解

集成学习：随机森林、GBDT、XGBoost.rar

AI人工智能课程 机器学习算法班第5讲：决策树、随机森林、GBDT、XGBoost 共36页.pdf

最新资源

AI人工智能课程机器学习算法班第5讲：决策树、随机森林、GBDT、XGBoost 共36页.pdf