GBDT与XGBoost：原理、优化与区别解析

需积分: 0 2 浏览量更新于2024-08-05 收藏 577KB PDF 举报

"这篇博客主要介绍了XGBoost的基本原理和它与GBDT的区别，以及GBDT中的梯度相关问题。" XGBoost是Gradient Boosting Decision Tree（GBDT）的优化版本，是一个高效的分布式梯度增强库，设计目标是速度和准确性的平衡。GBDT是一种集成学习方法，通过迭代构建多个弱分类器（通常是决策树），并将它们的预测结果组合成一个强分类器。在每一轮迭代中，GBDT会学习一棵决策树来拟合当前模型预测与真实值之间的残差。 XGBoost的核心改进包括： 1. **默认的缺失值处理**：XGBoost允许特征存在缺失值，并且在建树过程中自动学习如何处理这些缺失值，无需预先设定规则。 2. **二阶导数信息**：除了使用一阶导数信息外，XGBoost还考虑了二阶导数，通过对损失函数进行二阶泰勒展开，可以更精确地逼近损失函数形状，这有助于优化过程。 3. **正则项**：在模型训练时，XGBoost引入了正则项，限制了模型复杂度，防止过拟合，从而提高泛化能力。 4. **列抽样**：类似随机森林，XGBoost支持在每次分裂节点时进行列采样，减少过拟合风险，同时加速训练过程。 5. **并行计算**：XGBoost通过预排序特征，实现了特征维度上的并行化，极大地提升了训练速度。 6. **基分类器的多样性**：XGBoost不仅限于使用CART决策树，还支持其他类型的基分类器，如线性模型。 GBDT中的梯度是针对损失函数L关于模型预测F的梯度。在每一轮迭代中，GBDT的目标是找到最优的决策树，使损失函数下降最快。梯度下降法在这里被用来更新模型，即寻找使得损失函数下降最快的方向。在GBDT中，这个方向通常表示为每个样本的真实值yi和当前模型预测F(xi)之间的负梯度，即-L'(yi, F(xi))，其中L'是损失函数的一阶导数。在实际应用中，XGBoost因其高效和高精度的特点，在许多机器学习任务中表现出色，尤其是在数据科学竞赛和工业界实践中广泛应用。然而，理解其背后的原理，如梯度提升、决策树的构建以及正则化的意义，对于优化模型性能和解决实际问题至关重要。

[校招-基础算法]GBDT/XGBoost常见问题

机器学习，深度学习，智能风控，计算机视觉

关注他

等 330 人赞同了该文章

首发于

机器学习小王子

关注专栏写文章

Jack Stark

许九祀

在非深度学习的机器学习模型中，基于GBDT算法的XGBoost、lightgbm等有着非常优秀的性

能，校招算法岗面试中“出镜率”非常高。这方面的资料非常多，因此本文不是原创，参考了很多

面经、解读文章等，对GBDT相关的问题做了总结。

XGBoost的原理

这个我建议直接看陈天奇的PPT和原论文。由于理论还是比较复杂的，所以需要时不时的回头读一

读。

介绍一下XGBoost的原理

XGBoost是基于GBDT的一种算法或者说工程实现。

GBDT是一种基于boosting集成思想的加法模型，训练时采用前向分布算法进行贪婪的学习，每次

迭代都学习一棵CART树来拟合之前 t-1 棵树的预测结果与训练样本真实值的残差。

XGBoost的基本思想和GBDT相同，但是做了一些优化，如默认的缺失值处理，加入了二阶导数信

息、正则项、列抽样，并且可以并行计算等。

XGBoost和GBDT的不同点：

• GBDT是机器学习算法，XGBoost是该算法的工程实现。

• 在使用CART作为基分类器时，XGBoost显式地加入了正则项来控制模型的复杂度，有利于防止

过拟合，从而提高模型的泛化能力。

• GBDT在模型训练时只是用了代价函数的一阶导数信息，XGBoost对代价函数进行二阶泰勒展

开，可以同时使用一阶和二阶导数。（好处：相对于GBDT的一阶泰勒展开，XGBoost采用二阶

泰勒展开，可以更为精准的逼近真实的损失函数。需要注意的是，损失函数需要二阶可导。）

• 传统的GBDT采用CART作为基分类器，XGBoost支持多种类型的基分类器，比如线性分类器。

• 传统的GBDT在每轮迭代时使用全部的数据，XGBoost则采用了与随机森林相似的策略，支持对

数据进行列采样。

• 传统的GBDT没有涉及对缺失值进行处理，XGBoost能够自动学习出缺失值的处理策略。

• 特征维度上的并行化。XGBoost预先将每个特征按特征值排好序，存储为块结构，分裂结点时

可以采用多线程并行查找每个特征的最佳分割点，极大提升训练速度。

GBDT的梯度相关问题

GBDT中的梯度是什么对什么的梯度？

当前损失函数L(yi, F(x))对树F(xi)的梯度。

给一个有m个样本，n维特征的数据集，如果用LR算法，那么梯度是几维?

对权重w有n维，对bias有1维，因此是n+1维。

m*n的数据集，如果用GBDT，那么梯度是几维？m维？n维？m*n维？或者是与树的深

度有关？或者与树的叶子节点的个数有关？

赞同 330

11 条评论收藏

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_35780426

粉丝: 26
资源: 286

GBDT与XGBoost：原理、优化与区别解析

(3 条消息) 机器学习算法中 GBDT 和 XGBOOST 的区别有哪些？ - 知乎1

GBDT_XGBoost_LGBM算法原理v1.11

xgboost-details.zip_xgboost_xgboost源码_机器学习

12_Adaboost_GBDT_XGBoost算法原理1

1_LR-SVM_GBDT_K._batwi7_ai_

xgboost算法_python_xgboost预测结果_xgboost_xgboost预测_XGBoost算法

xgb_python算法_xgboost_xgboost二分类_源码

gbdt.zip_GBDT_GBDT如何实现_gbdt模型 代码_python-gbdt_slightlyukz

lrrfgbdtxgboost.rar_stacking_stacking xgboost_xgboost_xgboost分类_

elasticsearch-learning-to-rank-es_7_6_2.zip

最新资源

gbdt.zip_GBDT_GBDT如何实现_gbdt模型代码_python-gbdt_slightlyukz