"GBDT和XGBOOST的区别及演进：深度解析"

需积分: 0 14 浏览量更新于2024-01-03 1 收藏 4.52MB PDF 举报

GBDT（Gradient Boosting Decision Tree）和XGBoost（eXtreme Gradient Boosting）是两种常用的机器学习算法，它们在原理和实现层面上有一些区别。首先，GBDT是一种集成学习算法，它通过多个弱学习器（一般是决策树）的串行训练和集成来提高预测性能。GBDT的核心思想是通过迭代的方式，每一次迭代都去学习上一轮迭代的残差（实际值与预测值之差），然后将学习到的模型加到最终的集成模型中。GBDT使用了一种梯度下降的方法来最小化预测误差，通过优化损失函数来求解模型参数。而XGBoost也是一种集成学习算法，它在GBDT的基础上进行了改进和优化。XGBoost在目标函数中加入了正则化项，通过正则化来控制模型的复杂度，防止过拟合。此外，XGBoost还采用了一种近似的方法来计算目标函数的梯度，可以减少计算量，提高训练速度。XGBoost还引入了二阶导数信息，可以更准确地估计参数的损失函数的一阶和二阶导数，从而提高模型的拟合能力。另外，GBDT在处理稀疏数据时会遇到困难，因为它需要遍历所有的特征，并且对于缺失值需要进行特殊处理。而XGBoost对于稀疏数据和缺失值的处理更加高效和灵活，它使用了一种特殊的数据结构（稀疏矩阵）来存储数据，并且在计算过程中只考虑非缺失值的特征。此外，XGBoost在模型的训练过程中引入了一些优化技术，如按特征列进行分裂、按特征量级进行分裂等，这些技术可以提高模型的训练速度和预测性能。总的来说，GBDT和XGBoost在原理和实现上有一些区别。XGBoost在GBDT的基础上进行了改进和优化，引入了正则化、二阶导数信息等，提高了模型的泛化能力。XGBoost还对稀疏数据和缺失值的处理更为高效和灵活，使用了特殊的数据结构和优化技术。因此，在实际应用中，根据具体的问题和数据特点，可以选择使用GBDT还是XGBoost来构建模型。

InitModel()

-> LazyInitModel()

-> obj_ = ObjFunction::Create()

-> objective.cc

Create()

-> SoftmaxMultiClassObj(multiclass_obj.cc)/

LambdaRankObj(rank_obj.cc)/

RegLossObj(regression_obj.cc)/

PoissonRegression(regression_obj.cc)

-> gbm_ = GradientBooster::Create()

-> gbm.cc

Create()

-> GBTree(gbtree.cc)/

GBLinear(gblinear.cc)

-> obj_->Configure()

-> gbm_->Configure()

UpdateOneIter()

-> PredictRaw()

-> obj_->GetGradient()

-> gbm_->DoBoost()

gbtree.cc:

Configure()

-> for (up in updaters)

-> up->Init()

DoBoost()

-> BoostNewTrees()

-> new_tree = new RegTree()

-> for (up in updaters)

-> up->Update(new_tree)

tree_updater.cc:

Create()

-> ColMaker/DistColMaker(updater_colmaker.cc)/

SketchMaker(updater_skmaker.cc)/

TreeRefresher(updater_refresh.cc)/

TreePruner(updater_prune.cc)/

HistMaker/CQHistMaker/

GlobalProposalHistMaker/

QuantileHistMaker(updater_histmaker.cc)/

TreeSyncher(updater_sync.cc)

从上面的代码主流程可以看到，在XGBoost的实现中，对算法进行了模块化的拆解，几个重要的部

分分别是：

I. ObjFunction：对应于不同的Loss Function，可以完成一阶和二阶导数的计算。

II. GradientBooster：用于管理Boost方法生成的Model，注意，这里的Booster Model既可以对

应于线性Booster Model，也可以对应于Tree Booster Model。

III. Updater：用于建树，根据具体的建树策略不同，也会有多种Updater。比如，在XGBoost里为

了性能优化，既提供了单机多线程并行加速，也支持多机分布式加速。也就提供了若干种不同的并

行建树的updater实现，按并行策略的不同，包括：

I). inter-feature exact parallelism （特征级精确并行）

II). inter-feature approximate parallelism（特征级近似并行，基于特征分bin计算，减少了枚举

所有特征分裂点的开销）

III). intra-feature parallelism （特征内并行）

IV). inter-node parallelism （多机并行）

此外，为了避免overfit，还提供了一个用于对树进行剪枝的updater(TreePruner)，以及一个用于

在分布式场景下完成结点模型参数信息通信的updater(TreeSyncher)，这样设计，关于建树的主要

操作都可以通过Updater链的方式串接起来，比较一致干净，算是Decorator设计模式[4]的一种应

用。

XGBoost的实现中，最重要的就是建树环节，而建树对应的代码中，最主要的也是Updater的实

现。所以我们会以Updater的实现作为介绍的入手点。

以ColMaker（单机版的inter-feature parallelism，实现了精确建树的策略）为例，其建树操作大

致如下：

赞同 1540

118 条评论收藏喜欢分享

剩余27页未读，继续阅读

小明斗

粉丝: 41
资源: 329

"GBDT和XGBOOST的区别及演进：深度解析"

[校招-基础算法]GBDT_XGBoost常见问题 - 知乎1

集成学习终篇：从CART回归树开始，经历BDT、GBDT彻底理解XGBoost - 知乎1

《统计学习方法》与常见机器学习模型(GBDT-XGBoost-lightGBM-FM-FFM)的原理讲解与python和.zip

xgboost相比传统gbdt有何不同？xgboost为什么快？xgboost如何支持并行？

GBDT和XGBoost的区别

GBDT算法和XGBOOST算法的优缺点

GBDT、XGBoost、LGBM

xgboost-1.5.1-cp39-cp39-win-amad64

adaboost gbdt xgboost lightgbm

XGBoost与传统GBDT有何不同之处？

最新资源