从CART到XGBoost：深度解析GBDT及其优化

需积分: 0 83 浏览量更新于2024-08-05 收藏 1.11MB PDF 举报

"本文主要介绍了集成学习中的CART回归树、提升树(BDT)以及梯度提升树(GBDT)，并特别关注了XGBoost在这些算法基础上的改进。" 一、CART回归树 CART（Classification and Regression Trees）回归树是一种用于连续数值预测的决策树模型。它的目标是最小化平方误差，通过遍历所有特征和阈值找到最佳分裂点，使得分裂后的子树内样本方差最小。分裂后，每个叶节点的输出值为该叶节点内样本的平均值。二、提升树(BDT) 提升树（Boosting Decision Trees）是一种集成学习方法，通过构建多棵CART树并组合它们的预测结果来提高整体预测准确度。核心思想是残差拟合，即每棵树试图修正前一棵树的预测误差。每一轮的损失函数是前一轮预测值与真实值之间的残差，以此指导新树的生长。BDT中的每棵树的叶节点输出通常是所有样本在该叶节点的均值。三、GBDT（Gradient Boosting Decision Trees） GBDT是对BDT的一种改进，它使用负梯度代替残差作为弱学习器的训练目标。这实际上是利用泰勒展开式的第一项近似损失函数的下降方向。GBDT的流程包括： 1. 初始化一个常数预测模型。 2. 对于每一轮，计算每个样本的负梯度作为残差的替代。 3. 使用这些负梯度来拟合新的CART回归树，每个叶节点的输出需要根据损失函数优化确定。 4. 将新树的预测结果加入到当前模型中，更新预测值。四、XGBoost与GBDT的区别 XGBoost是基于GBDT的优化实现，它对GBDT做了以下几点改进： 1. 它引入了正则化项，以防止过拟合并提升模型的泛化能力。 2. XGBoost采用了二阶泰勒展开，更精确地逼近损失函数的梯度和Hessian矩阵。 3. 效率优化，包括列抽样、并行计算等，使得训练速度更快。 4. 支持自定义损失函数，提供了更大的灵活性。五、XGBoost损失函数推导 XGBoost的损失函数不仅考虑了梯度，还考虑了Hessian，这样可以更好地平衡模型复杂度和拟合程度。在训练过程中，它通过最小化带有正则化的加性模型的目标函数来优化模型。六、XGBoost的多分类除了回归任务，XGBoost还支持多分类任务，通过构建多棵树分别预测每个类别的概率，然后选择概率最高的类别作为最终预测。总结来说，从CART回归树到提升树（BDT），再到梯度提升树（GBDT）和XGBoost，每一步都是为了优化预测效果和模型的解释性。XGBoost通过各种技术改进，成为实际应用中非常高效且强大的机器学习工具，广泛应用于数据挖掘、竞赛项目和工业级应用。

集成学习终篇：从CART回归树开始，经历BDT、GBDT彻底理解

XGBoost

机器学习

关注他

11 人赞同了该文章

大电鳗

要了解此系列相关的算法，基础为CART回归树，将这些算法整理起来方便理解和比较其中的不

同。

一.CART回归树

回归树的模型可以表示如下：

上式中，为对应叶子节点的输出值，为指示函数，当x属于时，值为

1，否则为0。

回归树的建立过程，优化策略或损失函数为最小化平方误差，即最小化下式：

CART回归树的建树过程是二分裂节点，并且保证分裂的结果符合最小化平方误差，这里采用了比

较暴力的遍历法，即遍历所有特征j和每个特征的多个阈值s，以平方误差最小的组合作为分裂依

据，数学描述如下：

上式中，R为以s为分割点分割的左右子树样本合集，c为该集合的均值。

确定了j，s后，就可以就行分裂了，将树分裂为左右两个区域：

赞同 11

下载后可阅读完整内容，剩余9页未读，立即下载

粉丝: 874
资源: 314

从CART到XGBoost：深度解析GBDT及其优化

深入解析ADT原理及测试工具案例

MySql基础四之终极篇：复杂查询实践指南

LayaAir_简单跑酷JS版_-_05-终篇.zip_funnylkz_harborjqs_laya3Dqiuqiupaoku

MySql基础四之【终篇复杂查询】

Anti-ADT:分析ADT原理用到的测试文件与demo

QT图形视图系统 - 使用一个项目来学习QT的图形视图框架

产品经理必读：5项提高产品设计的交互模式

基于智能温度监测系统设计.doc

搜广推推荐系统中传统推荐系统方法思维导图整理-完整版

2023-04-06-项目笔记 - 第三百五十五阶段 - 4.4.2.353全局变量的作用域-353 -2025.12.22

最新资源