深入理解XGBoost算法：从基础到实践

XGBoost

机器学习

需积分: 23 74 浏览量更新于2024-09-04 收藏 1.13MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"这篇博文详细介绍了XGBoost算法，包括其基本概念、回归树与决策树的区别、以及boosting集成学习的原理。文章适合初学者理解，通过公式推导和实例解析，帮助读者掌握XGBoost的核心思想。" 在机器学习领域，XGBoost是一种广泛应用的增强学习算法，全称为极端梯度提升。它基于GBDT（梯度提升决策树）进行优化，适用于大规模数据集，并提供高效的并行处理能力，因此在各种数据竞赛中表现优秀。XGBoost不仅可以用于分类任务，也可以处理回归问题。 1. 回归树与决策树：两者都属于监督学习模型，区别在于输出结果类型。决策树主要用于分类，输出为离散值，如“有毒”或“无毒”，而回归树处理连续数值，如预测房屋贷款额度。在构建回归树时，常用预测误差（如均方误差或对数误差）作为分裂标准，节点值可能取样内均值或通过优化计算得出，如XGBoost采用的方式。 2. boosting集成学习：boosting是一种策略，它组合多个弱学习器形成强学习器。在XGBoost中，每棵树的训练都考虑了前一棵树的预测结果，形成一个序列化的决策过程。例如，第一棵树预测后，样本的真实标签会调整为预测误差，以此作为第二棵树的输入。与之不同的是随机森林，其中每棵树独立训练，样本和特征选择具有随机性。 3. 分裂点的选择：在构建回归树时，寻找最佳分裂点至关重要。这通常涉及最小化某个损失函数，如均方误差。XGBoost在分裂过程中不仅考虑当前节点的改善，还考虑分裂对整体模型的影响，从而实现全局优化。 4. XGBoost的优化特性：XGBoost通过二阶泰勒展开近似损失函数的梯度和Hessian，简化了优化过程，同时引入正则化项控制模型复杂度，防止过拟合。此外，XGBoost支持分布式计算，能够在大量数据上快速训练模型。 XGBoost通过优化的梯度提升决策树策略，结合高效的并行计算，成为解决复杂预测问题的强大工具。理解其背后的理论和机制，对于任何想要在机器学习领域深入研究的人来说，都是非常重要的。

资源详情

资源推荐

2019/5/4 机器学习boosting家族之XGBoost算法理想几岁博客园

https://www.cnblogs.com/zongfa/p/9324684.html 1/7

机

器

学

习

boosting

家

族

之

XGBoost

算

法

一

、

概

念

  XGBoost全名叫（eXtremeGradientBoosting）极端梯度提升，经常被用在一些比赛中，其效果显著。它是大规模并行boosted

tree的工具，它是目前最快最好的开源boostedtree工具包。XGBoost所应用的算法就是GBDT（gradientboostingdecisiontree）

的改进，既可以用于分类也可以用于回归问题中。

  1

、

回

归

树

与

决

策

树



  事实上，分类与回归是一个型号的东西，只不过分类的结果是离散值，回归是连续的，本质是一样的，都是特征（feature）到结

果/标签（label）之间的映射。说说决策树和回归树，在上面决策树的讲解中相信决策树分类已经很好理解了。

  分类树的样本输出（即响应值）是类的形式，如判断蘑菇是有毒还是无毒，周末去看电影还是不去。而回归树的样本输出是数值

的形式，比如给某人发放房屋贷款的数额就是具体的数值，可以是0到120万元之间的任意值。

  那么，这时候你就没法用上述的信息增益、信息增益率、基尼系数来判定树的节点分裂了，你就会采用新的方式，预测误差，常

用的有均方误差、对数误差等。而且节点不再是类别，是数值（预测值），那么怎么确定呢，有的是节点内样本均值，有的是最优化

算出来的比如Xgboost。

  2

、

boosting

集

成

学

习

  boosting集成学习，由多个相关联的决策树联合决策，什么叫相关联，举个例子，有一个样本[数据>标签]是[(2，4，5)>4]，第

一棵决策树用这个样本训练得预测为3.3，那么第二棵决策树训练时的输入，这个样本就变成了[(2，4，5)>0.7]，也就是说，下一棵

决策树输入样本会与前面决策树的训练和预测相关。

  与之对比的是randomforeast（随机森林）算法，各个决策树是独立的、每个决策树在样本堆里随机选一批样本，随机选一批特

征进行独立训练，各个决策树之间没有啥毛线关系。

  所以首先Xgboost首先是一个boosting的集成学习，这样应该很通俗了

  3、这个时候大家就能感觉到一个回归树形成的关键点：（1）分裂点依据什么来划分（如前面说的均方误差最小，loss）；

（2）分类后的节点预测值是多少（如前面说，有一种是将叶子节点下各样本实际值得均值作为叶子节点预测误差，或者计算所得）



二

、

集

成

思

想

  在学习XGBoost之前，我们得需要先明白集成思想。集成学习方法是指将多个学习模型组合，以获得更好的效果，使组合后的模

型具有更强的泛化能力。另外XGBoost是以分类回归树(CART树)进行组合。故在此之前，我们先看下CART树(CART树具体原理请自

行复习，或者可以留言)。如下，通过输入用户年龄、性别进行判断用户是否喜欢玩游戏的得分值。由此得到一颗CART树模型。

       

  我们知道对于单个的决策树模型容易出现过拟合，并且不能在实际中有效应用。所以出现了集成学习方法。如下图，通过两棵树

组合进行玩游戏得分值预测。其中tree1中对小男生的预测分值为2，tree2对小男生的预测分值为0.9。则该小男生的最后得分值为

2.9。

       

  将上面集成学习方法推广到一般情况，可知其预测模型为：

                       

下载后可阅读完整内容，剩余6页未读，立即下载

stks

粉丝: 126
资源: 8

深入理解XGBoost算法：从基础到实践

通俗易懂的PID算法理解

一份通俗易懂的遗传算法入门级介绍（包含实例和程序说明）.docx

如何通俗理解模拟退火算法

通俗的解释pid算法

pid算法通俗解释，平衡车，倒立摆，适合不理解PID算法的人来看！

ADMM中算法迭代部分arg怎么通俗理解

通俗易懂astar算法

springioc和aop通俗的理解

怎么通俗易懂地理解“快速排序”算法

单例模式通俗初步理解

kmp算法的通俗表达

通俗讲解下决策树算法

怎么才能够通俗的理解jdk的帮助文档

自注意力机制通俗理解

WlAN全称是什么，LAN全称是什么，能不能把相关全套的知识解释给我听，要求通俗易通，谢谢

怎么通俗的理解python的循环

pid算法 通俗 csdn

通俗解释一下粒子群算法

BGFS算法通俗解释

XGBoost,请用简练通俗易懂的大白话风格传授我关于以上模型或者技术的理论知识,让一个NLP新手对以上模型或者技术的理论掌握程度达到NLP高级开发工程师的水平!

最新资源

pid算法通俗 csdn