GBDT原理详解：Bootstrap重采样与残差迭代

需积分: 0 31 浏览量更新于2024-08-05 收藏 595KB PDF 举报

GBDT（Gradient Boosting Decision Tree）是一种强大的集成学习算法，其原理主要由三部分构成：回归决策树（Regression Decision Tree，DT）、梯度提升（Gradient Boosting，GB）和收缩（Shrinkage）。首先，我们来理解这三个核心概念。回归决策树（DT）是GBDT的基础组件，它分为回归树和分类树。回归树用于预测连续数值，如年龄预测，其工作流程是将每个实例划分到具有唯一预测值的叶子节点，这个预测值通常是该节点内所有实例特征值的平均值，通过最小化均方误差来进行节点划分。相比之下，分类树则用于离散类别预测，如性别判别，通过最大化信息增益或减少熵来确定最优分割。梯度提升（GB）则是GBDT的核心迭代策略。GB采用迭代的方式，每棵新的决策树不是独立建模，而是针对之前模型的残差进行建模。在第一次迭代中，决策树尽可能地拟合数据的原始目标函数。随着后续树的添加，每棵树都专注于减少前一棵树产生的剩余误差。这种迭代过程可以看作是不断逼近真实值的过程，通过累加模型预测来提高整体预测精度。收缩（Shrinkage）是指在GBDT中使用的正则化技术，目的是防止过拟合。通过设置学习率（shrinkage rate），每次新增的树对整体预测的影响会逐渐减弱，这有助于保持模型的泛化能力。关于GBDT与Xgboost和随机森林（Random Forest，RF）的比较，虽然它们都是基于决策树的集成方法，但Xgboost在效率和性能上有所优化，例如使用了稀疏矩阵处理和并行计算。而随机森林则是通过构建多个决策树并取平均值来降低单棵树的过拟合风险。实际应用中，GBDT常用于各种回归问题，如金融风险评估、房价预测等，因其能够处理非线性和复杂关系，并且通过调整参数可以适应不同的问题特性。在许多软件/插件中，GBDT作为一种强大的工具，已被广泛集成和使用。总结来说，GBDT通过组合多个回归决策树，通过梯度迭代的方式不断优化预测，同时借助收缩技术控制模型复杂度，从而实现对复杂数据的高效预测。它在实际工程中扮演着重要的角色，特别是在数据科学和机器学习领域。

GBDT与XgboostRF的比较在其他笔记里

1.DT:决策树

2.GB:梯度迭代

3.GBDT实例

GBDT由三个概念组成：Regression Decision Tree(DT),Gradient

Boosting(GB),Shrinkage(算法的一个重要演进分支，目前大部分源码

都按该版本实现）。

GBDT与XgboostRF的比较在其他笔记里

1.DT:决策树

决策树分为两大类，回归树和分类树，前者用于预测实数值，后者

用于分类标签值；前者结果的加减是有意义的，后者结果加减无意义。

GBDT的核心在于

累

加

所

有

树

的

结

果

作

为

最

终结

果

，所以

GBDT

中

的

树

都

是

回

归

树

。回归树是如何工作的？

下面我们以对人的性别判别/年龄预测为例来说明，每个instance都

是一个我们已知性别/年龄的人，而feature则包括这个人上网的时长、

上网的时段、网购所花的金额等。

作为对比，先说分类树，C4.5分类树在每次分枝时，是穷举每一个

feature的每一个阈值，找到使得按照feature<=阈值和featrue>阈值分

成的两个分枝的熵最大的feature和阈值，按照标准分枝得到两个新节

点，用同样方法继续分枝直到所有人都被分入性别唯一的叶子节点，或

达到预设的终止条件。若最终叶子节点中的性别不唯一，则以多数人的

性别作为该叶子节点的性别。

下载后可阅读完整内容，剩余5页未读，立即下载

陌陌的日记

粉丝: 18
资源: 318

GBDT原理详解：Bootstrap重采样与残差迭代

梯度提升与GBDT原理解析1

两个版本的GBDT（GBRT）源代码

大白话GBDT算法-通俗理解GBDT原理

31. RF GBDT XGBoost 面试级整理1

gbdt.zip_GBDT_GBDT如何实现_gbdt模型 代码_python-gbdt_slightlyukz

gbdt算法原理

GBDT.7z_GBDT算法

GBDT.zip_GBDT_sklearn_分类算法_提升树_梯度提升决策树

12_Adaboost_GBDT_XGBoost算法原理1

通俗讲解GBDT算法原理及应用

最新资源

gbdt.zip_GBDT_GBDT如何实现_gbdt模型代码_python-gbdt_slightlyukz