深度解析：Boosted Tree算法及其广泛应用

需积分: 0 104 浏览量更新于2024-08-05 收藏 3.41MB PDF 举报

Boosted Tree, 或者通常被称为GBDT、GBRT（梯度增强回归树）、MART和LambdaMART，是一种强大的有监督学习算法，尤其在数据挖掘和机器学习领域中广泛应用。它由@龙星镖局兄发起撰写，旨在深入介绍这个高效且灵活的方法。该算法的核心在于梯度提升法，通过迭代地添加弱学习器（如决策树），每个新添加的树都在前一轮的基础上优化残差，从而逐步提高整体模型的性能。这种算法的优势在于对输入数据的鲁棒性和适应性，使得它成为从统计学家到数据科学家的通用工具，也是Kaggle竞赛获胜者的常用策略。有监督学习中，Boosted Tree算法涉及三个关键组成部分：模型、参数和目标函数。模型是指根据输入特征预测输出的数学结构，例如线性模型通过线性组合来实现预测，但这个预测可以有多种用途，如回归、概率估计或排序指标。在Boosted Tree中，模型是通过构建一系列决策树构成，每棵树都专注于减小剩余误差。参数的选择和调整对于算法性能至关重要，它们决定了决策树的结构（如节点分裂标准和深度）以及整个提升过程的迭代次数。目标函数则定义了模型优化的目标，通常是最小化均方误差（MSE）或交叉熵损失，具体取决于任务类型（回归或分类）。尽管Boosted Tree最初源于Friedman的论文《贪心函数逼近：梯度提升机》，但很多早期的中文资源主要侧重于翻译，而这篇文章提供了一个更全面和深入的视角，结合了作者自身的学习经验和TAUW机器学习讲义中的内容。它不仅介绍了算法的工作原理，还涵盖了其在实际应用中的优势和适用场景，包括工业界的广泛采用。 Boosted Tree是一种强大的机器学习工具，理解它的逻辑组成、优缺点以及如何调整参数是数据科学从业者不可或缺的知识。通过阅读这篇深入解析的文章，读者将能更好地掌握这一技术，并在实践中应用它来解决各类数据挖掘和预测问题。

15-4-24 Boosted Tree | 我爱计算机

www.52cs.org/?p=429 1/9

Boosted Tree

作者：陈天奇，毕业于上海交通大学ACM班，现就读于华盛顿大学，从事大规模机器学习研究。

注解：truth4sex

编者按：本文是对开源xgboost库理论层面的介绍，在陈天奇原文《梯度提升法和Boosted Tree》的基础

上，做了如下注解：1）章节划分；2）注解和参考链接（以蓝色和红色字体标注）。备注：图片可点击查看清

晰版。

1. 前言

应 @龙星镖局兄邀请写这篇文章。作为一个非常有效的机器学习方法，Boosted Tree是数据挖掘和机器学习

中最常用的算法之一。因为它效果好，对于输入要求不敏感，往往是从统计学家到数据科学家必备的工具之

一，它同时也是kaggle比赛冠军选手最常用的工具。最后，因为它的效果好，计算复杂度不高，也在工业界中

有大量的应用。

2. Boosted Tree的若干同义词

说到这里可能有人会问，为什么我没有听过这个名字。这是因为Boosted Tree有各种马甲，比如GBDT, GBRT

(gradient boosted regression tree)，MART ，LambdaMART也是一种boosted tree的变种。网上有很多介

绍Boosted tree的资料，不过大部分都是基于Friedman的最早一篇文章Greedy Function Approximation: A

Gradient Boosting Machine的翻译。个人觉得这不是最好最一般地介绍boosted tree的方式。而网上除了这

个角度之外的介绍并不多。这篇文章是我个人对于boosted tree和gradient boosting 类算法的总结，其中很

多材料来自于我TA UW机器学习时的一份讲义。

3. 有监督学习算法的逻辑组成

要讲boosted tree，要先从有监督学习讲起。在有监督学习里面有几个逻辑上的重要组成部件，初略地分可以

分为：模型，参数和目标函数。

i. 模型和参数

模型指给定输入如何去预测输出。我们比较常见的模型如线性模型（包括线性回归和logistic

regression）采用了线性叠加的方式进行预测。其实这里的预测可以有不同的解释，比如我

们可以用它来作为回归目标的输出，或者进行sigmoid 变换得到概率，或者作为排序的指标等。而一个线性模

型根据的解释不同（以及设计对应的目标函数）用到回归，分类或排序等场景。参数指我们需要学习的东西，

在线性模型中，参数指我们的线性系数。

ii. 目标函数：损失 + 正则

模型和参数本身指定了给定输入我们如何做预测，但是没有告诉我们如何去寻找一个比较好的参数，这个时候

就需要目标函数登场了。一般的目标函数包含下面两项

Search …

深度解析：Boosted Tree算法及其广泛应用

Boosted_Bayesian_Network_Classifier.zip_Bayesian classifier_baye

Rapid-License-Plate-Location-Using-a-Boosted-Casc_boosted cascad

dbnmatlab代码-Pseudo_Boosted_Deep_Belief_Network:纸质伪增强深度信任网络的源代码

使用Boosted Tree算法预测分子特异性杂交的结果

matlab的adf代码-Boosted_HP_filter:PeterPhillips和ZhentaoShi(2020)的函数和复制文件：“

林轩田《机器学习技法》课程笔记11 -- Gradient Boosted Decision Tree1

FACE-DETECTION-AND-TRACKING-USING-A-BOOSTED-ADAPT_faces

gradient-boosted-decision-tree:GBDT（梯度增强决策树）

Using-a-Boosted-Cascade.rar_SVM检测目标_cascade_hog+SVM_目标检测_行人检测

haarcascade_frontalface_alt_tree.xml

最新资源