集成学习探析：从Bagging到Boosting，以GBDT为例

需积分: 0 185 浏览量更新于2024-08-05 收藏 866KB PDF 举报

"本文介绍了机器学习中的集成学习方法，特别是关注于Bagging和Boosting类方法，包括随机森林和GBDT等。" 集成学习是机器学习领域的一种重要技术，它通过结合多个弱预测器来创建一个强预测器。这种策略的核心在于，通过多个模型的集合，能够减少过拟合，提高模型的稳定性和准确性。集成学习主要有两种策略：Bagging和Boosting。 Bagging（Bootstrap Aggregating）是一种并行化的集成方法，它通过从原始数据集中随机抽取有放回的子样本来构建不同的训练集，每个模型在这些子样本上独立训练。这种方法降低了模型之间的相关性，提高了多样性。比如，随机森林就是Bagging的一个实例，它利用决策树作为基模型，并且在构建每棵树时还会对特征进行随机选择，进一步增强模型的多样性。另一方面，Boosting是一种序列化的集成方法，它依次训练模型，每个新模型都会重点处理前一个模型的错误。Gradient Boosting Decision Tree (GBDT)是Boosting方法的一个例子，它通过最小化残差来迭代地构建决策树，每次迭代都针对前一棵树的残差进行优化。这样，每个新树都能专注于纠正之前模型的错误，从而逐步提升整体预测性能。XGBoost和LightGBM是GBDT的高效实现，它们在保持高准确率的同时，显著提升了训练速度。集成学习中，基模型的差异性至关重要，因为只有当各个模型的预测结果不完全一致时，集成模型才能从它们的多样性中受益。如果所有基模型都给出相同的结果，那么集成将无法提供额外的优势。数学上，模型之间的不相关性会导致集成模型的期望错误减少，这意味着在理想情况下，当模型间的误差不相关时，集成模型的性能可以接近最优。在实际应用中，集成学习广泛用于各种任务，尤其是在Kaggle等数据科学竞赛中，GBDT因其优秀的泛化能力和计算效率而备受青睐。通过理解和有效地应用集成学习，开发者可以构建出更强大、更鲁棒的机器学习系统，以应对复杂和多样化的预测挑战。

机

器

学

习

与

深

度

学

习

⾯

试

系

列

七（

集

成

⽅

法

）

什么

是

集

成

学

习

（

ble

）？

有

哪

些

常

⽤

的

模

型

？

集

成

学

习

(

ble

)

就

是

通过

某

种策

略

将

多

个

模

型

集

成

起

来

，

通过

群

体

决

策

来

提

⾼

决

策

准

确

率

。

集

成

学

习

⾸

要

的

问题

是

如

何

集

成

多

个

模

型

，

⽐

较

常

⽤

的

集

成

策

略

有

直

接

平

均

、

加

权

平

均

等

。

集

成

学

习

的

思

想

可

以

⽤

⼀

句古

⽼

的

谚

语

来

描

述

:“

三个

臭

⽪

匠

赛

过

诸

葛

亮

”

，

但

是

⼀个

有

效

的

集

成

需

要

各

个

基

模

型

的

差

异

尽

可

能

⼤

。

为了

增

加

模

型

之

间

的

差

异性

，

可

以

采

取

aggi

和

oost

这

两

类

⽅

法

aggi

类

⽅

法

。

通过

随

机构

造

训

练

样本

、

随

机

选

择

特

征

等

⽅

法

来

提

⾼

每

个

基

模

型

的

独

⽴

性

，

代

表

性

⽅

法

有

aggi

(

ootstr

ega

)

和

随

机

森

林

(

)

等

。

oost

类

⽅

法

。

按

照

⼀

定

的

顺

序

来

先

后

训

练

不

同

的

基

模

型

，

每

个

模

型

都

针

对

前

序

模

型

的

错

误

进

⾏

专

⻔

训

练

根

据

前

序

模

型

的

结

果

，

来

调

整

训

练

样本

的

权

重

，

从

⽽

增

加

不

同

基

模

型

之

间

的

差

异性

只

要

基

模

型

的

准

确

率

⽐

随

机

猜

测

⾼

，

oost

类

⽅

法

就

可

以

通过

集

成

⽅

法

来显

著

地

提

⾼

集

成

模

型

的

准

确

率

。

例

如

：

oost

、

GBDT

、

oost

、

igh

GBM

等

。

为什么

集

成

学

习

需

要

各

个

基

模

型

的

差

异

尽

可

能

⼤

？

给

定

⼀个

学

习任

务

，

假

设

输

⼊

和

输

出

的真

实

关

系

为

。

对

于

个不

同

的

模

型

、

...

，

每

个

模

型

的

期望

错

误

为

：

，

那

么

所

有

的

模

型

的

平

均

错

误

为

：

。

基

于

简

单

投

票

机

制

的

集

成

模

型

，

𝐹

(

𝒙

)

的

期望

错

误

：

下载后可阅读完整内容，剩余7页未读，立即下载

不知者无胃口

粉丝: 32
资源: 328

集成学习探析：从Bagging到Boosting，以GBDT为例

最新版的机器学习和深度学习面试题目， 涉及机器学习和深度学习理论和实践

Python-20182019校招春招秋招算法NLP深度学习机器学习面试笔记

1.机器学习、深度学习面试笔试题300+1

2024年大厂AI面试题精解：涵盖机器学习、深度学习及算法基础

集成学习方法 面试精华

机器学习面试总结

DLInterview：深度学习访谈深度学习面试译文总结

机器学习面试题答案1

BAT机器学习面试题

深度学习面试必备：机器学习与SVM、Tensorflow解析

最新资源

最新版的机器学习和深度学习面试题目，涉及机器学习和深度学习理论和实践

集成学习方法面试精华