集成学习：Bagging与Boosting原理解析

需积分: 0 35 浏览量更新于2024-08-05 收藏 710KB PDF 举报

"这篇内容主要介绍了集成学习中的两种主要方法：Bagging和Boosting，以及它们的基本原理和应用。Bagging通过Bootstrap采样法构建多个训练子集，训练独立的弱学习器，最后通过投票或平均整合结果。而Boosting则是通过调整样本权重或创建新的标签，让每个弱学习器专注于解决前一个学习器未能处理的问题，从而形成一个强学习器。文中还提到了Bagging中‘包外估计’的概念，用于评估模型的泛化性能。" 集成学习是一种机器学习策略，它结合多个弱学习器来创建一个更强大、更稳健的强学习器。这种策略能够显著降低过拟合的风险，提高模型的泛化能力。在集成学习中，弱学习器通常是简单且易于训练的模型，如决策树，而强学习器是这些弱学习器的组合。 Bagging（Bootstrap Aggregating）是一种并行化的集成学习方法，其核心是Bootstrap抽样。Bootstrap是一种有放回的抽样技术，这意味着在构建每个训练子集时，样本可能会重复出现，也可能完全不出现。每个子集由随机抽样的样本构成，但每个样本被抽中的概率保持不变。由于有放回抽样，大约有36.8%的样本不会出现在任何一次子集中，这部分未被抽中的样本被称为“包外”样本，可以用于对模型的泛化性能进行无偏估计，即所谓的“包外估计”。 Bagging通过训练多个弱学习器并整合其预测结果来生成最终预测。在分类问题中，常用多数投票决定类别；在回归问题中，通常取所有弱学习器预测结果的平均值作为最终预测。Bagging的一个经典应用是随机森林，其中弱学习器通常是决策树，每个树都是在独立的子集上训练得到的。 Boosting则是一种序列化的集成方法，它逐步改进弱学习器，使它们专注于解决之前模型未能正确处理的样本。最著名的Boosting算法包括AdaBoost（Adaptive Boosting）和梯度提升决策树（Gradient Boosting Decision Trees, GBDT）。在AdaBoost中，错误分类的样本在后续迭代中会被赋予更高的权重，迫使下一个学习器更加关注这些样本。GBDT则通过计算残差（预测值与真实值之差）来构造新的目标变量，使得每个新的决策树能最小化残差，从而逐步优化整体预测。集成学习的这两种方法各有优势：Bagging通过并行训练和多样化弱学习器的预测来减少模型的方差；Boosting则通过序列化训练，不断改进模型的偏差。实际应用中，选择哪种方法通常取决于问题的性质和数据的特性。

集成学习概览：Bagging与Boosting

主要参考了以下资料：

集成学习综述-从决策树到XGBoost

李宏毅老师的机器学习课程中对应章节：ensemble learning

周志华老师《机器学习》书中对应章节



集成学习（ensemble learning）是机器学习中一种重要的思想，其核心是将一些简单的机器学习模型组合起来得到

一个强大的模型。通常来讲被组合的简单模型称为弱学习器（weak learner）或基学习器（base learner），组合起

来后形成的模型为强学习器（strong learner）。

根据训练各个弱学习器的思路不同，集成学习主要分为两种方式：Bagging和Boosting。前者通过对原始训练样本

集进行随机抽样，形成不同的训练样本集来训练每个弱学习器，各个弱学习器之间可以认为近似是独立的，典型代表

是随机森林；后者为训练样本增加权重（AdaBoost），或者构造标签值（GBDT）来依次训练每个弱学习器，各个弱

学习器之间相关，后面的弱学习器利用了前面的弱学习器的信息。



1. Bagging

Bagging的思路是对训练集进行若干次重新采样，组成若干个训练子集，从每个训练子集中独立训练出一个分类器，

最后整合所有分类器的结果进行预测。在整合预测结果时，通常对分类任务采用简单投票法，对回归任务使用简单平

均法。

Bagging的基础是Bootstrap采样法（中文又译为自助采样法），这也是“Bagging”这个名称的来源（Bootstrap

Aggregating）。Bootstrap是一种有放回抽样方法，具体做法是：在个样本的集合中有放回的抽取个样本形成一

个数据集。在这个新的数据集中原始样本集中的一个样本可能会出现多次，也可能不出现。

假设样本集中有个样本，每次抽中其中任何一个样本的概率都为，即等概率，一个样本在每次抽样中没被抽中

的概率为。由于是有放回的抽样，每两次抽样之间是独立的，因此对于连续次抽样，一个样本没被抽中的

概率为：

可以证明，当趋向于无穷大时这个值的极限是，约等于0.368，其中是自然对数的底数。即如下结论成立：

证明过程很简单，在微积分中，有这样一个重要极限：

这说明在训练每个基学习器时，只使用了初始训练集中63.2%的样本，剩下约36.8%的样本可用作验证集来对泛化性

能进行“包外估计”（out-of-bag estimation）。为此，对于训练集中某一特定样本，我们只需要考虑那些未使用训

练的基学习器在上的预测结果，然后以此类推，求出整个训练集中所有样本预测结果的误差，即可得到包外误差。

下载后可阅读完整内容，剩余3页未读，立即下载

简甜XIU09161027

粉丝: 33
资源: 310

集成学习：Bagging与Boosting原理解析

集成学习探析：从Boosting到Stacking

集成学习揭秘：从Boosting到Stacking的提升策略

机器学习概览：从贝叶斯到Boosting

集成学习中的过拟合管理：Bagging与Boosting比较

南大出品 机器学习基础入门教程 机器学习导论 第08章 集成学习 共14页.pdf

机器学习工作组核心文件概览

【深度学习与传统机器学习融合】：决策树与Boosting的新角色

LightGBM基础入门：了解Boosting算法与Gradient Boosting框架

【大数据下的决策树与Boosting】：挑战、机遇与实战策略

大数据集成学习算法

最新资源

南大出品机器学习基础入门教程机器学习导论第08章集成学习共14页.pdf