集成学习笔记：Boosting、Bagging与Stacking解析

需积分: 0 153 浏览量更新于2024-08-05 收藏 9.67MB PDF 举报

"集成学习总结 | A Notebook1" 集成学习是一种机器学习方法，通过结合多个学习算法的预测来创建更强大的模型。这种方法的核心理念是利用多个弱学习器的优点，通过协同工作形成一个强学习器，从而提高整体的预测性能。集成学习主要分为三大类：Boosting、Bagging和Stacking。 **Boosting** Boosting是一种迭代增强策略，其过程是串行的。它首先训练一个弱学习器，然后根据这个学习器在训练数据上的错误，调整样本权重，以使错误样本在后续迭代中得到更多关注。这样可以生成一系列针对不同子集或权重分布的弱分类器，最终通过加权组合这些弱分类器形成强分类器。典型的Boosting算法包括AdaBoost、Gradient Boosting (GBDT)以及XGBoost。 **AdaBoost算法步骤**： 1. 初始化所有样本的权重相等，即`wi1 = 1/N`，其中N是样本总数。 2. 对于迭代次数m (m=1,2,...,M)： - 使用当前权重分布`Dm`训练一个弱分类器`Gm(x)`。 - 计算分类器`Gm(x)`在训练数据集上的错误率`em`。 - 根据错误率`em`计算`Gm(x)`的权重系数`am`，通常与错误率成反比。 - 更新样本权重分布`Dm+1`，错误的样本权重增加，正确的样本权重减少。 3. 最终，通过加权求和`f(x) = Σ(am * Gm(x))`构建强分类器`G(x) = sign(f(x))`。 **Bagging** Bagging（Bootstrap Aggregation）是一种并行化的集成方法，它通过从原始数据集中随机抽样（含替换）创建多个不同的子集，每个子集称为bootstrap样本。在每个bootstrap样本上独立训练一个基学习器，最后通过平均（回归问题）或多数投票（分类问题）来组合所有基学习器的预测。随机森林（Random Forest）就是Bagging的一个典型应用，其中基学习器通常是决策树。 **Stacking** Stacking（也称为Meta-Learning或分级学习）是一种更为复杂的方法，它不是简单地平均或投票，而是采用一个元模型来学习如何最佳地结合各个基学习器的预测。在第一阶段，不同类型的基学习器被训练在原始数据集上，然后在第二阶段，一个元模型（如线性回归、支持向量机或神经网络）被训练以预测目标变量，输入是所有基学习器的预测结果。集成学习的优势在于它可以降低过拟合风险，提高模型的稳定性和泛化能力。通过多样性和互补性的弱学习器组合，集成学习能够处理数据中的噪声和复杂模式，使得整体性能超越单个学习器。在实际应用中，根据问题的特性和数据集，可以选择适合的集成策略来提升模型性能。

2018/5/16 集成学习总结 | A Notebook

file:///C:/Users/Jh/Desktop/%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0%E6%80%BB%E7%BB%93%20_%20A%20Notebook.html 5

Xijun LI

Exploring with Curiosity!

Home Page

Archive

About Me

集成学习总结

2017-06-03

写在前面

看了不少集成学习的资料，很多算法都有相似之处，看了之后没有进行比较和整理，太容易忘记了，所以这篇来做个笔记。

集成学习，（就我目前所学习到的）主要可以分为三大类，Boosting, Bagging, Stacking。Boosting的代表有AdaBoost, gbdt, xgboost。而

Bagging的代表则是随机森林 (Random Forest)。Stacking 的话，好像还没有著名的代表，可以视其为一种集成的套路。

Boosting

首先，Boosting是一个迭代提升的过程，所以它肯定是串行的算法（尽管xgboost可以在节点分裂属性选择上做并行计算）。基于训练集，先训练弱学

习器，然后根据前一个弱学习器分错的样本，改变样本的概率分布构成新的训练集，从而可以训练出一个更强的学习器。这样反复迭代提升，就能得到

一系列分类器。最后，将这些分类器组合起来，就能构成一个很强的学习器。

AdaBoost

给定一个二分类的训练数据集

T={(x1,y1),…,(xN,yN)}

其中,x_i 是n维的, 类标y_i={-1,+1}

AdaBoost算法的步骤：

(1) 初始化训练数据的权值分布：D1=(w11,…,wi1,…,w1N),w1i=1/N,i=1,2,…,N(即初始时，每个样本视为一样的)

(2) 对m=1,2,…,M

(2a) 对具有权值分布Dm的训练数据集学习，得到一个基本分类器Gm(x)

(2b) 计算Gm(x)在训练数据集上的分类错误率:em=P(Gm(xi)!=yi)

(2c) 根据分类错误率计算Gm(x)的加权系数：am

(2d) 根据加权系数更新训练数据集的权值分布Dm+1

(3)以上学到了M个“弱”学习器，将这M个弱学习器加权求和：f(x)=sum(am*Gm(x)),最终的分类器为G(x)=sign(f(x))

总之，AdaBoost的主要思想就是在不改变训练数据的情况下，通过在迭代训练弱学习器中，不断提升被错分类样本的权重（也就是使被错分的样本在

下一轮训练时得到更多的重视），不断减少正确分类样本的权重。最后通过加权线性组合M个弱分类器得到最终的分类器，正确率越高的弱分类器的投

票权数越高，正确率低的弱分类器自然投票权数就低。

GBDT

GBDT的基本原理是boosting里面的 boosting tree（提升树），并使用gradient boost。GBDT中的树都是回归树，不是分类树，因为gradient

boost 需要按照损失函数的梯度近似的拟合残差，这样拟合的是连续数值，因此只有回归树。Gradient Boosting是一种Boosting的方法，其与传统的

Boosting的区别是，每一次的计算是为了减少上一次的残差(residual)，而为了消除残差，可以在残差减少的梯度(Gradient)方向上建立一个新的模

型。所以说，在Gradient Boosting中，每个新的模型的建立是为了使得之前模型的残差往梯度方向减少，与传统Boosting对正确、错误样本进行加权

有着很大的区别。这个梯度代表上一轮学习器损失函数对预测值求导。与Boosting Tree的区别：Boosting Tree的适合于损失函数为平方损失或者指

数损失。而Gradient Boosting适合各类损失函数（损失函数为：平方损失则相当于Boosting Tree拟合残差、损失函数为：使用指数损失则可以近似

于Adaboost，但树是回归树）

下面是完整的GBDT介绍。

GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组

成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。GBDT中的树是回归树（不是分类树），GBDT

下载后可阅读完整内容，剩余6页未读，立即下载

大禹倒杯茶

粉丝: 24
资源: 331

集成学习笔记：Boosting、Bagging与Stacking解析

CoFactor：正则化矩阵分解与项目共现_Jupyter Notebook.zip

matlab2010a教程

实验一.docx

jupyter_notebook_config text

c.NotebookApp.notebook_dir = 'D:\\softwares\\jupyter_notebook中jupyter_notebook是文件夹还是.exe

python，tqdm_notebook调取

jupyter notebook render_notebook 不显示

from tqdm import tqdm_notebook

jupyter_notebook 修改地址

nb_jupyter_notebook.html

最新资源