机器学习中的重采样方法：Bootstrap、Bagging、Boosting、Adaboost 概述

需积分: 0 183 浏览量更新于2024-08-05 收藏 837KB PDF 举报

"这篇作业介绍了大数据领域的四种重采样方法：Bootstrap、Bagging、Boosting和Adaboost，以及它们在机器学习中的应用。作者李坚松使用MATLAB实现了Bagging和AdaBoost算法，并在Stanford CS229课程作业的数据集和UIC的垃圾邮件数据集上进行了实践。" 在机器学习中，重采样方法是提高模型性能和泛化能力的重要手段。Bootstrap是一种统计学上的重采样技术，用于估计统计量的不确定性。它通过从原始数据集中有放回地抽样来创建多个新的训练集，进而计算统计量的平均值作为估计值。 Bagging（Bootstrap Aggregating）是一种并行化的集成学习策略。在Bagging中，每次从原始数据集中随机抽取一定比例的样本，形成新的训练集，这样生成多个训练集并分别训练得到一系列子模型。最后，通过多数投票或平均预测来决定最终的分类或回归结果，以此降低模型的方差，提高稳定性。 Boosting，特别是Adaboost，是一种序列化的学习方法。Adaboost在每一轮中选择那些被当前弱分类器错误分类的样本给予更高的权重，使得后续的弱分类器更关注这些难以分类的样本。随着迭代的进行，每个弱分类器专注于解决之前分类器的错误，形成一个强分类器。Adaboost的目标是让各个子分类器对错误分类样本的加权误差逐渐减小。与Bagging相比，AdaBoost的主要区别在于它动态调整样本权重。在每一轮训练中，AdaBoost试图平衡正确分类和错误分类样本的权重，使得后续的弱分类器更加关注误分类的样本，从而提升整体分类性能。这种策略使得Adaboost能够逐步优化模型，减少训练数据中的噪声影响。 Bootstrap用于统计量估计，Bagging通过并行训练弱分类器来降低方差，Boosting尤其是Adaboost则通过序列训练和动态权重调整来减少偏差。这四种方法都是集成学习的重要组成部分，它们在大数据分析和机器学习领域有着广泛应用，能够显著提高模型的预测准确性和鲁棒性。

姓名：

李坚松

学号：

201618013229011

Bagging 和 AdaBoost

本次作业主要利用 MATLAB 语言实现了 Bagging 和 AdaBoost 算法，数据集是 Stanford

CS229 Machine Learning 课程作业的样例数据集和 UIC 的垃圾邮件数据集。下面简介一下四

种典型的重采样方法的主要思想。

1. 重采样方法简介

Bootstrap、Bagging、Boosting、Adaboost 是机器学习中比较常见的几种重采样方法。其

中，Bootstrap 重采样方法主要用于统计量的估计，Bagging、Boosting、Adaboost 则主要用

于多个子分类器的组合。

1.1 Bootstrap

Bootstrap 主要用于统计量的估计，其主要思想是对原始数据集进行有放回地抽样，得

到多个训练集。用这多个训练集对模型统计量进行估计，统计量的估计值定义为训练集上估

计量的平均。

1.2 Bagging

Bagging 方法的主要思想是从原始数据集中随机选择样本点组成一个新的训练集，选择

过程独立重复多次，得到多个训练集。对每个训练集进行训练，得到一个子分类器，最终分

类器的分类结果由这些子分类器投票决定。

1.3 Boosting

Boosting 依次训练 k 个子分类器，最终分类结果由这些子分类器投票决定。首先从大小

为 n 的原始数据集中随机选择 n1 个样本点作为训练集训练出第一个分类器，记为 C1。然后

构造第二个分类器 C2 的训练集 D2，要求：D2 中一半样本能被 C1 正确分类，而另一半样本

被 C1 错分。接着构造第三个分类器 C3 的训练集 D3，要求：C1、C2 对 D3 中样本点的分类

结果不同。剩余的子分类器按照类似的思路进行训练。Boosting 构造新训练集的主要原则是

使用最富信息的样本。

1.4 AdaBoost

AdaBoost 是 Boosting 的一种改进。它为每一个样本赋予一个权值，AdaBoost 希望在下

一轮训练时被上一个子分类器的正确分类的样本权重和被错误分类的样本权重相等，从而下

下载后可阅读完整内容，剩余8页未读，立即下载

忧伤的石一

粉丝: 28
资源: 332

机器学习中的重采样方法：Bootstrap、Bagging、Boosting、Adaboost 概述

李坚松-201618013229011-Assignment 51

李坚松-201618013229011-Assignment 11

中国石油大学(北京)克拉玛依校区在广东2021-2024各专业最低录取分数及位次表.pdf

浙江越秀外国语学院在广东2021-2024各专业最低录取分数及位次表.pdf

网站模板源代码（组件划分规范，二改省力）

华中科技大学 Java课程设计实验.zip

4G语音质差参数优化调整建议.xlsx

仲恺农业工程学院在广东2021-2024各专业最低录取分数及位次表.pdf

《Java语言程序设计（基础篇）》课后编程练习题.zip

电影订票后台系统（系分课程设计）.zip

最新资源