Bagging,全称为Bootstrap aggregating,是一种并行式的集成学习方法,最初由Breiman提出,主要用于降低过拟合风险,提高模型的稳定性和泛化能力。在机器学习领域,特别是分类和回归问题中,Bagging的核心思想是通过构建多个独立且具有差异性的模型来增强整体预测的准确性。 其工作流程如下: 1. **构建模型多样性**:Bagging通过从原始样本集中进行有放回的抽样,创建n个大小相同的子集,每个子集称为一个“ bootstrap sample”。这样做的目的是确保每个子集中的样本分布与原始数据相似,但又具有随机性,从而使得每个子集训练出的模型具有一定的独立性。 2. **训练弱学习器**:对于每个子集,使用相同的模型类型(如决策树、逻辑回归等),但参数保持不变,训练一个弱学习器。弱学习器指的是单个模型的预测能力相对较低,但结合众多弱学习器后可以产生强大的预测能力。 3. **集成预测**: - **分类任务**:使用多数投票法,即多数分类器预测的结果作为最终预测,降低了单一模型的错误影响。 - **回归任务**:采用平均法,即所有模型预测值的平均值作为最终结果,同样是为了减少随机误差的影响。 4. **验证与性能评估**:Bagging的一个关键优势在于,每个弱学习器只使用了原始数据的63.2%左右,剩余的样本可以用作验证集,通过这些样本对强学习器的性能进行评估,从而避免了过度拟合。 5. **稳定性与改进**:由于决策树等不稳定的分类器在Bagging中被组合,其性能通常会得到显著提升,这是因为不稳定的模型在不同的子集上可能会做出不同的决策,当它们一起投票时,错误会被抵消,整体性能更稳定。 举例说明,对于一个简单的1维数据集,比如特征x和类标号y,如果使用决策树进行分类,即使原始决策树可能因选择不同分裂点而达到70%的准确率,Bagging通过多个决策树的组合,能提高模型的稳定性和预测精度。 在实际应用中,如给出的示例数据,Bagging通过多次采样和模型构建,可以更好地处理测试数据,如预测[1.5960.]到[1.7959.]的类别,通过投票机制获得更准确的结果。 总结来说,Bagging是一种强大的机器学习技术,通过构建多样化的模型并结合其预测,有效降低了过拟合风险,提升了模型的泛化能力,并在实际问题中展现出了卓越的表现。
![](https://csdnimg.cn/release/download_crawler_static/87384077/bg3.jpg)
剩余14页未读,继续阅读
![pptx](https://img-home.csdnimg.cn/images/20210720083543.png)
![pptx](https://img-home.csdnimg.cn/images/20210720083543.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
- 粉丝: 361
- 资源: 1万+
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- 利用迪杰斯特拉算法的全国交通咨询系统设计与实现
- 全国交通咨询系统C++实现源码解析
- DFT与FFT应用:信号频谱分析实验
- MATLAB图论算法实现:最小费用最大流
- MATLAB常用命令完全指南
- 共创智慧灯杆数据运营公司——抢占5G市场
- 中山农情统计分析系统项目实施与管理策略
- XX省中小学智慧校园建设实施方案
- 中山农情统计分析系统项目实施方案
- MATLAB函数详解:从Text到Size的实用指南
- 考虑速度与加速度限制的工业机器人轨迹规划与实时补偿算法
- Matlab进行统计回归分析:从单因素到双因素方差分析
- 智慧灯杆数据运营公司策划书:抢占5G市场,打造智慧城市新载体
- Photoshop基础与色彩知识:信息时代的PS认证考试全攻略
- Photoshop技能测试:核心概念与操作
- Photoshop试题与答案详解
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)