Python机器学习：sklearn中的集成学习方法探索

171 浏览量更新于2024-08-31 1 收藏 210KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"本文主要介绍了Python机器学习库scikit-learn中的集成学习方法，特别是Bagging和基于随机决策树的森林算法，如RandomForest和Extra-Trees。集成方法旨在通过组合多个基估计器来提高模型的泛化能力和鲁棒性。" 在机器学习中，集成方法是一种强大的技术，它通过结合多个弱学习器来创建一个更强大、更稳健的强学习器。在scikit-learn中，Bagging（Bootstrap Aggregating）是一种常用的集成方法，它通过构建多个基估计器，每个估计器都是在随机抽样的训练数据子集上训练得到的。`BaggingClassifier`和`BaggingRegressor`是scikit-learn中实现这一理念的类。用户可以通过设置`max_samples`和`max_features`参数控制样例和特征的抽取比例，`bootstrap`和`bootstrap_features`分别控制样例和特征抽取是否采用有放回的方式。 Bagging的一个关键特性是它允许使用袋外（out-of-bag）样本来估计模型的泛化性能，这在设置`oob_score=True`时可以实现。例如，一个基于KNeighborsClassifier的Bagging集成可以这样构建，每个基估计器仅基于数据集的50%样本和50%特征进行训练。随机森林（RandomForest）和额外树（Extra-Trees）是scikit-learn中的两种基于随机决策树的集成方法。它们通过在每个节点分裂时随机选择一部分特征来进行决策，减少了过拟合的风险。`n_estimators`参数控制森林中树的数量，通常增加树的数量可以提高模型性能，但会增加计算成本。`max_features`决定了每次分裂时考虑的特征数量，较小的值可以降低方差，但可能增加偏差。对于分类问题，`max_features`常设为特征数的平方根，而在回归问题中则设为所有特征。随机森林默认使用自助采样法，而额外树则不采用，而是使用完整数据集。默认设置如`max_depth=None`和`min_samples_split=2`通常生成完全生长的树，但最优参数通常需要通过交叉验证来确定。需要注意的是，虽然随机森林和额外树在许多情况下表现良好，但过度依赖默认参数可能不会达到最佳性能，因此调整参数和进行超参数优化是提高模型性能的关键步骤。

资源详情

资源推荐

python机器学习库机器学习库sklearn——集成方法集成方法

集成方法的目标是把多个使用给定学习算法构建的基估计器的预测结果结合起来，从而获得比单个估计器更好的泛化能力/鲁

棒性。

Bagging 元估计器

在 scikit-learn 中，bagging 方法使用统一的 BaggingClassifier 元估计器（或者 BaggingRegressor ），输入的参数和随机子

集抽取策略由用户指定。

max_samples 和 max_features 控制着子集的大小（对于样例和特征），

bootstrap 和 bootstrap_features 控制着样例和特征的抽取是有放回还是无放回的。

当使用样本子集时，通过设置 oob_score=True ，可以使用袋外(out-of-bag)样本来评估泛化精度。下面的代码片段说明了如

何构造一个 KNeighborsClassifier 估计器的 bagging 集成实例，每一个基估计器都建立在 50% 的样本随机子集和 50% 的特征

随机子集上。

由随机树组成的森林

sklearn.ensemble 模块包含两个基于随机决策树的平均算法： RandomForest 算法和 Extra-Trees 算法。

集成分类器的预测结果就是单个分类器预测结果的平均值。

（n_estimators）是森林里树的数量，通常数量越大，效果越好，但是计算时间也会随之增加。此外要注意，当树的数量超过

一个临界值之后，算法的效果并不会很显著地变好。

（max_features）是分割节点时考虑的特征的随机子集的大小。这个值越低，方差减小得越多，但是偏差的增大也越多。根

据经验，回归问题中使用 max_features = n_features ，分类问题使用 max_features = sqrt（n_features （其中 n_features 是

特征的个数）是比较好的默认值。

max_depth = None 和 min_samples_split = 2 结合通常会有不错的效果（即生成完全的树）。请记住，这些（默认）值通常

不是最佳的，同时还可能消耗大量的内存，最佳参数值应由交叉验证获得。

另外，请注意，在随机森林中，默认使用自助采样法（bootstrap = True），然而 extra-trees 的默认策略是使用整个数据集

（bootstrap = False）。

当使用自助采样法方法抽样时，泛化精度是可以通过剩余的或者袋外的样本来估算的，设置 oob_score = True 即可实现。

最后，这个模块还支持树的并行构建和预测结果的并行计算，这可以通过 n_jobs 参数实现。

模型的feature_importances_属性保存了各特征的重要程度。一个元素的值越高，其对应的特征对预测函数的贡献越大。

随机森林调参策略：

1、对Random Forest来说，增加“子模型数”（n_estimators）可以明显降低整体模型的方差，且不会对子模型的偏差和方差有

任何影响。模型的准确度会随着“子模型数”的增加而提高。由于减少的是整体模型方差公式的第二项，故准确度的提高有一个

上限。

2、在不同的场景下，“分裂条件”（criterion）对模型的准确度的影响也不一样，该参数需要在实际运用时灵活调整。

3、调整“最大叶节点数”（max_leaf_nodes）以及“最大树深度”（max_depth）之一，可以粗粒度地调整树的结构：叶节点越

多或者树越深，意味着子模型的偏差越低，方差越高；

4、同时，调整“分裂所需最小样本数”（min_samples_split）、“叶节点最小样本数”（min_samples_leaf）及“叶节点最小权重

总值”（min_weight_fraction_leaf），可以更细粒度地调整树的结构：分裂所需样本数越少或者叶节点所需样本越少，也意味

着子模型越复杂。一般来说，我们总采用bootstrap对样本进行子采样来降低子模型之间的关联度，从而降低整体模型的方

差。

5、适当地减少“分裂时考虑的最大特征数”（max_features），给子模型注入了另外的随机性，同样也达到了降低子模型之间

关联度的效果。但是一味地降低该参数也是不行的，因为分裂时可选特征变少，模型的偏差会越来越大。在下图中，我们可以

看到这些参数对Random Forest整体模型性能的影响：

AdaBoost

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38548717

粉丝: 5
资源: 958

Python机器学习：sklearn中的集成学习方法探索

python机器学习库sklearn

python机器学习实战教学——基于协同过滤的电影推荐系统(超详细教学,算法分析)

python之机器学习sklearn库

机器学习库sklearn

机器学习库 sklearn预测波士顿房价的分析

python 半监督学习sklearn

介绍数据挖掘的Python库sklearn

python中的深度学习库sklearn、tensorflow、pytorch有什么关联和区别

python如何使用sklearn库

python中的sklearn库介绍

机器学习水果识别——python+opencv实现物体特征提取

python中sklearn是什么库

机器学习python算法知识点大全,包含sklearn中的机器学习模型

python中sklearn库pip安装

sklearn中文指导手册

sklearn和sklearn3的区别

Sklearn 损失函数如何应用到_Python机器学习笔记：SVM（4）——sklearn实现

python逻辑回归代码sklearn

sklearn通用机器学习

python导入sklearn库

最新资源