Python sklearn中的集成方法：Bagging与随机森林

需积分: 0 110 浏览量更新于2024-08-03 1 收藏 227KB PDF 举报

"本文主要介绍了Python机器学习库scikit-learn中的集成方法，特别是Bagging技术，以及如何利用BaggingClassifier构建集成模型以提高泛化能力和鲁棒性。此外，还提到了基于随机决策树的集成算法，如RandomForest和Extra-Trees。" 集成方法在机器学习中是一种强大的技术，其基本思想是结合多个弱预测器，通过投票或平均的方式形成一个强预测器。这种方法通常能够减少过拟合，提高模型的稳定性。在scikit-learn库中，集成方法得到了广泛的支持。 Bagging（Bootstrap Aggregating）是一种常用的集成方法，它的核心是通过有放回抽样的方式创建多个训练子集，然后在每个子集上训练一个基估计器。scikit-learn提供了BaggingClassifier和BaggingRegressor作为元估计器，用户可以自定义基估计器，并通过参数设置来控制子集的抽取策略。例如，在示例代码中，我们看到使用了KNeighborsClassifier作为基估计器，并将`max_samples`和`max_features`设置为0.5，这意味着每次构建基估计器时，都会使用50%的样本和50%的特征。`bootstrap`和`bootstrap_features`用于控制是否进行有放回抽样。通过设置`oob_score=True`，可以利用未被抽入任何子集的样例（袋外样例）来评估模型的泛化性能，这是Bagging的一个重要优势。在Bagging过程中，部分样例不会被用于训练某些基估计器，这些样例在评估时提供了额外的信息。除了Bagging，scikit-learn还提供了基于随机决策树的集成算法，如RandomForest和Extra-Trees。RandomForest是一种随机森林算法，它在构建决策树时引入了额外的随机性，比如在分割节点时只考虑一部分随机选取的特征。Extra-Trees进一步增强了随机性，减少了决策树的复杂度。这两个算法同样通过组合多个弱决策树来提高整体预测性能，其预测结果是各个决策树预测结果的平均或多数投票。在实践中，这些集成方法可以应用于各种分类和回归问题，通过调整参数和选择合适的基估计器，可以优化模型性能。在使用时，应关注过拟合与欠拟合的平衡，以及计算资源的消耗，因为增加基估计器的数量会增加计算成本。集成方法是提升机器学习模型性能的有效途径，而scikit-learn提供了实现这些方法的强大工具。

python机器学习库机器学习库sklearn——集成方法集成方法

集成方法的目标是把多个使用给定学习算法构建的基估计器的预测结果结合起来，从而获得比单个估计器更好的泛化能力/鲁

棒性。

Bagging 元估计器

# 产生样本数据集

from sklearn.model_selection import cross_val_score

from sklearn import datasets

iris = datasets.load_iris()

X, y = iris.data[:, 1:3], iris.target# ==================Bagging 元估

计器=============

from sklearn.ensemble import BaggingClassifier

from sklearn.neighbors import KNeighborsClassifier

bagging = BaggingClassifier(KNeighborsClassifier(),max_samples

=0.5, max_features=0.5)

scores = cross_val_score(bagging, X, y)

print('Bagging准确率：',scores.mean())

在 scikit-learn 中，bagging 方法使用统一的 BaggingClassifier 元估计器（或者 BaggingRegressor ），输入的参数和随机子

集抽取策略由用户指定。

max_samples 和 max_features 控制着子集的大小（对于样例和特征），

bootstrap 和 bootstrap_features 控制着样例和特征的抽取是有放回还是无放回的。

当使用样本子集时，通过设置 oob_score=True ，可以使用袋外(out-of-bag)样本来评估泛化精度。下面的代码片段说明了如

何构造一个 KNeighborsClassifier 估计器的 bagging 集成实例，每一个基估计器都建立在 50% 的样本随机子集和 50% 的特征

随机子集上。

由随机树组成的森林

sklearn.ensemble 模块包含两个基于随机决策树的平均算法： RandomForest 算法和 Extra-Trees 算法。

集成分类器的预测结果就是单个分类器预测结果的平均值。

# ==================决策树、随机森林、极限森林对比

===============

# 产生样本数据集

from sklearn.model_selection import cross_val_score

from sklearn import datasets

iris = datasets.load_iris()

X, y = iris.data[:, 1:3], iris.target

# 决策树

from sklearn.tree import DecisionTreeClassifier

clf = DecisionTreeClassifier(max_depth=None,

min_samples_split=2,random_state=0)

scores = cross_val_score(clf, X, y)

print('决策树准确率：',scores.mean())

# 随机森林

from sklearn.ensemble import RandomForestClassifier

clf = RandomForestClassifier(n_estimators=10,max_features=2)

clf = clf.fit(X, y)

scores = cross_val_score(clf, X, y)

print('随机森林准确率：',scores.mean())

# 极限随机树

from sklearn.ensemble import ExtraTreesClassifier

clf = ExtraTreesClassifier(n_estimators=10,

max_depth=None,min_samples_split=2, random_state=0)

scores = cross_val_score(clf, X, y)

print('极限随机树准确率：',scores.mean())

print('模型中各属性的重要程度：',clf.feature_importances_)

（n_estimators）是森林里树的数量，通常数量越大，效果越好，但是计算时间也会随之增加。此外要注意，当树的数量超过

下载后可阅读完整内容，剩余7页未读，立即下载

twinkle222

粉丝: 971
资源: 115

Python sklearn中的集成方法：Bagging与随机森林

Python机器学习库sklearn-som 1.0.1版本发布

自动优化机器学习模型的Python库：auto-sklearn-0.14.1

Python库sklearn-sfa-0.1.1: 机器学习与数据分析新工具

Python机器学习库sklearn 文档

Python库 | sklearn-som-1.0.1.tar.gz

文档Python机器学习库sklearn几种回归算法建模及分析

深入学习Python机器学习库sklearn

PyPI官网发布最新机器学习库mlserver-sklearn-0.5.0

Python机器学习：sklearn中的集成学习方法探索

使用元数据提升机器学习：sklearn-xarray框架解析

最新资源