如何使用scikit-learn库实现随机森林算法进行分类任务,并评估模型的预测准确率?
时间: 2024-11-13 20:36:17 浏览: 44
随机森林算法是一种集成学习方法,它通过构建多个决策树并对它们的预测结果进行汇总来提高分类任务的准确率和稳定性。在Python的scikit-learn库中,实现随机森林的过程涉及几个关键步骤:数据准备、模型创建、模型训练和模型评估。以下是具体的实现方法:
参考资源链接:[Python实现随机森林算法详解](https://wenku.csdn.net/doc/6j02vvdgqz?spm=1055.2569.3001.10343)
首先,我们需要导入scikit-learn库中的相关模块,包括数据集加载、模型构建、数据划分和评估模块:
```python
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
```
接着,加载数据集并将其划分为训练集和测试集。鸢尾花数据集是机器学习中常用的分类数据集,非常适合用于演示随机森林算法:
```python
iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
```
然后,创建随机森林分类器实例,指定决策树的数量`n_estimators`和随机状态`random_state`以保证结果的可重复性:
```python
clf = RandomForestClassifier(n_estimators=100, random_state=42)
```
使用训练集对模型进行训练:
```python
clf.fit(X_train, y_train)
```
在测试集上进行预测,并计算预测的准确率:
```python
predictions = clf.predict(X_test)
print(
参考资源链接:[Python实现随机森林算法详解](https://wenku.csdn.net/doc/6j02vvdgqz?spm=1055.2569.3001.10343)
阅读全文