使用Python语言编程,使用 iris 数据集训练一个RandomForestClassifier 随机森林分类器。RandomForestClassifier 在 scikit-learn 库的 ensemble 包之中
时间: 2024-12-16 11:22:49 浏览: 4
Python库 | scikit_learn-0.21.1-cp36-cp36m-win_amd64.whl
在Python中,我们可以使用scikit-learn库来训练一个随机森林分类器(RandomForestClassifier)。Iris数据集是一个经典的机器学习入门示例,包含了150个样本,每个样本有4种特征(花瓣长度、花瓣宽度、萼片长度和萼片宽度),属于三个不同的物种。
以下是使用iris数据集和RandomForestClassifier的一个简单步骤:
1. 导入所需的库和数据集:
```python
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
```
2. 加载并预处理数据:
```python
iris = datasets.load_iris()
X = iris.data
y = iris.target
```
3. 划分训练集和测试集:
```python
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
4. 创建并训练随机森林分类器:
```python
rfc = RandomForestClassifier(n_estimators=100, random_state=42) # n_estimators控制决策树的数量
rfc.fit(X_train, y_train)
```
5. 进行预测并评估模型性能:
```python
y_pred = rfc.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)
```
在这个例子中,我们设置了100棵决策树,并通过fit()函数让模型学习数据。然后用test数据集进行预测,计算准确率。
阅读全文