利用随机森林算法,完成鸢尾花数据集的建模
时间: 2024-10-18 10:03:40 浏览: 117
随机森林是一种集成学习方法,常用于分类和回归任务。以下是利用Python的scikit-learn库,在Iris(鸢尾花)数据集上构建随机森林模型的基本步骤:
1. **数据准备**:首先,你需要导入所需的库并加载数据集。
```python
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
iris = load_iris()
X = iris.data
y = iris.target
```
2. **数据划分**:将数据分为训练集和测试集。
```python
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
3. **模型创建与训练**:创建RandomForestClassifier对象,并指定参数(如树的数量,节点分裂的最小样本数等)。
```python
rf_model = RandomForestClassifier(n_estimators=100, max_depth=None, random_state=42)
rf_model.fit(X_train, y_train)
```
4. **预测**:使用训练好的模型对测试集进行预测。
```python
y_pred = rf_model.predict(X_test)
```
5. **评估模型**:检查模型的性能,例如准确率。
```python
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")
```
阅读全文