山东大学机器学习实验十随机森林
时间: 2023-06-29 07:02:50 浏览: 87
随机森林(Random Forest)是一种集成学习(Ensemble Learning)算法,它通过对多个决策树(Decision Tree)进行集成来提高模型的准确率和泛化能力。
在实验十中,你可以使用Python中的Scikit-learn库来实现随机森林模型。具体步骤如下:
1. 导入所需的库和数据集
```python
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
data = pd.read_csv('data.csv')
X = data.drop('target', axis=1)
y = data['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
2. 创建随机森林模型并进行训练
```python
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)
```
3. 对测试集进行预测并评估模型表现
```python
y_pred = rf.predict(X_test)
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, y_pred)
print('Accuracy:', accuracy)
```
其中,`n_estimators`表示决策树的数量,`random_state`用于控制随机过程的种子,以便复现结果。
需要注意的是,随机森林模型的效果很大程度上取决于决策树的数量、深度和其它参数的设置,因此需要通过调参来优化模型表现。