导入数据随机森林预测python
时间: 2023-09-22 18:11:35 浏览: 81
以下是使用Python导入数据并使用随机森林算法进行预测的示例代码。
首先,我们需要导入必要的库:
```python
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
```
然后,我们可以使用Pandas库导入数据集。在这个示例中,我们将使用Iris数据集作为示例数据集。
```python
# 导入数据集
iris = pd.read_csv("iris.csv")
```
接下来,我们需要将数据集分成训练集和测试集。在这个示例中,我们将训练集占总数据集的70%,测试集占30%。
```python
# 分割数据集
train, test = train_test_split(iris, test_size=0.3)
```
然后,我们可以为随机森林算法设置参数。
```python
# 设置随机森林参数
rf = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=0)
```
在这个示例中,我们设置了100棵树,每棵树的最大深度为5。
接下来,我们可以使用训练集训练随机森林模型。
```python
# 训练随机森林模型
rf.fit(train.iloc[:, :-1], train.iloc[:, -1])
```
最后,我们可以使用测试集对模型进行预测,并计算预测的准确率。
```python
# 预测测试集
pred = rf.predict(test.iloc[:, :-1])
# 计算准确率
accuracy = accuracy_score(test.iloc[:, -1], pred)
print("Accuracy:", accuracy)
```
完整的代码如下:
```python
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
# 导入数据集
iris = pd.read_csv("iris.csv")
# 分割数据集
train, test = train_test_split(iris, test_size=0.3)
# 设置随机森林参数
rf = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=0)
# 训练随机森林模型
rf.fit(train.iloc[:, :-1], train.iloc[:, -1])
# 预测测试集
pred = rf.predict(test.iloc[:, :-1])
# 计算准确率
accuracy = accuracy_score(test.iloc[:, -1], pred)
print("Accuracy:", accuracy)
```
阅读全文