随机森林算法实现泰坦尼克生存预测完整代码
时间: 2023-09-29 15:09:38 浏览: 97
以下是使用随机森林算法实现泰坦尼克生存预测的完整代码。
```python
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
# 读取数据集
df = pd.read_csv('titanic.csv')
# 数据预处理
df = df.drop(['Name', 'Ticket', 'Cabin'], axis=1)
df = pd.get_dummies(df, columns=['Sex', 'Embarked'], drop_first=True)
df['Age'].fillna(df['Age'].median(), inplace=True)
# 分割训练集和测试集
X = df.drop('Survived', axis=1)
y = df['Survived']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 训练模型
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)
# 预测并评估模型
y_pred = model.predict(X_test)
score = model.score(X_test, y_test)
print(f'Accuracy: {score:.2f}')
```
其中,`titanic.csv` 是泰坦尼克数据集文件,包含了乘客的基本信息和是否生还的标记。我们首先读取数据集,然后进行数据预处理,包括删除一些无用的列,对文本类别进行独热编码,填充缺失值等。接着,我们将数据集分割为训练集和测试集,然后使用随机森林算法训练模型,并进行预测和评估。最后输出模型的准确率。
阅读全文