泰坦尼克号生存预测py
时间: 2023-07-22 19:42:17 浏览: 145
好的,您想问关于泰坦尼克号生存预测的 Python 代码吗?如果是的话,以下是一个简单的例子:
```python
# 导入需要的库
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
# 读取数据
train_data = pd.read_csv('train.csv')
test_data = pd.read_csv('test.csv')
# 处理数据
train_data = train_data.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1)
train_data = train_data.dropna()
train_data['Sex'] = train_data['Sex'].map({'female': 1, 'male': 0}).astype(int)
train_data['Embarked'] = train_data['Embarked'].map({'S': 0, 'C': 1, 'Q': 2}).astype(int)
X_train = train_data.drop('Survived', axis=1)
y_train = train_data['Survived']
# 训练模型
forest = RandomForestClassifier(n_estimators=100)
forest.fit(X_train, y_train)
# 预测测试数据
test_data = test_data.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1)
test_data['Sex'] = test_data['Sex'].map({'female': 1, 'male': 0}).astype(int)
test_data['Embarked'] = test_data['Embarked'].map({'S': 0, 'C': 1, 'Q': 2}).astype(int)
X_test = test_data
y_pred = forest.predict(X_test)
# 保存结果
output = pd.DataFrame({'PassengerId': test_data.PassengerId, 'Survived': y_pred})
output.to_csv('submission.csv', index=False)
```
这段代码使用了一个随机森林分类器来训练模型,并预测测试集的结果。在这个例子中,我们将训练数据和测试数据从 CSV 文件中读取,并使用 Pandas 库进行处理。在处理数据时,我们删除了一些不需要的列,将一些分类变量转换成数字,并且删除了一些包含缺失数据的行。最后,我们将训练数据用于训练模型,使用测试数据进行预测,并将结果保存到 CSV 文件中。
阅读全文