泰坦尼克号乘客生存预测python代码
时间: 2023-07-05 07:02:36 浏览: 234
基于Python实现泰坦尼克船员生存预测【100013050】
泰坦尼克号乘客生存预测是一个经典的机器学习问题,可以用Python编写代码来进行预测。以下是一个简单的代码示例:
```python
# 导入需要的库
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
# 读取数据
data = pd.read_csv('titanic.csv')
# 数据预处理
data['Age'] = data['Age'].fillna(data['Age'].median())
data['Embarked'] = data['Embarked'].fillna('S')
data['Sex'] = data['Sex'].map({'female': 0, 'male': 1}).astype(int)
data['Embarked'] = data['Embarked'].map({'S': 0, 'C': 1, 'Q': 2}).astype(int)
# 划分特征和标签
X = data[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']]
y = data['Survived']
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 构建决策树模型
model = DecisionTreeClassifier()
model.fit(X_train, y_train)
# 在测试集上进行预测
y_pred = model.predict(X_test)
# 计算准确率
accuracy = (y_pred == y_test).sum() / y_test.shape[0]
print("预测准确率:{:.2f}%".format(accuracy * 100))
```
这段代码使用`pandas`库读取泰坦尼克号乘客的数据,对缺失值进行处理,然后使用`sklearn`库中的决策树分类器进行建模。训练集和测试集通过`train_test_split`函数进行划分,最后计算预测准确率。
阅读全文