请给出泰坦尼克号生存预测的代码
时间: 2023-12-25 08:04:44 浏览: 70
好的,以下是使用Python和Scikit-learn库进行泰坦尼克号生存预测的示例代码:
```python
# 导入必要的库
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
# 读取数据
df = pd.read_csv("titanic.csv")
# 数据预处理和特征工程
df.drop(["PassengerId", "Name", "Ticket", "Cabin"], axis=1, inplace=True)
df["Age"].fillna(df["Age"].mean(), inplace=True)
df["Embarked"].fillna(df["Embarked"].mode()[0], inplace=True)
df = pd.get_dummies(df, columns=["Sex", "Embarked"])
# 划分数据集
X = df.drop("Survived", axis=1)
y = df["Survived"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 训练模型
model = DecisionTreeClassifier()
model.fit(X_train, y_train)
# 预测并评估模型
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)
```
这段代码做了如下的操作:
1. 导入必要的库
2. 读取泰坦尼克号数据集并进行预处理和特征工程
3. 划分数据集为训练集和测试集
4. 使用决策树模型训练模型
5. 对测试集进行预测,并计算模型的准确率
请注意,在运行这段代码之前需要准备泰坦尼克号数据集 "titanic.csv",并确保它在当前工作目录下。此外,这段代码只是一个示例,你可以尝试使用其他的机器学习算法和特征工程方法来提高模型的性能。
阅读全文