使用决策树完成泰坦尼克号幸存者预测
时间: 2023-07-11 16:04:26 浏览: 146
决策树来实现泰坦尼克生存情况
好的,下面是使用决策树完成泰坦尼克号幸存者预测的步骤:
1. 导入所需库
```python
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix
```
2. 载入数据集
```python
df = pd.read_csv("titanic.csv")
```
3. 数据预处理
我们需要将一些非数值型的数据转换成数值型的,比如性别和登船口岸。
```python
df["Sex"] = df["Sex"].map({"male": 0, "female": 1})
df["Embarked"] = df["Embarked"].map({"S": 0, "C": 1, "Q": 2})
df = df.drop(["PassengerId", "Name", "Ticket", "Cabin"], axis=1) # 删除不必要的列
df = df.dropna() # 删除含有缺失值的行
```
4. 划分数据集
将数据集分为训练集和测试集,以便我们可以评估模型的性能。
```python
X = df.drop("Survived", axis=1)
y = df["Survived"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
```
5. 训练模型
创建一个决策树分类器,并使用训练集进行训练。
```python
clf = DecisionTreeClassifier(random_state=42)
clf.fit(X_train, y_train)
```
6. 预测并评估模型
使用测试集进行预测,并计算模型的准确率和混淆矩阵。
```python
y_pred = clf.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Confusion matrix:\n", confusion_matrix(y_test, y_pred))
```
以上就是使用决策树完成泰坦尼克号幸存者预测的全部步骤。
阅读全文