采用决策树和朴素贝叶斯算法分别实现泰坦尼克号乘客生存预测
时间: 2023-06-13 22:05:35 浏览: 120
好的,下面是决策树和朴素贝叶斯算法的实现代码。
首先,我们需要导入相关的库和数据集:
```python
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
# 读取数据集
data = pd.read_csv('titanic.csv')
```
接着,我们需要对数据集进行预处理,包括去除无关特征、处理缺失值和将文本数据转换为数值型数据等:
```python
# 去除无关特征
data = data.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1)
# 处理缺失值
data['Age'] = data['Age'].fillna(data['Age'].mean())
data['Embarked'] = data['Embarked'].fillna('S')
# 将文本数据转换为数值型数据
data['Sex'] = data['Sex'].map({'male': 0, 'female': 1}).astype(int)
data['Embarked'] = data['Embarked'].map({'S': 0, 'C': 1, 'Q': 2}).astype(int)
# 将数据集分为特征集和标签集
X = data.drop(['Survived'], axis=1)
y = data['Survived']
```
接下来,我们将数据集分为训练集和测试集,并使用决策树和朴素贝叶斯算法进行模型训练和预测:
```python
# 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 构建决策树模型
dtc = DecisionTreeClassifier(max_depth=3)
dtc.fit(X_train, y_train)
dtc_y_pred = dtc.predict(X_test)
# 构建朴素贝叶斯模型
gnb = GaussianNB()
gnb.fit(X_train, y_train)
gnb_y_pred = gnb.predict(X_test)
# 输出模型的准确率
print("Decision Tree accuracy:", accuracy_score(y_test, dtc_y_pred))
print("Naive Bayes accuracy:", accuracy_score(y_test, gnb_y_pred))
```
运行完毕后,会输出决策树和朴素贝叶斯模型的准确率。这里使用了决策树的最大深度为3,你可以根据实际情况进行调整。