泰坦尼克号决策树预测代码
时间: 2024-10-18 14:03:19 浏览: 23
决策树:泰坦尼克号生存预测.ipynb
泰坦尼克号数据集是一个经典的数据科学案例,常常用于机器学习入门教程,尤其是决策树算法的应用。预测代码通常涉及以下几个步骤:
1. **数据加载**:首先,你需要导入必要的库,如pandas和sklearn,然后读取包含乘客信息的CSV文件,如"train.csv"和"test.csv"。
```python
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
```
2. **数据预处理**:清洗数据,处理缺失值,转换类别特征,例如将"Sex"字段转化为数字编码。
```python
data = pd.read_csv('train.csv')
data['Sex'] = data['Sex'].map({'male': 0, 'female': 1})
```
3. **特征选择与分割**:选择对生存有影响的特征(如年龄、票价、舱位等),并将其分为训练集和测试集。
```python
X = data.drop(['Survived', 'Name', 'Ticket', 'Cabin'], axis=1)
y = data['Survived']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
4. **模型训练**:创建DecisionTreeClassifier实例,并用训练数据拟合模型。
```python
model = DecisionTreeClassifier()
model.fit(X_train, y_train)
```
5. **预测**:用测试数据进行预测,并查看预测结果。
```python
predictions = model.predict(X_test)
```
6. **评估性能**:计算模型在测试集上的准确率或其他指标。
```python
accuracy = accuracy_score(y_test, predictions)
print("Accuracy:", accuracy)
```
阅读全文