python泰坦尼克号生存者
时间: 2023-10-29 12:58:00 浏览: 125
在Python中,你可以使用数据分析和机器学习库来预测泰坦尼克号乘客的生存率。你可以使用以下步骤来完成这个任务:
1. 导入所需的库:`pandas`用于数据处理,`numpy`用于数值计算,`scikit-learn`用于建模和预测。
```python
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
```
2. 加载数据集:你可以从CSV文件中加载泰坦尼克号数据集。
```python
data = pd.read_csv("titanic.csv")
```
3. 数据预处理:清洗数据并进行特征选择和处理。
```python
# 清洗数据
data = data.dropna()
# 特征选择
features = ['Pclass', 'Sex', 'Age', 'Fare']
target = 'Survived'
X = data[features]
y = data[target]
# 特征处理
X['Sex'] = X['Sex'].map({'female': 0, 'male': 1})
```
4. 划分训练集和测试集:将数据集划分为训练集和测试集。
```python
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
5. 建立模型和预测:使用决策树分类器建立模型并进行预测。
```python
model = DecisionTreeClassifier()
model.fit(X_train, y_train)
predictions = model.predict(X_test)
```
6. 评估模型性能:计算预测的准确率。
```python
accuracy = accuracy_score(y_test, predictions)
print("准确率:", accuracy)
```
以上是一个简单的使用决策树分类器预测泰坦尼克号生存者的示例。当然,你可以尝试其他的机器学习算法和特征工程方法来改进模型的性能。
阅读全文