泰坦尼克号生存预测分析 用两种适合的算法进行分析 python 实现 数据分析可视化 代码详解
时间: 2025-01-04 08:40:58 浏览: 11
泰坦尼克号生存预测是一个经典的机器学习项目,它利用Python的数据科学库,如Pandas、NumPy和Scikit-learn等,来对乘客的生还情况进行预测。我们可以采用两种常见的分类算法,比如逻辑回归和决策树,来进行预测。
1. **数据加载和预处理**:
首先,我们需要从Kaggle或其他来源获取Titanic数据集,使用Pandas读取CSV文件并清洗数据,包括缺失值处理、异常值检测以及类别变量的编码(例如性别、船舱等级等)。
```python
import pandas as pd
data = pd.read_csv('titanic.csv')
data.dropna(inplace=True) # 删除缺失值
data['Sex'] = data['Sex'].map({'male': 0, 'female': 1}) # 将性别编码为数字
```
2. **特征选择与建模**:
- 使用逻辑回归模型:
```python
from sklearn.linear_model import LogisticRegression
X_train, y_train = ... # 划分训练集和目标变量
model_logreg = LogisticRegression()
model_logreg.fit(X_train, y_train)
```
- 使用决策树模型:
```python
from sklearn.tree import DecisionTreeClassifier
tree_model = DecisionTreeClassifier()
tree_model.fit(X_train, y_train)
```
3. **模型评估**:
可以使用交叉验证来评估模型性能,如准确率、精确率、召回率和F1分数。
4. **数据分析可视化**:
Matplotlib或Seaborn用于创建图表展示特征与生存的关系,比如年龄分布、票价与生还率等:
```python
import seaborn as sns
sns.scatterplot(x='Age', y='Survived', hue='Sex', data=data)
plt.show()
```
阅读全文