根据年龄段,性别与客舱等级将数据可视化
时间: 2024-03-15 19:44:31 浏览: 170
好的,针对泰坦尼克号数据中的年龄段、性别与客舱等级,可以进行多维度的可视化分析,以探索不同人群的生存率、票价等情况。以下是一个简单的 Python 可视化代码示例,用于绘制不同年龄段、性别与客舱等级的生存率堆叠柱状图:
```python
import pandas as pd
import matplotlib.pyplot as plt
# 读取数据
df = pd.read_csv('train.csv')
# 数据清洗
df = df.dropna(subset=['Age']) # 删除年龄为空的行
df['AgeGroup'] = pd.cut(df['Age'], bins=[0, 18, 30, 50, 100], labels=['<18', '18-30', '30-50', '50+']) # 分组年龄段
# 计算生存率
survived = df.groupby(['Sex', 'Pclass', 'AgeGroup'])['Survived'].mean().unstack()
# 绘制堆叠柱状图
survived.plot(kind='bar', stacked=True)
plt.title('Survival Rate by Age Group, Sex and Class')
plt.xlabel('Age Group, Sex and Class')
plt.ylabel('Survival Rate')
plt.show()
```
这段代码将读取名为 `train.csv` 的泰坦尼克号数据集,并进行数据清洗和分组。然后,通过 `groupby` 函数,计算不同年龄段、性别与客舱等级的生存率,并将结果绘制为堆叠柱状图。通过调整 `bins` 参数和 `labels` 参数,可以控制年龄段的分组情况。通过修改和调整代码,可以进行更多维度的可视化分析。
阅读全文