使用titanic.csv数据集进行以下计算 1.统计不同船舱等级(pclass列)乘客数量 2.统计不同船舱等级乘客存活率,使用透视表实现
时间: 2024-10-20 10:13:47 浏览: 29
titanic.csv泰坦尼克号人员数据集
首先,我们需要加载名为`titanic.csv`的数据集,假设它是CSV文件并且已经包含在你的工作目录中。我们将使用pandas库来处理这个任务。以下是步骤:
1. 导入所需的库并加载数据:
```python
import pandas as pd
# 加载数据集
titanic_df = pd.read_csv('titanic.csv')
```
2. 统计不同船舱等级(Pclass列)乘客的数量:
```python
passenger_counts_by_class = titanic_df['Pclass'].value_counts()
print("不同船舱等级乘客数量:")
print(passenger_counts_by_class)
```
3. 使用数据透视表统计不同船舱等级的存活率:
```python
# 创建一个新的DataFrame,其中包含'幸存'状态(Survived)和'船舱等级'(Pclass)
survival_counts = titanic_df[['Pclass', 'Survived']].pivot_table(index='Pclass', values='Survived', aggfunc='sum')
# 计算存活率(总人数除以幸存者人数)
survival_rates = survival_counts / survival_counts.sum(axis=1).astype(float).reshape(-1, 1)
print("\n不同船舱等级的存活率(%):")
print(survival_rates)
```
这里我们先通过`pivot_table`函数按Pclass分类并计算幸存者的总数,然后再除以对应的总人数得到存活率。
阅读全文