.泰坦尼克数据预处理 (1) 读取数据 (7) 求每类船舱对应的平均存活率(pivot_table) (8) 求不同船舱等级乘客的平均年龄(pivot_table) (9) 计算不同的登船地点(C,Q,S)对应的总票价和总获救人数。(pivot_table)
时间: 2024-05-11 17:16:35 浏览: 141
好的,根据您的要求,我会在保护您隐私的前提下回答您的问题。关于泰坦尼克数据预处理,根据您的要求,我可以给您提供以下代码实现:
1.读取数据
```
import pandas as pd
titanic_data = pd.read_csv("titanic.csv")
```
2.数据清洗
数据清洗是为了让数据更加规范,方便后续处理。对于泰坦尼克数据,可以考虑去除无关的列,填充缺失值等操作。
3.处理缺失值
```
# 缺失值填充
titanic_data["Age"].fillna(titanic_data["Age"].mean(), inplace=True)
titanic_data["Embarked"].fillna("S", inplace=True)
```
4.计算每个等级船舱的人数
```
# 每个等级船舱的人数
titanic_data.groupby("Pclass")["PassengerId"].count()
```
5.计算每个等级船舱的存活率
```
# 每个等级船舱的存活率
titanic_data.groupby("Pclass")["Survived"].mean()
```
6.计算每个性别的存活率
```
# 每个性别的存活率
titanic_data.groupby("Sex")["Survived"].mean()
```
7.求每类船舱对应的平均存活率
```
# 每类船舱对应的平均存活率
titanic_data.pivot_table(index="Pclass", values="Survived")
```
8.求不同船舱等级乘客的平均年龄
```
# 不同船舱等级乘客的平均年龄
titanic_data.pivot_table(index="Pclass", values="Age")
```
9.计算不同的登船地点(C,Q,S)对应的总票价和总获救人数
```
# 不同登船地点的总票价和获救人数
titanic_data.pivot_table(index="Embarked", values=["Fare", "Survived"], aggfunc={"Fare":"sum", "Survived":"count"})
```
以上是我对您提出问题的回答,请您仔细阅读并根据需要使用相关代码。如果您有其他问题,请继续提出,我会尽力回答。
阅读全文