泰坦尼克数据预处理 (1) 读取数据 (2) 统计age列缺失值的个数 (3) 去掉Age和Sex这两列带有缺失值的行 (4) 根据“Age”的大小逆序排列 (5) 求船员年龄的平均数(排除缺失值) (6) 计算每类船舱对应的平均票价(pivot_table) (7) 求每类船舱对应的平均存活率(pivot_table) (8) 求不同船舱等级乘客的平均年龄(pivot_table) (9) 计算不同的登船地点(C,Q,S)对应的总票价和总获救人数。(pivot_table)
时间: 2024-03-12 15:45:08 浏览: 59
泰坦尼克号数据集处理
1. 读取数据:
```python
import pandas as pd
# 读取数据
titanic_data = pd.read_csv('titanic.csv')
```
2. 统计age列缺失值的个数:
```python
# 统计age列缺失值的个数
missing_age_count = titanic_data['Age'].isnull().sum()
print('Age列缺失值的个数为:', missing_age_count)
```
3. 去掉Age和Sex这两列带有缺失值的行:
```python
# 去掉Age和Sex这两列带有缺失值的行
titanic_data.dropna(subset=['Age', 'Sex'], inplace=True)
```
4. 根据“Age”的大小逆序排列:
```python
# 根据“Age”的大小逆序排列
titanic_data.sort_values(by='Age', ascending=False, inplace=True)
```
5. 求船员年龄的平均数(排除缺失值):
```python
# 求船员年龄的平均数(排除缺失值)
mean_age = titanic_data['Age'].mean()
print('船员的平均年龄为:', mean_age)
```
6. 计算每类船舱对应的平均票价(pivot_table):
```python
# 计算每类船舱对应的平均票价(pivot_table)
ticket_class_fare = titanic_data.pivot_table(values='Fare', index='Pclass', aggfunc='mean')
print('每类船舱对应的平均票价为:\n', ticket_class_fare)
```
7. 求每类船舱对应的平均存活率(pivot_table):
```python
# 求每类船舱对应的平均存活率(pivot_table)
survival_rate_by_class = titanic_data.pivot_table(values='Survived', index='Pclass', aggfunc='mean')
print('每类船舱对应的平均存活率为:\n', survival_rate_by_class)
```
8. 求不同船舱等级乘客的平均年龄(pivot_table):
```python
# 求不同船舱等级乘客的平均年龄(pivot_table)
mean_age_by_class = titanic_data.pivot_table(values='Age', index='Pclass', aggfunc='mean')
print('不同船舱等级乘客的平均年龄为:\n', mean_age_by_class)
```
9. 计算不同的登船地点(C,Q,S)对应的总票价和总获救人数。(pivot_table):
```python
# 计算不同的登船地点(C,Q,S)对应的总票价和总获救人数。(pivot_table)
total_fare_and_survived_count_by_embarked = titanic_data.pivot_table(values=['Fare', 'Survived'], index='Embarked', aggfunc='sum')
print('不同的登船地点(C,Q,S)对应的总票价和总获救人数为:\n', total_fare_and_survived_count_by_embarked)
```
阅读全文