基于kettle泰坦尼克号幸存者数据
时间: 2023-12-25 07:04:41 浏览: 149
Kettle简单应用:实现数据迁移
基于Kettle的泰坦尼克号幸存者数据,可以进行数据清洗、转换和分析。以下是一个基本的演示示例:
1. 数据清洗和转换:
```shell
# 导入所需的库
import pandas as pd
# 读取数据
data = pd.read_csv('titanic.csv')
# 查看数据前几行
print(data.head())
# 处理缺失值
data['Age'].fillna(data['Age'].mean(), inplace=True)
data['Embarked'].fillna(data['Embarked'].mode()[0], inplace=True)
# 转换数据类型
data['Age'] = data['Age'].astype(int)
# 保存清洗后的数据
data.to_csv('cleaned_titanic.csv', index=False)
```
2. 数据分析:
```shell
# 导入所需的库
import pandas as pd
# 读取清洗后的数据
data = pd.read_csv('cleaned_titanic.csv')
# 分析幸存者的比例
survived_count = data['Survived'].value_counts()
survived_percentage = survived_count[1] / data.shape[0] * 100
# 分析不同性别的幸存者比例
gender_survived_count = data.groupby('Sex')['Survived'].value_counts().unstack()
gender_survived_percentage = gender_survived_count[1] / (gender_survived_count[0] + gender_survived_count[1]) * 100
# 输出结果
print("幸存者比例:{:.2f}%".format(survived_percentage))
print("男性幸存者比例:{:.2f}%".format(gender_survived_percentage['male']))
print("女性幸存者比例:{:.2f}%".format(gender_survived_percentage['female']))
```
阅读全文