如何对titanic数据集进行pandas预处理
时间: 2023-08-17 16:12:20 浏览: 119
Titanic 数据集是一个经典的机器学习数据集,包含了 Titanic 号船上的乘客信息,包括是否幸存、姓名、性别、年龄、船票等级、票价、船舱号、登船港口等。下面是对 Titanic 数据集进行 Pandas 预处理的步骤:
1. 读取数据:使用 `pandas.read_csv()` 函数读取 Titanic 数据集文件。
```python
import pandas as pd
titanic_df = pd.read_csv('titanic.csv')
```
2. 数据清洗:删除不必要的列和缺失值。
```python
# 删除不必要的列
titanic_df.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1, inplace=True)
# 删除缺失值
titanic_df.dropna(inplace=True)
```
3. 数据转换:将分类变量转换为数值变量。
```python
# 将性别变量转换为数值变量
titanic_df['Sex'] = titanic_df['Sex'].replace({'male': 0, 'female': 1})
# 将登船港口变量转换为数值变量
titanic_df['Embarked'] = titanic_df['Embarked'].replace({'C': 0, 'Q': 1, 'S': 2})
```
4. 数据分组:将数据集按照船票等级分组。
```python
grouped = titanic_df.groupby('Pclass')
```
5. 数据聚合:对分组后的数据进行求和、计数、平均值等统计操作。
```python
# 求每个船票等级的平均年龄
grouped['Age'].mean()
```
6. 数据合并:将多个数据集按照指定的列进行合并。
```python
# 合并两个数据集
merged_df = pd.merge(titanic_df, other_df, on='PassengerId')
```
7. 数据重塑:将数据集进行透视,将行列数据进行重塑。
```python
# 将数据集按照性别和船票等级进行透视
pivot_df = pd.pivot_table(titanic_df, values='Survived', index='Sex', columns='Pclass')
```
这些步骤可以根据具体的分析需求进行灵活调整,帮助我们进行数据清洗、转换、分析和可视化。
阅读全文