python代码实现泰坦尼克号数据清理
时间: 2023-10-26 10:20:43 浏览: 252
以下是一个Python代码示例,用于清理泰坦尼克号数据集。该示例使用了Pandas库来加载和清理数据。
```python
import pandas as pd
# 加载数据集
df = pd.read_csv('titanic.csv')
# 删除无用的列
df = df.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1)
# 处理缺失值
df['Age'].fillna(df['Age'].median(), inplace=True)
df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)
# 转换文本数据为数值数据
df['Sex'] = df['Sex'].map({'male': 0, 'female': 1})
embarked_map = {'S': 0, 'C': 1, 'Q': 2}
df['Embarked'] = df['Embarked'].map(embarked_map)
# 将数据集保存到文件中
df.to_csv('cleaned_titanic.csv', index=False)
```
该代码首先加载了泰坦尼克号的数据集,并删除了一些无用的列。然后,缺失值被处理,例如,年龄用中位数填充,Embarked用众数填充。最后,文本数据(例如性别和Embarked)被转换为数值,并将清理后的数据保存到文件中。
阅读全文