python数据分析与挖掘实战数据清洗代码
时间: 2023-09-12 14:02:52 浏览: 44
以下是一个简单的Python数据清洗代码示例:
```python
import pandas as pd
# 读取数据
df = pd.read_csv('data.csv')
# 查看数据的前5行
print(df.head())
# 删除空值
df.dropna(inplace=True)
# 删除重复的数据
df.drop_duplicates(inplace=True)
# 将字符串转换为数字
df['age'] = pd.to_numeric(df['age'], errors='coerce')
# 将性别列中的'M'和'F'转换为0和1
df['gender'] = df['gender'].apply(lambda x: 0 if x == 'M' else 1)
# 将日期列转换为日期格式
df['date'] = pd.to_datetime(df['date'], format='%Y-%m-%d')
# 将数据保存到新的CSV文件中
df.to_csv('clean_data.csv', index=False)
```
这个示例代码使用了Pandas库来读取和处理数据。首先,我们读取了一个名为"data.csv"的CSV文件。然后,我们使用dropna()方法删除所有包含空值的行。接下来,我们使用drop_duplicates()方法删除所有重复的数据。然后,我们使用pd.to_numeric()方法将"age"列中的所有字符串转换为数字,并使用lambda函数将"gender"列中的"M"和"F"转换为0和1。最后,我们使用pd.to_datetime()方法将"date"列中的日期转换为日期格式,并使用to_csv()方法将清洗后的数据保存到一个新文件中。
当然,这只是一个简单的示例代码,实际情况中需要根据具体数据的特点进行更加复杂的数据清洗操作。