python读取csv文件做数据清洗
时间: 2023-09-15 09:20:07 浏览: 125
moxing_python数据清洗_读取csv文件_数据清洗_
5星 · 资源好评率100%
数据清洗是数据分析的重要步骤之一,可以通过Python中的pandas库来读取CSV文件并进行数据清洗。
以下是一个示例代码,假设我们有一个名为"data.csv"的CSV文件,其中包含一些不规范的数据:
```python
import pandas as pd
# 读取csv文件
df = pd.read_csv('data.csv')
# 删除空值行
df.dropna(inplace=True)
# 删除重复行
df.drop_duplicates(inplace=True)
# 替换错误的数据
df['age'].replace('N/A', '25', inplace=True)
# 将数据类型转换为正确的类型
df['age'] = df['age'].astype(int)
# 保存清洗后的数据到新的CSV文件
df.to_csv('cleaned_data.csv', index=False)
```
首先,我们使用pandas的read_csv函数读取CSV文件,并将其存储在一个DataFrame对象中。然后,我们使用dropna函数删除包含空值的行,使用drop_duplicates函数删除重复行。接下来,我们使用replace函数将错误的数据替换为正确的数据,并使用astype函数将数据类型转换为正确的类型。最后,我们使用to_csv函数将清洗后的数据保存到新的CSV文件中。
通过这个简单的示例,您可以看到如何使用Python和pandas库来读取CSV文件并进行数据清洗。
阅读全文