pandas读取超大CSV
时间: 2024-03-23 10:35:25 浏览: 69
pandas读取CSV文件时查看修改各列的数据类型格式
5星 · 资源好评率100%
当处理超大的CSV文件时,pandas是一个非常强大的工具。下面是使用pandas读取超大CSV文件的一种方法:
1. 使用`pandas.read_csv()`函数来读取CSV文件。可以通过设置`chunksize`参数来指定每次读取的数据块大小,以减少内存的使用。
```python
import pandas as pd
# 设置chunksize参数为适当的值,例如10000
chunksize = 10000
# 逐块读取CSV文件
for chunk in pd.read_csv('your_file.csv', chunksize=chunksize):
# 对每个数据块进行处理
# ...
```
2. 在循环中对每个数据块进行处理。可以根据需要进行数据清洗、转换、分析等操作。
```python
for chunk in pd.read_csv('your_file.csv', chunksize=chunksize):
# 数据清洗、转换、分析等操作
# ...
```
3. 可以将每个数据块的处理结果保存到一个新的DataFrame中,或者将结果写入到新的CSV文件中。
```python
result = pd.DataFrame()
for chunk in pd.read_csv('your_file.csv', chunksize=chunksize):
# 数据处理操作
# ...
# 将处理结果添加到新的DataFrame中
result = result.append(processed_data)
# 将结果保存到新的CSV文件中
result.to_csv('processed_file.csv', index=False)
```
这样,通过逐块读取和处理数据,可以有效地处理超大的CSV文件。
阅读全文