pandas读取csv文件拆分成小文件
时间: 2024-09-16 22:03:24 浏览: 89
Pandas是一个强大的数据处理库,用于Python,它提供了一种方便的方式来读取CSV文件。如果你想将一个大的CSV文件拆分成较小的文件,可以使用`pandas`的分块读取功能(chunking)。这样做的步骤大致如下:
1. **导入pandas**:
```python
import pandas as pd
```
2. **设置分块大小**(可以根据实际需要调整,如每500行或MB拆一份):
```python
chunk_size = 500 # 每500行作为一个分块
```
3. **使用`read_csv`函数的`chunksize`参数**,逐块读取CSV文件:
```python
for chunk in pd.read_csv('大型文件.csv', chunksize=chunk_size):
# 对每个数据块执行操作,例如存储到新的文件或进一步处理
process_chunk(chunk)
```
`process_chunk`函数是你自定义的一个函数,它会对每个读取的块进行操作,比如保存到单独的文件:
```python
def process_chunk(chunk):
filename = f'split_{chunk.index}.csv' # 文件名基于当前分块的位置
chunk.to_csv(filename, index=False) # 写入新的CSV文件
```
4. **遍历所有分块并处理完后关闭大文件**,如果原始文件不是内存友好型的(如非常大),这一步是为了释放资源:
```python
with open('large_file.csv', 'rb') as fin:
original_df = pd.read_csv(fin, delimiter=',', chunksize=chunk_size)
# 确保所有小文件处理完毕后关闭原始文件
original_df.close()
```
阅读全文
相关推荐


















