python在数据量很大的情况下,将多个parquet文件写入一个csv文件
时间: 2024-03-23 20:40:53 浏览: 111
数据清洗之 csv文件读写
可以使用pandas库中的read_parquet函数来读取多个parquet文件,然后使用to_csv函数将数据写入一个csv文件。
以下是一个示例代码:
```python
import pandas as pd
import glob
# 获取所有parquet文件的路径
parquet_files = glob.glob('/path/to/parquet/files/*.parquet')
# 读取所有parquet文件并合并为一个DataFrame对象
df = pd.concat([pd.read_parquet(f) for f in parquet_files])
# 将DataFrame对象写入一个csv文件
df.to_csv('/path/to/output/file.csv', index=False)
```
需要注意的是,如果数据量非常大,可能需要通过设置chunksize参数来分块读取和写入数据,以免一次读取或写入太多数据导致内存不足。
阅读全文