to_parquet
时间: 2023-08-03 19:06:08 浏览: 187
synthetic-text-to-sql 数据集,从 Parquet 转为 jsonl 方便模型调优
`to_parquet` 是一个 Pandas DataFrame 对象的方法,用于将数据以 Apache Parquet 格式保存到磁盘上。Parquet 是一种列式存储格式,可以提供更高的数据压缩率和更快的数据读取速度。Pandas DataFrame 中的数据可以通过该方法转换为 Parquet 格式,以便更高效地存储和处理数据。该方法的语法如下:
```python
DataFrame.to_parquet(fname, engine='auto', compression='snappy', index=None, partition_cols=None, **kwargs)
```
其中,参数 `fname` 是要保存 Parquet 文件的路径和文件名,`engine` 是指定使用的 Parquet 库(`auto` 表示自动选择),`compression` 是指定数据压缩算法,`index` 是是否将 DataFrame 的索引列也保存到 Parquet 文件中,`partition_cols` 是指定按照哪些列进行分区。其他参数可以参考 Pandas 文档进行设置。
阅读全文