dask.dataframe.read_csv()参数
时间: 2023-08-03 20:53:35 浏览: 162
dask.dataframe.read_csv()函数的常用参数如下:
- filepath_or_buffer:CSV文件的路径或者包含CSV数据的文件对象。
- sep:CSV文件中的分隔符,默认为逗号。
- delimiter:同sep参数,指定分隔符。
- header:CSV文件中是否包含列名,默认为0,表示没有列名。
- names:自定义列名,如果header=0,则自动忽略。
- usecols:选择需要读取的列,可以是列名或者列的索引。
- dtype:指定列的数据类型,可以是字典、pandas类型或者numpy类型。
- skiprows:跳过指定的行数,可以是整数、列表或者函数。
- skipfooter:跳过文件末尾的行数,需要engine='python'。
- nrows:读取的行数。
- na_values:指定缺失值的标记。
- engine:读取文件的引擎,默认为auto,可以是c(C代码)或者python(纯Python代码)。
- blocksize:设置分块大小,默认为64MB。
- sample:设置读取的样本大小,可以是行数或者文件大小的小数。
- compression:指定文件的压缩格式,支持gzip、bz2、zip、xz、None。
除了上述参数,还有一些与分布式计算有关的参数,例如:
- assume_missing:是否假设缺失值分布均匀,默认为False。
- storage_options:指定存储选项,例如AWS S3上的配置信息。
- blockwise:是否分块读取数据,默认为True。
- meta:指定返回的Dask DataFrame的元数据,包括列名、列的数据类型等。
更详细的参数说明可以参考Dask官方文档。
阅读全文