pd.read_csv参数格式
时间: 2024-12-06 08:21:41 浏览: 15
pandas.read_csv参数详解(小结)
`pd.read_csv()` 是 Pandas 库中的一个函数,用于从 CSV 文件中读取数据并创建 DataFrame(表格)。这个函数有许多参数可以自定义读取过程,以下是其中一些关键参数及其用途:
1. **filepath_or_buffer**: 必需参数,指明CSV文件的路径(str)或打开的文件对象(file-like object),或者是包含数据的数据字典(dict)或其他序列。
```python
df = pd.read_csv('data.csv') # 读取本地文件
df = pd.read_csv(io.StringIO(your_data)) # 读取内存中的字符串内容
```
2. **delimiter**: 字符,默认是逗号 `,`。如果数据中使用非逗号分隔,可以设置此参数。
```python
df = pd.read_csv('data.tsv', delimiter='\t') # 使用制表符分隔
```
3. **header**: 定义行标签的位置,默认是第一行。可以选择 `None` 表示无标签,`0` 表示第一行作为标签,或者整数或多行范围。
```python
df = pd.read_csv('data.csv', header=None) # 无标签
```
4. **names**: 提供列名列表,用于设置DataFrame的列名。
```python
names = ['Column1', 'Column2']
df = pd.read_csv('data.csv', names=names)
```
5. **usecols**: 可选,指定要读取的列名,可以是单列名、一列范围或整数索引。
```python
df = pd.read_csv('data.csv', usecols=['Column1', 'Column3'])
```
6. **index_col**: 指定哪一列作为索引列。
```python
df = pd.read_csv('data.csv', index_col='ID')
```
还有很多其他参数,如 `dtype`, `parse_dates`, `encoding` 等,可以控制数据类型解析、日期格式化和编码等。完整的文档可以在Pandas官方文档中找到:
https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html
阅读全文