【基础】Pandas数据读取与存储(CSV, Excel等)
发布时间: 2024-06-27 20:19:46 阅读量: 78 订阅数: 113
![【基础】Pandas数据读取与存储(CSV, Excel等)](https://img.jbzj.com/file_images/article/201810/201810080856491.jpg)
# 1. Pandas数据读取与存储概述**
Pandas是Python中一个强大的数据分析库,它提供了一系列高效且灵活的数据读取和存储功能。通过Pandas,我们可以轻松地从各种数据源读取数据,并将其存储在不同的文件格式中,以满足不同的分析和存储需求。
在本概述章节中,我们将介绍Pandas数据读取与存储的总体流程,包括数据读取和存储的基本概念、支持的文件格式以及Pandas提供的常用函数。通过对这些基本知识的了解,我们为后续章节中深入探讨Pandas数据读取与存储的具体细节奠定了基础。
# 2. CSV文件读取与存储
### 2.1 CSV文件读取
#### 2.1.1 read_csv()函数的使用
Pandas提供了`read_csv()`函数来读取CSV文件。其基本语法如下:
```python
pd.read_csv(filepath_or_buffer, sep=',', header='infer', index_col=None, dtype=None, engine=None, **kwargs)
```
其中,参数含义如下:
- `filepath_or_buffer`:CSV文件路径或文件对象。
- `sep`:分隔符,默认为逗号。
- `header`:指定是否包含表头,默认为`'infer'`,即自动推断。
- `index_col`:指定用作索引的列,默认为`None`,即不设置索引。
- `dtype`:指定每列的数据类型,默认为`None`,即根据数据自动推断。
- `engine`:指定读取引擎,默认为`'c'`,即使用C引擎。
#### 2.1.2 参数设置和数据预处理
`read_csv()`函数提供了丰富的参数选项,可用于根据需要定制数据读取过程。
- **数据预处理:**
- `na_values`:指定缺失值表示,默认为`None`,即不识别缺失值。
- `keep_default_na`:指定是否保留默认缺失值表示(如`NaN`),默认为`True`。
- `na_filter`:指定是否过滤缺失值行,默认为`False`。
- **数据类型转换:**
- `converters`:指定每列的数据类型转换函数,默认为`None`,即根据数据自动推断。
- `date_parser`:指定日期列的解析函数,默认为`None`,即不解析日期。
- `parse_dates`:指定要解析为日期的列,默认为`False`,即不解析日期。
### 2.2 CSV文件存储
#### 2.2.1 to_csv()函数的使用
Pandas提供了`to_csv()`函数来存储DataFrame为CSV文件。其基本语法如下:
```python
df.to_csv(filepath_or_buffer, sep=',', header=True, index=True, index_label=None, mode='w', **kwargs)
```
其中,参数含义如下:
- `filepath_or_buffer`:CSV文件路径或文件对象。
- `sep`:分隔符,默认为逗号。
- `header`:指定是否包含表头,默认为`True`。
- `index`:指定是否包含索引,默认为`True`。
- `index_label`:指定索引的列名,默认为`None`,即不设置索引列名。
- `mode`:指定写入模式,默认为`'w'`,即覆盖写入。
#### 2.2.2 参数设置和数据格式化
`to_csv()`函数也提供了丰富的参数选项,可用于根据需要定制数据存储过程。
- **数据格式化:**
- `float_format`:指定浮点数的格式化字符串,默认为`None`,即使用默认格式。
- `date_format`:指定日期列的格式化字符串,默认为`None`,即使用默认格式。
- `decimal`:指定小数点符号,默认为`.`。
- **其他选项:**
- `encoding`:指定文件编码,默认为`'utf-8'`。
- `compression`:指定压缩格式,默认为`None`,即不压缩。
- `line_terminator`:指定行终止符,默认为`'\n'`。
# 3. Excel文件读取与存储
### 3.1 Excel文件读取
#### 3.1.1 read_excel()函数的使用
`read_excel()`函数用于读取Excel文件,其语法格式如下:
```python
read_excel(io, sheet_name=0, header=0, index_col=None, usecols=None, squeeze=False, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, keep_default_na=True, verbose=False, filepath_or_buffer=None, storage_options=None)
```
其中,常用的参数包括:
* `io`:Excel文件路径或文件对象。
* `sheet_name`:要读取的工作表名称或索引。
* `header`:指定表头所在的行号,默认为0(第一行)。
* `index_col`:指定索引列的列号或名称。
* `usecols`:指定要读取的列范围。
* `squeeze`:如果读取的数据只有一列,是否将其转换为Series。
#### 3.1.2 参数设置和数据类型转换
在读取Excel文件时,可以根据需要设置参数来控制读取行为和数据类型转换。例如:
* `sheet_name`参数可以指定要读取的工作表,如果Excel文件有多个工作表,可以通过名称或索引选择特定的工作表。
* `header
0
0