pandas 库教程
时间: 2023-06-30 12:13:42 浏览: 130
Pandas 是 Python 中一个强大的数据分析库,它提供了高效的数据结构和数据分析工具,可以轻松地处理各种数据类型,包括 CSV、Excel、SQL 数据库、HTML、JSON 等。
以下是 Pandas 的一些基本操作和用法:
1. 导入 Pandas 库
```python
import pandas as pd
```
2. 创建 Pandas 数据结构
Pandas 提供了三种主要的数据结构:Series、DataFrame 和 Panel。其中,Series 是一维数组,DataFrame 是二维数组,Panel 是三维数组。
```python
# 创建 Series
data = pd.Series([1, 3, 5, np.nan, 6, 8])
print(data)
# 创建 DataFrame
df = pd.DataFrame(np.random.randn(6, 4), columns=list('ABCD'))
print(df)
# 创建 Panel
data = {'Item1': pd.DataFrame(np.random.randn(4, 3)),
'Item2': pd.DataFrame(np.random.randn(4, 2))}
panel = pd.Panel(data)
print(panel)
```
3. 读取和写入数据
Pandas 可以读取多种数据格式,包括 CSV、Excel、SQL 数据库、HTML、JSON 等,常用的方法是 read_csv 和 read_excel。
```python
# 读取 CSV 文件
df = pd.read_csv('data.csv')
# 读取 Excel 文件
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
# 写入 CSV 文件
df.to_csv('new_data.csv', index=False)
# 写入 Excel 文件
df.to_excel('new_data.xlsx', sheet_name='Sheet1', index=False)
```
4. 数据清洗
数据清洗是数据分析的重要步骤之一,Pandas 提供了一些方法来处理缺失值、重复值和异常值。
```python
# 处理缺失值
df.dropna() # 删除包含缺失值的行
df.fillna(value=0) # 将缺失值填充为指定值
# 处理重复值
df.drop_duplicates() # 删除重复行
# 处理异常值
df[df['col'] > 0] # 过滤出指定列中大于 0 的行
```
5. 数据分组和聚合
Pandas 可以对数据进行分组和聚合操作,如计算平均值、求和、计数等。
```python
# 按列分组并计算平均值
df.groupby('col').mean()
# 按列分组并计算总和
df.groupby('col').sum()
# 按列分组并计算个数
df.groupby('col').count()
```
6. 数据可视化
Pandas 可以将数据可视化为各种图表,如折线图、散点图、柱状图等。
```python
# 折线图
df.plot()
# 散点图
df.plot(kind='scatter', x='A', y='B')
# 柱状图
df.plot(kind='bar', x='A', y='B')
```
以上是 Pandas 库的一些基本操作和用法,希望对你有所帮助。
阅读全文