pandas教程
时间: 2023-06-29 21:06:18 浏览: 149
3.Pandas 数据结构 – Series _ 菜鸟教程.pdf
Pandas是一个Python语言的数据分析库,提供了易于使用的数据结构和数据分析工具,使得数据处理变得更加简单和高效。本教程将介绍Pandas的基本概念和操作方法。
## 安装
使用pip命令进行安装:
```bash
pip install pandas
```
## 导入
导入Pandas库:
```python
import pandas as pd
```
## 数据结构
Pandas主要有两种数据结构:Series和DataFrame,它们都是基于NumPy数组构建的。
### Series
Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签组成。可以将Series看作是一个带有标签的数组。
创建Series:
```python
import pandas as pd
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)
```
输出:
```
0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 8.0
dtype: float64
```
### DataFrame
DataFrame是一个表格型的数据结构,它包含有一组有序的列,每列可以是不同的数据类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看作是由Series组成的字典(共用同一个索引)。
创建DataFrame:
```python
import pandas as pd
import numpy as np
data = {'name': ['Tom', 'Jerry', 'Mike', 'Rose'],
'age': [18, 20, 22, 24],
'gender': ['M', 'M', 'M', 'F']}
df = pd.DataFrame(data)
print(df)
```
输出:
```
name age gender
0 Tom 18 M
1 Jerry 20 M
2 Mike 22 M
3 Rose 24 F
```
## 数据读取和写入
Pandas可以读取和写入多种格式的数据,包括CSV、Excel、SQL、JSON等。
### 读取CSV文件
```python
import pandas as pd
df = pd.read_csv('data.csv')
print(df)
```
### 写入CSV文件
```python
import pandas as pd
df.to_csv('data.csv', index=False)
```
## 数据操作
### 数据查看
```python
import pandas as pd
df = pd.read_csv('data.csv')
# 查看前几行数据
print(df.head())
# 查看后几行数据
print(df.tail())
# 查看数据的形状(行数、列数)
print(df.shape)
# 查看数据的列名
print(df.columns)
# 查看数据的索引
print(df.index)
# 查看数据的统计信息
print(df.describe())
```
### 数据选择
```python
import pandas as pd
df = pd.read_csv('data.csv')
# 选择某一列数据
print(df['name'])
# 选择多列数据
print(df[['name', 'age']])
# 选择某一行数据
print(df.loc[0])
# 选择多行数据
print(df.loc[[0, 2]])
# 选择满足条件的数据
print(df[df['age']>20])
```
### 数据操作
```python
import pandas as pd
df = pd.read_csv('data.csv')
# 添加一列数据
df['height'] = [170, 175, 180, 165]
# 删除一列数据
df.drop('gender', axis=1, inplace=True)
# 修改某一行数据
df.loc[0, 'age'] = 19
# 数据排序
df.sort_values(by='age', inplace=True)
# 数据分组
grouped = df.groupby('age')
print(grouped.mean())
```
阅读全文