帮我详细讲解 pandas的 dataframe 的所有有关知识,并给出其使用案例代码
时间: 2024-03-09 11:49:31 浏览: 60
把这两个表中 【证券简称 证券代码 统计截止日期】相同的数据的数据合并, 然后先根据证券代码从大到小分组,然后在组内根
Pandas 的 DataFrame 是一种表格型数据结构,它包含了各种类型的数据,如数字、字符串、布尔值等。DataFrame 类似于关系型数据库中的表格,可以对数据进行增删改查等操作,并且支持多种数据格式的导入和导出。
以下是 DataFrame 的主要使用方法和案例代码:
1. 创建 DataFrame
可以通过字典、列表、Numpy 数组等多种方式来创建 DataFrame,例如:
```python
import pandas as pd
import numpy as np
# 通过字典创建 DataFrame
data = {'name': ['John', 'Mike', 'Emily'], 'age': [25, 30, 35], 'gender': ['M', 'M', 'F']}
df = pd.DataFrame(data)
print(df)
# 通过列表和 Numpy 数组创建 DataFrame
lst = [['John', 25, 'M'], ['Mike', 30, 'M'], ['Emily', 35, 'F']]
df = pd.DataFrame(lst, columns=['name', 'age', 'gender'])
print(df)
arr = np.array(lst)
df = pd.DataFrame(arr, columns=['name', 'age', 'gender'])
print(df)
```
2. 读取和写入数据
可以通过 read_csv、read_excel、to_csv、to_excel 等方法来读写数据,例如:
```python
# 读取数据
df = pd.read_csv('data.csv')
print(df)
# 写入数据
df.to_csv('new_data.csv', index=False)
```
3. 数据清洗和处理
可以通过 dropna、fillna、replace 等方法来清洗和处理数据,例如:
```python
# 删除含有 NaN 的行
df = df.dropna()
# 将 NaN 替换为指定值
df = df.fillna(0)
# 将指定值替换为新值
df = df.replace({'M': 0, 'F': 1})
```
4. 数据筛选和排序
可以通过 loc、iloc、query、sort_values 等方法来筛选和排序数据,例如:
```python
# 根据条件筛选数据
df = df.loc[df['age'] > 30]
df = df.query('age > 30')
# 根据指定列排序
df = df.sort_values('age', ascending=False)
```
5. 数据分组和聚合
可以通过 groupby、agg、pivot_table 等方法来分组和聚合数据,例如:
```python
# 根据指定列分组并计算平均值
df.groupby('gender').agg({'age': 'mean'})
# 创建透视表并计算平均值
pd.pivot_table(df, values='age', index='gender', aggfunc=np.mean)
```
这些是 DataFrame 的主要使用方法和案例代码,还有很多其他方法和功能可以根据具体需求进行使用。
阅读全文