python pandas df的用法
时间: 2023-07-21 11:25:50 浏览: 37
Pandas 是一个用于数据操作和分析的 Python 库,其中的 DataFrame 是 Pandas 中常用的数据结构之一,它类似于 Excel 表格。
使用 Pandas 中的 DataFrame,可以轻松地对数据进行处理、分析和可视化。下面是一些常见的 DataFrame 操作:
1. 创建 DataFrame:可以从 CSV 文件、Excel 文件、数据库或其他数据源中读取数据,并将其转换为 DataFrame。
```python
import pandas as pd
# 从 CSV 文件中创建 DataFrame
df = pd.read_csv('data.csv')
# 从 Excel 文件中创建 DataFrame
df = pd.read_excel('data.xlsx')
# 从数据库中创建 DataFrame
import sqlite3
conn = sqlite3.connect('database.db')
df = pd.read_sql_query("SELECT * from table_name", conn)
```
2. 查看 DataFrame:可以通过 head()、tail()、info() 等方法来查看 DataFrame 中的数据和信息。
```python
# 查看 DataFrame 的前几行数据
df.head()
# 查看 DataFrame 的后几行数据
df.tail()
# 查看 DataFrame 的基本信息
df.info()
# 查看 DataFrame 的各列数据类型
df.dtypes
```
3. 选取数据:可以通过 loc、iloc 等方法来选取 DataFrame 中的数据。
```python
# 选取某一行
df.loc[0]
# 选取某一列
df['column_name']
# 选取某几行和某几列
df.loc[[0, 1, 2], ['column_name1', 'column_name2']]
# 选取某个区域
df.iloc[0:3, 1:3]
```
4. 过滤数据:可以通过条件表达式来过滤 DataFrame 中的数据。
```python
# 过滤某一列中的数据
df[df['column_name'] > 0]
# 过滤多个条件
df[(df['column_name1'] > 0) & (df['column_name2'] < 10)]
# 过滤并选取某几列
df.loc[df['column_name'] > 0, ['column_name1', 'column_name2']]
```
5. 修改数据:可以通过 loc、iloc 等方法来修改 DataFrame 中的数据。
```python
# 修改某一行的数据
df.loc[0, 'column_name'] = new_value
# 修改某一列的数据
df['column_name'] = new_values
# 修改某几行和某几列的数据
df.loc[[0, 1, 2], ['column_name1', 'column_name2']] = new_values
# 按条件修改某一列的数据
df.loc[df['column_name'] > 0, 'column_name'] = new_values
```
6. 删除数据:可以通过 drop() 方法来删除 DataFrame 中的行或列。
```python
# 删除某一行
df.drop(0, inplace=True)
# 删除某一列
df.drop('column_name', axis=1, inplace=True)
# 删除某几行和某几列
df.drop([0, 1, 2], axis=0, inplace=True)
df.drop(['column_name1', 'column_name2'], axis=1, inplace=True)
```
7. 聚合数据:可以通过 groupby() 方法来聚合 DataFrame 中的数据。
```python
# 按某一列进行分组并计算平均值
df.groupby('column_name').mean()
# 按某几列进行分组并计算总和
df.groupby(['column_name1', 'column_name2']).sum()
```
以上是一些常见的 DataFrame 操作,Pandas 还有更多的功能和方法可以探索。
阅读全文