【基础】Pandas库:数据处理与数据分析基础
发布时间: 2024-06-24 18:04:51 阅读量: 71 订阅数: 118
![【基础】Pandas库:数据处理与数据分析基础](https://img-blog.csdnimg.cn/20200625221317271.png?)
# 1. Pandas库简介**
Pandas是一个用于数据操作和分析的强大Python库。它提供了一个直观且灵活的界面,使您可以轻松地处理各种数据类型,包括表格、时间序列和面板数据。Pandas建立在NumPy之上,利用其强大的数值计算功能,并提供了一系列用于数据清洗、转换和分析的工具。
# 2. Pandas数据结构**
**2.1 Series**
**2.1.1 创建和访问 Series**
Series是一种一维数据结构,它由一个索引和一个值序列组成。索引可以是任何不可变对象,如整数、字符串或日期。值序列可以是任何类型的数据,如数字、字符串或布尔值。
创建Series有几种方法。最常见的方法是使用`pd.Series()`函数,它接受一个列表、元组或字典作为输入:
```python
import pandas as pd
# 从列表创建 Series
series = pd.Series([1, 2, 3, 4, 5])
# 从元组创建 Series
series = pd.Series((1, 2, 3, 4, 5))
# 从字典创建 Series
series = pd.Series({'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5})
```
访问Series中的元素可以使用索引。索引可以是整数、字符串或布尔值:
```python
# 使用整数索引访问元素
print(series[0]) # 输出:1
# 使用字符串索引访问元素
print(series['a']) # 输出:1
# 使用布尔索引访问元素
print(series[series > 2]) # 输出:Series([3, 4, 5])
```
**2.1.2 Series 的索引和数据操作**
Series的索引可以修改,可以使用`set_index()`函数或`rename_axis()`函数。数据操作可以使用NumPy函数或Pandas函数进行:
```python
# 修改索引
series.set_index('a') # 将 'a' 列设置为索引
# 重命名索引
series.rename_axis('new_index') # 将索引重命名为 'new_index'
# 使用 NumPy 函数进行数据操作
print(series.mean()) # 输出:3.0
# 使用 Pandas 函数进行数据操作
print(series.describe()) # 输出:Series 的描述性统计
```
**2.2 DataFrame**
**2.2.1 创建和访问 DataFrame**
DataFrame是一种二维数据结构,它由行和列组成。行和列都由索引标识。DataFrame可以存储不同类型的数据,如数字、字符串、布尔值和日期。
创建DataFrame有几种方法。最常见的方法是使用`pd.DataFrame()`函数,它接受一个字典、列表或元组作为输入:
```python
# 从字典创建 DataFrame
df = pd.DataFrame({'name': ['John', 'Mary', 'Bob'], 'age': [20, 25, 30]})
# 从列表创建 DataFrame
df = pd.DataFrame([['John', 20], ['Mary', 25], ['Bob', 30]])
# 从元组创建 DataFrame
df = pd.DataFrame((('John', 20), ('Mary', 25), ('Bob', 30)))
```
访问DataFrame中的元素可以使用行索引和列索引。行索引和列索引可以是整数、字符串或布尔值:
```python
# 使用行索引和列索引访问元素
print(df.loc[0, 'name']) # 输出:John
# 使用布尔索引访问元素
print(df[df['age'] > 25]) # 输出:DataFrame([['Mary', 25], ['Bob', 30]])
```
**2.2.2 DataFrame 的索引和数据操作**
DataFrame的索引和数据操作与Series类似。索引可以使用`set_index()`函数或`rename_axis()`函数修改。数据操作
0
0