【基础】Pandas库入门:数据结构与数据处理基础
发布时间: 2024-06-24 14:51:46 阅读量: 68 订阅数: 143
pandas数据结构与基本操作
![【基础】Pandas库入门:数据结构与数据处理基础](https://ucc.alicdn.com/pic/developer-ecology/ejj7vymfxj332_0983b8738c0e4c66966dfbbe217bf0f1.png?x-oss-process=image/resize,h_500,m_lfit)
# 1. Pandas库简介**
Pandas是一个强大的Python库,用于数据处理和分析。它提供了一系列高效的数据结构和操作,使处理大型数据集变得轻而易举。Pandas以其直观的界面和丰富的功能集而闻名,使其成为数据科学家和分析师的首选工具。
# 2. Pandas数据结构
Pandas库提供了两种主要的数据结构:DataFrame和Series。DataFrame是一个二维表状结构,类似于关系型数据库中的表格,而Series是一个一维数组状结构,类似于关系型数据库中的列。
### 2.1 DataFrame
#### 2.1.1 DataFrame的创建和加载
DataFrame可以通过多种方式创建,包括:
- 从列表或字典创建:
```python
import pandas as pd
# 从列表创建DataFrame
data = [['Alice', 100], ['Bob', 120], ['Carol', 140]]
df = pd.DataFrame(data, columns=['name', 'score'])
# 从字典创建DataFrame
data = {'name': ['Alice', 'Bob', 'Carol'], 'score': [100, 120, 140]}
df = pd.DataFrame(data)
```
- 从CSV或Excel文件加载:
```python
# 从CSV文件加载DataFrame
df = pd.read_csv('data.csv')
# 从Excel文件加载DataFrame
df = pd.read_excel('data.xlsx')
```
#### 2.1.2 DataFrame的结构和属性
DataFrame由行和列组成,每个单元格包含一个值。DataFrame具有以下主要属性:
- **index:** 行标签。
- **columns:** 列标签。
- **shape:** DataFrame的形状,表示行数和列数的元组。
- **dtypes:** DataFrame中每个列的数据类型。
- **values:** DataFrame中所有值的NumPy数组。
### 2.2 Series
#### 2.2.1 Series的创建和加载
Series可以通过以下方式创建:
- 从列表或数组创建:
```python
import pandas as pd
# 从列表创建Series
data = ['Alice', 'Bob', 'Carol']
series = pd.Series(data)
# 从数组创建Series
data = np.array([100, 120, 140])
series = pd.Series(data)
```
- 从字典创建:
```python
# 从字典创建Series
data = {'Alice': 100, 'Bob': 120, 'Carol': 140}
series = pd.Series(data)
```
#### 2.2.2 Series的结构和属性
Series是一个一维数组,每个元素包含一个值。Series具有以下主要属性:
- **index:** Series的标签。
- **dtype:** Series中元素的数据类型。
- **values:** Series中所有值的NumPy数组。
# 3.1 数据清洗
**3.1.1 缺失值处理**
缺失值是数据处理中常见的问题,Pandas提供了多种方法来处理缺失值:
* **删除缺失值:**`dropna()`函数可删除包含缺失值的整个行或列。
* **填充缺失值:**`fillna()`函数可使用指定值填充缺失值,如均值、中位数或特定常量。
* **插补缺失值:**`interpolate()`函数可使用线性、二次或其他插补方法估计缺失值。
**代码块:**
```python
import pandas as pd
# 创建一个包含缺失值的DataFrame
df = pd.DataFrame({
'Name': ['John', 'Mary', 'Bob', np.nan],
```
0
0