【基础】Pandas简介与安装
发布时间: 2024-06-26 16:24:50 阅读量: 6 订阅数: 30 ![](https://csdnimg.cn/release/wenkucmsfe/public/img/col_vip.0fdee7e1.png)
![](https://csdnimg.cn/release/wenkucmsfe/public/img/col_vip.0fdee7e1.png)
![【基础】Pandas简介与安装](https://img-blog.csdnimg.cn/20200625221317271.png?)
# 1. Pandas简介**
Pandas是一个强大的Python库,用于数据操作和分析。它提供了一系列数据结构和操作,使数据处理变得简单高效。Pandas特别适用于处理表格数据,例如数据框和数列。它提供了一组丰富的功能,包括数据读取、清理、转换、聚合和可视化。
Pandas是数据科学和机器学习领域广泛使用的工具。它可以轻松地处理大型数据集,并提供灵活的API,可以根据需要定制数据操作。
# 2. Pandas数据结构
### 2.1 数据框(DataFrame)
#### 2.1.1 创建和初始化数据框
Pandas数据框是一种二维表格状数据结构,可以轻松地存储和操作各种类型的数据。创建数据框有以下几种方法:
- **从字典创建:**使用`pd.DataFrame()`函数,将字典作为参数传入。字典的键将成为数据框的列名,值将成为数据框中的数据。
```python
import pandas as pd
data = {'姓名': ['张三', '李四', '王五'], '年龄': [20, 25, 30]}
df = pd.DataFrame(data)
```
- **从列表或元组创建:**使用`pd.DataFrame()`函数,将列表或元组作为参数传入。列表或元组中的元素将成为数据框的列。
```python
data = [['张三', 20], ['李四', 25], ['王五', 30]]
df = pd.DataFrame(data, columns=['姓名', '年龄'])
```
- **从CSV或Excel文件创建:**使用`pd.read_csv()`或`pd.read_excel()`函数,从CSV或Excel文件中读取数据。
```python
df = pd.read_csv('data.csv')
df = pd.read_excel('data.xlsx')
```
#### 2.1.2 数据框的属性和方法
数据框具有以下重要的属性和方法:
- **shape:**返回数据框的行数和列数。
- **columns:**返回数据框的列名。
- **index:**返回数据框的行索引。
- **head():**返回数据框的前几行数据。
- **tail():**返回数据框的后几行数据。
- **info():**显示数据框的摘要信息,包括数据类型、非空值数量等。
- **describe():**统计数据框中各列的统计信息,如均值、中位数、标准差等。
- **loc:**通过行索引和列索引定位数据框中的元素。
- **iloc:**通过行号和列号定位数据框中的元素。
### 2.2 数列(Series)
#### 2.2.1 创建和初始化数列
Pandas数列是一种一维数组状数据结构,可以存储各种类型的数据。创建数列有以下几种方法:
- **从列表或元组创建:**使用`pd.Series()`函数,将列表或元组作为参数传入。
```python
data = [20, 25, 30]
series = pd.Series(data)
```
- **从字典创建:**使用`pd.Series()`函数,将字典作为参数传入。字典的键将成为数列的索引,值将成为数列中的数据。
```python
data = {'张三': 20, '李四': 25, '王五': 30}
series = pd.Series(data)
```
- **从数据框创建:**使用`pd.Series()`函数,将数据框的列或行作为参数传入。
```python
df = pd.DataFrame({'姓名': ['张三', '李四', '王五'], '年龄': [20, 25, 30]})
series = df['年龄']
```
#### 2.2.2 数列的属性和方法
数列具有以下重要的属性和方法:
- **index:**返回数列的索引。
- **values:**返回数列中的数据。
- **dtype:**返回数列中数据的类型。
- **head():**返回数列的前几行数据。
- **tail():**返回数列的后几行数据。
- **info():**显示数列的摘要信息,包括数据类型、非空值数量等。
- **describe():**统计数列中数据的统计信息,如均值、中位数、标准差等。
- **loc:**通过索引定位数列中的元素。
- **iloc:**通过行号定位数列中的元素。
# 3. Pandas数据操作
### 3.1 数据索引和切片
#### 3.1.1 行索引和列索引
Pandas数据框和数列都具有行索引和列索引,用于标识数据中的特定元素。
**行索引**:
* 默认为整数索引,从0开始。
* 可以自定义行索引,例如使用字符串或日期。
**列索引**:
0
0
相关推荐
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)