Pandas基础操作详解:从Series到DataFrame
需积分: 0 156 浏览量
更新于2024-08-04
收藏 4KB MD 举报
"pandas用法自整理"
在Python数据分析领域,pandas库是不可或缺的工具,它提供了高效的数据处理和分析功能。以下是对pandas关键对象、函数和方法的详细解释:
1. **pandas对象**
- **Series**:Series是pandas的基本数据结构之一,它类似于一维数组,可以包含任何数据类型。创建Series对象时,可以提供一个列表作为数据,并可选地提供一个索引来定义每个元素的位置。例如:
```python
import pandas as pd
s = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
```
- **DataFrame**:DataFrame是二维表格型数据结构,它具有列名和行索引。可以理解为由多个Series组成的表格,其中每一列都有自己的数据类型。创建DataFrame时,可以提供一个列表的列表,以及索引和列名:
```python
df = pd.DataFrame([[1, 2], [3, 4]], index=['row1', 'row2'], columns=['col1', 'col2'])
```
2. **pandas对象的重要属性**
- **index**: 返回DataFrame或Series的所有行索引。
- **values**: 提供底层的NumPy数组,包含数据的原始值。
- **columns**: 返回DataFrame的所有列名。
- **dtypes**: 显示DataFrame中每一列的数据类型。
- **head()**: 默认展示DataFrame的前5行数据。
- **tail()**: 默认展示DataFrame的后5行数据。
- **shape**: 返回DataFrame的行数和列数的元组。
- **info()**: 显示DataFrame的简要统计信息,包括非空值计数、数据类型和是否有缺失值。
3. **常用方法和函数**
- **describe()**: 对DataFrame中的数值列进行统计摘要,包括计数、平均值、标准差等。
- **count()**: 计算每列非空值的数量。
- **sum(axis)**: 沿指定轴(0表示列,1表示行)求和,可选择是否忽略缺失值。
- **max()**: 找出每列的最大值。
- **min()**: 找出每列的最小值。
- **idxmax()**: 返回最大值所在的索引位置。
- **idxmin()**: 返回最小值所在的索引位置。
- **mean()**: 计算每列的平均值。
- **median()**: 计算每列的中位数。
- **var()**: 计算每列的方差。
- **std()**: 计算每列的标准差。
4. **其他操作**
- **cut()**: 这个函数用于将连续数据分段,如在示例中对年龄进行划分。可以指定分段边界,是否包含边界,以及分段后的标签。
了解并熟练掌握这些基本概念和操作,将极大地提高你在数据分析过程中的效率。pandas还提供了许多其他高级功能,如合并、排序、筛选、分组等,适用于各种复杂的数据处理场景。通过不断实践和学习,你将成为pandas的专家。
2021-03-06 上传
891 浏览量
2022-01-04 上传
2023-10-20 上传
2023-05-24 上传
2023-07-15 上传
2023-07-08 上传
2023-04-19 上传
2024-08-07 上传
Zyx_Lz
- 粉丝: 6
- 资源: 1
最新资源
- MATLAB实现小波阈值去噪:Visushrink硬软算法对比
- 易语言实现画板图像缩放功能教程
- 大模型推荐系统: 优化算法与模型压缩技术
- Stancy: 静态文件驱动的简单RESTful API与前端框架集成
- 掌握Java全文搜索:深入Apache Lucene开源系统
- 19计应19田超的Python7-1试题整理
- 易语言实现多线程网络时间同步源码解析
- 人工智能大模型学习与实践指南
- 掌握Markdown:从基础到高级技巧解析
- JS-PizzaStore: JS应用程序模拟披萨递送服务
- CAMV开源XML编辑器:编辑、验证、设计及架构工具集
- 医学免疫学情景化自动生成考题系统
- 易语言实现多语言界面编程教程
- MATLAB实现16种回归算法在数据挖掘中的应用
- ***内容构建指南:深入HTML与LaTeX
- Python实现维基百科“历史上的今天”数据抓取教程