Pandas基础操作详解:从Series到DataFrame

需积分: 0 3 下载量 156 浏览量 更新于2024-08-04 收藏 4KB MD 举报
"pandas用法自整理" 在Python数据分析领域,pandas库是不可或缺的工具,它提供了高效的数据处理和分析功能。以下是对pandas关键对象、函数和方法的详细解释: 1. **pandas对象** - **Series**:Series是pandas的基本数据结构之一,它类似于一维数组,可以包含任何数据类型。创建Series对象时,可以提供一个列表作为数据,并可选地提供一个索引来定义每个元素的位置。例如: ```python import pandas as pd s = pd.Series([1, 2, 3], index=['a', 'b', 'c']) ``` - **DataFrame**:DataFrame是二维表格型数据结构,它具有列名和行索引。可以理解为由多个Series组成的表格,其中每一列都有自己的数据类型。创建DataFrame时,可以提供一个列表的列表,以及索引和列名: ```python df = pd.DataFrame([[1, 2], [3, 4]], index=['row1', 'row2'], columns=['col1', 'col2']) ``` 2. **pandas对象的重要属性** - **index**: 返回DataFrame或Series的所有行索引。 - **values**: 提供底层的NumPy数组,包含数据的原始值。 - **columns**: 返回DataFrame的所有列名。 - **dtypes**: 显示DataFrame中每一列的数据类型。 - **head()**: 默认展示DataFrame的前5行数据。 - **tail()**: 默认展示DataFrame的后5行数据。 - **shape**: 返回DataFrame的行数和列数的元组。 - **info()**: 显示DataFrame的简要统计信息,包括非空值计数、数据类型和是否有缺失值。 3. **常用方法和函数** - **describe()**: 对DataFrame中的数值列进行统计摘要,包括计数、平均值、标准差等。 - **count()**: 计算每列非空值的数量。 - **sum(axis)**: 沿指定轴(0表示列,1表示行)求和,可选择是否忽略缺失值。 - **max()**: 找出每列的最大值。 - **min()**: 找出每列的最小值。 - **idxmax()**: 返回最大值所在的索引位置。 - **idxmin()**: 返回最小值所在的索引位置。 - **mean()**: 计算每列的平均值。 - **median()**: 计算每列的中位数。 - **var()**: 计算每列的方差。 - **std()**: 计算每列的标准差。 4. **其他操作** - **cut()**: 这个函数用于将连续数据分段,如在示例中对年龄进行划分。可以指定分段边界,是否包含边界,以及分段后的标签。 了解并熟练掌握这些基本概念和操作,将极大地提高你在数据分析过程中的效率。pandas还提供了许多其他高级功能,如合并、排序、筛选、分组等,适用于各种复杂的数据处理场景。通过不断实践和学习,你将成为pandas的专家。