Pandas教程:从Series到DataFrame实战

需积分: 0 1 下载量 29 浏览量 更新于2024-06-17 收藏 9.93MB PDF 举报
在本篇Pandas笔记中,主要讲解了如何在Python的Pandas库中进行数据分析,特别是在Jupyter Notebook环境中使用Pandas进行数据处理。Pandas是Python中强大的数据处理和分析工具,其核心数据结构包括Series和DataFrame。 **1. Series(一维数组)** Series是Pandas的基础数据结构,它是一维的标量向量。首先,我们可以通过以下方式创建Series: - **从列表创建**:例如,`S1 = pd.Series(['a', 'b', 'c', 'd'])`,这会创建一个包含字符串类型的Series,索引默认为整数。 - **指定索引和值**:如`S2 = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])`,这里设置了索引为字母,值为数值,显示了Pandas对不同数据类型的灵活支持。 - **从字典创建**:`S3 = pd.Series({'a': 1, 'b': 2, 'c': 3, 'd': 4})`,通过字典构造Series,键成为索引,值作为对应的值。 **2. 索引操作** - `S1.index` 和 `S2.index` 展示了Series的索引,`S3.index` 则展示了由字典构建的Series的索引。 - `S1.values`、`S2.values` 和 `S3.values` 分别获取Series的值部分,它们分别对应于Series中的数据。 **3. DataFrame(二维表格)** DataFrame是Pandas的核心数据结构,类似于电子表格或SQL表。创建DataFrame的方式有多种,例如: - **从列表的列表创建**:没有明确指定索引,Pandas会自动为每一列创建一个连续的索引。 - **提供列名**:可以指定列名,比如从列表和字典结合创建: ```python data = {'A': [1, 2, 3], 'B': [4, 5, 6]} df = pd.DataFrame(data) ``` - **从其他数据结构转换**:如从其他Python内置数据结构(如字典或Numpy数组)或外部数据源(CSV、Excel等)读取数据来创建DataFrame。 **4. 索引和值的检索** DataFrame允许通过索引访问单个或一组值,以及行和列的切片操作。例如,`df.loc['a']` 可以获取'列名'为'a'的值,而`df[['A', 'B']]` 则选择'A'和'B'两列。 通过这些基础操作,您可以处理各种数据清洗、预处理和分析任务。Pandas提供了丰富的功能,如数据过滤、分组、聚合、排序和合并,使得数据分析工作更加高效。学习和熟练掌握Pandas对于进行实际的数据科学项目至关重要。建议结合实际案例和练习不断深入学习,以便在需要时能够快速解决数据分析过程中遇到的问题。