pandas入门:10分钟快速上手

12 下载量 32 浏览量 更新于2024-07-15 1 收藏 1.07MB PDF 举报
"本文是pandas入门教程,简要介绍了如何创建和操作pandas对象,包括Series和DataFrame的创建,查看数据的方法,以及选择数据的各种方式。" 在Python数据分析领域,pandas库是不可或缺的一部分,它提供了高效的数据结构,如Series和DataFrame,用于处理和分析数据。这篇“十分钟搞定pandas”入门教程旨在帮助初学者快速掌握pandas的基本用法。 首先,创建pandas对象是使用pandas的第一步。Series可以看作是一维的标签化数组,类似于带索引的numpy数组。通过传递一个list对象,我们可以创建一个Series,其中pandas会自动添加整型索引。例如: ```python import pandas as pd s = pd.Series([1, 2, 3, 4]) ``` DataFrame则是二维表格型数据结构,包含列标签和行索引。你可以通过numpy数组、时间索引以及列标签创建DataFrame,如: ```python data = {'A': [1, 2, 3], 'B': [4, 5, 6]} df = pd.DataFrame(data) ``` 或者使用能够被转换成序列结构的字典,比如: ```python df2 = pd.DataFrame({'Col1': [1, 2], 'Col2': [3, 4]}, index=['Row1', 'Row2']) ``` 了解了基本对象后,查看数据是进一步操作的基础。可以使用`.head()`和`.tail()`查看数据的前几行和后几行;`.info()`展示数据的索引、列和底层数据类型;`.describe()`提供快速的统计汇总;`.transpose()`(`.T`)用于转置DataFrame;`.sort_index()`和`.sort_values()`用于按照索引或值进行排序。 选择数据是pandas的核心操作。pandas提供了多种选择方式,包括`.at`, `.iat`, `.loc`, `.iloc`和`.ix`。例如,通过列名选取单个列,如`df['A']`;使用切片选取行,如`df[1:3]`;`.loc`和`.iloc`分别基于标签和位置进行选择,`.loc`允许你根据标签进行切片,而`.iloc`则适用于数值索引。 布尔索引是选择数据的另一种常见方式,可以基于条件过滤数据。例如,`df[df['A'] > 5]`会选择'Column A'大于5的所有行。此外,`where`函数和`isin`方法也能实现基于特定条件的筛选。 总结来说,这个入门教程涵盖了pandas基础操作的关键点,包括对象创建、数据查看和选择。这些基础知识构成了使用pandas进行数据分析的基础,为进一步学习更高级的pandas功能和数据处理技巧打下了坚实的基础。