Pandas 数据操作速查表

需积分: 13 15 下载量 90 浏览量 更新于2024-07-19 收藏 539KB PDF 举报
"Pandas Cheat Sheet 是一个全面的参考资料,涵盖了Pandas库的多个关键功能,包括数据导入、版本管理、数据对象创建、查看数据信息、数据可视化、数据选择、处理唯一和空值数据、数据修改与转换、迭代数据、数据聚合以及数据的保存与加载。这份资料旨在帮助用户快速查阅和理解Pandas在数据分析中的常用操作。" Pandas是Python中广泛使用的数据分析库,它提供了高效的数据结构,如DataFrame和Series,以及大量用于数据清洗、预处理和分析的工具。以下将详细介绍这些知识点: 1. **导入与版本**:在Python中,通过`import pandas as pd`来引入Pandas库。确认Pandas版本可以使用`pd.__version__`。 2. **创建数据对象**:DataFrame是Pandas的核心数据结构,可以通过字典、列表、数组等创建。例如,`df = pd.DataFrame(data, columns=columns)`,其中`data`可以是字典或数组,`columns`指定列名。 3. **查看数据信息**:使用`df.info()`可以获取DataFrame的基本信息,包括每列的名称、数据类型、非空值数量等。 4. **数据可视化**:Pandas集成matplotlib库,允许直接对数据进行可视化,如`df.plot(kind='bar')`绘制条形图,`df.plot.scatter(x='column1', y='column2')`绘制散点图。 5. **数据选择**:使用`.loc`和`.iloc`进行行选择,`.loc`基于标签(列名或索引值),`.iloc`基于位置(整数索引)。例如,`df.loc[0]`选取第一行,`df.iloc[:, 1]`选取第二列。 6. **管理唯一和空值数据**:`df.drop_duplicates()`去除重复行,`df.isnull()`检查空值,`df.fillna(value)`填充空值,`df.dropna()`删除含有空值的行或列。 7. **数据修改与转换**:可以使用`.replace()`替换特定值,`.astype()`转换数据类型,`.apply()`应用自定义函数到每一项,`df.groupby()`用于分组操作,`df.sort_values()`对数据排序。 8. **迭代数据**:Pandas提供了迭代DataFrame行的简便方法,如`for index, row in df.iterrows():`,以及迭代列的`for column in df.columns:`。 9. **数据聚合**:`df.groupby('column').agg(func)`对分组后的数据应用聚合函数,如求和、平均值等。`df.aggregate()`可对所有列执行聚合操作。 10. **保存与加载**:使用`df.to_csv()`将DataFrame保存为CSV文件,`pd.read_csv()`读取CSV文件。还有其他如Excel、SQL数据库等格式的支持。 这个Pandas Cheat Sheet是一个极好的学习和参考资源,可以帮助数据分析师和科学家高效地完成各种任务。通过掌握这些基本操作,可以大大提高数据处理的效率和准确性。