Python数据分析速查:Pandas与Numpy核心功能

需积分: 21 8 下载量 60 浏览量 更新于2024-09-03 1 收藏 36KB DOCX 举报
Pandas和NumPy是Python中两个强大的数据分析和科学计算库,尤其在处理结构化数据时表现出色。这个速查表整理了关于这两个库的关键知识点,旨在帮助你在日常工作中快速查询和操作数据。 首先,让我们从Pandas的核心组件——DataFrame开始。DataFrame是Pandas中的主要数据结构,它类似于二维表格,包含了行和列,每列可以包含不同的数据类型。导入数据的方式多样: 1. `pd.read_csv(filename)`:用于从CSV文件中加载数据,这是最常见的数据导入方式。 2. `pd.read_table(filename)`:适用于非标准分隔符的文本文件,如TSV。 3. `pd.read_excel(filename)`:用于读取Excel文件,支持多种格式。 4. `pd.read_sql(query, connection_object)`:通过SQL查询从数据库导入数据,适合与数据库交互。 5. `pd.read_json(json_string)`:将JSON格式的字符串转换为DataFrame。 6. `pd.read_html(url)`:解析URL或HTML文档中的表格,常用于网络爬虫数据处理。 7. `pd.read_clipboard()`:直接从剪贴板读取数据并导入。 数据导出同样灵活: - `df.to_csv(filename)`:将DataFrame保存为CSV文件。 - `df.to_excel(filename)`:保存为Excel文件。 - `df.to_sql(table_name, connection_object)`:将数据写入SQL数据库。 - `df.to_json(filename)`:将DataFrame序列化为JSON格式的文本文件。 查看数据方面,Pandas提供了便捷的方法: - `df.head(n)`:显示数据的前n行,通常用于快速预览数据。 - `df.tail(n)`:查看数据的后n行。 - `df.shape()`:返回DataFrame的行数(行)和列数(列)。 - `df.info()`:提供关于数据类型、索引和内存使用的概述。 - `df.describe()`:对数值列进行统计分析,包括计数、均值、标准差等。 对于Series对象(一维数组),常用操作有: - `s.value_counts(dropna=False)`:统计Series中每个值出现的次数,包括缺失值。 - `df.apply(pd.Series.value_counts)`:应用value_counts方法到DataFrame的所有列。 数据选取方面,Pandas提供了多种灵活的方式: - 列选择:`df[col]` 或 `df[[col1, col2]]`,分别按列名和多个列名选取。 - 行选择:`df[1:3]` 选取指定行范围,`df.loc['index']` 根据索引选取,`df.iloc[0]` 按位置选取。 - 多维度选择:`df.iloc[0, 2:4]` 选取特定行和列,`df.loc[0:3, ['a', 'b']]` 选取行和列名。 同时,NumPy则专注于数值计算,包括数组操作、数学函数和线性代数等功能,但在这里我们没有涉及其详细内容。如果你需要深入了解NumPy,建议查阅相关的官方文档或教程。 Pandas和NumPy是数据分析人员的必备工具,熟练掌握它们可以帮助你高效地处理和分析各种结构化数据。通过不断实践和理解这些核心操作,你可以更好地应对各种数据处理任务。