Python数据分析速查：Pandas与Numpy核心功能

下载需积分: 21 | DOCX格式 | 36KB | 更新于2024-09-03 | 118 浏览量 | 举报

1 收藏

Pandas和NumPy是Python中两个强大的数据分析和科学计算库，尤其在处理结构化数据时表现出色。这个速查表整理了关于这两个库的关键知识点，旨在帮助你在日常工作中快速查询和操作数据。首先，让我们从Pandas的核心组件——DataFrame开始。DataFrame是Pandas中的主要数据结构，它类似于二维表格，包含了行和列，每列可以包含不同的数据类型。导入数据的方式多样： 1. `pd.read_csv(filename)`：用于从CSV文件中加载数据，这是最常见的数据导入方式。 2. `pd.read_table(filename)`：适用于非标准分隔符的文本文件，如TSV。 3. `pd.read_excel(filename)`：用于读取Excel文件，支持多种格式。 4. `pd.read_sql(query, connection_object)`：通过SQL查询从数据库导入数据，适合与数据库交互。 5. `pd.read_json(json_string)`：将JSON格式的字符串转换为DataFrame。 6. `pd.read_html(url)`：解析URL或HTML文档中的表格，常用于网络爬虫数据处理。 7. `pd.read_clipboard()`：直接从剪贴板读取数据并导入。数据导出同样灵活： - `df.to_csv(filename)`：将DataFrame保存为CSV文件。 - `df.to_excel(filename)`：保存为Excel文件。 - `df.to_sql(table_name, connection_object)`：将数据写入SQL数据库。 - `df.to_json(filename)`：将DataFrame序列化为JSON格式的文本文件。查看数据方面，Pandas提供了便捷的方法： - `df.head(n)`：显示数据的前n行，通常用于快速预览数据。 - `df.tail(n)`：查看数据的后n行。 - `df.shape()`：返回DataFrame的行数（行）和列数（列）。 - `df.info()`：提供关于数据类型、索引和内存使用的概述。 - `df.describe()`：对数值列进行统计分析，包括计数、均值、标准差等。对于Series对象（一维数组），常用操作有： - `s.value_counts(dropna=False)`：统计Series中每个值出现的次数，包括缺失值。 - `df.apply(pd.Series.value_counts)`：应用value_counts方法到DataFrame的所有列。数据选取方面，Pandas提供了多种灵活的方式： - 列选择：`df[col]` 或 `df[[col1, col2]]`，分别按列名和多个列名选取。 - 行选择：`df[1:3]` 选取指定行范围，`df.loc['index']` 根据索引选取，`df.iloc[0]` 按位置选取。 - 多维度选择：`df.iloc[0, 2:4]` 选取特定行和列，`df.loc[0:3, ['a', 'b']]` 选取行和列名。同时，NumPy则专注于数值计算，包括数组操作、数学函数和线性代数等功能，但在这里我们没有涉及其详细内容。如果你需要深入了解NumPy，建议查阅相关的官方文档或教程。 Pandas和NumPy是数据分析人员的必备工具，熟练掌握它们可以帮助你高效地处理和分析各种结构化数据。通过不断实践和理解这些核心操作，你可以更好地应对各种数据处理任务。



导入数据：

：从  文件导入数据

：从限定分隔符的文本文件导入数据

：从  文件导入数据

 !  "：从 #$ 表%库导入数据

" " &：从 '() 格式的字符串导入数据

*：解析 +,$、字符串或者 -./$ 文件，抽取其中的  表格

 ：从你的粘贴板获取内容，并传给 

01：从字典对象导入数据，2 是列名， 是数据

导出数据：

3 ：导出数据到  文件

3 ：导出数据到  文件

3  !  "：导出数据到 #$ 表

3 " ：以 '  格式导出数据到文本文件

查看数据：

3*：查看 01 对象的前  行

3：查看 01 对象的最后  行

3*：查看行数和列数

33 ：查看索引、数据类型和内存信息

3：查看数值型列的汇总统计

  41：查看  对象的唯一值和计数

3 ：查看 01 对象中每一列的唯一值和计数

数据选取：

只选行%列： 356789：选取 : 行和 8 行

35 9：根据列名，并以  的形式返回列

355 6 :99：以 01 形式返回多列

 5;;9：按索引选取数据

 5<9：按位置选取数据

选行列：

3 5<:7=9：返回 3（选取列不可以索引列名）

3 5<785>?>?99：返回 3（选取列不可以索引数字）

选特定行列：3535 9@<A9：选择   列的值大于 <A 的行

下载后可阅读完整内容，剩余8页未读，立即下载

友人帐--

粉丝: 0

Python数据分析速查：Pandas与Numpy核心功能

Pandas 主要知识点.pdf

十分钟搞定pandas

python——pandas总结1

Pandas学习笔记常用功能.docx

Python笔记.docx

python学习笔记.docx

python速成笔记.docx

Python 程序设计语言 笔记.docx

Python基础入门课程-学习笔记.docx

Python大数据处理与分析-习题答案.docx.docx

最新资源

Python 程序设计语言笔记.docx