Pandas基础教程：Series与DataFrame详解

需积分: 39 50 浏览量更新于2023-05-17 1 收藏 909KB PDF 举报

"该资源为Pandas数据处理的PDF文档，涵盖了Pandas库的主要知识点，包括Series和DataFrame的创建、查询、数据操作、储存及运算，以及数据清洗和转换（如groupby）等内容。" 在Python的数据分析领域，Pandas库扮演着至关重要的角色。它提供了高效的数据结构，如Series和DataFrame，使得数据处理变得简单易行。以下是对Pandas主要知识点的详细阐述： **1. Series** Series是Pandas的基础数据结构之一，可以理解为一种一维的、带标签的数组，类似于字典或加了索引的数组。Series对象基于NumPy的ndarray，并扩展了更多的功能。它由两部分组成：索引（index）和值（values）。索引可以是任何不可变的Python对象，如整数、字符串或日期，而值则可以存储各种类型的数据，如整数、浮点数、字符串甚至是复杂的数据结构。创建Series有多种方式： - 通过Python列表创建，不指定索引时，默认使用0, 1, 2, ..., n-1作为位置索引。 - 自定义索引，可以通过传递一个列表或数组作为index参数来设置特定的标签。 - 存储不同数据类型的Series也是可能的，如布尔值、整数、浮点数和字符串等。 **2. DataFrame** DataFrame是Pandas的核心数据结构，二维表格型数据，可以看作是由多个Series组成的字典。每个列可以有不同的数据类型。DataFrame拥有行索引和列索引，可以进行复杂的查询、操作和计算。创建DataFrame的方式包括： - 通过二维列表或者二维NumPy数组创建。 - 通过字典创建，字典的键为列名，值为Series或列表。 DataFrame支持的操作丰富多样，如： - 查询和选择数据：使用`.loc`和`.iloc`方法按标签或位置选取数据。 - 数据操作：包括算术运算、合并（concat）、连接（join）、堆叠（stack）、展开（unstack）等。 - 数据清洗与转换：使用`.fillna()`填充缺失值，`dropna()`删除缺失值，`groupby()`进行分组操作。 - 储存和加载数据：可以将DataFrame写入CSV、Excel、SQL数据库等，也可以从这些文件中读取数据。 **3. 数据清洗和转换** Pandas提供强大的数据清洗和转换工具，其中`groupby()`函数是数据分组的关键。通过对DataFrame按照一个或多个列进行分组，可以对每个组进行聚合操作，如求和、平均、计数等。此外，还有`pivot_table()`用于创建透视表，`merge()`和`join()`用于数据的连接，以及`apply()`函数可以自定义函数应用到DataFrame的行或列。总结，Pandas库为数据科学家提供了强大且灵活的数据处理工具，无论是在数据预处理、探索性数据分析还是构建模型的过程中，都能发挥巨大作用。学习并熟练掌握Pandas的知识点，对于提升数据处理能力至关重要。

48.

小

青

8.0

小

兰

Series 组成的字典创建 DataFrame，同嵌套字典

# 外层键是列索引，内层键是行索引

h_values = {

'name':pd.Series(['小明', '小华', '小红', '小靑', '小兰

'],index=[1, 2, 3, 4, 5]),

'sex':pd.Series([1, 0, 0, 1, 0],index=[1, 2, 3, 4, 5]),

'age':pd.Series([28, 38, 48, 8],index=[2, 3, 4, 5]) # 少一个值

自动填充为 NaN

}

h = pd.DataFrame(hv)

# 指定内层字典键（行索引），没有的值会填充 NaN

i = pd.DataFrame(h_values, index=[3, 4, 2, 6])

ndarray 数组创建 DataFrame

# 自动生成行列索引

j = pd.DataFrame(np.arange(10).reshape(2, 5))

# 自定义行列索引

k = pd.DataFrame(

np.random.randn(6, 4),

index=[1, 2, 3, 4, 5, 6],

columns=['a', 'b', 'c', 'd']

)

1.7133

0.7345

1.3847

2.1239

剩余47页未读，继续阅读

Mr.Material

粉丝: 3290
资源: 27

Pandas基础教程：Series与DataFrame详解

pandas 中文手册.pdf

pandas中文教程

十分钟搞定pandas

pandas中文基础文档.pdf

pandas官方教程0.20.2.pdf

pandas基础使用教程.pdf

2.pandas数据结构项目.pdf

Python pandas openpyxl笔记汇总.pdf

python数据分析pandas快速入门教程.pdf

《Python数据分析与应用》实验二 pandas统计分析基础.pdf

最新资源