Pandas初学者指南:Series与DataFrame解析

3 下载量 76 浏览量 更新于2024-08-29 收藏 84KB PDF 举报
"Pandas是Python数据分析库,基于Numpy构建,提供高效的数据处理能力。它包含两种核心数据结构:Series和DataFrame。Series是一维数据结构,可以看作是有索引的标量序列,类似字典但与之不同的是,每个元素都有一个与之关联的标签(索引)。可以通过一组数据和可选的索引来创建Series,索引可以被修改。例如,创建一个简单的Series: ```python obj = Series([1, 2, 3, 4]) ``` Series的`values`属性返回其数组表示,`index`属性返回索引对象。可以对索引进行赋值操作,如: ```python obj.index = ['a', 'b', 'c', 'd'] ``` 字典可以用来创建带有特定索引的Series: ```python sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000} obj = Series(sdata) ``` DataFrame是二维表格型数据结构,拥有行索引和列索引。DataFrame可以由等长的列表或Numpy数组组成的字典构建,其中字典的键作为列名,值作为数据。例如: ```python data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'], 'year': [2000, 2001, 2002, 2001, 2002], 'pop': [1.5, 1.7, 3.6, 2.4, 2.9]} frame = DataFrame(data) ``` 此DataFrame包含三列:'state', 'year', 'pop',以及五行数据。这些数据可以进一步进行各种统计分析、数据清洗、合并和重塑等操作。" 在这段介绍中,我们学习了Pandas的基础知识,包括如何创建和操作Series和DataFrame。Series作为一维数据结构,可以通过列表和索引创建,同时支持通过字典创建并指定索引。DataFrame是更复杂的二维数据结构,类似于电子表格,可以存储多列不同类型的数据,并提供了丰富的数据分析功能。这两个数据结构是Pandas库的核心,使得在Python中进行数据处理变得非常便捷。