掌握pandas核心：Series与DataFrame基础

29 浏览量更新于2024-08-28 收藏 91KB PDF 举报

本文档主要介绍了Python中的数据科学库pandas的核心数据结构——Series和DataFrame，以及Panel的简要概述。pandas是处理大量结构化数据的强大工具，适用于数据分析和数据清洗任务。 **一、Series** Series是pandas的重要数据结构，它是一维的标签数组，可以存储各种类型的数据，如整数、浮点数、字符串或Python对象。Series的主要特点是带有索引，这使得数据具有更强的标识性。Series可以通过以下方式创建： 1.1 从ndarray创建：通过`pd.Series()`函数，指定随机生成的ndarray数据和自定义索引，如`np.random.randn(5)`与`index=['a','b','c','d','e']`。 1.2 从字典创建：将字典直接传递给`pd.Series()`，可以使用自定义索引，未在字典中存在的键将被赋值为NaN。 2. Series对象特性： - 类似于ndarray：Series是ndarray的子类，提供了许多类似的数学和统计操作。 - 类似于字典：每个元素都有一个对应的标签（即索引），可以像字典那样通过标签访问或修改元素。 3. 标签对齐操作：pandas支持灵活的标签对齐，当进行元素操作时，会根据索引自动调整数据。 4. `name`属性：可以设置Series的名称，提供额外的标识信息。 **二、DataFrame** DataFrame是pandas的二维表格型数据结构，类似于电子表格或SQL表。它由多个Series组成，每列可以有不同的数据类型。DataFrame的创建方法包括： 1.1 从字典创建：通过字典构建，每一列对应字典的键，数据类型取决于键对应的值。 1.2 结构化数据创建：可以从CSV、Excel、数据库等源直接读取数据生成DataFrame。 1.3 从其他数据结构创建：如字典列表、元组字典或Series。 2. DataFrame的操作： - 列选择/增加/删除：通过列名选取特定列，`del`语句删除列，`insert()`用于插入新列。 - 索引和选择：DataFrame支持复杂索引，可以按行或列选择数据。 - 数据对齐：在进行操作时，DataFrame会自动对齐列的标签和数据。 - 使用numpy函数：DataFrame与numpy紧密集成，可以直接应用numpy函数。 3. Tab键自动完成：在交互式环境中，使用Tab键可以提供列名和函数建议，方便快捷。 **三、Panel** Panel在早期版本的pandas中存在，但已被弃用，推荐使用更现代的MultiIndex和Hierarchical Index功能来实现类似的功能。Panel曾允许同时处理多维数据，但在pandas 0.17版本后，已经转向了更灵活的标签系统。掌握pandas的Series和DataFrame是数据科学入门的关键，它们提供了一种高效、灵活的方式来组织和操作数据。对于更高级的数据分析和数据操作，理解这些核心数据结构及其操作方式是至关重要的。

数据科学包数据科学包——pandas基础（核心数据结构）基础（核心数据结构）

文章目录文章目录一、Series1.创建1.1 从 ndaray 创建1.2 从字典创建1.3 从标量创建2.Series对象2. Series 是类 ndarray 对象2.2

Series 是类字典对象3.标签对齐操作4.name属性二、DataFrame1.创建1.1 从字典创建1.2 从结构化数据中创建1.3 从字典列表

创建1.4 从元组字典创建1.5 从 Series 创建2.列选择/增加/删除2.1 选择列2.2 删除列2.3 插入列3.索引和选择4.数据对齐5.使用

numpy 函数6.Tab键自动完成三、Panel

一、一、Series

Series 是一维带标签的数组，数组里可以放任意的数据（整数，浮点数，字符串，Python Object）。其基本的创建函数是：

s = pd.Series(data, index=index)

其中 index 是一个列表，用来作为数据的标签。data 可以是不同的数据类型：

Python 字典

ndarray 对象

一个标量值，如 5

1.创建创建

1.1 从从 ndaray 创建创建

>>> s=pd.Series(np.random.randn(5),index=['a','b','c','d','e'])

>>> s

a -0.485521

b -0.286831

c 1.292780

d -0.625325

e -0.936284

dtype: float64

>>> s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

注意Series，开头S必须大写

>>> s=pd.Series(np.random.randn(5))

>>> s

0 -1.657662

1 0.149248

2 1.728224

3 0.058451

4 0.345831

dtype: float64

>>> s.index

RangeIndex(start=0, stop=5, step=1)

1.2 从字典创建从字典创建

创建一个字典d，直接转换为Series

>>> s=pd.Series(d)

>>> s

a 0.0

b 1.0

d 3.0

dtype: float64

自定义行标签，字典中若没有对应的键，赋值为NaN

>>> d = {'a' : 0., 'b' : 1., 'd' : 3}

>>> s=pd.Series(d,index=list('absd'))

>>> s

a 0.0

b 1.0

s NaN

d 3.0

dtype: float64

1.3 从标量创建从标量创建

>>> s=pd.Series(3,index=range(5))

>>> s

0 3

1 3

2 3

3 3

下载后可阅读完整内容，剩余9页未读，立即下载

weixin_38725531

粉丝: 5
资源: 872

掌握pandas核心：Series与DataFrame基础

54820-数据科学导论——基于Python语言（微课版）-数据集.zip.zip

深入了解Python库与数据科学的联结 —— Pandas-Nosql介绍

DataWhale——Task01：Pandas基础

数据科学基础：Pandas，Numpy，ScikitLearn，TensorFlow等基础知识

西电数据挖掘作业——医院数据处理

Pandas——练习题一：在校生饮酒消费数据分析

【Pandas学习笔记01】强大的分析结构化数据的工具集（csdn）————程序.pdf

Pandas基础入门：文件读写与基本数据结构详解

《跟老齐学Python:数据分析》——机器学习与数据结构初学者指南

Python数据分析入门：numpy与pandas基础教程

最新资源