Pandas入门：数据结构与索引操作详解

5 浏览量更新于2024-08-29 收藏 151KB PDF 举报

n", 'o', 'p'] # obj2.values 保持不变，仍然是[4, 7, -5, 3] # 但索引已更新为['m', 'n', 'o', 'p'] # 因此，访问元素的方式也会相应改变，如： obj2['n'] 7 # 二，DataFrame # DataFrame是二维表格型数据结构，它含有一系列有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。 # DataFrame既有行索引也有列索引，可以被看作是由Series组成的字典，或者说是一个表格形式的字典，其中键是列名，值是Series。 # 创建DataFrame的基本方式是通过字典的列表： data = {'city': ['Beijing', 'Shanghai', 'Guangzhou'], 'population': [21542000, 24256800, 13081000], 'area': [16410, 6340, 7434]} df = pd.DataFrame(data) # df # city population area # 0 Beijing 21542000 16410 # 1 Shanghai 24256800 6340 # 2 Guangzhou 13081000 7434 # DataFrame的列名可以通过.keys()方法获取，数据可以通过列名或位置访问： df.columns Index(['city', 'population', 'area'], dtype='object') df['population'] # 输出人口数量的Series # 0 21542000 # 1 24256800 # 2 13081000 # Name: population, dtype: int64 # 三，Panel # Panel是Pandas中的三维数据结构，类似于DataFrame的扩展，它有三个轴：items、major_axis 和 minor_axis。 # 通常在实际应用中不如DataFrame常见，这里不做详细介绍。 # 索引操作 # 索引在Pandas中非常重要，它不仅用于数据的选取，还可以作为数据的一部分。Pandas提供了丰富的索引操作，包括选择、切片、布尔索引等。 # 数据运算 # Pandas提供了大量的数据运算功能，包括统计函数（如mean, sum, count等）、描述性统计、合并与连接、重采样和时间序列分析等。 # 层次化索引 # 层次化索引（Hierarchical Indexing）允许在一个轴上设置多级索引，这可以用来处理高维度的数据，或者创建具有复杂索引结构的数据集。 # 数据读取与存储 # Pandas支持多种数据格式的读取和写入，包括CSV、TXT、JSON、Excel、数据库文件等，方便数据的导入导出。 # 数据清洗与整理 # 数据清洗涉及缺失值处理、重复值检测、异常值识别等，Pandas提供了诸如dropna、fillna、replace等方法进行数据清理。数据整理则包括列的排序、重命名、合并、重塑等操作。 # 数据分组与聚合 # 使用groupby方法可以对数据进行分组，然后对每个组进行聚合操作，如计算平均值、总和等。这对于数据分析中的分组统计非常有用。 # 时间序列 # Pandas特别适合处理时间序列数据，它内置了对日期和时间的处理函数，支持时间序列的重采样、窗口统计等操作。 Pandas是Python数据分析中的核心库，其强大的数据结构和索引功能使得数据处理变得高效便捷。无论是数据清洗、分析还是建模，Pandas都能提供强大支持。通过学习和掌握Pandas，可以极大地提升数据工作的效率。

# 8）Series_obj.name 属性和 Series_obj.index.name 属性：

# 可以修改这两个属性(默认为None)，他们往往和pandas的其他重要功能集成在一起。

print(obj4.name)

print(obj4.index.name)

obj4.name="population" # 人口

obj4.index.name="state" # 州

obj4

None

state

Tom NaN

Ohio 35000.0

Ivan NaN

Utah 1000.0

Name: population, dtype: float64

# 9) 按索引改变 Series对象的元素值：

# obj = pd.Series([4,7,-5,3],index=['Bob','Steve','Jeff','Ryan'])

obj = pd.Series([4,7,-5,3])

obj.index=['Bob1','Steve1','Jeff1','Ryan1'] obj['Steve1']=10

obj

Bob1 4

Steve1 10

Jeff1 -5

Ryan1 3

dtype: int64

# 二，DataFrame

# 表示矩阵数据表，包含已经排序的列集合，每一列可以是不同的值类型（数值，字符串，布尔值等）。

# 既有行索引，也有列索引。

# 可以被视为共享相同索引的 Series的字典。

# 数据被存储为一个以上的二维块，而不是列表，字典或其他一维数组的集合。

# Note: 尽管 DataFrame是二维的，但可以利用分层索引在DataFrame中展现更高维度的数据。分层索引是pandas中一种更为

高级的数据处理特性。

# DataFrame 既可以创建而来，也可以由其他数据类型转化而来。

# 1）创建 DataFrame:

# 给 pd.DataFrame()传入由长度相等的列表，数组或元组组成的字典，创建DataFrame 对象.

# 字典的键位 DataFrame的列索引。

# DataFrame 构造函数的有效输入:

# 二维数组 2d ndarray 数据矩阵，行列的索引标签是可选参数 1-10）

# 数组，列表，元组,序列构成的字典每个序列成为 DataFrame 的一列，所有的序列必须长度相等 1-1）至 1-5）

# Numpy 结构化/记录化数组与数组构成的字典一致

# Series 构成的字典每个 Series为一列，Series的索引合并为行索引，也可以显式的传递索引 1-1）至 1-4）

# 字典构成的字典（嵌套字典）每一个内部字典形成一列，键联合起来形成结果的行索引 1-6）

# 字典或Series构成的列表列表中的一个元素形成 DataFrame的一行，字典的键或Series索引联合起来形成 DataFrame的列

标签 1-8）1-9)

# 列表或元组构成的列表与 2d ndarray的情况一致 1-7)

# 其他DataFrame 如果不显式传递索引，则会使用原 DataFrame 的索引

# Numpy MaskedArray 与 2d ndarray的情况类似，但隐藏值会在结果DataFrame 中成为 NA/缺失值

# 1-1) pd.DataFrame(dict_ndarrayvalu)

from pandas import Series,DataFrame

import pandas as pd

import numpy as np

data={

'name':np.array(['张三','李四','王五','小明']),

'sex':np.array(['female','female','male','male']),

'year':np.array([2001,2001,2003,2002]),

'city':np.array(['北京','上海','广州','深圳'])

}

df=DataFrame(data)

剩余10页未读，继续阅读

weixin_38629362

粉丝: 6
资源: 967

Pandas入门：数据结构与索引操作详解

3.Pandas 数据结构 – Series _ 菜鸟教程.pdf

4.Pandas 数据结构 – DataFrame _ 菜鸟.pdf

Pandas学习 – 基础

Python–Numpy&pandas（二）

kaggle实战_4解决高维数据分类/回归问题–房价预测

Python时间序列–时间段（一）

Pandas教程：探索Series数据结构

时间序列分析基础及常用技术

Hadoop序列文件与MapReduce高级技巧：提升大数据处理效率的6大策略

pandas数据更新索引

最新资源