Pandas初学者指南：数据结构与操作

12 浏览量更新于2024-09-01 收藏 370KB PDF 举报

“pandas入门，介绍数据结构Series和DataFrame，包括基本操作、索引、选择、增删、算术方法、应用函数、排序和描述性统计。” 在Python数据分析领域，pandas库是一个不可或缺的工具，它提供了高效的数据结构，如Series和DataFrame，用于处理表格型数据。下面是对pandas入门知识的详细讲解。首先，让我们了解两个核心数据结构： 1. **Series**：Series是一种一维的数据结构，类似于带索引的数组。它能够存储各种类型的数据（整数、字符串、浮点数等），并且具有`.values`属性来获取数据，`.index`属性来访问索引，以及`.name`属性来设置或获取Series的名称。创建Series通常涉及传递一个列表或字典，例如： ```python se = pd.Series([4, 7, -5, 3]) se2 = pd.Series({ 'a': 1, 'b': 2, 'c': 3 }) ``` 如果字典的键不完全匹配值的数量，多余的键会成为NaN，反之则会被忽略。 2. **DataFrame**：DataFrame是二维表格型数据结构，包含列名（列标签）和行索引。它能够存储不同类型的列数据，并提供丰富的操作方法。创建DataFrame通常涉及字典、列表、数组或其他DataFrame对象： ```python df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=['row1', 'row2', 'row3']) ``` 接下来，我们关注一些基本操作： - **索引与选择**：使用列名或行索引来访问数据，如`df['column_name']`获取列，`df.loc[row_index]`或`df.iloc[row_index]`选择行。对于多列选择，可以使用列表，如`df[['col1', 'col2']]`。 - **增删操作**：可以使用`df.drop()`方法删除行或列，`df.insert()`添加新列，`df.rename()`更改列名。 - **算术方法**：pandas支持基本数学运算，如加减乘除，可以应用于整个DataFrame或特定列，例如`df + other_df`或`df['A'] * df['B']`。 - **逐元素应用函数**：使用`apply()`函数将自定义函数应用于DataFrame的每个元素，如`df.apply(lambda x: x * 2)`。 - **排序**：`df.sort_values()`根据指定列进行排序，`df.sort_index()`按行索引排序。 - **描述性统计**：使用`df.describe()`可以快速获得数据的统计摘要，包括计数、平均值、标准差等。此外，还有一些全局设置来控制显示效果，如`pd.options.display.max_rows`、`pd.options.display.max_columns`用于控制显示的行数和列数，`pd.set_option('max_colwidth', n)`设置列的最大宽度，`pd.set_option('precision', 2)`控制小数点后的位数。学习和熟练掌握这些基础知识是使用pandas进行数据分析的基础。通过不断的实践，你将能够更有效地处理和分析复杂的数据集。

pandas入门入门

文章目录文章目录数据结构Series属性：生成 Series：检查缺失值：DataFrame构建DataFrame：基本操作：索引，选择，增删基本功能重建索引

*df.reindex()*删除行或列算术方法逐元素应用函数排序描述性统计

概述概述

处理表格型数据，每一列数据类型可以不一样

导入：import pandas as pd

from pandas import Series,DataFrame

常用显示选项：

pd.options.display.max_rows = n ：设置pd对象的显示行数，前后2/n行

*pd.options.display.max_columns = n *：设置pd对象的显示列数，前后2/n列

pd.set_option(‘max_colwidth’,n) :显示pd对象的列长度

pd.set_option(‘precision’, 2) ：显示小数点后的位数

数据结构数据结构

Series

可以自定义索引的一维数组。默认索引是0，1，2…,N-1

属性：属性：

.value :值

.index ：索引

.name: 名字

可以自定义索引的一维数组。默认索引是0，1，2…,N-1

生成生成 Series：：

se = pd.Series(seq,index=[ ])

seq是字典时，索引自动为字典的索引，并且自动排好顺序，不想让索引自动排序的话，就将想要顺序的字典的key的列表传递给index参数。

如果键多值少，则值以NaN(not a number)出现,如果键少值多，则值被移除。

总而言之，以索引索引为准。

se = pd.Series([4,7,-5,3]) # 从列表生成Series，默认索引

print(se.values)

print(se.index)

se2 = pd.Series([4,7,-5,3],index=['d','b','a','c']) # 自定义索引

print(se2.index)

通过索引存取数据，多个索引用索引列表表示，筛选或进行计算时索引将保留：

print(se2['a']) # 通过索引取数

se2['d'] = 6 # 赋值

print(se2[['c','a','d']]) # 多个索引用列表表示，顺序可变

print(se2[se2 > 0]) # 筛选大于0的数，索引仍保留

np.exp(se2) # 计算指数，索引仍保留

se2.name = 'se_name' # 对se2命名

se2.index.name = 'in' # 对se2的索引命名

se2

改变索引,按位置赋值，改变索引后原索引的名字也没有了:

se2.index = ['x','y','z','wb'] # 索引重新赋值，索引可以接收列表

下载后可阅读完整内容，剩余5页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

weixin_38560797

粉丝: 5

Pandas初学者指南：数据结构与操作

2 第二章 pandas入门与实战—《从零开始学Python数据分析》.pdf

Pandas教程(pandas入门教程)速查手册中文PDF完整版最新版本

精心整理 _ 非常全面的Pandas入门教程_pandas入门_

pandas入门.ipynb

Pandas入门20220916.ipynb

startingpandas:Python Pandas入门

8_pandas入门.ipynb

Python使用Pandas入门数据分析

4.1 掌握Pandas入门.ipynb

第5章pandas入门.xmind

最新资源