Pandas进阶操作：数据清洗与分析技巧

dataframe

118 浏览量更新于2024-08-29 1 收藏 74KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

本教程主要涉及Pandas库在数据清洗、排序、索引设置和数据选取方面的常用操作，适用于已有Pandas基础知识的学习者。Pandas提供了两种主要的数据结构：Series和DataFrame。Series是一维的数据结构，而DataFrame是二维表格型数据结构，其中每个列都可视为一个Series。在Pandas中，基础属性包括`shape`（获取数据的行数和列数）、`index`（数据的索引）、`columns`（列名）、`values`（获取数据的数值形式）和`dtypes`（查看每列数据的类型）。此外，`describe()`用于提供数据的基本统计信息，如均值、标准差等；`head()`和`tail()`分别用于查看数据的前几行和后几行。统计属性中，`count()`方法计算非NA值的数量，`value_counts()`则统计各唯一值出现的次数，并按出现频率降序排列。`isnull()`和`notnull()`函数分别用于检测DataFrame中是否有空值，返回结果为True或False的布尔数组。对于数据清洗，Pandas提供了多种处理缺失值的方法。`drop()`函数可以按照标签或轴删除指定的行或列，`dropna()`函数用于移除含有空值的行或列，`dropna()`的参数`how`、`axis`和`thresh`可以灵活控制处理方式。`fillna()`函数则用于填充空值，可以指定填充的值或者使用方法如`ffill`进行前向填充。`replace()`功能强大，可以用来替换特定值，支持单个值、多个值或列表的替换，也可以将值替换为其他值或NaN。排序方面，Pandas的`sort_values()`和`sort_index()`函数可用于按值或索引对数据进行升序或降序排序。索引设置可以通过`set_index()`和`reset_index()`改变数据的索引结构，例如将某一列设为索引或将索引还原为列。数据选取方法主要包括列选择（通过列名`df['column_name']`）、行选择（通过行索引`df.loc[row_indexer]`或`df.iloc[row_indexer]`）、条件选择（使用布尔索引`df[df['column_name'] > value]`）等。总结，Pandas是Python中强大的数据分析工具，其提供的系列操作使得数据清洗、排序和选取变得简单高效。通过熟练掌握这些基础知识，可以更有效地进行数据预处理和分析。

资源详情

资源推荐

pandas数据清洗数据清洗,排序排序,索引设置索引设置,数据选取方法数据选取方法

此教程适合有pandas基础的童鞋来看，很多知识点会一笔带过，不做详细解释

Pandas数据格式数据格式

Series

DataFrame：每个：每个column就是一个就是一个Series

基础属性shape,index,columns,values，dtypes，describe(),head(),tail()

统计属性Series： count(),value_counts()，前者是统计总数，后者统计各自value的总数

df.isnull() df的空值为True

df.notnull() df的非空值为True

修改列名修改列名

df.rename(columns = {'key':'key2'},inplace=True)

更改数据格式astype()

isin #计算一个“Series各值是否包含传入的值序列中”的布尔数组

unique #返回唯一值的数组

value_counts #返回一个Series，其索引为唯一值，值为频率，按计数降序排列

数据清洗数据清洗

丢弃值drop()

df.drop(labels, axis=1)# 按列（axis=1），丢弃指定label的列,默认按行。。。

丢弃缺失值丢弃缺失值dropna()

# 默认axi=0（行）；1（列），how=‘any'

df.dropna()#每行只要有空值，就将这行删除

df.dropna(axis=1)#每列只要有空值，整列丢弃

df.dropna(how='all')# 一行中全部为NaN的，才丢弃该行

df.dropna(thresh=3)# 每行至少3个非空值才保留

缺失值填充缺失值填充fillna()

df.fillna(0)

df.fillna({1:0,2:0.5}) #对第一列nan值赋0，第二列赋值0.5

df.fillna(method='ffill') #在列方向上以前一个值作为值赋给NaN

值替换值替换replace()

# 将df的A列中 -999 全部替换成空值

df['A'].replace(-999, np.nan)

#-999和1000 均替换成空值

obj.replace([-999,1000], np.nan)

# -999替换成空值，1000替换成0

obj.replace([-999,1000], [np.nan, 0])

# 同上，写法不同，更清晰

obj.replace({-999:np.nan, 1000:0})

重复值处理重复值处理duplicated()，，unique()，，drop_duplictad()

df.duplicated()#两行每列完全一样才算重复，后面重复的为True，第一个和不重复的为false，返回true

#和false组成的Series类型

df.duplicated('key')#两行key这一列一样就算重复

df['A'].unique()# 返回唯一值的数组（类型为array）

df.drop_duplicates(['k1'])# 保留k1列中的唯一值的行，默认保留第一行

df.drop_duplicates(['k1','k2'], take_last=True)# 保留 k1和k2 组合的唯一值的行，take_last=True 保留最后一行

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38713393

粉丝: 8
资源: 878

Pandas进阶操作：数据清洗与分析技巧

pandas通过索引进行排序的示例

Pandas数据分析笔记

pandas数据清洗常用方法

pandas数据清洗代码

pandas数据清洗能算计算机技术吗

pandas数据清洗常用的方法

头歌pandas数据清洗答案

第一关pandas数据清洗

pandas数据清洗楼盘

pandas数据清洗示例

pandas数据清洗 csv

Pandas数据清洗的相关方法有哪些

pandas数据清洗基础头歌

pandas数据清洗 游戏币

（1）在Pandas数据清洗中，处理数据缺失值的方法有哪些？以及噪声数据处理的方法有哪些？请进行分点论述。

pandas数据清洗重复数据

pandas 数据清洗

pandas数据排序可以分为

头歌pandas数据清洗基础

pandas数据清洗excel

最新资源

pandas数据清洗游戏币