没有合适的资源?快使用搜索试试~ 我知道了~
首页pandas数据骚操作总结
pandas数据骚操作总结
需积分: 13 10 下载量 89 浏览量
更新于2023-05-20
评论
收藏 940KB PDF 举报
pandas在工作中的使用总结,以及使用pandas进行特征工程比较常用的方法总结。
资源详情
资源评论
资源推荐
Pandas之数据骚操作
Wechat:skyloving123 作者:朝天椒 公众号:辣椒哈哈
关于公众号:用于记录吃着辣椒的学习旅程
Pandas之数据骚操作
Pandas介绍
Pandas数据格式
Pandas与文件
Pandas的常用统计方法
Pandas对数据的基本操作
Pandas对空值(NaN)的骚操作
Pandas对重复数据的骚操作
Pandas对索引以及数据的行列转换骚操作
Pandas对字符串类型列的骚操作
Pandas对某列中不同数据类型的骚操作
Pandas之grouped最强骚操作
Pandas多个文件的拼接骚操作
Pandas的高效性能骚函数
Pandas特征工程中的几个骚函数
Pandas介绍
【
Pandas
在
处
理
表
格
数
据
已
经
封
装
的
很
好
了
,
只
有
你
想
不
到
的
,
学
会
谷
歌
很
关
键
】
Pandas作为python语言中进行小量级表格(数据能在本地电脑能进行读写删除操作,
一般: 0-5G以内 )数据分析的大杀器,在目前国内数据挖掘比赛以及工作中常用工
具, 朝天椒 使用其进行了快一年的工作实践以及一些数据挖掘的比赛,在工作实践中
时常比较各种操作的优劣势、请教队友、同事的code以及学习方法,发现最好的学习
方法就是给脑洞大开的产品经理清洗复杂数据以及业务逻辑,当对常用的接口有一定
的了解之后,解决问题的方法就是谷歌和查看Pandas_API的官方文档,本文的意义在
于总结工作中常用操作以及收集各路大神code中的一些骚操作,使得入门者能够快速
的使用pandas高效处理数据。
Pandas数据格式
DataFrame:为多行多列数据
Series:一列数据,由默认index和values组成
针对DataFrame格式的数据,当对其进行操作时,有行和列之分,大部分的函数都有
一个参数控制是对行进行操作还是列进行操作:axis
Pandas与文件
pandas支持各种类型的文件格式的读写操作例如:csv、txt、json、execl等,实际工作中
一般以CSV文件格式为主,故介绍读写CSV文件的常用参数:
sep :数据以什么样的分隔符进行隔开;
header :当数据中的没有列名时,如果该参数为默认,读取数据时会将第一行数据设置为列
名,因此需要将该参数设置为 None 就会将自动调加[0(df.shape11)]的列名,如果你想要不那
么不美观可以将 predix 参数设置为 aa ,则列名前面会增加aa字符串;
usecols、nrows、skiprows :读取设定的行数和列数,当数据量特别大的时候,但是没有服
务器,可以对其进行截断读取;
dtype :设置列的数据类型,pandas的数据类型和语言差不多(object(string),int,float等)
engine :当文件的名字为中文名字时,例如: 哈哈.csv ,需要将其设置为 python 才可进行读
取,不然会 报错 。
import pandas as pd
# 读取csv文件的接口函数,给出目前用到的参数接口, 如果使用jupyter notebook进行数据
#分析,当忘记接口参数时,可以使用命令 ?pd.read_csv()进行参数查看
df = pd.read_csv('test.csv', sep='\t', header='infer',
names=None, usecols=None, prefix=None,
dtype=None, engine='python', skiprows=None,
nrows=None, enconding='utf-8')
Pandas的常用统计方法
数据的常用操作:是否在某个集合里面isin,与&,或|,非~,等于==,大于>,小于<,
是否为空isnull,是否不为空notnull,重复值duplicated,
常用数据统计信息(数值型数据):最大值 max ,最小值min,中位数median,方差
var,标准差std,偏差skew,不重复的个数nunique,相关系数corr,协方差矩阵cov,非
空值的个数count,值的个数(series)values_count,求和sum,包括空值的大小size,移
动shift,差分diff,调用方法,代码中 axis 参数控制按行( 1 )还是按列( 0 )操作:
数据的描述信息:魔鬼函数describe()
各行列的数据类型:家底函数info()
对数据翻转:df.T
import pandas as pd
inport numpy as np
rng=np.random.RandomState(0)
df=pd.DataFrame({'key':list('ABCABC'),'data1':range(6),
'data2':range.randint(0,10,6)})
print(df)
df.min(axis=0), df.max(axis=0), df.nunique(axis=0)
df.describe()
df.info()
Pandas对数据的基本操作
查找
1.切片方式:类似python中list的操作方法:df[3:]
2.iloc函数操作方法:df.iloc[:,[1,2,3]],按照行列切片的方式进行选择数据
3.loc函数操作方法:df.loc[:,‘列名’],行按照切片的方式进行选择,列要按照列名进
行选择
4.按条件查找方法:df[条件],例如查找为空的数:df[df[‘a’].isnull()],这里要注意一点
的是,如果数据类型是Series格式的,它支持numpy那种数据过滤方法,例
如:df[df>3]
5.这里有一点就是有时数据需要输出偶数列的数据,有用到这种写法df.iloc[::2,:],
其中第一个里面为::2代表的意思是从开始到最后,每隔2输出数据。
删除
1.删除空值:df.dropna()
2.删除以行列数据:df.drop(),其中axis=0,1用于调节按行还是按列,如果想要批
量的删除行数据,可参考操作:drop_index=df[条件].index.tolist()df=
df.drop(drop_index,axis=0)
3.按条件删除数据:df=df[条件]
插入
1.插入一行或一列数据:df.insert()
2.将表中数据的某个值替换为其它的值:df.replace(old,new)
排序
1.对DataFrame类型的数据的行列进行排序:df.sort_values([‘a’,‘b’,‘c’],ascendig=
[False,False,True]),对列a,b,c按照不同的排序方式进行排序。
列名的重新命名
1.df.rename({‘old_name’:’new_name’},axis=1,inplace=True)对文件的某些列进行重
新命名
2.df.columns=[‘a’,‘b’]直接对整个文件的列进行重新命名
Pandas对空值(NaN)的骚操作
剩余12页未读,继续阅读
财天椒
- 粉丝: 85
- 资源: 4
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0