pandas数据骚操作总结_pandas用法 - CSDN文库

需积分: 13 89 浏览量更新于2023-05-20 评论收藏 940KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

Pandas之数据骚操作
Wechat:skyloving123  作者：朝天椒  公众号：辣椒哈哈
关于公众号：用于记录吃着辣椒的学习旅程
Pandas之数据骚操作
Pandas介绍
Pandas数据格式
Pandas与文件
Pandas的常用统计方法
Pandas对数据的基本操作
Pandas对空值(NaN)的骚操作
Pandas对重复数据的骚操作
Pandas对索引以及数据的行列转换骚操作
Pandas对字符串类型列的骚操作
Pandas对某列中不同数据类型的骚操作
Pandas之grouped最强骚操作
Pandas多个文件的拼接骚操作
Pandas的高效性能骚函数
Pandas特征工程中的几个骚函数
Pandas介绍
【
Pandas
在
处
理
表
格
数
据
已
经
封
装
的
很
好
了
，
只
有
你
想
不
到
的
，
学
会
谷
歌
很
关
键
】
Pandas作为python语言中进行小量级表格(数据能在本地电脑能进行读写删除操作，
一般： 0-5G以内 )数据分析的大杀器，在目前国内数据挖掘比赛以及工作中常用工
具， 朝天椒 使用其进行了快一年的工作实践以及一些数据挖掘的比赛，在工作实践中
时常比较各种操作的优劣势、请教队友、同事的code以及学习方法，发现最好的学习
方法就是给脑洞大开的产品经理清洗复杂数据以及业务逻辑，当对常用的接口有一定
的了解之后，解决问题的方法就是谷歌和查看Pandas_API的官方文档，本文的意义在
于总结工作中常用操作以及收集各路大神code中的一些骚操作，使得入门者能够快速
的使用pandas高效处理数据。
Pandas数据格式
DataFrame:为多行多列数据

Series：一列数据，由默认index和values组成

针对DataFrame格式的数据，当对其进行操作时，有行和列之分，大部分的函数都有

一个参数控制是对行进行操作还是列进行操作：axis

Pandas与文件

pandas支持各种类型的文件格式的读写操作例如：csv、txt、json、execl等，实际工作中

一般以CSV文件格式为主，故介绍读写CSV文件的常用参数：

sep ：数据以什么样的分隔符进行隔开；

header :当数据中的没有列名时，如果该参数为默认，读取数据时会将第一行数据设置为列

名，因此需要将该参数设置为 None 就会将自动调加[0(df.shape11)]的列名，如果你想要不那

么不美观可以将 predix 参数设置为 aa ，则列名前面会增加aa字符串；

usecols、nrows、skiprows :读取设定的行数和列数，当数据量特别大的时候，但是没有服

务器，可以对其进行截断读取；

dtype :设置列的数据类型，pandas的数据类型和语言差不多(object(string),int,float等)

engine :当文件的名字为中文名字时，例如: 哈哈.csv ,需要将其设置为 python 才可进行读

取，不然会报错。

import pandas as pd

# 读取csv文件的接口函数，给出目前用到的参数接口，如果使用jupyter notebook进行数据

#分析，当忘记接口参数时，可以使用命令？pd.read_csv()进行参数查看

df = pd.read_csv('test.csv', sep='\t', header='infer',

names=None, usecols=None, prefix=None,

dtype=None, engine='python', skiprows=None,

nrows=None, enconding='utf-8')

Pandas的常用统计方法

数据的常用操作：是否在某个集合里面isin，与&，或|，非~，等于==，大于>,小于<，

是否为空isnull，是否不为空notnull，重复值duplicated，

常用数据统计信息（数值型数据）：最大值 max ，最小值min，中位数median，方差

var，标准差std，偏差skew，不重复的个数nunique，相关系数corr，协方差矩阵cov，非

空值的个数count，值的个数（series）values_count，求和sum,包括空值的大小size，移

动shift，差分diff，调用方法，代码中 axis 参数控制按行（ 1 ）还是按列（ 0 ）操作：

数据的描述信息：魔鬼函数describe()

各行列的数据类型：家底函数info()

对数据翻转：df.T

剩余12页未读，继续阅读

评论0

财天椒

粉丝: 85
资源: 4

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈