没有合适的资源?快使用搜索试试~ 我知道了~
首页数据清洗之 数据离散化
数据清洗之 数据离散化
12 下载量 190 浏览量
更新于2023-05-02
评论
收藏 71KB PDF 举报
数据离散化 数据离散化就是分箱 一把你常用分箱方法是等频分箱或者等宽分箱 一般使用pd.cut或者pd.qcut函数 pandas.cut(x, bins, right=True, labels) x: 数据 bins: 离散化的数目,或者切分的区间 labels: 离散化后各个类别的标签 right: 是否包含区间右边的值 import pandas as pd import numpy as np import os os.getcwd() 'D:\\Jupyter\\notebook\\Python数据清洗实战\\数据' os.chdir('D:\\Jupyter\\noteboo
资源详情
资源评论
资源推荐
数据清洗之数据清洗之 数据离散化数据离散化
数据离散化数据离散化
数据离散化就是分箱
一把你常用分箱方法是等频分箱或者等宽分箱
一般使用pd.cut或者pd.qcut函数
pandas.cut(x, bins, right=True, labels)
x: 数据
bins: 离散化的数目,或者切分的区间
labels: 离散化后各个类别的标签
right: 是否包含区间右边的值
import pandas as pd
import numpy as np
import os
os.getcwd()
'D:\Jupyter\notebook\Python数据清洗实战\数据'
os.chdir('D:\Jupyter\notebook\Python数据清洗实战\数据')
df = pd.read_csv('MotorcycleData.csv', encoding='gbk', na_values='Na')
def f(x):
if '$' in str(x):
x = str(x).strip('$')
x = str(x).replace(',', '')
else:
x = str(x).replace(',', '')
return float(x)
df['Price'] = df['Price'].apply(f)
df['Mileage'] = df['Mileage'].apply(f)
df.head(5)
Condition Condition_Desc Price Location Model_Year Mileage Exterior_Color Make Warranty Model … Vehicle_Title OBO Feedback_Perc Watch_Count N_Reviews Seller_Status
0 Used
mint!!! very low
miles
11412.0
McHenry,
Illinois,
United
States
2013.0 16000.0 Black
Harley-
Davidson
Unspecified Touring … NaN FALSE 8.1 NaN 2427 Private Seller
1 Used Perfect condition 17200.0
Fort
Recovery,
Ohio,
United
States
2016.0 60.0 Black
Harley-
Davidson
Vehicle has
an existing
warranty
Touring … NaN FALSE 100 17 657 Private Seller
2 Used NaN 3872.0
Chicago,
Illinois,
United
States
1970.0 25763.0 Silver/Blue BMW
Vehicle does
NOT have
an existing
warranty
R-
Series
… NaN FALSE 100 NaN 136 NaN
3 Used
CLEAN TITLE
READY TO
RIDE HOME
6575.0
Green
Bay,
Wisconsin,
United
States
2009.0 33142.0 Red
Harley-
Davidson
NaN Touring … NaN FALSE 100 NaN 2920 Dealer
4 Used NaN 10000.0
West
Bend,
Wisconsin,
United
States
2012.0 17800.0 Blue
Harley-
Davidson
NO
WARRANTY
Touring … NaN FALSE 100 13 271 OWNER
5 rows × 22 columns
df['Price_bin'] = pd.cut(df['Price'], 5, labels=range(5))
# 计算频数
df['Price_bin'].value_counts()
0 6762
1 659
2 50
3 20
4 2
Name: Price_bin, dtype: int64
%matplotlib inline
df['Price_bin'].value_counts().plot(kind='bar')
df['Price_bin'].hist()
weixin_38690830
- 粉丝: 4
- 资源: 996
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0