数据清洗之数据离散化_数据离散化的常见方法

数据清洗

190 浏览量更新于2023-05-02 评论收藏 71KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

数据清洗之数据清洗之数据离散化数据离散化

数据离散化数据离散化

数据离散化就是分箱

一把你常用分箱方法是等频分箱或者等宽分箱

一般使用pd.cut或者pd.qcut函数

pandas.cut(x, bins, right=True, labels)

x: 数据

bins: 离散化的数目，或者切分的区间

labels: 离散化后各个类别的标签

right: 是否包含区间右边的值

import pandas as pd

import numpy as np

import os

os.getcwd()

'D:\Jupyter\notebook\Python数据清洗实战\数据'

os.chdir('D:\Jupyter\notebook\Python数据清洗实战\数据')

df = pd.read_csv('MotorcycleData.csv', encoding='gbk', na_values='Na')

def f(x):

if '$' in str(x):

x = str(x).strip('$')

x = str(x).replace(',', '')

else:

x = str(x).replace(',', '')

return float(x)

df['Price'] = df['Price'].apply(f)

df['Mileage'] = df['Mileage'].apply(f)

df.head(5)

Condition Condition_Desc Price Location Model_Year Mileage Exterior_Color Make Warranty Model … Vehicle_Title OBO Feedback_Perc Watch_Count N_Reviews Seller_Status

0 Used

mint!!! very low

miles

11412.0

McHenry,

Illinois,

United

States

2013.0 16000.0 Black

Harley-

Davidson

Unspecified Touring … NaN FALSE 8.1 NaN 2427 Private Seller

1 Used Perfect condition 17200.0

Fort

Recovery,

Ohio,

United

States

2016.0 60.0 Black

Harley-

Davidson

Vehicle has

an existing

warranty

Touring … NaN FALSE 100 17 657 Private Seller

2 Used NaN 3872.0

Chicago,

Illinois,

United

States

1970.0 25763.0 Silver/Blue BMW

Vehicle does

NOT have

an existing

warranty

R-

Series

… NaN FALSE 100 NaN 136 NaN

3 Used

CLEAN TITLE

READY TO

RIDE HOME

6575.0

Green

Bay,

Wisconsin,

United

States

2009.0 33142.0 Red

Harley-

Davidson

NaN Touring … NaN FALSE 100 NaN 2920 Dealer

4 Used NaN 10000.0

West

Bend,

Wisconsin,

United

States

2012.0 17800.0 Blue

Harley-

Davidson

WARRANTY

Touring … NaN FALSE 100 13 271 OWNER

5 rows × 22 columns

df['Price_bin'] = pd.cut(df['Price'], 5, labels=range(5))

# 计算频数

df['Price_bin'].value_counts()

0 6762

1 659

2 50

3 20

4 2

Name: Price_bin, dtype: int64

%matplotlib inline

df['Price_bin'].value_counts().plot(kind='bar')

df['Price_bin'].hist()

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余2页未读，立即下载

weixin_38690830

粉丝: 4
资源: 996

会员权益专享

数据清洗之数据离散化

评论0

会员权益专享

最新资源

数据清洗之 数据离散化

评论0

ArcGIS教程：离散数据与连续数据

使用pandas实现连续数据的离散化处理方式(分箱操作)

matlab离散化数据程序

对数据进行描述、清洗、转换、规约、离散化

一份csv文件，对其中的数据进行描述、清洗、转换、规约、离散化等预处理工作

使用pandas库如何进行数据清洗和数据预处理

数据清洗和预处理的流程

数据预处理掌握数据合并的基本原理与方法 2、掌握数据清洗的基本方法 3、掌握数据标准化方法 4、掌握数据转换的常用方法

数据可视化 中数据预处理是指

一份csv文件，对其中的数据进行描述、清洗、转换、规约、离散化等预处理工作，提供python代码

10、简述数据预处理包含的内容，用pandas包如何进行数据清洗。

简述数据可视化分析的基本过程。

数据挖掘怎么进行数据预处理

如何利用数据仓库对用户画像数据进行清洗、转换和聚合等操作

pandas 数据清洗和预处理

会员权益专享

最新资源

数据清洗之数据离散化

数据可视化中数据预处理是指