以下是商超的货品价格数据清洗代码,请根据将“”内的代码填写完整。 import numpy as np import pandas as pd df=pd.DataFrame(pd.read csv(namecsvheader=1))df=pd.DataFrame(pd.read excel(namexlsx')) df=pdDataFrame({"id":[1001,1002,1003,1004,1005,1006], "date":pd.date range('20130102',p eriods=6), "city":['Beijing ', 'SH', guangzho u', 'Shenzhen', 'shanghai', 'BEIJING". "age":[23,44,54,32,34,32],"categ ory":['100-A','100-B','110-A',110-C',210-A','130-F', "price":[1200,np.nan,2133,5433,np nan,4432]}, columns=iddatecitycategor y','age','price']) df.() #查看数据表的维度 df.()#检查数据空值 dfl'.isnull()#检查价格特定列空值 df'city].()#查看city列中的唯一值 df. ()#查看数据表的值df #查看数据表的值 df.#查看列名称 df.(how=any)#删除数据表中含有空值的行 df['price]._(df'price]mean())#使用price均值对 NA进行填充 df['city'].#删除后出现的重复值 dfhead()#查看数据前5行的值
时间: 2024-01-02 16:05:02 浏览: 86
数据清洗
import numpy as np
import pandas as pd
df=pd.DataFrame(pd.read_csv('name.csv', header=1)) #读取csv文件并指定表头行为1
df=pd.DataFrame(pd.read_excel('name.xlsx')) #读取excel文件
df=pd.DataFrame({
"id":[1001,1002,1003,1004,1005,1006],
"date":pd.date_range('20130102',periods=6), #使用pd.date_range()生成日期序列
"city":['Beijing', 'SH', 'guangzhou', 'Shenzhen', 'shanghai', 'BEIJING'], #修改城市名称,统一为小写
"age":[23,44,54,32,34,32],
"category":['100-A','100-B','110-A','110-C','210-A','130-F'],
"price":[1200,np.nan,2133,5433,np.nan,4432]
}, columns=['id','date','city','category','age','price'])
df.shape #查看数据表的维度
df.isnull().sum() #检查数据空值
df['price'].isnull().sum() #检查价格特定列空值
df['city'].unique() #查看city列中的唯一值
df.values #查看数据表的值
df.columns #查看列名称
df.dropna(how='any', inplace=True) #删除数据表中含有空值的行
df['price'].fillna(df['price'].mean(), inplace=True) #使用price均值对NA进行填充
df['city'].drop_duplicates(inplace=True) #删除后出现的重复值
df.head() #查看数据前5行的值
阅读全文