import pandas as pd data= pd.read_csv('C:\\Users\\admin\\Desktop\\taobao.product2.csv', encoding='utf8',engine='python') data.drop('_id',axis=1, inplace=True)#去掉id列 data['price'].replace('¥', '', regex=True, inplace=True) #去掉price列的'¥' #从location列中取出省份和城市,然后删除location列 data['province']=data.location.apply(lambda x:x.split()[0]) data['city']=data.location.apply(lambda x:x.split()[0] if len(x)<4 else x.split()[1]) data.drop('location',axis=1, inplace=True) #数据类型转化 data['price']=data.price.astype('float64') for i in ['province','city']: data[i]=data[i].astype('category')
时间: 2024-01-12 22:04:50 浏览: 129
用Python中的Pandas处理数据
这段代码是用来读取一个名为taobao.product2.csv的CSV文件,并对数据进行一些处理操作。
首先,使用pandas库导入数据,并指定文件路径和编码格式。然后,通过设置engine='python'来使用python解析CSV文件。
接下来,使用drop函数去掉名为'_id'的列。使用replace函数去掉'price'列中的'¥'符号。
然后,从'location'列中提取省份和城市信息,并将其分别存储在新的'province'和'city'列中。如果'location'的长度小于4,则省份和城市相同;否则,取第二个元素作为城市。
最后,使用astype函数将'price'、'province'和'city'的数据类型转换为float64和category。
请问还有其他问题吗?
阅读全文