Python数据分析案例数据分析案例 对京东商城口红的分析与绘图对京东商城口红的分析与绘图
接着上一篇文章接着上一篇文章,这里对爬取到的数据进行简单的数据分析这里对爬取到的数据进行简单的数据分析
开发环境开发环境:jupyter
导入依赖的包导入依赖的包
%matplotlib inline
# 数据处理
import pandas as pd
import numpy as np
# 绘图
import matplotlib.pyplot as plt
# 分词
import jieba
# 云图
from wordcloud import WordCloud
from imageio import imread
数据处理数据处理
# 设置中文字体
plt.rcParams['font.family']=['sans-serif'] plt.rcParams['font.sans-serif']=['SimHei']
# 读取文件
df = pd.read_csv('口红.csv',header=None,names=['Name','TradeName','Price','Comments'])
# 去空值NaN (去重直接在Excel上解决的,去重用drop_duplicates方法)
df.dropna(how='any',inplace=True)
# 处理评论数
# 这里遇到一个困难 数据中有NaN值导致无法使用函数处理字符串
def deal_num(num):
if '万' in num:
if '.' in num :
num = num.replace('.','').replace('万','000')
else:
num = num.replace('.','').replace('万','0000')
return num
# 去除+
df['Comments'] = df['Comments'].str.strip('+')
# 替换.和万
df['Comments'] = df['Comments'].apply(deal_num)
# 转换数据类型 (这里转换数据类型是为了后续的排序)
df.Comments = df.Comments.astype('int64')
df.Price = df.Price.astype('int64')
处理完之后数据处理完之后数据
原创文章 8获赞 3访问量 193
关注
私信
展开阅读全文
作者:Elric_01
评论5