https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&wq=%E6%89%8B%E6%9C%BA&pvid=8858151673f941e9b1a4d2c7214b2b52 在京东商城,爬取某个品牌的手机型号、店铺名称、价格和评论条数,存储的CSV文件中。1、按照店铺名称计算该品牌手机的均价,利用饼状图呈现店铺名称和手机均价的关系。2、将该品牌手机,评论前10的手机型号和评论数量用柱状图展示出来。
时间: 2024-04-06 14:34:48 浏览: 56
以下是实现以上需求的代码:
```python
import requests
import csv
from bs4 import BeautifulSoup
import matplotlib.pyplot as plt
# 商品搜索页面的URL
url = "https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&wq=%E6%89%8B%E6%9C%BA&pvid=8858151673f941e9b1a4d2c7214b2b52"
# 请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 发送请求
res = requests.get(url, headers=headers)
# 解析HTML
soup = BeautifulSoup(res.text, 'html.parser')
# 获取所有商品
items = soup.select('.gl-item')
# 定义存储数据的列表
data = []
# 遍历商品
for item in items:
# 获取商品标题和价格
title = item.select('.p-name a em')[0].text
price = item.select('.p-price strong i')[0].text
comment_count = item.select('.p-commit a')[0].text[:-3] # 去掉"条评价"三个字
# 获取店铺名称
shop_name = item.select('.p-shop span a')[0].text
# 判断是不是该品牌的手机
if "某品牌" in title:
# 将数据添加到列表中
data.append([title, shop_name, price, comment_count])
# 保存数据到CSV文件中
with open('mobile.csv', 'w', newline='', encoding='utf-8-sig') as f:
writer = csv.writer(f)
# 写入表头
writer.writerow(['型号', '店铺名称', '价格', '评论条数'])
# 写入数据
writer.writerows(data)
# 按照店铺名称计算该品牌手机的均价
shop_price_dict = {}
for item in data:
shop_name = item[1]
price = float(item[2])
if shop_name not in shop_price_dict:
shop_price_dict[shop_name] = [price]
else:
shop_price_dict[shop_name].append(price)
# 计算均价
shop_avg_price_dict = {}
for shop_name in shop_price_dict:
avg_price = round(sum(shop_price_dict[shop_name]) / len(shop_price_dict[shop_name]), 2)
shop_avg_price_dict[shop_name] = avg_price
# 利用饼状图呈现店铺名称和手机均价的关系
labels = list(shop_avg_price_dict.keys())
values = list(shop_avg_price_dict.values())
plt.pie(values, labels=labels)
plt.title('店铺名称和手机均价关系的饼状图')
plt.show()
# 将该品牌手机,评论前10的手机型号和评论数量用柱状图展示出来
# 按评论数排序
data.sort(key=lambda x: int(x[3]), reverse=True)
top10_data = data[:10]
# 提取手机型号和评论数量
model_list = [item[0] for item in top10_data]
comment_count_list = [int(item[3]) for item in top10_data]
plt.bar(model_list, comment_count_list)
plt.xticks(rotation=45, ha='right')
plt.title('评论前10的手机型号和评论数量的柱状图')
plt.xlabel('手机型号')
plt.ylabel('评论数量')
plt.show()
```
需要注意的是,需要将代码中的 "某品牌" 替换为需要爬取的品牌名称。同时,需要安装 matplotlib 库才能生成图表。
阅读全文