使用python代码多线程,爬取京东,苏宁易购,天猫的商品价格,做一个比价系统
时间: 2024-03-14 09:49:32 浏览: 137
好的,这个问题我可以回答。首先,爬取京东、苏宁易购、天猫的商品价格需要分别封装不同的爬虫程序。这里我以京东为例进行说明。
1. 爬取京东商品价格的代码
```python
import requests
from bs4 import BeautifulSoup
def get_jd_price(item_id):
url = 'https://item.jd.com/{}.html'.format(item_id)
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
try:
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
price = soup.find('span', {'class': 'p-price'}).get_text().strip()
return price
except:
return None
```
这个函数可以根据商品ID获取其在京东上的价格。其中,`requests` 和 `BeautifulSoup` 是 Python 爬虫常用的第三方库,用于发起 HTTP 请求和解析页面内容。
2. 使用多线程爬取价格
```python
import threading
item_id_list = [123, 456, 789] # 假设这里有三个商品ID需要查询价格
prices = {} # 存储每个商品对应的价格
def get_price(item_id):
price = get_jd_price(item_id)
prices[item_id] = price
threads = []
for item_id in item_id_list:
t = threading.Thread(target=get_price, args=(item_id,))
threads.append(t)
t.start()
for t in threads:
t.join()
# 输出每个商品的价格
for item_id, price in prices.items():
print('商品ID:{},价格:{}'.format(item_id, price))
```
这段代码中,我们定义了一个 `get_price` 函数,用于获取某个商品的价格,并将其存储到 `prices` 字典中。然后,我们创建多个线程,并分别传入不同的商品ID,让每个线程单独去获取价格。最后,我们使用 `join()` 方法等待所有线程执行完毕,然后输出每个商品的价格。
除了京东,苏宁易购和天猫的爬虫程序也可以类似地封装,然后在主程序中使用多线程的方式获取这些网站上的商品价格,然后进行比较,实现比价系统。
阅读全文