python 抓取京东商品信息
时间: 2023-10-30 13:06:48 浏览: 96
要使用Python抓取京东商品信息,可以按照以下步骤进行:
1. 导入所需的模块,如requests、lxml、re等。
2. 定义一个函数,用于获取商品链接和ID。在函数内部,可以使用requests库发送GET请求获取商品搜索结果页面的HTML代码。
3. 使用lxml库解析HTML代码,提取出商品链接和ID。
4. 将提取的链接和ID保存在列表中,以供后续使用。
以下是一个示例代码,可以作为参考:
```python
import requests
from lxml import etree
import re
import time
def get_link(word, page):
links = []
skus_id = []
for i in range(int(page)):
url = f'https://search.jd.com/Search?keyword={word}&wq={word}&page={i}'
headers = {
"user-agent": ua,
}
res = requests.get(url=url, headers=headers, proxies=proxies).text
time.sleep(0.5)
html = etree.HTML(res)
link = html.xpath('//*[@id="J_goodsList"]/ul/li[*]/div/div[3]/a/@href')
link = ['https:' + k for k in link]
for l in link:
links.append(l)
sku_id = [re.findall('\d+', i)[0] for i in link]
for s in sku_id:
skus_id.append(s)
print(f'第{i+1}页。')
print(links)
return links, skus_id
```
然后,您可以根据需要使用这些链接和ID来获取商品的详细信息。
阅读全文