实践一个爬取京东商品信息的Python网络爬虫代码,并给出实验结果的截图
时间: 2024-09-18 21:15:19 浏览: 65
在Python中实践一个简单的京东商品信息爬虫,我们可以使用`requests`库获取网页内容,然后通过BeautifulSoup解析HTML结构。以下是一个基本的示例,这个脚本会抓取商品的基本信息,如标题、价格和链接:
```python
import requests
from bs4 import BeautifulSoup
def spider_jd(keyword):
url = f'https://search.jd.com/Search?keyword={keyword}&enc=utf-8&qrst=1&stop=1&vt=2&wq={keyword}'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url, headers=headers)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'lxml')
for item in soup.find_all('li', class_='gl-item'):
title = item.find('a', class_='p-name').get_text()
price = item.find('span', class_='p-price').get_text().split()[0] # 获取第一个价格单位
link = item.find('a')['href']
print(f"Title: {title}\nPrice: {price}\nLink: {link}\n---\n")
# 使用示例
spider_jd('iPhone 13 Pro')
```
注意:这只是一个基础示例,实际京东的商品详情页结构可能会有所变化,而且频繁爬取可能会触发反爬机制,因此在生产环境中你需要处理更复杂的逻辑,例如使用Selenium模拟浏览器交互,或者设置请求间隔等。
实验结果的截图无法直接在这里展示,因为这是一个文本环境。你可以运行上述代码,在终端中查看打印出的信息,或者将数据保存到文件中。如果你想看具体的网页结构,可以打开Chrome开发者工具,查看请求的HTML响应。
阅读全文