爬取大众点评餐饮评论代码
时间: 2024-10-31 18:07:22 浏览: 41
爬取大众点评的餐饮评论通常涉及网络爬虫技术,这里提供一个简化的Python示例,使用BeautifulSoup库来解析HTML内容和requests库获取网页数据:
```python
import requests
from bs4 import BeautifulSoup
# 目标URL,替换为你实际需要抓取的餐厅页面链接
url = 'https://www.dianping.com/shop/<restaurant_id>/reviews'
def get_reviews(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
# 发送GET请求
response = requests.get(url, headers=headers)
# 判断请求是否成功
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'lxml')
# 找到评论列表,可能在不同的元素下,根据实际情况调整
reviews_container = soup.find('div', class_='review-list')
# 提取评论信息
for review in reviews_container.find_all('div', class_='comment'):
title = review.find('span', class_='title').text.strip()
rating = review.find('i', class_='rating')['class'][1]
comment = review.find('p', class_='content').text.strip()
print(f"标题:{title}\n评分:{rating}颗星\n评论:{comment}\n")
else:
print("请求失败,状态码:", response.status_code)
# 调用函数开始爬取
get_reviews(url)
```
注意:
1. 这只是一个基本框架,实际的URL结构、CSS选择器可能会因大众点评网站的更新而变化。
2. 网络爬虫必须遵守目标网站的robots.txt文件规定,并尊重版权和隐私。
3. 长期频繁的爬取可能会被服务器封禁,因此建议设置合理的爬取间隔。
阅读全文