爬取大众点评里的评论 python 保存成txt
时间: 2024-10-20 21:17:43 浏览: 69
在Python中,爬取大众点评(Dianping)的评论并保存到文本文件通常涉及网络爬虫技术。这里我会提供一个基本步骤:
首先,你需要安装`requests`库来发送HTTP请求,以及`BeautifulSoup`库用于解析HTML内容。如果你还没有安装,可以使用pip安装:
```bash
pip install requests beautifulsoup4
```
然后,你可以使用下面的示例代码框架,这只是一个基本的指导,实际代码可能需要根据大众点评网站的具体结构进行调整:
```python
import requests
from bs4 import BeautifulSoup
# 将URL替换为你想抓取的评价页面
url = "https://www.dianping.com/shop/<商家ID>/reviews"
def get_reviews(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 找到所有评论元素
comments = soup.find_all('div', class_='review-item') # 这里假设评论在class为'review-item'的div中
reviews_list = []
for comment in comments:
user_info = comment.find('span', class_='username') # 用户名
rating = comment.find('i', class_='rating') # 评分
content = comment.find('p', class_='review-content') # 评论内容
review_data = {
'user': user_info.text if user_info else '',
'rating': rating['title'] if rating else '',
'content': content.text if content else ''
}
reviews_list.append(review_data)
with open('dianping_reviews.txt', 'w', encoding='utf-8') as f:
for review in reviews_list:
f.write(f"用户:{review['user']} | 评分:{review['rating']} | 内容:{review['content']}\n")
# 调用函数开始爬取
get_reviews(url)
```
注意:
1. 需要根据大众点评的实际HTML结构来选择合适的CSS类名或XPath表达式定位评论元素。
2. 大众点评可能有反爬机制或限制,频繁请求可能会导致IP被封禁,因此建议设置延时或使用代理。
3.
阅读全文