python爬取豆瓣小组评论
时间: 2023-08-01 08:14:00 浏览: 213
您好!对于爬取豆瓣小组评论,您可以使用 Python 中的 requests 和 BeautifulSoup 库来实现。以下是一个简单的示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 设置请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
}
# 发起 GET 请求获取页面内容
url = 'https://www.douban.com/group/your_group_url/discussion'
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
# 解析页面获取评论内容
comments = soup.find_all('div', class_='reply-doc content')
for comment in comments:
# 提取评论内容
content = comment.find('p').text.strip()
print(content)
```
请注意,上述代码中的 `your_group_url` 部分需要替换为您要爬取的豆瓣小组的 URL。此外,豆瓣网站对于爬虫有一定的防护措施,可能需要处理一些反爬虫机制,如添加延时、使用代理等。
此外,需要注意遵守豆瓣网站的相关规定和条款,合法合规地进行数据爬取。
阅读全文