python对豆瓣多级评论页面爬虫并放入文件中
时间: 2024-02-22 09:01:22 浏览: 76
python豆瓣电影爬虫
好的,我可以给你提供一个简单的 Python 爬虫示例来爬取豆瓣多级评论页面并将其放入文件中。你可以按照以下步骤进行操作:
1. 安装 Python 的 requests 和 BeautifulSoup 模块。
2. 打开豆瓣多级评论页面,例如:https://movie.douban.com/subject/1292052/comments?start=0&limit=20&sort=new_score&status=P&percent_type=
3. 右键点击页面空白处,选择“检查元素”,找到评论区域对应的 HTML 代码。
4. 分析 HTML 代码,找到评论内容所在的标签和属性,例如:`<span class="short">评论内容</span>`。
5. 编写 Python 代码来爬取评论内容。以下是一个简单的示例:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/subject/1292052/comments?start=0&limit=20&sort=new_score&status=P&percent_type='
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
with open('comments.txt', 'w', encoding='utf-8') as f:
for comment in soup.find_all('span', class_='short'):
f.write(comment.text.strip() + '\n')
```
以上代码中,我们使用 requests 模块来获取网页内容,使用 BeautifulSoup 模块来解析 HTML 代码。我们找到评论内容所对应的标签和属性,使用 soup.find_all() 方法来获取所有的评论内容,并将其写入文件中。
注意:豆瓣网站有反爬虫机制,如果你频繁地请求同一个页面,可能会被检测到并封禁 IP。因此在实际使用中,需要加入延时等措施,以避免被封禁。
阅读全文