怎么爬取豆瓣甄嬛传短评代码
时间: 2023-07-03 15:32:02 浏览: 170
python爬取豆瓣短评
以下是爬取豆瓣甄嬛传短评的示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 设置请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 豆瓣甄嬛传短评页的 URL
url = 'https://movie.douban.com/subject/4922787/comments?status=P'
# 发送 GET 请求,获取页面内容
response = requests.get(url, headers=headers)
content = response.text
# 使用 Beautiful Soup 库解析页面内容
soup = BeautifulSoup(content, 'html.parser')
# 选取所有的短评<div>元素
comments = soup.select('div.comment')
# 遍历每个短评,提取评分、评论内容和用户信息
for comment in comments:
rating = comment.select_one('span.comment-info > span.rating')
if rating:
rating = rating['title']
else:
rating = '未评分'
content = comment.select_one('span.short').text.strip()
user = comment.select_one('span.comment-info > a').text.strip()
print(rating, content, user)
```
这个示例代码会输出豆瓣甄嬛传短评的评分、评论内容和用户信息。你可以根据自己的需求对其进行修改。同时,也需要注意合理使用爬虫,不要对网站造成过大的负荷。
阅读全文