Python爬取豆瓣影评,需要爬取用户名 评价 评论时间 评论内容
时间: 2023-08-21 07:08:29 浏览: 135
使用动态IP池+cookie爬取豆瓣豆瓣影评数据
5星 · 资源好评率100%
好的,爬取用户名、评价、评论时间和评论内容需要对 HTML 页面进行更详细的解析。可以使用如下代码实现:
```python
import requests
from bs4 import BeautifulSoup
url = "https://movie.douban.com/subject/1292052/comments?start=0&limit=20&sort=new_score&status=P"
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, "html.parser")
comments = soup.find_all("div", class_="comment-item")
for comment in comments:
username = comment.find("a", class_="").text.strip()
rating = comment.find("span", class_="rating")["title"]
timestamp = comment.find("span", class_="comment-time")["title"]
content = comment.find("span", class_="short").text.strip()
print("用户名:", username)
print("评价:", rating)
print("评论时间:", timestamp)
print("评论内容:", content)
print()
```
这里使用了 find_all 方法查找所有 class 属性为 "comment-item" 的 div 标签,即每条影评所在的标签。然后,对每条影评的标签,使用 find 方法查找对应的标签,获取用户名、评价、评论时间和评论内容,并输出到控制台。
需要注意的是,有些用户可能没有评价或者评论时间,需要在代码中进行适当的判断。
阅读全文