https://movie.douban.com/subject/30391186/comments?sort=new_score&status=P,爬取该网站的评论内容
时间: 2023-11-25 16:06:14 浏览: 63
好的,需要用到Python的requests和BeautifulSoup库。以下是代码示例:
```python
import requests
from bs4 import BeautifulSoup
url = "https://movie.douban.com/subject/30391186/comments?sort=new_score&status=P"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
comments = []
for comment in soup.select(".comment-item .comment-content"):
comments.append(comment.get_text().strip())
print(comments)
```
这段代码会输出该网站所有评论的内容。你可以将其保存到文件中,或者以其他方式进行处理。需要注意的是,网站的反爬虫机制可能会阻止你的爬虫程序,所以需要适当设置请求头或使用代理等方式绕过限制。
相关问题
https://movie.douban.com/subject/30391186/comments?sort=new_score&status=P,爬取该网站的评论内容,发布人,点赞数,时间和地点
好的,同样需要使用Python的requests和BeautifulSoup库。以下是代码示例:
```python
import requests
from bs4 import BeautifulSoup
url = "https://movie.douban.com/subject/30391186/comments?sort=new_score&status=P"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
comments = []
for comment in soup.select(".comment-item"):
content = comment.select_one(".comment-content").get_text().strip() # 评论内容
author = comment.select_one(".comment-info a").get_text().strip() # 发布人
likes = comment.select_one(".votes").get_text().strip() # 点赞数
time = comment.select_one(".comment-time").get_text().strip() # 时间
location = comment.select_one(".comment-info").contents[-1].strip() # 地点
comments.append({
"content": content,
"author": author,
"likes": likes,
"time": time,
"location": location
})
print(comments)
```
这段代码会输出该网站所有评论的内容、发布人、点赞数、时间和地点。同样需要注意网站的反爬虫机制,需要适当设置请求头或使用代理等方式绕过限制。
url_1 = "https://movie.douban.com/subject/20495023/comments?status=" ''' https://movie.douban.com/subject/20495023/comments?limit=20&status=P&sort=new_score https://movie.douban.com/subject/20495023/comments?start=20&limit=20&status=P&sort=new_score https://movie.douban.com/subject/20495023/comments?start=40&limit=20&status=P&sort=new_score ''' url_2 = "&limit=20&sort=new_score&status=P"
根据你提供的链接部分以及之前的URL参数,你可以使用以下代码来构建完整的URL:
```python
url = url_1 + url_2
```
其中,`url_1` 是你给出的链接部分,`url_2` 是之前提到的URL参数,包括limit、sort和status。
通过将这两部分连接起来,你可以得到一个完整的URL来获取电影短评页面的评论。
如果你还有其他问题,请随时提问!
阅读全文