Pycharm:只用requests 输出该网站https://movie.douban.com/subject/35660795/comments?status=P,前20页的URL
时间: 2024-09-21 07:01:38 浏览: 61
IDEA遇到Internal error. Please refer to http://jb. gg/ide/critical-startup-errors的问题及解决办法
在PyCharm中使用`requests`库抓取豆瓣电影《寻梦环游记》(Coco)评论页面并获取前20页URL,可以按照以下步骤编写Python代码:
首先,确保已安装了`requests`库,如果没有安装,可以在命令行输入`pip install requests`。
```python
import requests
from itertools import islice
# 定义初始URL
url_base = 'https://movie.douban.com/subject/35660795/comments?status=P'
# 每页的评论条数可能不是固定的,这里假设每页有20条评论
comments_per_page = 20
# 获取前20页的URL
for page_num in range(1, 21): # 从第1页到第20页
params = {'start': (page_num - 1) * comments_per_page, 'limit': comments_per_page}
response = requests.get(url_base, params=params)
if response.status_code == 200:
# 检查请求是否成功,如果成功,解析出下一页URL
html = response.text
next_url_pattern = r'"next":"(/subject/\d+).*?"'
next_page = re.search(next_url_pattern, html).group()
yield f'https://movie.douban.com{next_page}'
else:
print(f"无法获取第{page_num}页的评论,响应状态码:{response.status_code}")
```
这段代码会生成一个迭代器,每次循环返回下一页的评论链接,直到第20页。你可以遍历这个迭代器来查看所有需要的URL。
阅读全文