使用python语句(爬虫)输出该网站https://movie.douban.com/subject/35660795/comments?status=P,前20页的URL
时间: 2024-09-18 20:02:55 浏览: 57
在Python中,我们可以使用`requests`库来发送HTTP请求获取网页内容,并结合BeautifulSoup或Scrapy等库解析HTML,然后构建URL。这里是一个基本的示例,展示如何获取前20页的评论页面URL:
```python
import requests
from bs4 import BeautifulSoup
# 定义初始URL
start_url = 'https://movie.douban.com/subject/35660795/comments?status=P'
base_url_pattern = 'https://movie.douban.com/subject/35660795/comments?status=P&start='
# 初始化当前页数
page_count = 20
# 创建列表来存储URLs
urls = []
for i in range(1, page_count + 1):
# 构造URL
url = base_url_pattern + str(i * 20)
# 发送GET请求并解析响应
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 查找分页链接
next_page_links = soup.select('.next a') # 根据豆瓣电影评论页面结构查找
if not next_page_links: # 如果没找到下一页,说明已经到达最后一页
break
# 添加下一页URL到列表
urls.append(url)
print("前20页评论页面URLs:")
for url in urls:
print(url)
阅读全文