Pycharm:输出该网站https://movie.douban.com/subject/35660795/comments?status=P,前20页的URL 运行结果
时间: 2024-09-21 11:01:40 浏览: 65
PyCharm是一款流行的集成开发环境(IDE),主要用于Python编程。要获取豆瓣电影《哪吒之魔童降世》(https://movie.douban.com/subject/35660795/) 的评论页面并提取前20页的URL,你需要编写一个网页爬虫。由于实际爬取操作通常涉及到网络请求库如requests、BeautifulSoup等,这里无法直接展示运行代码的结果。
你可以尝试使用Python的Scrapy框架,或者是requests + BeautifulSoup库来完成这个任务。下面是一个简单的例子,说明如何使用requests和BeautifulSoup来抓取第一页的内容:
```python
import requests
from bs4 import BeautifulSoup
url = "https://movie.douban.com/subject/35660795/comments?start={}&status=P"
# 抓取每页开始的索引,从1开始计数
for i in range(1, 21):
page_url = url.format(i * 20) # 每页20条评论,计算总页码
response = requests.get(page_url)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'lxml')
comments_container = soup.find('div', {'class': 'commentlist'})
for comment in comments_container.find_all('li'): # 查找所有评论项
# 提取每个评论的链接(通常在评论内容之前)
comment_url = comment.find('a')['href']
print(comment_url)
阅读全文