url_1 = "https://movie.douban.com/subject/34779692/comments?start=" #短评那一页 ''' https://movie.douban.com/subject/34779692/comments?limit=20&status=P&sort=new_score https://movie.douban.com/subject/34779692/comments?start=20&limit=20&status=P&sort=new_score https://movie.douban.com/subject/34779692/comments?start=40&limit=20&status=P&sort=new_score '''
时间: 2023-12-10 11:02:13 浏览: 94
你好!对于给定的URL,我可以看到它是一个豆瓣电影的短评页面链接。这个链接似乎是用来获取关于特定电影的评论。在链接中,start参数表示评论的起始位置,limit参数表示每页评论的数量,status参数表示评论的状态,sort参数表示评论的排序方式。
你提供的示例链接中,start参数的值依次为0、20和40。这意味着第一页评论从0开始,第二页从20开始,第三页从40开始。
如果你有更多关于这个链接的问题或者需要进一步的帮助,请随时告诉我!
相关问题
url_1 = "https://movie.douban.com/subject/20495023/comments?status=" ''' https://movie.douban.com/subject/20495023/comments?limit=20&status=P&sort=new_score https://movie.douban.com/subject/20495023/comments?start=20&limit=20&status=P&sort=new_score https://movie.douban.com/subject/20495023/comments?start=40&limit=20&status=P&sort=new_score ''' url_2 = "&limit=20&sort=new_score&status=P"
根据你提供的链接部分以及之前的URL参数,你可以使用以下代码来构建完整的URL:
```python
url = url_1 + url_2
```
其中,`url_1` 是你给出的链接部分,`url_2` 是之前提到的URL参数,包括limit、sort和status。
通过将这两部分连接起来,你可以得到一个完整的URL来获取电影短评页面的评论。
如果你还有其他问题,请随时提问!
爬取https://movie.douban.com/subject/3552028/的所有短评
这里提供一种Python爬取豆瓣电影短评的方法,需要用到requests和BeautifulSoup库。
首先,我们需要向该网页发送请求,获取网页源代码。代码如下:
```python
import requests
url = "https://movie.douban.com/subject/3552028/comments?start=0&limit=20&status=P&sort=new_score"
response = requests.get(url)
html = response.text
```
接着,我们需要使用BeautifulSoup对网页源代码进行解析,以便提取我们所需的信息。代码如下:
```python
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
comments = soup.find_all("span", class_="short")
for c in comments:
print(c.string)
```
这段代码中,我们使用find_all方法找到所有class为"short"的span标签,这些标签包含了我们需要获取的短评信息。然后,我们遍历每个标签,并使用string属性获取标签内的文本内容。
此外,我们需要注意到豆瓣电影短评采用了分页的方式,每页最多显示20条短评。如果要爬取所有短评,需要在url中指定start参数并逐页爬取。完整代码如下:
```python
import requests
from bs4 import BeautifulSoup
url = "https://movie.douban.com/subject/3552028/comments?start={}&limit=20&status=P&sort=new_score"
start = 0
while True:
response = requests.get(url.format(start))
soup = BeautifulSoup(response.text, "html.parser")
comments = soup.find_all("span", class_="short")
if len(comments) == 0:
break
for c in comments:
print(c.string)
start += 20
```
这段代码中,我们使用while循环,每次递增20的start参数值,直到获取到的短评数为0为止。注意,豆瓣电影短评是需要登录才能进行查看的,因此如果你没有登录,可能无法获取到所有的短评。
阅读全文