可以编写一个爬豆瓣影评的python爬虫吗
时间: 2024-04-18 13:32:36 浏览: 158
基于Python编写爬虫从豆瓣批量获取看过电影的用户列表并应用Python kNN算法预测用户性别含设计文档、数据源、源代码.rar
5星 · 资源好评率100%
当然可以!以下是一个简单的示例代码,演示如何使用Python编写一个爬取豆瓣影评的爬虫:
```python
import requests
from bs4 import BeautifulSoup
def get_movie_reviews(movie_id):
url = f'https://movie.douban.com/subject/{movie_id}/reviews'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'
}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
reviews = []
review_list = soup.find_all('div', class_='review-item')
for review in review_list:
content = review.find('div', class_='short-content').text.strip()
reviews.append(content)
return reviews
# 示例使用
movie_id = '1292052' # 电影《肖申克的救赎》的豆瓣ID
reviews = get_movie_reviews(movie_id)
for review in reviews:
print(review)
```
在上面的代码中,我们使用了`requests`库来发送HTTP请求,并使用`BeautifulSoup`库来解析HTML页面。我们首先构建了豆瓣电影影评页面的URL,然后发送GET请求获取页面内容。接下来,我们使用BeautifulSoup解析页面,找到所有的影评项,并提取出其中的短评内容。
你可以将`movie_id`替换为你感兴趣的电影在豆瓣上的ID,然后运行代码即可获取该电影的影评。
请注意,豆瓣网站对爬虫有一定的限制,如果你爬取过于频繁或过多,可能会触发反爬虫机制。在实际应用中,请尊重网站的规则,并遵守相关的爬虫道德准则。
阅读全文