爬取豆瓣电影的爬虫代码
时间: 2024-12-26 07:30:35 浏览: 11
编写一个爬取豆瓣电影信息的简单爬虫,我们可以使用Python的requests和BeautifulSoup库。以下是一个基本的示例:
```python
import requests
from bs4 import BeautifulSoup
def get_douban_movie_info(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url, headers=headers)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'lxml')
# 选择电影名称和评分元素(这里假设它们有特定class)
movie_name = soup.find('div', class_='title').text
rating = soup.find('span', class_='rating_num').text
return {'movie_name': movie_name, 'rating': rating}
else:
print(f"请求失败,状态码:{response.status_code}")
return None
url = "https://movie.douban.com/top250" # 豆瓣电影Top250页面URL
movie_data = get_douban_movie_info(url)
if movie_data is not None:
print(f"电影名:{movie_data['movie_name']}, 评分:{movie_data['rating']}")
else:
print("获取数据失败")
```
注意,这个例子只是一个基础版本,实际爬取过程中可能会遇到反爬虫策略,如需要登录、翻页、处理动态加载内容或API限制等,这需要进一步优化。同时,频繁的爬取可能会违反豆瓣的使用条款,因此在实际操作时务必遵守相关规定。
阅读全文