python爬虫豆瓣电影
时间: 2023-09-14 12:03:13 浏览: 107
您好!对于爬取豆瓣电影信息的Python爬虫,您可以使用Python的requests库和BeautifulSoup库来实现。以下是一个简单的示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 发起请求获取网页内容
url = 'https://movie.douban.com/top250'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
response = requests.get(url, headers=headers)
html = response.text
# 解析网页内容
soup = BeautifulSoup(html, 'html.parser')
movies = soup.find_all('div', class_='hd')
# 提取电影名称和评分
for movie in movies:
title = movie.a.span.text
rating = movie.parent.find(class_='rating_num').text
print(f'电影名称:{title},评分:{rating}')
```
这个示例代码可以爬取豆瓣电影Top250的电影名称和评分。您可以根据自己的需求对代码进行调整和扩展。需要注意的是,爬取网页内容时需要设置合适的请求头(User-Agent),以防止被网站屏蔽或限制访问。
请注意,爬取网站数据的合法性和道德性是十分重要的,建议在爬取豆瓣电影信息时遵守相关的法律法规和网站的使用条款。
阅读全文