python爬取豆瓣电影top250
时间: 2023-10-09 12:05:11 浏览: 74
可以使用Python中的requests和BeautifulSoup库进行豆瓣电影Top250的爬取。具体步骤如下:
1. 使用requests库向豆瓣电影Top250的网页发送请求,并获取网页的HTML源代码。
2. 使用BeautifulSoup库对HTML源代码解析,提取出电影的一些基本信息,例如电影名称、导演、主演、上映时间、评分、评论等。
3. 将提取的电影信息存储在本地文件或数据库中,以备后续分析和使用。
以下是一个简单的Python代码示例:
```python
import requests
from bs4 import BeautifulSoup
# 发送HTTP请求
url = 'https://movie.douban.com/top250'
response = requests.get(url)
# 解析HTML源代码
soup = BeautifulSoup(response.text, 'html.parser')
for item in soup.select('.item'):
# 提取电影名称、导演、主演、上映时间、评分等信息
name = item.select('.title')[0].get_text()
director = item.select('.bd p')[0].get_text().split('\n')[1].split(':')[1].strip()
actors = item.select('.bd p')[0].get_text().split('\n')[2].split(':')[1].strip()
time = item.select('.bd p')[0].get_text().split('\n')[3].split(':')[1].strip()
rating = item.select('.rating_num')[0].get_text()
# 存储电影信息
with open('movies.txt', 'a+', encoding='utf-8') as f:
f.write(f'电影名称:{name}\n导演:{director}\n主演:{actors}\n上映时间:{time}\n评分:{rating}\n\n')
```
注意:该代码示例仅供参考,具体实现可能需要根据实际情况进行调整。另外,爬取网页时要注意尊重网站的使用规则,不要过度频繁地发送请求。
阅读全文