python爬虫豆瓣网选电影
时间: 2024-07-13 15:01:37 浏览: 179
Python爬虫豆瓣网(Douban)抓取电影信息通常会涉及网络请求、HTML解析和数据提取步骤。这里是一个简单的概述:
1. **安装必要的库**:首先需要安装`requests`库用于发送HTTP请求获取网页内容,以及`BeautifulSoup4`或`lxml`库用于解析HTML。
```bash
pip install requests beautifulsoup4
```
2. **发送GET请求**:使用`requests.get('https://movie.douban.com/top250')`获取豆瓣电影Top250页面的源码。
3. **HTML解析**:通过BeautifulSoup解析返回的HTML,找到包含电影信息的部分,如电影标题、评分、简介等。
```python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
```
4. **数据提取**:查找并提取所需的数据元素,比如电影标题可以用`title`属性,评分可以用`span`标签内的数字。
```python
titles = soup.find_all('div', class_='hd')['data-title']
ratings = soup.select('.rating_num')
reviews = soup.select('.comment span')
```
5. **处理数据**:将提取到的数据存储起来,可以是列表或字典形式。
```python
movies = []
for i in range(250):
movie_data = {
'title': titles[i],
'rating': ratings[i].text,
'reviews': reviews[i].text if reviews else None
}
movies.append(movie_data)
```
6. **保存数据**:最后,你可以选择将数据保存到文件(JSON、CSV等),或是直接输出到控制台。
```python
with open('douban_movies.json', 'w', encoding='utf-8') as f:
json.dump(movies, f, ensure_ascii=False)
print(movies)
```
阅读全文