python爬虫抓取豆瓣top250
时间: 2024-09-19 07:00:19 浏览: 39
Python爬虫抓取豆瓣Top250电影列表通常会涉及以下几个步骤:
1. **引入库**:首先需要安装一些Python库,如`requests`用于发送HTTP请求获取网页内容,`BeautifulSoup`或`lxml`用于解析HTML文档。
2. **发送请求**:使用`requests.get()`函数获取豆瓣Top250页面的HTML源码。
```python
import requests
url = 'https://movie.douban.com/top250'
response = requests.get(url)
```
3. **解析HTML**:使用BeautifulSoup解析响应内容,提取出所需的电影信息,比如电影名称、评分等。
```python
from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')
movies = soup.find_all('div', class_='hd') # 找到包含电影信息的div元素
```
4. **处理数据**:遍历电影列表,通过CSS选择器或更复杂的XPath表达式提取每部电影的具体信息,并存储到字典或其他数据结构中。
```python
data = []
for movie in movies:
title = movie.find('span', itemprop='name').text # 电影标题
rating = movie.find('span', class_='rating_num').text # 评分
data.append({'title': title, 'rating': rating})
```
5. **保存数据**:最后将抓取的数据保存到文件(JSON、CSV或数据库)中,便于后续分析或展示。
```python
import json
with open('douban_movies.json', 'w', encoding='utf-8') as f:
json.dump(data, f, ensure_ascii=False)
```
阅读全文