爬虫快速入门案例———豆瓣电影Top250
时间: 2023-11-12 14:04:41 浏览: 47
好的,现在我将为你介绍一个爬虫快速入门案例——豆瓣电影Top250。
首先,你需要准备以下工具和库:
1. Python编程环境
2. requests库:用于发送HTTP请求获取网页内容
3. BeautifulSoup库:用于解析HTML页面
4. pandas库:用于数据处理和存储
下面是一个简单的爬虫代码示例:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
def get_movie_info(movie_url):
response = requests.get(movie_url)
soup = BeautifulSoup(response.text, 'html.parser')
# 获取电影名称
movie_name = soup.find('span', class_='title').text
# 获取电影评分
rating = soup.find('span', class_='rating_num').text
# 获取电影信息
info = soup.find('div', class_='info')
director = info.find('a').text
actors = [a.text for a in info.find_all('a')[1:]]
movie_info = {
'电影名称': movie_name, '评分': rating,
'导演': director,
'演员': actors
}
return movie_info
def crawl_top250_movies():
base_url = 'https://movie.douban.com/top250'
movies = []
for start in range(0, 250, 25):
url = f'{base_url}?start={start}'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
movie_items = soup.find_all('div', class_='item')
for movie_item in movie_items:
movie_url = movie_item.find('a')['href']
movie_info = get_movie_info(movie_url)
movies.append(movie_info)
return movies
movies = crawl_top250_movies()
df = pd.DataFrame(movies)
df.to_csv('top250_movies.csv', index=False)
print('豆瓣电影Top250爬取完成并保存为top250_movies.csv文件。')
```
这段代码会爬取豆瓣电影Top250的电影名称、评分、导演和演员信息,并将结果保存为一个CSV文件。
注意:爬虫是一种获取网页数据的技术,请务必尊重网站的使用规则,不要频繁发送请求或者对网站造成过大的负载。