豆瓣电影top250爬虫
时间: 2023-10-23 13:15:09 浏览: 144
python爬虫豆瓣电影Top250数据分析与可视化(应用Flask框架、Echarts、WordCloud等技术).zip
好的,豆瓣电影Top250爬虫可以使用Python编写。下面给出一个简单的爬虫示例:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
def get_movie_list():
movie_list = []
for i in range(0, 250, 25):
page_url = url + '?start=' + str(i) + '&filter='
response = requests.get(page_url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
items = soup.find_all('div', class_='item')
for item in items:
movie_dict = {}
movie_dict['rank'] = item.em.text
movie_dict['title'] = item.find('span', class_='title').text
movie_dict['score'] = item.find('span', class_='rating_num').text
movie_dict['quote'] = item.find('span', class_='inq').text
movie_list.append(movie_dict)
return movie_list
if __name__ == '__main__':
movie_list = get_movie_list()
for movie in movie_list:
print(movie)
```
这个程序通过requests模块获取页面内容,然后使用BeautifulSoup库解析HTML文档,提取出电影的排名、名称、评分和经典台词等信息,并以字典的形式存储到列表中。最后输出结果。
需要注意的是,为了避免被豆瓣网站封禁,我们在请求头中添加了User-Agent信息,模拟浏览器访问。
阅读全文