豆瓣电影top250数据爬取
时间: 2023-08-30 22:06:43 浏览: 75
Python爬取豆瓣电影top250部使用flask框架可视化数据.zip
爬取豆瓣电影top250数据可以使用 Python 编写爬虫程序,具体步骤如下:
1. 确定目标网站:豆瓣电影 top250 页面的 URL 为 https://movie.douban.com/top250。
2. 分析页面结构:使用 Chrome 浏览器的开发者工具查看页面源代码,找到电影名称、评分、导演等信息所在的 HTML 标签和 CSS 类名。
3. 编写爬虫程序:使用 Python 的 requests 库向目标网站发送 HTTP 请求,使用 BeautifulSoup 库解析 HTML 页面,提取所需信息,并将结果保存到本地文件或数据库中。
以下是一个简单的 Python 程序,用于爬取豆瓣电影 top250 的电影名称、评分和导演信息:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
def get_movie_info(html):
soup = BeautifulSoup(html, 'html.parser')
movie_list = soup.find_all('div', class_='info')
for movie in movie_list:
title = movie.find('span', class_='title').text.strip()
rating = movie.find('span', class_='rating_num').text.strip()
director = movie.find('p', class_='').text.strip().split('\n')[0].split(':')[-1].strip()
print('电影名称:', title)
print('评分:', rating)
print('导演:', director)
print('--------------------------')
def main():
for i in range(10):
page = i * 25
params = {'start': page, 'filter': ''}
response = requests.get(url, headers=headers, params=params)
get_movie_info(response.text)
if __name__ == '__main__':
main()
```
该程序将会爬取豆瓣电影 top250 的前 250 部电影的名称、评分和导演信息,并将其打印在控制台中。你可以根据自己的需求进行修改。注意,爬虫程序的使用需要遵守相关法律法规,并且不要对目标网站造成过大的负担。
阅读全文