首页这个问题是询问如何用Python编写表达式爬取豆瓣电影Top250的数据。

这个问题是询问如何用Python编写表达式爬取豆瓣电影Top250的数据。

时间: 2024-06-09 16:08:32 浏览: 112

可以使用Python的第三方库 requests 和 BeautifulSoup 来爬取豆瓣电影Top250的数据。以下是一个简单的爬虫代码示例： ```python import requests from bs4 import BeautifulSoup url = 'https://movie.douban.com/top250' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') movie_list = [] for movie in soup.find_all('div', class_='info'): title = movie.find('span', class_='title').get_text() rating = movie.find('span', class_='rating_num').get_text() url = movie.find('a')['href'] movie_list.append({'title': title, 'rating': rating, 'url': url}) print(movie_list) ``` 解释一下： 1. 导入 requests 和 BeautifulSoup 库 2. 设置请求头部，防止被反爬虫机制拦截 3. 通过 requests 库向豆瓣电影Top250的URL发送GET请求，并获取响应内容 4. 通过 BeautifulSoup 库解析HTML响应内容 5. 遍历HTML响应内容中的所有电影信息，提取电影的名称、评分和URL，并将其添加到一个列表中 6. 打印电影列表注意：豆瓣网站有反爬虫机制，如果请求过于频繁可能会被封IP。因此，建议在爬虫代码中设置适当的延迟时间，并尽可能模拟真实用户的访问行为。

阅读全文