首页我想用python爬取豆瓣top250的数据

我想用python爬取豆瓣top250的数据

时间: 2023-10-01 18:07:17 浏览: 83

python爬取豆瓣top250

5星 · 资源好评率100%

豆瓣top250爬虫介绍爬取豆瓣top250，结果保存在xls内，并下载剧照安装教程本人使用的环境是python3.10.6 需要安装以下的库： requests parsel pandas openpyxl 使用说明 xls文件存放在 ./data/ 剧照存放在 ./data/img/ 创建相应的文件夹，直接运行即可路径可自行修改

好的，你可以使用 Python 中的 requests 库和 BeautifulSoup 库来爬取豆瓣电影TOP250的数据。以下是一个简单的爬虫示例代码： ```python import requests from bs4 import BeautifulSoup url = 'https://movie.douban.com/top250' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') movies = soup.find_all('div', class_='info') for movie in movies: title = movie.find('span', class_='title').text.strip() actors = movie.find('p', class_='').text.strip() rating = movie.find('span', class_='rating_num').text.strip() print(f'{title} {actors} {rating}') ``` 该代码使用 requests 库发送 GET 请求获取豆瓣电影TOP250页面的HTML内容，然后使用 BeautifulSoup 库对HTML进行解析，抓取每部电影的名称、演员和评分信息，并输出到控制台中。你可以根据自己的需求修改代码。注意，在爬取网站数据时，请尊重网站的相关规定，不要进行恶意攻击或者侵犯别人的隐私。

阅读全文