首页Pythonbs4 urllib爬取豆瓣250数据

Pythonbs4 urllib爬取豆瓣250数据

时间: 2024-09-15 18:06:20 浏览: 43

Python中的BeautifulSoup库（简称BS4）和urllib模块常常一起用于网页抓取，特别是从HTML或XML文档中提取信息。首先，你需要安装这两个库，可以使用pip命令： ```bash pip install beautifulsoup4 requests ``` 下面是一个简单的步骤说明如何使用它们来爬取豆瓣电影Top250的数据： 1. 导入所需库： ```python import requests from bs4 import BeautifulSoup ``` 2. 发送GET请求获取网页内容： ```python url = "https://movie.douban.com/top250" response = requests.get(url) ``` 3. 检查请求是否成功并处理响应： ```python if response.status_code == 200: # 使用BeautifulSoup解析HTML内容 soup = BeautifulSoup(response.text, 'lxml') else: print(f"请求失败，状态码：{response.status_code}") ``` 4. 找到需要的信息，例如电影标题、评分等，并存储起来： ```python data = [] for movie in soup.select('.item'): title = movie.select_one('.title').text.strip() rating = movie.select_one('.rating_num').string data.append({"title": title, "rating": rating}) ``` 5. 数据整理和打印： ```python for movie in data: print(f"电影名称：{movie['title']}, 评分：{movie['rating']}") ``` 注意：实际操作时要遵守网站的robots.txt规则，尊重版权，不要过于频繁地访问以免对服务器造成压力。

阅读全文