首页使用python爬虫用beautifulSoup库爬取大学排名分数

使用python爬虫用beautifulSoup库爬取大学排名分数

时间: 2024-06-09 09:12:25 浏览: 209

好的，我可以帮你解答这个问题。首先你需要确定你要爬取的大学排名网站，然后使用 Python 的 requests 库获取网页源代码。接着，你可以使用 BeautifulSoup 库来解析网页，并提取你所需要的信息。以下是一个简单的爬虫示例，用来爬取中国大学排名网站（http://www.zuihaodaxue.com/zuihaodaxuepaiming2021.html）的大学排名分数： ```python import requests from bs4 import BeautifulSoup url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2021.html' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') # 在这里你可以根据网页的 HTML 结构，使用 soup.select() 方法定位到你需要的信息。 # 以下是一个示例，用来提取排名、学校名称和分数信息。 for item in soup.select('.alt'): rank = item.select_one('.ranking').text.strip() name = item.select_one('.school').text.strip() score = item.select_one('.score').text.strip() print(rank, name, score) ``` 这段代码会输出中国大学排名网站上所有大学的排名、名称和分数。你可以按照自己的需要修改代码，以适应不同的网站和数据。

阅读全文