首页使用网络爬虫工具爬虫https://www.shanghairanking.cn/rankings/bcur/202411该网站大学排名信息Python代码

使用网络爬虫工具爬虫https://www.shanghairanking.cn/rankings/bcur/202411该网站大学排名信息Python代码

时间: 2024-11-13 17:26:27 浏览: 48

2024年软科中国高校排行榜主榜数据

2024年软科中国高校排行榜主榜数据排名中文名英文名标签地址行业分数层次 Logo 1 清华大学 Tsinghua University 双一流/985/211 北京综合 992.6 36.1 https://www.shanghairanking.cn/_uni/logo/27532357.png 2 北京大学 Peking University 双一流/985/211 北京综合 898.6 34.9 https://www.shanghairanking.cn/_uni/logo/86350223.png 3 浙江大学 Zhejiang University 双一流/985/211 浙江综合 793.8 34.9 https://www.shanghairanking.cn/_u

在网络爬虫中，使用Python抓取特定网页数据通常会涉及`requests`库来发送HTTP请求获取HTML内容，然后使用如`BeautifulSoup`或`lxml`库解析HTML结构。以下是使用`requests`和`BeautifulSoup`简单示例来抓取上海交通大学世界学术排名页面的数据： ```python import requests from bs4 import BeautifulSoup # 发送GET请求 url = "https://www.shanghairanking.cn/rankings/bcur/202411" response = requests.get(url) # 检查请求是否成功 if response.status_code == 200: # 解析HTML soup = BeautifulSoup(response.text, 'html.parser') # 查找特定的元素，例如大学名称和排名 # 这部分需要根据实际网页结构调整 university_rankings = soup.find_all('div', class_='university-ranking') # 假设排名信息包含在class为'university-ranking'的div中 for ranking in university_rankings: name = ranking.find('h3').text # 找到大学名称 rank = ranking.find('span', class_='rank').text # 找到排名数字 print(f"大学名: {name}, 排名: {rank}") else: print(f"请求失败，状态码: {response.status_code}")

阅读全文