使用网络爬虫工具爬虫https://www.shanghairanking.cn/rankings/bcur/202411该网站大学排名信息Python代码
时间: 2024-11-13 17:26:27 浏览: 10
在网络爬虫中,使用Python抓取特定网页数据通常会涉及`requests`库来发送HTTP请求获取HTML内容,然后使用如`BeautifulSoup`或`lxml`库解析HTML结构。以下是使用`requests`和`BeautifulSoup`简单示例来抓取上海交通大学世界学术排名页面的数据:
```python
import requests
from bs4 import BeautifulSoup
# 发送GET请求
url = "https://www.shanghairanking.cn/rankings/bcur/202411"
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 查找特定的元素,例如大学名称和排名
# 这部分需要根据实际网页结构调整
university_rankings = soup.find_all('div', class_='university-ranking') # 假设排名信息包含在class为'university-ranking'的div中
for ranking in university_rankings:
name = ranking.find('h3').text # 找到大学名称
rank = ranking.find('span', class_='rank').text # 找到排名数字
print(f"大学名: {name}, 排名: {rank}")
else:
print(f"请求失败,状态码: {response.status_code}")
阅读全文