使用python爬虫用beautifulSoup库爬取大学排名分数
时间: 2024-06-09 16:12:25 浏览: 196
好的,我可以帮你解答这个问题。首先你需要确定你要爬取的大学排名网站,然后使用 Python 的 requests 库获取网页源代码。接着,你可以使用 BeautifulSoup 库来解析网页,并提取你所需要的信息。
以下是一个简单的爬虫示例,用来爬取中国大学排名网站(http://www.zuihaodaxue.com/zuihaodaxuepaiming2021.html)的大学排名分数:
```python
import requests
from bs4 import BeautifulSoup
url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2021.html'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
# 在这里你可以根据网页的 HTML 结构,使用 soup.select() 方法定位到你需要的信息。
# 以下是一个示例,用来提取排名、学校名称和分数信息。
for item in soup.select('.alt'):
rank = item.select_one('.ranking').text.strip()
name = item.select_one('.school').text.strip()
score = item.select_one('.score').text.strip()
print(rank, name, score)
```
这段代码会输出中国大学排名网站上所有大学的排名、名称和分数。你可以按照自己的需要修改代码,以适应不同的网站和数据。
阅读全文