python爬虫使用beautifulsoup库爬取www.shanghairanking.cn网站中 大学名字 分数排名
时间: 2023-12-25 12:06:51 浏览: 74
好的,这是一个比较简单的爬虫任务。首先,你需要安装 requests 和 beautifulsoup4 库。然后,你可以按照以下步骤进行爬取:
1. 导入库并发送请求
```python
import requests
from bs4 import BeautifulSoup
url = 'http://www.shanghairanking.cn/rankings/bcur/2021'
response = requests.get(url)
```
2. 解析 HTML
```python
soup = BeautifulSoup(response.text, 'html.parser')
```
3. 找到需要的信息
在这个网站中,每个大学的名字和排名都在一个表格中,因此我们需要找到这个表格并遍历其中的每一行,然后提取出大学名字和排名。具体代码如下:
```python
table = soup.find('table', class_='rk-table')
rows = table.find_all('tr')[1:] # 第一行是表头,因此需要去掉
for row in rows:
cols = row.find_all('td')
name = cols[1].text.strip()
rank = cols[0].text.strip()
print(rank, name)
```
这段代码中,我们首先用 `find` 方法找到了具有 `rk-table` 类的表格,然后用 `find_all` 方法找到了表格中的所有行,并去掉了第一行表头。对于每一行,我们又用 `find_all` 方法找到了所有的单元格,然后提取出第二个单元格中的大学名字和第一个单元格中的排名。最后,我们打印出来。
阅读全文