首页python爬虫使用beautifulsoup库爬取www.shanghairanking.cn网站中大学名字分数排名

python爬虫使用beautifulsoup库爬取www.shanghairanking.cn网站中大学名字分数排名

时间: 2023-12-25 17:06:51 浏览: 81

好的，这是一个比较简单的爬虫任务。首先，你需要安装 requests 和 beautifulsoup4 库。然后，你可以按照以下步骤进行爬取： 1. 导入库并发送请求 ```python import requests from bs4 import BeautifulSoup url = 'http://www.shanghairanking.cn/rankings/bcur/2021' response = requests.get(url) ``` 2. 解析 HTML ```python soup = BeautifulSoup(response.text, 'html.parser') ``` 3. 找到需要的信息在这个网站中，每个大学的名字和排名都在一个表格中，因此我们需要找到这个表格并遍历其中的每一行，然后提取出大学名字和排名。具体代码如下： ```python table = soup.find('table', class_='rk-table') rows = table.find_all('tr')[1:] # 第一行是表头，因此需要去掉 for row in rows: cols = row.find_all('td') name = cols[1].text.strip() rank = cols[0].text.strip() print(rank, name) ``` 这段代码中，我们首先用 `find` 方法找到了具有 `rk-table` 类的表格，然后用 `find_all` 方法找到了表格中的所有行，并去掉了第一行表头。对于每一行，我们又用 `find_all` 方法找到了所有的单元格，然后提取出第二个单元格中的大学名字和第一个单元格中的排名。最后，我们打印出来。

阅读全文