用pycharm爬取https://www.shanghairanking.cn/institution网站并按照校名、地区、管理部门、类别、双一流 共计5个字段进行解析最后保存到csv文件的代码
时间: 2024-01-07 19:06:17 浏览: 89
好的,以下是使用Python和BeautifulSoup解析网页并将数据保存到CSV文件的代码:
```python
import csv
import requests
from bs4 import BeautifulSoup
# 发送HTTP请求并获取响应内容
url = 'https://www.shanghairanking.cn/institution'
response = requests.get(url)
html = response.text
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html, 'html.parser')
table = soup.find('table', {'id': 'UniversityRanking'})
# 获取表格头部列名
columns = []
for th in table.thead.tr.find_all('th'):
columns.append(th.text)
# 获取表格数据行
data = []
for tr in table.tbody.find_all('tr'):
row = []
for td in tr.find_all('td'):
row.append(td.text.strip())
data.append(row)
# 将数据保存到CSV文件
with open('university_ranking.csv', mode='w', encoding='utf-8', newline='') as file:
writer = csv.writer(file)
writer.writerow(columns)
writer.writerows(data)
```
这个代码会将 https://www.shanghairanking.cn/institution 网站的大学排名数据解析并保存到名为 `university_ranking.csv` 的CSV文件中。CSV文件的每行包含校名、地区、管理部门、类别和双一流等五个字段。
阅读全文