用pycharm的xpath语法爬取https://www.shanghairanking.cn/institution网站并按照校名、地区、管理部门、类别、双一流 共计5个字段进行解析最后保存到csv文件的代码
时间: 2024-04-03 14:34:04 浏览: 82
python爬取招聘网信息并保存为csv文件
好的,以下是使用Python和XPath语法解析网页并将数据保存到CSV文件的代码:
```python
import csv
import requests
from lxml import etree
# 发送HTTP请求并获取响应内容
url = 'https://www.shanghairanking.cn/institution'
response = requests.get(url)
html = response.text
# 使用lxml库解析HTML
tree = etree.HTML(html)
# 获取表格头部列名
columns = []
for th in tree.xpath('//table[@id="UniversityRanking"]/thead/tr/th'):
columns.append(th.text.strip())
# 获取表格数据行
data = []
for tr in tree.xpath('//table[@id="UniversityRanking"]/tbody/tr'):
row = []
for td in tr.xpath('td'):
row.append(td.text.strip())
data.append(row)
# 将数据保存到CSV文件
with open('university_ranking.csv', mode='w', encoding='utf-8', newline='') as file:
writer = csv.writer(file)
writer.writerow(columns)
writer.writerows(data)
```
这个代码会将 https://www.shanghairanking.cn/institution 网站的大学排名数据解析并保存到名为 `university_ranking.csv` 的CSV文件中。CSV文件的每行包含校名、地区、管理部门、类别和双一流等五个字段。
阅读全文