用pycharm的xpath语法爬取https://www.shanghairanking.cn/institution网站前五页的内容并按照校名、地区、管理部门、类别、双一流共计5个字段进行解析最后保存到csv文件的代码

首先需要安装`requests`、`lxml`和`csv`这三个库，可以在PyCharm的Terminal中执行以下命令安装： ``` pip install requests pip install lxml ``` 然后就可以编写代码了，代码如下： ```python import requests from lxml import etree import csv # 存储解析结果的列表 data_list = [] # 循环前五页 for page in range(1, 6): url = f'https://www.shanghairanking.cn/institution/index/{page}' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } response = requests.get(url, headers=headers) html = etree.HTML(response.text) # 获取当前页面所有学校的链接 link_list = html.xpath('//td[@class="align-left"]/a/@href') for link in link_list: # 访问学校链接 school_url = f'https://www.shanghairanking.cn{link}' school_response = requests.get(school_url, headers=headers) school_html = etree.HTML(school_response.text) # 解析校名 name = school_html.xpath('//div[@class="univ-name"]/h1/text()')[0] # 解析地区 region = school_html.xpath('//div[@class="col-lg-2 col-md-2 col-sm-12"]/div/p[1]/text()')[0] # 解析管理部门 department = school_html.xpath('//div[@class="col-lg-2 col-md-2 col-sm-12"]/div/p[2]/text()')[0] # 解析类别 category = school_html.xpath('//div[@class="col-lg-2 col-md-2 col-sm-12"]/div/p[3]/text()')[0] # 解析是否为双一流 is_double_first_class = school_html.xpath('//div[@class="col-lg-2 col-md-2 col-sm-12"]/div/p[4]/text()')[0] # 将解析结果存入列表 data_list.append([name, region, department, category, is_double_first_class]) # 将数据写入csv文件 with open('schools.csv', 'w', newline='', encoding='utf-8') as f: writer = csv.writer(f) writer.writerow(['校名', '地区', '管理部门', '类别', '双一流']) writer.writerows(data_list) ``` 代码执行完成后，会在当前目录下生成一个名为`schools.csv`的文件，里面就是解析结果。

阅读全文

用pycharm的xpath语法爬取https://www.shanghairanking.cn/institution网站前五页的内容并按照校名、地区、管理部门、类别、双一流 共计5个字段进行解析最后保存到csv文件的代码

相关推荐

python爬取招聘网信息并保存为csv文件

python数据爬取美食网站xpath解析并将美食数据存入csv文件按照人气数据分析可视化

python 使用xpath/lxml爬取网页表格并存CSV

用pycharm的xpath语法爬取https://www.shanghairanking.cn/institution网站并按照校名、地区、管理部门、类别、双一流 共计5个字段进行解析最后保存到csv文件的代码

用pycharm scrapy框架爬取https://www.shanghairanking.cn/institution校名、地区、管理部门、类别、双一流的内容并写入csv文件

用pycharm爬虫爬取https://www.shanghairanking.cn/institution网站的校名、地区、管理部门、类别、双一流 并写入csv文件的代码

用pycharm爬取https://www.shanghairanking.cn/institution的内容并写入csv文件

用pycharm爬取https://www.shanghairanking.cn/institution网站的前五页内容并按照校名、地区、管理部门、类别、双一流 共计5个字段进行解析最后保存到csv文件的代码

用pycharm爬取https://www.shanghairanking.cn/institution前五页的校名、地区、管理部门、类别、双一流的内容并写入csv文件的代码

用pycharm爬取https://www.shanghairanking.cn/institution校名、地区、管理部门、类别、双一流的内容并写入csv文件的代码

pycharm简单爬取https://www.shanghairanking.com/rankings/bcur/2023学校排名

用pycharm爬取https://www.shanghairanking.cn/institution网站并按照校名、地区、管理部门、类别、双一流 共计5个字段进行解析最后保存到csv文件的代码

用pycharm爬取https://www.shanghairanking.cn/rankings/bcur/202414的全国参考排名

pycharm生成爬取https://www.ddyueshu.com/30441_30441034/的代码

用pycharm爬取百度文库https://wk.baidu.com/view/526297e64531b90d6c85ec3a87c24028905f8521并存储到数据库中

用pycharm 写一段代码爬取https://d9737h.top/p/1/24195.html中的视频

进入官网：首先，访问JetBrains公司的官方网站（https://www.jetbrains.com/），这是获取PyCha

编写程序，创建一个Scrapy项目爬取网站豆瓣电影Top 250（https://movie.douban.com/top250）中的所有页面的电影名称、描述和评分，并存储到.csv文件中。编写软件为pycharm，浏览器为Edge

用pycharm scrapy框架爬取软科-高等教育评价领先品牌院校的前五页内容并按照校名、地区、管理部门、类别、双一流 共计5个字段进行解析最后保存到csv文件的代码

大家在看

SM621G1 BA 手册

SCSI-ATA-Translation-3_(SAT-3)-Rev-01a

小华HC32L19X SPI 驱片外FLASH 例程

景象匹配精确制导中匹配概率的一种估计方法

STK Scheduler使用向导

最新推荐

IDEA遇到Internal error. Please refer to http://jb. gg/ide/critical-startup-errors的问题及解决办法

医疗影像革命-YOLOv11实现病灶实时定位与三维重建技术解析.pdf

智慧物流实战-YOLOv11货架商品识别与库存自动化盘点技术.pdf

Spring Websocket快速实现与SSMTest实战应用

电力电子技术的智能化：数据中心的智能电源管理

通过spark sql读取关系型数据库mysql中的数据

新版微软inspect工具下载：32位与64位版本

如何运用电力电子技术实现IT设备的能耗监控

2635.656845多位小数数字，js不使用四舍五入保留两位小数，然后把结果千分位，想要的结果是2,635.65;如何处理

解决最小倍数问题 - Ruby编程项目欧拉实践

用pycharm的xpath语法爬取https://www.shanghairanking.cn/institution网站前五页的内容并按照校名、地区、管理部门、类别、双一流共计5个字段进行解析最后保存到csv文件的代码

用pycharm的xpath语法爬取https://www.shanghairanking.cn/institution网站并按照校名、地区、管理部门、类别、双一流共计5个字段进行解析最后保存到csv文件的代码

用pycharm爬虫爬取https://www.shanghairanking.cn/institution网站的校名、地区、管理部门、类别、双一流并写入csv文件的代码

用pycharm爬取https://www.shanghairanking.cn/institution网站的前五页内容并按照校名、地区、管理部门、类别、双一流共计5个字段进行解析最后保存到csv文件的代码

用pycharm爬取https://www.shanghairanking.cn/institution网站并按照校名、地区、管理部门、类别、双一流共计5个字段进行解析最后保存到csv文件的代码

用pycharm scrapy框架爬取软科-高等教育评价领先品牌院校的前五页内容并按照校名、地区、管理部门、类别、双一流共计5个字段进行解析最后保存到csv文件的代码