抓取软科学科排名：全国高校专项学科排行榜爬虫

42 浏览量更新于2024-08-30 收藏 354KB PDF 举报

在"爬虫入门之最好大学网–专项学科全国排名爬虫"的学习中，主要目标是利用网络爬虫技术获取中国高校在特定学科领域的排名信息。具体任务包括： 1. **抓取专项学科排名**：通过爬虫程序，访问软科中国最好学科排名的网页（如软件工程、土木工程、石油与天然气工程等），这些网页的URL遵循一定的结构规则，即由'http://www.zuihaodaxue.cn/BCSR/' 加上学科全名拼音和年份组成。 2. **学科排名获取**：用户输入想要查询的学科全名，通过Python的`pypinyin`库将其转换为拼音，然后拼接成对应的学科排名页面URL。例如，对于软件工程，URL会是`http://www.zuihaodaxue.cn/BCSR/ruanjiangongcheng2019.html`。 3. **网页内容解析**：到达学科排名页面后，需要解析HTML内容以提取所需信息。这通常涉及到HTML解析库（如BeautifulSoup或lxml）的使用，通过查找特定的HTML标签（如`<table>`或`<div>`）来定位排名列表，然后提取出各高校的名称、排名位置以及可能的其他相关信息，如学科排名的具体数值和博士点数量。 4. **综合排名和重点学科院校**：除了学科排名，爬虫还需要抓取学科所在的高校的综合排名情况和重点学科院校信息。这部分可能需要进一步探索网页结构，或者通过链接追踪到相关页面获取。 5. **错误处理**：在编写爬虫时，要注意异常处理，如请求超时或HTTP状态码问题，确保程序能够稳定运行并返回有效数据。 6. **数据存储与展示**：最后，抓取的数据可能需要存储在数据库或CSV文件中，以便后续分析或展示，可以使用pandas库进行数据清洗和整理。总结来说，这个爬虫项目旨在自动化收集中国大学学科排名信息，通过Python编程实现数据抓取、解析和管理，是学习网络爬虫技术和数据分析实践的一个实际案例。

爬虫入门之最好大学网爬虫入门之最好大学网–专项学科全国排名爬虫专项学科全国排名爬虫

爬虫目的爬虫目的

抓取专项学科获取该学科在全国各高校的排名情况

获取该学科所在高校在全国的综合排名情况

获取该学科全国范围博士点的数量

获取该学科的重点学科院校情况

根据网址爬取网页根据网址爬取网页

使用最基本的网页爬取通用框架：

# url为要爬取的网址，函数返回爬取网址的网页内容

def getHTMLText(url):

try:

r = requests.get(url,timeout=30)

r.raise_for_status()

r.encoding = r.apparent_encoding

return r.text

except:

return ""

爬虫的目标网站分析爬虫的目标网站分析

最好大学网首页

软科最好大学排名2019

软科中国最好学科排名

其中，我们重点浏览软科中国最好学科排名的网站，观察其每一学科排名网址的编排规律，如下：

软件工程：http://www.zuihaodaxue.cn/BCSR/ruanjiangongcheng2019.html

土木工程：http://www.zuihaodaxue.cn/BCSR/tumugongcheng2019.html

石油与天然气工程：http://www.zuihaodaxue.cn/BCSR/shiyouyutianranqigongcheng2019.html

等等

可以发现，各学科对应的网址之间存在这样的规律：

都是由都是由 http://www.zuihaodaxue.cn/BCSR/ + str(学科全名拼音学科全名拼音) + 2019.html 组合而成。。组合而成。。

为了获取各学科的大学排名情况，我们可以设置外部输入想要查询的学科全名，然后通过Python的拼音库将输入的汉字转化为拼音，然后拼接成

对应学科专业的网址（此部分将于程序开始处处理，此处略作说明）：

# 拼接想要查询的学科对应的网址

s = input("请输入您想要咨询的专业学科全名：")

ss = ""

# 通过python的pypinyin库，解决汉字转成拼音的问题

for i in lazy_pinyin(s):

ss = ss + str(i)

surl = "http://www.zuihaodaxue.cn/BCSR/" + ss + "2019.html"

网页内容分析：网页内容分析：

该学科在全国各高校的排名的网页解析：软科中国最好学科排名

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38665944

粉丝: 6
资源: 914

抓取软科学科排名：全国高校专项学科排行榜爬虫

简单python爬虫最好大学网

Python爬虫入门教程：超级简单的Python爬虫教程.pdf

python网络爬虫入门之request.Request

爬虫入门之正则表达式入门一

Python网络爬虫入门

网络爬虫入门程序示例

python爬虫入门

爬虫入门级

java爬虫入门

Python爬虫入门

最新资源