from bs4 import BeautifulSoup import requests import openpyxl def get_html(url): try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding return r.text except: r='fail' return r def get_contents(urlist,rurl): soup=BeautifulSoup(rurl,'html.parser') trs=soup.find_all('tr') for tr in trs: un=[] for td in tr: ts=td.string ts=ts.strip() if ts == '': continue un.append(ts) urlist.append(un) def saveList(urlist): wb=openpyxl.Workbook() ws=wb.active r=1 for line in urlist: for col in range(1,len(line)+1): ws.cell(row=r,column=col).value=line[col-1] r=r+1 wb.save('University.xlsx') if name=="main": urlist=[] url="http://heucice.hrbeu.edu.cn/4017/list.htm" rurl=get_html(url) get_contents(urlist,rurl) saveList(urlist)

时间: 2024-04-28 11:20:14 浏览: 151

这段代码是一个简单的爬虫程序，用于爬取哈尔滨工程大学（HRBEU）信息与通信工程学院的本科教学网站上的“本科生教学管理”栏目下的“本科生教学管理办公室”页面中的表格内容，并将其保存到一个名为“University.xlsx”的 Excel 文件中。在程序中，get_html() 函数用于获取网页的 HTML 内容，get_contents() 函数用于解析 HTML 内容，提取表格中的数据，并将其存储到一个列表中，saveList() 函数用于将列表中的数据保存到 Excel 文件中。在程序的主函数中，首先定义了一个列表 urlist，用于存储表格中的数据。然后，定义了一个变量 url，用于存储目标页面的 URL 地址。接着，调用 get_html() 函数获取目标页面的 HTML 内容，并将其传递给 get_contents() 函数进行解析。最后，将解析后的数据传递给 saveList() 函数，将其保存到 Excel 文件中。需要注意的是，爬取网页内容时需要遵守相关的法律法规和网站的规定，避免对目标网站造成不必要的影响。

针对以下python代码的解释以及实验小结import requests from bs4 import BeautifulSoup import re #创建获取网页数据的函数geunivText def getnuivText(url): try: r = requests.get(url) r.raise_for_status r.encoding = r.apparent_encoding return r.text except: return '' #创建解析函数并将爬取的目标数据存储 def fillunivList(ulist,html): soup = BeautifulSoup(html,'html.parser') for tr in soup.find('tbody').children: tds = tr.find_all('td') temp = [] for i in [0,1,4,5]: if i != 1: t = tds[i].string temp.append(re.sub('\s*|\n','',t)) else: t = tds[i].find('a') temp.append(t.string) ulist.append(temp) return ulist #创建打印函数 def printunivRank(ulist,num): print('{0:^4}\t{1:^10}\t\t{2:^5}\t{3:^5}'.format('排名','大学名称','总分','办学层次')) for i in range(num): a,b,c,d = ulist[i] print('{0:{4}^4}\t{1:{4}^10}\t{2:{4}^5}\t{3:{4}^5}'.format(a,b,c,d,chr(12288))) def main(): url = 'https://www.shanghairanking.cn/rankings/bcur/2021' html_text = getnuivText(url) unlist = [] fillunivList(unlist,html_text) print(printunivRank(unlist,20)) main()

这段 Python 代码使用了 requests、BeautifulSoup 和 re 三个库，爬取了上海交通大学的 2021 年度排名信息。具体实现过程如下： 1. 定义了一个函数 getnuivText，用于获取指定 url 的网页内容，利用 requests 库的 get 方法，获取网页内容，并利用 raise_for_status 方法判断是否获取成功，最后返回获取到的网页内容。 2. 定义了一个函数 fillunivList，用于解析获取到的网页内容，并将排名信息存储到一个 list 中，该函数接受两个参数：ulist 和 html，其中 ulist 为存储排名信息的 list，html 为网页内容。通过 BeautifulSoup 库将网页内容解析成 XML 格式，并通过 find 方法找到 tbody 标签中的所有子元素，即 tr 标签中的所有数据。然后遍历每个 tr 标签中的 td 标签，并将 td 中的内容提取出来，存储到一个临时 list 中，最后将临时 list 添加到 ulist 中。最后函数返回 ulist。 3. 定义了一个函数 printunivRank，用于打印排名信息，该函数接受两个参数：ulist 和 num，其中 ulist 为存储排名信息的 list，num 为需要打印的排名个数。函数首先打印表头信息，然后遍历 ulist 中的前 num 个元素，依次打印排名信息。 4. 定义了主函数 main，用于调用上述两个函数，实现爬取和打印排名信息的功能。首先指定要爬取的 url，然后调用 getnuivText 函数获取网页内容，接着调用 fillunivList 函数解析网页内容，并将排名信息存储到一个 list 中。最后调用 printunivRank 函数打印排名信息。总的来说，这段代码主要实现了爬取和解析网页内容，并将获取到的排名信息打印出来。

import requests from bs4 import BeautifulSoup allUniv = [] def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = 'utf-8' return r.text except: return "" def fillUnivList(soup): data = soup.find_all('tr') for tr in data: ltd = tr.find_all('td') if len(ltd)==0: continue singleUniv = [] for td in ltd: singleUniv.append(td.string) allUniv.append(singleUniv) def printUnivList(num): print("{:^4}{:^10}{:^5}{:^8}{:^10}".format("排名","学校名称","省市","总分","培养规模")) for i in range(num): u=allUniv[i] print("{:^4}{:^10}{:^5}{:^8}{:^10}".format(u[0],u[1],u[2],u[3],u[6])) def main(): url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html' html = getHTMLText(url) soup = BeautifulSoup(html, "html.parser") fillUnivList(soup) printUnivList(10) main()修改代码

这段代码是用来爬取2016年全国大学排名前10的大学的信息，并输出到控制台上。代码首先定义了一个空列表 allUniv，然后定义了三个函数：getHTMLText、fillUnivList、printUnivList。其中，getHTMLText函数用来获取指定URL的HTML文本内容，fillUnivList函数用来解析HTML文本内容并将排名前10大学的信息保存到 allUniv 列表中，printUnivList函数用来将 allUniv 列表中的信息输出到控制台上。最后，main函数调用了以上三个函数，从而完成了爬取和输出的任务。对于修改的部分，可以根据自己的需求进行修改。比如，如果你想爬取其他年份的大学排名信息，只需要修改URL即可；如果你想输出更多的大学信息，可以修改printUnivList函数中的 num 参数。如果你想将爬取到的信息保存到本地文件中，可以添加一个新的函数来实现。总之，这段代码具有很强的可扩展性，可以根据自己的需求进行修改。

阅读全文

相关推荐

import sys import os import urllib from bs4 import BeautifulSoup

BeautifulSoup解析HTML

java计算器源码.zip

FRP Manager-V1.19.2

基于优化EKF的PMSM无位置传感器矢量控制研究_崔鹏龙.pdf

旧物置换网站(基于springboot,mysql,java).zip

上位机开发，对桥梁、环境等传感器传输的数据进行采集并入库，以便用于系统平台对数据进行处理分析(毕设&课设&实训&大作业&竞赛&项目)

质子号.zip

两级式单相光伏并网仿真研究：MATLAB 2021a版本下的DC-DC变换与桥式逆变技术实现功率跟踪与并网效果优化,基于Matlab 2021a的两级式单相光伏并网仿真研究：实现最大功率跟踪与稳定的直

大家在看

电法正反演方法和软件使用介绍(“反演”文档)共33张.pptx

饿了么后端项目+使用VUE+Servlet+AJAX技术开发前后端分离的Web应用程序。

微软--项目管理软件质量控制实践篇（一）（二）（三）

chfenger-Waverider-master0_乘波体_

840D的PLC功能块FB2和FB3读写NC系统变量

最新推荐

java计算器源码.zip

FRP Manager-V1.19.2

基于优化EKF的PMSM无位置传感器矢量控制研究_崔鹏龙.pdf

旧物置换网站(基于springboot,mysql,java).zip

PHP集成Autoprefixer让CSS自动添加供应商前缀

揭秘数字音频编码的奥秘：非均匀量化A律13折线的全面解析

arduino PAJ7620U2

网站啄木鸟：深入分析SQL注入工具的效率与限制

【GPStoolbox使用技巧大全】：20个实用技巧助你精通GPS数据处理

spring boot怎么配置maven