from bs4 import BeautifulSoup import requests import openpyxl def get_html(url): try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding return r.text except: r='fail' return r def get_contents(urlist,rurl): soup=BeautifulSoup(rurl,'html.parser') trs=soup.find_all('tr') for tr in trs: un=[] for td in tr: ts=td.string ts=ts.strip() if ts == '': continue un.append(ts) urlist.append(un) def saveList(urlist): wb=openpyxl.Workbook() ws=wb.active r=1 for line in urlist: for col in range(1,len(line)+1): ws.cell(row=r,column=col).value=line[col-1] r=r+1 wb.save('University.xlsx') if __name__=="__main__": urlist=[] url="http://heucice.hrbeu.edu.cn/4017/list.htm" rurl=get_html(url) get_contents(urlist,rurl) saveList(urlist)
时间: 2024-04-28 14:20:14 浏览: 140
import sys import os import urllib from bs4 import BeautifulSoup
这段代码是一个简单的爬虫程序,用于爬取哈尔滨工程大学(HRBEU)信息与通信工程学院的本科教学网站上的“本科生教学管理”栏目下的“本科生教学管理办公室”页面中的表格内容,并将其保存到一个名为“University.xlsx”的 Excel 文件中。
在程序中,get_html() 函数用于获取网页的 HTML 内容,get_contents() 函数用于解析 HTML 内容,提取表格中的数据,并将其存储到一个列表中,saveList() 函数用于将列表中的数据保存到 Excel 文件中。
在程序的主函数中,首先定义了一个列表 urlist,用于存储表格中的数据。然后,定义了一个变量 url,用于存储目标页面的 URL 地址。接着,调用 get_html() 函数获取目标页面的 HTML 内容,并将其传递给 get_contents() 函数进行解析。最后,将解析后的数据传递给 saveList() 函数,将其保存到 Excel 文件中。
需要注意的是,爬取网页内容时需要遵守相关的法律法规和网站的规定,避免对目标网站造成不必要的影响。
阅读全文