import requests from bs4 import BeautifulSoup allUniv = [] def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = 'utf-8' return r.text except: return "" def fillUnivList(soup): data = soup.find_all('tr') for tr in data: ltd = tr.find_all('td') if len(ltd)==0: continue singleUniv = [] for td in ltd: singleUniv.append(td.string) allUniv.append(singleUniv) def printUnivList(num): print("{:^4}{:^10}{:^5}{:^8}{:^10}".format("排名","学校名称","省市","总分","培养规模")) for i in range(num): u=allUniv[i] print("{:^4}{:^10}{:^5}{:^8}{:^10}".format(u[0],u[1],u[2],u[3],u[6])) def main(): url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html' html = getHTMLText(url) soup = BeautifulSoup(html, "html.parser") fillUnivList(soup) printUnivList(10) main()修改

时间: 2024-03-29 13:39:11 浏览: 14

这段代码是用来爬取2016年全国大学排名前10的大学的信息，并输出到控制台上。代码首先定义了一个空列表 allUniv，然后定义了三个函数：getHTMLText、fillUnivList、printUnivList。其中，getHTMLText函数用来获取指定URL的HTML文本内容，fillUnivList函数用来解析HTML文本内容并将排名前10大学的信息保存到 allUniv 列表中，printUnivList函数用来将 allUniv 列表中的信息输出到控制台上。最后，main函数调用了以上三个函数，从而完成了爬取和输出的任务。对于修改的部分，可以根据自己的需求进行修改。比如，如果你想爬取其他年份的大学排名信息，只需要修改URL即可；如果你想输出更多的大学信息，可以修改printUnivList函数中的 num 参数。如果你想将爬取到的信息保存到本地文件中，可以添加一个新的函数来实现。总之，这段代码具有很强的可扩展性，可以根据自己的需求进行修改。

import requests from bs4 import BeautifulSoup def getHTMLText(url): try: r = requests.get(url,timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return "产生异常" def jiexi(html_doc): soup = BeautifulSoup(html_doc,"html.parser") links = soup.find_all('a') for link in links: print(link.name,link["nref"],link.get.next()) if name == 'main': url = "https://wallhaven.cc/toplist?page=7" print(getHTMLText(url))改进代码

这段代码可以改进的地方有： 1. 函数名jiexi不太直观，可以改为更明确的parse_links。 2. 在解析链接时，可以加上判断，如果链接是以http或https开头的，才输出链接信息，否则忽略。 3. 在主程序中，应该调用parse_links函数，而不是直接打印HTML页面内容。改进后的代码如下： ``` import requests from bs4 import BeautifulSoup def get_html_text(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return "产生异常" def parse_links(html_doc): soup = BeautifulSoup(html_doc, "html.parser") links = soup.find_all('a') for link in links: if link.has_attr('href') and (link['href'].startswith('http') or link['href'].startswith('https')): print(link.name, link['href'], link.get_text()) if __name__ == '__main__': url = "https://wallhaven.cc/toplist?page=7" html_text = get_html_text(url) parse_links(html_text) ``` 这样修改后，代码更加清晰易懂，功能也更加完善。

import requests from bs4 import BeautifulSoup allUniv = [] def getHTMLText(url): try: r = requests.get(url,timeout=30) r.raise_for_status() r.encoding = 'utf-8' return r.text except: return "" def fillUnivList(soup): data = soup.find_all('tr') for tr in data: ltd = tr.find_all('td') if len(ltd) == 0: continue singleUniv = [] for td in ltd: singleUniv.append(td.string) allUniv.append(singleUniv) def printUnivList(num): print("{:^4}{:^10}{:^5}{:^8}{:^10}".format("排名","学校名称","省份","总分","培养规模")) for i in range(num): u=allUniv[i] print("{:^4}{:^10}{:^5}{:^8}{:^10}".format(u[0],u[1],u[2],u[3],u[6])) def main(num): url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html' html = getHTMLText(url) soup = BeautifulSoup(html,"html.parser") fillUnivList(soup) printUnivList(num) main(10)数组超出范围

根据你提供的代码，问题出现在访问 `allUniv` 数组时，数组索引超出了范围。具体来说，当 `num` 大于 `allUniv` 的长度时，执行 `printUnivList` 函数时会抛出 `IndexError` 异常。你可以在调用 `printUnivList` 函数前，先判断一下 `num` 是否超出了 `allUniv` 的长度，如果超出了则将 `num` 赋值为 `allUniv` 的长度，这样就可以避免数组越界的问题。修改后的代码如下： ```python import requests from bs4 import BeautifulSoup allUniv = [] def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = 'utf-8' return r.text except: return "" def fillUnivList(soup): data = soup.find_all('tr') for tr in data: ltd = tr.find_all('td') if len(ltd) == 0: continue singleUniv = [] for td in ltd: singleUniv.append(td.string) allUniv.append(singleUniv) def printUnivList(num): if num > len(allUniv): num = len(allUniv) # 将 num 赋值为 allUniv 的长度 print("{:^4}{:^10}{:^5}{:^8}{:^10}".format("排名", "学校名称", "省份", "总分", "培养规模")) for i in range(num): u = allUniv[i] print("{:^4}{:^10}{:^5}{:^8}{:^10}".format(u[0], u[1], u[2], u[3], u[6])) def main(num): url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html' html = getHTMLText(url) soup = BeautifulSoup(html, "html.parser") fillUnivList(soup) printUnivList(num) main(10) ``` 这样就可以避免数组越界的问题了。

相关推荐

RosimmImage:爬取Rosimm(http

python数据抓取分析的示例代码（python + mongodb）

python爬取淘宝商品信息

python+mongodb数据抓取详细介绍

股票爬虫实例程序

python爬虫开发常见问题及其解决方法和经验总结.docx

中国大学排名

【爬虫入门】股票数据爬取

使用python爬虫爬取卷皮网背包信息实例

最新推荐

新建文本文档.txt

开源Git gui工具Fork

yolov5在华为昇腾atlas上加速推理

C++ 实现贪吃蛇小游戏

ec616DataSheet

zigbee-cluster-library-specification

管理建模和仿真的文件

MATLAB柱状图在信号处理中的应用：可视化信号特征和频谱分析

HSV转为RGB的计算公式

JSBSim Reference Manual