import http.client from html.parser import HTMLParser import argparse from concurrent.futures import ThreadPoolExecutor import multiprocessing.pool prefix = "save/" readed_path = multiprocessing.Manager().list() cur_path = multiprocessing.Manager().list() new_path = multiprocessing.Manager().list() lock = multiprocessing.Lock() class MyHttpParser(HTMLParser): def init(self): HTMLParser.init(self) self.tag = [] self.href = "" self.txt = "" def handle_starttag(self, tag, attrs): self.tag.append(tag) # print("start tag in list :" + str(self.tag)) if tag == "a": for att in attrs: if att[0] == 'href': self.href = att[1] def handle_endtag(self, tag): if tag == "a" and len(self.tag) > 2 and self.tag[-2] == "div": print("in div, link txt is %s ." % self.txt) print("in div, link url is %s ." % self.href) lock.acquire() if not self.href in readed_path: readed_path.append(self.href) new_path.append(self.href) # print("end tag in list :" + str(self.tag)) lock.release() self.tag.pop(-1) def handle_data(self, data): if len(self.tag) >= 1 and self.tag[-1] == "a": self.txt = data def LoadHtml(path, file_path): if len(file_path) == 0: file_path = "/" conn = http.client.HTTPConnection(path) try: conn.request("GET", file_path) response = conn.getresponse() print(response.status, response.reason, response.version) data = response.read().decode("utf-8") if response.status == 301: data = response.getheader("Location") lock.acquire() new_path.append(data) lock.release() data = "" #print(data) conn.close() return data except Exception as e: print(e.args) def ParseArgs(): # 初始化解析器 parser = argparse.ArgumentParser() # 定义参数 parser.add_argument("-p", "--path", help="域名") parser.add_argument("-d", "--deep", type=int, help="递归深度") # 解析 args = parser.parse_args() return args def formatPath(path): path = path.removeprefix("https://") path = path.removeprefix("http://") path = path.removeprefix("//") return path def doWork(path): path = formatPath(path) m = path.find("/") if m == -1: m = len(path) data = LoadHtml(path[:m], path[m:]) with open(prefix + path[:m] + ".html", "w+", encoding="utf-8") as f: f.write(data) parse.feed(data) def work(deep,maxdeep): if deep > maxdeep: return args = ParseArgs() cur_path.append(formatPath(args.path)) readed_path.append(formatPath(args.path)) parse = MyHttpParser() e = multiprocessing.Pool(4) for i in range(args.deep): size = len(cur_path) e.map(doWork,cur_path) cur_path[:]=[] for p in new_path: cur_path.append(p) new_path[:]=[] print(i)优化此代码能在windows下运行

时间: 2024-03-01 12:55:15 浏览: 248

DIHtmlParser_5.0.0.rar_Parser_htmlparser

《Delphi Inspiration HTML Parser 深度解析》在IT领域，HTML解析是网页数据抽取、网站自动化测试等任务中的关键技术。"DIHtmlParser_5.0.0.rar_Parser_htmlparser" 提供了一个名为Delphi Inspiration HTML Parser的库，专为Delphi编程环境设计，用于高效地解析和处理HTML文档。本文将深入探讨这个库的核心功能、工作原理以及如何在项目中应用。 1. **Delphi Inspiration HTML Parser简介** Delphi Inspiration HTML Parser是一款开源的、面向对象的HTML解析器，由Delphi开发者社区创建，旨在简化Delphi程序对HTML文档的处理。它提供了丰富的API，允许开发者通过简单的调用来解析复杂的HTML结构，提取所需信息，或者对HTML进行修改。 2. **核心功能** - **解析HTML文档**：DIHtmlParser能够识别HTML标签、属性、文本内容，并将它们组织成一个易于操作的对象结构。 - **节点操作**：支持查找、遍历DOM树，可以对HTML节点进行添加、删除、修改等操作。 - **CSS选择器支持**：使用类似CSS的选择器语法，可以快速定位到HTML文档中的特定元素。 - **事件驱动**：解析过程中触发事件，便于监听和处理解析过程中的变化。 3. **工作原理** DIHtmlParser采用分阶段的解析策略，首先将HTML字符串转换为内存中的DOM树，然后通过遍历DOM树来提取或操作信息。它处理HTML的不规范性，如未闭合的标签和嵌套错误，使得开发者不必关心HTML的语法细节。 4. **API详解** - `THtmlDocument` 类：这是解析器的核心类，包含了整个HTML文档的结构。提供加载HTML字符串、保存为文件、获取根节点等方法。 - `THtmlNode` 类：表示HTML文档中的一个节点，包括元素、文本、注释等。提供了访问子节点、属性、文本内容的方法。 - `THtmlParser` 类：提供解析HTML和处理解析事件的接口，如OnTagOpen、OnTagClose等。 5. **使用示例** 创建一个新的Delphi工程，导入DIHtmlParser库后，可以通过以下代码解析HTML并提取所有链接： ```delphi uses DIHtmlParser; procedure ExtractLinks(const Html: string); var Doc: THtmlDocument; Node: THtmlNode; begin Doc := THtmlDocument.Create; try Doc.ParseString(Html); for Node in Doc.Body.ChildNodes do if Node.NodeType = ntElement && Node.TagName.ToLower = 'a' then Writeln(Node.GetAttribute('href')); finally Doc.Free; end; end; ``` 6. **优化与性能** 由于HTML文档通常较大，解析可能会消耗大量资源。DIHtmlParser通过内存管理优化，减少了不必要的内存分配，提高了解析效率。同时，它支持异步解析，可以在后台线程中运行，避免阻塞UI。 7. **社区支持与扩展** DIHtmlParser拥有活跃的开发社区，不断更新和维护，提供及时的技术支持和问题解答。开发者可以根据需求扩展其功能，例如添加自定义的HTML标签处理器。总结，Delphi Inspiration HTML Parser是一个强大且灵活的HTML解析工具，它为Delphi开发者提供了处理HTML文档的便捷途径。通过理解和运用这个库，开发者可以更高效地进行网页数据抓取、页面自动化测试等任务，提升项目开发的效率和质量。

在Windows下，`multiprocessing` 库不支持在交互式（interactive）窗口下运行，需要将其放在一个独立的脚本中运行。另外，如果要使用 `multiprocessing.Manager().list()` 实现进程间共享数据，需要使用 `multiprocessing.Manager()` 返回的对象来创建进程池（`multiprocessing.Pool()`）。以下是对代码的优化： 1. 将 `multiprocessing.Manager().list()` 替换为 `multiprocessing.Manager().Queue()`，因为 Queue 更适合用于进程间通信。 2. 将 `multiprocessing.Pool()` 替换为 `concurrent.futures.ProcessPoolExecutor()`，因为后者可以更好地处理进程池中的异常。 3. 将 `work()` 函数改为使用 `concurrent.futures.ProcessPoolExecutor()` 来执行任务。 4. 将 `MyHttpParser` 类的属性（`tag`、`href`、`txt`）改为实例属性，因为多个进程可能同时访问这些属性。 5. 在 `doWork()` 函数中，改为使用 `requests` 库来发送 HTTP 请求，因为它比 `http.client` 更易用。以下是优化后的代码： ```python import requests from html.parser import HTMLParser import argparse from concurrent.futures import ThreadPoolExecutor, ProcessPoolExecutor, as_completed import multiprocessing prefix = "save/" readed_path = multiprocessing.Manager().Queue() cur_path = multiprocessing.Manager().Queue() new_path = multiprocessing.Manager().Queue() lock = multiprocessing.Lock() class MyHttpParser(HTMLParser): def __init__(self): super().__init__() self.tag = [] self.href = "" self.txt = "" def handle_starttag(self, tag, attrs): self.tag.append(tag) if tag == "a": for att in attrs: if att[0] == 'href': self.href = att[1] def handle_endtag(self, tag): if tag == "a" and len(self.tag) > 2 and self.tag[-2] == "div": print("in div, link txt is %s ." % self.txt) print("in div, link url is %s ." % self.href) if not self.href in readed_path.queue: readed_path.put(self.href) new_path.put(self.href) self.tag.pop(-1) def handle_data(self, data): if len(self.tag) >= 1 and self.tag[-1] == "a": self.txt = data def LoadHtml(path, file_path): if len(file_path) == 0: file_path = "/" url = f"http://{path}{file_path}" try: response = requests.get(url) print(response.status_code, response.reason, response.raw.version) data = response.content.decode("utf-8") if response.status_code == 301: data = response.headers["Location"] if not data in readed_path.queue: new_path.put(data) data = "" return data except Exception as e: print(e.args) def ParseArgs(): parser = argparse.ArgumentParser() parser.add_argument("-p", "--path", help="domain name") parser.add_argument("-d", "--deep", type=int, help="recursion depth") args = parser.parse_args() return args def formatPath(path): path = path.removeprefix("https://") path = path.removeprefix("http://") path = path.removeprefix("//") return path def doWork(path): path = formatPath(path) m = path.find("/") if m == -1: m = len(path) data = LoadHtml(path[:m], path[m:]) with open(prefix + path[:m] + ".html", "w+", encoding="utf-8") as f: f.write(data) parse.feed(data) def work(maxdeep): args = ParseArgs() cur_path.put(formatPath(args.path)) readed_path.put(formatPath(args.path)) parse = MyHttpParser() with ProcessPoolExecutor(max_workers=4) as executor: for i in range(args.deep): size = cur_path.qsize() futures = [executor.submit(doWork, cur_path.get()) for _ in range(size)] for future in as_completed(futures): try: future.result() except Exception as e: print(e) cur_path.queue.clear() while not new_path.empty(): cur_path.put(new_path.get()) print(i) if __name__ == '__main__': work(5) ```

阅读全文

相关推荐

html.rar_htmlparser_java parsing html

import_word_to_html-master.rar_javascript

validator.nu.htmlparser/

html_parser.pyc

使用_HttpClient_和_HtmlParser_实现简易爬虫

Python库 | argparse_custom_types-0.2.0.tar.gz

Python库 | banrural_bank_parser_gt-0.2.0.tar.gz

Python库 | tweebo_parser_python_api-1.0.4.tar.gz

Python库 | au_address_parser-1.0.0.macosx-10.9-x86_64.tar.gz

node.js中express中间件body-parser的介绍与用法详解

Python库 | argparse_tree-0.1.1.tar.gz

argparse_tree

htmlparser1_6.rar

rsslib4j-0.2.jar jar包，解决java报错找不到资源包问题 The import org.gnu cannot be resolved

jsweekly_parser:用于 http 的 jsweekly_parser

java全大撒大撒大苏打

最新推荐

java全大撒大撒大苏打

Java毕业设计项目：校园二手交易网站开发指南

管理建模和仿真的文件

【MVC标准化：肌电信号处理的终极指南】：提升数据质量的10大关键步骤与工具

能否提供一个在R语言中执行Framingham数据集判别分析的详细和完整的代码示例？

Blaseball Plus插件开发与构建教程

"互动学习：行动中的多样性与论文攻读经历"

【天线性能提升密籍】：深入探究均匀线阵方向图设计原则及案例分析

C#怎么把图片存入名为当前日期的文件夹里

Deno Express：模仿Node.js Express的Deno Web服务器解决方案