import http.clientfrom html.parser import HTMLParserimport argparsefrom concurrent.futures import ThreadPoolExecutorimport threadingprefix = "save/"readed_path = set()cur_path = []new_path = []lock = threading.Lock()cond=threading.Condition()class MyHttpParser(HTMLParser): def __init__(self): HTMLParser.__init__(self) self.tag = [] self.href = "" self.txt = "" def handle_starttag(self, tag, attrs): self.tag.append(tag) # print("start tag in list :" + str(self.tag)) if tag == "a": for att in attrs: if att[0] == 'href': self.href = att[1] def handle_endtag(self, tag): if tag == "a" and len(self.tag) > 2 and self.tag[-2] == "div": print("in div, link txt is %s ." % self.txt) print("in div, link url is %s ." % self.href) if not self.href in readed_path: readed_path.add(self.href) lock.acquire() new_path.append(self.href) lock.release() # print("end tag in list :" + str(self.tag)) self.tag.pop(-1) def handle_data(self, data): if len(self.tag) >= 1 and self.tag[-1] == "a": self.txt = datadef LoadHtml(path, file_path): if len(file_path) == 0: file_path = "/" conn = http.client.HTTPConnection(path) try: conn.request("GET", file_path) response = conn.getresponse() print(response.status, response.reason, response.version) data = response.read().decode("utf-8") if response.status == 301: data = response.getheader("Location") lock.acquire() new_path.append(data) lock.release() data = "" #print(data) conn.close() return data except Exception as e: print(e.args)怎么设置文件的保存路径

import http.client from html.parser import HTMLParser import argparse from concurrent.futures import ThreadPoolExecutor import multiprocessing.pool prefix = "save/" readed_path = multiprocessing.Manager().list() cur_path = multiprocessing.Manager().list() new_path = multiprocessing.Manager().list() lock = multiprocessing.Lock() class MyHttpParser(HTMLParser): def init(self): HTMLParser.init(self) self.tag = [] self.href = "" self.txt = "" def handle_starttag(self, tag, attrs): self.tag.append(tag) # print("start tag in list :" + str(self.tag)) if tag == "a": for att in attrs: if att[0] == 'href': self.href = att[1] def handle_endtag(self, tag): if tag == "a" and len(self.tag) > 2 and self.tag[-2] == "div": print("in div, link txt is %s ." % self.txt) print("in div, link url is %s ." % self.href) lock.acquire() if not self.href in readed_path: readed_path.append(self.href) new_path.append(self.href) # print("end tag in list :" + str(self.tag)) lock.release() self.tag.pop(-1) def handle_data(self, data): if len(self.tag) >= 1 and self.tag[-1] == "a": self.txt = data def LoadHtml(path, file_path): if len(file_path) == 0: file_path = "/" conn = http.client.HTTPConnection(path) try: conn.request("GET", file_path) response = conn.getresponse() print(response.status, response.reason, response.version) data = response.read().decode("utf-8") if response.status == 301: data = response.getheader("Location") lock.acquire() new_path.append(data) lock.release() data = "" #print(data) conn.close() return data except Exception as e: print(e.args) def ParseArgs(): # 初始化解析器 parser = argparse.ArgumentParser() # 定义参数 parser.add_argument("-p", "--path", help="域名") parser.add_argument("-d", "--deep", type=int, help="递归深度") # 解析 args = parser.parse_args() return args def formatPath(path): path = path.removeprefix("https://") path = path.removeprefix("http://") path = path.removeprefix("//") return path def doWork(path): path = formatPath(path) m = path.find("/") if m == -1: m = len(path) data = LoadHtml(path[:m], path[m:]) with open(prefix + path[:m] + ".html", "w+", encoding="utf-8") as f: f.write(data) parse.feed(data) def work(deep,maxdeep): if deep > maxdeep: return args = ParseArgs() cur_path.append(formatPath(args.path)) readed_path.append(formatPath(args.path)) parse = MyHttpParser() e = multiprocessing.Pool(4) for i in range(args.deep): size = len(cur_path) e.map(doWork,cur_path) cur_path[:]=[] for p in new_path: cur_path.append(p) new_path[:]=[] print(i)优化此代码能在windows下运行

from concurrent.futures import ThreadPoolExecutor, ProcessPoolExecutor, as_completed import multiprocessing prefix = "save/" readed_path = multiprocessing.Manager().Queue() cur_path = multiprocessing...

import requestsfrom html.parser import HTMLParserimport argparsefrom concurrent.futures import ThreadPoolExecutor, ProcessPoolExecutor, as_completedimport multiprocessingprefix = "save/"readed_path = multiprocessing.Manager().Queue()cur_path = multiprocessing.Manager().Queue()new_path = multiprocessing.Manager().Queue()lock = multiprocessing.Lock()class MyHttpParser(HTMLParser): def init(self): super().init() self.tag = [] self.href = "" self.txt = "" def handle_starttag(self, tag, attrs): self.tag.append(tag) if tag == "a": for att in attrs: if att[0] == 'href': self.href = att[1] def handle_endtag(self, tag): if tag == "a" and len(self.tag) > 2 and self.tag[-2] == "div": print("in div, link txt is %s ." % self.txt) print("in div, link url is %s ." % self.href) if not self.href in readed_path.queue: readed_path.put(self.href) new_path.put(self.href) self.tag.pop(-1) def handle_data(self, data): if len(self.tag) >= 1 and self.tag[-1] == "a": self.txt = datadef LoadHtml(path, file_path): if len(file_path) == 0: file_path = "/" url = f"http://{path}{file_path}" try: response = requests.get(url) print(response.status_code, response.reason, response.raw.version) data = response.content.decode("utf-8") if response.status_code == 301: data = response.headers["Location"] if not data in readed_path.queue: new_path.put(data) data = "" return data except Exception as e: print(e.args)def ParseArgs(): parser = argparse.ArgumentParser() parser.add_argument("-p", "--path", help="domain name") parser.add_argument("-d", "--deep", type=int, help="recursion depth") args = parser.parse_args() return argsdef formatPath(path): path = path.removeprefix("https://") path = path.removeprefix("http://") path = path.removeprefix("//") return pathdef doWork(path): path = formatPath(path) m = path.find("/") if m == -1: m = len(path) data = LoadHtml(path[:m], path[m:]) with open(prefix + path[:m] + ".html", "w+", encoding="utf-8") as f: f.write(data) parse.feed(data)def work(maxdeep): args = ParseArgs() cur_path.put(formatPath(args.path)) readed_path.put(formatPath(args.path)) parse = MyHttpParser() with ProcessPoolExecutor(max_workers=4) as executor: for i in range(args.deep): size = cur_path.qsize() futures = [executor.submit(doWork, cur_path.get()) for _ in range(size)] for future in as_completed(futures): try: future.result() except Exception as e: print(e) cur_path.queue.clear() while not new_path.empty(): cur_path.put(new_path.get()) print(i)if name == 'main': work(5)此代码出现Unresolved reference 'parse'

这是因为您在 doWork 函数中使用了 parse 变量，但是该变量未在 doWork 函数中定义或传递。您需要将 parse 变量作为参数传递给 doWork 函数，或者将其定义为全局变量，以便在 doWork 函数中使用它。...

下面代码转化为paddle2.2.2代码：from future import division import os, time, scipy.io import torch import torch.nn as nn import torch.optim as optim import numpy as np import glob import cv2 import argparse from PIL import Image from skimage.measure import compare_psnr,compare_ssim from tensorboardX import SummaryWriter from models import RViDeNet from utils import * parser = argparse.ArgumentParser(description='Pretrain denoising model') parser.add_argument('--gpu_id', dest='gpu_id', type=int, default=0, help='gpu id') parser.add_argument('--num_epochs', dest='num_epochs', type=int, default=33, help='num_epochs') parser.add_argument('--patch_size', dest='patch_size', type=int, default=128, help='patch_size') parser.add_argument('--batch_size', dest='batch_size', type=int, default=1, help='batch_size') args = parser.parse_args() os.environ["CUDA_VISIBLE_DEVICES"] = str(args.gpu_id) save_dir = './pretrain_model' if not os.path.isdir(save_dir): os.makedirs(save_dir) gt_paths1 = glob.glob('./data/SRVD_data/raw_clean/MOT17-02_raw/.tiff') gt_paths2 = glob.glob('./data/SRVD_data/raw_clean/MOT17-09_raw/.tiff') gt_paths3 = glob.glob('./data/SRVD_data/raw_clean/MOT17-10_raw/.tiff') gt_paths4 = glob.glob('./data/SRVD_data/raw_clean/MOT17-11_raw/.tiff') gt_paths = gt_paths1 + gt_paths2 + gt_paths3 + gt_paths4 ps = args.patch_size # patch size for training batch_size = args.batch_size # batch size for training

save_dir = './pretrain_model' if not os.path.isdir(save_dir): os.makedirs(save_dir) gt_paths1 = glob.glob('./data/SRVD_data/raw_clean/MOT17-02_raw/*.tiff') gt_paths2 = glob.glob('./data/SRVD_data/...

DIHtmlParser_5.0.0.rar_Parser_htmlparser

"DIHtmlParser_5.0.0.rar_Parser_htmlparser" 提供了一个名为Delphi Inspiration HTML Parser的库，专为Delphi编程环境设计，用于高效地解析和处理HTML文档。本文将深入探讨这个库的核心功能、工作原理以及如何在...

html.rar_htmlparser_java parsing html

TagBean tagBean = parser.nextTagBean(); TagNode tagNode = tagBean.getTagNode(); if ("title".equals(tagNode.getName())) { System.out.println("Title: " + tagNode.getText()); } else if ("h1"....

Standford-parser.rar_Stanford Parser_creaturehjc_standford java_

1. **下载与配置**：从斯坦福大学官方网站获取Stanford Parser的最新版本，包含必要的jar文件，如standford-parser.jar和stanford-parse.jar。在Java项目中引入这些库，确保环境变量配置正确。 2. **代码实现**：在...

import_word_to_html-master.rar_javascript

- word-parser.js：专门处理Word解析的模块。 - html-builder.js：构建HTML输出的模块。 - styles.css：可能包含用于转换后HTML页面的默认样式。 - test：测试用例和数据，用于验证转换功能的正确性。 - ...

html_parser.pyc

validator.nu.htmlparser/

The Validator.nu HTML Parser is an ...in replacement for the XML parser in applications that already support XHTML 1.x content with an XML parser and use SAX, DOM or XOM to interface with the parser.

Python库 | banrural_bank_parser_gt-0.2.0.tar.gz

资源分类：Python库所属语言：Python 资源全名：banrural_bank_parser_gt-0.2.0.tar.gz 资源来源：官方安装方法：https://lanzao.blog.csdn.net/article/details/101784059

Python库 | tweebo_parser_python_api-1.0.4.tar.gz

《Python库tweebo_parser_python_api-1.0.4深度解析》在Python的世界里，库扮演着至关重要的角色，它们极大地扩展了Python的功能，使得开发者能够更高效地处理各种任务。今天我们将深入探讨的是一款名为tweebo_...

Python库 | argparse_custom_types-0.2.0.tar.gz

4. 使用解析器：调用parser.parse_args()来解析命令行参数，argparse会自动调用对应的类型转换函数。 5. 处理结果：解析后的结果会是转换后你期望的类型，可以直接在你的程序中使用。 argparse_custom_types-...

Python库 | au_address_parser-1.0.0.macosx-10.9-x86_64.tar.gz

标题中的"au_address_parser-1.0.0.macosx-10.9-x86_64.tar.gz"是一个Python库的特定版本，用于处理和解析澳大利亚的地址。这个库可能包含了各种函数和模块，专门设计来拆分、标准化和验证澳大利亚的地址格式，以...

使用_HttpClient_和_HtmlParser_实现简易爬虫

parser.visitAllNodesWith(visitor); NodeList links = visitor.getAnchors(); for (int i = 0; i < links.size(); i++) { System.out.println(links.elementAt(i).toPlainTextString()); } } catch ...

node.js中express中间件body-parser的介绍与用法详解

npm install body-parser --save 使用body-parser时，需要注意的是，它的配置选项可以根据不同的应用场景进行调整，比如解析JSON时是否扩展JSON对象等。以上是关于Express中间件body-parser的介绍与用法详解...

Python库 | argparse_tree-0.1.1.tar.gz

from argparse_tree import ArgumentParser def command1_subcommand1(args): print("执行command1_subcommand1") def command2_subcommand2(args): print("执行command2_subcommand2") parser = ...

jsweekly_parser:用于 http 的 jsweekly_parser

jsweekly_parser jsweekly_parser 用于使用前，请更新您的readability_token在config.json $ copy config.example.json config.json 更新令牌。 { "readability_token": "/* put your token here */" }

相关推荐

Node.js中http_parser向llparse迁移的技术分析

Node.js入门教程：搭建HTTP服务器

命令行解析器设计文档：cli_parser的实现与应用

DIHtmlParser_5.0.0.rar_Parser_htmlparser

html.rar_htmlparser_java parsing html

Standford-parser.rar_Stanford Parser_creaturehjc_standford java_

import_word_to_html-master.rar_javascript

html_parser.pyc

validator.nu.htmlparser/

Python库 | banrural_bank_parser_gt-0.2.0.tar.gz

Python库 | tweebo_parser_python_api-1.0.4.tar.gz

Python库 | argparse_custom_types-0.2.0.tar.gz

Python库 | au_address_parser-1.0.0.macosx-10.9-x86_64.tar.gz

使用_HttpClient_和_HtmlParser_实现简易爬虫

node.js中express中间件body-parser的介绍与用法详解

Python库 | argparse_tree-0.1.1.tar.gz

jsweekly_parser:用于 http 的 jsweekly_parser

最新推荐

俄罗斯RTSD数据集实现交通标志实时检测

管理建模和仿真的文件

预测区间与置信区间：机器学习中的差异与联系

基于KNN通过摄像头实现0-9的识别python代码

易语言开发的文件批量改名工具使用Ex_Dui美化界面

"互动学习：行动中的多样性与论文攻读经历"

【机器学习预测区间入门】：从概念到实现

如何修改QSpinBox的文字颜色？

爱心援助动态网页教程：前端开发实战指南

关系数据表示学习