def get_data(self, name): if 'coco' in name: data_dir = DatasetCatalog.DATA_DIR attrs = DatasetCatalog.DATASETS[name] args = dict( root=join(data_dir, attrs['img_dir']), ann_file=join(data_dir, attrs['ann_file']), ) return dict( factory='COCODataset', args=args, ) else: raise RuntimeError('Only support coco format dataset now!')解释这段代码

时间: 2024-02-14 15:31:53 浏览: 176

这段代码是一个名为`get_data`的方法。它接受一个参数`name`作为输入。如果输入的`name`中包含字符串'coco'，则会执行以下操作： 1. 获取数据目录路径`data_dir`，该路径来自`DatasetCatalog.DATA_DIR`。 2. 获取数据集属性`attrs`，该属性来自`DatasetCatalog.DATASETS`字典中的`name`键对应的值。 3. 创建一个字典`args`，包含以下键值对： - 'root'：数据集图片目录的路径，由`data_dir`和`attrs['img_dir']`拼接而成。 - 'ann_file'：数据集注释文件的路径，由`data_dir`和`attrs['ann_file']`拼接而成。 4. 返回一个字典，包含以下键值对： - 'factory'：数据集的工厂类名称，此处为'COCODataset'。 - 'args'：包含数据集参数的字典。如果输入的`name`不包含'coco'字符串，则会抛出一个运行时错误，提示只支持COCO格式的数据集。

import requestsfrom html.parser import HTMLParserimport argparsefrom concurrent.futures import ThreadPoolExecutor, ProcessPoolExecutor, as_completedimport multiprocessingprefix = "save/"readed_path = multiprocessing.Manager().Queue()cur_path = multiprocessing.Manager().Queue()new_path = multiprocessing.Manager().Queue()lock = multiprocessing.Lock()class MyHttpParser(HTMLParser): def init(self): super().init() self.tag = [] self.href = "" self.txt = "" def handle_starttag(self, tag, attrs): self.tag.append(tag) if tag == "a": for att in attrs: if att[0] == 'href': self.href = att[1] def handle_endtag(self, tag): if tag == "a" and len(self.tag) > 2 and self.tag[-2] == "div": print("in div, link txt is %s ." % self.txt) print("in div, link url is %s ." % self.href) if not self.href in readed_path.queue: readed_path.put(self.href) new_path.put(self.href) self.tag.pop(-1) def handle_data(self, data): if len(self.tag) >= 1 and self.tag[-1] == "a": self.txt = datadef LoadHtml(path, file_path): if len(file_path) == 0: file_path = "/" url = f"http://{path}{file_path}" try: response = requests.get(url) print(response.status_code, response.reason, response.raw.version) data = response.content.decode("utf-8") if response.status_code == 301: data = response.headers["Location"] if not data in readed_path.queue: new_path.put(data) data = "" return data except Exception as e: print(e.args)def ParseArgs(): parser = argparse.ArgumentParser() parser.add_argument("-p", "--path", help="domain name") parser.add_argument("-d", "--deep", type=int, help="recursion depth") args = parser.parse_args() return argsdef formatPath(path): path = path.removeprefix("https://") path = path.removeprefix("http://") path = path.removeprefix("//") return pathdef doWork(path): path = formatPath(path) m = path.find("/") if m == -1: m = len(path) data = LoadHtml(path[:m], path[m:]) with open(prefix + path[:m] + ".html", "w+", encoding="utf-8") as f: f.write(data) parse.feed(data)def work(maxdeep): args = ParseArgs() cur_path.put(formatPath(args.path)) readed_path.put(formatPath(args.path)) parse = MyHttpParser() with ProcessPoolExecutor(max_workers=4) as executor: for i in range(args.deep): size = cur_path.qsize() futures = [executor.submit(doWork, cur_path.get()) for _ in range(size)] for future in as_completed(futures): try: future.result() except Exception as e: print(e) cur_path.queue.clear() while not new_path.empty(): cur_path.put(new_path.get()) print(i)if name == 'main': work(5)此代码出现Unresolved reference 'parse'

这是因为您在 `doWork` 函数中使用了 `parse` 变量，但是该变量未在 `doWork` 函数中定义或传递。您需要将 `parse` 变量作为参数传递给 `doWork` 函数，或者将其定义为全局变量，以便在 `doWork` 函数中使用它。如果您决定使用全局变量，请确保在使用它之前已经对其进行了定义。

import http.clientfrom html.parser import HTMLParserimport argparsefrom concurrent.futures import ThreadPoolExecutorimport threadingprefix = "save/"readed_path = set()cur_path = []new_path = []lock = threading.Lock()cond=threading.Condition()class MyHttpParser(HTMLParser): def init(self): HTMLParser.init(self) self.tag = [] self.href = "" self.txt = "" def handle_starttag(self, tag, attrs): self.tag.append(tag) # print("start tag in list :" + str(self.tag)) if tag == "a": for att in attrs: if att[0] == 'href': self.href = att[1] def handle_endtag(self, tag): if tag == "a" and len(self.tag) > 2 and self.tag[-2] == "div": print("in div, link txt is %s ." % self.txt) print("in div, link url is %s ." % self.href) if not self.href in readed_path: readed_path.add(self.href) lock.acquire() new_path.append(self.href) lock.release() # print("end tag in list :" + str(self.tag)) self.tag.pop(-1) def handle_data(self, data): if len(self.tag) >= 1 and self.tag[-1] == "a": self.txt = datadef LoadHtml(path, file_path): if len(file_path) == 0: file_path = "/" conn = http.client.HTTPConnection(path) try: conn.request("GET", file_path) response = conn.getresponse() print(response.status, response.reason, response.version) data = response.read().decode("utf-8") if response.status == 301: data = response.getheader("Location") lock.acquire() new_path.append(data) lock.release() data = "" #print(data) conn.close() return data except Exception as e: print(e.args)怎么设置文件的保存路径

可以在代码中添加一个全局变量 `prefix`，然后在 `LoadHtml()` 函数中拼接上该路径，如下所示： ```python def LoadHtml(path, file_path): if len(file_path) == 0: file_path = "/" conn = http.client.HTTPConnection(path) try: conn.request("GET", file_path) response = conn.getresponse() print(response.status, response.reason, response.version) data = response.read().decode("utf-8") if response.status == 301: data = response.getheader("Location") lock.acquire() new_path.append(data) lock.release() data = "" # 保存文件 file_name = file_path.replace("/", "_") + ".html" file_path_with_prefix = prefix + file_name with open(file_path_with_prefix, "w", encoding="utf-8") as f: f.write(data) conn.close() return data except Exception as e: print(e.args) ``` 这里将文件名设为 URL 中的路径部分（不含域名）用下划线连接起来，然后添加前缀 `prefix`，最终形成完整的文件路径。在保存文件时，使用 `with open()` 语句打开文件，确保文件关闭。

阅读全文

相关推荐

前端大厂最新面试题-data_object_add_attrs.docx

create_enum_from_xml:从 Android attrs.xml 创建 Java 枚举

h5py_test.rar_.h5文件 h5py_h5文件读取_hdf_ruleq77_读取H5数据

attrs = running_state_ctrl.RunningState._wsme_attributes running_state = db_utils.get_test_running_state(**kw) fields = [field.key for field in attrs] post_data = {k: v for k, v in running_state.items() if k in fields} post_data.update({k: v for k, v in kw.items() if k in fields}) return post_data

import os import psutil def get_process_list(): """获取进程列表""" return [p.info for p in psutil.process_iter(attrs=['pid', 'name', 'username', 'status'])] def kill_process(pid): """杀死进程""" os.kill(pid, signal.SIGTERM)怎么使用

mips_to_c:MIPS反编译器

fizzbuzz_on_steroids:解决fizzbuzz的不同方法

serialize_virtual_attributes:用哈希序列化虚拟属性

info = info_1.find_all(“p”, attrs={“data-page”: “0”}).get_text()爆出警告Unresolved attribute reference 'get_text' for class 'ResultSet'怎么修改

java计算器源码.zip

FRP Manager-V1.19.2

大家在看

STM32的FOC库教程

2000-2022年 上市公司-股价崩盘风险相关数据（数据共52234个样本，包含do文件、excel数据和参考文献）.zip

Mac OS X10.6.3 Snow Leopard系统 中文版完整安装盘 下载地址连接

SigmaStudioHelp_3.0(中文)

涉密网络建设方案模板.doc

最新推荐

keras的load_model实现加载含有参数的自定义模型

java计算器源码.zip

FRP Manager-V1.19.2

PHP集成Autoprefixer让CSS自动添加供应商前缀

揭秘数字音频编码的奥秘：非均匀量化A律13折线的全面解析

arduino PAJ7620U2

网站啄木鸟：深入分析SQL注入工具的效率与限制

【GPStoolbox使用技巧大全】：20个实用技巧助你精通GPS数据处理

spring boot怎么配置maven

我的个人简历HTML模板解析与应用

2000-2022年上市公司-股价崩盘风险相关数据（数据共52234个样本，包含do文件、excel数据和参考文献）.zip

Mac OS X10.6.3 Snow Leopard系统中文版完整安装盘下载地址连接