Heritrix3WEB界面详解与操作指南

heritrix

需积分: 10 139 浏览量更新于2024-09-13 收藏 24KB DOCX 举报

身份认证购VIP最低享 7 折!

30元优惠券

"《heritrixWEB页面详解.docx》是一个详细介绍Heritrix网络爬虫工具Web界面各项功能的文档。Heritrix是一个开源、可扩展的互联网档案爬虫，广泛用于大规模网页抓取。文件主要涵盖了Heritrix的Job管理、操作按钮、配置文件以及抓取统计等关键信息。" 在Heritrix的Web页面中，`Jobtest-job(8launches,last13h45mago)`表示一个名为`test-job`的任务，该任务已经被启动8次，最近一次启动是在13小时45分钟前。这反映了任务的历史执行情况。页面上的7个主要操作按钮是Heritrix的核心控制元素： 1) **Build**：从头开始构建一个新的抓取任务，需要设定目标网站和抓取规则。 2) **Launch**：启动一个已存在的抓取任务，如果配置了增量抓取，可以在现有数据基础上继续抓取。 3) **Pause**：暂停正在运行的抓取任务，但请注意，由于线程处理，暂停可能不是立即生效的。 4) **Unpause**：恢复暂停的抓取任务，继续执行未完成的工作。 5) **Checkpoint**：保存当前抓取任务的状态，类似于数据库的检查点，以便于之后恢复或备份。 6) **Terminate**：彻底结束抓取任务，不再继续执行。 7) **Teardown**：在多任务环境中，删除当前正在运行的抓取任务。 `configuration`部分指明了配置文件的位置，例如`.\jobs\yunjiaoyu-dearedu\crawler-beans.cxml[edit]`，用户可以在此编辑和查看爬虫的配置参数，包括URL种子、抓取策略、排除规则等。 `JobLog(more)`提供抓取任务的运行日志，记录了任务的启动、暂停等事件，同时会显示配置文件错误。点击“more”可以查看更详尽的日志信息。 `JobisActive`的状态`RUNNING`表示任务正在运行。其他可能的状态包括暂停（PAUSED）或者其他错误状态。在`Totals`部分，展示了抓取进度的关键指标： - `downloaded`：已下载的URL数量，表示成功获取内容的网页数量。 - `queued`：等待抓取的URL数量，这些URL还未被处理。 - `total`：总处理的URL数量，等于已下载和等待抓取的URL之和。 - `crawled`：所有已爬取内容的总字节数。 - `novel`：新内容的字节数，即不重复的网页数据量。 - `dup-by-hash`：通过URL哈希值检测出的重复内容，这里显示为0，意味着没有检测到重复。这个文档提供了对Heritrix Web界面的深入理解，有助于用户有效地管理和监控他们的网络抓取任务。通过对各项功能的详细解释，用户可以更精确地控制抓取过程，确保抓取效率和数据质量。

资源详情

资源推荐



 名

载入  次

上一次载入的时间是 也就是  小时  分钟

 个按

钮  ! ""#

$%从无到有创建一个抓取任务

&%载入一个抓取任务该抓取任务必须先存在配置好了的话可

以在该抓取任务基础上进行增量抓取

'%暂停抓取任务不会立即停止要各个线程

( %重启抓取

)! %如同数据库的 ! 备份一个抓取任务备份时会

暂停

*+"%终止抓取任务

+"#%,""-. 可以运行多个抓取任务点击该按钮后当前任

务会从多个任务中删除

/"%0011"0"#"-

23

下载后可阅读完整内容，剩余6页未读，立即下载

luoyong050603

粉丝: 0
资源: 4

Heritrix3WEB界面详解与操作指南

Git 使用教程详解.docx

Golang 开发框架详解.docx

聚类算法概述， K-Means 聚类算法详解.docx

两个docx文档，1.docx和2.docx，需要将1.docx文档中的页眉页脚复制到2.docx，用java编写，使用开源jar包，比如poi，poi-tl，docx4j等等，请注意验证你提供的代码中的方法，麻烦给我源码。

.docx文件在vscode打开后。.docx文件发生了错误

使用python将xx文件夹下的.sv文件复制到mode.docx文件并另存为.sv文件名的.docx文件

dtc status定义及更新详解.docx

将每个子文件夹里的.docx文件都合成一个.docx文件

两个docx文档，1.docx和2.docx，需要将1.docx文档中的页眉页脚同步到2.docx，用java编写，使用开源jar包，比如poi，poi-tl，docx4j等等，麻烦给我源码

将xx文件夹下的每个子文件夹里的.docx文件都合成一个.docx文件

"linkUrl ": [ {label: "avue文档.docx", value: "http://59.219.204.221:2015/vingsoft/upload/20230721/d70856f4050948bd2de3d01a7014dd76.docx"}, {label: "avue文档.docx", value: "http://59.219.204.221:2015/vingsoft/upload/20230721/d70856f4050948bd2de3d01a7014dd76.docx"}, ] 遍历这个数组

使用python编写代码将一个文件夹下的所有子文件夹下的.sv文件按照文件名称为model.docx的文件格式转化为与.sv同名的.docx的文件，页眉写上该.SV文件的名称

在vs code里怎么打开.docx文件

接口文档示例.docx

Java中D:\2\00\00\02测试2.docx转换成D:/2/00/00/02测试2.docx

接着上面的回答，在使用putdocx myreg.docx, replace时报错unknown subcommand myreg.docx

最新资源