Nutch搜索引擎命令详解与简单应用

需积分: 10 62 浏览量更新于2024-07-19 收藏 889KB PDF 举报

Nutch搜索引擎是一个开源的分布式全文搜索引擎，专为大规模网络抓取和索引设计。本篇文章（第3期）主要关注Nutch的基本操作和应用，分为两个部分： 1. **Nutch命令详解**： Nutch通过命令行进行操作，核心命令`crawlcrawl`是`org.apache.nutch.crawl.Crawl`类的别名，它是一个综合性的爬取和索引流程。用户可以通过运行`bin/nutchcrawl`命令来启动爬取过程。该命令接受多个参数，如： - `urlDir`：包含URL列表的文本文件，用于指定爬取的起点。 - `-dir`：设置Nutch保存爬取数据的工作目录，默认为`./crawl-[date]`，表示当前日期。 - `-threads`：控制fetcher线程的数量，可以覆盖默认的fetcher.threads.fetch值，默认为10。 - `-depth`：爬虫的迭代深度，默认为5级，表示爬取页面的层级限制。 - `-topN`：限制每次迭代中被爬取的记录数量，默认为最大整数值。 2. **Nutch简单应用**：文章介绍如何在命令行中使用这些参数，例如，如果你想要对局域网内的网站进行单一爬取，只需提供包含URL的文件，然后调整适当的参数。Nutch支持分布式环境，通过Hadoop框架进行任务调度，可以处理大规模的数据抓取。此外，文章还提到了几个关键配置文件，包括`hadoop-default.xml`、`hadoop-site.xml`、`nutch-default.xml`和`nutch-site.xml`，这些文件定义了Nutch的全局配置和应用级别的配置，用于调整搜索引擎的行为和性能。`crawl-tool.xml`可能是工具相关的配置文件，用于细化爬虫工具的选项。最后，文章可能还包括一个参考文献部分，但具体内容没有在提供的片段中展示。而打赏和编辑信息则表明这是一篇由虾皮工作室编写的教程，发布于2012年4月9日，可能会有更新和维护历史。总结来说，这篇Nutch（第3期）教程重点在于帮助读者理解如何使用Nutch的命令行工具进行搜索引擎的基本设置和操作，适合希望入门或进一步了解Nutch的开发人员和搜索引擎优化者。

创建时间：2012/4/9 修改时间：2012/4/13 修改次数：0

中国·北京——虾皮工作室（www.xiapistudio.com）编辑：虾皮

[-dump <out_dir>]：导出 crawldb 信息到指定文件夹中的文件

[-url <url>]：打印指定 URL 的统计信息

配置文件：

hadoop-default.xml

hadoop-site.xml

nutch-default.xml

nutch-site.xml

示例：

Shell 代码

$ bin/nutch readdb fullindex/crawldb -stats

CrawlDb statistics start: fullindex/crawldb

Statistics for CrawlDb: fullindex/crawldb

TOTAL urls: 468030

retry 0: 467361

retry 1: 622

retry 2: 32

retry 3: 15

min score: 0.0

avg score: 0.0034686408

max score: 61.401

status 1 (db_unfetched): 312748

status 2 (db_fetched): 80671

status 3 (db_gone): 69927

status 4 (db_redir_temp): 1497

status 5 (db_redir_perm): 3187

CrawlDb statistics: done

备注：

-stats 命令是一个快速查看爬取信息的很有用的工作，其输出信息表示了：

db_unfetched：链接到已爬取页面但还没有被爬取的页面数（原因是它们没有通过 url 过

滤器的过滤，或者包括在了 TopN 之外被 Nutch 丢弃）。

db_gone：表示发生了 404 错误或者其他一些臆测的错误，这种状态阻止了对其以后的

爬取工作。

db_fetched：表示已爬取和索引的页面，如果其值为 0，那肯定出错了。

 readlinkdb

剩余23页未读，继续阅读

Tadas-Gao

粉丝: 190
资源: 390

Nutch搜索引擎命令详解与简单应用

Nutch搜索引擎（1-5期）

Nutch搜索引擎·Nutch简介及安装（第1期）

如何通过java程序获得Nutch中网页的详细信息

如何在Windows环境下配置并运行Apache Nutch搜索引擎，并实现与Tomcat的集成？

分布式爬虫的搜搜引擎

（）擅长处理和分析大量分布式的非结构化数据，以分批的方式进行历史分析。 A、Hadoop B、NoSQL数据库 C、Web D、Nutch

专门用于报纸搜索的框架

nutch javax.net.ssl.sslexception : could not generate dh keypair

hadoop发展历史

hadoop起源于什么

最新资源