Nutch 1.2 源码解析：入门与Crawl类详解

5星 · 超过95%的资源需积分: 10 127 浏览量更新于2024-07-28 收藏 139KB DOC 举报

"Nutch 1.2源码阅读学习笔记" Nutch是一个开源的Web爬虫项目，主要用于构建搜索引擎的基础架构。Nutch 1.2是其一个稳定版本，提供了完整的网页抓取、处理、索引和搜索功能。在深入研究Nutch 1.2的源码时，我们可以关注以下几个关键组件，它们构成了Nutch的核心流程。 1. **Injector**： Injector的作用是将种子URL（用户提供的起始抓取网址集合）与已存在的CrawlDb（爬行数据库）中的URL合并，生成新的CrawlDb。这样，爬虫可以从这些URL开始遍历互联网。 2. **Generator**： Generator根据CrawlDb中每个URL的状态（如上次抓取时间、重试次数等）筛选出需要抓取的新URL，并生成一个待抓取队列，用于Fetcher下一步的工作。 3. **Fetcher**： Fetcher负责下载Generator产生的URL队列中的网页内容。它模拟HTTP请求，将网页内容下载到本地，并保存在Segments目录下。 4. **ParseSegment**： ParseSegment将Fetcher抓取的网页内容解析成结构化的数据，通常包括HTML解析、提取文本、识别链接等。解析后的数据会被存储在Segment中等待进一步处理。 5. **CrawlDb**： CrawlDb是Nutch存储URL状态的地方，每次Fetcher完成抓取后，会更新CrawlDb，记录每个URL的最新状态。 6. **LinkDb**： LinkDb用于计算网页之间的链接关系，包括反向链接。这些信息对于计算PageRank或其他链接权重算法至关重要。 7. **Indexer**： Indexer将解析后的数据和链接信息构建为索引，以便于后续的搜索操作。它使用Lucene等索引库，将内容转换为可搜索的格式。启动Nutch 1.2的命令行工具，例如`crawlurls–dirmydir–depth5–threads5–topN100`，会调用Crawl类作为入口点。在这个过程中，`Crawl`类会初始化配置，使用`NutchConfiguration.createCrawlConfiguration()`创建特定于爬虫的配置。`NutchConfiguration`类添加了必要的资源，使Nutch能够读取和理解配置文件，然后执行各个模块的工作。在深入源码分析时，`Crawl`类的`main()`函数是起点，它调度了上述各个组件的执行顺序，确保Nutch按照预定义的流程工作。在实际的源码阅读中，除了理解每个组件的职责外，还需要关注它们之间的交互，以及配置参数如何影响爬虫的行为。通过对Nutch 1.2源码的阅读和理解，开发者不仅可以掌握Nutch的工作原理，还能学习到分布式爬虫的设计模式、数据存储策略以及信息处理技术，这对于开发自己的搜索引擎或者相关项目非常有帮助。同时，这种实践也有助于提高对Apache Hadoop等大数据处理框架的理解，因为Nutch本身就是构建在Hadoop之上的。

Indexer indexer = new Indexer(conf);

indexer.index(indexes, crawlDb, linkDb,

Arrays.asList(HadoopFSUtil.getPaths(fstats)));

IndexMerger merger = new IndexMerger(conf);

if(indexes != null) {

dedup.dedup(new Path[] { indexes });

fstats = fs.listStatus(indexes,

HadoopFSUtil.getPassDirectoriesFilter(fs));

merger.merge(HadoopFSUtil.getPaths(fstats), index, tmpDir);

}

} else {

LOG.warn("No URLs to fetch - check your seed list and URL

filters.");

}

从上面可以看出，代码中先创建了几个我们一开始提到的那几

个重要的类的对象（Injector、Generator 等），接下来通过这几个对

象调用各个类中的方法完成抓取过程的各个阶段，直至整个抓取过

程的完成。

在代码中最先调用的是 Injector 类中的 inject()方法，如下：

injector.inject(crawlDb, rootUrlDir); //初始化 crawlDb 数据库

即将种子 url（rootUrlDir 参数）与原有抓取数据库（crawlDb 参

数，最开始该抓取数据库为空）合并。之后进入抓取的其他阶段.

注意：因为 nutch 是建立在 Hadoop 架构之上的，在以后的程序

代码中使用了 MapReduce 算法和 HDFS（分布式文件系统），所以

建议先把这些方面基本的知识看一下，这样在看到 nutch 代码中一些

MapReduce 的配置操作时也能理解什么意思。

我们看到在 Crawl 类的处理代码中，最先执行了下面的一句：

injector.inject(crawlDb, rootUrlDir);

剩余31页未读，继续阅读

qyb156

粉丝: 1
资源: 20

Nutch 1.2 源码解析：入门与Crawl类详解

nutch1.2源码

nutch-1.2.war

nutch javax.net.ssl.sslexception : could not generate dh keypair

找一个类似信息采集分类整理服务平台的源代码的网址

（）擅长处理和分析大量分布式的非结构化数据，以分批的方式进行历史分析。 A、Hadoop B、NoSQL数据库 C、Web D、Nutch

分布式爬虫的搜搜引擎

hadoop起源于什么

专门用于报纸搜索的框架

Hadoop的发展经历的哪几个阶段

最新资源