Nutch二次开发实践与技巧

需积分: 13 107 浏览量更新于2024-09-11 收藏 3KB TXT 举报

"nutch二次开发学习笔记" 在深入探讨Nutch二次开发之前，先了解下Nutch的基础。Nutch是一个开源的Web爬虫项目，它主要用于抓取互联网上的网页并生成索引，以便进行搜索。Nutch的核心组件包括爬虫（Fetcher）、分割器（Segmenter）、索引器（Indexer）等，它支持分布式处理，可以很好地适应大规模的数据抓取任务。在进行Nutch的二次开发时，以下是一些关键点： 1. **build.xml**：这个文件是Ant构建工具的配置文件，用于编译、打包和部署Nutch项目。当你首次将项目导入Eclipse时，需要通过Ant运行`build.xml`来初始化环境。此外，当你修改了插件或需要发布更新时，也需要再次运行Ant命令，确保所有改动被正确编译和集成。 2. **nutch-default.xml**：这是Nutch的默认配置文件，其中包含了各种系统参数，如`http.agent.name`定义了爬虫的User-Agent。User-Agent是浏览器向服务器发送请求时标识自身身份的字符串，设置合理的User-Agent有助于避免被目标网站误认为是恶意爬虫。 3. **Firebug插件**：这是一个强大的Firefox开发者工具，可以用于调试网页的CSS、HTML和JavaScript。在Nutch开发中，我们可以利用Firebug检查和分析网页，以便更好地模拟浏览器行为，例如设置User-Agent。 4. **段（Segments）管理**：在Nutch抓取过程中，每个抓取周期会生成一个新的段，这些段存储在`data\segments`目录下，以时间戳命名。每个段包含爬取的网页数据。如果某个段的抓取不完整，可以选择手动删除。段可能会在后续的抓取过程中被合并，以优化存储和检索效率。 5. **CrawlDb和Injector**：CrawlDb是Nutch存储已抓取URL和其状态的数据库。首次运行时，Injector会将`seed.txt`中的URL注入到CrawlDb，随后的抓取循环中，如果URL已经在CrawlDb中，则不会重复注入。这确保了每个URL只被处理一次。 6. **URL过滤和规范化**：在Injector类中，URL会通过URLNormalizers和Filters进行处理，确保相同的网页不会被多次抓取。例如，`http://xxx.com/xxx//1.html`和`http://xxx.com/1.html`经过规范化和过滤后，会被识别为指向同一页面。在二次开发Nutch时，可能涉及到的工作包括自定义配置、编写新的插件（如解析特定格式的网页内容或实现特定的抓取策略）、优化抓取效率、处理反爬策略等。了解这些基本概念和流程将有助于你更高效地进行Nutch的定制化开发。

我们进行nutch二次开发的时候，里面的那个build.xml在什么时候需要ant运行呢
第一次是在把项目导入进eclipse的时候需要ant来build.xml来运行一次
第二种情况是在你修改了插件
第三种情况是在你最终发布的时候需要build.xml执行ant一下

当执行完ant后在项目上面刷新一下会发现项目目录下面多了一个build文件夹

hadoop在window上不加修改直接运行时有问题的、

Firebug 为你的 Firefox 集成了浏览网页的同时随手可得的丰富开发工具。
你可以对任何网页的 CSS、HTML 和 JavaScript 进行实时编辑、调试和监控。

那个nutch-default.xml里面的那个http.agent.name的value值实际上是网页
里面的User-Agent的值，我们需要安装FireBug插件给火狐浏览器，我们把这
个值赋值给nutch的属性，当nutch在爬取网页的时候，服务器会把它当成浏览
器

在nutch1.7\data\segments下面有多个段，运行的时候会生成多个段(以时间生成段的名称)
，那么第一圈抓取的时候我们只赋值了一个url，那么只抓取一个网页就只生成一个段，那么第二圈可能就10多个，第三圈就更多
(段合并???),我们去点开多个段的文件夹会发现一般只有一个文件夹下面是完整的
（手动删除不完整的segment文件夹）
我们每一次执行那个Crawl类都是不一样的，在于那个CrawlDb是改变了的

第一次的CrawlDb是没有东西的那么就会执行Injector注入，把seed.txt文件里面的url注入进来，
那么在执行第二次循环的时候那么CrawlDb就已经存在了那么就不会再去执行注入ingector
当然你可自己制定策略覆盖CrawlDb的值

抓取的url不规则咋整？在Injector类里面有个url过滤
http://xxx.com/xxx/.../1.html
http://xxx.com/1.html 这2个url经过过滤之后其实是指向同一个网页，即他们只一样的

下载后可阅读完整内容，剩余1页未读，立即下载

绝地反击T

粉丝: 989
资源: 3

Nutch二次开发实践与技巧

Lucene+nutch搜索引擎开发 PDF 2/2

Nutch1.7二次开发培训讲义

Nutch全文搜索学习笔记

Nutch 1.3 学习笔记

Nutch1.7二次开发培训讲义 之 腾讯微博抓取分析

nutch学习笔记之第一天初学

Lucene.Nutch搜索引擎开发

Lucene+nutch搜索引擎开发

Lucene+Nutch搜索引擎开发

Lucene nutch 搜索引擎 开发 实例 源码

最新资源

Nutch1.7二次开发培训讲义之腾讯微博抓取分析

Lucene nutch 搜索引擎开发实例源码