Nutch爬虫：理解并应用正则表达式约束范围

需积分: 1 5 浏览量更新于2024-09-12 收藏 35KB DOCX 举报

Nutch是一个开源的分布式网络爬虫系统，它允许用户定制爬取策略，包括对网站内容的筛选和过滤。在这个过程中，正则表达式起着至关重要的作用，用于定义爬虫的抓取范围和排除某些不必要的内容。Nutch的正则约束主要通过配置文件conf/regex-urlfilter.txt来实现。正则表达式在Nutch中的应用主要体现在url过滤器规则上。比如，一个简单的正则`http://www.xinhuanet.com/.*`用来匹配所有以`http://www.xinhuanet.com/`开头的URL，但这并不够精确，因为新华网还有其他子域名如`news.xinhuanet.com`。因此，更复杂的正则`http://([a-z0-9]*\.)*xinhuanet.com/`被设计来匹配新华网的所有子域名，确保爬虫只抓取目标网站的页面。在配置文件中，正则表达式前加上`+`表示允许，如`+^http://www.xinhuanet.com/`，允许爬取该域名下的所有页面；而带有`-`的正则则表示禁止，如`^-http://blog.xinhuanet.com/`，会过滤掉此博客域名下的内容。Nutch遵循逐行检查的原则，对于每一条正则规则，它会检查待爬取的URL是否匹配，如果是匹配的，则根据正则前的符号决定是否继续抓取或忽略。值得注意的是，Nutch在执行正则匹配时，使用的是`Pattern.matcher`方法，而非`Pattern.matches`。这意味着`matcher`只要在URL中找到与正则匹配的子串就会通过，而`matches`则要求整个URL必须完全匹配正则。例如，当URL为`http://www.xinhuanet.com/index.html`和正则为`http://([a-z0-9]*\.)*xinhuanet.com`时，`matcher`会成功匹配，因为URL的一部分与正则匹配。总结来说，Nutch的正则表达式配置是爬虫行为的重要控制手段，它帮助用户精确地定义爬取范围，避免无目标的抓取，从而提高爬虫的效率和数据质量。通过理解并熟练运用这些规则，用户能够定制出能满足特定需求的爬虫策略。

Path[] segs = generator.generate(crawlDb, segments, -1, topN, System

.currentTimeMillis());

if (segs == null) {

LOG.info("Stopping at depth=" + i + " - no more URLs to fetch.");

break;

}

fetcher.fetch(segs[0], threads); // fetch it

if (!Fetcher.isParsing(job)) {

parseSegment.parse(segs[0]); // parse it, if needed

}

crawlDbTool.update(crawlDb, segs, true, true); // update crawldb

}

可以看到，生成下一步要去 fetch 抓取的 url 列表是由下面的代码决定：

Path[] segs = generator.generate(crawlDb, segments, -1, topN, System

.currentTimeMillis());

跟踪 org.apache.nutch.crawl.Generator 类

public Path[] generate(Path dbDir, Path segments, int numLists, long topN,

long curTime)

throws IOException {

JobConf job = new NutchJob(getConf());

boolean filter = job.getBoolean(GENERATOR_FILTER, true);

剩余12页未读，继续阅读

成岚

粉丝: 0
资源: 4

Nutch爬虫：理解并应用正则表达式约束范围

java正则表达式匹配网页所有网址和链接文字的示例

详解JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片

python爬虫有多少方法

找一个类似信息采集分类整理服务平台的源代码的网址

nutch javax.net.ssl.sslexception : could not generate dh keypair

（）擅长处理和分析大量分布式的非结构化数据，以分批的方式进行历史分析。 A、Hadoop B、NoSQL数据库 C、Web D、Nutch

分布式爬虫的搜搜引擎

hadoop起源于什么

专门用于报纸搜索的框架

最新资源