分布式爬虫详解：Nutch与云计算原理

需积分: 3 11 浏览量更新于2024-07-27 收藏 1.62MB DOC 举报

"本章深入探讨了分布式网络爬虫的原理和实践，特别是在云计算环境下的应用。主要知识点涵盖了分布式爬虫的动机、基本架构，以及云计算与分布式计算的关系。此外，还提到了开源分布式爬虫项目Nutch，并分析了其实现机制。" 分布式爬虫是应对互联网海量数据抓取需求的重要解决方案。它将抓取任务分解到多个节点，提高了爬虫的性能和可扩展性。分布式爬虫可以通过地理位置或网络运营商来部署，如北京节点抓取北京的网站，这样能优化网络延迟，提高爬取效率。分布式技术的核心在于利用网络连接的计算机协同工作，与集中式计算相反，它允许数据和处理任务在多台计算机间分散，降低了对单一服务器的依赖。云计算是分布式计算的一种高级形式，它结合了并行处理和网格计算的概念。云计算提供了按需访问计算资源的能力，如存储、处理能力、应用程序和服务，而无需直接管理和维护底层基础设施。这种模式降低了IT运营成本，使得大规模分布式爬虫的运行变得更加经济和高效。在分布式网络中，数据存储和处理都在本地工作站进行，减少了对中央服务器的依赖，同时也提升了数据访问速度。每台计算机都可以作为独立系统运行，也可以通过网络协作，增强了系统的灵活性和资源共享。分布式计算的优势在于多用户共享、快速访问和数据冗余，降低了数据传输的风险和成本，提高了系统的容错性。开源分布式爬虫Nutch是本章分析的重点，它是基于Map/Reduce、BigTable和GFS等分布式架构实现的。Map/Reduce是处理大规模数据集的编程模型，将复杂任务拆分为可并行执行的“映射”和“化简”阶段。BigTable是分布式数据存储系统，用于管理结构化和半结构化数据，而GFS（Google File System）是大规模分布式文件系统，为大数据处理提供高可用性和容错性。 Nutch的实现利用了这些技术，构建了一个能够处理大量网页的爬虫系统。它不仅能够高效地抓取和存储网页，还具备索引和搜索功能，为大规模信息提取和分析提供了强大的工具。通过学习和理解Nutch的实现，开发者可以更好地掌握分布式爬虫的设计和实施。本章内容涵盖了分布式爬虫的理论基础、实际应用以及与云计算的紧密联系，为读者提供了深入理解网络爬虫技术的全面视角。

步骤五：考察服务器的变动。

前面讲过，通过 hash 算法然后求余的方法带来的最大问题就在于不能满足单调性，当

服务器有所变动时，服务器会失效，进而对后台服务器造成巨大的冲击，现在就来分析

Consistent Hashing 算法。

(1) 移除服务器。

考虑假设服务器 B 挂掉了，根据上面讲到的映射方法，这时受影响的将只是那些沿

cache B 逆时针遍历直到下一个服务器(服务器 C )之间的对象，也即是本来映射到服务器 B

上的那些对象。

因此这里仅需要变动对象 object4，将其重新映射到服务器 C 上即可，如图 2.5 所示。

(2) 添加服务器。

再考虑添加一台新的服务器 D 的情况，假设在这个环形 hash 空间中，服务器 D 被映

射在对象 object2 和 object3 之间。这时受影响的仅是那些沿 cache D 逆时针遍历直到下一

个服务器(服务器 B )之间的对象，将这些对象重新映射到服务器 D 上即可。因此这里仅需

要变动对象 object2，将其重新映射到服务器 D 上，如图 2.6 所示。

考量 hash 算法的另一个指标是平衡性(Balance)，定义如下：

平衡性是指哈希的结果能够尽可能分布到所有的缓冲中，这样可以使所有的缓冲空间

都得到利用。

hash 算法并不能保证绝对的平衡，如果服务器较少，对象并不能被均匀地映射到服务

器上，比如在上面的例子中，仅部署服务器 A 和服务器 C 的情况下，在 4 个对象中，服务

器 A 仅存储了 object1，而服务器 C 则存储了 object2、object3 和 object4，分布是很不均

衡的。

图 2.5 服务器 B 被移除后的映射图 2.6 添加服务器 D 后的映射关系

为了解决这种情况，Consistent Hashing 引入了“虚拟节点”的概念，它可以如下定义：

“虚拟节点”( virtual node )是实际节点在 hash 空间的复制品( replica )，一个实际节点对

应若干个“虚拟节点”，这个对应个数也称为“复制个数”，“虚拟节点”在 hash 空间中以 hash

值排列。

仍以仅部署服务器 A 和服务器 C 的情况为例，在图 2.5 中我们已经看到，服务器分布

并不均匀。现在我们引入虚拟节点，并设置“复制个数”为 2，这就意味着一共会存在 4 个

剩余54页未读，继续阅读

tang2du

粉丝: 17
资源: 6

分布式爬虫详解：Nutch与云计算原理

自己动手写网络爬虫光盘文件10章

自己动手写网络爬虫光盘

自己动手写网络爬虫第1章

《自己动手写网络爬虫》第二章代码

自己动手写网络爬虫2 网络爬虫 爬虫第2章

自己动手写网络爬虫源码

自己动手写网络爬虫书附源码-Chap02

自己动手写搜索引擎第二章光盘

自己动手写爬虫源代码（第2章）

自己动手开发搜索引擎第二章

最新资源

自己动手写网络爬虫2 网络爬虫爬虫第2章