网络爬虫与图论遍历：防止URL环路策略

需积分: 0 79 浏览量更新于2024-08-04 收藏 242KB DOCX 举报

"4.1_爬虫搜索策略-防止环路的出现1" 网络爬虫是用于自动化地抓取互联网信息的程序，其核心原理是利用图论中的遍历算法来跟踪和下载网页。在互联网这个庞大的图结构中，每个网页被视为一个节点，而超链接则作为连接这些节点的边。当爬虫从一个网页出发，通过分析其中的超链接，它可以访问到与其相连的所有网页，以此类推，理论上可以遍历整个互联网。在实施爬虫的过程中，防止环路的出现至关重要。环路是指在网站URL链接结构中，从一个页面可以沿着超链接回到自身或已经访问过的页面。例如，一个网页可能链接回其父页面，或者通过一系列链接最终返回起点。如果不加以处理，爬虫可能会陷入无尽的循环，导致效率低下，甚至耗尽资源。为了规避环路，爬虫通常采用以下策略： 1. 记录已访问页面：爬虫会维护一个哈希表（HashTable）或类似的结构，存储已经访问过的URL，每当遇到新的URL，都会先检查这个表，如果已存在，则跳过，防止重复下载。 2. 使用深度优先搜索（DFS）或广度优先搜索（BFS）：DFS倾向于深入探索一条路径，直到尽头再回溯，而BFS则先访问离起点近的节点，可以更有效地发现环路并及时跳出。 3. 设定访问限制：对每个网页的深度或相邻页面数量设置阈值，超过阈值则不再继续探索，避免深陷环路。 4. 使用队列或栈管理待访问URL：通过有序的数据结构，控制爬虫的遍历顺序，有助于检测和防止环路。以网站的树结构为例，大多数网站的URL层次分明，如知乎的结构就包括发现、话题、Live、书店、圆桌、专栏等多个层级。这样的结构便于爬虫按照一定的逻辑进行爬取，例如从顶级分类开始，逐级深入。然而，即使在这样的结构中，也可能存在环路，比如通过内部链接从低层级页面返回到上一层或顶层页面。对于大型的互联网公司，如Google，其网络爬虫需要处理的网页数量极为庞大，单靠少数服务器是无法完成任务的。因此，它们会建立分布式爬虫系统，由成千上万台服务器组成，通过高效的网络连接协同工作。分布式爬虫系统的设计和优化涉及负载均衡、任务调度、数据存储等多个方面，是一项极具挑战性的技术。防止环路是网络爬虫设计的重要环节，通过有效的策略和数据结构，爬虫能够更高效、更全面地抓取互联网信息，同时避免资源的浪费。对于大规模的爬虫系统，还需要考虑分布式计算和网络架构，以应对互联网的海量数据。

爬虫搜索策略-防止环路的出现:

现在看看图论的遍历算法和搜索引擎的关系。互联网虽然很复杂，但是说穿

了其实就是一张大图而已一可以把每一个网页当作一个节点，把那些超链接

(Hyperlinks )当作连接网页的弧。网页中那些蓝色、带有下划线的文字背后其

实藏着对应的网址，当你点击的时候，浏览器通过这些隐含的网址跳转到相应的

网页。这些隐含在文字背后的网址称为”超链接”。有了超链接，我们可以从任

何一个网页出发，用图的遍历算法，自动地访问到每一个网页并把它们存起来。

完成这个功能的程序叫做网络爬虫( Web Crawlers ).或者在一些文献中称为“机

器人”( Robot)。世界上第一个网络爬虫是由麻省理工学院的学生马休·格雷

( Matthew Gray)在 1993 年写成的。他给自己的程序起了个名字叫“互联网漫游

者，(WWW Wanderer)。以后的网络爬虫越写越复杂。但原理是一样的。

我们来看看网络爬虫如何下载整个互联网。假定从一家门户网站的首页出发。

先下载这个网页，然后通过分析这个网页，可以找到页面里的所有超链接。也就

等于知道了这家门户网站首页所直接链接的全部网页，诸如雅虎邮件、雅虎财经、

雅虎新闻等。接下来访向、下载并分析这家门户网站的邮件等网页，又能找到其

他相连的网页。让计算机不停地做下去，就能下载整个的互联网。当然，也要记

载哪个网页下载过了，以免重复。在网络爬虫中，使用一个称为“哈希表”( Hash

Table )的列表而不是一个记事本记录网页是否下载过的信息。

现在的互联网非常庞大，不可能通过一台或几台计算机服务器就能完成下载任务。

比如 Google 在 2010。年时整个的索引大小大约有 S 000 亿个网页，即使更新最

频繁的基础索引也有 100 亿个网页，假如下载一个网页需要一秒钟，下载这 100

亿个网页则需要 317 年，如果下载 5 000 亿个网页则需要 16 000 年左右，是我

们人类有文字记载历史的三倍时间。因此，一个商业的网络爬虫需要有成千上万

台服务器，并且通过高速网络连接起来。如何建立起这样复杂的网络系统，如何

协调这些服务器的任务，就是网络设计和程序设计的艺术了。

4.1.1 网站的树结构

1、一个网站的 URL 结构图

以知乎为例，知乎目前有发现、话题、Live、书店、圆桌、专栏主要的 6 个 tab

页。每个网站的 url 都是有一定的层次，如下图：发现 explore、话题 topic、Live

lives、书店 pub、圆桌 roundtable、专栏 zhuanlan 都是在主域名 zhihu 的下一

级，而具体的 Live 在 …/67006058/answer 内容又在话题之下

zhihu/question/67006058/answer/250037350，网站的所有内容都一层一层的类

似一个树形结构。

2、网站 URL 链接的结构图

当然，如果我们要做爬取整个网站的 url 时，我们必须要知道每个网站的 url 链

下载后可阅读完整内容，剩余3页未读，立即下载

SeaNico

粉丝: 26
资源: 320

网络爬虫与图论遍历：防止URL环路策略

FileZilla_3.3.4.1_win32-setup_3.3.4.1

gcc-4.1_4.1.2-23ubuntu3_i386.deb

网页爬取策略：深度优先与广度优先搜索算法

图算法实战：6种策略解决现实世界最棘手问题

DFS与BFS搜索算法的应用实例

图的深度优先搜索与拓扑排序详解

串流分屏 - 两台笔记本电脑屏幕共享

tornado-6.3.2-cp38-abi3-musllinux_1_1_x86_64.whl

基于java的银行业务管理系统答辩PPT.pptx

TA_Lib轮子无需编译-TA_Lib-0.4.17-cp35-cp35m-win32.whl.zip

最新资源