Java实现的广度优先多线程网络爬虫设计

4星 · 超过85%的资源需积分: 10 187 浏览量更新于2024-08-02 2 收藏 652KB DOC 举报

本文是一篇关于网络爬虫的Java实现的毕业设计论文，主要关注于多线程技术在爬虫中的应用。作者以《网络爬虫的设计与实现》为课题，探讨了网络爬虫的基本概念，特别是利用广度优先搜索(Breadth-First Search, BFS)策略的原因及其在Java中的实现。在论文的开篇，作者首先定义了网络爬虫，强调其作为自动化信息采集工具的重要性，不仅可以为搜索引擎提供数据源，还能定向获取特定网站的定制信息，如招聘信息和租房信息。广度优先爬行策略的选择是因为它能高效地遍历整个网站结构，确保尽可能多的链接被发现。接下来，论文深入剖析了使用多线程的原因。在大规模的网页抓取过程中，多线程技术可以显著提高爬虫的效率，通过并发执行多个任务，减少了单个请求的等待时间，提升了整体的爬取速度。作者详细介绍了Java线程的基础知识，包括线程的概念、线程模型（包括用户线程和守护线程）、线程的创建方法以及如何在Java中利用Thread类或Runnable接口创建和管理线程。在实现部分，作者着重展示了如何结合广度优先算法和多线程技术来构建爬虫系统。这涉及到线程池的创建，用于控制并发数量，防止过多的线程消耗过多系统资源。同时，数据存储也是关键环节，文中提到了将搜集到的URLs存储在数据库中的方法，确保了数据的持久化和便于后续分析。此外，论文还涵盖了网页信息解析的技术，即如何解析HTML代码，提取所需的数据，这通常涉及到正则表达式、DOM解析或者第三方库如Jsoup等。这部分内容对于理解爬虫如何从HTML文档中抽取有效信息至关重要。最后，论文的摘要部分强调了主要的研究成果，即使用Java实现的基于BFS的多线程网络爬虫，以及涉及的关键技术，如网络爬虫、JAVA编程、广度优先搜索和多线程。通过这篇论文，读者不仅能学习到网络爬虫的基本原理，还能了解到如何在实际项目中运用这些技术来构建高效的网络信息采集系统。这篇论文深入浅出地介绍了网络爬虫的Java实现，尤其关注于多线程技术的应用，对于那些对网络爬虫技术感兴趣的读者和开发者来说，具有很高的实用价值和理论指导意义。

电子科技大学成都学院本科毕业设计论文

MD5算法是一种加密算法，同时它也是基于Hash的算法。这样就可以对

URL字符串进行压缩，得到一个压缩字符串，同时可以直接得到一个Hash地址。

另外，MD5算法能够将任何字符串压缩为128位整数，并映射为物理地址，而且

MD5进行Hash映射碰撞的几率非常小，这点非常好。从另一个方面来说，非常

少的碰撞，对于搜索引擎的爬虫是可以容忍的。况且，在爬虫进行检测的过程中

可以通过记录日志来保存在进行MD5时发生碰撞的URL，通过单独对该URL进行

处理也是可行的。

在Java中有一个Map类非常好，你可以将压缩后的URL串作为Key，而将

Boolean作为Value进行存储，然后将工作中的Map在爬虫停止工作后序列化到本

地磁盘上；当下一次启动新的爬虫任务的时候，再将这个Map反序列化到内存中

供爬虫进行URL去重检测。

2.2.2.4 基于嵌入式Berkeley DB的存储

Berkeley DB的特点就是只存储键值对类型数据，这和URL去重有很大关系。

去重，可以考虑对某个键，存在一个值，这个值就是那个键的状态。使用了

Berkeley DB，你就不需要考虑进行磁盘IO操作的性能损失了，这个数据库在设

计的时候很好地考虑了这些问题，并且该数据库支持高并发，支持记录的顺序存

储和随机存储，是一个不错的选择。

URL去重存储库使用Berkeley DB，压缩后的URL字符串作为Key，或者直接

使用压缩后的URL字节数组作为Key，对于Value可以使用Boolean，一个字节，

或者使用字节数组，实际Value只是一个状态标识，减少Value存储占用存储空间

2.2.2.5 基于布隆过滤器（Bloom Filter）的存储

使用布隆过滤器，设计多个Hash函数，也就是对每个字符串进行映射是经过

多个Hash函数进行映射，映射到一个二进制向量上，这种方式充分利用了比特位

不过，我没有用过这种方式，有机会可以尝试一下。可以参考Google的http://

www.googlechinablog.com/2007/07/bloom-filter.html。

2.2.3 LRU算法实现URL消重

用双向链表来实现大容量cache的LRU算法。原理是：cache的所有位置都用

双向链表连接起来，当一个位置被命中后，就将通过调整链表的指向将该位置调

整到链表的头位置，新加入的内容直接放在链表的头上。这样，在进行过多次查

找操作后，最近被命中过的内容就像链表的头移动，而没有命中过的内容就向链

表的后面移动。当需要替换时，链表最后的位置就是最近最少被命中位置，我们

只需要将新的内容放在链表前面，淘汰链表最后的位置就实现了LRU算法。

2.3 URL类访问网络

JAVA提供了许多支Internet连接的类，URL类就是其中之一。在使用URL类

之前，必须创建一个URL对象，创建的方法是使用其构造函数，通过向其指定一

个 U R L地址，就能实例化该类。如： U R L u r l = n e w U R L

（http://www.sina.com.cn）；

第二章相关技术介绍

如果传递无效的URL给URL对象，该对象会抛出MalformedURLException

异常。当成功创建一个URL对象后，我们调用openConnection函数建立与URL的

通信，此时，我们就获得了一个URLConnection对象的引用，URLConnection类

包含了许多与网络上的URL通信的函数。在下载网页前，我们需要判断目标网页

是否存在，这时调用URLConnection类的getHeaderField()方法，获得服务器返回

给SPIDER 程序的响应码，如果响应码包含”20*”字样，表示目标网页存在，下一

步就下载网页，否则就不下载。getHeaderField()方法仅仅获得服务器返回的头标

志，其通信开销是最小的，因此在下载网页前进行此测试，不仅能减小网络流量

而且能提高程序效率。当目标网页存在时 2 调用 U R L C o n n e c t i o n类

getInputStream()函数明确打开到URL的连接，获取输入流，再用java.io包中的

InputStreamReader类读取该输入流，将网页下载下来。

2.4　爬行策略浅析

2.4.1宽度或深度优先搜索策略

搜索引擎所用的第一代网络爬虫主要是基于传统的图算法, 如宽度优先或深

度优先算法来索引整个Web, 一个核心的U RL 集被用来作为一个种子集合, 这种

算法递归的跟踪超链接到其它页面, 而通常不管页面的内容, 因为最终的目标是这

种跟踪能覆盖整个Web. 这种策略通常用在通用搜索引擎中,因为通用搜索引擎获

得的网页越多越好, 没有特定的要求.

2.4.1.1　宽度优先搜索算法

宽度优先搜索算法(又称广度优先搜索) 是最简便的图的搜索算法之一, 这一

算法也是很多重要的图的算法的原型. Dijkstra 单源最短路径算法和Prim 最小生

成树算法都采用了和宽度优先搜索类似的思想.宽度优先搜索算法是沿着树的宽

度遍历树的节点, 如果发现目标, 则算法中止. 该算法的设计和实现相对简单, 属于

盲目搜索. 在目前为覆盖尽可能多的网页, 一般使用宽度优先搜索方法. 也有很多

研究将宽度优先搜索策略应用于聚焦爬虫中. 其基本思想是认为与初始U RL 在一

定链接距离内的网页具有主题相关性的概率很大. 另外一种方法是将宽度优先搜

索与网页过滤技术结合使用, 先用广度优先策略抓取网页, 再将其中无关的网页过

滤掉. 这些方法的缺点在于, 随着抓取网页的增多, 大量的无关网页将被下载并过

滤, 算法的效率将变低.

2.4.1.2　深度优先搜索

深度优先搜索所遵循的搜索策略是尽可能“深”地搜索图. 在深度优先搜索中,

对于最新发现的顶点, 如果它还有以此为起点而未探测到的边, 就沿此边继续汉下

去. 当结点v 的所有边都己被探寻过, 搜索将回溯到发现结点v 有那条边的始结点

这一过程一直进行到已发现从源结点可达的所有结点为止. 如果还存在未被发现

的结点, 则选择其中一个作为源结点并重复以上过程, 整个进程反复进行直到所有

结点都被发现为止. 深度优先在很多情况下会导致爬虫的陷入( trapped) 问题, 所

以它既不是完备的, 也不是最优的.

电子科技大学成都学院本科毕业设计论文

2.4.2 聚焦搜索策略

基于第一代网络爬虫的搜索引擎抓取的网页一般少于1 000 000 个网页, 极少

重新搜集网页并去刷新索引. 而且其检索速度非常慢, 一般都要等待10 s甚至更长

的时间. 随着网页页信息的指数级增长及动态变化, 这些通用搜索引擎的局限性越

来越大, 随着科学技术的发展, 定向抓取相关网页资源的聚焦爬虫便应运而生.聚

焦爬虫的爬行策略只挑出某一个特定主题的页面, 根据“最好优先原则”进行访问

快速、有效地获得更多的与主题相关的页面, 主要通过内容和Web 的链接结构来

指导进一步的页面抓取[ 2 ].

聚焦爬虫会给它所下载下来的页面分配一个评价分, 然后根据得分排序, 最后

插入到一个队列中. 最好的下一个搜索将通过对弹出队列中的第一个页面进行分

析而执行, 这种策略保证爬虫能优先跟踪那些最有可能链接到目标页面的页面.

决定网络爬虫搜索策略的关键是如何评价链接价值, 即链接价值的计算方法, 不同

的价值评价方法计算出的链接的价值不同, 表现出的链接的“重要程度”也不同,

从而决定了不同的搜索策略. 由于链接包含于页面之中,而通常具有较高价值的页

面包含的链接也具有较高的价值, 因而对链接价值的评价有时也转换为对页面价

值的评价. 这种策略通常运用在专业搜索引擎中, 因为这种搜索引擎只关心某一特

定主题的页面.

2.4.3基于内容评价的搜索策略

基于内容评价的搜索策略[ 3, 4 ] , 主要是根据主题(如关键词、主题相关文档) 与

链接文本的相似度来评价链接价值的高低, 并以此决定其搜索策略: 链接文本是指

链接周围的说明文字和链接U RL 上的文字信息, 相似度的评价通常采用以下公式

sim (d i, d j ) =Σmk= 1w ik ×w jk(Σmk= 1w 2ik ) (Σmk= 1w 2jk )

其中, di 为新文本的特征向量, d j 为第j 类的中心向量,m 为特征向量的维数,

wk 为向量的第K 维.由于Web 页面不同于传统的文本, 它是一种半结构化的文档,

包含许多结构信息Web 页面不是单独存在的, 页面中的链接指示了页面之间的相

互关系, 因而有些学者提出了基于链接结构评价链接价值的方法.

2.4.4 基于链接结构评价的搜索策略

基于链接结构评价的搜索策略, 是通过对Web页面之间相互引用关系的分析来

确定链接的重要性, 进而决定链接访问顺序的方法. 通常认为有较多入链或出链的

页面具有较高的价值. PageRank 和Hits 是其中具有代表性的算法.

2.4.4.1　PageRank 算法

基于链接评价的搜索引擎的优秀代表是Google (http://www.Google.com) ,

它独创的“链接评价体系”(PageRank 算法) 是基于这样一种认识, 一个网页的重要性

取决于它被其它网页链接的数量, 特别是一些已经被认定是“重要”的网页的链接数

量. PageRank 算法最初用于Google 搜索引擎信息检索中对查询结果的排序过程[

5 ] , 近年来被应用于网络爬虫对链接重要性的评价, PageRank 算法中, 页面的价值

通常用页面的PageRank值表示, 若设页面p 的PageRank 值为PR (p ) , 则PR (p ) 采用

如下迭代公式计算:

剩余55页未读，继续阅读

woshizn

粉丝: 47

Java实现的广度优先多线程网络爬虫设计

java多线程下载工具 论文

Java多线程同步论文.doc

java多线程技术论文

java多线程爬虫的实现_实现Java多线程爬虫的两点

java 爬虫多线程

网络爬虫包括以下哪些 答案选项组 通用爬虫 多线程爬虫 聚焦爬虫 多进程爬虫

写一个java多线程爬虫

python多进程+多线程爬虫

如何使用JAVA实现一个基于广度优先算法的网络爬虫，并详细说明从URL的抓取、页面内容解析到数据存储的整个流程？

java多线程项目推荐

最新资源

java多线程下载工具论文

网络爬虫包括以下哪些答案选项组通用爬虫多线程爬虫聚焦爬虫多进程爬虫