"Java网络爬虫实例：探秘网络蜘蛛的工作原理与挑战"

需积分: 10 144 浏览量更新于2024-01-17 收藏 103KB DOC 举报

网络爬虫是一种用于自动获取互联网上信息的程序。其工作原理类似于一个在互联网上爬行的蜘蛛，通过链接地址寻找并获取网页内容。通过不断循环的方式，网络蜘蛛可以抓取一个网站内的所有网页，并且在理论上可以遍历整个互联网。然而，要实现抓取互联网上所有的网页几乎是不可能的，目前最大的搜索引擎也仅能抓取整个网页数量的百分之四十左右。这主要是由于抓取技术的瓶颈和存储、处理技术的问题导致的。首先，网络蜘蛛需要通过链接地址来寻找网页，但由于互联网上有许多没有链接地址的网页，无法从其他网页中找到。这导致了抓取技术的限制，无法遍历所有的网页。其次，存储和处理大量网页数据也是一个挑战。假设每个网页的平均大小为20K，那么存储100亿网页所需要的容量就是100×2000G字节。即使能够存储，下载这些网页也是一个巨大的问题。以每台机器每秒下载20K为计算基准，需要340台机器不停地下载一年时间才能完成所有网页的下载。这对于目前的存储和下载技术来说是不可行的。同时，由于数据量过大，搜索引擎在提供搜索服务时也会面临效率问题。如果搜索引擎要遍历所有网页进行搜索，那么所需的计算资源将是惊人的。因此，为了提高搜索效率，搜索引擎一般会选择抓取高质量和高权威网站的网页，以获取更符合用户需求的搜索结果。对于想要进行网络爬虫的人来说，需要充分了解抓取技术的原理和局限性。虽然无法抓取整个互联网，但可以抓取特定网站的部分或全部网页。使用网络爬虫可以快速、自动地获取大量信息，例如用于数据分析、舆情监测、站点监控等。然而，在进行网络爬虫时，也需要遵守相关法律法规和伦理规范，不得违法使用、侵犯他人隐私等。总之，网络爬虫是一种自动化获取互联网信息的工具，通过链接地址来寻找并获取网页内容。然而，要实现抓取整个互联网的所有网页几乎不可能，在存储、下载和处理大量网页数据上存在技术和资源的限制。对于想要进行网络爬虫的人来说，需要了解网络爬虫的原理和局限性，并遵守法律法规和伦理规范。网络爬虫在数据获取和应用方面具有重要作用，但也需要谨慎使用。

Spider 处理流程

当一个 URL 被加入到等待队列中时 Spider 程序就会开始运行。只要等待队列

中有一个网页或 Spider 程序正在处理一个网页，Spider 程序就会继续它的工

作。当等待队列为空并且当前没有处理任何网页，Spider 程序就会停止它的工

作。

Spider 程序实现初探

Spider 程序是从网上下载 Web 页面再对其进行处理，为了提高效率，很显然

要采用多线程的方法，几个 Spider 线程同时并行工作，访问不同的链接。构造

Spider 程序有两种方式。第一种是将它设计为递归程序，第二种是将它编写成

非递归的程序。递归是在一个方法中调用它本身的程序设计技术。当需要重复

做同样的基本仟务或在处理先前任务时可展现将来的任务信息时，递归是相当

实用的。例如下面的代码:

void RecursiveSpider?(String url) {

download URL……

parse URL……

while found each URL

call RecursiveSpider?(found URL) ……

process the page just downloaded……

} 这段代码查看单独的一个 Web 页的任务放在一个 RecursiveSpide?:方法中。

在此，调用 RecursiveSiper?方法来访问 URL.。当它发现链接时，该方法调

用它自己。递归方法在访问很少的网页时，可以使用。因为当一个递归程序运

行时要把每次递归压入堆栈(堆栈是个程序结构，每次调用一个方法时，将返

回地址存入其中)。如果递归程序要运行很多次，堆栈会变得非常大，它可能会

耗尽整个堆栈内存而导致程序中止。递归还有个问题是多线程和递归是不兼容

的，因为在这一过程中每一个线程都是自己的堆栈。当一个方法调用它自身时，

它们需要使用同一个堆栈。这就是说递归的 Spider 程序不能使用多线程。非

递归程序不调用自身，而是采用队列的方法。队列就是排队，要得到程序的处

理就必须在队列中排队等待。我们在构造造 Spider 时就采用该方式。使用非递

归的方法时，给定 Spider 程序一个要访问的页面，它会将其加入到要访问的站

点的队列中去。当 Spider 发现新的链接时，也会将它们加入到该队列中。

Spider 程序会顺序处理队列中的每一个网页。实际在 Spider 程序中使用了四

个队列; 在 Spider 程序的构造过程中，有两种方法用于访问队列的管理。一种

方法就是基于内存的队列管理。

剩余33页未读，继续阅读

justinwu7

粉丝: 0
资源: 5

"Java网络爬虫实例：探秘网络蜘蛛的工作原理与挑战"

Java爬虫视频

Java写的爬虫的基本程序

Java网络爬虫简单实现

java网络爬虫实例2020

java网络爬虫实例重点文档.doc

Java WebSocket爬虫实例

java爬虫实例

java网络爬虫连接超时解决实例代码

Java爬虫实例完整源码

Java网络爬虫

最新资源