网络爬虫原理与抓取策略详解

需积分: 10 136 浏览量更新于2024-07-30 收藏 103KB DOC 举报

网络爬虫的简介网络爬虫，也称Web Spider，是一种自动浏览和抓取网页内容的程序。它通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。网络爬虫的基本原理是通过网页的链接地址来寻找网页，抓取网页的内容，然后继续抓取下一个网页，直到把整个网站的网页都抓取完毕。这种方法可以让网络爬虫并行处理，提高其抓取速度。在开发网络爬虫时，需要使用Java程序语言，并且需要使用相关的jar文件来实现网络爬虫的功能。Java是一种广泛使用的程序语言，它具有强大的功能和灵活性，可以用来开发各种类型的应用程序，包括网络爬虫。网络爬虫在抓取网页时，通常有两种策略：广度优先和深度优先。广度优先是指网络爬虫会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。这是最常用的方式，因为这个方法可以让网络爬虫并行处理，提高其抓取速度。深度优先是指网络爬虫会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。这个方法有个优点是网络爬虫在设计的时候比较容易。由于网络爬虫抓取网页的数量是非常大的，因此需要对其进行优化和控制。例如，可以设置访问的层数，例如，在上图中，A为起始网页，属于0层，B、C、D、E、F属于第1层，G、H属于第2层，I属于第3层。如果网络爬虫设置的访问层数为2的话，网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到，另外一部分不能被搜索到。对网站设计者来说，扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。这是因为扁平化的网站结构可以让网络爬虫更容易地抓取网页，提高其抓取速度和效率。网络爬虫是一种非常重要的技术，它可以用来抓取网页，提供搜索引擎的数据来源，并且可以对网站结构进行优化和设计。

Spider 处理流程

当一个 URL 被加入到等待队列中时 Spider 程序就会开始运行。只要等待队列

中有一个网页或 Spider 程序正在处理一个网页，Spider 程序就会继续它的工

作。当等待队列为空并且当前没有处理任何网页，Spider 程序就会停止它的工

作。

Spider 程序实现初探

Spider 程序是从网上下载 Web 页面再对其进行处理，为了提高效率，很显然

要采用多线程的方法，几个 Spider 线程同时并行工作，访问不同的链接。构造

Spider 程序有两种方式。第一种是将它设计为递归程序，第二种是将它编写成

非递归的程序。递归是在一个方法中调用它本身的程序设计技术。当需要重复

做同样的基本仟务或在处理先前任务时可展现将来的任务信息时，递归是相当

实用的。例如下面的代码:

void RecursiveSpider?(String url) {

download URL……

parse URL……

while found each URL

call RecursiveSpider?(found URL) ……

process the page just downloaded……

} 这段代码查看单独的一个 Web 页的任务放在一个 RecursiveSpide?:方法中。

在此，调用 RecursiveSiper?方法来访问 URL.。当它发现链接时，该方法调

用它自己。递归方法在访问很少的网页时，可以使用。因为当一个递归程序运

行时要把每次递归压入堆栈(堆栈是个程序结构，每次调用一个方法时，将返

回地址存入其中)。如果递归程序要运行很多次，堆栈会变得非常大，它可能会

耗尽整个堆栈内存而导致程序中止。递归还有个问题是多线程和递归是不兼容

的，因为在这一过程中每一个线程都是自己的堆栈。当一个方法调用它自身时，

它们需要使用同一个堆栈。这就是说递归的 Spider 程序不能使用多线程。非

递归程序不调用自身，而是采用队列的方法。队列就是排队，要得到程序的处

理就必须在队列中排队等待。我们在构造造 Spider 时就采用该方式。使用非递

归的方法时，给定 Spider 程序一个要访问的页面，它会将其加入到要访问的站

点的队列中去。当 Spider 发现新的链接时，也会将它们加入到该队列中。

Spider 程序会顺序处理队列中的每一个网页。实际在 Spider 程序中使用了四

个队列; 在 Spider 程序的构造过程中，有两种方法用于访问队列的管理。一种

方法就是基于内存的队列管理。

剩余33页未读，继续阅读

liucong6152135

粉丝: 0
资源: 2

网络爬虫原理与抓取策略详解

网络爬虫简介 ppt

网络爬虫简介

网络爬虫简介ppt课件.ppt

Scrapy网络爬虫简介

网络爬11虫与推荐系统1.网络爬虫简介2.推荐系统简介3.网络爬虫之数据采集4.推荐系统之数据挖掘.pdf

网络爬11虫与推荐系统1.网络爬虫简介2.推荐系统简介3.网络爬虫之数据采集4.推荐系统之数据挖掘.docx

网络爬11虫与推荐系统1.网络爬虫简介2.推荐系统简介3.网络爬虫之数据采集4.推荐系统之数据挖掘 (2).docx

网络爬11虫与推荐系统1.网络爬虫简介2.推荐系统简介3.网络爬虫之数据采集4.推荐系统之数据挖掘 (2).pdf

网络爬虫简介：定义、用途、原理及常见类型，教育技术系1网络爬虫课件总结

网络爬虫 知识简介

最新资源

网络爬虫知识简介