没有合适的资源?快使用搜索试试~ 我知道了~
Egyptian Informatics Journal(2013)14,27开罗大学埃及信息学杂志www.elsevier.com/locate/eijwww.sciencedirect.com原创文章利用移动代理Marwa Badawia,*, Ammar Mohameda, Ahmed Husseinb, MervatGheithaa埃及开罗开罗大学统计研究所b埃及开罗开罗大学计算机和信息学院收稿日期:2012年6月23日;修订日期:2012年11月12日;接受日期:2012年2012年12月21日在线提供摘要搜索引擎必须在其索引和数据存储库中对托管在Web服务器上的所有Web页面和其他Web资源保持最新的图像,以便为其客户提供更好和准确的结果。这些搜索引擎的爬虫必须不断地检索页面以保持索引最新。据文献报道,目前40%的互联网流量和带宽-宽度消耗是由于这些爬虫。因此,我们感兴趣的是检测网页中的重大变化,这些变化有效地反映在搜索引擎在本文中,我们提出了一个基于文档索引的变化检测技术和分布式索引使用移动代理。实验结果表明,该系统可以考虑减少网络流量和搜索引擎侧的计算负载,并保持其索引最新的重大变化。©2012计算机和信息学院,开罗大学。由爱思唯尔公司制作和主持All rights reserved.1. 介绍由于Web的不断增长和动态特性,为Web编制索引已成为一项挑战。目前,据估计,web包含分布在世界各地的数千个web服务器上的大约500亿个可公开访问/可索引的web文档,而deep web(动态生成的文档、内联网页面、web连接的*通讯作者。联系电话:+20 1009620075。电子邮件地址:marwa_badawi_claes@yahoo.com(M. 巴达维)。开罗大学计算机和信息系负责同行审查。数据库等)几乎是三个数量级以上[1]。根据[2],网络是非常动态的,其40%的内容每天都在变化。网络爬虫用于递归地遍历和下载网页,以供搜索引擎创建和维护网络索引。根据[3],在索引中维护最新页面的需要导致爬虫递归地重新访问网站。因此,CPU周期、磁盘空间和网络带宽等资源,变得过载,有时网站可能会由于这些资源的过载而崩溃。一项研究[4]报告说,目前大约40%的互联网流量和带宽消耗是由于网络爬虫。当前搜索引擎和Web服务器之间的合作方案可以分为两大类,如[5]所述:轮询方案和中断(或推送)方案。爬虫可以使用其中一个或不同方案的组合。在轮询(或拉取)方案中,搜索引擎基于搜索引擎策略定期从Web服务器在中断1110-8665© 2012计算机和信息学院,开罗大学。制作和主办Elsevier B.V.保留所有权利。http://dx.doi.org/10.1016/j.eij.2012.11.001制作和主办:Elsevier关键词搜索引擎;移动爬行;分布式索引;网页变化检测28米。Badawi等人(or推送)方案中,只要有必要,web服务器就开始与搜索引擎的事务。这类似于主处理器和硬件设备(网卡、扫描仪等)之间的关系。在现代计算机中。然而,随着网络规模的不断扩大,现有的基于拉取机制的集中式抓取和索引方法显得力不从心。由于爬虫不再能够下载网页所需的每日率,以保持一个更新的索引的网络。一项研究表明,没有搜索引擎成功覆盖超过16%的估计网络大小[6]。更具体地说,由于以下原因,集中式爬行和索引方法存在不足[7]:集中式数据访问:抓取数据的任务是高度集中的。它使用HTTP请求和应答范式为每个下载的页面创建和维护搜索引擎的索引。每个请求和应答都需要单独的TCP连接。考虑到今天的网络有大约500亿个公共页面,建立这些连接所涉及的延迟很快就会增加。此外,所有网页中的估计数据量为数十太字节的量级,并且继续增长。由于搜索引擎必须频繁地重新抓取网页以应对任何变化,因此所需的网络带宽是巨大的。集中式页面过滤:爬虫下载网页的全部内容,包括无用的信息,如脚本代码,HTML标签和注释,这些对于文档索引来说是不必要的。集中式索引:索引策略也是集中式的,所有下载的页面都在搜索引擎本地处理以生成倒排索引,这需要大量的存储和处理能力。集中式变化检测:爬虫在搜索引擎端本地检测下载网页的最新版本与旧版本之间的变化。未压缩的数据:爬虫下载的文件通常是未压缩的,这样就增加了网络带宽.异步更新:Web的巨大规模使得爬虫无法跟上文档的变化。在一些最大的商业搜索引擎中,非赞助文档的重新访问频率从4到6周不等[8]。因此,搜索引擎提供了大量的旧内容。最理想的情况是将搜索引擎索引的更新与网页的实际更改频率同步无意义的更改检测:网页中发生的更改最好归类为内容更改(例如,文本的删除、添加和修改),布局或结构改变(例如,页面中元素位置的改变),以及属性改变(例如,字体和颜色的变化)。搜索引擎但是,这种集中式方法中的爬行器是幼稚的,它通过网络传输重要的更改(内容更改)和不重要的更改(结构和属性更改),因此它会导致网络过载和对不重要更改的无用索引。本文提出了一种基于文档索引的网页变化检测技术和分布式索引策略,利用移动代理技术。建议分布式网络爬行和索引系统(DWCIS)处理集中的方法,通过最小化网络利用率的上述不足,以保持搜索引擎的索引最本文的其余部分组织如下。第2节概述了集中式或传统的搜索引擎设计。相关工作在第3节中讨论第四部分描述了分布式Web抓取与索引系统DWCIS的体系结构及其工作流程。第5节描述了实验装置,第6节显示了实验结果和讨论。最后,我们在第7节结束。2. 传统搜索引擎设计概述搜索引擎通常包含蜘蛛、网页存储库、索引器、搜索索引、查询引擎和用户界面。这些组件在下面[9]中描述。蜘蛛:也称为网络机器人或爬虫,是搜索引擎背后的程序 , 其 通 过 递 归 地 跟 随 使 用 标 准 超 文 本 传 输 协 议(HTTP)的页面中的URL链接(统一资源定位符)来检索网页。首先,蜘蛛从一个起始种子URL列表中读取并下载这些URL上的文档。处理每个下载的页面,并提取其中包含的URL并添加到队列中。然后,每个蜘蛛从队列中选择下一个URL,并继续该过程,直到下载了令人满意的文档数量或耗尽了本地计算资源。为了提高速度,蜘蛛通常同时连接到多个Web服务器,以便并行下载文档,使用多个执行线程或异步输入/输出。Web页面存储库:蜘蛛检索的文档存储在Web页面存储库中。为了减少所需的存储空间,页面通常在存储之前被压缩存储库通常以数据库的形式存在,但对于小型搜索引擎来说,简单地将文档存储为文件也很常见。索引器:索引器处理存储库中的页面并构建搜索引擎的基础索引。索引器将每个页面标记为单词,并记录每个单词在页面中的出现次数。索引器还用于计算诸如每个词的术语和文档频率之类的分数,这些分数可用于搜索结果排名。倒排索引:然后将索引器的结果转换为“倒排索引”。原始索引结果将文档映射到其中包含的单词列表,而倒排索引将单词映射到包含该单词的文档列表。这允许在搜索查询被传递到搜索引擎时快速检索文档。生成的可搜索索引通常存储在数据库中。●●●●●●●●●●●使用移动代理29维持搜索引擎新鲜度查询引擎:查询引擎接受来自用户的搜索查询,并对索引执行搜索。在从索引检索搜索结果之后,查询引擎还负责根据内容分析和链接分析得分对搜索结果进行排名。它还负责为每个搜索结果生成摘要,通常基于网页存储库。某些搜索引擎中的查询引擎在所有处理之后,查询引擎生成并呈现搜索结果HTML页面,并将其发送到用户界面。如图1所示,传统搜索引擎的处理完全集中在搜索引擎侧。从爬行过程开始,将检测过程改为索引过程.考虑到今天的网络有大约500亿公开索引的网页,如前所述,这是巨大的负载在搜索引擎方面和网络带宽需要是巨大的。3. 相关工作这些作者[7,10,11]通过使用移动代理作为爬行单元来处理移动爬行的概念提出的概念超越了集中式架构的当前网络爬行系统分布在网络上的数据检索过程。 移动爬虫能够在数据通过网络传输之前在数据源处执行远程操作,例如数据分析和数据压缩。然而,他们的系统忽略了分布式索引,索引更新和网页变化检测。Brandman等人[12]研究了如何使Web服务器更容易抓取的想法,通过Web服务器导出描述其内容的元数据存档,以便抓取器可以有效地创建和维护大型的此元数据包括每个可用文件的最后修改日期和大小。这种方法通过只发送上次抓取日期之后修改过的页面来减少网络带宽,但同时它提供了搜索功能。引擎的索引具有显著的变化(内容变化)和不显著的变化(结构和属性变化)。这些微小的变化导致网络过载,并通过重新抓取和重新索引网页的微小变化浪费搜索引擎的资源。本文作者只关注搜索引擎Yadav等人。[13,14]提出了基于校验和(哈希值)的内容级别变化检测。在页面抓取时,只会与该页面的文本代码进行比较。这种技术的主要缺点是,如果检测到网络上的实际副本与本地副本相比该值有任何变化,无论是否显著,页面都将被刷新或重新抓取。因此,这种技术导致网络过载和搜索引擎资源的浪费。Artail和Abi-Aad[15]提出了一种基于将给定网页的两个版本之间的相似性计算限制为具有相同HTML标记类型的节点的网页变化检测方法在执行相似性计算之前,HTML网页被转换成类似XML的结构,其中节点对应于开闭HTML标记。这种树结构使用了大量的存储空间,并且在刷新时造成了很多不便此外,这种方法只适用于可以转换为类似XML结构的页面类型,如HTML页面。Bal等人[16,17]提出了一种基于移动代理的新型索引系统,该系统可以通过两种网页变化检测方法过滤出自上次抓取以来未修改的HTML页面。第一种方法是在页面更改检测时计算网页的页面大小。第二个使用网页的最后修改日期。这些方法与上述相关工作中的散列方法有相同的缺点,因为任何细微的变化都会改变页面大小及其最后修改日期。这会导致搜索引擎处理不改变索引的网页而这些作者[18图1传统爬行系统的工作流程图●30米Badawi等人考虑分布式索引或网页变化检测。在[21]中,提出了一种技术,在爬行和索引过程中利用用户因为这项工作试图根据用户反馈索引大多数重要的页面这些作者[22从而使下载速率最大化,分散网络负载,降低网络负载,提高网络的可扩展性,但都没有考虑分布式索引和变化检测。4. 建议的分布式系统架构本文介绍了一个分布式的网络爬行和索引系统DWCIS。我们架构的关键思想是基于主从代理设计模式[30,31]。在主-从设计模式中,主代理将在给定代理上完成的任务委托给从代理,以便继续执行不能被中断的其他任务。从代理访问指定的代理,在那里它完成任务,然后带着结果返回源代理。主代理接收来自从代理的结果。然后,奴隶自我毁灭。图2显示了我们的系统的想法如下:搜索引擎不是通过网络在web服务器处下载页面;而是将称为移动爬行器的代理上载到web服务器。移动爬行器在Web服务器本地处理页面,并将结果以自定义格式发送回搜索引擎。该系统的主要贡献是在Web服务器端建立了Web页面的文档索引。该方法有三个优点:首先,它是一种变化检测技术,对非显著网页变化比其他现有变化依赖于页面大小、上次修改日期和哈希值的检测技术。第二,改变的页面的文档索引被返回到搜索引擎,而不是页面本身。因此,它减少了网络负载的结果从爬行。第三,它减少了搜索引擎侧的计算负荷,因为网站的文档索引已经在web服务器处创建,并且搜索引擎仅需创建倒排索引。我们的DWCIS的主要组成部分如图所示。2和3是:主代理(MA):MA驻留在搜索引擎端并执行各种任务。MA的主要任务是从代理(移动爬虫)的创建,委托的URLSlave Agent(SA):在搜索引擎端创建,然后分配到Web服务器端。它在本地处理所分配的URL如下:从web服务器请求网页,生成网页的文档索引,检测显著改变的网页,压缩所生成的文档索引,并最终移动回携带显著改变的网页的压缩文档索引的搜索引擎侧,并在ACL消息中将它们发送到MA4.1. DWCIS工作流程我们假设任何想要加入我们系统的Web服务器都应该首先 通 过 我 们 的 管 理 站 点 在 主 代 理上 注 册 ( 图 1) 。4)。然后主代理有一个图2拟议系统的架构●●图3所提出的分布式系统的工作流程使用移动代理31维持搜索引擎新鲜度图4在系统上注册网站的管理网页所有所需Web服务器的URL在第一个爬取周期,MA创建SA并将其分派到所需的Web服务器。SA使用HTTP请求与本地Web服务器联系,获取所有静态页面和动态页面,对抓取的页面进行索引以创建文档索引,并将其发送到MA。此外,在Web服务器上还保存了此文档索引的副本,以便在即将到来的抓取周期中使用。在进一步的爬行周期中,MA向Web服务器发送SA,开始重新爬行过程.正如我们上面提到的,我们关注的是网页的内容变化,而不是结构变化。因此,在开始重新抓取过程之前,首先要确定之前已经抓取的网页是否发生了变化,无论是结构还是内容。这个过滤问题节省了Web服务器CPU周期和内存。如果网页自上次抓取周期以来没有变化,则无需重新抓取并再次索引。我们通过保存在网页元数据中的网页的最后修改日期(LMD)来确定。如果LMD发生了变化,则表示网页发生结构变化或内容变化的两种可能性。SA仅对LMD已更改的已抓取网页启动重新抓取过程。SA比较网页的旧文档索引,这是保存在Web服务器上的最后爬行与新的。如果一个网页的索引是相似的,那么这个网页有一个不显著的变化,因此不需要再次通过网络将其文档索引传输到搜索引擎。但是,如果索引不同,则意味着网页的内容实际上发生了变化,其文档索引应通过32米。Badawi等人网络为MA。MA接收网页的更新文档索引,并将其替换为搜索引擎数据库中的旧索引。然后,搜索引擎根据最新的文档索引创建倒排索引。在实验期间,在每次抓取之后收集并存储以下信息:上次爬网后添加/删除/修改的页面数。负责更改检测的参数-上次修改日期、页面大小(字节)、哈希值、关键字计数(页面索引)。● Crawler直接检索的字节数5. 实验装置建立了一个虚拟环境进行实验。在我们的虚拟环境中有两台机器,第一台机器是远程站点/服务器(RS),它托管一个participating网站,第二台机器是搜索引擎。这些机器有奔腾双核英特尔处理器,2.20 GHz, 2 GB RAM, 支 持 Java运 行 时 环境 和 JavaAgent开发框架(JADE)[32],以开发符合FIPA规范的多代理系统。两台机器都有32位Windows操作系统。这两台机器通过高速局域网连接作为实验的数据集,我们从“Sun Java Tutorials”网站上选取了656个HTML网页(总共约4.95 MB)来评估我们的这些网页被选择、下载并存储在RS上。 图 4显示了网站使用的管理网页在DWCIS注册他的网站。注册参数包括网站的主URL、主机、变化检测技术和频率。用JADE开发了固定管理Agent(作为主Agent)和移动爬行Agent(作为从Agent)。管理器代理驻留在客户端服务器/搜索引擎委托的主要URL的参与网站的移动爬虫代理进行爬行。为网站指定的爬虫访问远程站点(RS),并在最后一次抓取后分析修改的页面,并仅返回实际修改的索引。图5显示了用于管理和可视化现有代理和代理容器的JADE远程代理管理GUI。代理容器在图5的示例中,代理爬虫-0从爬虫池移动Terrier是一个开源的信息检索平台,包含常见的和现代的统计检索模型,如TF-IDF,BM 25和语言建模。特别是,它提供了最先进的索引和检索功能,并支持大规模检索应用程序的快速开发和评估。Terrier是用Java实现的,用于创建文档索引和倒排索引。我们使用WinZIP压缩技术压缩了集合,发现HTML文档压缩了大约70%。网站地图是网站管理员通知搜索引擎关于其网站上可供抓取的页面的简单方法。通过创建和提交Sitemap进行搜索图5JADE远程代理管理GUI。●●使用移动代理33维持搜索引擎新鲜度在搜索引擎中,它更有可能获得更好的新鲜度和覆盖率Google Sitemap Generator是一个安装在Web服务器上的工具,用于自动生成Sitemap[34]。6. 实验结果我们的性能评估的目标首先是建立基于文档索引的变化检测技术优于其他研究的变化检测技术,如最后修改日期(LMD),页面大小[6,18]和哈希值[13,14]。其次,为了确定分布式索引方法相对于当前集中式索引方法的优越性,我们根据通过网络传输的数据的大小来作为我们实验的数据集,我们使用了上一节提到的Java编程教程,它是一组656个HTML页面(总共约4.95 MB)。通过在将页面发送到客户端站点(搜索引擎)之前对其进行压缩,可以进一步减少网络流量。HTML页面可以通过使用标准压缩工具(如WINZIP)压缩到实际大小的30%。我们比较我们提出的分布式移动爬虫文件索引的基础上与其他移动爬虫使用国家的最先进的变化检测技术。我们实现了以下爬虫类型:传统爬虫(TC):它模拟了一个静态爬虫,运行在搜索引擎端,在Web服务器端没有任何爬行计算负载。它使用远程HTTP请求远程下载驻留在Web服务器上的所有网页。搜索引擎具有最大的计算负担,因为它必须处理所有网页,创建文档索引并创建用于查询搜索的倒排索引。使用LMD 的移动爬虫(MC1 ):它是一个基于Lastmodification date change detection technique 的 迁 移 爬虫。它会迁移到Web服务器,并在检测到页面更改时它只将经过压缩的修改后的网页发送回带页面大小的移动爬虫(MC2):它是一个基于页面大小变化检测技术的移动爬虫。它会迁移到Web服务器,并在检测到页面更改时使用页面大小的比较来过滤未修改的页面。它只向搜索引擎发送经过压缩的修改后的网页。带哈希值的移动爬虫(MC3):它是一个基于哈希值变化检测技术的迁移爬虫。它会迁移到Web服务器,并在检测到页面更改时使用哈希值的比较来过滤未修改的它只将经过压缩的修改后的网页发送回搜索引擎。散列函数是将可变长度的大消息(称为键)映射到固定长度的较小字符串的任何算法或子例程。哈希函数返回的值称为哈希值、哈希码、哈希和、校验和或简单的哈希。MobileCrawler with document index 1(MC4):这是一个基于文档索引变化检测技术的移动爬虫。它迁移到web服务器,并使用文档索引的比较来过滤未修改的页面。在页面变化检测时。它只将经过压缩的修改后的网页发送回搜索引擎。文档索引2移动爬虫(MC5):它是一个基于文档索引变化检测技术的移动爬虫。它会迁移到Web服务器,并在检测到页面更改时使用文档索引的比较来过滤未修改的页面它只向搜索引擎发送压缩的修改后的网页该爬虫程序实现了搜索引擎侧计算负载的最大减少,因为文档索引已经创建。之后搜索引擎所要做的就是从所有参与的网站收集文档索引,并创建用于基于查询的搜索的倒排索引我们通过六个爬行周期来评估上述不同爬行器的性能。对于实验,我们假设每个周期只会发生一种类型的变化。表1显示了6个不同的爬虫在不同的爬虫周期中通过网络在搜索引擎和Web服务器之间传输的字节数。当使用移动爬虫时,由于移动爬虫本身,存在30 KB的开销,这与TC传输的数据相比可以忽略不计。第一个周期(初始抓取):建议的爬虫必须下载托管在Web服务器上的所有网页的压缩索引。第二个周期(无更改周期):自第一个周期以来没有更改网页。这个循环说明了移动爬虫相对于传统爬虫的优势第三个周期(页面删除周期):为了模拟页面删除情况,我们随机选择10个总大小为133 KB的HTML网页,并将其从网站中删除。第四个周期(页面添加周期):为了模拟页面添加情况,我们将在前一个周期删除的10个HTML网页添加回网站。第五个周期(显著变化周期):为了模拟页面内容变化的情况,我们改变了第四个周期添加的10个HTML网页的内容。 更改的形式可以是更改页面标题或段落中的句子。第六个周期(非显著变化周期):为了模拟非显著页面变化的情况,我们改变了在第四个周期添加的10个HTML网页。改变被分为布局或结构改变(例如,页面中HTML元素位置的改变字体大小和颜色、图像大小的变化)。表1传统的爬虫在六个周期中检索所有的HTML页面,总大小为4.95 MB,因为它没有机制来处理网页而不将它们下载到搜索引擎端。在初始周期中,迁移爬网程序只1.6 MB,即656个网页的压缩内容。我们没有观察到LMD、页面大小和哈希值这●●●●●●●●●●●●●表1随机选取10个HTML页面,在不同抓取周期下,传统爬虫和不同类型的移动爬虫的对比。更改检测技术初始抓取周期进一步抓取周期(10页)无变化重大变化非重大变化表220个HTML页面变化时,不同抓取周期下传统爬虫与不同类型移动爬虫的比较更改检测技术初始抓取周期进一步抓取周期(20页)无变化重大变化非重大变化表330个HTML页面变化时,不同抓取周期下传统爬虫与不同类型移动爬虫的比较更改检测技术初始抓取周期进一步抓取周期(30页)无变化重大变化非重大变化表440个HTML页面变化时,不同抓取周期下传统爬虫与不同类型移动爬虫的比较更改检测技术初始抓取周期进一步抓取周期(40页)三十四米。Badawi等人删除页面添加页面含量变化传统(TC)4.95 MB4.95 MB4.95 MB4.95 MB4.95 MB4.95 MB移动LMD(MCI)1.60 MB0032.8 KB32.8 KB32.8 KB页面大小(MC2)1.60 MB0032.8 KB32.8 KB32.8 KB哈希值(MC3)1.60 MB0032.8 KB32.8 KB32.8 KB索引1(MC4)1.60 MB0032.8 KB32.8 KB0千字节产品编号:(MC5)616 KB0010 KB10 KB0千字节删除页面添加页面含量变化传统(TC)4.95 MB4.95 MB4.95 MB4.95 MB4.95 MB4.95 MB移动LMD(MCI)1.60 MB00简体中文简体中文简体中文页面大小(MC2)1.60 MB00简体中文简体中文简体中文哈希值(MC3)1.60 MB00简体中文简体中文简体中文索引1(MC4)1.60 MB00简体中文简体中文0千字节产品编号:(MC5)616 KB0016.1 KB16.1 KB0千字节删除页面添加页面含量变化传统(TC)4.95 MB4.95 MB4.95 MB4.95 MB4.95 MB4.95 MB移动LMD(MCI)1.60 MB0069.3 KB69.3 KB69.3 KB页面大小(MC2)1.60 MB0069.3 KB69.3 KB69.3 KB哈希值(MC3)1.60 MB0069.3 KB69.3 KB69.3 KB索引1(MC4)1.60 MB0069.3 KB69.3 KB0千字节索引(MC5)616 KB0024.6 KB24.6 KB0千字节没有变化重大变化非重大变化删除页面添加页面含量变化传统(TC)4.95 MB4.95 MB4.95 MB 4.95 MB4.95 MB4.95 MB移动LMD(MCI)1.60 MB088.1 KB 88.1 KB88.1 KB1.60 MB页面大小(MC2)1.60 MB088.1 KB 88.1 KB88.1 KB1.60 MB哈希值(MC3)1.60 MB088.1 KB 88.1 KB88.1 KB1.60 MB索引1(MC4)1.60 MB088.1 KB 88.1 KB0千字节1.60 MB索引2(MC5)616 KB032.1 KB 32.1 KB0千字节616 KB使用移动代理35维持搜索引擎新鲜度其中对应的迁移爬行器(分别为MC 1、MC 2和MC 3)传送相同量的数据,该数据为32.8KB,表示十个改变的网页的压缩内容的大小。在没有变化的情况下,使用迁移爬虫,与迁移爬虫相比,网络流量可以大大减少。在页面删除的情况下,迁移爬虫返回到搜索引擎端,并带有包含已删除页面名称的ACL消息,以便管理器代理在创建文档索引或倒排索引时可以丢弃与Web内容的大小相比,此ACL消息的大小可以忽略不计。在重大内容变化的情况下,我们没有观察到MC 1、MC 2、MC 3和MC 4之间的差异(LMD、页面大小、哈希值和基于文档索引1的爬虫);它们传输了32.8 KB,这是压缩的10个HTML页面的大小;在非显著变化的情况下,基于文档索引的爬虫MC4和MC5都优于上述爬虫,因为它们忽略变化并且不通过网络检索任何字节。在页面添加和重大更改的情况下,基于文档索引的爬虫MC5表现最好,因为它只检索更改页面的压缩索引,总大小为10 KB,而它仍然忽略基于索引的爬虫MC4的无意义更改。换句话说,我们可以说基于索引的爬虫MC5过滤了未修改的页面,并向搜索引擎发送了较少的字节数,同时保持索引最新。在最后一个实验中,我们假设只有10个网页在变化。图6显示了当我们增加更改页面的数量时传输的数据量。我们可以看到,基于压缩索引的爬虫在所有的研究情况下都达到了最小的数据传输速率。图6显示了当添加或显著改变不同数量的页面时,不同爬行器类型传输的数据量。我们可以看到,与其他非基于索引的爬虫MC1、MC2、MC3和MC4相比,基于压缩索引的爬虫MC5实现了最小的数据传输速率,在其他非基于索引的爬虫MC1、MC2、MC3和MC4中,它仅传输修改页面的压缩索引。图7显示了当不同数量的页面被无意义地改变时,不同类型的爬虫传输的数据量。我们可以看到,基于索引的移动爬虫MC4和MC5都实现了网络上的零数据传输速率,而其他爬虫采用其他图6当添加或显著更改不同数量的页面时,通过网络传输的字节数。图7当不同数量的页面被轻微改变时,通过网络传输的字节数。现有技术的改变检测技术不区分显著和不显著的页面改变。7. 结论本文描述了一种基于文档索引的网页变化检测技术,并使用移动代理的分布式索引,以保持搜索引擎的索引是最新的图像到所有的网页和其他Web资源托管在Web服务器上。所提出的变化检测技术超越了其他研究的变化检测技术,如最后修改日期,页面大小和哈希值。它考虑了在搜索中有效反映的重要网页更改表550个HTML页面变化时,不同抓取周期下传统爬虫与不同类型移动爬虫的比较更改检测技术初始抓取周期进一步抓取周期(50页)无变化重大变化非重大变化●●●●删除页面添加页面含量变化传统(TC)4.95 MB4.95 MB4.95 MB4.95 MB4.95 MB4.95 MB移动LMD(MCI)1.60 MB00110 KB110 KB110 KB页面大小(MC2)1.60 MB00110 KB110 KB110 KB哈希值(MC3)1.60 MB00110 KB110 KB110 KB索引1(MC4)1.60 MB00110 KB110 KB0千字节索引(MC5)616 KB0041 KB41 KB0千字节36米。Badawi等人引擎当然,这些细微的变化会导致网络过载,浪费搜索引擎和Web服务器的资源此外,所提出的分布式索引方法通过将数据索引分布在Web服务器上,超越了当前Web索引系统的集中式方法。特别是,使用移动代理,我们能够执行远程操作,如数据分析,数据索引和数据压缩数据源之前,数据通过网络传输。建立了一个虚拟环境进行实验。实验表明,DWCIS已经过滤掉了自上次抓取以来没有显著修改的页面结果表明,DWCIS在创建文档索引和压缩后,减少了网络流量。研究还发现,与集中式传统爬行(TC)和其他移动爬行技术相比,DWCIS减少了搜索引擎方面的计算负荷,因为没有显著修改的页面不会被检索,而显著修改的页面只会检索其文档索引引用[1] Sharma AK,Diplomat A.基于刷新时间自调整的增量式网络爬虫架构。Int J Comput Sci Network Secur(IJCSNS)2008;8(12):349[2] 作者声明:A.使用并行迁移网络爬虫进行更快、更有效的网络爬行。Int J Comput Sci(IJCSI)2010;7(3):28 11]。[3] Artail H,Abi-Aad M.一种基于相似度计算的网页变化检测方法。J Intell Inform Syst(JIIS)2009;32(1):1[4] Yuan X,Harms J.一个有效的计划,以消除网络爬虫流量。第11届计算机通信和网络国际会议论文集,2002年。第90- 95页。[5] 卡斯蒂略角网络服务器和网络搜索引擎之间的协作方案。拉丁美洲万维网会议论文集(LA-WEB)IEEE; 2003。第212-213页。[6] Bal S,Nath R.提出了一种基于过滤非修改页面以减少网络负载的新型移动爬虫系统。 Int Arab J Inform Technol 2011;8(1):272[7] 李伟杰,李伟杰,李伟杰. Crawlets:高性能网络搜索引擎代理。在:第五届IEEE移动代理会议论文集p. 119比34[8] Papapetrou O,Samaras G.分布式网络爬行中网络距离的最小化 。 2004 年 , 第 九 届 IFCIS 合 作 信 息 系 统 国 际 会 议(CoopIS)。第581- 596页。[9] 放大图片作者:Cho J,Garcia-Molina H.并行爬虫。2002年,第 11 届 万 维 网 国 际 会 议 论 文 集 ( Proceedings of the 11thInternational Conference on World Wide Web WWW)。p. 124比35[10] Fiedler J,Hammer J,有效地使用网络:移动爬行。1999年第十七届计算机科学管理p. 324-9[11] Fiedler J,Hammer J.使用移动爬虫有效地搜索网络。Int JComput Inform Sci 2000;1:36[12] 杨伟华,王伟华,王伟华.网络爬虫友好的服务器。In:Proceedings of the workshop on performance and architecture ofweb servers; 2000.p. 9比14[13] Yadav D,Sharma AK,Gupta JP.使用加权锚文本和网页变化检测技术的主题网页抓取。J WSEAS Trans Inform Sci Appl Arch2009;6(2):263[14] Khandagale HP,Halkarnikar PP.网页变更侦测系统之新方法。Int J Comput Theory Eng 2010;2(3):1793-8201.[15] Artail H,Abi-Aad M.一种基于相似度计算的网页变化检测方法。J Intell Information Syst(JIIS)2009;32:1[16] Nath R,Bal S,Singh M.网站和其他资源的负载减少技术:比 较 研 究 和 未 来 的 研 究 方 向 。 Int J Adv Res Comput Eng(IJARCE)2007:39-49.[17] Pahal N,Kumar S,Bhardwaj A,Chauhan N.文章:基于移动代 理 的 爬 虫 安 全 性 。 Int J Comput Appl ( IJCA ) 2010;1(14):5-11.[18] Bal S,Nath R.一种新颖的方法,在远程站点上过滤未修改的页面,而无需在抓取过程中下载。在:关于通信和计算最新技术进展的国际会议; 2009年。p. 165比8[19] Singhal N,Agarwal RP,Diploma A,Sharma AK.网络信息检索及迁移爬虫的应用。在:计算智能和通信系统国际会议论文集; 2011年。p. 480-3[20] Duhan N,Sharma AK.在搜索引擎的抓取和索引过程中利用使用趋势的框架。Int J Knowledge Web Intell 2011;2(4):272[21] 杨文,王文,等.一种基于智能移动代理的可扩展网络管理体系结构.北京:清华大学出版社,2001. Int J Comput NetworksCommun(IJCNC)2012;4(1).[22] 平克顿湾寻找人们想要的:网络爬虫的经验。第二届国际WWW会议,芝加哥,美国,1994年10月17日[23] 放大图片作者:Cho J,Garcia-Molina H.网络的演变和对增量爬虫的影响。2000年,第26届超大型数据库国际会议论文集VLDB。p. 200-9[24] Sharma S,Sharma AK,Gupta JP.一种新的并行网络爬虫架构。Int J Comput Appl 2011;4(1):2011.[25] Yadav D,Sharma AK,Gupta JP.并行爬虫架构与网页变更侦测 。 J World Sci Eng Acad Soc ( WSEAS ) Trans Comput2008;7(7):929[26] Sharma AK,Gupta JP,Agarwal DP. Parcahyd:一种基于扩充超文本文档的并行爬虫架构。Int J Adv Technol 2010;1(2).[27] 放大图片作者:Cho J,Garcia-Molina H.估计变化的频率。ComputJ ACM Trans Internet Technol 2003;3(3):256[28] Sharma DK Sharma AK搜索引擎:信通技术情景中信息提取的骨干。Int J Inform Commun Technol Human Develop2011;3(2):38[29] Agarwal A,Singh D,Pandey AK,Goel V.并行迁移网络爬虫的设计。Int J Adv Res Comput Sci Softw Eng(IJARCSSE)2012;2(2).[30] Aridor Y,Lange B.代理设计模式:代理应用程序设计的元素。载于:第二届自主代理人国际会议论文集; 1998年。p.108比15[31] Jun Su C,Ying Wu C. JADE实现了基于移动多代理的分布式信息平台,用于普适医疗监控。J Appl Soft Comput 2011;11(1):315[32] JADE的主页是http://www.jade.tilab.com/>。[33] Terrier的主页是http://www.terrier.org/>。[34] GoogleSitemapGenerator 的 主 页 .
下载后可阅读完整内容,剩余1页未读,立即下载
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)