深度解析：DeepWeb爬虫技术与挑战

需积分: 14 37 浏览量更新于2024-11-13 收藏 232KB PDF 举报

"这篇综述文章详细探讨了深层网络爬虫的研究，旨在深入了解占网络资源80%的DeepWeb信息检索。文章介绍了DeepWeb的概念，网络爬虫的作用，以及DeepWeb爬虫的重要性和研究目标。此外，还概述了国内外在DeepWeb爬虫领域的研究进展，并分析了相关挑战和未来趋势，为后续研究提供了基础。" 深层网络（DeepWeb）是指那些通过常规搜索引擎难以发现的、隐藏在数据库背后的网络内容。这部分网络不以静态网页的形式存在，而是通过用户交互或特定查询触发动态网页来提供信息。由于DeepWeb包含的海量信息远超过表面网络（SurfaceWeb），因此研究DeepWeb爬虫对于提升搜索引擎的覆盖范围和搜索准确性具有重大意义。网络爬虫是一种自动抓取网页的程序，通常用于搜索引擎的数据更新和索引构建。在DeepWeb爬虫领域，主要研究目标是如何有效地发现、解析和抓取这些动态网页中的信息，同时解决诸如网页动态生成、身份验证、隐私保护、爬虫跟踪等问题。文章指出，DeepWeb爬虫需要具备处理动态URL、理解数据库查询语句、模拟用户交互以及避免被目标网站检测和阻止的能力。近年来，国内外研究者在DeepWeb爬虫技术上取得了一定进展。他们探索了多种方法来识别和访问DeepWeb资源，包括但不限于基于模式匹配的策略、元数据利用、网页结构分析以及机器学习算法的应用。然而，DeepWeb的复杂性和动态性仍然是当前研究的难点，如动态网页的多样性、网站的反爬虫机制、数据的隐私保护等。未来的研究趋势可能集中在以下几个方向：一是开发更智能的爬虫算法，以适应复杂的动态网页结构；二是优化爬虫性能，提高抓取效率；三是研究如何在尊重隐私和合法性的前提下进行数据采集；四是探索深度学习等先进技术在DeepWeb爬虫中的应用，以提升信息提取的准确性和智能性。 "深层网络爬虫研究综述"这篇文章为读者提供了全面了解DeepWeb爬虫及其研究现状的视角，同时也为该领域的进一步研究提供了有价值的参考和启示。

计算机系统应用　２００８年第５期　

深层网络爬虫研究综述①　

Ｓｕｒｖｅｙ　ｏｎ　ｔｈｅ　Ｒｅｓｅａｒｃｈ　ｏｆ　Ｄｅｅｐ　Ｗｅｂ　Ｃｒａｗｌｅｒ　

曾伟辉李淼　（中国科学院合肥智能机械研究所安徽合肥２３００３１）　

曾伟辉（中国科学技术大学自动化系安徽合肥２３００２７）　

摘　要：随着Ｉｎｔｅｒｎｅｔ的迅速发展，网络资源越来越丰富，人们如何从网络上抽取信息也变得至关重要，尤　

其是占网络资源８０％的Ｄｅｅｐ　Ｗｅｂ信息检索更是人们应该倍加关注的难点问题。为了更好的研　

究Ｄｅｅｐ　Ｗｅｂ爬虫技术，本文对有关Ｄｅｅｐ　Ｗｅｂ爬虫的内容进行了全面、详细地介绍。首先对　

Ｄｅｅｐ　Ｗｅｂ爬虫的定义及研究目标进行了阐述，接着介绍了近年来国内外关于Ｄｅｅｐ　Ｗｅｂ爬虫的　

研究进展，并对其加以分析。在此基础上展望了Ｄｅｅｐ　Ｗｅｂ爬虫的研究趋势，为下一步的研究奠　

定了基础。　

关键词：深层网络网络爬虫信息检索ＵＲＬ动态网页　

１　引言　

随着人们对信息重要性认识的加深，信息获取方　

式也越来越多，作为各种信息的载体，网络蕴含着大量　

的资源，如何快捷的从网络上获取所需信息成为人们　

亟待解决的问题。各种搜索弓ｌ擎应运而生，例如传统　

的通用搜索弓ｌ擎ＡｌｔａＶｉｓｔａ、ｙａｈｏｏｌ、ｇｏｏｇｌｅ等。而这些　

搜索引擎存在着一定的局限性，尤其是它们无法搜索　

到深层网络（Ｄｅｅｐ　Ｗｅｂ）的信息。据ＢｒｉｇｈｔＰｌａｎｅｔ公司　

技术白皮书…，Ｄｅｅｐ　Ｗｅｂ里包含的可访问信息容量是　

一

般的Ｓｕｒｆａｃｅ　Ｗｅｂ的４００—５００倍。可见，研究Ｄｅｅｐ　

Ｗｅｂ爬虫对于提高搜索覆盖率和准确率有着非常重　

要的意义。　

２深层网络爬虫的定义和研究目标　

网络爬虫，又称网络机器人。英文名有Ｓｐｉｄｅｒ、　

Ｃｒａｗｌｅｒ、Ｂｏｔｓ、Ｒｏｂｏｔ、Ｗａｎｄｅｒｅｒ等。它是一个自动提取　

网页的程序，是搜索弓ｌ擎的重要组成部分　。　

互联网网页按存在方式可分为 “表层网 ”（Ｓｕｒｆａｃｅ　

Ｗｅｂ）和 “深层网”（Ｄｅｅｐ　Ｗｅｂ，也有称Ｉｎｖｉｓｉｂｌｅ　Ｗｅｂ，　

ＨｉｄｄｅｎＷｅｂ）　Ｊ。Ｓｕｒｆａｃｅ　Ｗｅｂ指传统网页搜索弓ｌ擎可　

以索弓ｌ的页面，以超链接可以到达的静态网页为主构　

成的Ｗｅｂ页面。Ｄｅｅｐ　Ｗｅｂ是指那些存储在网络数据　

库中，不能通过超链接访问而通过动态网页技术访问　

的资源集合。它最初由Ｄｒ．Ｊｉ¨ＥＩＩｓｗｏｒｔｈ于１９９４年提　

出，定义为那些由普通搜索弓ｌ擎难以发现其信息内容　

的Ｗｅｂ页面　ｊ。　

Ｃｈｒｉｓｔ　Ｓｈｅｒｍａｎ等人…对Ｄｅｅｐ　Ｗｅｂ定义为：虽然　

通过互联网可获取，但是普通搜索弓ｌ擎受技术限制不　

能或不作索弓ｌ的那些文本页、文件或其它高质量的、权　

威的信息。　

文献　对Ｄｅｅｐ　Ｗｅｂ定义为：那些大部分内容是　

不能通过静态链接获取的，特别是大部分隐藏在搜索　

表单后的，只有用户键入一系列关键词才可获得的　

页面。　

广义上来说，Ｄｅｅｐ　Ｗｅｂ包含四个方面　：（１）通过　

填写表单形成对后台再现数据库查询得到的动态页　

面。（２）由于缺乏被指向的超链接而没有被索引到的　

页面。（３）需要注册或其他限制访问的页面。（４）可　

① 基金项目：中科院知识创新工程重要方向项目（ＫＧＣＸ２一ＳＷ～５１１）　

１２２专论 ·综述Ｓｐｅｃｉａｌ　Ｉｓｓｕｅ　

维普资讯 http://www.cqvip.com

下载后可阅读完整内容，剩余4页未读，立即下载

jiajiaok

粉丝: 1
资源: 7

深度解析：DeepWeb爬虫技术与挑战

DeepWebCrawler:深网爬虫研究工作的实施

网络爬虫分析及主题式网络爬虫研究综述

主题网络爬虫研究综述

国内外网络爬虫研究现状

Python网络爬虫研究意义

Python网络爬虫研究背景

python网络爬虫国外研究

网络爬虫国内外研究现状

网络爬虫Java研究背景

网络爬虫国外的研究现状并举例

最新资源