没有合适的资源?快使用搜索试试~ 我知道了~
首页揭秘搜索引擎工作原理与技术系统详解
揭秘搜索引擎工作原理与技术系统详解
需积分: 0 0 下载量 143 浏览量
更新于2024-06-30
收藏 3.71MB PDF 举报
《搜索引擎原理、技术与系统》是由李晓明、闫宏飞和王继民三位作者共同编著的一本科学出版社出版的专业书籍,于2004年发行。本书主要聚焦于互联网搜索引擎的核心领域,系统地讲解了搜索引擎的工作原理、实现技术和系统构建方案。全书分为上、中、下三篇,共计13章,内容涵盖了搜索引擎的基础概述、小型简单搜索引擎的实现细节、大规模分布式搜索引擎系统的设计要点以及关键技术,直至深入探讨主题和个性化Web信息服务,如中文网页的自动分类技术及其实际应用。 在搜索引擎的介绍部分,作者从基本工作原理入手,让读者理解搜索引擎如何抓取网页、索引信息并根据用户的查询提供相关的搜索结果。随着互联网信息量的爆炸性增长,搜索引擎成为了人们获取信息的重要途径,包括直接输入网址、浏览门户网站的分类目录和使用搜索引擎进行关键词搜索。 本书的特点在于理论与实践相结合,既有深入的理论分析,如搜索引擎算法、信息检索模型等,又有丰富的实验数据和实例,使得学习者既能理解理论知识,又能掌握实际操作技能。因此,它不仅适合计算机科学与技术、信息管理与信息系统、电子商务等专业的研究生和高年级本科生作为教材使用,也为网络技术研究人员、Web站点管理者、数字图书馆工作人员以及Web挖掘领域的开发者提供了宝贵的参考资料。 对于那些希望提升搜索引擎优化策略、设计高效搜索引擎系统或利用Web挖掘技术的人来说,这本书无疑是一份不可多得的指南。《搜索引擎原理、技术与系统》是一本既全面又实用的书籍,对于理解和应用现代搜索引擎技术具有重要的指导意义。
资源详情
资源推荐
第一章 引论
略的方面。
作为对搜索引擎工作原理的基本了解,这里有两个问题需要首先澄清。第一,
当用户提交查询的时候,搜索引擎并不是即刻在 Web 上“搜索”一通,发现那些
相关的网页,形成列表呈现给用户;而是事先已“搜集”了一批网页,以某种方
式存放在系统中,此时的搜索只是在系统内部进行而已。第二,当用户感到返回
图 1-1 2003 年 8 月 20 日在天网上检索“伊拉克战争”的结果
结果列表中的某一项很可能是他需要的,从而点击 URL,获得网页全文的时候,
他此时访问的则是网页的原始出处。于是,从理论上讲搜索引擎并不保证用户在
返回结果列表上看到的标题和摘要内容与他点击 URL 所看到的内容一致(上面
那个“伊拉克战争”的例子就是如此!),甚至不保证那个网页还存在。这也是搜
索引擎和传统信息检索系统的一个重要区别。这种区别源于前述 Web 信息的基本
特征。为了弥补这个差别,现代搜索引擎都保存网页搜集过程中得到的网页全文,
并在返回结果列表中提供“网页快照”或“历史网页”链接,保证让用户能看到
和摘要信息一致的内容。
第二节 搜索引擎的发展历史
早在 Web 出现之前,互联网上就已经存在许多旨在让人们共享的信息资源
• 3 •
第一章 引论
了。那些资源当时主要存在于各种允许匿名访问的 FTP 站点(anonymous ftp),
内容以学术技术报告、研究性软件居多,它们以计算机文件的形式存在,文字材
料的编码通常是 PostScript 或者纯文本(那时还没有 HTML)。
为了便于人们在分散的 FTP 资源中找到所需的东西,1990 年加拿大麦吉尔大
学(University of McGill)计算机学院的师生开发了一个软件,Archie。它通过定
期搜集并分析 FTP 系统中存在的文件名信息,提供查找分布在各个 FTP 主机中文
件的服务。Archie 能在只知道文件名的前提下,为用户找到这个文件所在的 FTP
服务器的地址。Archie 实际上是一个大型的数据库,再加上与这个大型数据库相
关联的一套检索方法。该数据库中包括大量可通过 FTP 下载的文件资源的有关信
息,包括这些资源的文件名、文件长度、存放该文件的计算机名及目录名等。尽
管所提供服务的信息资源对象(非 HTML 文件)和本书所讨论搜索引擎的信息资
源对象(HTML 网页)不一样,但基本工作方式是相同的(自动搜集分布在广域
网上的信息,建立索引,提供检索服务),因此人们公认 Archie 为现代搜索引擎
的鼻祖。
值得一提的是,即使是在 10 多年后的今天,以 FTP 文件为对象的信息检索
服务技术依然在发展,尤其是在用户使用界面上充分采用了 Web 风格。北大天网
文件检索系统就是一个例子(见 http://bingle.pku.edu.cn)。不 过 鉴 于 本 书 写 作 定 位
的关系,后面将主要讨论网页搜索引擎的相关问题。
以 Web 网页为对象的搜索引擎和以 FTP 文件为对象的检索系统一个基本的
不同点在于搜集信息的过程。前者是利用 HTML 文档之间的链接关系,在 Web
上一个网页、一个网页的“爬取”(crawl),将那些网页“抓”(fetch)到本地后
进行分析;后者则是根据已有的关于 FTP 站点地址的知识(例如得到了一个站点
地址列表),对那些站点进行访问,获得其文件目录信息,并不真正将那些文件下
载到系统上来。因此,如何在 Web 上“爬取”,就是搜索引擎要解决的一个基本
问题。在这方面,1993 年 Matthew Gray 开发了 World Wide Web Wanderer,它是
世界上第一个利用 HTML 网页之间的链接关系来监测
Web 发展规模的“机器人”
(robot)程序。刚开始时它只用来统计互联网上的服务器数量,后来则发展为能
够通过它检索网站域名。鉴于其在 Web 上沿超链“爬行”的工作方式,这种程序
有时也称为“蜘蛛”(spider)。因此,在文献中 crawler, spider, robot 一般都指的是
相同的事物,即在 Web 上依照网页之间的超链关系一个个抓取网页的程序,通常
也称为“搜集”。在搜索引擎系统中,也称为网页搜集子系统。
现代搜索引擎的思路源于 Wanderer,不少人在 Matthew Grey 工作的基础上对
它的蜘蛛程序做了改进。1994 年 7 月,Michael Mauldin 将 John Leavitt 的蜘蛛程
序接入到其索引程序中,创建了大家现在熟知的 Lycos,成为第一个现代意义的
搜索引擎。在那之后,随着 Web 上信息的爆炸性增长,搜索引擎的应用价值也越
来越高,不断有更新、更强的搜索引擎系统推出(下一节会有介绍)。这其中,特
• 4 •
第一章 引论
别引人注目的是 Google(http://www.google.com),虽然 是个姗 姗来 迟 者(1998 年
才推出),但由于其采用了独特的 PageRank 技术,使它很快后来居上,成为当前
全球最受欢迎的搜索引擎(作者 2003 年初访问印度,就听到总统阿卜杜勒·卡
拉姆讲他经常用 Google 在网上查找信息!)。
图 1-2 2003 年 8 月 20 日在搜狐上检索“伊拉克战争”的结果
在中国,据我们所知,对搜索引擎的研究起源于“中国教育科研网”(CERNET)
一期工程中的子项目,北京大学计算机系的项目组在陈葆珏教授的主持下于 1997
年 10 月在 CERNET 上推出了天网搜索 1.0 版本。该系统在这几年里不断发展,
目前已成为中国最大的公益性搜索引擎(http://e.pku.edu.cn)。在这之后,几位在
美国留学的华人学者回国创业,成立了百度公司,于 2000 年推出了“百度”商业
搜索引擎(http://www.baidu.com),并 一 直 处于 国 内搜 索 引擎 的 领 先地 位 。我 们看
到慧聪公司也在中国推出了一个大规模搜索引擎(http://www.zhongsou.com),用
起来感觉也不错,但往后发展如何,还有待时间的考验。
当我们谈及搜索引擎的时候,不应该忽略另外一个几乎是同期发展出来的事
物:基于目录的信息服务网站。1994 年 4 月,斯坦福(Stanford)大学的两名博
士生,David Filo 和杨致远(Gerry Yang)共同创办了 Ya ho o! 门户网站,并成功地
使网络信息搜索的概念深入人心。1996 年中国出现了类似的网站,“搜狐”,
• 5 •
第一章 引论
(http://www.sohu.com)。在 许 多 场 合 ,也 称 Yah oo !之类的门户网站提供的信息查
找功能为搜索引擎。但从技术上讲,这样的门户中提供的搜索服务和前述搜索引
擎是很不同的。这样的门户依赖的是人工整理的网站分类目录,一方面,用户可
以直接沿着目录导航,定位到他所关心的信息;另一方面,用户也可以提交查询
词,让系统将他直接引导到和该查询词最匹配的网站。图 1-2 就是我们在搜狐上
查询“伊拉克战争”的结果。和图 1-1 相比,不难看到其风格是很不相同的。在
需要区别的场合,我们可以分别称“自动搜索引擎”和“目录搜索引擎”,或者“网
页搜索引擎”和“网站搜索引擎”。一般来讲,前者的信息搜索会更全面些,后者
则会准确些。在没有特殊说明的情况下,本书中所讨论的“搜索引擎”不包括 Yah oo!
和搜狐这样的搜索方式。
随着网上信息越来越多,单纯靠人工整理网站目录取得较高精度查询结果的
优势逐渐退化——对海量的信息进行高质量的人工分类已经不太现实。目前有两
个发展方向。一是利用文本自动分类技术,在搜索引擎上提供对每篇网页的自动
分类,这方面最先看到的例子是 Google 的“网页分类”选项,但它分类的对象只
是英文网页。在中文方面,文本自动分类的研究工作有很多,但我们知道的第一
个在网上提供较大规模网页自动分类服务的是北大网络实验室冯是聪和龚笔宏等
人的工作[冯是聪,2003],他们于 2002 年 10 月在天网搜索上挂接了一个 300 万网
页的分类目录。另一个发展方向是将自动网页爬取和一定的人工分类目录相结合,
希望形成一个既有高信息覆盖率,也有高查询准确性的服务。
互联网上信息量在不断增加,信息的种类也在不断增加。例如除了我们前面
提到的网页和文件,还有新闻组,论坛,专业数据库等。同时上网的人数也在不
断增加,网民的成分也在发生变化。一个搜索引擎要覆盖所有的网上信息查找需
求已出现困难,因此各种主题搜索引擎,个性化搜索引擎,问答式搜索引擎等纷
纷兴起。这些搜索引擎虽然还没有实现如通用搜索引擎那样的大规模应用,但随
着互联网的发展,我们相信它们的生命力会越来越旺盛。另外,即使通用搜索引
擎的运行现在也开始出现分工协作,有了专业的搜索引擎技术和搜索数据库服务
提供商。例如美国的 Inktomi,它本 身 并 不 是 直 接 面 向 用 户 的 搜 索 引 擎 ,但 向 包 括
Overture(原 GoTo)、 LookSmart、MSN、HotBot 等在内的其他搜索引擎提供全文
网页搜集服务。从这个意义上说,它是搜索引擎数据的来源。
搜索引擎出现虽然只有 10 年左右的历史,但在Web上已经有了确定不移的地
位。据CNNIC统计,它已经成为继电子邮件之后的第二大Web应用。虽然它的基
本工作原理已经相当稳定,但在其质量、性能和服务方式等方面的提高空间依然
很大,研究成果层出不穷,是每年WWW学术年会
1
的重要论题之一。
1
International WWW Conference Committee, 网址 http://www.iw3c2.org.
• 6 •
第一章 引论
第三节 一些著名的搜索引擎
为了让感兴趣的读者有目的的试一试,我们整理了一些当前主流的搜索引
擎,包括网址,首页面图片及其介绍。在这些搜索引擎中,排在最前面的几个搜
索引擎提供多语言的支持,可以满足不同母语读者的需求。
主流搜索引擎的选定参考了[Sullivan,2004],主流搜 索引 擎是指 非常 有名 ,或
者被广泛使用的搜索引擎。为使读者有感性认识特别加入了每个网站的相关页面。
Google, http://www.google.com
四次荣获Searchenginewatch[Searchenginewatch,2004]读者选举出的“最杰出搜
索引擎”称号的Google作为在网络上搜索页面的首选是无愧于这个称号的。它基
于搜集器
2
的服务既保证了能够覆盖广泛的网页,同时在查询效果上也表现得极其
优秀。
为了方便的检索到所需网页,Google 提供几种可供选择的方法。利用 Google
首页搜索框上面的标签,可以容易的检索网络上的网页,图像,网上论坛,新闻
和 Open Directory 提供的经过人工整理后的网页目录。
Google 还因为提供许多其它特性而闻名,例如网页快照,保证您在存有网页
的服务器暂时出现故障时仍可浏览该网页的内容,或者可以浏览到不是最新版的
该网页的内容;拼写检查,如果您查询词包含错误的拼写,它会提示正确的查询
2
自动搜索引擎的搜集子系统
• 7 •
剩余278页未读,继续阅读
忧伤的石一
- 粉丝: 28
- 资源: 332
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 计算机人脸表情动画技术发展综述
- 关系数据库的关键字搜索技术综述:模型、架构与未来趋势
- 迭代自适应逆滤波在语音情感识别中的应用
- 概念知识树在旅游领域智能分析中的应用
- 构建is-a层次与OWL本体集成:理论与算法
- 基于语义元的相似度计算方法研究:改进与有效性验证
- 网格梯度多密度聚类算法:去噪与高效聚类
- 网格服务工作流动态调度算法PGSWA研究
- 突发事件连锁反应网络模型与应急预警分析
- BA网络上的病毒营销与网站推广仿真研究
- 离散HSMM故障预测模型:有效提升系统状态预测
- 煤矿安全评价:信息融合与可拓理论的应用
- 多维度Petri网工作流模型MD_WFN:统一建模与应用研究
- 面向过程追踪的知识安全描述方法
- 基于收益的软件过程资源调度优化策略
- 多核环境下基于数据流Java的Web服务器优化实现提升性能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功