揭秘搜索引擎工作原理与技术系统详解

需积分: 0 20 浏览量更新于2024-06-30 收藏 3.71MB PDF 举报

《搜索引擎原理、技术与系统》是由李晓明、闫宏飞和王继民三位作者共同编著的一本科学出版社出版的专业书籍，于2004年发行。本书主要聚焦于互联网搜索引擎的核心领域，系统地讲解了搜索引擎的工作原理、实现技术和系统构建方案。全书分为上、中、下三篇，共计13章，内容涵盖了搜索引擎的基础概述、小型简单搜索引擎的实现细节、大规模分布式搜索引擎系统的设计要点以及关键技术，直至深入探讨主题和个性化Web信息服务，如中文网页的自动分类技术及其实际应用。在搜索引擎的介绍部分，作者从基本工作原理入手，让读者理解搜索引擎如何抓取网页、索引信息并根据用户的查询提供相关的搜索结果。随着互联网信息量的爆炸性增长，搜索引擎成为了人们获取信息的重要途径，包括直接输入网址、浏览门户网站的分类目录和使用搜索引擎进行关键词搜索。本书的特点在于理论与实践相结合，既有深入的理论分析，如搜索引擎算法、信息检索模型等，又有丰富的实验数据和实例，使得学习者既能理解理论知识，又能掌握实际操作技能。因此，它不仅适合计算机科学与技术、信息管理与信息系统、电子商务等专业的研究生和高年级本科生作为教材使用，也为网络技术研究人员、Web站点管理者、数字图书馆工作人员以及Web挖掘领域的开发者提供了宝贵的参考资料。对于那些希望提升搜索引擎优化策略、设计高效搜索引擎系统或利用Web挖掘技术的人来说，这本书无疑是一份不可多得的指南。《搜索引擎原理、技术与系统》是一本既全面又实用的书籍，对于理解和应用现代搜索引擎技术具有重要的指导意义。

第一章引论

略的方面。

作为对搜索引擎工作原理的基本了解，这里有两个问题需要首先澄清。第一，

当用户提交查询的时候，搜索引擎并不是即刻在 Web 上“搜索”一通，发现那些

相关的网页，形成列表呈现给用户；而是事先已“搜集”了一批网页，以某种方

式存放在系统中，此时的搜索只是在系统内部进行而已。第二，当用户感到返回

图 1-1 2003 年 8 月 20 日在天网上检索“伊拉克战争”的结果

结果列表中的某一项很可能是他需要的，从而点击 URL，获得网页全文的时候，

他此时访问的则是网页的原始出处。于是，从理论上讲搜索引擎并不保证用户在

返回结果列表上看到的标题和摘要内容与他点击 URL 所看到的内容一致（上面

那个“伊拉克战争”的例子就是如此！），甚至不保证那个网页还存在。这也是搜

索引擎和传统信息检索系统的一个重要区别。这种区别源于前述 Web 信息的基本

特征。为了弥补这个差别，现代搜索引擎都保存网页搜集过程中得到的网页全文，

并在返回结果列表中提供“网页快照”或“历史网页”链接，保证让用户能看到

和摘要信息一致的内容。

第二节搜索引擎的发展历史

早在 Web 出现之前，互联网上就已经存在许多旨在让人们共享的信息资源

• 3 •

第一章引论

了。那些资源当时主要存在于各种允许匿名访问的 FTP 站点（anonymous ftp），

内容以学术技术报告、研究性软件居多，它们以计算机文件的形式存在，文字材

料的编码通常是 PostScript 或者纯文本（那时还没有 HTML）。

为了便于人们在分散的 FTP 资源中找到所需的东西，1990 年加拿大麦吉尔大

学（University of McGill）计算机学院的师生开发了一个软件，Archie。它通过定

期搜集并分析 FTP 系统中存在的文件名信息，提供查找分布在各个 FTP 主机中文

件的服务。Archie 能在只知道文件名的前提下，为用户找到这个文件所在的 FTP

服务器的地址。Archie 实际上是一个大型的数据库，再加上与这个大型数据库相

关联的一套检索方法。该数据库中包括大量可通过 FTP 下载的文件资源的有关信

息，包括这些资源的文件名、文件长度、存放该文件的计算机名及目录名等。尽

管所提供服务的信息资源对象（非 HTML 文件）和本书所讨论搜索引擎的信息资

源对象（HTML 网页）不一样，但基本工作方式是相同的（自动搜集分布在广域

网上的信息，建立索引，提供检索服务），因此人们公认 Archie 为现代搜索引擎

的鼻祖。

值得一提的是，即使是在 10 多年后的今天，以 FTP 文件为对象的信息检索

服务技术依然在发展，尤其是在用户使用界面上充分采用了 Web 风格。北大天网

文件检索系统就是一个例子（见 http://bingle.pku.edu.cn）。不过鉴于本书写作定位

的关系，后面将主要讨论网页搜索引擎的相关问题。

以 Web 网页为对象的搜索引擎和以 FTP 文件为对象的检索系统一个基本的

不同点在于搜集信息的过程。前者是利用 HTML 文档之间的链接关系，在 Web

上一个网页、一个网页的“爬取”（crawl），将那些网页“抓”（fetch）到本地后

进行分析；后者则是根据已有的关于 FTP 站点地址的知识（例如得到了一个站点

地址列表），对那些站点进行访问，获得其文件目录信息，并不真正将那些文件下

载到系统上来。因此，如何在 Web 上“爬取”，就是搜索引擎要解决的一个基本

问题。在这方面，1993 年 Matthew Gray 开发了 World Wide Web Wanderer，它是

世界上第一个利用 HTML 网页之间的链接关系来监测

Web 发展规模的“机器人”

（robot）程序。刚开始时它只用来统计互联网上的服务器数量，后来则发展为能

够通过它检索网站域名。鉴于其在 Web 上沿超链“爬行”的工作方式，这种程序

有时也称为“蜘蛛”（spider）。因此，在文献中 crawler, spider, robot 一般都指的是

相同的事物，即在 Web 上依照网页之间的超链关系一个个抓取网页的程序，通常

也称为“搜集”。在搜索引擎系统中，也称为网页搜集子系统。

现代搜索引擎的思路源于 Wanderer，不少人在 Matthew Grey 工作的基础上对

它的蜘蛛程序做了改进。1994 年 7 月，Michael Mauldin 将 John Leavitt 的蜘蛛程

序接入到其索引程序中，创建了大家现在熟知的 Lycos，成为第一个现代意义的

搜索引擎。在那之后，随着 Web 上信息的爆炸性增长，搜索引擎的应用价值也越

来越高，不断有更新、更强的搜索引擎系统推出（下一节会有介绍）。这其中，特

• 4 •

第一章引论

（http://www.sohu.com）。在许多场合，也称 Yah oo !之类的门户网站提供的信息查

找功能为搜索引擎。但从技术上讲，这样的门户中提供的搜索服务和前述搜索引

擎是很不同的。这样的门户依赖的是人工整理的网站分类目录，一方面，用户可

以直接沿着目录导航，定位到他所关心的信息；另一方面，用户也可以提交查询

词，让系统将他直接引导到和该查询词最匹配的网站。图 1-2 就是我们在搜狐上

查询“伊拉克战争”的结果。和图 1-1 相比，不难看到其风格是很不相同的。在

需要区别的场合，我们可以分别称“自动搜索引擎”和“目录搜索引擎”，或者“网

页搜索引擎”和“网站搜索引擎”。一般来讲，前者的信息搜索会更全面些，后者

则会准确些。在没有特殊说明的情况下，本书中所讨论的“搜索引擎”不包括 Yah oo!

和搜狐这样的搜索方式。

随着网上信息越来越多，单纯靠人工整理网站目录取得较高精度查询结果的

优势逐渐退化——对海量的信息进行高质量的人工分类已经不太现实。目前有两

个发展方向。一是利用文本自动分类技术，在搜索引擎上提供对每篇网页的自动

分类，这方面最先看到的例子是 Google 的“网页分类”选项，但它分类的对象只

是英文网页。在中文方面，文本自动分类的研究工作有很多，但我们知道的第一

个在网上提供较大规模网页自动分类服务的是北大网络实验室冯是聪和龚笔宏等

人的工作[冯是聪,2003]，他们于 2002 年 10 月在天网搜索上挂接了一个 300 万网

页的分类目录。另一个发展方向是将自动网页爬取和一定的人工分类目录相结合，

希望形成一个既有高信息覆盖率，也有高查询准确性的服务。

互联网上信息量在不断增加，信息的种类也在不断增加。例如除了我们前面

提到的网页和文件，还有新闻组，论坛，专业数据库等。同时上网的人数也在不

断增加，网民的成分也在发生变化。一个搜索引擎要覆盖所有的网上信息查找需

求已出现困难，因此各种主题搜索引擎，个性化搜索引擎，问答式搜索引擎等纷

纷兴起。这些搜索引擎虽然还没有实现如通用搜索引擎那样的大规模应用，但随

着互联网的发展，我们相信它们的生命力会越来越旺盛。另外，即使通用搜索引

擎的运行现在也开始出现分工协作，有了专业的搜索引擎技术和搜索数据库服务

提供商。例如美国的 Inktomi，它本身并不是直接面向用户的搜索引擎，但向包括

Overture（原 GoTo）、 LookSmart、MSN、HotBot 等在内的其他搜索引擎提供全文

网页搜集服务。从这个意义上说，它是搜索引擎数据的来源。

搜索引擎出现虽然只有 10 年左右的历史，但在Web上已经有了确定不移的地

位。据CNNIC统计，它已经成为继电子邮件之后的第二大Web应用。虽然它的基

本工作原理已经相当稳定，但在其质量、性能和服务方式等方面的提高空间依然

很大，研究成果层出不穷，是每年WWW学术年会

的重要论题之一。

International WWW Conference Committee, 网址 http://www.iw3c2.org.

• 6 •

剩余278页未读，继续阅读

忧伤的石一

粉丝: 31
资源: 332

揭秘搜索引擎工作原理与技术系统详解

WOA-BPNN代码matlab

给我10篇有关人脸识别门禁系统的文献

电工电子实训教程电子版

利用jieba库，将字符串“李晓明是计科系主任也是云计算方面的专家”分解为“李晓明/是/计科系主任/也/是/云计算方面/的/专家“

fpga入门书籍推荐

matlab电路仿真书籍

写一遍1000字竞岗文

列举几篇飞机勤务地井升降箱体限位锁紧装置国内研究文献

基于单片机的声控LED灯的工艺实训的参考文献

字典的深拷贝与浅拷贝

最新资源