信息检索的发展及其应用
摘要:本文主要介绍了几种检索技术,以及它们在搜索引擎中的应用;比较分析目前几种
搜索引擘的优点和不足之处。
关键字:搜索引擎 搜索技术 信息检索
1.引言
从 60 年代末出现因特网的雏形起,经过 40 年的发展时间,已经成为世界上覆盖面最广,
规模最大、信息资源最丰富的计算机信息网络。越来越多的人习惯在网上发布和获取信息
而人们获取因特网上的信息主要是通过搜素。随着信息量的剧增,人们想在如此多的信息
中寻找自己真正需要的信息,无异于大海捞针,为了能更好地利用因特网上的资源,满足
人们不同的查询需求,网络信息检索技术迅速发展起来。
2.搜索技术
目前的网络信息搜索技术根据技术原理不同主要分为三类:网络信息目录技术、基于
Robot 的搜索技术和 Meta 搜技术。
(1)网络信息目录技术
受传统的图书情报管理方法的影响,网络信息目录技术依靠人工来建立网络信息数据
库。专职编辑或志愿者在浏览某一网站后撰写一段对该站点的描述,形成一个网站的摘要
信息,并根据站点的内容和性质将其划分到一个预先确定的类别中。目录所采用的分类法
有主题分类法、学科分类法、图书分类法和分面组配分类法。
(2)基于 Robot 的搜索技术
基于 Robot 的搜索技术是在网络信息目录技术的基础上发展起来的。但是这是一个质
变的过程,即从人工转到了计算机自动化。通过编写特定的程序来完成索引项的自动维护
更新工作,而不是手工收集和创建索引。这样的程序人们往往称之为 Robot,也叫做 Spider
或 Crawler,能够沿着链接漫游 Web 文档集合的程序。Robot 通过给定的一些 URL,它能网
页上有价值的文本信息并能够利用像 HTTP 这样的标准协议读取相应文档,然后以文档中
包括的所有新的 URL 作为新的起点,继续进行漫游,直到没有满足条件的新 URL 为止。
在抓取网页的时候,Robot 一般有两种策略:广度优先和深度优先。广度优先是指 Robot 会
先抓取起始网页中链所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链
接的所有网页。这是最常用的方式,因为这个方法可以让 Robot 并行处理,提高其抓取速
度。深度优先是指 Robot 会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路
之后再转入下一个起始页,继续跟踪链接。
(3)Meta 搜索技术
Meta 搜索技术也称为元搜索技术。所谓元搜索,是指在搜索之上的搜索,它将其它搜
索引擎通过 Robot 搜索技索到的信息进行一个融合,在接收到成员搜索引擎的返回结果后,
很重要的一个技术就是如何枪索结果融合到一起。现在人们已经提出了多种结果融合算法
有四种比较典型的融合算法:间隔排列合成法如果只有文档的原始顺序是已知的,则可以
采用间隔排列合成法:首先把每个查询结果中的第 1 项交叉列出,然后再把各个查询结果
中的第 2 项交叉列出,依此类推。
原始分值合成法
如果可以得到文档的原始相关性分值,那么当这些分值可以直接比较时,则可以采用
原始分值合成法:直接依据每个文档的原始相关性分值决定其合成排列次序。它是一个能
规范分值法如果文档的原始分值不能直接比较,则提取可以通过对倒排文档频率等进行标
化来得到规范的相关性分值,并以之为根据确定文档的合成排列次序。
加权分值法
如果可以得到文档的原始相关性分值,首先计算出各个信息源相应于查询条件的重要