![](https://csdnimg.cn/release/download_crawler_static/87802702/bg6.jpg)
(二)1.2 国内外研究现状
在国外,Salton 提出了向量空间模型,并成功地将该模型运用到 SMART
系统中。Kleiberg 等人提出了 HITS 算法,通过超链接引入了两种网页类型——
权威网页和集中网页。同时,Brin 和 Page 提出了 PageRank 算法,其基本思想
是:一个页面被引用多次,那么这个页面很可能是最重要的,一个页面虽然没
有被引用多次,但是被一个重要的页面引用,那么这个页面也很可能是最重要
的,一个页面的重要性是均匀分布的,传递给它所引用的页面;D Freitag 提
出 Machine lerning for information extraction in Information domains 技术,将机
器 学 习 的 理 论 融 入 信 息 提 取 技 术 中 ; GuPta 等 提 出 DOM-based content
extraction of HTML documents 技术,利用 DOM 树对 HTML 网页分析,进而
得到有效信息;MANASKASEMSAK 等提出 Parallel PageRank Computation on
a gigabit PC cluster 技术,是对 PageRank 并行计算提出的改进;Christos Makris
等提出 Categoryranking for personalized search 算法,在排序算法中加入用户反
馈信息与用户偏好信息;Eiron N 等提 出 Link analysis: Ranking the web frontier
技术,通过对网页的链接结构进行分析,探讨对己有的链接分析算法的改进措
施。
在国内,王春花等提出改进的非平均传递权值 PageRank 算法,把页面的出
度和页面之间的相关度融入 PageRank 算法;段准川等提出基于主题特征和时间
因子的改进 PageRank 算法,将网页权威性权值、网页之间的相关度和时间因子
引入 PageRank 算法。垂直搜索引擎的发展速度非常快,涉及的领域也非常多
[13][14][15]
。Momondo 是国外最具代表性且非常好用的航班搜索引擎之一,可以及
时获取国内所有航班的信息内容;国内最初出现的百度是模仿谷歌而慢慢开发自
己的垂直搜索引擎,但现如今我国的搜索引擎也有了自己的创新,通过书名,作
者名精准查找小说的好书搜索;关于旅游信息提供用户查找的携程网,提供了机
票,酒店等预订,还加入了各种旅游攻略,大大方便了人们出行旅游的需求。
(三)1.3 主要工作内容及章节安排
本文的主要内容如下: