博主
博主博主
博主
章成志的博客
@CityU[2010,March---Now]
加为好友 | 发短消息
用户入口
用户入口用户入口
用户入口
用户名
密 码
注册|忘记密码 登录
登录登录
登录
公告栏
公告栏公告栏
公告栏
Welcome to My Blog.
栏目分类
栏目分类栏目分类
栏目分类
所有文章
91
研究方法 19
文本挖掘 4
信息检索 10
自然语言处理 13
信息组织 2
生活点滴 10
机器学习 3
科学评论 5
同行交流 17
工具箱 8
最新日志
最新日志最新日志
最新日志
[转载]CFP: 20... 04-13
[转载]CFP: 第六... 04-09
图书馆目录2.0: 图... 04-09
[转载]CFP: 第五... 04-08
[转载]CFP: IW... 04-08
[转载]CFP: WI... 04-05
[转载]语料库术语汇编... 03-28
[转载]语种识别工具[... 03-21
[转载]砖石,还是露水... 03-09
新书推荐:情报检索语言... 03-09
最新评论
最新评论最新评论
最新评论
祝贺! 04-22
积极参加学会活动。 04-17
争取今年能去.
...
04-13
正文
正文正文
正文
<< 上一篇 下一篇 >>
学者章成志 发表于2008-2-20 8:53:41
查看评论:0 │ 浏览:1867 打印
推荐给朋友
信息检索
信息检索信息检索
信息检索
信息检索系统的相关词提示技术与评测
信息检索系统的相关词提示技术与评测信息检索系统的相关词提示技术与评测
信息检索系统的相关词提示技术与评测
章成志 徐小琴
摘
摘摘
摘 要:
要:要:
要:在Web信息检索中,为了明确用户的查询需求,很多搜索引擎和全文数据库提供了相关词提示功能。本
文简要介绍了Web信息检索中相关词提示的获取技术,并对相关词提示效果进行实际调查分析。从关键词库中随
机抽取若干关键词,在选定的搜索引擎和全文数据库上进行信息检索,获取抽样关键词的相关提示词。通过关键
词检索、人工打分和数据统计,进行“查询扩展”分析、“查询式专指度”分析和“查准率”分析,给出相关词
提示在改善检索效果和用户满意度方面的综合评价。
关键词:
关键词:关键词:
关键词:相关词提示;查询扩展;信息聚类;查询式专指度
Evaluation of Relevant Term Suggestion in Information Retrieval System
Evaluation of Relevant Term Suggestion in Information Retrieval SystemEvaluation of Relevant Term Suggestion in Information Retrieval System
Evaluation of Relevant Term Suggestion in Information Retrieval System
Abstract
AbstractAbstract
Abstract :
: :
: Term suggestion mechanism aims to find users’ the information need in the Web information retrieval
environment, and is commonly employed in search engine and full-text databases. The authors introduce the technique of
term suggestion in Web information retrieval, and analysis on the effort of term suggestion. They chose about 100 key words
from the keyword database and searched in four chosen search engines and full-text databases. Through the investigation and
analysis, the authors evaluate the effort of term suggestion in improving the retrieval quality and users’ satisfaction.
Keywords
KeywordsKeywords
Keywords :
::
:Term Suggestion; Query Expansion; Information Clustering; Query Specialization
1 引言
引言引言
引言
随着Internet的飞速发展,信息资源的分布和共享已经超越时空的限制,用户面对的信息资源库越来越丰富。到
2006年,仅Google就索引了80亿WebPages
[1]
。对于大多数课题来说,搜索引擎的返回结果数都比较大,用户要查找到需
要的信息非常困难,这就是所谓的信息过载问题。另外,由于大部分搜索引擎用户是普通网络用户,在检索策略和检
索技巧上缺乏必要的知识,提交的查询请求往往比较短。通过对微软公司旗下的MSN中的在线百科全书网站连续两个
月的用户查询记录进行分析,用户平均使用1.4个单词描述他们的查询
[2]
。在查询词的使用方面,由于存在同义词、歧
义词等问题,用户选用的词与文献集中的词不匹配,导致检索结果的准确率和召回率不高,偏离用户的信息需求。
目前,大多数搜索引擎主要是通过相关词提示帮助用户优化查询式,明确用户的信息检索需求。相关词提示是搜
索引擎系统为用户提供相关词,帮助用户重新构造更加有效的查询式,从而减少多余检索步骤的检索技术
[3]
。常见的相
关词提示方式是相关搜索词和聚类浏览。笔者对53个搜索引擎进行了调查,结果表明:62%的搜索引擎提供相关词提示
功能,其中,“相关搜索词”占45%。说明相关搜索词是目前搜索引擎采用的相关词提示的主要方式,这一点在中文搜
索引擎中尤其显著,占全部中文搜索引擎的63%。
本文简要介绍了Web信息检索中相关词提示的获取技术,并对相关词提示效果进行实际调查分析。从关键词库中随
机抽取若干关键词,在选定的搜索引擎和全文数据库上进行信息检索,获取抽样关键词的相关提示词。通过关键词检
索、人工打分和数据统计,进行“查询扩展”分析、“查询式专指度”分析和“查准率”分析,给出相关词提示在改
善检索效果和用户满意度方面的综合评价。
2 相关词提示的作用和方法
相关词提示的作用和方法相关词提示的作用和方法
相关词提示的作用和方法
2.1 相关词提示的作用
相关词提示的作用相关词提示的作用
相关词提示的作用
在信息检索领域中,有一种查询模式称为“相关反馈”的交互查询模式。其实现方式是在前一次检索返回的文件
中,选取重要的特征,反馈给系统,以期找到更多相关的数据。选取的特征若是文件本身,则可称为相关文件反馈;
若为相关词,则称为相关词反馈,或检索词提示
[4]
、相关词提示。在全文检索环境中,要判断相关文件,需要对文件做
相当程度的浏览,给用户造成额外的负担。相比较之下,相关词提示因为牵涉到的额外信息较少,用户较易判断,是
一种比较好的查询交互方式。
然而,让系统自动判断出有用的相关词,比起让系统只提供文件让用户判断,是一项复杂而困难的工作。因此具
体实现中,相关词的选择权应控制在用户手中,由用户判断、选择所需的相关词,人工重新构造查询式。Koenemann的
研究结果表明,通过相关词提示帮助用户重构的查询式,效果优于系统自动重构的查询式
[5]
。
2.2 相关词提示的方法
相关词提示的方法相关词提示的方法
相关词提示的方法
相关词提示的基本原理是,搜索引擎通过聚类技术获取与查询式相关的词,经过相关度计算,将排在前面的相关词
以一定的形式返回给用户。其技术背景是信息检索领域的信息聚类技术。相关词提示的形式主要有两种:一种是在检
索结果页面的上方或下方提供“相关搜索”词,如百度
[6]
,另一种是在检索结果页面的左侧提供聚类浏览导航体系,如
Vivisimo
[7]
。
2.2.1 相关词提示的技术背景——信息聚类
相关词提示的技术背景——信息聚类相关词提示的技术背景——信息聚类
相关词提示的技术背景——信息聚类
聚类是指把没有分类的事物,在不知道应分成几类的情况下,根据事物彼此不同的内容属性进行辨认,将具有相
构建全球华人科学博客圈(blog)http://www.sciencenet.cn/blog
管理我的博客 | 加入收藏 | 设为首页 | 博客首页 | 圈子首页 | 科学网首页
宠辱不惊闲看庭前花开花落,去留无意漫观天外云展云舒
宠辱不惊闲看庭前花开花落,去留无意漫观天外云展云舒宠辱不惊闲看庭前花开花落,去留无意漫观天外云展云舒
宠辱不惊闲看庭前花开花落,去留无意漫观天外云展云舒
http://www.sciencenet.cn/u/timy/
科学网-章成志的博客-信息检索系统的相关词提示技术与评测 http://www.sciencenet.cn/m/user_content.aspx?id=16003
第1页 共4页 2010-4-23 11:20