计算机信息检索基础与原理

需积分: 10 7 下载量 163 浏览量 更新于2024-08-21 收藏 239KB PPT 举报
本资源是清华大学计算机科学领域关于信息检索的课件,主要面向工程硕士。内容涵盖了信息检索的基本概念、词汇、原理以及不同发展阶段的检索系统类型。 在信息检索中,"禁用词"(Stop words)是一个关键概念,指的是在记录中过于频繁出现的词汇,例如"的"、"在"、"和"等,这些词在检索过程中通常不会被考虑,因为它们对区分文档主题的帮助较小,可能导致检索结果的冗余。在处理文本时,去除这些词可以提高检索效率和精确度。 第二讲深入讨论了信息检索词汇(terms),包括信息检索(Information retrieval, IR)、信息获取(Information access)、信息寻找(Information search)等,强调了主动的信息寻求行为,以及"定位"(locate)和"命中"(hit)的概念,这在实际检索过程中是核心操作。 信息检索的基本原理包括以下几个方面: 1. 信息集合:所有可检索的数据源。 2. 匹配与选择:根据用户需求,比较和挑选相关信息。 3. 需求集合:用户的查询或信息需求。 4. 特征化和表示:将信息和需求转化为可供计算的特征,以便进行匹配。 信息检索的发展经历了几个阶段: 1. 手工操作:依赖人工查找。 2. 计算机化:使用计算机处理检索任务。 3. 网络化:通过互联网实现全球范围的信息共享。 4. 智能化:引入人工智能技术提升检索效果。 5. 认知化:强调理解和推理,更好地模拟人类思考。 主要的检索系统类型包括: 1. 联机检索:实时交互,用户与远程主机数据库进行通信。 2. 脱机检索:非实时,数据预先处理,用户事后查看结果。 3. 光盘检索:基于光盘存储的检索系统。 4. 网络检索:互联网上的搜索,如搜索引擎。 5. 全球数字图书馆系统:整合全球数字资源的检索平台。 联机检索系统的特点是互动性强,实时性好,用户通过通信网络与远程主机数据库直接交互。检索终端通过广域网(WAN)连接到数据库,实现了远程直接访问。 课件还介绍了在线数据库的特点,这些数据库提供服务,帮助用户找到特定信息,是信息检索的重要组成部分。 这个课件详细阐述了信息检索的基础理论和实践应用,对于理解信息检索系统的工作原理及其发展历史具有重要价值,对于学习和研究计算机科学,特别是信息检索领域的工程硕士来说是一份宝贵的资料。