计算机信息检索基础与原理
需积分: 10 81 浏览量
更新于2024-08-21
收藏 239KB PPT 举报
本资源是清华大学计算机科学领域关于信息检索的课件,主要面向工程硕士。内容涵盖了信息检索的基本概念、词汇、原理以及不同发展阶段的检索系统类型。
在信息检索中,"禁用词"(Stop words)是一个关键概念,指的是在记录中过于频繁出现的词汇,例如"的"、"在"、"和"等,这些词在检索过程中通常不会被考虑,因为它们对区分文档主题的帮助较小,可能导致检索结果的冗余。在处理文本时,去除这些词可以提高检索效率和精确度。
第二讲深入讨论了信息检索词汇(terms),包括信息检索(Information retrieval, IR)、信息获取(Information access)、信息寻找(Information search)等,强调了主动的信息寻求行为,以及"定位"(locate)和"命中"(hit)的概念,这在实际检索过程中是核心操作。
信息检索的基本原理包括以下几个方面:
1. 信息集合:所有可检索的数据源。
2. 匹配与选择:根据用户需求,比较和挑选相关信息。
3. 需求集合:用户的查询或信息需求。
4. 特征化和表示:将信息和需求转化为可供计算的特征,以便进行匹配。
信息检索的发展经历了几个阶段:
1. 手工操作:依赖人工查找。
2. 计算机化:使用计算机处理检索任务。
3. 网络化:通过互联网实现全球范围的信息共享。
4. 智能化:引入人工智能技术提升检索效果。
5. 认知化:强调理解和推理,更好地模拟人类思考。
主要的检索系统类型包括:
1. 联机检索:实时交互,用户与远程主机数据库进行通信。
2. 脱机检索:非实时,数据预先处理,用户事后查看结果。
3. 光盘检索:基于光盘存储的检索系统。
4. 网络检索:互联网上的搜索,如搜索引擎。
5. 全球数字图书馆系统:整合全球数字资源的检索平台。
联机检索系统的特点是互动性强,实时性好,用户通过通信网络与远程主机数据库直接交互。检索终端通过广域网(WAN)连接到数据库,实现了远程直接访问。
课件还介绍了在线数据库的特点,这些数据库提供服务,帮助用户找到特定信息,是信息检索的重要组成部分。
这个课件详细阐述了信息检索的基础理论和实践应用,对于理解信息检索系统的工作原理及其发展历史具有重要价值,对于学习和研究计算机科学,特别是信息检索领域的工程硕士来说是一份宝贵的资料。
点击了解资源详情
点击了解资源详情
点击了解资源详情
184 浏览量
2022-11-16 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
昨夜星辰若似我
- 粉丝: 50
- 资源: 2万+
最新资源
- SwiLex是Swift中的通用词法分析器库。-Swift开发
- laravel-46883:库索·德·拉拉维尔(Curso de Laravel)código46883
- 不明飞行物
- Honey Muffin-crx插件
- remi:Python REMote接口库。 平台无关。 大约100 KB,非常适合您的饮食
- dot-http:dot-http是基于文本的可编写脚本的HTTP客户端
- diaosi.rar_人工智能/神经网络/深度学习_Visual_C++_
- 数据科学课程
- App Android Faculdade-开源
- ML100Days
- Umbraco Helper Extension-crx插件
- Prac5.zip_Linux/Unix编程_C/C++_
- 连接:Flask之上的SwaggerOpenAPI First Python框架,具有自动端点验证和OAuth2支持
- VB做的IP地址输入框
- minsk-shop
- UIViews和CALayer类的有用扩展,以添加漂亮的颜色渐变。-Swift开发