互联网查询扩展技术:提高检索精度的新策略

需积分: 0 7 下载量 26 浏览量 更新于2024-07-31 收藏 1.67MB PDF 举报
"查询扩展技术研究.pdf" 查询扩展技术是针对用户在使用Web搜索引擎时,由于词汇表征不匹配导致的相关信息检索效率低下的问题而发展起来的一种技术。它旨在通过扩展用户的原始查询,以捕捉更广泛的语义相关性,从而提高搜索结果的准确性和召回率。这篇硕士学位论文由瞿国忠撰写,何婷婷指导,主要探讨了查询扩展在中文信息检索中的应用和策略。 首先,论文分析了现有的查询扩展方法,这些方法通常涉及词语扩展和词语权重调整。在中文环境下,由于同义词、近义词和多义词的普遍存在,单一的查询词可能无法准确地表达用户的信息需求。因此,通过扩展查询词来涵盖更多的语义相似词可以显著改善检索效果。 其次,论文提出了一个基于Web资源的查询扩展策略。这一策略利用互联网上的动态资源,自动下载网页并分析其中的术语,从中提取出相关术语群,用于扩展查询。这种方法优于传统方法,因为它能够自动生成语义资源,保持资源的时效性和实用性,而不依赖于预先构建的静态语义数据库。 接着,论文建立了相应的扩展模型,结合从Web资源中提取的相关术语群以及查询文档集中获得的局部和全局相关信息。通过选择算法筛选出最相关的扩展术语,实现在NTCIR-5中文信息检索测试集上的实验显示,与传统查询扩展相比,这种方法提高了13.1%的检索精度。 此外,论文还设计并实现了一个基于相关术语群进行查询扩展的检索系统,同时包含了传统查询扩展策略的实现,以便于不同策略之间的比较。这个系统在2005年日本举办的文本信息检索国际标准会议上进行了实际应用,验证了文中方法的有效性和可行性。 关键词:中文,查询扩展,全文检索,索引技术,相关术语群 查询扩展技术是提升搜索引擎性能的关键手段,特别是在中文信息检索中,考虑到语言的复杂性和多义性。通过利用Web资源动态构建语义资源,可以有效地解决查询与文档信息表示不匹配的问题,提高检索的准确性和用户满意度。论文中的方法和系统为未来查询扩展技术的研究和发展提供了有价值的参考。