专利检索新方法:基于自动查询扩展

需积分: 9 0 下载量 135 浏览量 更新于2024-09-06 收藏 330KB PDF 举报
"这篇论文是关于基于自动查询扩展的专利文档检索方法的研究,由羊帅、王锋等人撰写,探讨了如何改善专利检索中的用户意图理解和查询扩展问题。论文涉及的主要技术包括人工智能、专利检索、领域词表构建、查询扩展以及伪相关反馈技术。通过改进的TF-IDF公式建立专利领域词表,并利用伪相关反馈来优化查询,以提高检索的召回率和平均准确率。" 这篇论文的研究聚焦于解决专利检索领域的关键问题,即如何更好地理解和扩展用户的查询意图,以提升检索效果。当前的专利检索系统在理解和扩展用户查询方面存在不足,这导致检索结果可能不准确或不全面。为了解决这个问题,论文提出了一个基于自动查询扩展的专利文档检索新方法。 首先,该方法考虑了专利文档的特性,采用一种改进的TF-IDF公式来构建专利领域词表。TF-IDF是一种常见的文本检索中衡量词语重要性的统计方法,而这里的改进旨在更适应专利领域的语言特点,以准确地识别和提取领域关键词。 在检索阶段,系统会对用户输入的查询字符串进行分析,识别出关键词,并结合专利领域词表来确定查询的领域以及扩展的难易程度。这一过程有助于理解用户的实际需求,从而进行更有针对性的查询扩展。 接下来,论文采用了伪相关反馈技术。这是一种用于查询扩展的技术,通过分析与原始查询相关但未被检索到的文档(伪相关文档)中的术语分布,来生成新的查询扩展项。这些扩展项按照它们在伪相关文档中的重要性进行排序,然后与原始查询相结合,形成新的查询条件,从而扩大检索范围并提高检索精度。 实验结果显示,这种方法在提高检索召回率和平均准确率方面表现优秀。这意味着它能更有效地找出与用户查询相关的专利文献,降低了用户寻找所需信息的难度,对于专利检索系统的性能提升具有显著作用。 关键词涵盖了人工智能、专利检索、领域词表、查询扩展和伪相关反馈,这些都反映了论文的核心内容和技术手段。这篇论文提供了一种创新的解决方案,对提升专利检索效率和准确性有着重要的理论与实践价值。