"这篇研究论文探讨了专利查询扩展的词向量方法,旨在提升信息检索系统的性能,特别是在专利检索领域的应用。作者包括许侃、林原、曲忱、徐博和林鸿飞,分别来自大连理工大学计算机科学与技术学院和科学学与科技管理研究所。文章在2018年发表于《计算机科学技术前沿》期刊第12卷第6期,篇幅为972-980页。论文提出了一种利用词向量模型对查询进行优化的方法,通过训练相关文档得到词向量,然后根据原始查询词的相似度选择扩展词汇。文中提出了四种不同的查询扩展术语选择策略,利用词嵌入技术来改善查询的表达能力,从而提高检索效果。"
本文的研究重点在于利用词向量(Word Embedding)技术改进专利查询的过程,以提升信息检索的准确性和覆盖率。词向量是一种将词汇转换为多维空间中向量的数学方法,这些向量能够捕获词汇之间的语义和语法关系。在专利检索领域,查询扩展是常见的优化手段,通过添加相关的同义词或短语来扩大搜索范围,以找到更匹配的专利文献。
研究中,首先对相关专利文档进行训练,构建词向量模型,如Word2Vec、GloVe或FastText等。然后,通过计算查询词与词库中所有词的相似度,选取与查询词最相关的词汇作为扩展词。论文提出了四种不同的选择策略,可能包括基于余弦相似度、基于上下文相关性、基于距离度量以及结合多种因素的综合策略。
这种方法的优势在于,它能够理解查询词的语义含义,而不仅仅是表面的词汇匹配。词向量模型能够捕捉到词汇的隐含意义,因此即使查询词与目标专利文献中的词汇不完全相同,也能找到相关性强的文献。此外,通过动态扩展查询,可以弥补用户查询时可能存在的词汇局限性,减少因术语使用不当导致的检索遗漏。
论文的结果和实验部分可能详细分析了这四种方法在实际专利检索任务中的表现,比较了它们在召回率、精确率和F1分数等评价指标上的差异,并可能探讨了不同方法在处理特定类型查询或特定领域的专利检索时的优劣。
该研究为专利检索提供了一种创新的解决方案,利用深度学习的词向量技术来增强查询表达,有望改善现有检索系统的性能,对于信息检索和专利检索领域的研究者和技术开发者具有重要的参考价值。