专利与出版物相似性检测:潜在语义分析的文本挖掘研究

需积分: 10 0 下载量 192 浏览量 更新于2024-07-09 收藏 673KB PDF 举报
"这篇研究论文探讨了利用潜在语义分析(Latent Semantic Analysis,LSA)为基础的文本挖掘技术在检测专利文件与科学出版物之间相似性方面的可行性和准确性。研究针对学术发明人的样本(n=6),通过比较向量空间模型和潜在语义索引方法,发现这些技术在促进专利与出版物的映射、分类和分类工作中具有潜力。然而,研究结果显示不同技术的准确性差异显著,某些常见的文本挖掘方法在处理小规模文档集时可能不理想。此外,该研究还强调了对学术专利申请的相关性和适当性进行评估的重要性,并提出了未来研究的方向。" 本文关注的是如何利用信息技术提升科学研究和技术创新之间的联系。其中,文本挖掘作为关键工具,被用于分析专利文献和科学出版物之间的内容关联。首先,文章介绍了向量空间模型(Vector Space Model,VSM),这是一种常用的文本表示方法,通过将文档转化为高维向量空间中的点,来衡量文档间的相似度。尽管VSM在大规模数据集中表现良好,但在小规模文档集上可能无法充分捕捉语义关系。 接着,文章重点讨论了潜在语义分析(LSA),这是一种基于概率主题模型的方法,能够揭示文本中隐藏的主题结构,从而更好地捕获文档间语义上的相似性。LSA通过对文档-词频矩阵进行奇异值分解(SVD)来实现这一点。然而,实验结果显示,尽管LSA在某些情况下能有效检测相似性,但在处理小规模专利-出版物对时,其性能并不总是最佳。 此外,研究还引入了人类评估者的验证分数,以评估由文本挖掘技术计算出的相似性度量的可靠性。这一做法增加了研究的信度,并为未来的研究提供了参考基准。结论指出,虽然混合文本挖掘技术在检测相似性上具有价值,但选择合适的方法对于确保准确性至关重要。未来的研究可以进一步探索优化这些技术,尤其是在处理不同类型或规模的文档集时。 这篇论文对理解科技链接(science-technology linkages)和专利-出版物对(patent-publication pairs)之间的关系提供了新的视角,同时也强调了作者-发明人关系(author-inventor relationships)在创新过程中的角色。这项工作为文本挖掘技术在科技政策和知识产权分析领域的应用提供了实证支持,并指出了未来研究的可能方向,包括改进现有的相似性度量方法和扩大研究样本的多样性。