专利与出版物相似性检测:潜在语义分析的文本挖掘研究
需积分: 10 192 浏览量
更新于2024-07-09
收藏 673KB PDF 举报
"这篇研究论文探讨了利用潜在语义分析(Latent Semantic Analysis,LSA)为基础的文本挖掘技术在检测专利文件与科学出版物之间相似性方面的可行性和准确性。研究针对学术发明人的样本(n=6),通过比较向量空间模型和潜在语义索引方法,发现这些技术在促进专利与出版物的映射、分类和分类工作中具有潜力。然而,研究结果显示不同技术的准确性差异显著,某些常见的文本挖掘方法在处理小规模文档集时可能不理想。此外,该研究还强调了对学术专利申请的相关性和适当性进行评估的重要性,并提出了未来研究的方向。"
本文关注的是如何利用信息技术提升科学研究和技术创新之间的联系。其中,文本挖掘作为关键工具,被用于分析专利文献和科学出版物之间的内容关联。首先,文章介绍了向量空间模型(Vector Space Model,VSM),这是一种常用的文本表示方法,通过将文档转化为高维向量空间中的点,来衡量文档间的相似度。尽管VSM在大规模数据集中表现良好,但在小规模文档集上可能无法充分捕捉语义关系。
接着,文章重点讨论了潜在语义分析(LSA),这是一种基于概率主题模型的方法,能够揭示文本中隐藏的主题结构,从而更好地捕获文档间语义上的相似性。LSA通过对文档-词频矩阵进行奇异值分解(SVD)来实现这一点。然而,实验结果显示,尽管LSA在某些情况下能有效检测相似性,但在处理小规模专利-出版物对时,其性能并不总是最佳。
此外,研究还引入了人类评估者的验证分数,以评估由文本挖掘技术计算出的相似性度量的可靠性。这一做法增加了研究的信度,并为未来的研究提供了参考基准。结论指出,虽然混合文本挖掘技术在检测相似性上具有价值,但选择合适的方法对于确保准确性至关重要。未来的研究可以进一步探索优化这些技术,尤其是在处理不同类型或规模的文档集时。
这篇论文对理解科技链接(science-technology linkages)和专利-出版物对(patent-publication pairs)之间的关系提供了新的视角,同时也强调了作者-发明人关系(author-inventor relationships)在创新过程中的角色。这项工作为文本挖掘技术在科技政策和知识产权分析领域的应用提供了实证支持,并指出了未来研究的可能方向,包括改进现有的相似性度量方法和扩大研究样本的多样性。
2024-01-05 上传
2023-09-13 上传
2024-04-21 上传
2023-04-17 上传
2023-05-25 上传
2023-05-12 上传
2023-06-08 上传
2023-05-12 上传
2023-08-06 上传
weixin_38611812
- 粉丝: 4
- 资源: 933
最新资源
- 单片机串口通信仿真与代码实现详解
- LVGL GUI-Guider工具:设计并仿真LVGL界面
- Unity3D魔幻风格游戏UI界面与按钮图标素材详解
- MFC VC++实现串口温度数据显示源代码分析
- JEE培训项目:jee-todolist深度解析
- 74LS138译码器在单片机应用中的实现方法
- Android平台的动物象棋游戏应用开发
- C++系统测试项目:毕业设计与课程实践指南
- WZYAVPlayer:一个适用于iOS的视频播放控件
- ASP实现校园学生信息在线管理系统设计与实践
- 使用node-webkit和AngularJS打造跨平台桌面应用
- C#实现递归绘制圆形的探索
- C++语言项目开发:烟花效果动画实现
- 高效子网掩码计算器:网络工具中的必备应用
- 用Django构建个人博客网站的学习之旅
- SpringBoot微服务搭建与Spring Cloud实践