基于知网的多重继承词语相似度算法及其应用验证

需积分: 0 1 下载量 119 浏览量 更新于2024-08-04 收藏 1.28MB PDF 举报
该篇文章《201710基于多重继承与信息内容的知网词语相似度计算》由张波、陈宏朝、朱新华和吴田俊四位作者共同完成,发表于《计算机应用研究》2018年第35卷第10期。文章针对中文词语语义相似度计算中的不足,尤其是基于信息内容的方法研究不够深入的问题,对知网信息模型进行了深入探讨。 知网,作为中国最大的学术文献数据库,通常使用语义表达式来表示知识,但这些表达方式缺乏完整的概念结构。作者们针对这一特点,提出了一种新的方法,即通过抽取知网语义表达式的抽象概念,构建了一个具有多重继承特征的知网义项网,作为计算词语相似度的本体。这种多重继承特性允许信息在网络中通过不同的路径传播和共享,增强了语义的丰富性和准确性。 文章的核心贡献是提出了一种改进的基于信息内容的词语相似度算法,特别设计了一种新的信息内容含量计算方法。这种方法旨在更好地衡量词语之间的语义关联度,不仅考虑词语本身的语义信息,还考虑到它们在网络中的上下文关系和信息传递路径。通过对比实验,特别是与Miller&Charles(MC30)基准平台的数据,作者证明了这种方法在计算中文词语语义相似度上的有效性,并证实了他们的计算策略和改进算法的合理性。 作者团队中,张波和吴田俊主要研究自然语言处理,陈宏朝则专注于自然语言处理,而朱新华作为通信作者,是教授,主要研究领域也包括自然语言处理。文章的中图分类号为TP391.1,意味着它属于计算机科学的信息检索和信息技术类别。此外,文章提供了详细的在线访问链接,便于读者查阅和引用。 这篇文章在中文词语语义分析领域做出了有意义的贡献,尤其是在利用网络信息内容和多重继承概念来提升词语相似度计算的准确性和效率方面。这对于诸如问答系统、机器翻译、数据挖掘和智能教育等领域,都有着实际的应用价值。