基于知网的语义相似度计算方法研究与改进

需积分: 16 6 下载量 56 浏览量 更新于2024-09-15 收藏 74KB PDF 举报
"该文是云南大学学报自然科学版的一篇学术论文,主要探讨了一种改进的基于知网的语义相似度计算方法,作者周粉和夏幼明来自云南师范大学计算机科学与信息技术学院。文章指出,语义相似度计算在自然语言处理中的重要性,并分析了几种基于知网的典型方法,随后提出了自己的改进方案,实验结果显示该方法有效。关键词包括语义相似度、知网和自然语言处理。" 在自然语言处理中,语义相似度计算是一项核心任务,它对于诸如机器翻译、自动问答、句法分析和词义排歧等应用场景至关重要。现有的计算方法主要分为两类:基于世界知识或分类体系的方法,以及基于统计的上下文向量空间模型方法。前者如利用知网(HowNet)来计算,但可能存在对反义词或对义词处理过度的问题;后者则依赖大规模语料库进行统计分析,通过词向量的余弦相似度来衡量词的相似性。 知网是一个由董振东和董强创建的知识系统,旨在存储和表达汉语和英语词语的概念及其关系,包含丰富的词汇语义和世界知识,是自然语言处理研究的重要工具。知网中的“义项”是指词汇的特定含义,每个词可能有多个义项,每个义项对应一个词性;“义原”则是构成义项的基本元素,反映了概念的属性和关系。 针对现有方法的不足,本文作者提出了改进的知网基
2020-03-07 上传
文本相似度计算一直是自然语言处理领域研究中的一个基础问题。而文本语义相似度计算则是在文本相似度计算基础上增加了语义分析,在语义层面对文本相似度作进一步的分析研究,具有广阔的应用背景。本文针对句子级别的文本语义相似度计算问题,提出了应用结构化特征和神经网络的方法,并将该方法应用到一个实际的问答系统中,取得了良好的效果。本文深入研究文本语义相似度计算方法,主要研究内容如下:(1)基于结构化表示的文本语义相似度计算方法针对句子级文本相似度计算方法中平面特征表征性弱的问题,本文提出了应用结构化特征来表示句子级文本的句法、语义等信息。在浅层句法树和依存关系树的基础上,获得了基于短语的浅层句法树PST(Phrase-based Shallow Tree)和基于短语的依存树PDT(Phrase-based Dependency Tree)的结构化特征,并与平面特征向量相结合,使用支持向量回归模型进行文本语义相似度计算。实验结果表明,加入PST或PDT特征可以分别使皮尔逊相关系数比基准系统提高0.054和0.041。(2)基于Tree-LSTM的文本语义相似度计算方法为了进一步提高长文本语义相似度计算性能,本文提出应用深度学习方法对长文本进行语义相似度计算研究。首先,设计了适合神经网络模型的新的基于短语的浅层句法树NPST(New PST)和新的基于短语的依存树NPDT(New PDT)结构化。