改进的WordNet词语相似度计算:基于边权重的方法

需积分: 9 1 下载量 146 浏览量 更新于2024-09-06 收藏 908KB PDF 举报
"论文研究-基于边权重的WordNet词语相似度计算.pdf" 本文探讨了自然语言处理领域中的一个重要议题——词语相似度计算,并提出了一种新颖的基于边权重的WordNet词语相似度计算方法。WordNet是一个广泛使用的英语词汇知识库,其层次结构为词语之间的语义关系提供了丰富的信息。现有的词语相似度计算方法通常存在信息源单一、计算结果非线性偏高以及性能和效率不一致的问题。 作者指出,当前的计算方法主要有两类:基于统计的语料库方法和基于世界知识的方法。前者依赖大规模文本数据来估算词汇共现概率,后者则利用如WordNet这样的语义词典来度量词语的层次关系。在WordNet基础上,有四种主流的词语相似度计算方法,包括基于路径、基于信息内容、基于特征和杂合方法。其中,基于路径的方法是最直观的,通过计算两个词汇在层次结构中的最短路径距离来衡量它们的相似度。 然而,基于路径的方法未充分考虑WordNet结构的不均匀性,即不同层次的概念可能具有不同的重要性和相关性。为此,该研究引入了边权重的概念,旨在改进WordNet的层次结构,使得距离更准确地反映相似度。边权重可以反映概念间的关联强度,从而改善路径距离的计算。此外,通过引入编码概念,用以唯一标识两个概念之间的相似度,可以进一步细化相似度的评估。 为了修正计算结果的非线性偏差,该方法采用了余弦函数。余弦相似度是一种常见的角度度量方法,它可以有效地处理非线性空间中的向量相似度问题。实验结果显示,新方法在MC30和RG65两个标准测试集上的表现优秀,与人工判断的Pearson相关系数达到了0.87,这表明其计算结果与人类认知高度一致。同时,该方法在计算性能和效率上也表现出色,满足了实际应用的需求。 基于边权重的WordNet词语相似度计算方法通过增强WordNet结构的表达力,提高了词语相似度计算的精确度和效率,对于自然语言处理任务,如文本分类、信息检索、机器翻译等,具有重要的理论和实践价值。