WordNet为基础的语义相似度测量新方法

0 下载量 21 浏览量 更新于2024-08-28 收藏 103KB PDF 举报
"这篇研究论文提出了一种新颖的基于WordNet的词汇语义相似度测量方法,该方法利用WordNet中的最短路径和最低公共超类的深度来计算两个词的语义相似度。考虑了不同词对之间最低公共超类的直接下位数差异,该方法采用直接下位数来调整两个词之间的最短路径,以平衡它们的相似性计算。实验结果显示,在MC30数据集上,与人类判断的皮尔逊相关系数为0.8597,表现出较高的准确性。" 本文主要探讨的是自然语言处理领域的一个重要问题——如何有效地计算词汇的语义相似度。WordNet作为一款广泛使用的在线语义词典,其结构包含丰富的词汇关系,如同义词、上下位词等,为语义分析提供了有力工具。作者提出的新方法基于WordNet的层次结构,通过分析两个词在词汇网络中的关系来评估它们的语义相似度。 首先,该方法利用了WordNet中词与词之间的最短路径。在WordNet的层级树结构中,两个词间的最短路径长度可以反映它们语义上的接近程度。路径越短,表示两个词在概念上的相似度越高。 其次,引入了最低公共超类(Lowest Common Hypernym, LCH)的深度来进一步刻画相似度。最低公共超类是两个词共同的上位词,其深度反映了这两个词在概念层次上的抽象程度。更深的LCH意味着这两个词在更抽象的概念层面上有共同的属性,因此具有更高的相似度。 此外,考虑到不同词对间最低公共超类的直接下位数(Direct Hyponym Number, DHN)可能存在的差异,该方法创新地将DHN纳入计算。直接下位数反映了最低公共超类的子节点数量,可以用来调整最短路径,确保不同词对的相似度计算更加公平和准确。 通过实验,该方法在MC30数据集上验证了其有效性和准确性。MC30是一个用于评估语义相似度算法的标准数据集,包含了专业人员对词汇对的语义相似度的人工评价。皮尔逊相关系数高达0.8597,表明该方法的计算结果与人类判断高度一致,具有很高的信度。 总结来说,这篇论文提出的WordNet基