频率增强的语义相似度计算算法

需积分: 9 0 下载量 69 浏览量 更新于2024-08-07 收藏 794KB PDF 举报
"一种频率增强的语句语义相似度计算* (2013年) - 湖南大学学报(自然科学版), Vol. 40, No. 2, Feb·2013" 这篇论文主要探讨了如何改进基于HowNet的语句语义相似度计算方法,以提高其准确性和合理性。HowNet是一个广泛使用的汉语词汇知识库,包含了丰富的词义和词义关系。在传统的基于HowNet的语义相似度计算中,往往忽视了语句中不同词语对于整体相似度贡献程度的差异,这可能导致计算结果不尽如人意。 针对这一问题,论文提出了一种频率增强的语句语义相似度计算算法。算法的核心思想是结合词语的语义信息(义原距离和义原深度)以及它们在语料库中的出现频率。义原距离衡量的是两个词语在HowNet中的义原之间的距离,而义原深度则反映了词语在义原树状结构中的位置,这两个因素共同影响了词语的相似度。 在原有的计算基础上,论文引入了词语频率作为权重,以调整高频率词语的影响。这是因为高频率的词语在各种语境下都可能出现,其通用性较强,可能并不足以反映特定语境下的语义关联。通过将词语的频率函数作为权重引入,可以有效地降低这些词语在相似度计算中的权重,从而使得计算结果更能体现语句之间的具体语义关联,更符合人类的主观判断。 实验结果显示,改进后的算法在计算语句相似度时,与人类的主观评价更为一致,表明了算法的有效性和实用性。这种频率增强的计算方法为自然语言处理和信息检索领域的语义分析提供了新的思路,有助于提升相关应用的性能。 关键词涉及:HowNet、义原树状结构、语料库、语义相似度。此研究对于理解和改进基于词典和语料库的语义理解算法具有重要的理论价值和实际意义。