频率增强的语义相似度计算算法

需积分: 9 69 浏览量更新于2024-08-07 收藏 794KB PDF 举报

"一种频率增强的语句语义相似度计算* (2013年) - 湖南大学学报(自然科学版), Vol. 40, No. 2, Feb·2013" 这篇论文主要探讨了如何改进基于HowNet的语句语义相似度计算方法，以提高其准确性和合理性。HowNet是一个广泛使用的汉语词汇知识库，包含了丰富的词义和词义关系。在传统的基于HowNet的语义相似度计算中，往往忽视了语句中不同词语对于整体相似度贡献程度的差异，这可能导致计算结果不尽如人意。针对这一问题，论文提出了一种频率增强的语句语义相似度计算算法。算法的核心思想是结合词语的语义信息（义原距离和义原深度）以及它们在语料库中的出现频率。义原距离衡量的是两个词语在HowNet中的义原之间的距离，而义原深度则反映了词语在义原树状结构中的位置，这两个因素共同影响了词语的相似度。在原有的计算基础上，论文引入了词语频率作为权重，以调整高频率词语的影响。这是因为高频率的词语在各种语境下都可能出现，其通用性较强，可能并不足以反映特定语境下的语义关联。通过将词语的频率函数作为权重引入，可以有效地降低这些词语在相似度计算中的权重，从而使得计算结果更能体现语句之间的具体语义关联，更符合人类的主观判断。实验结果显示，改进后的算法在计算语句相似度时，与人类的主观评价更为一致，表明了算法的有效性和实用性。这种频率增强的计算方法为自然语言处理和信息检索领域的语义分析提供了新的思路，有助于提升相关应用的性能。关键词涉及：HowNet、义原树状结构、语料库、语义相似度。此研究对于理解和改进基于词典和语料库的语义理解算法具有重要的理论价值和实际意义。

第   卷  第  期

    年  月

湖南大学学报  自然科学版 

Journal of Hunan UniversityNatural Sciences

Vol  No 

Feb @    

文章编号 󱛃󱛃󱛃

一种频率增强的语句语义相似度计算



廖志芳



邱丽霞



谢岳山



樊晓平

 

 中南大学软件学院 湖南长沙     中南大学信息科学与工程学院 湖南长沙   

 湖南财政经济学院 湖南长沙  

  摘  要 目前 在基于 HowNet 进行语句语义相似度计算的算法中 没有考虑语句中的

不同词语对语句之间相似度值的不同贡献程度 以致计算结果不理想 为了更好地解决上述

缺陷 提出了一种频率增强语句语义相似度算法 该算法利用 HowNet 作为词典库 在同时

考虑义原距离和义原深度的条件下 进行词语相似度计算 在此基础上算法进一步将词语在

语料库中的频率函数作为权重值 引入至语句的语义相似度计算中 以降低高频率词语在语

句相似度值中的比重 实验表明 改进的算法在语句相似度计算结果上与人们的主观判断更

接近 结果更合理 

关键词 How Net 义原树状结构 语料库 语义相似度

中图分类号 TP                文献标识码 A

A Frequency Enhanced Algorithm of Sentence Semantic Similarity

LIAO Zhi󱛃fang



QIU Li󱛃xia



XIE Yue󱛃shan



FAN Xiao󱛃

ing

 

 School of Software Central South Univ Changsha Hunan   China 

 School of Information Science and Engineering Central South Univ Changsha Hunan   China 

 Hunan College of Finance and Economics Changsha Hunan   China

  Abstract Sentence semantic similarity algorithms based on HowNet ignored the fact that different

words have different contribution weight to sentence similarity value and therefore the similarity result is

not quite reasonable In order to solve this problem we proposed an improved algorithm based on word

frequency The algorithm calculates the similarity between words based on How Net both considering the

distance and the height of primitives Then a frequency function of words in corpus as a weight factor is

embedded into the sentence semantic similarity algorithm which reduces the proportion value that the high

frequency words devote to sentence similarity calculation The sentence semantic similarity experiment re󱛃

sults show that the improved algorithm is much better in rationality as well as in matching with peoples

subjective judgment 

Key words HowNet 

rimitive tree structure corpus semantic similarity

  文本相似度

  

是表示两个或多个文本之间匹

配程度的一个度量参数 相似度越大 说明对比的内

容相似程度越高 反之越低 文本相似度计算广泛应

用于文本挖掘 Web 信息搜索和机器翻译等 是自



收稿日期   

基金项目 国家科技支撑项目BAHB 湖南省自然科学基金资助项目 JJ  湖南省科技计划项目 KG 

FJ

作者简介 廖志芳    女 湖南长沙人 中南大学副教授 博士

 通讯联系人 E󱛃mail bysj  com

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38643127

粉丝: 8
资源: 921

频率增强的语义相似度计算算法

基于领域本体的语句相似度研究.pdf

语句相似度研究中的骨架依存分析

基于语义的语句相似度计算研究 (2011年)

语句相似度计算.zip

C语言中语句结构相似度的计算方法.pdf

Python实战语句相似度计算（毕设 + 课设）.zip

论文研究-多特征融合的语句相似度计算模型.pdf

改进频率函数提升语义相似度：审计规则应用与效率改善

纳西语句相似度计算：基于改进的chunking编辑距离

利用语义相似度提升Deep Web数据库查询效率

最新资源