基于Hownet的语义相似度计算方法与应用深度探讨

需积分: 9 8 下载量 172 浏览量 更新于2024-07-29 1 收藏 5.24MB PDF 举报
本文主要探讨了语义相似度的计算方法研究与分析,特别是在信息检索、信息抽取、文本分类、词义排歧以及基于实例的机器翻译等领域中的应用。随着互联网技术的飞速发展,语义相似度计算已经成为自然语言处理和信息检索研究的核心组成部分。研究者宋玲,攻读计算机应用技术博士学位,由导师马军指导,于2009年完成这项工作。 文章首先将研究对象分为基本信息对象(如概念)和一般信息对象(如文本文档、半结构XML文档和Web服务),明确了研究范围。针对不同类型的信息对象,文章提出了全新的计算策略: 1. **概念之间的语义相似度计算方法**(SSBC,Semantic Similarity Between Concepts):该方法充分利用本体中赋予概念的结构信息和语义信息,通过构建概念的语义扩展集来描述其特征,并借助模糊集合理论来衡量两个概念的相似度。这种方法能够有效地反映概念相似度的非对称性,同时考虑到本体中概念层次树的深度和区域密度对相似度的影响。实验结果证明,SSBC在衡量概念对相似度上优于现有方法,提高了相关系数。 2. **句子语义相似度计算方法**(SSBS,Semantic Similarity Between Sentences):基于SSBC,文章进一步发展出适用于句子级别的语义相似度计算,除了考虑概念对之间的语义相似度和字符串编辑距离,还特别考虑了不同词性的概念对句子相似度的影响,增强了计算的全面性。 3. **文本文档之间的语义相似度计算方法**(SSBTD,Semantic Similarity Between Text Documents):针对文本文档这一更复杂的信息类型,研究者设计了一种新的计算方法,旨在更准确地衡量文档间的语义关联性。 本文的研究不仅丰富了语义相似度理论,还提供了对象间语义相似度计算的新途径,对于信息处理和自然语言理解等领域具有实际价值。通过实验验证,这些方法展示了显著的性能提升,为未来的相关研究和技术应用奠定了坚实基础。