基于Hownet的词汇语义相似度计算方法详解

需积分: 34 114 浏览量更新于2024-09-11 2 收藏 600KB PPTX 举报

本篇文章《基于知网的词汇语义相似度计算方法研究》由葛斌、李芳芳、郭丝路和汤大权在2010年发表于《计算机应用研究》期刊中，主要探讨了如何利用中国知网（Hownet）进行词汇语义相似度的计算。知网是一个大型的汉语知识库，它以四元组形式存储词汇，包括词语、词例、词性和概念定义。义原是描述概念的最小意义单位，而义项则是词汇的多种含义的表达，通过义原层次树来体现词与义原的关系。文章的核心内容围绕以下几个方面展开： 1. 义原和义项的定义： - 义原是描述一个概念的基础元素，不可再分，是构建词汇意义的关键。 - 义项是对词汇的多维度描述，是通过义原的知识描述语言（KDML）来表达的，其结构体现了词汇的意义和关系。 2. 语义相似度计算方法： - 基于知网的词典，计算过程中主要依赖于义原间的上下位关系和路径。 - 计算过程包括以下步骤： - 提取义项中的义原表达式。 - 计算义原间的语义距离，这个距离考虑了义原在层次树中的路径长度、深度和密度。 - 通过权重函数调整，如递减的权重随层数增加，反映了深度因素。 - 最小公共节点（LCN）的概念被引入，用于衡量两个义原的共享信息量，这涉及到密度因素。 3. 公式设计： - 公式2定义了两个义原间的距离，考虑了路径长度和权重。 - 公式3给出了权重函数的具体形式，随着层次递增而递减。 - 公式4利用LCN和节点占比f(w)来综合考虑密度影响，从而计算出最终的词汇相似度。总结来说，这篇文章提供了一种基于Hownet的细致而系统的方法，通过深度、密度等多维度考量，准确计算出词汇之间的语义相似度，这对于文本挖掘、信息检索等领域具有重要的实际应用价值。

1. 相关知识

公式 1

其中 : ɑ 是一个可调节的参数，表示相似度为 0.5 时的语义距离值。

1.1 语义距离和语义相似度的关系见公式 1

1.2 知网

a) 义项：它是对词汇语义的一种描述，每一个词可以表达为几个义项，义项

是用一种知识表示语言来描述的，这种知识表示语言所用的词汇叫做义原。

b) 义原：它是用于描述一个概念的最小意义单位，从所有词汇中提炼出的可

以用来描述其他词汇的不可再分的基本元素。

知网的汉语知识库中每个词汇由一个四元组表示 :

W_X= 词语 E_X = 词语例子 G_X= 词语词性 DEF= 概念

定义

DEF 部分是表示词与义原的关系，也是词汇描述中最重要的部分，可以

简单地认为词是由义原通过某种关系构成的 .

剩余11页未读，继续阅读

knoeledge_zhangdidi

粉丝: 0
资源: 2

基于Hownet的词汇语义相似度计算方法详解

Python-OpenHowNet的Python包

Final_word_Similarity同义词词林扩展版与知网（Hownet）的词语相似度计算方法，词汇覆盖更多、结果更准确。

hownet+ntusd+python情感分析代码，一份积分三份资源

基于HowNet的词相似度计算

C#编写的基于知网HowNet的词语相似度计算

基于同义词词林扩展版与知网Hownet的词语相似度计算方法设计源码

汉语词语语义相似度计算研究1

基于Hownet的语义相似度计算方法与应用深度探讨

HowNet支持的词相似度计算方法及其应用

基于Hownet的中文词语语义相似度计算方法

最新资源