基于基于GVSM的文本相似度算法研究的文本相似度算法研究
提出了一种基于WordNet和GVSM的文本相似度算法,通过语义的路径长度和路径深度计算两个词的语义相似
度,结合改进的GVSM模型计算文本相似度,并对基于TFIDF-VSM模型和本文方法进行了比较。实验结果表
明,该算法取得了更好的准确率和效率。
摘摘 要:要: 提出了一种基于WordNet和GVSM的
关键词:关键词: 文本相似度;语义相似度;
文本相似度计算在文本信息处理相关领域有着广泛的应用。目前,文本相似度的研究主要有三种方式:(1)篇章与篇章之间
的相似度计算[1];(2)短语与篇章之间的相似度计算;(3)短语与篇章中段落的相似度计算。文本相似度计算方法主要有隐性语
义索引模型、向量空间模型、
本文使用WordNet进行相似度计算的方法,采用广义向量空间模型, 并对广义向量空间模型进行了扩展,得到了新的广义
向量空间模型。通过WordNet计算两个词的语义相似度,把语义相似度应用到GVSM模型中来计算文本相似度。实验结果表
明,该算法取得了较好的准确率和效率。
1 背景知识介绍背景知识介绍
1.1 向量空间模型向量空间模型
向量空间模型(VSM)是20世纪70年代末由Salton等[6]提出的一种代数模型。在近30年内,向量空间模型(VSM)被广泛应用到
信息检索、文本分类、文本聚类等领域,并取得了很好的效果。其基本思想是:假设词与词之间是不相关的,以向量表示文
本,每个维度对应于一个单独的词,则(w1,w2,w3,…,wn)文档dk可以看成相互独立的词条(t1,t2,t3,…,tn),为了表
示词条的重要程度,给每个词条赋予相应的权值wi,其中文档dk可用向量(w1,w2,w3,…,wn)表示。向量空间模型中的文
档相似度计算方法为:
其中wki、wpi分别是词ti在dk和dp的权值,n是向量的维度。向量空间模型的前提是假设词与词之间是不相关的,但这种假设
不现实,因为词与词之间往往存在语义相关。
1.2 广义向量空间模型广义向量空间模型
广义向量空间模型GVSM扩展的VSM模型,GVSM引入了词与词之间的相关度,并提出了一个新的向量空间,每个向量ti被
表示成2n维向量mr,其中r=1,2,…,2n。文档相似度计算方法为:
其中wki、wpi分别是词ti在dk和dp的权值,R(ti,tj)是词ti和tj的相关度。
1.3 WordNet介绍介绍
WordNet由普林斯顿大学认知科学实验室在1985年建立,是一部在线词典数据库系统,采用了与传统词典不同的方式,即
按照词义而不是词形来组织词汇信息。WordNet将英语的名词、动词、形容词、副词组织为Synsets,每一个Synset表示一个
基本的词汇概念,并在这些概念之间建立了包括同义关系(synonymy)、反义关系(antonymy)、上下位关系(hypernymy &
hyponymy)、部分关系(meronymy)等多种语义关系。不同的边代表不同的语义关系。
2 文档相似度计算文档相似度计算
2.1 语义相似度计算语义相似度计算
本文模型中使用WordNet衡量两个词的语义关系。分别考虑了路径长度SPC(Semantic Path Compactness)和路径深度
SPE(Semantic Path Elaboration),给定两个词的语义相关度SR(Semantic Relatedness)由SPC和SPE合并得出。下面给出相
关定义。