公共子串模型:一种新的文本相似度计算方法

需积分: 10 1 下载量 139 浏览量 更新于2024-09-10 收藏 591KB PDF 举报
"基于公共子串的文本相似度计算模型,旨在克服传统文本相似度计算模型过于依赖词频,而忽视词汇顺序的问题。该模型由苏振魁和田园提出,他们在向量空间模型基础上,构建了一个名为CommonSubstringModel (CSM)的新模型。CSM通过序差方法找出两篇文本中的公共子串,然后使用公共子串矩阵和TF-IDF方法,结合多级选择算法(基于最长公共子串长度)来确定文本间的相似度。实验证明,CSM在TREC9数据集上优于传统的向量空间模型。该研究的关键字包括:文本文档、相似度、公共子串和向量空间模型。" 文本相似度计算是信息检索、文本聚类和自然语言处理等领域的核心问题。然而,由于主观因素的影响,人们对同一文本的理解可能存在显著差异,这使得准确计算文本相似度成为一项挑战。传统的向量空间模型(VSM)是常用的文本相似度计算方法,它主要依据词频来衡量文本的相似性。但VSM的一个主要局限是它忽略了词汇在文本中的顺序信息。 苏振魁和田园的创新之处在于他们提出的基于公共子串的文本相似度计算模型(CSM)。CSM首先通过分析文本序列,找出两个文本共享的子串,这些公共子串反映了词汇的相对位置信息。然后,他们构建一个公共子串矩阵,这矩阵包含了这些子串的分布情况。接着,结合TF-IDF权重,这个矩阵可以量化每个公共子串的重要性。最后,通过一个多级选择算法,依据最长公共子串的长度来决定文本的相似度得分。这种方法能够更全面地捕捉文本的结构信息,从而提供更精确的相似度评估。 实验在TREC9数据集上进行,结果证明CSM在效果上优于VSM,表明考虑词汇顺序的CSM模型在某些场景下能提供更好的性能。这为文本相似度计算提供了新的思路,特别是在需要考虑词汇顺序影响的应用中,如信息检索、文本分类和自然语言理解等领域,CSM可能展现出更大的潜力和优势。