英文句子相似度算法研究:变系数词性空间权值定义

需积分: 9 0 下载量 74 浏览量 更新于2024-09-08 收藏 1.05MB PDF 举报
"这篇论文研究了基于变系数词性空间权值定义的英文句子相似度算法,通过词性切分构建词性向量,并利用词性空间中的词项归并来定义动态权值。权值的计算结合了词项的词频信息以及WordNet语义词典,从而改进了文本相似度的计算方法。实验在微软研究院释义语料库上进行,结果显示该算法提高了文本相似度计算的准确性和稳定性。研究得到了国家自然科学基金、重庆市教委科技计划和重庆理工大学研究生创新基金的支持。作者包括黄贤英、张金鹏、赵明军和刘英涛,他们分别在信息检索、移动计算和社交媒体挖掘等领域有所专长。" 本文的研究焦点在于提升英文句子相似度计算的准确性和稳定性,主要贡献在于提出了一种新的算法。首先,它将短文本中的词项依据词性进行划分,形成词性向量。接着,这些词项被整合到一个词性空间中,词性空间的每个元素都有一个动态定义的权重。这个权重不再是静态的,而是根据词项的词频以及WordNet语义词典中的语义信息来确定。WordNet是一个广泛使用的英语词汇数据库,包含丰富的词汇关系,如同义词集(synsets)和词汇的上下位关系,这有助于捕捉词项之间的语义关联。 词项的词频信息反映了词在文本中的重要程度,而WordNet的语义信息则提供了词汇的深层含义,这两个因素结合起来可以更精确地量化词项在特定上下文中的意义。通过这种方式,短文本间的相似度不再仅仅依赖于词项的共现,而是转变为基于词性空间相似度的协同运算。 在实际应用中,这种改进的算法被应用于微软研究院的释义语料库,这是一个广泛使用的测试平台,用于评估句子相似度算法的效果。实验结果证实,新算法显著提高了文本相似度计算的准确率和稳定性。这意味着在信息检索、自然语言处理和机器学习等场景下,这种算法能更好地识别和理解文本的语义相似性,对于文本分类、问答系统和搜索引擎优化等领域具有潜在的应用价值。 这篇论文的创新之处在于引入动态的词性空间权值定义,结合词频和语义信息来改进文本相似度计算。这种方法不仅丰富了句子相似度计算的方法,也为未来的研究提供了一个有价值的参考框架,特别是在处理短文本和理解语义深度方面。