基于熵的文本相似度新方法:平滑曲线验证有效性

需积分: 15 2 下载量 142 浏览量 更新于2024-09-07 收藏 1.05MB PDF 举报
本文档深入探讨了一种新颖的文本相似性计算方法,它基于熵理论来改进传统的文本比较技术。在传统的文本相似度计算中,主要依赖于字符级别的比较,例如使用编辑距离算法或寻找最长公共子序列,这些方法往往忽视了文本内部多个共同文本串对整体相似度的重要性。为了克服这一局限,研究者提出了一种创新性的思路,即在提取文本间的字符信息后,构建一个共同子文本串的度量维度,利用熵的概念来衡量两个文本的相似度。 熵作为一种信息论中的概念,可以用来量化信息的不确定性或信息的丰富程度。在文本相似性计算中,通过计算共同子文本串的熵值,可以反映出这些串在两个文本中的分布情况和信息含量。这种方法的优势在于,它能更好地捕捉到文本的语义关联,而不是简单地依赖字符的精确匹配。 论文首先介绍了实验背景和研究目标,即通过比较不同文本的熵值,来得到一个更为平滑且准确的相似度度量。研究者强调,这种方法在实际应用中,如信息检索、文本聚类或者文档摘要等场景下,能提供更为精准的文本相似性评估,有助于提高系统的性能和效率。 在实验部分,作者详细描述了他们的实验设计,包括数据集的选择、预处理步骤、以及如何利用熵计算公式来度量文本相似度。他们通过与传统方法如编辑距离和最长公共子序列进行对比,展示了新方法在相似度曲线上的改进,证明了其在处理文本相似性问题时的有效性和准确性。 此外,论文还提到了资金支持情况,包括国家自然科学基金项目和中国地质大学中央高校科研业务费专项基金,这显示了研究的学术背景和研究者的专业领域,即文本挖掘、地理信息处理、空间数据挖掘以及电力系统调度等领域。 总结来说,这篇论文提供了一种创新的文本相似性计算方法,它通过引入熵这一信息论概念,弥补了传统方法在处理文本内部结构信息方面的不足,有望在实际应用中展现出更好的性能。同时,论文的研究结果也为后续的文本分析和自然语言处理工作提供了新的思考方向。