基于组件关系图的文本相似性检测新算法

0 下载量 156 浏览量 更新于2024-08-27 收藏 434KB PDF 举报
本文发表在《国际网络安全》杂志2015年9月第17卷第5期,页码637-642,主要探讨了一种新颖的文本相似性检测算法——基于组件关系图(Component Relation Map, CHM-TSD)。传统的文本相似度检测方法通常依赖于词频向量,这种方法在处理中文文本时存在高维稀疏的问题,难以准确反映文本的语义信息。 CHM-TSD算法的核心思想是利用汉字的数学表达形式,将每个汉字拆分成多个组件,以此来构建文本的特征表示。具体来说,通过统计每个组件在文本中的出现频率,形成组件直方图(Component Histogram Map, CHM),从而构建一个低维度且更密集的文本特征向量。这种方法有效地减少了文本表示的复杂性和维度,提高了信息的密度和可处理性。 为了评估不同距离公式在文本相似性检测中的效果,文章提出了四种距离计算公式进行实验对比。这可能包括欧氏距离、余弦相似度、Jaccard相似系数等常见的文本相似度度量方法,或者是针对CHM特性的自定义距离公式。作者通过对大量文本数据进行实验,旨在找出最能反映文本语义相似度的最佳距离公式。 实验结果部分展示了CHM-TSD算法相对于传统方法在文本相似度检测任务上的优势,可能包括更高的精确度、更好的召回率或更快的计算速度。此外,该研究还可能讨论了算法的鲁棒性、对噪声的抵抗能力以及在实际应用场景(如文本检索、文本聚类或情感分析)中的性能表现。 这篇文章为解决中文文本相似性检测中的问题提供了一个创新的解决方案,它通过组件关系图的构建和定制距离公式的选择,提高了文本特征的表达效率和相似度计算的准确性。这对于自然语言处理领域,特别是中文处理,具有重要的理论价值和实践意义。