结合语义分析与词频统计的中文文本相似度改进方法

需积分: 10 5 下载量 137 浏览量 更新于2024-09-07 收藏 389KB PDF 举报
本文研究的焦点在于"语义分析与词频统计相结合的中文文本相似度量方法"。论文开篇指出,传统的基于统计的文本相似度计算方法,如TF-IDF(Term Frequency-Inverse Document Frequency)方法,通过将文本转化为词频向量并利用余弦相似度进行比较,其局限在于忽略了词项的语义信息,导致无法准确反映文本间的相似度。为了克服这个缺陷,论文作者研究了两种方法的优缺点:一是统计方法,二是基于语义的方法,后者依赖于知识库来建立词语之间的语义关系。 作者提出了一个创新的解决方案,首先对输入文本进行预处理,然后选择TF-IDF值较高的词项作为特征项。接着,引入HowNet语义词典,这是一种广泛使用的中文语义资源,结合TF-IDF方法,进行深度的语义分析。这种方法不仅考虑了词频,还考虑了词项的语义关联性,提高了文本相似度计算的精度。通过这种方法计算出的文本相似度被应用于基准文本数据集上的聚类实验。 实验结果显示,与仅使用TF-IDF方法或单纯依赖词语语义的方法相比,采用新提出的结合语义分析和词频统计的方法,所得的F度量值有显著提升。这强有力地证明了作者提出的文本相似度计算方法的有效性和优越性。该研究不仅提升了中文文本相似度评估的准确性,而且为实际应用中的信息检索、文本分类、文档摘要等提供了更为精确的技术支持。 该论文的作者包括华秀丽、朱巧明和李培峰,他们分别来自苏州大学计算机科学与技术学院以及江苏省计算机信息处理技术重点实验室,他们的研究领域涵盖了自然语言处理、中文信息处理和文本相似度计算等多个方面。论文的研究成果得到了国家自然科学基金、模式识别国家重点实验室开发课题基金、江苏省自然科学基金和高等学校博士学科点专项科研基金等多方面的资助。 关键词:向量空间模型、语义分析、词频、概率分布、文本相似度。这篇论文对于理解和改进文本相似度计算技术,特别是在处理中文文本时,具有重要的理论价值和实践意义。