证据累积的文本聚类谱算法:解决相似度设置难题

需积分: 10 0 下载量 164 浏览量 更新于2024-08-07 收藏 208KB PDF 举报
"使用证据累积的文本聚类谱算法 (2010年)" 本文主要介绍了一种创新的文本聚类方法——使用证据累积的文本聚类谱算法,旨在解决谱聚类算法中相似度函数设置的难题。在传统的谱聚类中,选择合适的相似度函数对聚类效果至关重要,但这一过程往往具有挑战性。该算法通过引入证据累积的思想,为这个问题提供了一个新的解决方案。 首先,该算法采用了超球K均值算法对文本集合进行多次聚类。超球K均值算法是一种扩展的K均值算法,它不是在欧氏空间中寻找聚类中心,而是在高维超球面上进行聚类,这有助于处理高维文本数据并克服维度灾难的问题。每次聚类得到的划分结果被视为判断两个文本是否应归入同一簇的证据。 然后,算法将这些证据累积起来,构建文本的相似度矩阵。这个矩阵反映了文本之间的关联程度,是进行谱聚类的基础。接着,利用这些相似度信息,算法构造了正则化拉普拉斯矩阵。正则化拉普拉斯矩阵能够捕捉数据的局部结构,并在聚类过程中起到平滑作用,防止过拟合。 在实验部分,研究者在TREC(Text REtrieval Conference)和ReuterS文本集上应用了该算法,并将其性能与层次聚类算法以及CLUTO库提供的K均值算法进行了比较。实验结果显示,提出的证据累积的文本聚类谱算法在聚类效果上优于这两种传统方法,证明了其在文本聚类领域的优越性和有效性。 关键词涉及的领域包括聚类分析、文本聚类、聚类谱、证据累积以及超球K均值。这些关键词揭示了文章的核心内容和技术手段,其中聚类分析是数据挖掘的关键技术,文本聚类是处理大量文本数据的有效工具,而聚类谱则是谱聚类算法的一种表现形式。证据累积和超球K均值算法则是本文提出的新方法和技术。 这篇论文提出了一种新颖的文本聚类策略,通过证据累积优化了相似度矩阵的构建,提高了谱聚类的效果,为文本数据的组织和理解提供了更优的解决方案。这种方法对于文本挖掘、信息检索以及自然语言处理等领域具有重要的实践意义。