改进的中文短信聚类算法:CMAS与重标度优化

需积分: 0 0 下载量 125 浏览量 更新于2024-09-05 收藏 581KB PDF 举报
本文研究主要探讨了一种新颖的中文短信文本聚类方法——CMAS(Clustering Methods of A New Scaling),它旨在解决传统聚类算法在处理短信这种特定文本类型时所面临的挑战。短信文本因其本身的特性,如词汇稀疏性、高维度和非正态分布等,使得传统的聚类方法,如K-means和谱聚类(K-Harmonic Means,KHM)难以达到理想效果。K-means假设簇内数据分布均匀且独立,而谱聚类对初始聚类中心敏感,这些假设在短信文本中并不适用。 CMAS算法首先通过构建CMAS坐标系,选择一组具有良好区分度的方向,这些方向能够更好地反映短信文本的内在结构。然后,针对初始簇的分布特性,设计了特殊的重新标度函数,这个函数旨在调整各个坐标轴的重要性,以便在新尺度下更好地反映数据的分布特征。重新标度过程实际上是对原始特征空间进行了一种隐式映射,使得数据在新空间中的分布更加理想,从而提高了聚类决策的准确性。 相比于传统的K-means,CMAS算法的时间复杂度保持在相同水平,这意味着在效率上没有显著增加负担。实验结果表明,CMAS算法在保持较低时间复杂度的同时,能提供更高质量的聚类结果,显示出对中文短信文本的较好适应性。 论文作者刘金岭、冯万利和张亚红来自淮阴工学院计算机工程学院,他们共同提出了这个创新的聚类方法,旨在克服现有技术在处理短信文本上的局限,为实际应用中的短信分类、情感分析等任务提供了有力的工具。这项研究不仅提升了文本聚类的精度,也为未来针对特定领域文本数据的高效聚类算法开发奠定了基础。