近似类抽样组合聚类:改善k-means与Fuzzy C-Means稳定性

需积分: 9 0 下载量 102 浏览量 更新于2024-09-06 收藏 316KB PDF 举报
"陈新泉的一篇论文探讨了一种基于近似类抽样的组合聚类方法,旨在解决k-means聚类算法和Fuzzy C-Means算法在处理大规模数据时存在的初始化敏感性和效率问题。" 文章指出,k-means聚类算法和Fuzzy C-Means算法虽然在时间复杂度上相对较低,分别为O(nmk*t)和O(nmct),但在处理海量数据时,由于其对初始化的敏感性,导致聚类结果的稳定性不足。k-means算法依赖于初始中心点的选择,如果初始点选取得当,能够得到良好的聚类效果,而选取不当则可能导致聚类质量下降。相比之下,k-中心点轮换法对初始化不那么敏感,且在结构较好的数据集上表现良好,但其较高的时间复杂度O((2^2)mkn)限制了它在大规模数据上的应用。 为了解决这些问题,论文提出了一种新的组合聚类算法,该算法结合了近似类抽样技术。通过近似类抽样,算法能够在保持较低时间复杂度(O(2mn))的同时,提高聚类的稳定性和准确性。这种方法旨在保留k-means和Fuzzy C-Means的优势,同时减少它们的缺点,尤其适合处理大规模数据集。 论文进一步介绍了聚类分析的基本概念,即寻找数据点集内的内在结构,使相同簇内的数据点彼此相似,不同簇之间的数据点相异。作者强调,将聚类问题转化为优化问题并采用数学规划方法是聚类分析研究的重要途径。k-means算法作为经典的聚类方法,其优化策略不涉及直接计算目标函数,因此时间复杂度相对较低,但对非凸形或大小差异大的数据分布识别能力有限。 论文的实验结果证明,新提出的混合聚类算法在聚类效果上与k-中心点轮换法相当,而在效率上更优。这种方法为大规模数据集的聚类提供了一个更有效且稳定的解决方案。这篇论文为解决聚类算法在大数据环境下的性能挑战提供了一个新的思路。