在线多核模糊C均值聚类算法

0 下载量 63 浏览量 更新于2024-08-29 收藏 777KB PDF 举报
"联机核模糊C均值聚类方法,基于大规模数据的聚类算法,考虑核参数选择,采用多核学习思想,适用于数据流处理,对比现有算法有更好性能" 文章介绍了两种针对大规模数据的聚类算法,即联机核模糊C均值(Online Kernel Fuzzy C-Means, OKFCM)算法和联机多核模糊C均值(Online Multiple Kernel Fuzzy C-Means, OMKFCM)算法。这两种算法是在经典的模糊C均值(Fuzzy C-Means, FCM)聚类基础上,结合核方法(Kernel Method)和联机学习(Online Learning)理论发展而来的。 模糊C均值聚类是一种概率型聚类方法,它允许样本同时属于多个类别的可能性,并通过模糊隶属度来度量样本与类别的关系。在传统的模糊C均值中,每个样本被分配到每个类别的概率由其与类中心的距离决定。然而,对于大规模数据集,计算所有样本的隶属度矩阵可能会非常耗时和内存密集。 核方法是解决非线性问题的有效工具,它通过将数据映射到高维空间,使得原本在原空间中难以区分的数据在新的特征空间内变得可分。模糊C均值与核方法结合形成的核模糊C均值(Kernel Fuzzy C-Means, KFCM)能够处理非线性聚类问题。但选择合适的核函数和参数是一个挑战,可能影响聚类效果。 为了解决这个问题,文章提出了联机核模糊C均值(OKFCM)算法,该算法以联机学习的方式处理数据流,每次只处理一个或一小批样本,减少了对内存的需求,同时也使得算法更适合动态变化的数据环境。此外,文章进一步引入多核学习的概念,提出了联机多核模糊C均值(OMKFCM)算法。多核学习允许使用多个核函数组合,通过集成不同核的特性,可以更灵活地适应复杂的数据结构,缓解了核参数选择的困境。 通过对人工和真实数据集的实验验证,OKFCM和OMKFCM算法展现出了优于传统划分方式处理大规模数据的聚类性能。这些结果表明,这两种联机核模糊聚类算法在处理大规模数据流时,不仅保持了KFCM的聚类优势,还具有更好的效率和适应性。 这篇研究论文探讨了如何通过联机学习和多核学习技术改进模糊C均值聚类方法,以应对大数据的挑战,为实际应用提供了有效的聚类工具。