在线多核模糊C均值聚类算法
63 浏览量
更新于2024-08-29
收藏 777KB PDF 举报
"联机核模糊C均值聚类方法,基于大规模数据的聚类算法,考虑核参数选择,采用多核学习思想,适用于数据流处理,对比现有算法有更好性能"
文章介绍了两种针对大规模数据的聚类算法,即联机核模糊C均值(Online Kernel Fuzzy C-Means, OKFCM)算法和联机多核模糊C均值(Online Multiple Kernel Fuzzy C-Means, OMKFCM)算法。这两种算法是在经典的模糊C均值(Fuzzy C-Means, FCM)聚类基础上,结合核方法(Kernel Method)和联机学习(Online Learning)理论发展而来的。
模糊C均值聚类是一种概率型聚类方法,它允许样本同时属于多个类别的可能性,并通过模糊隶属度来度量样本与类别的关系。在传统的模糊C均值中,每个样本被分配到每个类别的概率由其与类中心的距离决定。然而,对于大规模数据集,计算所有样本的隶属度矩阵可能会非常耗时和内存密集。
核方法是解决非线性问题的有效工具,它通过将数据映射到高维空间,使得原本在原空间中难以区分的数据在新的特征空间内变得可分。模糊C均值与核方法结合形成的核模糊C均值(Kernel Fuzzy C-Means, KFCM)能够处理非线性聚类问题。但选择合适的核函数和参数是一个挑战,可能影响聚类效果。
为了解决这个问题,文章提出了联机核模糊C均值(OKFCM)算法,该算法以联机学习的方式处理数据流,每次只处理一个或一小批样本,减少了对内存的需求,同时也使得算法更适合动态变化的数据环境。此外,文章进一步引入多核学习的概念,提出了联机多核模糊C均值(OMKFCM)算法。多核学习允许使用多个核函数组合,通过集成不同核的特性,可以更灵活地适应复杂的数据结构,缓解了核参数选择的困境。
通过对人工和真实数据集的实验验证,OKFCM和OMKFCM算法展现出了优于传统划分方式处理大规模数据的聚类性能。这些结果表明,这两种联机核模糊聚类算法在处理大规模数据流时,不仅保持了KFCM的聚类优势,还具有更好的效率和适应性。
这篇研究论文探讨了如何通过联机学习和多核学习技术改进模糊C均值聚类方法,以应对大数据的挑战,为实际应用提供了有效的聚类工具。
179 浏览量
2021-09-19 上传
2021-05-22 上传
309 浏览量
177 浏览量
2012-06-27 上传
2021-09-19 上传
114 浏览量
weixin_38727087
- 粉丝: 6
- 资源: 965
最新资源
- 点文件:我使用的各种计算机之间共享的点文件
- URLShortenerApp:使用TinyURL的API缩短URL的移动应用程序。 使用NativeScript构建
- UUID.js, 用于JavaScript的符合RFC的UUID生成器.zip
- matlab代码sqrt-ICML2020_SVMHeavy:支持ICML2020模拟的SVMHeavy版本
- BeckerAlliance
- vList.虚拟列表,cpp源码
- readme_generator:自述生成器
- ShopApp
- webGempa:网页设计tentang信息seputar bencana alam gempa dan cara-cara menanggulanginya
- FH,matlab排课源码+数据库连接,matlab源码之家
- wdb_scraper
- BvSshClient-Inst835.zip
- matlab有些代码不运行-NormFace:用于面部验证的L2HyperSphere嵌入式,在LFW上为99.21%
- Matlab对采样数据进行fft变换步骤含代码
- matlab/simulink搭建的电流滞环PWM仿真程序
- fen-eq04,概率数据关联算法matlab源码,matlab