大数据集下的划分采样初始聚类中心算法优化
71 浏览量
更新于2024-09-06
收藏 231KB PDF 举报
本文主要探讨的是"基于划分采样的初始聚类中心算法",这是一种针对大数据集的聚类中心选取问题提出的新策略。传统上,K-means算法和中心迭代算法在模式识别、图像处理等领域广泛应用,但它们对初始聚类中心的选择非常敏感,可能导致陷入局部最优解。为了改善这一问题,研究者们提出了各种方法来确定初始聚类中心,如SCS算法、Kaufman方法、PB算法、kd-trees算法等。
作者们针对大数据集的特点,借鉴了基于密度的划分算法和大规模数据集限定初值的采样算法的思想,设计了一种创新的划分采样算法。该算法的核心在于将聚类子空间在每一维上进行均匀划分,形成多个数据区域,然后根据每个区域内的数据点数量进行采样,以提高采样精度。这种方法有效地降低了数据集的规模,从而在时间和计算效率上取得了优势。
通过对不同规模和形状的数据集进行实验验证,结果显示,与现有的初始聚类中心算法相比,这种划分采样算法在准确率和运行时间上都表现出了明显的优势。这表明,该算法不仅能够提高聚类结果的质量,而且能有效避免局部最优陷阱,使得K-means等算法的迭代收敛速度加快。
总结来说,这篇论文主要贡献在于提出了一种结合了密度估计、采样策略和聚类子空间划分的初始聚类中心选择方法,为大数据集下的高效聚类提供了新的解决方案。它不仅提升了聚类的准确性和效率,也为解决实际应用中的大规模数据处理问题提供了一种实用工具。
3278 浏览量
1932 浏览量
314 浏览量
117 浏览量
2021-05-22 上传
300 浏览量
144 浏览量
116 浏览量
2021-10-17 上传

weixin_38725137
- 粉丝: 3

最新资源
- nokia6110数字排序游戏D代码实现与下载
- Extjs中文API与PDF教程智能感知资料包
- Windows平台Redis快速安装包提供
- 香港大学Java课程P2P图像传输项目解析
- C++实现游程编码的实用方法
- 掌握GEF入门技术,打造个性化图形化应用程序
- S2SH三大框架示例源码发布:完整可用的MyProject1.1
- 全面指南:设计多种有源滤波器,包括低通、高通与带通
- 单片机MAX485双机通信程序实现与验证
- Delphi控件实现Enter键切换焦点功能
- Boost 1.72.14.1版64位Windows安装包发布
- UltraCompare:高效二进制文件比较解决方案
- 探索OppiaMobile:Java开发者的移动学习平台
- CodeRushNET v3.2.1 正式版发布:DXCore集成指南
- ALTIUM PCB封装库分享:工作积累的宝贵资源
- Shop、CRM、BBS与SSH整合方案源码解析