基于粒度计算的K-均值最佳聚类数确定算法
需积分: 50 101 浏览量
更新于2024-08-08
1
收藏 392KB PDF 举报
"一种确定最佳聚类数的新算法 (2012年) - 谢娟英, 马菁, 谢维信 - 陕西师范大学学报(自然科学版) - 第40卷第1期 - 使用粒度计算、模糊等价聚类和改进全局K-均值算法确定最佳聚类数"
本文主要介绍了一种解决K-均值聚类算法中预设聚类数K问题的新方法。K-均值算法在聚类分析中广泛应用,但它的一个显著缺点是需要用户事先指定聚类的数量K,这对许多实际应用来说是个挑战,因为合适的K值往往未知。为了解决这一问题,研究者将粒度计算的概念引入样本相似度函数,并定义了新的样本相似度度量。
首先,他们利用模糊等价聚类技术来确定数据集可能的最大类簇数Kmax,这为寻找最佳聚类数提供了一个上限。模糊等价聚类允许数据点以不同程度属于多个类别,增加了对数据复杂性的适应性。接着,以Kmax作为搜索范围的上限,研究人员采用了改进的全局K-均值聚类算法。全局K-均值算法旨在减少局部最优解的影响,提高聚类质量。
在确定最佳聚类数的过程中,文章提出了使用BWP(Between-within Proportion)作为聚类有效性度量指标。BWP指标衡量的是类间距离与类内距离的比例,它能帮助识别那些边界清晰、内部紧密的聚类。通过优化BWP,可以找到使聚类效果最佳的K值。
实验部分,该算法在UCI机器学习数据库和人工模拟数据集上进行了验证。结果表明,提出的算法能够有效地确定数据集的最佳聚类数,同时适用于大规模数据集。然而,算法的性能可能会受到数据集中噪声点的影响,这是未来改进的方向。
关键词涉及到的信息粒度、K-均值、全局K-均值、模糊相似度和BWP聚类指标,都是聚类分析中的关键概念。信息粒度理论提供了一种处理复杂数据的方法,而K-均值和全局K-均值是两种常见的聚类算法。模糊相似度考虑了数据的不确定性,而BWP则是一种评估聚类质量的有效工具。
这篇论文提出了一种创新的聚类数确定策略,它结合了粒度计算和模糊等价聚类的优点,以更灵活和有效的方式应对K-均值算法的局限性,对于数据挖掘和机器学习领域的研究具有重要的参考价值。
2021-06-16 上传
2012-11-21 上传
2021-06-16 上传
2021-05-24 上传
2021-05-22 上传
2021-05-15 上传
2021-05-18 上传
点击了解资源详情
2021-05-22 上传
weixin_38665449
- 粉丝: 8
- 资源: 963
最新资源
- 掌握Jive for Android SDK:示例应用的使用指南
- Python中的贝叶斯建模与概率编程指南
- 自动化NBA球员统计分析与电子邮件报告工具
- 下载安卓购物经理带源代码完整项目
- 图片压缩包中的内容解密
- C++基础教程视频-数据类型与运算符详解
- 探索Java中的曼德布罗图形绘制
- VTK9.3.0 64位SDK包发布,图像处理开发利器
- 自导向运载平台的行业设计方案解读
- 自定义 Datadog 代理检查:Python 实现与应用
- 基于Python实现的商品推荐系统源码与项目说明
- PMing繁体版字体下载,设计师必备素材
- 软件工程餐厅项目存储库:Java语言实践
- 康佳LED55R6000U电视机固件升级指南
- Sublime Text状态栏插件:ShowOpenFiles功能详解
- 一站式部署thinksns社交系统,小白轻松上手