仿射传播聚类优化K-means算法的研究与应用
需积分: 9 183 浏览量
更新于2024-09-06
收藏 397KB PDF 举报
"基于仿射传播聚类的K-means算法优化 .pdf"
在机器学习领域,聚类是一种无监督学习方法,用于将数据集中的样本分成不同的组或簇,使得同一簇内的样本相似度较高,而不同簇间的样本相似度较低。K-means算法作为最常用的距离敏感型聚类算法之一,它的核心思想是迭代地调整簇的中心和分配给簇的样本,直到达到收敛条件。然而,K-means算法存在一个显著的弱点:对初始聚类中心的选择非常敏感。一旦初始聚类中心选取不当,可能会导致最终的聚类结果产生较大偏差。
传统的K-means算法通常随机选择K个样本作为初始聚类中心。由于这种随机性,每次运行可能得到不同的聚类结果,这在处理大数据集时尤为明显,可能导致不稳定性和不可重复性。为了解决这一问题,研究者们提出各种策略来改进初始聚类中心的选择,例如K-means++算法。
本论文关注的是基于仿射传播聚类的K-means算法优化。仿射传播聚类(Affinity Propagation)是由Frey和Dueck在2007年提出的一种新型聚类方法,它不依赖于预先设定的簇的数量,而是通过传递消息来寻找“示范样例”(exemplars),这些示范样例可以代表整个簇的特征。与K-means不同,仿射传播聚类不是通过寻找簇的质心,而是通过最大化簇内样本之间的“相似度”。
论文中,作者周洋和任国霞提出了一种创新的方法,即先利用仿射传播聚类算法来确定更优的初始聚类中心,然后再执行标准的K-means算法进行聚类。这样做的目的是利用仿射传播聚类的全局信息优势来克服K-means的初始敏感性。通过这种方式,他们期望改进的算法能够提供更稳定且高质量的聚类结果。
实验部分,作者对比了改进后的算法与原始K-means算法在不同数据集上的性能,通过评估指标如轮廓系数、Calinski-Harabasz指数等来验证其优越性。实验结果表明,采用仿射传播聚类初始化的K-means算法在聚类效果上确实有所提升,证明了这种方法的有效性。
这项研究为K-means算法的优化提供了一个新的视角,将仿射传播聚类的优势引入到聚类中心的确定过程中,有助于改善聚类的稳定性和准确性。对于实际应用中需要处理大规模数据集或对聚类结果稳定性有高要求的场景,这种优化方法具有重要的实践意义。
2021-02-24 上传
点击了解资源详情
点击了解资源详情
2021-05-31 上传
2009-10-12 上传
2021-09-23 上传
2020-08-14 上传
点击了解资源详情
点击了解资源详情
weixin_39841856
- 粉丝: 491
- 资源: 1万+
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度