没有合适的资源?快使用搜索试试~ 我知道了~
首页自适应布谷鸟搜索的并行K-means聚类算法
自适应布谷鸟搜索的并行K-means聚类算法
需积分: 11 8 下载量 60 浏览量
更新于2023-03-16
评论 1
收藏 583KB PDF 举报
针对K-means聚类算法受初始类中心影响,聚类结果容易陷入局部最优导致聚类准确率较低的问题,提出了一种基于自适应布谷鸟搜索的K-means聚类改进算法,并利用MapReduce编程模型实现了改进算法的并行化。通过搭建的Hadoop分布式计算平台对不同样本数据集分别进行10次准确性实验和效率实验,结果表明:a)聚类的平均准确率在实验所采用的四种UCI标准数据集上,相比原始K-means聚类算法和基于粒子群优化算法改进的K-means聚类算法都有所提高;b)聚类的平均运行效率在实验所采用的五种大小递增的随机数据集上,当数据量较大时,显著优于原始K-means串行算法,稍好于粒子群优化算法改进的并行K-means聚类算法。可以得出结论,在大数据情景下,应用该算法的聚类效果较好。
资源详情
资源评论
资源推荐
收
稿日期
: 2016-10-27;
修回日期
: 2016-12-14
基金项目
:
国家科技重大专项资助项目
( 2012ZX07-307-002)
作者简介
:
王波
( 1960-)
,
男
,
辽
宁丹东人
,
副教授
,
主要研究方向为智能建筑与智慧城市
、
物联网与网络安全
( wangbo@ cqu. edu. cn)
;
余
相君
( 1992-)
,
男
,
硕
士
,
主要研究方向为物联网与网络安全
、
数据挖掘算法并行化
.
自适应布谷鸟搜索的并行
K-means
聚
类算法
*
王 波
,
余
相君
(
重
庆大学 计算机学院
,
重庆
400044)
摘 要
:
针对
K-means
聚类算法受初始类中心影响
,
聚类结果容易陷入局部最优导致聚类准确率较低的问题
,
提出了一种基于自适应布谷鸟搜索的
K-means
聚类改进算法
,
并利用
MapReduce
编程模型实现了改进算法的并
行化
。
通过搭建的
Hadoop
分布式计算平台对不同样本数据集分别进行
10
次准确性实验和效率实验
,
结果表
明
: a)
聚类的平均准确率在实验所采用的四种
UCI
标准数据集上
,
相比原始
K-means
聚类算法和基于粒子群优
化算法改进的
K-means
聚类算法都有所提高
; b)
聚类的平均运行效率在实验所采用的五种大小递增的随机数据
集上
,
当数据量较大时
,
显著优于原始
K-means
串行算法
,
稍好于粒子群优化算法改进的并行
K-means
聚类算
法
。
可以得出结论
,
在大数据情景下
,
应用该算法的聚类效果较好
。
关键词
:
聚类
; K-
均值算法
;
布谷鸟搜索算法
; Hadoop; MapReduce
中图分类号
: TP301. 6
文献标志码
: A
文章编号
: 1001-3695( 2018) 03-0675-05
doi:10. 3969 / j. issn. 1001-3695. 2018. 03. 008
Parallel K-means clustering algorithm based on adaptive c uckoo search
Wang Bo,Yu Xiangjun
( College of Computer Science,Chongqing University,Chongqing 400044,China)
Abstract: The original K-means clustering algorit hm is seriously affected by initial centroids of clustering and easy t o fall into
local opti ma. So this paper proposed an improved K-means clustering based on adaptiv e cuckoo search,and achieved the paral-
lelization of the improved algorithm using MapReduce programming model. It implemented a c c ur a c y experiments and efficie nc y
experiments 10 times respectively on Hadoop platform for every dif f e r e nt data sets,the experimental results show that: a) com-
pared with the original K-means algorithm and PSO-Kmeans,the average accuracy of clustering improved in the experiments
which test o n four UCI standard data sets; b) tested the average execution efficiency of clustering in the experiments which test
on five random incremental da t a sets,when the amount of data was very large,significantly better than original K-means algo-
rithm,slightly better than PSO-Kmeans. It can be concluded that the algori t hm c a n be applied to large data clustering,and
will play a significant effect.
Key words: clustering; K-means algorithm; cuckoo search algo r i t hm; Hadoop; MapReduce
0
引
言
K-means
聚类算法是一种基于
划分思想的聚类算法
,
具有
思路简单
、
聚类速度快
、
局部搜索能力强等特点
;
但同时也因为
其全局搜索能力弱
、
类中心初始化敏感
,
从而导致效率不足
、
准
确率低等缺点
[1]
。
很
多学者针对
K-means
聚类算法的局限性
展开研究与改进
,
为了得到质量较好的初始聚类中心
,
文献
[2]
采用谱图理论思想先通过相似性函数计算出样本的密度
,
然后再利用启发式规则动态生成初始聚类中心
,
但没有解决全
局搜索能力差的问题
;
文献
[3]
假设每个类中都包含一个样本
稠密区
,
然后基于最小生成树算法来初始化类中心
,
有效提高
了
K-means
聚类算法的准确率
,
但降低了算法的效率
;
为了增
强
K-means
聚类算法的全局搜索能力
,
文献
[4]
将改进的粒子
群优化
( particle swarm optimization,PSO)
算法与
K-means
聚类
算法相结合
,
并在运行过程中引入小概率随机变异操作来丰富
种群的多样性
;
文献
[5]
为了解决
K-means
聚类算法易陷入局
部收敛的问题
,
将遗传算法
( genetic algorithm,GA)
的编码
、
交
叉和变异思想与
K-means
聚类的局部寻优能力相融合
,
提出基
于遗传算法的
K-means
聚类算法
,
但这两种算法在数据量较大
时效率都较低
。
文献
[6]
针对
K-means
聚类算法对初始聚类
中心选择敏感而导致的聚类结果不稳定
、
聚类平均准确率低的
问题
,
提出一种改进的粒子群优化的
K-means
聚类算法
,
并在
Hadoop
分布式框架上实现了算法的并行化处理
,
使算法的效
率在数据量较大时有了显著的提升
。
文献
[7 ~ 10]
经过多种测试实验
,
将布谷鸟搜索
( cuckoo
search,CS)
算法与人工蜂群算法
、
萤火虫算法
、
粒子群算法等
群体智能仿生算法进行比较
,
结果表明
CS
算法的性能均接近
或优于其他经典的优化算法
。
布谷鸟搜索算法中的步长因子
对算法的搜索精度有很大的影响
[7]
,
本文采用自适应步长调
整策略来改进基本布谷鸟搜索算法
,
使其能够在局部搜索与全
局
搜索之间保持平衡
,
并利用
MapReduce
编程模型对改进后
的自适应布谷鸟搜索
( adaptive cuckoo search,ACS)
算法进行并
第
35
卷
第
3
期
2018
年
3
月
计算机应用研究
Application Research of Computers
Vol. 35 No. 3
Mar. 2018
qq_28339273
- 粉丝: 9
- 资源: 196
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0