
收稿日期:20180831;修回日期:20181026 基金项目:国家自然科学基金资助项目
作者简介:杨震(1994),男,福建南平人,硕士研究生,主要研究方向为聚类分析、轨迹预测(nudt_yz1994@163.com);王红军(1968),男,江
苏镇江人,教授,博士,主要研究方向为移动通信网、认知电子战.
基于加权 K近邻的改进密度峰值聚类算法
杨 震,王红军
(国防科技大学,合肥 230037)
摘 要:密度峰值聚类算法是一种新颖的密度聚类算法,但是原算法仅仅考虑了数据的全局结构,在对分布不
均匀的数据集进行聚类时效果不理想,并且原算法仅仅依据决策图上各点的分布情况来选取聚类中心,缺乏可
靠的选取标准。针对上述问题,提出了一种基于加权 K近邻的改进密度峰值聚类算法,将最近邻算法的思想引
入密度峰值聚类算法,重新定义并计算了各数据点的局部密度,并通过权值斜率变化趋势来判别聚类中心临界
点。通过在人工数据集上与 UCI真实数据集上的实验,将该改进算法与原密度峰值聚类、Kmeans及 DBSCAN
算法进行了对比,证明了改进算法能够在密度不均匀数据集上有效完成聚类,能够发现任意形状簇,且在三个聚
类性能指标上普遍高于另外三种算法。
关键词:数据挖掘;加权 K近邻;密度峰值;聚类
中图分类号:TP301.6 文献标志码:A 文章编号:10013695(2020)03006066705
doi:10.19734/j.issn.10013695.2018.08.0656
ImproveddensitypeakclusteringalgorithmbasedonweightedKnearestneighbor
YangZhen,WangHongjun
(NationalUniversityofDefenseTechnology,Hefei230037,China)
Abstract:Thedensitypeakclusteringalgorithmwasanewdensitybasedclusteringalgorithm,thealgorithmrequiresonlyone
inputparameteranddoesnotrequirefrequentiterativeprocesses.However,theoriginalalgorithm onlyconsiderstheglobal
structureofthedata,andtheeffectisnotidealwhenclusteringdatasetswithunevendistribution.Moreover,theoriginalalgo
rithmonlyselectstheclustercenteraccordingtothedistributionofpointsonthedecisiongraph,whichisnotreliable.Aiming
attheaboveproblems,thispaperproposedanimproveddensitypeakclusteringalgorithmbasedonweightedKnearestneigh
bor.Itintroducedtheideaofnearestneighboralgorithmintothedensitypeakclusteringalgorithm,refinedandcalculatedthe
localdensityofeachdatapoint,anddeterminedthecriticalpointoftheclustercenterbythetrendoftheslopeoftheweight.
Theimprovedalgorithmwascomparedwiththeoriginaldensitypeakclusteringalgorithm,KmeansalgorithmandDBSCANal
gorithmbyexperimentsontheartificialdatasetandUCIrealdataset.Itwasprovedthattheimprovedalgorithmcandealwith
thedensityunevendatasetandfindclustersofarbitraryshapes.Onthethreeclusterperformanceindicators,theimprovedal
gorithmisgenerallyhigherthantheotherthreealgorithms.
Keywords:datamining;weightedKnearestneighbor;densitypeaks;clustering
0 引言
聚类通常作为一种无监督学习方法被用于数据挖掘领域。
聚类分析的主要目的是将给定的集群划分为具有共同特征的
群组,特征相似的对象被分在一起,而特征差异较大的对象则
属于不同的群组。聚类在探索性模式分析、分组决策和机器学
习情境中 用 途 广 泛,包 括 文 档 检 索、图 像 分 割 和 模 式 分 类
等
[1]
。聚类方法按照原理不同一般可分为五类
[2]
,即划分聚
类(如 Kmeans++
[3]
)、层次聚类、密度聚类(如 DBSCAN
[4,5]
)、
网格聚类以及模型聚类,每种方法都有对应的优点和缺点。
基于密度的聚类算法假设聚类结构能够通过样本分布的
紧密程度确定,其优势在于可发现任意形状的簇。Rodriguez
等人
[6]
提出了一种新颖的密度聚类算法,即 密 度 峰 值 聚 类
(densitypeaksclustering,DPC)算法,该算法能够检测非球形
簇,并且不需要用户先验指定聚类数量。DPC算法只有截断
距离 d
c
这一个输入参数,因此稳定性良好。目前,已经有不少
学者将这种方法用于图像处理、模式分类等领域
[7~12]
。但是,
DPC算法仍然存在一些不足:a)在计算局部密度时,DPC算法
没有考虑到局部数据结构;b)采用启发式的决策图来选取聚
类中心,缺乏可靠的选择标准,例如,当样本集群中具有密度分
布不均匀的情况时,DPC算法的聚类结果往往不太理想,而具
有不同密度的簇在数据集中是非常常见的。图 1(a)~(c)为
DPC在不同输入参数下的聚类结果,与(d)中本文算法的聚类
结果相比可以看出,
DPC算法没有检测出样本数据集中所有
簇,它将原本由三个簇组成的样本数据集聚类为两个簇。当遇
到类似的密度不均匀数据集时,DPC算法无法给出准确的聚
类结果。
这几年来不断有学者针对 DPC算法的不足作出改进,但
同时也产生了新的问题。文献[13]基于信息熵理论提出了一
种自动确定最佳输入参数的改进算法,但是该算法仍然没有解
决对密度不均数据集聚类效果不佳的问题,并且确定参数的时
间成本大大增加。文献 [14]将 DPC和 Chameleon算 法 相 结
合,提出了 E_CFSFDP算法,解决了 DPC算法难以识别低密度
簇的问题,但是其模型较为复杂。文献[15]提出了 DPCKNN
算法,结合 KNN思想重新定义局部密度,一定程度上提升了算
法对密度不均匀数据集的聚类效果,但是该算法在聚类中心的
选择上与 DPC算法一样缺乏明确的标准。
本文提出了一种基于加权 K近邻的改进 DPC算法(AD
第 37卷第 3期
2020年 3月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol.37No.3
Mar.2020