改进的K-means算法：离群点检测提升聚类精度

下载需积分: 45 | PDF格式 | 789KB | 更新于2024-08-13 | 165 浏览量 | 举报

"基于离群点检测的K-means算法是一种改进的聚类算法，最初发表于2014年。传统K-means算法因其简单易用和速度快，在实际应用中非常流行。然而，这种算法存在一个主要问题，那就是容易受到噪声数据的影响，这会导致聚类结果不稳定性以及较低的聚类精度。为解决这一问题，论文提出了一种创新方法，即通过离群点检测来增强K-means算法。在新的算法中，首先通过离群点检测技术识别出数据集中异常的点，这些点在常规情况下被认为是噪声或者与大多数数据点有显著差异。在选择初始聚类中心（种子）时，新算法避免将离群点选作初始中心，从而减少它们对后续聚类过程的负面影响。接着，对非离群点进行聚类后，根据每个离群点到各个已建立聚类中心的距离，将它们分配到最合适的簇中，进一步优化了聚类结果。该算法的关键在于它能有效地降低离群点对K-means算法的干扰，提高聚类的稳定性和准确性。实验结果显示，即使在给定固定数量的簇的情况下，在标准数据集UCI上，这种方法显著降低了离群点对聚类结果的影响，提升了聚类的精确度和稳定性。研究者还指出，聚类分析作为一种强大的数据挖掘技术，不仅可用于模式识别、空间数据分析等领域，而且在预处理其他数据挖掘方法时也发挥着重要作用。作者冷泳林等人，结合辽宁省科技厅项目、中国高等职业技术教育研究会规划课题以及辽宁省教育科学项目的支持，对K-means算法进行了深入研究，并展示了他们在数据挖掘特别是离群点处理方面的专业知识。论文的关键词包括聚类、K-means算法、离群点检测和UCI数据集，这些都反映了研究的焦点和贡献。总结来说，基于离群点检测的K-means算法是通过对原始数据集进行智能筛选和调整，提升聚类性能的有力尝试，这对于在现实世界中处理大规模、高噪音的数据集具有重要意义。"

　　收稿日期：２０１３－１０－０１．

　　基金项目：辽宁省科技厅项目（Ｎｏ：２０１３０２００１４），中国高等职业技术教育研究会规划课题（Ｎｏ：ＧＺＹＬＸ２０１１２１１），辽宁省教育科学 “ 二

五” 规划（Ｎｏ：ＪＧ１２ＤＢ２１１）．

　　作者简介：冷泳林（１９７８－），女，讲师，大连理工大学博士研究生，主要从事数据挖掘，大数据处理方面的研究．

　　通讯作者：ｌｅｎｇｙｏｎｇｌｉｎ＠ｑｑ．ｃｏｍ．

基于离群点检测的Ｋ－ｍｅａｎｓ算法

冷泳林

倡，１，２

，张清辰

２

，赵　亮

２

，鲁富宇

１

（１．渤海大学高职学院，辽宁锦州１２１００１；２．大连理工大学软件学院，辽宁大连１１６６２１）

摘　要：Ｋ－ｍｅａｎｓ算法以其简单、快速的特点在现实生活中得到广泛应用．然而传统Ｋ－

ｍｅａｎｓ算法容易受到噪声的影响，导致聚类结果不稳定，聚类精度不高．针对这个问题，提出一种

基于离群点检测的Ｋ－ｍｅａｎｓ算法，首先检测出数据集中的离群点，在选择初始种子的时候，避

免选择离群点作为初始种子．然后在对非离群点进行聚类完成后，根据离群点到各个聚类的距

离，将离群点划分到相应的聚类中．算法有效降低离群点对Ｋ－ｍｅａｎｓ算法的影响，提高聚类结

果的准确率．实验表明，在聚类类别数给定的前提下，在标准数据集ＵＣＩ上该算法有效降低离群

点对Ｋ－ｍｅａｎｓ算法的影响，提高了聚类的精确率和稳定性．

关键词：聚类；Ｋ－ｍｅａｎｓ算法；离群点；ＵＣＩ数据集

中图分类号：ＴＰ３１１　文献标志码：Ａ　文章编号：１６７３－０５６９（２０１４）０１－００３４－０５

０　引言

聚类是将物理或抽象对象的集合分成由类似的对象组成多个类的过程，即“物以类聚，人以群分”．聚类

是数据挖掘中的一类重要技术，是分析数据并从中发现有用信息的一种有效手段．它将数据对象分组成为多

个类或簇，使得同一簇中的对象之间具有较高的相似度，而不同簇中的对象差别很大

〔１〕

．聚类已经广泛应用

于模式识别、空间数据分析、经济学等领域．聚类分析既可以作为单独的工具发现数据集中隐含的相关知识，

又可以作为其他数据挖掘分析方法的预处理过程，其已经成为数据挖掘领域的一个重要的研究方向．

目前常用的聚类算法包括划分法、层次法、基于密度的方法、基于网格的方法和基于模型的方法等．其

中，基于划分方法思想的Ｋ－ｍｅａｎｓ算法以其简单、快速并有效处理大规模数据等诸多特点，成为现实应

用最为广泛的聚类算法．

Ｋ－ｍｅａｎｓ算法

〔２，３〕

适合聚类大型数据集，特别是当样本分布呈现类内团聚状时，可以达到很好的聚类

结果．但是，在有噪声数据影响时，Ｋ－ｍｅａｎｓ聚类算法结果易受初始聚类中心影响，导致聚类结果不稳定．

Ｋ－ｍｅａｎｓ算法过度依赖初始条件的缺点影响了该算法的聚类效果并制约了其应用范围．当前许多学者致

力于改进Ｋ－ｍｅａｎｓ算法的聚类中心选取方法，如基于均值－标准差选取方法

〔４〕

，基于近邻密度选取方

法

〔５〕

，基于密度参数的选取方法

〔６〕

等，然而这些算法没有充分考虑离群点对聚类的影响，导致最后聚类精

度提高不明显．针对这个问题，本文提出一种基于离群点检测的Ｋ－ｍｅａｎｓ算法，算法将离群点检测引入

传统Ｋ－ｍｅａｎｓ算法，首先检测出数据集中的离群点，在选择初始种子的时候，避免选择离群点作为初始

种子．在对非离群点进行聚类完成后，根据离群点到各个聚类的距离，将离群点划分到相应的聚类中．算法

有效降低离群点对Ｋ－ｍｅａｎｓ算法的影响，提高聚类结果的准确率．实验表明，在聚类类别数给定的前提

下，通过标准ＵＣＩ数据库进行实验比较，在保留噪声数据的同时，该算法有效提高聚类精度．

第３５卷第１期

２０１４年３月

渤海大学学报（自然科学版）

ＪｏｕｒｎａｌｏｆＢｏｈａｉＵｎｉｖｅｒｓｉｔｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅＥｄｉｔｉｏｎ）

Ｖｏｌ．３５，Ｎｏ．１

Ｍａｒ．２０１４

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38652090

粉丝: 2

改进的K-means算法：离群点检测提升聚类精度

基于分化距离的离群点检测算法 (2010年)

k-means离群点剔除法matlab代码

基于距离的离群点检测.zip_qundi_剔除 点_剔除离群点_基于距离_基于距离的离群点检测算法

matlab基于k近邻的离群点检测代码-kMOF:一种新的基于子结构的局部异常检测算法

混合属性离群点检测-基于邻域值差异度量的离群点检测(NVDMOD)算法

自适应离群点处理提升k-means聚类算法性能

GMM-KMeans-for离群值检测：针对一维时间序列数据，采用GMM和K-Means算法进行异常点检测。对于一维时间序列数据，使用GMM和K-means算法检测离群值。

EMCOD:一种增强的蒙特卡罗离群点检测方法-matlab开发

K-means算法

基于K-Means算法的雷达信号与分选方法

最新资源

基于距离的离群点检测.zip_qundi_剔除点_剔除离群点_基于距离_基于距离的离群点检测算法