数据挖掘研究领域聚类算法研究综述

需积分: 0 117 浏览量更新于2024-08-05 收藏 870KB PDF 举报

聚类算法研究综述聚类算法是数据挖掘研究领域的一种重要数据预处理方法，其目的是从无标签数据集中获得有价值数据集的内在分布结构，进而简化数据集的描述。历经几十年的研究，针对不同应用和数据特性已出现了千余种不同的聚类算法，但不同的聚类算法都有其特定的适用范围和不足。传统的聚类算法大致可分为划分聚类方法、层次聚类方法、密度聚类方法、网格聚类方法、模型聚类方法等。划分聚类方法是将数据集分成多个不相交的群体，每个群体都是紧凑的，且每个数据点都属于一个群体。层次聚类方法是将数据集分成多个层次的群体，每个层次都有其特定的特征。密度聚类方法是基于数据点的密度来确定聚类的边界。网格聚类方法是将数据集分成多个网格单元，每个网格单元都有其特定的特征。模型聚类方法是基于统计模型来确定聚类的边界。近年来，出现了一些新的聚类算法，如同步聚类算法、信念传播聚类算法和密度峰值聚类算法等。同步聚类算法是通过同步机制来确定聚类的边界。信念传播聚类算法是基于概率论来确定聚类的边界。密度峰值聚类算法是基于数据点的密度来确定聚类的边界。聚类算法的应用非常广泛，如数据挖掘、机器学习、模式识别、图像处理等领域都有其应用。例如，在数据挖掘领域，聚类算法可以用于发现数据集的内在分布结构，从而简化数据集的描述。在机器学习领域，聚类算法可以用于特征选择和降维。在模式识别领域，聚类算法可以用于图像分割和目标识别。聚类算法是数据挖掘研究领域的一种重要数据预处理方法，已经有了许多不同的聚类算法，每种算法都有其特定的适用范围和不足。因此，在选择聚类算法时，需要根据具体的应用和数据特性来选择合适的算法。在选择聚类算法时，需要考虑以下几个方面：首先，需要考虑数据集的特性，如数据集的规模、维度、分布等。其次，需要考虑聚类算法的适用范围，如数据挖掘、机器学习、模式识别等领域。最后，需要考虑聚类算法的优缺点，如计算复杂度、精度、可扩展性等。聚类算法是数据挖掘研究领域的一种重要数据预处理方法，已经有了许多不同的聚类算法，每种算法都有其特定的适用范围和不足。在选择聚类算法时，需要根据具体的应用和数据特性来选择合适的算法，并考虑算法的优缺点。

第 6 卷第3期

2017 年 5 月

集成技术

JOURNAL OF INTEGRATION TECHNOLOGY

Vol. 6 No. 3

May 2017

收稿日期：2016-10-30 修回日期：2017-03-24

基金项目：重庆市基础与前沿研究计划项目(cstc2016jcyjA0521、cstc2016jcyjA2033)；重庆三峡学院科学研究项目计划资助(16PY08)；重庆市

高校市级重点实验室资助项目(C16)

作者简介：陈新泉(通讯作者)，博士，教授，研究方向为数据挖掘，E-mail：chenxqscut@126.com；周灵晶，主管护师，研究方向为医疗信息

分析等；刘耀中，工程师，研究方向为地球勘探数据处理。

聚类算法研究综述

陈新泉

1,2

周灵晶

刘耀中

(重庆三峡学院智能信息处理与控制重点实验室重庆 404100)

(电子科技大学大数据研究中心成都 611731)

(中国石油塔里木油田分公司库尔勒 841000)

摘要聚类是数据挖掘研究领域的一种重要数据预处理方法，其目的是从无标签数据集中获得有价

值数据集的内在分布结构，进而简化数据集的描述。历经几十年的研究，针对不同应用和数据特性已

出现了千余种不同的聚类算法，但不同的聚类算法都有其特定的适用范围和不足。传统的聚类算法大

致可分为划分聚类方法、层次聚类方法、密度聚类方法、网格聚类方法、模型聚类方法等。通过对传

统聚类方法的回顾和总结，文章重点介绍了近年来出现的同步聚类算法、信念传播聚类算法和密度峰

值聚类算法，并针对以上聚类算法的应用及发展方向进行了论述。

关键词数据挖掘；聚类；信念传播；同步聚类；密度峰值

中图分类号 TP 181 文献标志码 A

Review on Clustering Algorithms

CHEN Xinquan

1, 2

ZHOU Lingjing

LIU Yaozhong

( Key Laboratory of Intelligent Information Processing and Control, Chongqing Three Gorges University, Chongqing 404100, China )

( Big Data Research Center, University of Electronic Science and Technology of China, Chengdu 611731, China )

( Tarim Oileld Company of PetroChina, Koler 841000, China )

Abstract Clustering is an important research topic in data mining domain for data preprocessing. Clustering

is an unsupervised learning method that tries to nd out some obvious clusters in the unlabeled data. It is usually

performed by maximizing the similarity of inner-clusters and minimizing the similarity of inter-clusters. A lot of

clustering algorithms have been proposed to solve various tasks and data properties in the past decades. However,

all existing clustering methods have their own pros and cons, and there still lack of a clustering method with

universality. Traditional clustering methods are usually classied into partitioning methods, hierarchical methods,

density-based methods, grid-based methods and model-based methods. With a brief review to classical clustering

methods, we put emphasis on introducing some recent emerging clustering methods like synchronization

clustering algorithm, affinity propagation algorithm and density peaks algorithm. Based on the analysis and

comparison of these algorithms, their potential applications and research directions are also discussed.

Keywords data mining; clustering; afnity propagation; synchronization clustering; density peak

下载后可阅读完整内容，剩余8页未读，立即下载

曹多鱼

粉丝: 29
资源: 314

数据挖掘研究领域聚类算法研究综述

K-Means聚类算法研究综述_杨俊闯.pdf

Kmeans聚类算法获得anchor_box

模糊均值聚类算法.zip_模糊聚类算法_模糊聚类预测_模糊预测_聚类算法 预测_聚类负荷预测

基于模型的文本聚类算法研究_尹建华_第4章_基于狄利克雷过程多项式混合模型的文本聚类算法_51_77.caj

三种聚类算法.zip_FCM聚类_fcm_聚类_聚类算法

主动半监督K_means聚类算法研究及应用_吕峰.caj_基于K-MEANS_半监督百万级数据师生模型_K._聚类算法_聚类_源

断面确定_谱聚类算法.zip_ieee39节点_matlab_聚类算法_谱聚类_输电断面

FCM,GK,GG模糊聚类算法.zip_FCM聚类分类_fcm_fcm 数据_gg_模糊聚类

APdemo12.rar_AP Clustering_AP聚类算法_DEMO_ap聚类_聚类算法

iris .zip_数据聚类_模糊算法_聚类数据集_聚类算法_遗传聚类算法

最新资源

模糊均值聚类算法.zip_模糊聚类算法_模糊聚类预测_模糊预测_聚类算法预测_聚类负荷预测