分布式聚类算法研究：分类、比较与性能分析

需积分: 10 34 浏览量更新于2024-08-13 收藏 1.14MB PDF 举报

"分布式环境中聚类问题算法研究综述 (2013年) - 中央财经大学学科建设基金资助项目 - 海沫，张书云，马燕林" 这篇论文详细探讨了分布式聚类算法在处理分布式环境中数据集分类问题的应用。传统的集中式聚类方法适用于单一站点的数据集，但在分布式存储环境下显得力不从心。分布式聚类算法则能有效应对这一挑战，通过在多节点间协同工作，从分散的数据中挖掘出分类模式。论文首先对分布式聚类算法进行了分类，这通常包括基于中心节点的算法（如Gossiping-based算法）、基于分割的算法（如Divisive方法）和基于层次的算法（如Hadoop MapReduce框架下的算法）。这些算法各有特点，比如基于中心节点的算法可能具有较高的效率，但对中心节点的依赖性较强；基于分割的算法则能较好地并行处理数据，但可能需要多次通信和合并操作；而基于层次的算法则通过递归的方式逐步构建聚类结构，能够适应大规模数据。接下来，论文深入分析了各类算法的基本思想和优缺点。例如，基于中心节点的算法可能在大规模数据下表现出较高的计算效率，但由于需要频繁的信息交换，可能导致网络负载增加；基于分割的算法可能在初期划分阶段消耗较多的时间，但在后期处理每个子集时效率较高；基于层次的算法虽然初期设置复杂，但可以灵活调整聚类数量。为了进一步验证和比较这些算法的实际性能，论文选取了Iris和Wine两个经典数据集，从聚类精度和聚类时间两个关键指标出发，进行了实验评估。聚类精度是衡量算法能否准确发现数据集内在结构的关键，而聚类时间则反映了算法的运行效率。通过对比实验结果，论文为读者提供了选择适合特定场景的分布式聚类算法的依据。这篇论文为读者提供了一个全面了解分布式聚类算法的平台，涵盖了算法的分类、基本原理、优缺点以及实际应用中的性能比较。对于从事大数据处理、分布式系统和机器学习研究的学者和工程师来说，这篇综述具有很高的参考价值。

书书书

收稿日期：２０１２１２１６；修回日期：２０１３０３１２　　基金项目：中央财经大学学科建设基金资助项目

作者简介：海沫（１９７８），女，湖北人，副教授，博士，主要研究方向为分布式系统、对等网络（ｈａｉｍｏｚｈｉ＠ｇｍａｉｌ．ｃｏｍ）；张书云（１９６５），女，河南

人，副教授，博士，主要研究方向为经济数据建模和分析；马燕林（１９６５），女，山西人，教授，博士，主要研究方向为决策分析．

分布式环境中聚类问题算法研究综述



海　沫，张书云，马燕林

（中央财经大学信息学院，北京１０００８１）

摘　要：传统的集中式聚类是对集中存放在单个站点的数据集进行聚类，但不能解决数据分布存储环境下的聚

类问题，而分布式聚类算法是从分布存储的数据集中提取分类模式，因此能满足此需求。针对分布式聚类算法

进行综述和分析。首先对现有的分布式聚类算法进行了分类，然后对每类算法的基本思想和优缺点进行了比

较，最后采用Ｉｒｉｓ和Ｗｉｎｅ两个数据集对几种分布式聚类算法从聚类精度和聚类时间两方面进行了比较。

关键词：集中式聚类；分布式聚类；聚类精度；聚类时间

中图分类号：ＴＰ３１６４　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０１３）０９２５６１０４

ｄｏｉ

：１０．３９６９／ｊ．ｉｓｓｎ．１００１３６９５．２０１３．０９．００１

Ａｌｇｏｒｉｔｈｍｒｅｖｉｅｗｏｆｄｉｓｔｒｉｂｕｔｅｄｃｌｕｓｔｅｒｉｎｇｐｒｏｂｌｅｍｉｎｄｉｓｔｒｉｂｕｔｅｄｅｎｖｉｒｏｎｍｅｎｔｓ

ＨＡＩＭｏ，ＺＨＡＮＧＳｈｕｙｕｎ，ＭＡＹａｎｌｉｎ

（ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎ，ＣｅｎｔｒａｌＵｎｉｖｅｒｓｉｔｙｏｆＦｉｎａｎｃｅ＆Ｅｃｏｎｏｍｉｃｓ，Ｂｅｉｊｉｎｇ１０００８１，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｔｒａｄｉｔｉｏｎａｌｃｅｎｔｒａｌｉｚｅｄｃｌｕｓｔｅｒｉｎｇｃｌｕｓｔｅｒｓａｄａｔａｓｅｔｓｔｏｒｅｄｉｎａｓｉｎｇｌｅｓｉｔｅ，ｂｕｔｉｔｃａｎｎｏｔｓａｔｉｓｆｙｔｈｅｃｌｕｓｔｅｒｉｎｇｒｅ

ｑｕｉｒｅｍｅｎｔｓｗｈｅｎｄａｔａｉｓｄｉｓｔｒｉｂｕｔｅｄ，ｗｈｉｌｅｄｉｓｔｒｉｂｕｔｅｄｃｌｕｓｔｅｒｉｎｇｃａｎｓａｔｉｓｆｙｔｈｉｓｎｅｅｄ，ｆｏｒｉｔｅｘｔｒａｃｔｓｃｌａｓｓｉｆｉｃａｔｉｏｎｍｏｄｅｆｒｏｍ

ｄｉｓｔｒｉｂｕｔｅｄｄａｔａ．Ｔｈｉｓｐａｐｅｒｓｕｒｖｅｙｅｄａｎｄａｎａｌｙｚｅｄｄｉｓｔｒｉｂｕｔｅｄｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓ．Ｆｉｒｓｔｌｙ

，ｉｔｃｌａｓｓｉｆｉｅｄｅｘｉｓｔｉｎｇｄｉｓｔｒｉｂｕｔｅｄ

ｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓ．Ｔｈｅｎ，ｉｔｃｏｍｐａｒｅｄｂａｓｉｃｉｄｅａｓ，ａｄｖａｎｔａｇｅｓａｎｄｄｉｓａｄｖａｎｔａｇｅｓｏｆｅａｃｈｃｌａｓｓｏｆｔｈｅｓｅａｌｇｏｒｉｔｈｍｓ．Ｆｉｎａｌｌｙ，

ｉｔｕｓｅｄｔｗｏｄａｔａｓｅｔｓ—ＩｒｉｓａｎｄＷｉｎｅｔｏｃｏｍｐａｒｅｓｅｖｅｒａｌｄｉｓｔｒｉｂｕｔｅｄｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓｗｉｔｈｔｗｏｍｅｔｒｉｃｓ：ｃｌｕｓｔｅｒｉｎｇａｃｃｕｒａｃｙ

ａｎｄｃｌｕｓｔｅｒｉｎｇｔｉｍｅ．

Ｋｅｙｗｏｒｄｓ：ｃｅｎｔｒａｌｉｚｅｄｃｌｕｓｔｅｒｉｎｇ；ｄｉｓｔｒｉｂｕｔｅｄｃｌｕｓｔｅｒｉｎｇ；ｃｌｕｓｔｅｒｉｎｇａｃｃｕｒａｃｙ；ｃｌｕｓｔｅｒｉｎｇｔｉｍｅ

　　目前分布式数据库的应用越来越广泛，数据的集中式存储

和管理已逐渐转变为分布式存储和管理，大量异构数据存储在

地理位置分布不同的计算机上，这些计算机由局域网或广域网

彼此连接，如分布式移动网络、传感器网络和超级市场链等。

数据存储方式的改变必然会导致数据挖掘技术如聚类算法发

生相应的改变。聚类是将数据对象分组成为多个类或簇，同一

簇中的对象具有较高的相似度，而不同簇中的对象差别较大。

传统的聚类方法都是集中式的，即所有数据集都存放在一个站

点。而实际应用中，由于带宽限制、安全性、容错性等多方面原

因，将所有分布存储的数据集中在一起，或将大量数据从一个

站点传输到另一个站点几乎是不可能的。在分布式环境下如

何进行聚类已成为数据挖掘领域具有挑战性的前沿课题。

分布式聚类是从大规模、分布存储的数据集中提取分类模

式。其基本思想是：首先在各子站点进行局部聚类；然后各子

站点将局部聚类结果发送到主站点，主站点对这些局部聚类结

果进行全局聚类以得到全局聚类模型；最后主站点将全局聚类

模型发送到各子站点，各子站点根据该模型进行聚类更新。各

子站点传递给主站点的仅是本站点数据集中的一小部分代表

点，可能会忽略一些关键的点，因此分布式聚类算法的聚类准

确性比集中式聚类算法的聚类准确性低。如果想获得更高准

确性的聚类结果，必须传递更多的数据给主站点，这会增加站

点间的通信量。因此，如何在聚类准确性与通信量之间进行平

衡是分布式聚类算法的研究中面临的挑战。

　分布式聚类算法



　基于密度的分布式聚类算法

基于密度的聚类算法的思想是只要临近区域的密度超过

某个阈值就继续聚类。这里的密度是指对象或数据点的数目。

对于簇中的每一个点在其给定的半径范围内都至少包含给定

数目的点。其代表性的算法为

ＤＢＳＣＡＮ算法

［１］

。该算法可以

挖掘出任何形状的聚类，聚类结果与记录输入顺序无关，能够

有效地处理噪声。

Ｘｕ等人

［２］

提出ＤＢＳＣＡＮ算法的并行版本，该算法首先在

中心站点上将数据用Ｒ



树进行组织，然后将这些经过预处理

的数据分布存储在各子站点上，各子站点间通过消息传递进行

通信。

Ｊａｎｕｚａｊ等人

［３，４］

对ＤＢＳＣＡＮ算法进行了改进，提出基于密

度的分布式聚类算法

ＤＢＤＣ。ＤＢＤＣ算法包括局部聚类、全局

聚类和聚类结果更新三个步骤。首先，各子站点在给定领域半

径和最小密度的基础上分别执行ＤＢＳＣＡＮ算法进行局部聚

类，得到局部中心点集；然后从中选取能够反映数据分布特征

的部分中心点集作为局部代表对象并发送到主站点；主站点对

所有的部分中心点集再次执行ＤＢＳＣＡＮ聚类以得到全局聚类

结果，并将其广播到各子站点；各子站点根据全局聚类结果对

其局部数据集进行聚类更新。在选取部分中心点集时主要采

用Ｋｍｅａｎｓ算法，其主要思路是由用户指定每个簇的对象个

第３０卷第９期

２０１３年９月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．３０Ｎｏ．９

Ｓｅｐ．２０１３

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38640985

粉丝: 8
资源: 965

分布式聚类算法研究：分类、比较与性能分析

基于大数据的分布式隐私保护聚类挖掘算法研究

分布式环境下的聚类算法综述：精度与时间比较

分布式数据流聚类算法与高维降维研究

分布式环境中聚类问题算法研究综述.pdf

基于大数据的分布式隐私保护聚类挖掘算法研究.pdf

传感器网络分布式免疫遗传聚类算法研究.pdf

探索基于大数据的分布式隐私保护聚类挖掘算法.pdf

探索基于大数据的分布式隐私保护聚类挖掘算法.zip

同态加密的分布式K均值聚类算法研究.pdf

基于Hadoop MapReduce的分布式数据流聚类算法研究.pdf

最新资源