全球加权K-means聚类算法研究及GPU加速

版权申诉

192 浏览量更新于2024-07-02 收藏 8.5MB PDF 举报

"本文主要探讨了基于Global K-means的多维数据聚类算法及其在GPU加速上的应用。" 在当前信息化社会中，随着数据高速度的增长，数据挖掘技术在人们的生活中扮演着越来越重要的角色。而聚类分析作为数据挖掘的一个关键部分，用于解析各种类型数据的现象。本章节主要关注多维数据的聚类算法分析，并提出了两种针对多维数据的聚类算法。同时，为了应对大规模数据处理时间的问题，研究了一种关联算法，即利用GPU进行加速。针对多维数据聚类过程中，不同维度对每个簇的影响程度不同的问题，文章提出了一种基于全局权重属性的K-means算法，称为Global Weighted K-means（GWKM算法）。GWKM算法融合了Local Attribute-Weighted K-means（LAWK-means）算法的属性权重概念与Global K-means聚类框架。通过考虑每个维度的重要性，该算法能够更准确地对数据进行聚类。 LAWK-means算法侧重于根据各个属性的局部权重对数据点进行加权，而Global K-means算法则考虑全局的聚类效果。GWKM算法结合两者，旨在平衡局部特征和全局结构，以提高聚类质量和效率。通过赋予不同维度不同的权重，算法可以更好地适应多维数据集的复杂性，减少因某些不重要维度造成的聚类误差。此外，为了进一步优化大规模数据处理的效率，论文还探讨了如何将这种聚类算法与GPU并行计算相结合。GPU的并行处理能力可以显著减少数据处理的时间，尤其在处理大量数据时，能有效提升聚类的速度和性能。通过对算法进行GPU加速，不仅能够实现更快的计算速度，还能处理更大规模的数据集，这对于实时或近实时的数据分析需求至关重要。本文的研究工作集中在改进多维数据聚类算法，以适应现代大数据环境，并通过GPU加速来提高处理效率。GWKM算法的提出和GPU的运用，为解决多维数据聚类问题提供了新的思路和技术支持，对于数据分析和挖掘领域具有重要的理论价值和实践意义。



󰁠



󰁠󰁏󰄻󰇧󰁏

󰂎󰇧󰄻󰁏󰂎󰇧󰄵

󰂎󰁱󰄻󰂎󰅎

󰃖󰆻󰆟󰅰󰄹

󰇒󰇧󰅏󰂾󰄻󰇒󰄻

󰂎



󰅙󰅎󰀸󰄡󰄤󰀊

󰇃󰅰󰁠󰁖󰄤󰅶󰅦

󰁠󰁖󰁖

󰄡󰄤󰁖󰁉

󰆚󰁱󰂷

󰇬󰅶󰅶

󰁠󰇬󰅕

󰁠󰇬󰅕

󰌽





󰅰󰀊󰁠󰂾󰅰

󰅰󰁱󰅰



󰇡







󰁉

󰁋













󰯶











第一章绪论

当ｍ

ａｘ∥舡５：Ｉ＋１’一甜５｛｜’Ｉ）＜￡时，这个循环停止，其中ｓ（ｏ＜ｓ＜１）是循环的终止

条件，而ｋ是循环次数。这个过程收敛于厶的一个局部最小值或鞍点。

与Ｋ．ｍｅａｎｓ算法一样，ＦＣＭ算法处理含有野点和噪声点的数据时也会遇到一

些困难，并且ＦＣＭ算法的最终划分也依赖于初始点的选取，针对这些缺点，文

献【３７１提出了一些改进的算法。另外由于ＦＣＭ中要计算隶属度矩阵，所以对于一

些大规模的数据ＦＣＭ会产生相应的计算负担。

１．３目前研究现状及发展方向

１．３．１聚类的研究现状

聚类分析方法是数据挖掘的重要手段之一。聚类主要是从空间ｘ中给定一个

有限的取样点集（或从数据库中取得有限例子的集合），聚类的目标是将数据聚

集成类，使得类间的相似性尽量小，而类内的相似性尽量大。在数据挖掘领域中，怠

由于要处理非常大而复杂的数据集，所以对传统的聚类方法提出两个需要尽量满

足的要求：（１）能同时处理数值属性和符号属性；（２）算法的效率要满足大数据集的

大数量、高复杂性、增量的要求。在已有的聚类方法中，如果能同时处理数值属

性和分类型属性，那么一般来说，效率很低；而对那些效率高的算法而言，它们

大都只能处理数值属性。

目前，人们研究的聚类方法大体可以划分为以下几类：

’

（１）划分法，如ｋ－ｍｅａｎｓ算法、ＰＡＭｌ２１、ＣＬＡＲＡ［２１、ＣＬＡＲＡＮＳ［３ｌ等；

（２）层次法，如ＢＩＲＣＨ［４１、ＣＵＲＥｔ５１、ＲＯＣＫ［１３１、ＣＨＡＭＥＬＥＯＮ［６１等；

（３）基于密度的方法，如ＤＢＳＣＡＮ［ｚｌ、ＯＰＴＩＣＳ［引、ＤＥＮＣＬ－－［９１等；

（４）基于网格的方法，如ＳＴＩＮＧ［１们、Ｗａｖｅ

Ｃｌｕｓｔｅｒｔｌｌｌ等；

（５）基于模型的方法，如ＣＯＢＷＥＢ［忆Ｊ；

１．３．２基于多维数据聚类算法的研究现状

’近年来，聚类分析技术向处理多维度海量数据的方向发展，子空间聚类很好

地解决了多维数据聚类问题。在众多学者的共同努力下，经过十几年的研究，目

前已经形成了许多种子空间聚类算法。目前的子空间聚类算法大致可以分为自顶

向下算法和自底向上算法两种。自底向上的子空间聚类算法如ＣＬＩＱＵＥ［１４Ｊ、

ＥＮＣＬＵＥＳｌ”Ｊ、ＦＩＮＤＩＴ［１９Ｊ等，主要是基于网格的聚类算法，它们利用子空间聚类

中密度的向下闭包特性，从低维到高维逐步搜索子空间中的聚类，它们几乎可以

１２

基于Ｇｌｏｂａｌ

Ｋ．ｍｅａｎｓ的多维数据聚类算法研究及其ＧＰＵ加速

找出子空间中的所有类。自顶向下的子空间聚类算法如ＰＲＯＣＬＵＳｌｌ６１、ＯＲＣＬＵＳＢ

７Ｊ

和近些年新提出的ＬＡＷ

Ｋ－ｍｅａｎｓ［３引、Ｅｎｔｒｏｐｙ

Ｗｅｉｇｈｔｉｎｇ

Ｋ．ｍｅａｎｓ算法１３们，主要是

通过迭代搜索的方法，对聚类的权重进行调整，最终完成对数据集的Ｋ个划分。

但是对于实际应用的需求，这些算法在生成聚类质量、执行效率、可伸缩性

的等多个方面仍有待改进。因此，研究并设计有效的多维数据聚类分析算法仍然

是一个具有实际意义的问题。

１．４本文主要工作及安排

由于在多维数据聚类过程中，数据的每个维度对每个类别的聚类所起的作用

不同，本文第二章提出了一种基于属性权重的全局Ｋ－ｍｅａｎｓ算法，即Ｇｌｏｂａｌ

ｗｅｉｇｈｔｅｄ

Ｋ．ｍｅａｎｓ（ＧＷＫＭ）算法。ＧＷＫＭ算法结合了ＬＡＷ

Ｋ－ｍｅａｎｓ算法的属性

权重的计算方法和Ｇｌｏｂａｌ

Ｋ－ｍｅａｎｓ算法的聚类框架，这样不仅求得了聚类中心，

而且确定了聚类属性权重，最终得到了较好的结果。实验表明，本章所提出的算

法是稳定的，聚类结果具有较大优越性。

为了能够有效地解决多维数据稀疏性所带来的聚类问题，第三章提出了一种

新的基于熵权重的全局Ｋ－ｍｅａｎｓ算法，即Ｇｌｏｂａｌ

Ｅｎｔｒｏｐｙ

ｗｅｉｇｈｔｅｄ

Ｋ－ｍｅａｎｓ（ＧＥＷＫＭ）算法。ＧＥＷＫＭ算法结合了Ｅｎｔｒｏｐｙ

Ｗｅｉｇｈｔｉｎｇ

Ｋｏｍｅａｎｓ算法的

熵权重计算方式和Ｇｌｏｂａｌ

Ｋ－ｍｅａｎｓ算法的聚类框架，将ＧＫＭ算法中每次进行聚

类中心的选取过程，‘引入Ｅｎｔｒｏｐｙ

Ｗｅｉｇｈｔｉｎｇ

Ｋ．ｍｅａｎｓ算法的计算方法，采用更加

合理的熵权重计算属性权重值，得到了更好的结果。通过大量实验表明，本章所

提出的算法是稳定的，能够有效地解决数据稀疏性所带来的聚类问题，且具有更

好的聚类结果。

本文提出的ＧＷＫＭ算法和ＧＥＷＫＭ算法都是基于Ｇｌｏｂａｌ

Ｋ－ｍｅａｎｓ算法的聚

类框架，所以为了解决Ｇｌｏｂａｌ

Ｋ－ｍｃａｎｓ算法计算复杂度大，不能满足处理大规模

数据挖掘问题的时间要求，所以第五章中提出了基于ＧＰＵ的并行Ｇｌｏｂａｌ

Ｋ－ｍｅａｎｓ

算法…ＰＧＫＭ

Ｍｉｘ算法，该算法并行了其中最为耗时的聚类中心的选取，为了更

加充分地挖掘ＰＧＫＭ．Ｍｉｘ算法的数据并行性，在第四章中进一步提出了

ＰＧＫＭ

ＩＲＧ算法，该算法引入了非规则归约方法来并行聚类中心的更新。并着重

描述了在ＧＰＵ上实现这两种并行算法的设计方案和操作细节。通过人工数据集和

ＵＣＩ数据集上进行的实验，验证了并行算法在不影响算法性能的基础上实现了很

高的加速比，说明了提出的并行算法的有效性。

第五章对本文工作进行了总结，并对进一步的研究进行了展望。

第二章基于特征权重的全局Ｋ．ｍｅａｎｓ算法

本章提出了一种用于解决多维数据的聚类算法一基于特征权重的Ｇｌｏｂａｌ

Ｋ－ｍｅａｎｓ算法（ＧＷＫＭ），该方法将ＬＡＷＫ－ｍｅａｎｓＩ邛】（ＬＫＭ）与Ｇｌｏｂａｌ

Ｋ．ｍｅａｎｓ

（ＧＫＭ）算法进行结合以处理多维数据聚类问题。ＧＷＫＭ算法采用ＧＫＭ的算

法框架，每次通过一个确定性的全局搜索过程来逐一增加一个新聚类中心，引入

采用权值度量策略的ＬＫＭ作为局部搜索技术。通过与其他五种Ｋ．ｍｅａｎｓ类的算

法在ＵＣＩ测试数据集的实验结果进行比较，验证了ＧＷＫＭ算法能够得到更优的

聚类结果。

近些年来，聚类分析在很多应用领域的数据变得越来越复杂。一个样本经常

会用很多个属性特征来描述，而对于聚类而言，有些属性起着比较重要的作用，

另外一些属性则只有很小的作用，甚至不影响对样本的聚类。很多传统的（基于一

距离的）聚类方法对于这些复杂多维数据不是很有效，主要是因为传统的Ｋ—ｍｅａｎｓ

类算法采用的是单纯的欧式距离度量方法，即计算每个样本到各个聚类中心的欧

式距离，然后将数据划分到距离最近的类中，很明显这种计算方法将样本的每个

属性对聚类的重要性简单的视为相等的，而实际上并不相同，所以对多维复杂数

据进行聚类的时候，这种传统的Ｋ－ｍｅａｎｓ类算法就不是很有效了。

。

为了解决这个问题，目前主要有两种技术：１．特征转移技术；２．特征权重或者

特征选择技术。一般来说，特征转移技术对于存在大量属性对于聚类无关的这种

情况并不适应。特征权重技术意即不同属性对于聚类的重要性和不同目标对于每

一类所起的作用都是不同的。它主要涉及两个方向：有监督的方法和无监督的方

法。在早期，提出了一些有监督特征权重的方法。近些年来，一些无监督的特征

权重方法被提了出来。因为这些方法大都是基于Ｋ－ｍｅａｎｓ的处理过程，所以基本

都是Ｋ－ｍｅａｎｓ类算法。不同的是，在Ｋ－ｍｅａｎｓ的每次迭代中，都引入了计算属性

权重值的步骤来优化权值和类别划分。

本章主要研究了无监督的特征权重技术，以其中一种经典的ＬＡＷ－Ｋ．ｍｅａｎｓｐＭ

（ＬＫＭ）算法作为代表进行研究。ＬＫＭ算法是基于Ｋ－ｍｅａｎｓ的一种局部属性权重方

法。为了确定目标属于哪一类，该算法采用权重差异测试方法来建立每一类的重

要属性组。之后又有一些学者对该方法进行了一些改进【３９１１４０１１４１１。Ｈ．Ｆｒｉｇｕｉａｎｄ和

Ｏ．Ｎａｓｒａｏｕｉ引入了每一个目标属于每一类的程度值以及每一类的每一个属性对于

聚类的作用［４２】。Ｌｉｐｉｎｇ

Ｊｉｎｇ，Ｍｉｃｈａｅｌ

Ｋ．Ｎｇ等人提出了一种熵权重Ｋ一均值算法，

剩余72页未读，继续阅读

programyp

粉丝: 90
资源: 9323

全球加权K-means聚类算法研究及GPU加速

MATLAB实现K-means多维聚类算法教程

基于多GPU的K-Means聚类算法实现与项目源码分享

Python实现K-means及Kernel K-means聚类算法详解

k-means聚类算法k-means聚类算法k-means聚类算法k-means聚类算法.txt

论文研究-基于遗传算法的多维快速聚类算法研究.pdf

论文研究-基于密度的K-means聚类中心选取的优化算法.pdf

聚类-基于Multi-GPU实现K-Means聚类算法-附项目源码-优质项目实战.zip

论文研究-基于邻域模型的K-means初始聚类中心选择算法 .pdf

论文研究-改进K-means的空间聚类算法.pdf

k-means多维数据聚类

最新资源