并行化k-medoids聚类算法在电力通信大数据中的应用

118 浏览量更新于2024-09-03 收藏 367KB PDF 举报

"电力通信大数据并行化聚类算法研究" 随着电力通信技术的快速发展，大量的分布式电力通信子系统和海量通信数据涌现，这使得在大数据中挖掘关键信息成为一项重要任务。聚类分析作为一种有效的数据处理和信息挖掘工具，在电力通信领域被广泛应用。然而，传统的聚类算法，如k-means，由于其时间复杂度较高，在处理大规模电力通信数据时效率低下。为了解决这一问题，研究者提出了一种基于MapReduce模型的并行化k-medoids聚类算法。MapReduce是一种分布式计算模型，能够处理和生成大规模数据集，特别适合于大数据环境。在该算法中，首先引入了基于密度的聚类思想来优化k-medoids算法的初始点选择策略，以提高聚类的准确性和效率。通过在Hadoop平台上实现MapReduce编程框架的并行化处理，算法的运行速度得到了显著提升。实验结果证明，改进后的并行化聚类算法相比于其他算法，不仅减少了聚类所需的时间，而且提高了聚类的精度。这意味着电力通信数据的分析和利用变得更加高效。这对于实时监控、故障检测、网络优化等电力通信应用场景具有重要意义，能够帮助电力公司更快地识别模式、预测趋势和做出决策。在相关研究中，学者们已经尝试了各种并行化聚类算法，如文献[1]提出的DBSCAN并行优化算法，文献[2]的基于距离选择的k-medoids，文献[3]的蚁群k-medoids融合算法，文献[4]的粒计算聚类算法，以及文献[5]的迭代局部搜索方法。尽管这些算法在某些方面有所改进，但它们或受限于数据规模，或在处理大型数据集时存在效率问题，或在初始中心选取上仍有待优化。相比之下，本文的研究工作不仅关注了并行化处理，还特别强调了优化初始点选择策略，以提升聚类效果和处理大规模数据的能力。这种方法在实际应用中有望成为电力通信大数据分析的一个强大工具，有助于打破数据孤岛，促进电力系统的智能化和高效运营。

电力通信大数据并行化聚类算法研究电力通信大数据并行化聚类算法研究

随着电力通信技术的发展，产生了大量分布式电力通信子系统以及海量电力通信数据，在海量数据中挖掘重要

信息变得十分重要。聚类分析作为数据并行化处理和信息挖掘的一个有效手段，在电力通信中得到了广泛的应

用。然而，传统聚类算法在处理海量电力数据时已不能满足时间性能的要求。针对这一问题，提出了一种基于

MapReduce模型的并行化k-medoids聚类算法，首先采用基于密度的聚类思想对k-medoids算法初始点的选取策

略进行优化，并利用Hadoop平台下的MapReduce编程框架实现了算法的并行化处理。实验结果表明，改进的并

行化聚类算法与其他算法相比，减少了聚类时间，提高了聚类精度，有利于对电力数据的有效分析和利用。

0 引言引言

随着电力通信网络以功能为中心持续性发展，产生了大量分专业、分功能和分管理域的运维管理系统，进而导致大量电力

数据孤岛的产生。如何利用分布式系统更好地处理这些数据量巨大且类型复杂的电力通信运维数据已成为研究的热点问题。聚

类分析作为数据处理的一个有效手段，支持对大量无序分散数据进行整合分类从而进行更深层次的关联性分析或者数据挖掘，

在电力通信网络中得到越来越广泛的应用。同时，分布式系统中并行化处理机制因其优秀的灵活性和高效性逐渐成为数据挖掘

的一个重要研究方向。

国内外学者也越来越对这方面加大关注，文献[1]提出了一种基于DBSACN算法的并行优化的聚类算法。文献[2]中通过计算

距离选择最中心的k个数据点作为初始聚类中心，然后用k-medoids算法进行迭代聚类，提高了聚类效果，但不适合处理大规

模数据；文献[3]提出了一种蚁群 k-medoids 融合聚类算法，该算法不需要人为确定类簇数目和初始聚类中心，提高了聚类效

果，但也仅只适用于小型数据集；文献[4]采用基于粒计算的聚类算法，该算法在初始聚类中心的选取过程中的计算量较大，

且在处理大规模数据时存在时延问题；文献[5]提出了将局部搜索过程嵌入到迭代局部搜索过程中的方法，显著减少了计算时

间。文献[6]在Hadoop平台上实现了传统k-medoids聚类算法的并行化处理，减少了聚类时间，但在初始聚类中心的选取机制

上没有进行改进，没有提高聚类效果；文献[7]采用基于核的自适应聚类算法，克服了k-medoids 的初值敏感问题，但是没有降

低算法的时间复杂度。

综上所述，k-medoids聚类算法存在初始值敏感、运行速度慢、时间复杂度较高等问题，需要对k-medoids算法中初始点选

取以及并行化方式进行算法优化设计。

1 k-medoids聚类初始点选取改进机制聚类初始点选取改进机制

k-medoids算法是一种基于划分的聚类算法，具有简单、收敛速度快以及对噪声点不敏感等优点，因此在模式识别、数据挖

掘等领域都得到了广泛的应用。k-medoids算法初始中心点的选取十分重要，如果初始中心点选择的是离群点时，就会导致由

离群点算出的质心会偏离整个簇，造成数据分析不正确；如果选择的初始中心点离得太近，就会显著增加计算的时间消耗。因

此本文算法首先对初始中心点的选取进行优化。基于密度的聚类可以很好地分离簇和环境噪声，所以本文采用基于密度的聚类

思想，尽量减少噪声数据对选取初始点的影响。

定义1：点密度是对于数据集U中的数据集的样本点x，以x为球心，某一正数r为半径的球形域中所包含样本点的个数，记作

Dens(x)。其中：

本文算法中，首先对每个数据点并行计算点密度，并将点密度作为该数据点的一个属性。选取初始聚类中心的具体步骤如

下：

(1)计算数据集中m个数据点之间的距离。

(2)计算每个样本点的点密度Dens(x

)以及均值点密度AvgDens，将点密度大于AvgDens的点即核心点存入集合T中，并记录

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38717843

粉丝: 1
资源: 923

并行化k-medoids聚类算法在电力通信大数据中的应用

基于云计算平台Hadoop的并行k_means聚类算法设计研究_赵卫中1

并行随机交换：Java 中高效可靠的聚类算法

聚类算法并行化研究现状

适合大数据的聚类算法Mini Batch K-Means

大数据聚类算法具体是什么 其好处和应用到哪些方面

流程实例聚类算法研究现状

DPC聚类算法与CDP聚类算法

聚类算法和空间聚类算法的区别

K-means聚类算法和FCM聚类算法的优缺点对比

kmeans聚类算法跟层次聚类算法有什么区别

最新资源

大数据聚类算法具体是什么其好处和应用到哪些方面