Spark并行K-means算法在识别电力系统不良数据中的应用

需积分: 0 197 浏览量更新于2024-08-05 收藏 553KB PDF 举报

"一种基于Spark和聚类分析的辨识电力系统不良数据新方法_孟建良1" 在电力系统智能化的背景下，数据量急剧增长，维度变得复杂，这为数据分析带来了新的挑战。电力系统中的不良数据是影响状态估计准确性的关键因素。传统的聚类算法在处理这种大规模高维数据时，受限于单机计算能力，往往效率低下。MapReduce框架虽然在处理大数据上有一定的优势，但对于需要频繁迭代计算的任务，其性能并不理想。孟建良和刘德超提出了一种基于Apache Spark的并行K-means聚类算法来识别电力系统中的不良数据。Spark作为一种分布式计算框架，以其内存计算和高效的迭代操作特性，更适合处理大数据和需要频繁迭代的分析任务。该方法首先选取某一节点的电力负荷数据作为研究对象，利用Spark的并行计算能力，执行K-means聚类算法，以提取出每日负荷特征曲线。通过这种方法，可以有效地检测和识别状态估计中的不良数据，从而提升状态估计的精度。为了验证方法的有效性，研究者使用了EUNITE提供的实际电力负荷数据进行实验。实验结果显示，基于Spark的并行K-means算法不仅提高了状态估计的准确性，而且在加速比和扩展性上优于基于MapReduce的方法，更加适合处理电力系统的海量数据。关键词涉及的技术和概念包括： 1. Spark：一个用于大规模数据处理的开源计算框架，以其快速、易用和可扩展性而闻名。 2. 聚类：一种无监督学习方法，通过寻找数据集内的相似性，将数据分组到不同的簇中。 3. K-means：经典的聚类算法，通过迭代优化过程，将数据分配到预设数量的簇中。 4. 电力系统：复杂的网络结构，包含发电、输电、配电等环节，其稳定运行依赖于准确的状态估计。 5. 不良数据：影响电力系统状态估计准确性的异常或错误数据。 6. 负荷曲线分类：通过对电力负荷数据的分析，划分出不同类型的负荷模式，有助于识别异常行为。该研究为电力系统大数据分析提供了一个有效工具，通过结合Spark的强大处理能力和聚类分析的洞察力，能够更准确地识别并处理不良数据，从而提高电力系统的整体运营效率和稳定性。

第 44 卷第 3 期电力系统保护与控制 Vol.44 No.3

2016 年 2 月 1 日 Power System Protection and Control Feb. 1, 2016

DOI: 10.7667/PSPC150548

一种基于 Spark 和聚类分析的辨识电力系统不良数据新方法

孟建良，刘德超

（华北电力大学控制与计算机工程学院，河北　保定　０７１００３）　

摘要：随着电力系统智能化建设的不断深入和推进，电力系统数据呈现海量化、高维化的趋势。针对电力系统中

的不良数据将导致电力系统状态估计结果的准确性降低，而传统聚类算法处理海量高维数据时单机计算资源不足，

近年来较流行的 MapReduce 框架不能有效处理频繁迭代计算等问题，提出一种基于 Spark 的并行 K-means 算法辨

识不良数据的新方法。以某一节点电力负荷数据为研究对象，运用基于 Spark 的并行 K-means 聚类算法提取出日

负荷特征曲线，分别对输电网状态估计中的不良数据进行检测和辨识。选用 EUNITE 提供的真实电力负荷数据进

行实验，结果表明此方法能有效提高状态估计结果的准确性，与基于 MapReduce 框架的方法相比，具有更好的加

速比、扩展性，能更好地处理电力系统的海量数据。

关键词：Spark；聚类；K-means；电力系统；不良数据；负荷曲线分类

A new method for identifying bad data of power system based on Spark and clustering analysis

MENG Jianliang, LIU Dechao

(School of Control and Computer Engineering, North China Electric Power University, Baoding 071003, China)

Abstract: With the development of intelligent power system construction, power data shows a massive and multi

dimensions trends. The bad data in power system reduces the accuracy of the estimation results in the state of the power

system, computational resources of the traditional clustering algorithms dealing with massive high dimensional data with

single machine are insufficient, and the MapReduce, more popular in recent years, cannot effectively deal with frequent

iteration calculation problem. According to the above, this paper puts forward a new method of identifying bad data with

parallel K-means algorithm based on Spark. To a certain node load data as the research object, the parallel K-means

clustering algorithm based on Spark is used to extract daily load characteristic curve, to detect and identify bad data in

state estimation of power transmission network respectively. Experiments are conducted with the data of the real load

provided by EUNITE, the results show that this method can effectively improve the accuracy of state estimation, and

compared with the method based on the MapReduce, it has better speed-up ratio, scalability, and can better process

massive data in power system.

Key words: Spark; clustering; K-means; power system; bad data; load curve classification

0 引言

随着智能电网的迅速发展，电力系统的数据呈

指数级增长，其结构和运行模式也越来越复杂，因

此对系统运行的可靠性、安全性和稳定性也就提出

了更高的要求

[1-3]

。电力系统状态估计是电力系统信

息管理系统中一个重要的组成部分

[4]

。由于客观原

因，除了正常的数据噪声，各信息采集单元所获取

的测量数据不可避免会有不良数据。不良数据的存

在会在不同程度上使电力系统状态估计结果失真，

从而不能准确得到系统真实的运行状态，可能会引

发未知的安全后果。因此，对不良数据进行检测和

处理就显得尤为重要

[5-6]

。

传统不良数据检测方法取得了大量成果，但仍

有不少问题未得到妥善解决。现今对电力数据进行

分析和分类控制时，前期处理大多用的是神经网络

法和聚类分析法等。文献[7]运用基于蚁群优化算法

的负荷序列聚类分析，提高了对外部气象等因素的

敏感性，对负荷曲线轮廓相似性具有更细致的聚类

性能，但聚类时间较长；文献[8]将模糊聚类技术与

下载后可阅读完整内容，剩余6页未读，立即下载

白羊的羊

粉丝: 45
资源: 280

Spark并行K-means算法在识别电力系统不良数据中的应用

一种基于Spark和聚类分析的辨识电力系统不良数据新方法.pdf

数据集.rar_uci_uci聚类数据_聚类_聚类 数据集_聚类数据集

聚类分析程序_graphj5u_聚类_聚类matlab_聚类分析程序_聚类分析_

系统聚类分析,快速聚类分析; 两步聚类分析分析

系统聚类分析,快速聚类分析; 两步聚类分析

谱聚类算法划分电力系统

大数据spark聚类分析实验

spark出租车数据聚类分析实验

java 聚类分析算法

基于密度的聚类算法有哪些

最新资源

数据集.rar_uci_uci聚类数据_聚类_聚类数据集_聚类数据集