并行PK-means算法在MapReduce上的应用：气象大数据分析

需积分: 10 51 浏览量更新于2024-08-12 收藏 1.04MB PDF 举报

"基于MapReduce的气象数据并行PK-means算法 (2012年)：随着气象信息化的发展，数据量急剧增长，传统的K-means算法处理效率低下。论文提出了一种采用MapReduce框架的并行聚类算法PK-means。在Map阶段，计算数据点与中心点的距离并分配新的类别；Reduce阶段则根据Map的结果计算新的聚类中心，通过迭代优化，仅计算中心点与其所属类别的点的距离。实验表明，PK-means算法具有高效性和良好的可扩展性，适用于大规模气象数据分析。" 本文主要讨论了在气象数据处理中，面对指数级增长的数据量，传统的K-means算法存在的局限性。K-means算法是一种经典的聚类方法，其主要缺点在于处理大数据集时的计算复杂度和内存需求。为了克服这些限制，研究者引入了分布式计算框架MapReduce，设计了一种名为PK-means的并行聚类算法。 MapReduce是Google提出的一种处理和生成大型数据集的编程模型，它将大任务分解为多个小任务，分布在网络中的多台机器上并行执行。在PK-means算法中，Map函数扮演了关键角色，它负责接收输入数据，计算每个数据点与当前聚类中心的距离，并分配数据点到最近的中心点所在的类别。这一过程可以并行化，大大提高了处理速度。 Reduce函数则用于整合Map阶段的结果，计算每个类别的新中心。由于Reduce阶段只需处理每个类别的数据，而不是所有数据，因此减少了计算量，进一步提升了效率。通过迭代过程，算法不断更新聚类中心，直至满足停止条件，如聚类中心不再显著变化或达到预设迭代次数。在实际应用中，PK-means算法展现了强大的计算能力，尤其适用于处理气象领域的海量数据。气象数据通常包括温度、湿度、风速等多种参数，且随时间连续记录，数据量巨大。利用MapReduce的并行计算能力，PK-means能够快速有效地完成对这些数据的聚类分析，从而挖掘出潜在的气候模式和规律，对天气预报、气候研究等有重要价值。此外，论文通过实验验证了PK-means算法的性能，证明了其在处理大规模数据时的优越性，并具有很好的可扩展性，意味着随着硬件资源的增加，算法的性能可以线性提升。这使得PK-means成为应对大数据挑战的有效工具，特别是在气象科学和其他类似领域。总结来说，"基于MapReduce的气象数据并行PK-means算法"是一项创新性的技术，它结合了分布式计算的优势，为解决气象数据的聚类问题提供了一个高效的解决方案，对于推动气象科学的研究和实践具有重要意义。

第３４卷　第１２期

２０１２年１２月

武　汉　理　工　大　学　学　报

ＪＯＵＲＮＡＬＯＦＷＵＨＡＮＵＮＩＶＥＲＳＩＴＹＯＦＴＥＣＨＮＯＬＯＧＹ

Ｖｏｌ．３４　Ｎｏ．１２

　Ｄｅｃ．２０１２

ｄｏｉ：１０．３９６３／

ｊ

．ｉｓｓｎ．１６７１‐４４３１．２０１２．１２．０２８

基于ＭａｐＲｅｄｕｃｅ的气象数据并行ＰＫ‐ｍｅａｎｓ算法

薛胜军

１，２

，潘吴斌

１

（１．南京信息工程大学计算机与软件学院，南京２１００４４；２．武汉理工大学计算机学院，武汉４３００６３）

摘　要：　随着气象信息化程度日益提高，气象数据呈指数级增长。由于数据量的过快增长，Ｋ‐ｍｅａｎｓ算法很难满足实

际应用需求，根据气象数据的特征，提出一种基于ＭａｐＲｅｄｕｃｅ的并行聚类算法ＰＫ‐ｍｅａｎｓ，其中Ｍａｐ函数计算数据对象

到中心点的距离，并重新标记新的聚类类别，Ｒｅｄｕｃｅ函数根据中间结果计算新的聚类中心，然后迭代计算，中间迭代只

计算中心点到所属类的所有点的距离，实验结果显示该算法具有很强的计算能力和可扩展性。

关键词：　云计算；　ＰＫ‐ｍｅａｎｓ；　ＭａｐＲｅｄｕｃｅ；　大规模数据

中图分类号：　ＴＰ３１２文献标识码：　Ａ文章编号：１６７１‐４４３１（２０１２）１２‐０１３９‐０４

ＰａｒａｌｌｅｌＰＫ‐ｍｅａｎｓＡｌｇｏｒｉｔｈｍｏｎＭｅｔｅｏｒｏｌｏｇｉｃａｌＤａｔａＵｓｉｎｇＭａｐＲｅｄｕｃｅ

ＸＵＥＳｈｅｎ

ｇ

‐

ｊ

ｕｎ

１，２

，ＰＡＮＷｕ

‐

ｂｉｎ

１

（１．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒ＆Ｓｏｆｔｗａｒｅ，ＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅ＆Ｔｅｃｈｎｏｌｏｇｙ，Ｎａｎｊｉｎｇ２１００４４，Ｃｈｉｎａ；

２．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ＷｕｈａｎＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｗｕｈａｎ４３００６３，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：

　Ｗｉｔｈｔｈｅｉｍｐｒｏｖｅｍｅｎｔｏｆｍｅｔｅｏｒｏｌｏｇｉｃａｌｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ，ｍｅｔｅｏｒｏｌｏｇｉｃａｌｄａｔａｉｎｃｒｅａｓｅｓｅｘｐｏｎｅｎｔｉａｌｌｙ．

Ｈｏｗｅｖｅｒ，ｄｕｅｔｏｔｈｅｒａｐｉｄｇｒｏｗｔｈｏｆｄａｔａ，Ｋ‐ｍｅａｎｓａｌｇｏｒｉｔｈｍｃａｎｎｏｔｅａｓｙｔｏｍｅｅｔｔｈｅａｃｔｕａｌａｐｐｌｉｃａｔｉｏｎ．Ｂａｓｅｄｏｎｃｈａｒａｃ‐

ｔｅｒｉｓｔｉｃｓｏｆｍｅｔｅｏｒｏｌｏｇｉｃａｌｄａｔａ，ａｐａｒａｌｌｅｌＫ‐ｍｅａｎｓａｌｇｏｒｉｔｈｍ（ＰＫ‐ｍｅａｎｓ）ｂａｓｅｄｏｎＭａｐＲｅｄｕｃｅｉｓｐｒｏｐｏｓｅｄｉｎｔｈｉｓｐａｐｅｒ，

ｔｈｅｄｉｓｔａｎｃｅｂｅｔｗｅｅｎｅａｃｈｐｏｉｎｔａｎｄｃｌｕｓｔｅｒｉｓｃａｌｃｕｌａｔｅｄａｎｄｔｈｅｎｅｗｃｌｕｓｔｅｒＩＤｔｏｅａｃｈｐｏｉｎｔｉｓａｓｓｉｇｎｅｄｂｙＭａｐｆｕｎｃｔｉｏｎ，

ｎｅｗｃｌｕｓｔｅｒｃｅｎｔｅｒｓａｒｅｃａｌｃｕｌａｔｅｄｂｙＲｅｄｕｃｅｆｕｎｃｔｉｏｎ，ｔｈｅｎｉｔｅｒａｔｉｖｅｃａｌｃｕｌａｔｉｏｎａｎｄｏｎｌｙｔｈｅｄｉｓｔａｎｃｅｂｅｔｗｅｅｎｃｅｎｔｅｒｐｏｉｎｔ

ａｎｄｐｏｉｎｔｓｉｎｒｅｌｅｖａｎｔｃｌｕｓｔｅｒｉｓｃａｌｃｕｌａｔｅｄｉｎｉｎｔｅｒｍｅｄｉａｔｅｉｔｅｒａｔｉｏｎｓ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔｒｅｓｕｌｔｓｈｏｗｓｔｈａｔｔｈｅｉｍｐｒｏｖｅｄｐａｒ‐

ａｌｌｅｌＫ‐ｍｅａｎｓａｌｇｏｒｉｔｈｍｈａｓｂｅｔｔｅｒｃｏｍｐｕｔｉｎｇａｂｉｌｉｔｙａｎｄｓｃａｌａｂｉｌｉｔｙ．

Ｋｅｙｗｏｒｄｓ：

　ｃｌｏｕｄｃｏｍｐｕｔｉｎｇ；　ＰＫ‐ｍｅａｎｓ；　ＭａｐＲｅｄｕｃｅ；　ｌａｒｇｅ‐ｓｃａｌｅｄａｔａ

收稿日期：２０１２‐１０‐２５．

基金项目：国家自然科学基金（４１２７５１１６）．

作者简介：薛胜军（１９５６‐），男，教授，博导．Ｅ‐ｍａｉｌ：ｓｊｘｕｅ＠１６３．ｃｏｍ

气象数据极其庞大，需要大量的科学计算。随着气象现代化水平不断提高，积累了大量气象信息资料，

需要高性能计算机进行处理，但高性能计算机昂贵的价格难以负担，而云计算技术为气象部门提供廉价的计

算服务带来希望。据估计，近年来我国气候资料每年以９０～１００ＧＢ的速度增长

［１］

。面对如此海量的气象

数据，急需高效的具有上万亿次以上的计算能力来完成数据的处理。

众所周知，并不是所有的数据挖掘算法都可以并行化，有的算法理论上就不可以并行化，有的直接并行化

存在很大的效率问题。简单如Ｋ‐ｍｅａｎｓ聚类算法，在并行化过程中就需要做相应的更改。因此，文中在介绍

ＭａｐＲｅｄｕｃｅ编程模型和Ｋ‐ｍｅａｎｓ算法的基础上，提出一种面向大规模气象数据处理的并行ＰＫ‐ｍｅａｎｓ算法。

１　ＭａｐＲｅｄｕｃｅ编程模型

ＭａｐＲｅｄｕｃｅ是Ｇｏｏｇｌｅ开发的Ｊａｖａ、Ｐｙｔｈｏｎ、Ｃ＋＋编程模型

［２‐４］

，是一种简化的分布式编程模型，主要用

于大规模（ＴＢ级）数据处理。而关于集群的可靠性和扩展性则交由平台来处理

［５］

。ＭａｐＲｅｄｕｃｅ的思想是通

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38605188

粉丝: 9
资源: 924

并行PK-means算法在MapReduce上的应用：气象大数据分析

基于人工智能技术的大数据分析方法研究进展.pdf

大规模时序图数据的查询处理与挖掘技术综述

MapReduce实现Kmeans聚类算法在Hadoop上的应用

【K-means聚类在时间序列分析中的角色】：动态聚类与预测的前沿技术

MATLAB聚类算法优化：提高效率与准确性的【策略全解】

大数据挖掘技术入门与基本原理解析

水质遥感监测实战指南：如何从卫星数据中提取关键水质参数

【空间数据分析】：R语言数据包在地理信息系统中的创新应用

【大数据词汇宝典】：四级核心词汇在数据科学中的应用解析

【机器人】将ChatGPT飞书机器人钉钉机器人企业微信机器人公众号部署到vercel及docker_pgj.zip

最新资源