Hadoop云平台上的大规模图像并行处理

3星 · 超过75%的资源需积分: 15 27 浏览量更新于2024-09-12 收藏 376KB PDF 举报

"Hadoop云平台下的并行化图像处理实现，通过使用Hadoop的MapReduce模型和分布式文件系统HDFS，可以有效地处理大规模的图像数据。本文提出了一种方法，利用Hadoop的并行计算能力，对海量图像进行并行处理，以满足不断增长的图像数据处理需求。" 在当前数字化时代，图像数据量的急剧增长使得传统的单机处理方式难以应对。Hadoop作为一种基于云计算的分布式计算框架，为解决这一问题提供了有效途径。Hadoop云平台结合了并行计算、分布式计算和网格计算的优势，能够以透明、简单的方式提供无限的计算资源。 Hadoop的核心组件包括MapReduce和HDFS。MapReduce是一种编程模型，用于大规模数据集的并行计算。它将大型任务分解为一系列小的“映射”任务（Map阶段）和“化简”任务（Reduce阶段），这些任务可以在集群中的多个节点上并行执行，大大提高了处理效率。在图像处理场景下，Map阶段可以用来处理图像的各个部分，如像素分析或特征提取，而Reduce阶段则可以聚合结果，完成全局的图像处理任务，如图像拼接或颜色校正。 HDFS（Hadoop Distributed File System）是Hadoop的分布式文件系统，它能够存储大量的数据并支持高吞吐量的数据访问。对于图像处理，HDFS可以高效地分发和管理大量图像文件，确保数据的可靠性和可用性。在Hadoop云平台上实现图像处理的并行化，首先需要对图像数据进行适当的预处理和分割，以便适应MapReduce模型。这可能涉及到将图像划分为小块，每个块作为一个单独的任务处理。然后，Map函数可以对每个图像块执行特定的算法，如边缘检测或色彩转换。Reduce函数则负责整合各个Map任务的结果，形成最终的处理图像。此外，Hadoop还支持使用HBase这样的分布式数据库来存储和检索处理后的图像数据。 Hadoop云平台通过其强大的并行处理能力和高效的分布式文件系统，为海量图像处理提供了可行且高效的解决方案。这种并行化处理方法不仅提升了处理速度，还降低了单个节点的压力，确保了系统的稳定性和可扩展性。随着云计算技术的不断发展，Hadoop在图像处理领域的应用将会更加广泛和深入。

通信技术　

Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ　ＴｅｃｈｎＯｌｏｇｉｅｓ　

Ｈａｄｏｏｐ云平台下的并行化图像处理实现　

张良将，宦飞，王杨德　

（上海交通大学信息安全工程学院，上海２００２４０）　

【摘要】近年来，云计算在ＩＴ行业掀起了新一轮技术革新浪潮。云计算是一种新兴的计算模型，它是并行计算、　

分布式计算、网格计算的综合发展，以简单、透明服务的形式提供无限制的计算资源。Ｈａｄｏｏｐ实现的开源云平　

台提供了并行计算模型ＭａｐＲｅｄｕｃｅ、分布式文件系统ＨＤＦＳ和分布式数据库ＨＢａｓｅ等。随着数字图像数据量不　

断增长，单机模式的图像处理已逐渐不能满足用户需求。文中提出了利用Ｈａｄｏｏｐ云平台实现海量图像的并行　

化处理，设计了基于ＭａｐＲｅｄｕｃｅ图像处理的类型和格式，实现了图像处理的并行化。　

【关键词】云计算；Ｈａｄｏｏｐ；ＭａｐＲｅｄｕｃｅ；图像处理　

［中图分类号】ＴＰ３９１　【文献标识码】Ａ　【文章编号】１Ｏ０９—８０５４（２０１２）１０—０５９一Ｏ４　

Ｐａｒａｌｌｅｌ　Ｉｍａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ　Ｉｍｐｌｅｍｅｎｔａｔｉｏｎ　ｕｎｄｅｒ　Ｈａｄｏｏｐ　Ｃｌｏｕｄ　Ｐｌａｔｆｏｒｍ　

ＺＨＡＮＧ　Ｌｉａｎｇ－ｊｉａｎｇ，ＨＵＡＮ　Ｆｅｉ，ＷＡＮＧ　Ｙａｎｇ—ｄｅ　

ｆＳｃｈｏｏｌ　ｏｆ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｓｅｃｕｒｉｔｙ　ａｎｄ　Ｅｎｇｉｎｅｅｒｉｎｇ，Ｓｈａｎｇｈａｉ　Ｊｉａｏｔｏｎｇ　Ｕｎｉｖｅｒｓｉｔｙ，Ｓｈａｎｇｈａｉ　２００２４０，Ｃｈｉｎａ）　

【Ａｂｓｔｒａｃｔ】Ｉｎ　ｒｅｃｅｎｔ　ｙｅａｒｓ，ｃｌｏｕｄ　ｃｏｍｐｕｔｉｎｇ　ｓｅｔｓ　ｏｆｆ　ａ　ｎｅｗ　ｗａｖｅ　ｏｆ　ｔｅｃｈｎｉｃａｌ　ｉｎｎｏｖａｔｉｏｎ　ｉｎ　ｔｈｅ　ＩＴ　ｉｎｄｕｓｔｒｙ．Ｃｌｏｕｄ　

ｃｏｍｐｕｔｉｎｇ，ｂａｓｅｄ　ｏｎ　ｃｏｍｐｒｅｈｅｎｓｉｖｅ　ｄｅｖｅｌｏｐｍｅｎｔ，ｉｓ　ａｎ　ｅｍｅｒｇｉｎｇ　ｃｏｍｐｕｔｉｎｇ　ｍｏｄｅｌ，ｏｆ　ｐａｒａｌｌｅｌ　ｃｏｍｐｕｔｉｎｇ，　

ｄｉｓｔｒｉｂｕｔｅｄ　ｃｏｍｐｕｔｉｎｇ，ａｎｄ　ｇｒｉｄ　ｃｏｍｐｕｔｉｎｇ　ａｒｅ　ｃｏｕｌｄ　ｐｒｏｖｉｄｅ　ｕｎｌｉｍｉｔｅｄ　ｃｏｍｐｕｔｉｎｇ　ｒｅｓｏｕｒｃｅｓ　ｉｎ　ｔｈｅ　ｆｏｒｍ　ｏｆ　ｓｉｍｐｌｅ　

ａｎｄ　ｔｒａｎｓｐａｒｅｎｔ　ｓｅｒｖｉｃｅ．Ｈａｄｏｏｐ　ｉｍｐｌｅｍｅｎｔｉｎｇ　ｏｐｅｎ　ｓｏｕｒｃｅ　ｃｌｏｕｄ　ｐｌａｔｆｏｒｍ　ｃｏｕｌｄ　ｐｒｏｖｉｄｅ　ｐａｒａｌｌｅｌ　ｃｏｍｐｕｔｉｎｇ　ｍｏｄｅｌ　

ＭａｐＲｅｄｕｃｅ，ｄｉｓｔｒｉｂｕｔｅｄ　ｆｉｌｅ　ｓｙｓｔｅｍ　ＨＤＦＳ，ａｎｄ　ｄｉｓｔｒｉｂｕｔｅｄ　ｄａｔａｂａｓｅ　ＨＢａｓｅ　ａｎｄ　ＳＯ　ｏｎ．Ｗｉｔｈ　ｔｈｅ　ｉｎｃｒｅａｓｅ　ｏｆ　ｄｉｇｉｔａｌ　

ｉｍａｇｅ　ｄａｔａ　ｖｏｌｕｍｅ，ｉｍａｇｅ　ｐｒｏｃｅｓｓｉｎｇ　ｉｎ　ｓｔａｎｄ－ａｌｏｎｅ　ｍｏｄｅ　ｇｒａｄｕａｌｌｙ　ｃｏｕｌｄ　ｎｏｔ　ｍｅｅｔ　ｔｈｅ　ｕｓｅｒ’Ｓ　ｎｅｅｄｓ．Ａ　ｗａｙ　ｔｏ　

ｉｍｐｌｅｍｅｎｔ　ｐａｒａｌｌｅｌ　ｐｒｏｃｅｓｓｉｎｇ　ｏｆ　ｍａｓｓ　ｉｍａｇｅｓ　ｗｉｔｈ　Ｈａｄｏｏｐ　ｌｏｕｄ　ｐｌａｔｆｏｒｍ　ｉｓ　ｐｒｏｐｏｓｅｄ，ｔｈｅ　ｔｙｐｅｓ　ａｎｄ　ｆｏｒｍａｔｓ　ｏｆ　ｉｍａｇｅ　

ｐｒｏｃｅｓｓｉｎｇ　ｂａｓｅｄ　ｏｎ　ＭａｐＲｅｄｕｃｅ　ａｒｅ　ｄｅｓｉｇｎｅｄ，ａｎｄ　ｔｈｅ　ｐａｒａｌｌｅｌｉｚａｔｉｏｎ　ｏｆ　ｉｍａｇｅ　ｐｒｏｃｅｓｓｉｎｇ　ｉｓ　ｒｅａｌｉｚｅｄ．　

【Ｋｅｙｗｏｒｄｓ】ｃｌｏｕｄ　ｃｏｍｐｕｔｉｎｇ；Ｈａｄｏｏｐ；ＭａｐＲｅｄｕｃｅ；ｉｍａｇｅ　ｐｒｏｃｅｓｓｉｎｇ　

０引言　

在过去的数十年里，计算机与网路技术得到了飞速　

发展，极大地推动了社会各方面的发展。计算模式经历了　

大型机时代的终端一主机模式、个人计算机时代的客户机一　

服务器模式，以及目前互联网时代的浏览器一服务器模式，　

直到最近几年的云计算模式。云计算的基本原理是将计算、　

存储及软硬件等服务分布在非本地的大量计算机构成的资　

源池上，用户通过网络获得相应的服务，从而有效地提高　

资源利用率，实现了按需获取。虚拟化、分布式并行计算、　

分布式存储以及分布式数据管理是实现云技术 …的关键。　

Ｈａｄｏｏｐ是Ａｐａｃｈｅ软件基金的开源项目，模仿和实现　

收稿日期：２０１２－０８—０６　

作者简介：张良将，１９９０年生，男，硕士研究生，　

研究方向：云计算、图像处理；宦飞，１９６２年生，男，　

硕士生导师，研究方向：云计算、计算机应用技术；　

王杨德，１９８７年生，男，硕士研究生，研究方向：　

云计算、信息安全。　

了Ｇｏｏｇｌｅ云计算系统的主要技术，使用Ｊａｖａ语言编写，　

可移植性强。从２００６年２月Ａｐａｃｈｅ　Ｈａｄｏｏｐｔ　项目启动以　

来，受到了很多ｌＴ公司的技术支持，并衍生出许多基于　

Ｈａｄｏｏｐ的相关开源项目，包括ＨＢａｓｅ、Ｐｉｇ、Ｈｉｖｅ和Ｍａｈｏｕｔ　

等。文中研究的Ｈａｄｏｏｐ云平台是采用２０１１年１２月２７日　

发布的ｒｅｌｅａｓｅ　１．０．０搭建的。Ｈａｄｏｏｐ实现的云计算平台删，　

为用户提供一种分布式计算和分布式存储的编程环境，　

该技术属于云体系中的一种ＰａａＳ（平台即服务）　技术。　

１　Ｈａｄｏｏｐ介绍　

Ｈａｄｏｏｐ是项目的总称，包含３个子项目，分别是　

ＭａｐＲｅｄｕｃｅ、ＨＤＦＳ和Ｈａｄｏｏｐ　Ｃｏｍｍｏｎ。并行计算框架　

ＭａｐＲｅｄｕｃｅ是Ｇｏｏｇｌｅ　ＭａｐＲｅｄｕｃｅ　的开源实现，分布式文　

件系统ＨＤＦＳ是Ｇｏｏｇｌｅ　ＧＦＳ叫的开源实现。　

１．１　ＭａｐＲｅｄｕｃｅ　

ＭａｐＲｅｄｕｃｅ是Ｇｏｏｇｌｅ提出的一个软件框架，基于它　

写出来的应用程序能够运行在由上千个普通商业机器组成　

的集群上，并以一种可靠容错的方式并行处理大规模数据　

集。ＭａｐＲｅｄｕｃｅ并行计算模式对任务的处理分为两个阶段：　

２０１２．１０·信息安全与通信保密５９　

万方数据

下载后可阅读完整内容，剩余4页未读，立即下载

alphabeta12345

粉丝: 107
资源: 6

Hadoop云平台上的大规模图像并行处理

Hadoop云平台负载监控下的混合调度技术研究

智能匹配物流系统在Hadoop云平台的设计与实现

Hadoop云平台动态访问控制模型：DACUBA机制

基于Hadoop云平台的海量数字图像数据挖掘的分析.pdf

行业分类-设备装置-Hadoop云平台下基于负载监控的混合调度方法.zip

基于Hadoop云平台的水利普查数据挖掘系统的设计和实现.pdf

Hadoop大数据云平台

基于Hypervisor虚拟化技术的Hadoop云平台管理方案的研究.docx

基于Hadoop云平台的分布式支持向量机.pdf

基于改进Hadoop云平台的海量文本数据挖掘.pdf

最新资源