通信技术
Communications TechnOlogies
Hadoop云平台下的并行化图像处理实现
张 良将 ,宦 飞 ,王杨 德
(上海交通大 学 信息安全 工 程 学院 ,上海 200240)
【摘 要 】近年来 ,云计算在 IT行业掀起了新一轮技术革新 浪潮。云计算是一种新兴的计算模型 ,它是并行计算 、
分布 式计 算 、网格计算 的综 合发展 ,以简单 、透 明服务 的形式 提 供无 限制 的计算 资源。 Hadoop实现 的开源 云平
台提供了并行计算模型 MapReduce、分布式文件系统 HDFS和分布式数据库 HBase等 。随着数字图像数据量不
断增长 ,单机模 式 的 图像处 理 已逐渐 不 能 满足 用 户需求 。文 中提出 了利 用 Hadoop云平 台实现 海 量图像 的并行
化处 理 ,设 计了基 于 MapReduce图像 处 理 的类型 和格式 ,实现 了图像处 理 的并行化 。
【关键 词 】云计 算 ;Hadoop;MapReduce;图像处 理
[中图分 类 号 】TP391 【文 献标 识 码 】A 【文 章编 号 】1O09—8054(2012)10—059一O4
Parallel Im age Processing Im plem entation under H adoop Cloud Platform
ZHANG Liang-jiang,HUAN Fei,W ANG Yang—de
fSchool of Information Security and Engineering,Shanghai Jiaotong University,Shanghai 200240,China)
【Abstract】In recent years,cloud computing sets off a new wave of technical innovation in the IT industry.Cloud
computing, based on comprehensive development, is an emerging computing model, of parallel computing,
distributed com puting, and grid computing are could provide unlim ited computing resources in the form of simple
and transparent service.Hadoop implem enting open source cloud platform could provide parallel computing model
MapReduce, distributed file system HDFS, and distributed database HBase and SO on.W ith the increase of digital
image data volum e, image processing in stand-alone mode gradually could not m eet the user’S needs.A way to
implement parallel processing of mass images with Hadoop loud platform is proposed, the types and formats of image
processing based on MapReduce are designed, and the parallelization of image processing is realized.
【Keywords】cloud computing; Hadoop; MapReduce; image processing
0 引 言
在过 去 的数十 年 里 ,计 算 机 与 网路技 术得 到 了 飞速
发 展 ,极大 地 推动 了社会 各方 面 的发展 。计 算模 式经 历 了
大型机时代的终 端 一主机 模式 、个人计算 机 时代的客户机 一
服务 器模式 ,以及 目前 互联 网时代 的浏览 器 一服务 器模 式 ,
直 到最 近几 年 的云计 算模式 。云计算 的基本 原理 是将 计算 、
存 储及 软硬 件等 服务 分布 在非 本地 的大 量计 算机 构成 的资
源池 上 ,用 户通 过 网络获 得相 应 的服务 ,从 而有 效地 提高
资源利用率 ,实现 了按需获 取。虚拟化 、分 布 式并行计算 、
分布式存储 以及 分布 式数据管 理是实现 云技术 …的关 键 。
Hadoop是 Apache软 件 基 金的开 源 项 目,模仿 和实现
收 稿 日期 :2012-08—06
作 者 简 介 :张 良将 ,1990年 生 , 男 ,硕 士研 究 生 ,
研 究 方 向:云 计 算 、图像 处理 ;宦 飞 ,1962年 生 ,男 ,
硕 士 生 导师 ,研 究 方 向 :云 计 算 、计 算机 应 用技 术 ;
王 杨 德 ,1987年 生 , 男,硕 士 研 究 生 ,研 究 方 向 :
云 计 算 、信 息安 全 。
了 Google云计 算 系统 的 主 要技 术 ,使用 Java语 言 编写 ,
可 移 植 性 强 。从 2006年 2月 Apache Hadoopt 项 目启 动 以
来 ,受 到 了 很多 lT公 司 的技术 支 持,并衍 生 出许 多基于
Hadoop的相关 开 源项 目,包 括 HBase、Pig、Hive和 Mahout
等。文 中研 究 的 Hadoop云 平台是 采 用 2011年 12月 27日
发布 的 release 1.0.0搭建 的。Hadoop实现 的云计算平 台 删,
为用 户 提供一 种 分 布式 计 算 和分 布式 存储 的编程 环 境 ,
该 技 术 属 于 云 体 系 中 的一 种 PaaS(平 台 即 服 务 ) 技 术 。
1 Hadoop介 绍
Hadoop是 项 目的 总 称 ,包 含 3个 子 项 目,分 别 是
MapReduce、HDFS和 Hadoop Common。 并 行 计 算 框 架
MapReduce是 Google MapReduce 的开 源 实 现 ,分布 式 文
件系 统 HDFS是 Google GFS叫的开 源实 现 。
1.1 M apReduce
MapReduce是 Google提 出 的 一个 软 件 框 架 ,基 于 它
写 出来 的应用程 序 能够运 行在 由上 千个 普通 商业机 器组 成
的集群上 ,并以一种可靠 容错的方 式并行处 理大规模数据
集 。MapReduce并行计算模式对任务的处理分为两个阶段:
2012.10·信 息安全与 通信保密 59
万方数据