收稿日期:20180212;修回日期:20180508 基金项目:国家自然科学基金资助项目(61602525,61572525)
作者简介:胡志刚(1963),男,山西吕梁人,教授,博士,主要研究方向为网络并行处理、嵌入式系统、软件工程(zghu@csu.edu.cn);李佳
(1991),女,硕士研究生,主要研究方向为云计算、大数据;郑美光(1983),女,副教授,硕导,博士,主要研究方向为云计算、大数据.
云环境下面向负载均衡的数据密集型
工作流的数据约简策略
胡志刚,李 佳,郑美光
(中南大学 软件工程学院,长沙 410075)
摘 要:如何对数据密集型工作流应用进行高效合理地调度成为云计算领域亟待解决的关键问题之一。针对
此问题,构造数据密集型工作流的有向超图模型,提出了数据支持能力概念,通过基于数据支持能力的合并操作
对模型进行约简。最后优化超图多层剖分算法,提出数据约简的数据密集型工作流调度策略 HEFTP。研究结
果表明,HEFTP相比典型的工作流调度策略 HEFT、CPOP、MCP,能够很好地对数据密集型工作流进行约简优
化,获得较少的调度时间。
关键词:数据密集型工作流;有向超图;数据约简调度;云计算;负载均衡
中图分类号:TP391 文献标志码:A 文章编号:10013695(2019)08035241005
doi:10.19734/j.issn.10013695.2018.02.0143
Datareducedstrategyforloadbalanceddataintensiveworkflowinclouds
HuZhigang,LiJia,ZhengMeiguang
(CollegeofSoftwareEngineering,CentralSouthUniversity,Changsha410075,China)
Abstract:Howtoscheduledataintensiveworkflowefficientlyandreasonablehasbecomeoneofthekeyissueincloudcom
puting.Toaddressthisissue,first,thispaperbuiltadirectedhypergraphmodelfordataintensiveworkflow.Anditproposed
aconceptdatasupportiveabilitytohelpthepresentationofdataintensiveworkflowapplicationandprovidedthemergeopera
tiondetailsconsideringthedatasupportiveability.Byoptimizingthehypergraphmultilevelpartitioningalgorithm
,itproposed
adatareducedschedulingpolicyHEFTPfordataintensiveworkflow.Throughsimulation,itcomparedtheclassicalHEFT,
CPOPandMCPschedulingpolicieswithHEFTP.TheresultsindicatethatHEFTPcanobtainreduceddataschedulingand
reducethemakespanofexecutingdataintensiveworkflows.
Keywords:dataintensiveworkflow;directedhypergraph;datareducedscheduling;cloudcomputing;loadbalancing
0 引言
数据密集型计算已经发展成为一种充满前景的新范式,它
旨在通过分析研究大量数据来更好地理解问题并细化问题的
求解区域
[1]
。云计算的按需访问,在虚拟计算环境下运行大
规模应用的可伸缩性和可用性,为大数据的数据存储、管理与
分析等方面提供了重要支撑
[2]
。基于云计算的大型网络应用
呈现出分布、异构的特点和数据密集的趋势,如科学工作流系
统,这类 应用 被称 为数 据密 集型 应用 (
dataintensiveapplica
tions
)
[3]
,这类应用的数据密集型主要体现在其处理的数据大
小通常达 TB甚至 PB级。
数据密集型应用中的任务往往要获取、处理和传输大量的
数据,不合理的数据选择和任务调度策略会导致数据的传输量
和访问量过大,不但增加了用户使用云资源的费用,还严重影
响了科学工作流的执行效率。因此,如何对数据密集型工作流
进行约简优化,简化大数据的表征,实现大数据按需约简、降低
复杂度以获取更好的知识抽象,在大数据应用中成为了一个非
常有价值的研究课题。本文的工作目的是对云环境下数据密
集型应用进行工作流数据约简及任务调度,通过减少数据的反
复传输及任务间的通信量来减少工作流的调度时间。
准确的任务调度模型是对问题进行研究的基础,它有助于
研究人员对问题的理解和分析,从而更好地解决问题。目前表
示依赖关 系 的 任 务 调 度 模 型 表 示 主 要 有
taskprioritygraph
(TPG)和 directedacyclicgraph(DAG)。在 DAG图中每个顶
点代表应用中的一个任务,每条边代表任务间的数据依赖。但
随着云环境下的数据密集型应用的出现,任务间的关系变得更
加复杂,为了能够更加准确地表示任务间的真实关系,本文采
用有向超图对数据密集型工作流进行表示。有向超图的一条
超边可以连接多个节点,能够 很 好 地 表 示 非 对 称 的 依 赖 关
系
[4,5]
,清晰地表述任务间的多对多关系
[6]
。它除了拥有一般
图论所具有的概念之外,还具有超边合并、分割等一般图所不
具备的能力。超图分割作为图论中的一个典型组合优化问题,
在超大规模集成电路设计
[7]
、并行计算
[8]
、图像识别等领域都
有着广泛的应用。正是由于超图分割的优越性,国内外学术界
提出了大量优秀的分割方法,主要有多层算法、谱方法
[9]
、KL/
FM(KernighanLin/FiducciaMattheyses)
[10]
以及各种局部优化
算法等,而包含这些算法的图分割软件包也相继出现,如 hME
TIS、PaToH等。Devine等人
[11]
提出了并行的分割软件 Zoltan
toolkit,实现了对超图更加高效的分割。一些学者利用超图的
以上优点来解决实际问题,孙雪冬等人
[12]
提出了基于有向超
图的工作流资源分配均衡优化方法,利用超图的性质,以及活
动能力需求集与过程结构相互作用的形式化规则来对企业过
程进行优化。
Laura等人
[13]
采用有向超图对学习活动和与其
相关联的组件能力的保持关系进行建模,对相关算法进行调整
并构建了学习组件的大规模资源库。
第 36卷第 8期
2019年 8月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol.36No.8
Aug.2019