动态容错调度算法FTDR:解决异构计算系统中的故障优化

0 下载量 82 浏览量 更新于2024-07-15 收藏 954KB PDF 举报
在当今异构计算系统中,随着规模和复杂性的提升,故障的发生频率显著增加,这对处理大规模问题产生了负面影响。由于传统的故障容忍静态调度算法存在诸多局限性,如资源浪费、制造时间损失以及无法确保应用程序的成功执行,一个更有效的解决方案显得尤为重要。这些算法通常会为每个任务分配多个副本到不同的处理器,不论处理器故障是否影响任务执行,这种主动复制策略并不经济且效率低下。 本文的主要贡献在于提出了一种名为FTDR(Fault-Tolerant Dynamic Rescheduling)的新型容错动态调度算法。FTDR的核心机制是实时监控处理器状态,当处理器故障发生时,它能够智能地重新规划挂起的任务,以适应突发情况。这种动态调整策略允许系统容忍任意数量的故障,显著提高了系统的鲁棒性和灵活性。不同于静态调度,FTDR可以根据实际情况调整任务执行策略,避免了资源的无谓浪费,同时减少了整体执行时间(即makespan),从而增加了应用程序成功的可能性。 作者团队,由Jing Mei、Ken Li、Xu Zhou和Keqin Li组成,分别来自湖南大学信息科学与工程学院以及美国纽约州新帕尔茨市的州立大学计算机科学系,他们在《Journal of Grid Computing》上发表了这一研究成果,该论文的DOI为10.1007/s10723-015-9331-1。他们的工作旨在填补异构计算系统中容错调度的空白,为大型计算系统提供更为高效和可靠的故障管理策略。 在实验中,他们利用随机生成的有向无环图(DAG,Directed Acyclic Graph)来测试FTDR算法的效果,结果表明,相比于现有方法,FTDR在处理故障和优化任务执行效率方面具有明显的优势。这项研究不仅提升了异构计算系统的性能,也为未来的研究者们在设计更加智能的容错调度策略提供了新的思路和技术参考。