网格计算中的进程迁移与检查点容错机制研究

版权申诉
0 下载量 167 浏览量 更新于2024-08-07 收藏 2.03MB PDF 举报
"这篇硕士研究生学位论文探讨了在云计算和计算网格环境下的基于检查点的进程迁移机制,旨在提高网格计算的高可用性和高可靠性。作者曾科宏在计算机应用技术和计算机网络及应用领域进行了深入研究,由导师仝兆岐教授和梁鸿副教授指导。论文提出了一种名为HASLA(High Availability Service Layer of Architecture based on Globus Toolkit)的高可用服务层体系结构,整合了进程迁移、检查点数据管理和资源备份功能。同时,还设计了一个基于检查点的进程迁移模型(PMMMC),详细阐述了从检查点设置到进程恢复的整个过程,以实现系统的高可用性和容错性。此外,论文还改进了一种基于检查点的进程迁移算法,减少了迁移的冻结时间,增强了系统的实时性和容错能力。" 这篇论文主要关注的计算网格环境是一个广泛分布、异构的计算平台,其中资源故障频繁发生,因此需要解决如何保证网格的可用性和可靠性。作者通过分析计算网格的特性,构建了一个基于Globus Toolkit的高可用服务层架构,这一架构包含三个关键组件:进程迁移、检查点数据管理和资源备份。这个架构旨在兼顾性能和服务质量,同时确保高可用性和容错性。 论文中提出的基于检查点的进程迁移模型(PMMMC)是其创新点之一。模型将进程迁移分为四个步骤:设置检查点、进程状态转储、迁移状态和恢复进程。通过这种方式,当某个计算节点出现故障时,进程可以被安全地迁移至其他节点继续执行,从而提高系统的整体稳定性和效率。 此外,论文还对经典进程迁移算法进行了分析,并结合检查点策略,提出了一种改进的算法,类似于FileServer。在实际网格实验平台上,这种算法表现出了减少迁移冻结时间、消除残留依赖的优势,进一步提升了系统的实时响应能力和容错性能。 这篇论文的研究成果对于理解如何在云计算和计算网格环境中实现高可用性服务和容错机制具有重要意义,为解决网格计算中的资源故障问题提供了理论支持和实践指导。关键词包括计算网格、进程迁移、检查点、容错和高可用性。