多Agent容错中间件：失效检测与恢复研究

67 浏览量更新于2024-09-01 收藏 184KB PDF 举报

"基于多Agent的容错中间件失效处理系统的研究" 在当前的信息化社会中，敏感行业的分布式应用对于系统的可靠性有着极高的要求。为了满足这些需求，研究者们提出了基于多Agent系统的容错中间件失效处理系统。这种系统旨在解决分布式应用在运行过程中可能出现的故障，确保服务的连续性和数据的一致性。多Agent系统（MAS）是一种由多个自主、交互的实体——即Agent——组成的复杂系统。Agent具备一定的智能，可以独立决策并执行任务，同时与其他Agent协同工作。在容错中间件中，利用多Agent技术能够实现更灵活、高效和自适应的失效管理。本文首先介绍了Agent的基本概念和结构，强调了其自主性、反应性、交互性等核心特性。Agent的这些特性使得它们在容错机制中扮演重要角色，能够自我调整以应对环境变化和系统故障。接着，文章深入探讨了多Agent系统在容错中间件中的应用。通过构建双层失效检测模型，结合局部检测和全局检测，可以更全面地发现系统中的异常情况。局部检测关注单个Agent的健康状态，而全局检测则从整体层面监控系统的稳定性。这种双层检测模型提高了故障识别的准确性和及时性。在失效恢复策略上，论文提出了一个融合定点恢复和异机恢复的改进型REDO策略。定点恢复允许系统在出现故障时快速回滚到已知的稳定状态，而异机恢复则允许Agent的任务在其他健康的节点上重新执行，以保证服务的连续性。这种策略的创新之处在于它既能确保数据一致性，又能有效利用系统资源。最后，研究者通过JADE（Java Agent Development Framework）平台实现了这一理论框架。JADE是一个流行的开源多Agent系统开发环境，它提供了丰富的API和工具，便于构建和管理Agent系统。实验结果证明，双层检测模型和改进型REDO恢复策略不仅可行，而且表现出高效率，这为敏感行业的分布式应用提供了有力的容错保障。本文的研究为容错中间件设计提供了一种新的思路，即利用多Agent系统的特性来增强系统的健壮性和自愈能力。这不仅有助于提升系统整体的可用性，也为未来分布式应用的容错技术发展奠定了坚实的基础。

基于多基于多Agent的容错中间件失效处理系统的研究的容错中间件失效处理系统的研究

针对敏感行业中分布式应用的容错需求问题，分析介绍Agent、多Agent系统和容错中间件技术，根据Agent和中

间件特性结构上的相似性，对利用多Agent技术构建容错中间件作了尝试，并着重研究了失效检测与恢复系统；

建立局部检测与全局检测互相结合的双层失效检测模型，提出融入定点恢复和异机恢复的改进型REDO失效恢复

策略；最后给出基于JADE的一个系统实现。实验结果显示双层检测模型和改进型REDO恢复策略是可行的、高

效率的。

摘摘要：要：针对敏感行业中分布式应用的容错需求问题，分析介绍Agent、多Agent系统和

关键词：关键词：多Agent系统（MAS）；容错中间件；失效检测；失效恢复；JADE平台

　容错中间件[1-2]是一个可为开发者提供分布式应用容错支持的开发平台。容错中间件将容错逻辑从应用逻辑中分离出来，为

容错应用开发提供框架支持，简化业务应用开发，同时使开发过程变得清晰。目前，容错中间件的研究和实现主要是基于分布

对象。国外主要产品有：基于JavaRMI的Arjuna系统，FilterFresh系统等；基于DCOM的COMERA系统；基于CORBA的OGS

系统，Enteral系统等。国内方面主要有国防科学技术大学研发的分布应用容错计算平台StarFT。

　中间件包括平台功能，自身具有自治性、自主性、隔离性、社会化、激发性、主动性、并发性、认识能力等特性，是近似于

Agent的结构，因此利用Agent来建立容错中间件是一个不错的选择。

失效检测[3]与恢复是实现容错的核心问题。检测到失效是容错恢复的前提，因此，失效检测是实现容错不可或缺的一部分。

失效恢复是容错的目标，也是容错技术提高系统效率的关键所在。

　本文在分析介绍Agent[4]和多Agent系统[5-9]之后，给出了容错中间件中的失效检测模型和恢复策略，最后讨论了基于

JADE[10-12]的系统实现。

1 相关技术相关技术

1.1 Agent的定义及其结构的定义及其结构

　Agent（代理）概念起源于人工智能领域，是指用于模仿人类能力的自主实体，驻留在某一环境下能持续、自主地发挥作

用。Agent的基本结构如图1所示。

　Agent一般具有自主性、反应性、交互性、协作性、主动性和智能性等特性。但在实际的系统中，Agent并不能保证具有以

上的全部特性。

1.2 多多Agent系统系统

　多Agent系统是由多个Agent组成的一个社会整体，不同的Agent可以控制或影响环境的不同部分，多个Agent可以通过

Agent通信语言进行交互，分工合作，实现更为复杂、单个Agent无法解决的问题。多Agent系统可以有效地解决数据、控制具

有分布性的问题，并能提高系统的效率和鲁棒性。

1.3 容错技术容错技术

　使得系统在部分节点失效或是部分对象崩溃的情况下仍能正常运行并得到预期结果的技术称为容错技术。软件容错借鉴硬件

容错的成功经验，经常采用冗余技术进行处理。软件容错方法主要有错误回卷恢复、恢复块、N版本软件。

　错误回卷恢复主要分为两大类：基于检查点的错误回卷恢复、基于日志的错误回卷恢复。基于检查点的错误回卷恢复的核心

思想是任务执行过程中设置检查点，发现失效时不需要从头开始运行，而是直接从最后一个成功执行的检查点往下执行。基于

日志的错误回卷恢复则是在判断失效发生后，利用发生失效前最近的检查点和日志信息完全重新运行作业的过程。

恢复块的主要思想是：系统被划分成若干恢复块，整个系统由这些恢复块组成。每个块包含一个首要执行模块和一些替换模

块。若首要执行模块输出结果验收失败，则调用第二个模块；若再次失败，则继续调用另外的替换模块。重复该操作，直到所

有模块均被调用，或超出时间限制。

N版本软件的方法与硬件容错的NMR方法类似。N（N>=2）个以不同方式实现的功能相同的模块同时执行，由表决器判定

正确的结果，作为模块的结果。

2 失效检测失效检测

2.1 失效检测模型失效检测模型

　本文设计的失效检测系统主要由两部分组成：局部检测Agent，LDA（Local Detector Agent）和全局检测

Agent，GDA（Global Detector Agent）。LDA驻留在各节点，负责所驻留节点中实体的检测工作；GDA负责各LDA及其所驻

留节点的检测工作。设计的检测模型如图2所示。

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38741950

粉丝: 2
资源: 962

多Agent容错中间件：失效检测与恢复研究

VB基于智能Agent的网络教学管理系统研究(论文+源代码).rar

基于多Agent的智能决策支持系统研究.rar

Python爬虫架构设计：从单机到分布式，打造高性能爬虫系统

基于React框架的react-demo设计源码学习参考

Delphi 12 控件之unidac-10.3.1-d25pro.exe

智慧医疗服务平台 JAVA毕业设计 源码+数据库+论文+启动教程（SpringBoot+Vue.JS）.zip

基于qt+mpv的视频播放器

【IMF-2024研报-】斯里兰卡：中央银行风险管理技术援助报告（英）.pdf

BIPPY-v1.97FBX转BIP.zip

文档: docker中部署ubuntu18/24桌面,vnc远程链接

最新资源

智慧医疗服务平台 JAVA毕业设计源码+数据库+论文+启动教程（SpringBoot+Vue.JS）.zip