软件实现的容错架构:星载计算机的故障信息保存与恢复

需积分: 12 2 下载量 146 浏览量 更新于2024-09-02 收藏 969KB PDF 举报
"陈斌等人提出了一种基于软件方法的容错架构,旨在增强计算机处理存储器双错的能力,特别是针对由单粒子事件引发的问题。该架构在综合电子架构下设计,结合实时系统软件和应用软件,以确保系统的稳定性和可靠性。通过1553B总线的RT作为关键数据存储节点,保存系统恢复所需的关键信息,并通过异地保存错误信息的方式,实现了类似飞行记录器的‘黑匣子’功能,从而能在故障发生后有效地分析和恢复系统状态。" 在设计这种容错架构时,主要关注以下几个核心知识点: 1. **软件实现的容错技术**:传统的容错技术通常依赖于硬件冗余,而此方案则侧重于利用软件策略来提升系统的容错能力。这种方法的好处在于可以降低硬件成本,同时通过软件更新和优化持续改进容错性能。 2. **实时系统软件调度**:实时系统软件负责任务调度,处理底层信息,确保关键操作能在预定义的时间内完成,这对于航天或军事等对时间敏感的应用至关重要。 3. **应用软件的角色**:应用软件主要处理任务计算和系统软件信息的处理,分离了计算和调度的职责,使得系统能够更高效地执行复杂的任务并保持高可用性。 4. **1553B总线的使用**:1553B总线是一种军用标准通信协议,被用于航空航天领域,具有高可靠性和抗干扰性。在此架构中,它被用作关键数据的存储终端,存储恢复系统所需的必要数据,确保在故障发生后能快速恢复。 5. **异地保存错误信息**:为了保障故障信息的有效保存,设计了错误信息的异地备份策略。这种方法增强了信息的安全性,即使主存储器发生故障,也能从其他位置恢复数据,类似于飞机的“黑匣子”,提供故障分析的依据。 6. **计算机的“黑匣子”**:通过上述异地保存机制,系统能够记录并保护关键的故障信息,便于在系统出现故障后进行故障排查和系统恢复,保证了计算机在异常情况下的稳定和连续运行。 这种基于软件的容错架构在航天领域的应用具有重要意义,因为航天设备往往面临极端环境,单粒子事件可能导致系统失效。通过这样的设计,可以显著提高星载计算机的可靠性和生存能力,减少因硬件故障导致的系统中断。同时,这种架构也为其他高要求领域(如工业自动化、交通控制等)提供了借鉴,展示了软件在构建容错系统中的巨大潜力。