大规模分布式可信监控系统：挑战与解决方案

版权申诉

68 浏览量更新于2024-07-02 收藏 6.47MB PDF 举报

“大规模分布式可信监控系统研究.pdf” 随着网络技术的持续发展，计算范式也在不断变革。近年来，像网格计算、P2P（对等网络）和云计算这样的大型分布式系统相继涌现。然而，网络计算系统的不断发展和演进带来了越来越多的挑战。在军事、金融、航空航天、工业制造甚至是民用互联网应用等多个领域，对于高性能网络应用系统的需求日益增长。这些需求不仅包括快速处理功能，更要求能够持续提供具有高可靠性、高可用性和低成本特点的服务。尽管计算机应用程序已经达到了高度复杂的水平，并广泛部署在现代社会的各个角落，服务故障仍然频繁发生。因此，如何提供高可信度的网络应用程序成为技术研发的关键问题。分布式可信监控系统在此背景下显得尤为重要，它旨在确保系统的稳定运行，预防和快速响应各种故障，提高整体服务质量。大规模分布式可信监控系统的研究涵盖了多个关键方面。首先，系统设计需要考虑可扩展性，以适应不断增长的规模。这可能涉及到数据分片、负载均衡策略以及动态资源调度等技术。其次，为了实现高可靠性，系统必须具备容错能力，包括节点故障检测、故障恢复机制以及冗余备份策略。再者，监控系统的实时性是另一个重要指标，需要实时收集、分析和响应网络状态信息，以便及时发现并解决潜在问题。此外，安全性是分布式系统不可忽视的一环。监控系统应具备防止恶意攻击和数据泄露的能力，通过加密通信、访问控制以及异常行为检测等手段保障系统安全。同时，考虑到低延迟和高效能，监控系统通常采用分布式架构，通过多级监控节点协同工作，实现对整个网络的全面覆盖和高效监控。最后，为了保证系统的可维护性和可管理性，监控系统需要提供直观的可视化界面，便于操作人员理解系统状态并进行故障诊断。此外，自动化工具和智能算法的应用可以提高故障处理效率，减少人工干预的需求。大规模分布式可信监控系统研究涉及分布式系统设计、故障检测与恢复、安全性保障、实时监控、性能优化等多个层面，是确保复杂网络环境稳定运行的重要支撑。随着技术的进步，这一领域的研究将不断深入，为构建更加可靠、高效的网络服务提供强有力的技术保障。

２相关技术概述

对于不同的系统，由于各种不同的复杂因素和应用条件，很难对其可信性方面的

评价做定量化的比较。但是，对同一个系统来说，如果对系统进行了某些改动或

调整，那么在这些改动或调整完成以后，该系统的改动前后的可信性评价做定量

比较是相对简单的。

总之，可信性的最终评价应该根据具体的实际情况来确定，由于对安全性的

评价体系主要与人身安全相关、并且对保密性的评价体系涉及到信息保存、处理、

安全、人为因素以及其他方面的知识，所以在本论文中对安全方面的保密性不做

深入讨论和研究。

２．２．３关于可信增强的几个基本方法

从计算系统以及分布式应用系统的可信需求出发，系统可以从以下５个方面

增强其可信性：

①故障阻止：在故障发生时，系统应该能够阻止故障发生或被引入系统中，

从而避免最终系统失效。在系统的设计阶段，从需求分析、系统定义、系统设计

到编码实现，每一个系统开发环节都严格的按照质量管理规程进行，这样可以最

大限度地避免故障的引入。其中，系统设计包含有硬件设计和软件设计甚至机房

设计，因为外部环境同样可能导致系统出现自然类型的故障。而防火墙之类的技

术也可以阻止一些恶意的故障。

②故障容忍：采用系统冗余的手段，在系统内部发生故障的状态下继续提供

正确的服务或者可接受的服务。和错误，如硬件设计缺陷和软件设计缺陷。容错

分为硬件容错、软件容错和系统容错。现代的计算机硬件已经达非常成熟稳定的

性能标准，而各种各样的应用软件则呈现出井喷的状态。软件失效，软件故障已

经成为影响系统可信性的最主要的因素。因此故障容忍技术中如何控制软件故障，

在部分软件出现故障时能够继续提供服务成为了研究的重点和热点。

③故障排除：系统中故障发生时，可以通过各种手段将故障消除或减少，以

达到减轻故障对系统的影响。故障排除一般在系统测试和维护阶段进行。

④故障预测：故障预测是通过对系统当前运行的状态，或者对已经运行一段

时间的历史数据进行分析比较，得出系统是否在当前或者未来出现故障以及故障

可能带来损失大小的评价。一般故障预测可分为定性评估和定量评估，这两种方

法经常结合使用，以得到故障的客观全面的分析。

⑤安全措施：所谓的安全措施就是防止系统受到来自系统外部恶意故障的攻

击。现有的防火墙技术，入侵检测技术等等安全手段都属于安全措施。在网络环

境中很难保障一个正确的系统不受外部恶意的攻击。如果系统遭受恶意攻击，那

么必定降低系统的性能，严重的会导致系统完全不能提供正常服务，以至于系统

无可信而言。因此采取相应的安全措施必不可少。

重庆人学博十学位论文

２．３可信监测技术

２．３．１传统的分布式故障检测技术

一般，如果不加改进的对容量为１１的分布式系统进行ａｌｌ

ｔｏａ１１监测，则系统将

会产生Ｏ（ｎ２）ｌ幂Ｊ系统监测耗费，很明显，对于规模不断增加的大规模分布式系统无

法承受这样的监测耗费量。因此，学术界以及工业界提出了解决此类问题的一些

方法，而研究最为深入也最具有代表性的两种方法是：基于层次式的检测方法和

基于Ｇｏｓｓｉｐ的检测方法。下面对其进行简单介绍和分析。

①层次式检测方法

为了进一步增强故障监测的可扩展性，降低系统监测的耗费，层次式方法将

监控器组织成具有层次式特征某种结构，节点依照一定的规则被分为不同的组，

而在逻辑上每个组又分属于不同的层次。通常，每个组内设置一个头节点，附着

于头结点上的监测组件对组内其它节点进行检测。每个头节点将本地的以及次一

级头节点收集的监测消息传递给上一级父节点，最终，会在位于顶层的节点上汇

聚形成全局的故障检测信息，随后顶层节点再将其散播到系统中所有的头节点。

这样，系统中任何一个节点通过查询本组的头节点，即可得到其它任何节点的故

障信息。很明显，与传统的检测方法相比，这种方法可以有效地降低系统监测消

息耗费。

Ｆｅｌｂｅｒｔ删基于ＣＯＲＢＡ提出了一种层次式监测协议。按照节点所属的子网（ＬＡＮ）

进行分组，在每个组的Ｌｅａｄｅｒ节点上设置故障检测模块。检测模块只能够对本组

内的节点进行检测，只有检测模块之间可以跨组交换信息。这一协议充分利用了

系统的拓扑，便于管理其检测效率较高，但是，这种相对固定的静态检测结构却

无法适应现代分布式系统（如网格，Ｐ２Ｐ，云计算系统等）的拓扑经常改变的需求，

Ｄｅｆａｇｏ与Ｎａｏｈｉｒｏ【删提出了一种基于最小生成树的动态层次划分方法，更加适合动

态拓扑环境的要求，却需要更大计算开销。Ｓｔｅｌｌｉｎｇｔ４５］针对网格应用，基于网格开

发工具Ｇｌｏｂｕｓ

ｔｏｏｌｋｉｔ提出了一种两层结构的故障检测协议。底层存在于节点主机

内部，一个本地监视器对主机本地运行的进程进行检测，并将结果传递给上层对

应的数据收集器。收集器将将本地检测信息通知其它主机对应的收集器。这种结

构实际上并不是一种真正的层次式结构，从节点级来看，还是一种传统的ａ１１．ｔ０．ａｌｌ

结构，对普通分布式系统的检测负载降低并不明显，只适用于节点数较少，而单

节点计算能力较强的系统，如大型机组成的高性能网格。Ａｂａｗａｊｙ提出一种多级

层次故障检测服务架构。其中，进程的监控由一系列健康监视器（Ｈｅａｌｔｈ

ｍｏｎｉｔｏｒｓ）

执行，为了在满足系统的可扩展性需求的同时，不产生较大的流量，将健康监视

器按照多层次结构的方式排列，每一个健康监视器只负责监视其直接子节点。而

１４

２相关技术概述

Ｂｅｒｔｉｅｒ［４６】提出了一种真Ｊ下的双层检测结构，通过将节点分成若干组，在每个组内设

置一个Ｌｅａｄｅｒ节点，负责完成对组内节点的故障检测。所有Ｌｅａｄｅｒ节点形成一个

逻辑上的全局组，每个Ｌｅａｄｅｒ将自己的本地检测信息发送到其它Ｌｅａｄｅｒ，使每一

个Ｌｅａｄｅｒ上都具备全局检测信息。这种结构在降低检测负载方面虽然不如一些多

层检测协议，但是在容错分布式系统中，当发生故障系统进行重组时，却具有很

小的消息复杂度，尤其是在Ｌｅａｄｅｒ节点发生故障时。Ｊｉｎ【４

７】也提出了一种类似的协

议，并重点讨论了这种结构的良好扩展性。

②基于Ｇｏｓｓｉｐ技术的监测

Ｇｏｓｓｉｐ［４８，４９１是一种基于概率的多播协议‘５们，它是根据流行病学原理设计的一种

消息传播的方法。在Ｇｏｓｓｉｐ协议中，定义了轮次得概念，消息是每一轮传播一次，

每一个拥有消息的节点在自己的视图中随机的选择一个其他节点作为目标节点将

消息传递出去，以这种随机散播的方式确保消息最终可以到达系统中的所有节点。

由于这这种方式在传播的覆盖率的优势、网络耗费方面的优势以及对物理拓扑没

有紧耦合的关系的特点，使得Ｇｏｓｓｉｐ协议在许多应用系统中得到广泛的应用。

Ｒｅｎｅｓｓｅ首先将Ｇｏｓｓｉｐ技术引入到故障检测领域，在文献【５ｌ】中他提出了两种基

于Ｇｏｓｓｉｐ技术的故障检测协议，基本Ｇｏｓｓｉｐ检测协议和多层Ｇｏｓｓｉｐ监测协议。其

主要采用了Ｇｏｓｓｉｐ随机散播的故障消息机制，并结合心跳检测技术完成对系统中

节点的ｆａｉｌ—ｓｔｏｐ类的故障检测。

已有的研究表明，基于Ｇｏｓｓｉｐ的故障检测器可以有效控制系统产生的检测消

息的数量，对于多层Ｇｏｓｓｉｐ检测而言，一个域内的检测负载只与其子网数目相关，

具有很好的可扩展性。而且所有节点是对等的，也不存在某个节点成为可靠性瓶

颈的问题。但是受限于Ｇｏｓｓｉｐ的消息传播机制，对于一个指定的故障节点的检测

需要相当长的一段时间，即为了保证一定的故障检测准确率，Ｇｏｓｓｉｐ式检测器需

要较长的检测延迟。

近年来，随着对Ｇｏｓｓｉｐ监测的深入研究已经产生一些成果。Ｈｏｒｉｔａ［５２】提出了

一种静态检测方案，该方法为每个节点配置ｍ个其它节点对其进行固定检测。这

样，每个节点同时需要维护至少ｍ条不同的连接，节点之间利用这些已有连接，

通过泛洪算法将本地监测消息广播到整个系统，有效地降低了故障检测的系统开

销。Ｌｉｎｔ５５】提出的定向Ｇｏｓｓｉｐ协议，系统中每个节点包含一个判断该节点与其他节

点链接有效性的组件，在所有有效地连接中，选择其中ｋ条连接，采用寄生的方

式将监测消息附着在应用程序的交互信息中传递至相对应的节点，当连接数目小

于ｋ时，监测组件将会主动的建立新的连接。Ｇｕｐｔａ在ＳＷＩＭｔ５３ｌ的组成员协议中提

出了一种基于“再检测”机制的检测协议【５４１，大大提高了故障监测效率。ＳＷＩＭ

中也采用了随机散播的故障监测方式，当一个节点Ｐ随机的选择一个目标节点ｑ

重庆人学博十学位论文

发送心跳查询信息时，如果在规定时间内没有得到ｑ返回的确认，随机选择ｋ个

节点发送对ｑ的检测请求，要求它们对ｑ进行再检测，并将结果返回给Ｐ。事实上

这种方法利用了冗余的思想，利用空间冗余得到监测准确性的保障，有效地避免

了错误监测。这种机制容忍了链路故障造成的检测消息丢失，但很明显也意味着

监测消息的更多耗费。

事实上，这些技术都只是研究分布式系统中的静默故障类型的检测，在开放

网络环境中的大规模分布式系统却面临着各种各样的故障类型，因此传统的故障

检测方法具有较大的局限性。

２．３．２系统可信行为监测技术

持续可用性是系统可信性的一个重要方而，也是许多应用领域中的一个关键

性要求，大规模分布式系具有分布范围广，节点状态不稳定，和网络强动态等特

点。这就使得其成为一个动态演化的系统【５６１。然而，动态演化过程中可能出现异

常，导致系统出错，降低系统的可信性。系统本质上是代替人执行一定的行为。

系统的可信性主要表现在其行为可信上，即运行行为可监测、行为结果可评估、

异常行为可控制。系统行为的可信不是凭空而来的，需通过系统运行时的行为监

测，收集可信性相关数据，验证系统行为是否满足系统功能规格说明，建立基于

行为监测的可信评估和管理体系，并能根据行为可信评估结果和行为可信需求规

约，对系统行为进行动态调控，保障动态演化的正确性和一致性，提高系统的可

信性。

行为监测是行为可信评估的基础，为行为可信评估提供原始数据。系统行为

的可信来源于系统行为监测信息，需要对系统行为进行全而、准确、实时的监测，

收集可信性相关数据。目前，在行为监测方而已取得了许多研究成果。Ｇａｒｌａｎ等

人【６５１研究了基于运行时体系结构的自适应系统Ｒａｉｎｂｏｗ。它采用外置运行时体系

结构，通过Ｐｒｏｂｅ，Ｇａｕｇｅ，Ｃｏｎｓｕｍｅｒ三层监控机制，获取和度量系统变化来触发

自适应规则实现自适应演化。Ｌｉ

Ｊｕｎ［ｙ７】提出了一个系统行为监测框架，基于全局因

果跟踪技术捕获多维系统系统行为。Ｃｈｅｒｔ

Ｆｅｎｇ等人【５９】提出了一种运行时行为监测

框ＭＯＰ。该框架能根据给定的行为规约自动生成监测器，动态监测系统运行行为，

一旦发现违约行为，能立即触发用户定义的操作进行容错处理。Ｄｉａｋｏｖ等人【５剐提

出了一种基于ＣＯＲＢＡ中间件平台的系统行为监测框架，能自动生成监测代码来

监测组件之间的交互行为。Ｍａｒｉａｎｉ等人唧】构建了一个自动捕获组件行为的监测框

架，使用组件包装器截取被监视组件与其他组件之间的交互行为信息。Ｇａｏ等人【６１】

引入了可追踪组件的概念，提出基于事件的行为跟踪模型，跟踪组件之间的交互

活动。马晓星等人【删也提出了～种而向体系结构的自适应系统Ａ

ｒｔｅｍｉｓ．ＡＲＣ。它

采用内置运行时体系结构，通过Ａｇｅｎｔ

Ｇａｕｇｅ．Ｍｏｎｉｔｏｒ三层监控机制，驱动软件系

１６

２相关技术概述

统进行自适应演化。Ａｖｇｕｓｔｉｎｏｖ等人【６２】将ＡＯＰ技术应用到行为监测中，使用Ａｓｐｒｃｔ

来观察系统中发生的被关注的事件。Ｂｏｄｄｅｎ［６３】开发了一种运行时行为监测，使用

线性时序逻辑描述系统行为，基于ＡｓｐｅｅｔＪ的植入机制在Ｊａｖａ源代码中植入行为

监测工具。ＤｙｎａｍｉｃＴＡ０１６４］是一种反射式ＣＯＲＢＡ系统，基于ＯＲＢ的反射机制，

通过在对象调用路径中插入截取器，监测系统系统体系行为。

反射式中间件是一种能够通过与系统运行状态和行为具有因果关联的系统自

述来监测并调整系统状态和行为的中间件系统。ＯｐｅｎＣｏｒｂａｔ６７】是一种基于ＣＯＲＢＡ

的反射式中间件，通过元类将ＯＲＢ内部特征分离并单独实现，从而允许系统在运

行过程中监测并调整这些内部功能单元。黄罡等人【６８】开发的ＰＫＵＡＳ是一个基于软

件体系结构的反射式中间件，它所提供的实时监控工具能监测到运行时体系结构

的运行状态和行为并加以调整。文献［６９］提出了基于体系结构空间、支持动态演化

的软件模型ＳＡＳＭ，使用反射技术通过对体系结构空间的观察，可获知系统的结

构和行为信息，通过对体系结构空间的在线调整可实现系统的非预设动态演化。

２．３．３可信监测技术的发展趋势

由于近年来可信计算的飞速发展，以及计算系统在结构上深刻的变化，传统

的监测技术难以适应这种变革，本小节总结可信监测技术的发展趋势主要有以下

几个方面：

①面向网络的计算系统可信监测。现代越来越多的应用被布置到网络中，并

以分布式系统的形式为用户提供服务。可以说，单机系统或者说没有网络支持的

系统已经慢慢处于时代的淘汰阶段。这就给系统可信的监测带来了新要求，必须

能够将可信监测能力注入到网络计算系统中，在大规模分布式应用环境中仍然能

够提供有效地监测服务。

②运行平台对监控的支持越来越丰富。随着中间件等技术的发展，基础运行

平台提供了很多对软件实施运行监控的能力。一方面，运行平台提供丰富的系统

级监控手段和方法。监控信息通常包括ＣＰＵ利用率、吞吐量、内存使用以及对各

种系统事件（如相应的堆分配、线程启动）的通知，如Ｊａｖａ虚拟机（ＪＶＭ）通过

ＪＶＭＰＩ（Ｊａｖａ

ｖｉｒｔｕａｌｍａｃｈｉｎｅ

ｐｒｏｆｉｌｅｒ

ｉｎｔｅｒｆａｃｅ）提供系统监控能力【您】。另一方面，运行

平台通过反射等机制，使得管理人员能够在不依赖开发人员硬编码的情况下，对

基于该平台运行的构件实施监控。比如ＣＯＲＢＡ的截获器机制能够在不改变对象

实现的情况下获得远程请求的信息，以及对象对远程请求的处理情况【７３１。

③监测能力的注入方式越来越灵活。传统监控主要依赖开发人员的硬编码，

监控能力的注入主要在编码阶段实施，需要获得系统的源代码。现在借助于运行

平台的反射机制和工具支持，人们可以在编译前、编译后、运行时等多个环节将

监控能力注入到软件系统中，甚至在没有源代码支持的情况下也能够将监控能力

１７

剩余113页未读，继续阅读

programmh

粉丝: 4

大规模分布式可信监控系统：挑战与解决方案

基于DDS的民机机电系统分布式建模与仿真研究.pdf

监控使能的分布式软件系统构造方法.pdf

基于物联网的分布式实时数据库研究.pdf

goldendb分布式数据库例行维护手册.pdf

spring cloud微服务和分布式系统实践.pdf

在构建大规模分布式系统时，如何设计和实现数据的完整性和高可用性保障机制？

zabbix企业级分布式监控系统 pdf

鸿蒙系统3.1和3.0有什么区别

面向房产中介管理系统的分布式数据库设计.pdf

Hadoop分布式安装和配置1.Hadoop分布式安装方式； 2.掌握Linux中JDK安装方法； 3.掌握Linux中Hadoop安装方法、步骤； 4.掌握SSH免秘钥配置。

最新资源