AIOps基本概念以及能力分级基本概念以及能力分级
AIOps 自从 Gartner 于2016年提出至今已有一段时间,虽然在顶级互联网及电信企业,已有较多落地,但至今仍无基于生产
实践的理论体系及实施指南。
高效运维社区和云计算开源产业联盟(OSCAR联盟)牵头,和互联网大厂如 BATJ、360、华为、平安科技等的 AIOps 负责
人联合编写了国内外首个《企业级 AIOps 实施建议》白皮书,以缩AIOps 实施路径。
一、整体介绍
AIOps,即 Artificial Intelligence for IT Operations,智能运维,将人工智能应用于运维领域,基于已有的运维数据(日志、监
控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维没办法解决的问题。
早期的运维工作大部分是由运维人员手工完成的,这被称为手工运维或人肉运维。这种落后的生产方式,在互联网业务快速扩
张、人力成本高企的时代,难以维系。
这时,出现了自动化运维,用可被自动触发的、预定义规则的脚本,来执行常见的、重复性的运维工作,从而减少人力成本,
提高运维效率。
自动化运维可以认为是一种基于行业领域知识和运维场景领域知识的专家系统。
但是,随着整个互联网业务急剧膨胀,以及服务类型的复杂多样,“基于人为指定规则”的专家系统逐渐变得力不从心。自动化
运维的不足,日益凸显,这也为 AIOps 带来发展机遇。
AIOps 不依赖于人为指定规则,主张由机器学习算法自动地从海量运维数据(包括事件本身以及运维人员的人工处理日志)中
不断地学习,不断地提炼并总结规则。
AIOps 在自动化运维的基础上,增加了一个基于机器学习的大脑,指挥监测系统采集大脑决策所需的数据,做出分析、决策,
并指挥自动化脚本去执行大脑的决策,从而达到运维系统的整体目标。
AIOps 基于自动化运维,将 AI 和运维很好的结合起来,其需要三方面的知识:
1、行业领域知识:应用的行业,如互联网、金融、电信、物流、能源电力等,并熟悉生产实践中的难题;
2、运维场景领域知识:包括异常检测、故障预测、瓶颈分析、容量预测等;
3、机器学习:把实际问题转化为算法问题,常用算法包括如聚类、决策树、卷积神经网络等。 AIOps 是 企业级 DevOps 在
运维(技术运营)侧的高阶实现。
AIOps 和 DevOps 两者并不冲突,企业级 DevOps 涵括包括运维在内的整个软件生命周期,。此部分可具体参考《研发运营
一体化能力成熟度模型》。
AIOps 是运维的发展必然,是自动化运维的下一个发展阶段。
Gartner 相关报告预测 AIOps 的全球部署率将从2017年的10%增加到2020年的50%。其应用行业,除了互联网以外,还包括
高性能计算、电信、金融、电力网络、物联网、 医疗网络和设备、航空航天、军用设备及网络等领域。
二、AIOps 目标、原则及能力框架
评论0