《AIOps智能故障管理在阿里巴巴集团的成功实践》是高级技术专家王肇刚(梓弋)在2018年云栖大会·南京峰会上的分享报告,主要探讨了阿里巴巴集团在实现智能故障管理和运维优化方面的实践经验。报告中详细阐述了以下几个关键点:
1. 阿里巴巴故障治理业务流程与挑战:
面对庞大的业务规模,包括50多个BU、40000多个应用程序,以及业务形态多样(涵盖电商、金融、云计算、物流等)、业务关联复杂的环境,阿里巴巴的故障治理面临巨大挑战。传统的监控系统存在误报漏报问题,且维护成本较高,同时,由于业务量庞大,确定业务故障相关事件和跨BU依赖关系复杂。
2. 智能运维实战中的异常检测与根因推荐:
报告重点介绍了智能运维中的异常检测技术,如时间序列异常检测,通过识别淘宝交易量等业务指标的异常情况,例如指出“交易量下跌X%可能是Pn故障”。这一过程需要考虑异常的相对幅度、业务趋势、节假日效应等因素,并采用了机器学习和时间序列分解等方法进行精准分析。此外,以往依赖人工经验的根因推荐环节,现在通过系统自动推荐可疑事件,显著提高了效率。
3. AIOps智能运维解决方案:
阿里巴巴通过引入智能运维,改进了全局故障治理流程,包括故障发现、定级、通告、辅助定位、处理决策和快速恢复等多个步骤。其中,故障发现的准确率和通告耗时得到了显著提升,分别达到40%和从5分钟缩短至1分钟以内。智能系统的应用使得故障处理更加自动化和高效。
4. 业务流程优化:
针对业务流程中的痛点,报告强调了如何通过智能化手段解决监控维护成本高、故障等级定义不一致等问题,以及如何实时分析和响应快速恢复场景下的决策需求。智能运维帮助阿里巴巴建立了统一的线上故障治理机制,实现了业务故障的统一发现和跨BU故障的协同处理。
5. 故障复盘与演练:
智能故障管理不仅关注即时问题的解决,还注重复盘和演练,以防止类似问题再次发生,提升了整体业务的稳定性。
总结来说,王肇刚的分享揭示了阿里巴巴如何利用AIOps技术革新故障管理和运维方式,通过自动化和智能化手段提高故障响应速度,降低运维成本,保障了业务在亿级别交易量下仍保持稳定运行的能力。这一实践为其他企业提供了宝贵的经验和启示。