阿里海量监控报警治理及应急实战是一份由赵家奇,作为阿里巴巴-GOC监控中心研发负责人的演讲,他在GOPS全球运维大会2020·上海站上分享了关于阿里集团在海量监控报警治理方面的经验和实践。主要内容分为四个部分:
1. **阿里监控治理的挑战**:
- 报警量与成本持续增长:报警总量达到数十亿,每年报警成本数千万,显示了报警管理的复杂性和成本压力。
- 监控体系不完善:标准化覆盖的业务核心应用比例较低,且存在报警应急响应质量下降的问题,如人均日报警量高,由于报警应急不及时导致的故障增多。
- 报警现状:从2016年至2019年,报警量、成本和报警总量都有显著增加,显示出监控系统亟待优化。
2. **平台化监控治理方案**:
- 解决问题的关键在于实现整体方案设计,目标包括成本控制、报警数量减少、体系化的覆盖范围以及有效的应急响应保障。
- 通过引入统一的治理平台,解决报警多、配置不规范、工具支持不足等问题,比如通过钉钉报警生态来构建智能化的报警渠道控制。
- 提倡统一屏蔽和收敛策略,抑制无效或重复报警,并通过报警治理辅助工具,提升报警处理效率。
- 强调报警应急流程标准化和过程数据化,以便于结构化报警信息和提高排查效率。
3. **监控治理最佳实践**:
- 阿里巴巴采用分层报警策略,确保核心业务报警优先级得到保障,避免被大量非关键报警淹没。
- 提倡将监控报警从文本到数据的转化,以提供关联性强的数据支持排查过程,强调标准化流程的重要性。
4. **应急响应与保障**:
- 面对业务增长带来的挑战,监控系统需要覆盖上千个应用,建立一个体系化的覆盖策略,以应对日益复杂的业务环境。
- 通过报警分级和流程标准化,确保在面对故障时,能够迅速响应并减少用户因故障而受影响的时间。
这份报告深入探讨了阿里在海量监控报警治理上的挑战、解决方案和实践经验,为其他组织提供了一个关于如何构建有效监控治理体系,降低成本,提升应急响应能力的参考案例。