腾讯AI运维实践:智能监测与诊断系统

4星 · 超过85%的资源 需积分: 20 44 下载量 118 浏览量 更新于2024-07-18 1 收藏 8.63MB PPTX 举报
"腾讯网络智能运维是腾讯网络平台部在2018年推出的一种自动化运维解决方案,旨在通过人工智能技术提升运维效率和精准度。该系统着重解决网络监控的滞后问题,采用AI算法自动学习和提炼运维规则,实现秒级至分钟级的快速告警,以增强对网络异常的感知能力。同时,它还关注到网络异常定位和恢复速度,以满足业务对快速响应的需求。" 在腾讯的网络运营智能化探索中,AIinAll自动化运维扮演了重要角色。它摒弃了传统的“基于人为指定规则”的专家系统,转而利用机器学习从海量运维数据中自动学习和总结规则,形成了AIOps(Artificial Intelligence for IT Operations)。这种转变将人工总结规则的过程转变为自动学习过程,提高了运维的自动化水平。 面对运维中的痛点,腾讯采取了一系列实践措施。例如,Meshping质量监控是一种利用大量服务器作为代理进行近似全网Meshping测试的方法,可以快速发现网络异常,如端口抖动、队列拥塞和芯片失效,并将告警时间从15分钟优化到3分钟,准确率超过90%。然而,这种方法也面临并发总量大、服务器行为不可控以及探测仿真真实度不足等挑战,腾讯通过抽样选取代表、服务器健康评估和与业务脱敏指标联动等方法来改善这些问题。 针对网络异常定位和恢复速度的问题,腾讯推出了“黑镜”网络智能诊断系统。这个系统基于时间、地点、路径等因素进行模糊相关分析,结合syslog、snmp、flow等多源监控数据,快速推荐可疑故障点,并通过“降级后再求甚解”的策略进行敏捷试错,降低试错成本,如核心层冗余调度能力和一键旁路隔离功能,以迅速验证和修复网络问题。 总结来说,腾讯网络智能运维的核心在于运用AI技术提升网络监控的时效性和准确性,通过智能诊断系统实现快速故障定位和恢复,以满足业务对高可用性和快速响应的需求。这些技术与方法对于现代企业尤其是大型互联网公司的网络运维具有重要的参考价值。