腾讯AI运维实践:智能监测与诊断系统
![](https://csdnimg.cn/release/wenkucmsfe/public/img/starY.0159711c.png)
"腾讯网络智能运维是腾讯网络平台部在2018年推出的一种自动化运维解决方案,旨在通过人工智能技术提升运维效率和精准度。该系统着重解决网络监控的滞后问题,采用AI算法自动学习和提炼运维规则,实现秒级至分钟级的快速告警,以增强对网络异常的感知能力。同时,它还关注到网络异常定位和恢复速度,以满足业务对快速响应的需求。"
在腾讯的网络运营智能化探索中,AIinAll自动化运维扮演了重要角色。它摒弃了传统的“基于人为指定规则”的专家系统,转而利用机器学习从海量运维数据中自动学习和总结规则,形成了AIOps(Artificial Intelligence for IT Operations)。这种转变将人工总结规则的过程转变为自动学习过程,提高了运维的自动化水平。
面对运维中的痛点,腾讯采取了一系列实践措施。例如,Meshping质量监控是一种利用大量服务器作为代理进行近似全网Meshping测试的方法,可以快速发现网络异常,如端口抖动、队列拥塞和芯片失效,并将告警时间从15分钟优化到3分钟,准确率超过90%。然而,这种方法也面临并发总量大、服务器行为不可控以及探测仿真真实度不足等挑战,腾讯通过抽样选取代表、服务器健康评估和与业务脱敏指标联动等方法来改善这些问题。
针对网络异常定位和恢复速度的问题,腾讯推出了“黑镜”网络智能诊断系统。这个系统基于时间、地点、路径等因素进行模糊相关分析,结合syslog、snmp、flow等多源监控数据,快速推荐可疑故障点,并通过“降级后再求甚解”的策略进行敏捷试错,降低试错成本,如核心层冗余调度能力和一键旁路隔离功能,以迅速验证和修复网络问题。
总结来说,腾讯网络智能运维的核心在于运用AI技术提升网络监控的时效性和准确性,通过智能诊断系统实现快速故障定位和恢复,以满足业务对高可用性和快速响应的需求。这些技术与方法对于现代企业尤其是大型互联网公司的网络运维具有重要的参考价值。
329 浏览量
553 浏览量
453 浏览量
2021-08-23 上传
点击了解资源详情
149 浏览量
点击了解资源详情
215 浏览量
![](https://profile-avatar.csdnimg.cn/07af15e0e03b455097a053af8cfe5bc4_ipv6ok.jpg!1)
ipv6ok
- 粉丝: 6
最新资源
- Paw实践2课程核心内容精讲
- 数学建模中Matlab源程序的应用
- Fedora14环境下的hello模块Linux驱动开发
- Java性能优化与监控:全面JVM和应用性能管理指南
- OBS多路推流插件0.2.5版支持多RTMP直播
- HipChat:开发团队优选的即时通讯工具
- React JS代码笔克隆实战指南
- Laravel环境管理神器:laravel-envloader功能解析
- Android购物车动画效果及代码分享
- 将FTP默认打开方式修改为资源管理器的方法
- 核主成分分析KPCA在Matlab中的应用与例程
- Java程序员必备:LeetCode算法题解与技巧
- 学生信息管理系统的简易实现
- MapMagic_World_Generator_1.9.4:Unity3D地图编辑插件
- C#编程实现压缩解压功能技巧详解
- Laravel封装SwiftAPI实现Minecraft Bukkit远程调用