腾讯AI运维实践:智能监测与诊断系统

"腾讯网络智能运维是腾讯网络平台部在2018年推出的一种自动化运维解决方案,旨在通过人工智能技术提升运维效率和精准度。该系统着重解决网络监控的滞后问题,采用AI算法自动学习和提炼运维规则,实现秒级至分钟级的快速告警,以增强对网络异常的感知能力。同时,它还关注到网络异常定位和恢复速度,以满足业务对快速响应的需求。"
在腾讯的网络运营智能化探索中,AIinAll自动化运维扮演了重要角色。它摒弃了传统的“基于人为指定规则”的专家系统,转而利用机器学习从海量运维数据中自动学习和总结规则,形成了AIOps(Artificial Intelligence for IT Operations)。这种转变将人工总结规则的过程转变为自动学习过程,提高了运维的自动化水平。
面对运维中的痛点,腾讯采取了一系列实践措施。例如,Meshping质量监控是一种利用大量服务器作为代理进行近似全网Meshping测试的方法,可以快速发现网络异常,如端口抖动、队列拥塞和芯片失效,并将告警时间从15分钟优化到3分钟,准确率超过90%。然而,这种方法也面临并发总量大、服务器行为不可控以及探测仿真真实度不足等挑战,腾讯通过抽样选取代表、服务器健康评估和与业务脱敏指标联动等方法来改善这些问题。
针对网络异常定位和恢复速度的问题,腾讯推出了“黑镜”网络智能诊断系统。这个系统基于时间、地点、路径等因素进行模糊相关分析,结合syslog、snmp、flow等多源监控数据,快速推荐可疑故障点,并通过“降级后再求甚解”的策略进行敏捷试错,降低试错成本,如核心层冗余调度能力和一键旁路隔离功能,以迅速验证和修复网络问题。
总结来说,腾讯网络智能运维的核心在于运用AI技术提升网络监控的时效性和准确性,通过智能诊断系统实现快速故障定位和恢复,以满足业务对高可用性和快速响应的需求。这些技术与方法对于现代企业尤其是大型互联网公司的网络运维具有重要的参考价值。
335 浏览量
565 浏览量
468 浏览量
2021-08-23 上传
点击了解资源详情
151 浏览量
点击了解资源详情
219 浏览量

ipv6ok
- 粉丝: 6
最新资源
- React中创建带步骤的进度条库ReactStepProgressBar解析
- VC ListCtrl 控件使用示例分析
- JLink V648B官方版发布:下载安全无毒的调试软件
- 跨平台TCP终端:脚本化自动响应与串行通信
- 使用证书验证连接Couchbase的Spring-boot查询服务教程
- YUYV图像工具:高效打开YUYV格式图片
- 蓝色经典企业WAP网站源码包:包含各类技术项目资源与使用说明
- 传真配置必备DLL组件:安装与验证指南
- 构建通用API桥梁:在多平台中实现灵活应用开发
- ECSHOP支付宝个人免签快速支付插件安装教程
- 掌握Ruby应用错误监控:Bugsnag深度解析
- Java METAR和TAF数据分析器WeatherParser介绍
- fanuc机器人地轨附加轴设定与操作教程
- XP系统SNMP安装与配置指南
- MATLAB多项式混沌展开工具箱
- 深入解析二回路过载自动驾驶仪程序设计