腾讯AIOps:时间序列异常检测与智能运维实践

需积分: 20 58 下载量 44 浏览量 更新于2024-07-18 收藏 4.14MB PDF 举报
在2018年的GOPS全球运维大会上,腾讯分享了其在运维领域的AI实践,特别是在AIOps(人工智能运维)方面的探索。该演讲聚焦于以下几个关键主题: 1. **时间序列异常检测**: 腾讯的织云Monitor智能监控项目是此次会议的案例研究。项目的目标是实时检测时间序列中的异常点,通过算法如ARIMA、自回归AR(p)、移动平均MA(q)、ARMA(p,q)模型来识别潜在问题。然而,面临的历史数据庞大(200万条时间序列)、种类繁多以及传统规则处理方式的局限,腾讯寻求通用算法来应对海量时间序列的监测。 2. **智能多维下钻分析**: 在发现问题阶段,除了时间序列异常,还包括日志分析异常和设备性能异常。多维下钻分析能力使得腾讯能够深入到数据的不同层面进行关联事件分析,帮助确定问题的真正原因,例如容量预估和决策支持。 3. **告警收敛根源分析**: 通过AI技术,腾讯实现了告警的智能化收敛,即从多个可能的原因中找到最根本的问题,从而提高故障定位的效率和准确性。这涉及到决策和调度的优化,有助于减少误报和过多的人工干预。 4. **AIOPS的未来规划**: 会上还讨论了AI在运维领域的未来发展趋势,强调了如何进一步提升运维的自动化和智能化,比如利用RNN/LSTM等神经网络模型,尤其在处理文本和语音类数据时,尽管存在梯度爆炸/消失等问题,但其预测和异常检测能力仍被寄予厚望。 5. **技术架构**: 腾讯的技术架构基于正态分布和弱平稳性假设,这些假设有助于构建基于统计学的模型,但也可能受限于特定数据集的特性。此外,算法的选择需要考虑时间序列的自相关性和自相似性,以及如何确定延迟时间和嵌入维度。 总结来说,腾讯在GOPS全球运维大会上的分享展示了其在AIOps领域采用的先进技术,包括时间序列异常检测、多维数据分析和智能决策支持,以及对未来发展策略的前瞻性思考。这些实践有助于提高运维效率,降低运维成本,并推动行业的智能化进程。