携程陈剑明：实时智能异常检测算法与工程实践

需积分: 29 72 浏览量更新于2024-07-17 3 收藏 683KB PDF 举报

实时智能异常检测平台的算法及工程实现是携程陈剑明分享的议题，主要探讨了如何构建一个既能有效监控业务运行状态，又能智能识别异常情况的系统。在这个系统中，监控系统扮演着运维的眼睛的角色，要求既能避免过度敏感导致频繁误报，又不能漏报重要异常，同时还需要具备自适应能力。首先，设置告警机制是一个关键挑战。传统的做法包括设置单一阈值或量化幅度，但这种方法存在缺陷，如需要忽略部分指标、对平稳性和周期性指标的判断缺乏统一标准，以及规则维护成本较高。引入算法是解决这些问题的有效途径，但评估算法的性能并不简单，比如召回率和准确率可能并不全面，因为异常的定义可能因业务场景而异，且样本数量不足和标注成本问题也需要考虑。为了解决这些问题，陈剑明提出了控制变量和寻找最接近正常情况的方法，通过锁定特定类型的监控指标并制定明确的检验标准。在算法选择上，他倡导去规则化，避免经典统计分析方法带来的误报和漏报问题。神经网络，特别是循环神经网络（RNN）和长短时记忆网络（LSTM），因其在序列数据处理中的优势，被用来应对时间序列分析中的异常检测。离线模型训练阶段，涉及复杂的技术如插补、剔除节假日影响、多尺度滑动窗口和频域特征提取，以及利用LSTM进行特征计算和模型训练。在线计算检测部分则关注实时性和效率，通过连续的模型预测和异常值替换，减少人工处理的报警量。此外，抽象规则集被设计成基于时间序列的规则，比如基于时间段、幅度变化、数据形态和相邻周期的相似度来判断异常。评估环节强调了与现有规则系统的对比，通过日均告警量、故障召回率等指标来衡量新算法的效果。例如，尽管新算法的总体告警量有所下降，但仍有漏报现象，尤其是在肉眼难以识别且周期性不明显或波动较大的异常情况下。最后，演讲者指出了实时性问题，特别是在Python等语言处理实时数据时存在的延迟，从数据获取到告警通知的时间可能长达3-4分钟。综上，实时智能异常检测平台的算法和工程实现是一个综合性的技术挑战，涉及到数据分析、机器学习、模型优化以及系统性能等多个层面，旨在提高业务异常检测的准确性和效率。

3 报警系统是神经

引入算法来解决这个问题

既不要敏感

又不能大条

还得自适应

剩余19页未读，继续阅读

良月二十三

粉丝: 76
资源: 174

携程陈剑明：实时智能异常检测算法与工程实践

Prophet携程实时智能异常检测平台实践.pptx

异常：使用多元高斯核进行简单的异常检测

实时异常检测系统Skyline.zip

libgcc-3.4.6-3.i386.rpm

javacv-platform-1.3-bin.zip

gradle-4.1-all.zip 离线包下载 需要下载

zlib-1.2.8.tar.gz（Nginx服务器库）可编译

非调试版本-C Runtime Library11.0.51106.1

C++游戏编程入门.pdf

fast-glob：Node.js中实现快速文件系统遍历的高效库

最新资源

gradle-4.1-all.zip 离线包下载需要下载