360Wonder监控系统:基于Open-Falcon的开发与优化实践
30 浏览量
更新于2024-08-27
收藏 460KB PDF 举报
"360Wonder监控系统,设计和开发经验之谈"
在设计和开发360Wonder监控系统的过程中,团队面临的主要挑战是如何为HULK私有云平台提供高效且可扩展的监控解决方案。在选用Open-Falcon作为基础平台之前,HULK曾使用Zabbix和另一内部监控系统。虽然Zabbix在报警策略配置上表现出色,但在处理大量机器(超过6000台)时,其poller组件的繁忙度极高,导致性能问题。同时,由于360的多机房环境,部分机房无光纤连接,这使得监控数据的队列积压严重。而内部的监控系统由于长期缺乏维护,无法满足用户日益增长的需求。
选择Open-Falcon的原因主要在于其现代化的设计、模块化的架构以及采用rrd存储数据带来的快速图表生成能力。然而,Open-Falcon也存在一些不足,如文档不丰富、多个操作界面、Java编写的UIC增加学习成本以及开放API的限制。
为了克服这些挑战,开发团队对Open-Falcon进行了二次开发,以适应HULK的具体需求。他们开发了API以实现与HULK业务树的定时同步,确保新增主机能自动关联到监控策略。考虑到HULK的三级业务结构,团队为每个层级创建了Group和Template。此外,他们还针对原有系统的局限性进行了一系列改进,例如优化报警策略配置、提升数据处理效率,以及增强系统的稳定性和可用性。
在实际应用中,Wonder监控系统不仅承担了基础的性能监控任务,如CPU、内存、网络和磁盘使用情况,还涵盖了数据库(如MySQL实例)的监控。通过集成自定义指标,Wonder能够监测业务的关键性能指标,如请求延迟、服务响应时间等,从而及时发现并解决潜在的问题。
Wonder监控系统的设计注重灵活性和可扩展性,使得它可以随着HULK业务的增长而无缝扩展。它还提供了强大的报警机制,能够根据预设阈值自动触发报警,确保运维团队能在问题出现时迅速做出反应。此外,Wonder还支持自定义视图和仪表板,以便用户根据自身需求定制监控视图,提高工作效率。
360Wonder监控系统是通过深入理解HULK的业务需求,结合Open-Falcon的优势,并对其进行了针对性的优化和扩展,构建而成的一套强大、灵活且易用的监控解决方案。它的成功上线,不仅解决了原有监控系统的瓶颈,也为360的运维团队提供了更高效、全面的监控体验。
2021-09-14 上传
2021-09-20 上传
点击了解资源详情
2021-07-23 上传
2024-05-23 上传
2020-11-11 上传
2019-10-24 上传
2021-06-21 上传
2021-02-24 上传
weixin_38549327
- 粉丝: 4
- 资源: 931
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目