360Wonder监控系统:基于Open-Falcon的开发与优化实践

0 下载量 30 浏览量 更新于2024-08-27 收藏 460KB PDF 举报
"360Wonder监控系统,设计和开发经验之谈" 在设计和开发360Wonder监控系统的过程中,团队面临的主要挑战是如何为HULK私有云平台提供高效且可扩展的监控解决方案。在选用Open-Falcon作为基础平台之前,HULK曾使用Zabbix和另一内部监控系统。虽然Zabbix在报警策略配置上表现出色,但在处理大量机器(超过6000台)时,其poller组件的繁忙度极高,导致性能问题。同时,由于360的多机房环境,部分机房无光纤连接,这使得监控数据的队列积压严重。而内部的监控系统由于长期缺乏维护,无法满足用户日益增长的需求。 选择Open-Falcon的原因主要在于其现代化的设计、模块化的架构以及采用rrd存储数据带来的快速图表生成能力。然而,Open-Falcon也存在一些不足,如文档不丰富、多个操作界面、Java编写的UIC增加学习成本以及开放API的限制。 为了克服这些挑战,开发团队对Open-Falcon进行了二次开发,以适应HULK的具体需求。他们开发了API以实现与HULK业务树的定时同步,确保新增主机能自动关联到监控策略。考虑到HULK的三级业务结构,团队为每个层级创建了Group和Template。此外,他们还针对原有系统的局限性进行了一系列改进,例如优化报警策略配置、提升数据处理效率,以及增强系统的稳定性和可用性。 在实际应用中,Wonder监控系统不仅承担了基础的性能监控任务,如CPU、内存、网络和磁盘使用情况,还涵盖了数据库(如MySQL实例)的监控。通过集成自定义指标,Wonder能够监测业务的关键性能指标,如请求延迟、服务响应时间等,从而及时发现并解决潜在的问题。 Wonder监控系统的设计注重灵活性和可扩展性,使得它可以随着HULK业务的增长而无缝扩展。它还提供了强大的报警机制,能够根据预设阈值自动触发报警,确保运维团队能在问题出现时迅速做出反应。此外,Wonder还支持自定义视图和仪表板,以便用户根据自身需求定制监控视图,提高工作效率。 360Wonder监控系统是通过深入理解HULK的业务需求,结合Open-Falcon的优势,并对其进行了针对性的优化和扩展,构建而成的一套强大、灵活且易用的监控解决方案。它的成功上线,不仅解决了原有监控系统的瓶颈,也为360的运维团队提供了更高效、全面的监控体验。