携程Hickwall监控告警平台:从一代架构优化到二代解决方案

1 下载量 131 浏览量 更新于2024-08-29 收藏 333KB PDF 举报
携程新一代监控告警平台Hickwall经历了显著的架构演进,以应对早期版本存在的挑战。Hickwall的第一代架构起源于2015-2016年间,当时对业界流行的开源监控系统进行了深入研究。Graphite因其丰富的生态系统受到青睐,但其集群配置复杂,文件存储导致小文件过多和I/O等待时间较高,Python实现限制了性能。OpenTSDB虽基于HBase支持分布式,但在多维查询时性能较差。这些因素促使携程选择了ElasticSearch作为存储引擎,构建了一个包含Proxy、数据格式处理、限流、Kafka聚合、ES存储以及API-Server的系统,能够提供统一的接口供查看和告警。 然而,第一代架构存在明显的不足。首先,组件繁多增加了运维复杂性和新人学习成本;其次,数据堆积问题在Consumer故障时会导致实时数据丢失,影响用户体验;最后,较长的数据流转链可能导致告警不准确。为解决这些问题,Hickwall进行了迭代升级,采用了自研的Influxdb集群作为新的存储解决方案。新架构将数据流分为三条路径:第一条确保即使在异常情况下也能保持数据的实时可见性;第二条路径则处理数据的冗余备份;最后,减少了数据流转环节,提高了系统的稳定性和告警准确性。 这一架构的改进旨在优化运维效率,提升数据处理能力,减少故障影响,并简化整体架构,使得团队更易于管理和维护。通过这种演化,携程的Hickwall监控告警平台得以适应不断变化的业务需求和技术趋势,成为更为高效和可靠的监控工具。