携程Hickwall监控告警平台:InfluxDB集群与流式告警

需积分: 10 13 下载量 29 浏览量 更新于2024-07-17 收藏 654KB PDF 举报
"携程新一代监控告警平台Hickwall由携程技术团队开发,旨在解决传统监控告警系统存在的问题,如数据堆积、链条过长、组件过多等。平台采用了架构演进的方式,从第一代基于Elasticsearch的系统转变为利用InfluxDB构建的新一代架构,以提高存储效率、查询速度和告警性能。" 正文: Hickwall是携程打造的新一代监控告警平台,其核心目标是优化监控数据处理流程,提升系统的稳定性和效率。在第一代架构中,系统依赖于Proxy、API-Server、Kafka、ElasticSearch、Down Sample Consumer、Redis和Trigger等多个组件,导致了数据堆积、处理链条过长以及组件过多的问题。为了解决这些问题,Hickwall进行了架构升级,引入了InfluxDB作为主要的存储和分析引擎。 InfluxDB的优势在于其对时间序列数据的高效处理能力,可以快速进行时间范围内的查询,支持Down Sampling以降低存储需求,并且具备自动删除过时数据的功能,从而降低了使用成本。在新架构中,Proxy将数据转发至Kafka,然后通过InfluxDB集群进行存储、聚合和告警处理。InfluxDB集群采用Incluster架构,实现了低耦合、CAP原则、负载均衡和灾备能力。 在InfluxDB集群的设计上,采用了特定的数据分布策略,依据数据特征和查询特征来减少数据热点和查询节点,优化了Series和Measurement的组织方式。例如,将cpu.load和request.count等指标分别按照Measurement和Measurement+Tags的方式组织,以便更有效地存储和检索数据。 在应对大规模数据处理时,InfluxDB集群展示出了强大的性能。例如,携程在实际部署中使用了10台40核、128GB内存、4TB硬盘的服务器,能够处理约7500万个series,每秒写入45万个points,同时保留1m-10天、5m-30天和1h-180天的数据。此外,InfluxDB还支持Continuous Query功能,但需要注意其内存占用高的问题。 数据恢复方面,Incluster提供了管理和监控界面,确保在故障发生时能够迅速恢复服务。通过类Graphite的语法,用户可以方便地与Incluster进行交互。 携程新一代监控告警平台Hickwall通过InfluxDB的引入和架构优化,显著提升了监控数据的处理效率,减少了资源消耗,并增强了系统的稳定性和可扩展性,对于大型互联网公司的监控告警需求提供了有力的支撑。