携程Hickwall监控告警平台:InfluxDB集群与流式告警
需积分: 10 29 浏览量
更新于2024-07-17
收藏 654KB PDF 举报
"携程新一代监控告警平台Hickwall由携程技术团队开发,旨在解决传统监控告警系统存在的问题,如数据堆积、链条过长、组件过多等。平台采用了架构演进的方式,从第一代基于Elasticsearch的系统转变为利用InfluxDB构建的新一代架构,以提高存储效率、查询速度和告警性能。"
正文:
Hickwall是携程打造的新一代监控告警平台,其核心目标是优化监控数据处理流程,提升系统的稳定性和效率。在第一代架构中,系统依赖于Proxy、API-Server、Kafka、ElasticSearch、Down Sample Consumer、Redis和Trigger等多个组件,导致了数据堆积、处理链条过长以及组件过多的问题。为了解决这些问题,Hickwall进行了架构升级,引入了InfluxDB作为主要的存储和分析引擎。
InfluxDB的优势在于其对时间序列数据的高效处理能力,可以快速进行时间范围内的查询,支持Down Sampling以降低存储需求,并且具备自动删除过时数据的功能,从而降低了使用成本。在新架构中,Proxy将数据转发至Kafka,然后通过InfluxDB集群进行存储、聚合和告警处理。InfluxDB集群采用Incluster架构,实现了低耦合、CAP原则、负载均衡和灾备能力。
在InfluxDB集群的设计上,采用了特定的数据分布策略,依据数据特征和查询特征来减少数据热点和查询节点,优化了Series和Measurement的组织方式。例如,将cpu.load和request.count等指标分别按照Measurement和Measurement+Tags的方式组织,以便更有效地存储和检索数据。
在应对大规模数据处理时,InfluxDB集群展示出了强大的性能。例如,携程在实际部署中使用了10台40核、128GB内存、4TB硬盘的服务器,能够处理约7500万个series,每秒写入45万个points,同时保留1m-10天、5m-30天和1h-180天的数据。此外,InfluxDB还支持Continuous Query功能,但需要注意其内存占用高的问题。
数据恢复方面,Incluster提供了管理和监控界面,确保在故障发生时能够迅速恢复服务。通过类Graphite的语法,用户可以方便地与Incluster进行交互。
携程新一代监控告警平台Hickwall通过InfluxDB的引入和架构优化,显著提升了监控数据的处理效率,减少了资源消耗,并增强了系统的稳定性和可扩展性,对于大型互联网公司的监控告警需求提供了有力的支撑。
2021-01-27 上传
2021-12-07 上传
2021-04-28 上传
2021-12-24 上传
2021-07-26 上传
良月二十三
- 粉丝: 76
- 资源: 174
最新资源
- MATLAB实现小波阈值去噪:Visushrink硬软算法对比
- 易语言实现画板图像缩放功能教程
- 大模型推荐系统: 优化算法与模型压缩技术
- Stancy: 静态文件驱动的简单RESTful API与前端框架集成
- 掌握Java全文搜索:深入Apache Lucene开源系统
- 19计应19田超的Python7-1试题整理
- 易语言实现多线程网络时间同步源码解析
- 人工智能大模型学习与实践指南
- 掌握Markdown:从基础到高级技巧解析
- JS-PizzaStore: JS应用程序模拟披萨递送服务
- CAMV开源XML编辑器:编辑、验证、设计及架构工具集
- 医学免疫学情景化自动生成考题系统
- 易语言实现多语言界面编程教程
- MATLAB实现16种回归算法在数据挖掘中的应用
- ***内容构建指南:深入HTML与LaTeX
- Python实现维基百科“历史上的今天”数据抓取教程