58同城监控平台架构与实践解析

需积分: 10 2 下载量 178 浏览量 更新于2024-07-24 收藏 1.21MB PDF 举报
"58同城架构部资深工程师分享的监控平台架构与实践文档,主要探讨了监控平台的介绍、挑战和架构设计,涵盖了监控系统、配置系统、统计系统、统一监管平台Zeus、部署系统以及Agent等多个方面。文档还提到了监控平台在报警延迟、固定阀值、数据准确性等方面面临的挑战,并提出了解决方案。" 58同城的监控平台旨在解决在大规模互联网服务中常见的监控问题,如报警延迟、固定阀值设定、数据准确性不足、重要信息难以识别、监控范围有限以及资源浪费等。为应对这些挑战,他们设计了一个以集群为单位的监控系统,包括以下几个关键组成部分: 1. UI:用户界面,用于可视化配置和展示监控、报表等信息,提供状态图和各种监控指标的直观展示。 2. 采集:通过Agent实现,包括全局日志采集、周期日志数据汇总、进程监控(如JVM)以及主动探测采集。主动探测采集利用关键字过滤、Dat(Double-ArrayTrie)算法和端口探测来收集信息。 3. 分析:基于数学建模,将复杂的监控数据转化为可理解和处理的模型。数学建模通过对轨迹点的划分、设置阀值、消除躁点以及根据业务规则变化进行建模,以防止渐变故障(即“温水煮青蛙”效应)。 4. 校验规则:确保数据准确性和及时性,采用点校验、周期校验、斜率校验和曲线拆分校验等方法,对实时数据和历史数据进行比较,以检测异常变化。 5. 存储:按时间周期分库、分表,定期对数据进行汇总,以便于长期存储和查询。 该监控平台的设计理念是追求简单、高效,减少程序依赖,确保及时报警和实时监控,同时也支持系统故障的快速分析。通过这种架构,58同城能够更有效地监控其服务运行状况,及时发现并解决问题,保障业务的稳定运行。