腾讯监控体系:从0到N的演进与实践

需积分: 10 4 下载量 175 浏览量 更新于2024-07-17 收藏 6.72MB PDF 举报
“从0到1到N腾讯监控体系全透视.pdf”讲述了腾讯社交网络运营部总监聂鑫在GOPS2017全球运维大会上关于腾讯监控体系的建设与发展的分享,涉及腾讯技术运营架构、自动化能力以及监控体系的深度剖析。 在腾讯的技术运营架构中,监控体系占据了重要地位。随着业务的不断扩展,腾讯的监控系统经历了从无到有,再到大规模应用的过程。监控体系不仅包括对用户浏览器、终端APP、逻辑服务器、Web服务器、DNS解析、缓存服务器、数据库服务器、CDN、代理服务器等关键组件的监控,还涵盖了容量监控、基础网络管理、自动化测试、模块间调用监控等多个层面。 腾讯在监控领域的核心目标可以概括为“快、准、全”,这三个要素在实践中往往存在矛盾,如何平衡这些矛盾成为了运维技术的一大挑战。为了实现这一目标,腾讯在监控系统上实施了多维度的监控策略,包括: 1. **用户端监控**:通过监控用户浏览器和终端APP的行为,确保用户体验的顺畅。 2. **服务端监控**:针对各种服务器(如S++、So、Qzhttp、Apache等)进行性能监控,确保服务稳定运行。 3. **网络质量监控**(N):对IDC速度和IDCProbe进行监控,确保网络传输的质量和效率。 4. **自动化测试**(A):利用自动化测试工具提升测试质量和效率,减少人为错误。 5. **组件监控**:对各个业务组件进行实时监控,如DNS解析、数据库监控(DBC)、容量监控(L)等。 6. **安全监控**:包括入侵/攻击监控,确保系统的安全性。 7. **客户端环境监控**(H):关注用户设备的环境状态,以提供更适应的体验。 8. **移动端分析**(I:华佗移动端分析):针对移动设备用户的行为和反馈进行分析。 此外,腾讯也在积极跟进时代,将AI技术融入监控体系,提升智能化水平,例如使用AI进行异常检测和故障预测。同时,通过监控实例的大量数据,如指标数、告警量和人均告警量,持续优化监控系统,降低误报率,提高运维效率。 在自动化能力方面,腾讯致力于提升自动化平台的质量和用户体验,实现平台产品在三地的对等分布,并对重点产品进行两地双中心容灾设计,以保证高可用性。面对多样化的产品类型、终端类型和用户习惯,腾讯的监控体系能够灵活应对,确保无论是老业务还是新业务,都能得到及时有效的监控。 总结来说,腾讯的监控体系是一个全面、智能且高度自动化的系统,它涵盖了从用户端到服务端,从基础设施到业务逻辑的每一个环节,确保了腾讯庞大而复杂的业务网络能够稳定、高效地运行。