腾讯SNG运维总监揭秘:监控与自动化实战与创新

版权申诉
5星 · 超过95%的资源 1 下载量 35 浏览量 更新于2024-06-21 收藏 6.62MB PDF 举报
藏经阁-GOPS全球运维大会是一场关于腾讯SNG监控实践的专业分享,由腾讯社交网络运营部总监聂鑫主讲。他分享了腾讯在监控领域的十年经验,从开发阶段到运维管理,涵盖QQ、空间等产品的运维工作,展示了运维团队的成长和公司运营技术的创新历程。 在腾讯的技术运营中,监控体系是关键环节。他们构建了一套全面的监控系统,包括用户浏览器、终端APP、逻辑服务器(如S++和So)、Web服务器(如Qzhttp和Apache)、DNS解析、缓存服务(CMEM/CKV)、数据库服务器(CDB/TDB)、CDN、代理服务器(Qhttpd)、负载均衡器(LVS/TGW)以及速度测试、返回码和错误码等多维度监控。此外,还有IDCSpeed和IDCProbe进行CDN自动化测试与一致性监控,确保服务质量和用户体验。 监控不仅关注实时性能,还包括组件监控、容量监控、网络质量监控、自动化测试等多个方面。他们通过LDNS、DBC监控等工具进行深度监控,并利用变更体检报告来评估系统的稳定性。入侵和攻击事件的监控也是重要的安全防护措施,同时,客户端上报的Ut客户端监控系统也在日常运维中发挥重要作用。 会议还探讨了监控与自动化的关系,强调了如何利用AI跟进时代潮流,实现智能化运维。值得关注的是,腾讯的监控体系具有高度的灵活性和适应性,能够应对各种复杂的业务场景,包括不同类型的终端、用户分布和产品类型,以及大规模的日志告警处理(如5万条/天的短信告警)。 在监控系统的发展过程中,腾讯注重监控特性的全面性和精确性,涉及模块间调用、站点分析、容量管理、设备特性和客户端环境监控等多个子领域。此外,他们还使用先进的工具如Habo多维分析、移动端分析和舆情监控,以提供全方位的数据洞察。 通过此次大会,参会者可以了解到腾讯在监控技术上的实践经验,以及如何在实践中解决矛盾,实现“快”、“准”、“全”的监控目标,这无疑对运维技术从业者具有很高的参考价值。