腾讯赵建春:运维团队的化繁为简与智能化探索

需积分: 10 1 下载量 198 浏览量 更新于2024-07-17 收藏 6.96MB PDF 举报
“运维团队的一种选择简智深.pdf” 在GOPS2017全球运维大会上,腾讯的赵建春分享了主题为《运维团队的一种选择:简、智、深》的演讲,探讨了如何使运维工作化繁为简,以及在人工智能(AI)浪潮下运维的智能化,并阐述了运维人员的专业发展路径。 首先,运维工作的化繁为简涉及到对研发结构差异的考虑。赵建春指出,大多数公司的技术架构是研发先行,运维后进,而不同的公司组织结构和运维团队影响力会导致不同的运维管理模式。他提出了全局设计的原则,包括整体考虑、灵活适配、效率优先、标准规范以及持续改进。其中,尽管工具可以显著提高运维效率,但标准规范的效果往往容易被忽视。 针对多中心型的研发组织,赵建春列举了腾讯面临的挑战,如规模大、增长快、研发架构不统一、变更频繁、无维护时段的持续在线运营以及强系统耦合。为应对这些挑战,腾讯采取了一系列措施,例如通过程序框架和界面的统一来实现“千人一面”,以及从架构和分工上简化运维流程,设立业务群运维组、组件运维组等专业化团队,以提高效率。 腾讯还引入了基于CMDB(配置管理系统)的虚拟镜像,将资源如包、配置、文件、脚本等标准化并保存在资源仓库中。此外,腾讯织云作为资源管理平台,整合了各个业务模块的资源,通过名字服务、容错和灰度发布来优化决策系统。监控体系也得到升级,包括基础监控、关键告警、根源告警分析和流程引擎,以提升故障处理速度和自动化水平。 在AI浪潮下,运维的智能化成为趋势。赵建春提到的“60%法则”反映了运维环境的发展历程,从早期的打包规范,到组件标准化,再到现在的L5容错,体现出运维工作逐步走向自动化和智能化的过程。 总结起来,运维团队通过简化工作流程、标准化资源管理和智能化运维手段,如腾讯的实践所示,能够有效应对复杂多变的业务需求,提高效率并降低风险。同时,随着AI技术的发展,运维人员需要不断学习和适应新技术,深化专业能力,以适应未来运维的深度挑战。