有赞团队管理与DevOps实践的反思与未来展望

需积分: 5 0 下载量 113 浏览量 更新于2024-06-21 收藏 1.2MB PDF 举报
"藏经阁-团队和工程管理的取舍.pdf" 这篇文档主要探讨了团队和工程管理中的一些关键决策,特别是在DevOps实践、自研底层软件、过程改进和团队构建方面。文档以有赞公司的实践为例,分享了他们在实施DevOps过程中遇到的问题和解决方案。 1. DevOps的实践: 有赞早期尝试推行DevOps文化,鼓励研发人员直接处理线上问题,期望通过减少沟通成本提高效率。然而,随着团队规模扩大,没有专职运维人员导致线上环境混乱,如版本混杂、重要数据丢失等。他们意识到,DevOps并非简单的研发与运维融合,而需要完善的工具链支持。最终,他们成立了专门的运维团队,制定了规范和标准,明确了角色职责,以确保系统的稳定性和安全性。 2. 自研底层软件实践: 文档提到了自研底层系统的想法,认为这应该是相对简单且快速的任务。但实际情况往往比预期复杂,自研系统可能需要较长的时间投入,并且会面临诸多挑战。文档暗示,自研可能并不总是最佳选择,特别是在系统不够成熟或团队能力有限的情况下。 3. 过程改进的实践: 在实践中,有赞经历了从无序到有序的过程改进。他们认识到,70%的工作集中在软件维护上,且大部分告警并未得到及时处理。因此,他们推动了故障等级和制度的标准化,强制业务设定稳定性指标,以提升团队对稳定性的重视。 4. 团队构建的实践: 随着团队规模的扩大,团队构建的重要性凸显。有赞在初期允许全员拥有sudo权限,但后来发现这可能导致线上环境的混乱。他们开始限制权限,明确职能划分,确保线上环境的秩序。 总结来看,文档提出,DevOps并不是简单的“开发+运维”,而是需要完整的工具链支持和清晰的角色分工。同时,自研底层系统需谨慎,避免陷入另一个复杂性陷阱。未来的趋势可能会进一步专业化,例如SRE(Site Reliability Engineering)的角色,以及在微服务架构中遇到类似DevOps的问题。团队管理需要深思熟虑,以实现高效的协作和稳定的系统运行。