"藏经阁-去哪儿网应用运维自动化演进之路.pdf"
去哪儿网在2017年的GOPS全球运维大会上分享了其应用运维自动化的演进历程,主要关注了应用运维平台的建设与优化。演讲者郑松宽,作为去哪儿网的高级运维开发工程师,介绍了团队的结构、运维平台的主要功能模块以及面临的挑战与解决方案。
去哪儿网的应用运维平台涵盖了多个关键领域,包括CI/CD(持续集成/持续部署)、主机管理、存储、计算、中间件、监控、报警和日志管理。这些模块共同构建了一个全面的运维生态系统,旨在提升效率,降低故障率,并实现数据互通。
在应急运维方面,早期依赖于SSH、Linux命令和脚本进行运维操作,这种方式效率低下,且数据未共享,系统分散。为解决这些问题,去哪儿网逐步构建了一站式运维平台,实现了数据的互通和系统的整合,使得运维工作更加集中化和高效。
主机管理系统是平台的重要组成部分,包括脚本、文档、工具以及权限管理等。去哪儿网采用了OpenStack等技术来管理主机,同时引入DNSDB以支持更精细的DNS管理。通过这个系统,可以便捷地创建和销毁主机,但同时也面临找负责人困难、部门统计复杂等问题。为解决这些问题,去哪儿网引入了应用树的概念,明确了BU(Business Unit)、团队和应用之间的关系,使得负责人定位更快,部门主机统计更为简便。
为了进一步提升效率,去哪儿网实施了业务线参与主机管理的策略,让开发人员也能申请和管理主机。同时,建立了审批中心处理主机和账号申请,通过应用树和审批流程确保信息的同步和准确性。然而,主机扩容、账号添加等操作仍然需要OPS团队介入,这表明自动化流程还有待完善。
面对分布式系统中的同步难题,去哪儿网提出了两种可能的解决方案:一是采用自增ID或UUID作为节点标识;二是使用Appcode(可能是特定的业务代码)来确保各系统间的一致性。这些举措都是为了提高运维自动化程度,减少人工干预,提升整体运维效能。
去哪儿网在运维自动化上的演进展示了从传统手动运维到自动化运维的转变,通过构建综合的运维平台,实现了监控报警的智能化、主机管理的规范化以及业务线的深度参与,逐步提升了运维效率和服务质量。在这个过程中,不断解决新出现的问题,以适应快速发展的IT环境,为其他企业的运维自动化提供了有价值的参考经验。