腾讯AIOps平台织云:从海量运维到智能运维的演进

1 下载量 116 浏览量 更新于2024-08-29 收藏 820KB PDF 举报
“腾讯的AIOps平台升级,特别是其织云平台的发展历程,展示了传统运维向智能化运维的转变。腾讯运维团队遵循‘海量运营之道’,构建了强大的运维支持体系,为业务提供保障。织云平台在应对QQ、QQ空间等社交网络产品的运维挑战中不断演进,设备管理规模从几千台扩展到超过20万台。在这一过程中,腾讯重视构建通用的运维PaaS平台能力和面向业务价值的运维体系。运维对象被按照架构层次分类,并进行标准化、配置化处理,以构建线上经验库。同时,通过控制CMDB的数据一致性和运维操作的可追溯性,确保了运维的高效和安全。” 在腾讯的运维实践中,AIOps平台的升级是一个逐步的过程。首先,团队基于“海量运营之道”的理念,构建了体系化的运维能力,这包括对各种产品的全面支持和对业务质量的严格保障。腾讯SNG的织云平台是这一理念的具体实践,它在各个互联网发展阶段中不断适应和升级,从最初的几千台设备管理发展到管理超过20万台设备,充分展现了其灵活性和扩展性。 为了提升运维效率并确保服务质量,腾讯运维团队强调面向业务价值的运维体系。这意味着运维工作不再仅仅关注技术层面,而是紧密围绕业务需求和价值展开。运维对象被精细地划分为网络、设备、系统、组件、业务和用户等多个层次,便于管理和优化。每个运维对象都有其特定的配置属性、业务属性、监控属性和工具关联属性,这些属性随对象生命周期的变化而动态调整。 为了实现运维的标准化和自动化,腾讯构建了配置管理数据库(CMDB),将运维对象进行抽象、配置化和模型化处理。这样,CMDB不仅能记录运维操作,还能指导实际运维工作,确保所有运维对象与业务模型有明确的关联,为关联分析提供数据支持。为了保持CMDB数据与生产环境的一致性,腾讯在运维对象的全生命周期内实施标准化工具和流程,控制数据读写,并实现操作的可追溯和审计,进一步增强了运维变更的安全性。 腾讯的AIOps平台升级之路体现了其在运维领域的创新和深度思考,通过构建智能运维平台,不仅提高了运维效率,也确保了业务的稳定性和安全性,为腾讯的社交业务提供了坚实的技术支撑。