平安云运维实践:基于ITIL与SRE的高合规管理体系

0 下载量 157 浏览量 更新于2024-08-27 收藏 686KB PDF 举报
"平安云运维解密" 平安云是中国平安保险(集团)股份有限公司旗下的云计算服务平台,专注于为银行、证券、保险、互联网金融和医疗健康行业提供专业的云计算解决方案。该平台结合金融与健康业务的特殊需求,如系统稳定性、合规性和数据安全性,提供了包括开发、测试、生产、容灾在内的全方位基础设施服务,并且为这些行业定制金融IT解决方案。自2013年底启动项目以来,平安云坚持开源与自研并重,自主研发了IaaS层的完整产品线,确保为金融行业客户供给可靠、灵活、高效和合规的基础架构服务。 在日常运维管理方面,平安云遵循ITIL(信息技术基础设施库)流程管理体系,确保运维工作的规范化和标准化。这包括变更管理、事件管理、问题管理、业务连续性计划以及容量管理等多个环节。为了满足金融行业的高合规性要求,平安云的运维变更需经过严格的审批流程,例如生产区变更需经过内部会议授权,重大变更则需高级主管审批。此外,面对快速变化的业务需求,平安云利用开源工具或自研系统增强运维能力,应对不断变化的运维对象和内容。 在云时代,传统ITIL的风险控制流程需要适应新技术环境。例如,由于广泛应用通用Server,单机可靠性降低,但分布式部署却提高了整体应用的可靠性。因此,平安云引入了Site Reliability Engineering(SRE,站点可靠性工程)理念,强调从软件和架构层面解决问题,减少人工干预,并确保所有操作都有自动化工具支持。SRE与ITIL相结合,可以更有效地支持金融技术的转型和服务的高可用性。 平安云的SRE运维云平台系统关注两点:一是通过软件和架构改进解决运维问题,减少人为因素;二是确保所有必要的操作都有配套工具,防止因为资源增长导致运维人力的增加。这种策略不仅符合ITIL的原则,而且在新的技术环境中为金融业的运维工作提供了更为高效和适应性的解决方案。