大规模存储计算服务运维管理方案着重于构建一个面向小米集团内部众多业务线的高效、稳定且成本效益高的存储和计算服务平台。该方案旨在满足包括手机、IoT、互联网、人工智能、汽车等业务在内,对高质量、低成本的存储计算服务有着多样化的需求,如支持离线报表、实时数仓等场景。
服务篇的核心部分包括基础设施层的IDC和公有云网络,以及各种技术架构如X86、ECS(弹性计算服务)等。存储计算服务架构涉及数据管理的多个层次,包括数据平台(如数据工场)、安全认证(如Spark、Kerberos、Hive等)、OLAP分析(如Doris、Streaming、M/R等)、数据湖(如Spark、YARN、Iceberg)、搜索(ElasticSearch)、SQL查询(Spark SQL)、实时和批量处理(Flink、Pegasus),以及专门的数据存储和检索(HDFS、StarFS、Hbase等)。此外,还有密钥管理、文件存储、时序数据库、对象存储、图数据库等,以及监控和消息队列系统如Falcon、Kafka等,以确保数据的高效流动和管理。
在基础设施建设方面,方案提及了HDFS冷热数据分离、Yarn弹性调度、数据湖的落地(如HDFS Federation和HBase 2.x迭代)以及FDS容器化改造和ZooKeeper扩展优化。例如,通过云原生存储建设(如HDFS冷热数据分离),提升了存储效率;而数据流跨机房改造和ElasticSearch稳定性优化则保证了服务的可用性和可靠性。
运维篇重点关注运维团队的角色转变与能力提升。从早期的服务种类较少、规模较小,到如今的种类繁多、规模持续增长,运维工作经历了从手工操作和脚本化到自动化、体系化、平台化的演进。团队定位为采用SRE(Site Reliability Engineering)理念,致力于提供卓越的运维支持,使存储计算服务成为业务发展的可靠保障。成本效率是运维的核心价值观,通过不断优化,降低运维成本并追求服务效能的最大化。
面对的挑战包括传统的运维管理模式与快速发展的业务之间的矛盾,以及较高的沉没成本问题。通过引入HybridOps(混合运维)模式,结合通用运维中台与业务运维平台,逐步解决这些挑战,确保存储计算服务的平稳过渡和持续优化。
这份方案强调了在海量数据和复杂业务场景下,如何通过技术创新、团队转型和有效管理,打造一个能满足业务需求、成本效益高、运维高效的一体化存储计算服务生态系统。