网易大数据运维实践:EasyOps平台与监控框架解析

版权申诉
0 下载量 89 浏览量 更新于2024-07-04 收藏 16.11MB PDF 举报
"网易大数据平台运维实战-SACC2021年中国系统架构师大会.pdf" 在本次分享中,网易(杭州)研究院的金川详细介绍了网易大数据平台的运维实践,主要包括网易大数据应用的现状、EasyOps大数据管控平台、通用的大数据服务运维框架以及通用的大数据监控报警框架。 网易大数据应用现状: 网易的大数据平台涵盖了Hadoop生态中的多种基础服务,如HDFS、YARN、HBase、Hive、Spark、Impala和Kudu等。此外,他们还拥有自研的有数中台,支持批流一体开发、指标管理、数据资产和任务调度运维等功能。平台规模宏大,包含6个Hadoop集群,其中3个是HDFS联邦,总节点数超过5000,单个集群的最大节点数达到2200+,总存储量达到了400+PB,平均使用率为67%,每天提交的作业量超过20万,MR/Spark作业比例接近2:1。 EasyOps大数据管控平台: 为了解决复杂架构(多集群、混部)的适配问题和云上部署的管理工具兼容性问题,网易开发了EasyOps大数据管控平台。该平台提供自动化运维方案,提升了运维效率,并通过产品化底层数据接口服务于数据中台,从而提高了线上故障定位效率,减少了故障恢复时间。EasyOps平台具有前后端技术栈,前端使用Ant-Design UI、TypeScript、Vue等技术,后端基于SpringBoot、MySQL、Docker等技术构建。同时,它使用Ansible作为运维配置管理工具,通过Ansible-runner-service提供RESTAPI访问接口。 通用的大数据服务运维框架: 该框架设计了一系列通用的服务运维操作,包括安装/卸载、配置、启停、升级/回滚、服务迁移以及其他定制操作。在安装过程中,采用了Ansible技术栈,利用ansible-runner实现自动化。在配置管理方面,提供了配置组、变更历史、自定义配置参数和配置文件导入等功能,便于管理和跟踪配置变更。 监控报警框架: 虽然未在摘要中详述,但可以推测网易大数据平台也拥有一个通用的监控报警框架,用于实时监控系统状态,及时发现并处理异常,确保系统的稳定运行。 总结来说,网易大数据平台通过引入EasyOps管控平台和构建通用的大数据服务运维框架,实现了高效、自动化的运维管理,确保了大数据平台的稳定性和高可用性。同时,通过自研的有数中台,加强了数据的批流处理能力和全面的指标管理,为业务提供了强有力的数据支撑。