网易云音乐Flink实时数仓建设与实践

版权申诉
5星 · 超过95%的资源 1 下载量 70 浏览量 更新于2024-07-03 1 收藏 860KB PPTX 举报
"基于Flink实时数仓实践.pdf" 在本次分享中,网易云音乐的技术团队详细介绍了他们如何基于Apache Flink构建实时数仓,并分享了相关的实践经验和解决方案。该实践内容涵盖从背景介绍、实时数仓建设到具体的实时数仓实践等多个方面。 首先,背景介绍部分展示了网易云音乐实时计算平台的现状。平台拥有150多台机器,运行着700多个任务,处理的数据峰值QPS高达400万次,由180多位开发者共同维护,服务于包括实时报表、实时特征计算、实时索引和实时业务在内的多种业务需求。2020年上半年,任务量增长了200%,这表明实时计算的需求在持续增长。 在实时平台version-1的设计中,存在一些问题。例如,基于Apache Flink 1.7版本,但社区发展迅速,使得原有的设计逐渐不匹配。他们采用了自定义的SQL语法,包含DDL和维表JOIN,但这与社区的标准不一致,导致问题追踪困难。此外,元数据缺乏统一管理,数据血缘追踪功能缺失,任务监控系统不健全,这些都给任务问题定位带来了挑战。 针对以上问题,网易云音乐在实时数仓建设上进行了升级,转向了基于Flink 1.9的新版本。新版本与元数据中心进行了整合,以提供更加规范的SQL接口和SDK给用户。同时,实现了端到端的数据血缘收集,确保了问题追踪的可行性。此外,他们加强了数据源和任务的监控,从而更好地管理和优化整个实时计算流程。 元数据中心是新版本中的关键模块,负责管理所有存储的元数据,包括独立管理MQ元数据,采用插拔式的元数据管理模式,统一了数据类型,并提供了元数据检索功能。这样的设计提升了元数据的管理和查询效率,增强了系统的灵活性和扩展性。 这份报告揭示了在实际业务场景中,如何利用Apache Flink解决实时数仓面临的挑战,以及如何通过不断迭代和优化,提升实时计算平台的稳定性和效率。对于那些正在或计划构建实时数仓的企业来说,这些实践经验具有很高的参考价值。