网易云音乐Flink实时数仓建设与实践
版权申诉
5星 · 超过95%的资源 70 浏览量
更新于2024-07-03
1
收藏 860KB PPTX 举报
"基于Flink实时数仓实践.pdf"
在本次分享中,网易云音乐的技术团队详细介绍了他们如何基于Apache Flink构建实时数仓,并分享了相关的实践经验和解决方案。该实践内容涵盖从背景介绍、实时数仓建设到具体的实时数仓实践等多个方面。
首先,背景介绍部分展示了网易云音乐实时计算平台的现状。平台拥有150多台机器,运行着700多个任务,处理的数据峰值QPS高达400万次,由180多位开发者共同维护,服务于包括实时报表、实时特征计算、实时索引和实时业务在内的多种业务需求。2020年上半年,任务量增长了200%,这表明实时计算的需求在持续增长。
在实时平台version-1的设计中,存在一些问题。例如,基于Apache Flink 1.7版本,但社区发展迅速,使得原有的设计逐渐不匹配。他们采用了自定义的SQL语法,包含DDL和维表JOIN,但这与社区的标准不一致,导致问题追踪困难。此外,元数据缺乏统一管理,数据血缘追踪功能缺失,任务监控系统不健全,这些都给任务问题定位带来了挑战。
针对以上问题,网易云音乐在实时数仓建设上进行了升级,转向了基于Flink 1.9的新版本。新版本与元数据中心进行了整合,以提供更加规范的SQL接口和SDK给用户。同时,实现了端到端的数据血缘收集,确保了问题追踪的可行性。此外,他们加强了数据源和任务的监控,从而更好地管理和优化整个实时计算流程。
元数据中心是新版本中的关键模块,负责管理所有存储的元数据,包括独立管理MQ元数据,采用插拔式的元数据管理模式,统一了数据类型,并提供了元数据检索功能。这样的设计提升了元数据的管理和查询效率,增强了系统的灵活性和扩展性。
这份报告揭示了在实际业务场景中,如何利用Apache Flink解决实时数仓面临的挑战,以及如何通过不断迭代和优化,提升实时计算平台的稳定性和效率。对于那些正在或计划构建实时数仓的企业来说,这些实践经验具有很高的参考价值。
2021-09-14 上传
2023-09-07 上传
2023-05-10 上传
2023-06-02 上传
2023-09-20 上传
2024-05-30 上传
2023-12-07 上传
2023-07-28 上传
安全方案
- 粉丝: 2179
- 资源: 3883
最新资源
- JDK 17 Linux版本压缩包解压与安装指南
- C++/Qt飞行模拟器教员控制台系统源码发布
- TensorFlow深度学习实践:CNN在MNIST数据集上的应用
- 鸿蒙驱动HCIA资料整理-培训教材与开发者指南
- 凯撒Java版SaaS OA协同办公软件v2.0特性解析
- AutoCAD二次开发中文指南下载 - C#编程深入解析
- C语言冒泡排序算法实现详解
- Pointofix截屏:轻松实现高效截图体验
- Matlab实现SVM数据分类与预测教程
- 基于JSP+SQL的网站流量统计管理系统设计与实现
- C语言实现删除字符中重复项的方法与技巧
- e-sqlcipher.dll动态链接库的作用与应用
- 浙江工业大学自考网站开发与继续教育官网模板设计
- STM32 103C8T6 OLED 显示程序实现指南
- 高效压缩技术:删除重复字符压缩包
- JSP+SQL智能交通管理系统:违章处理与交通效率提升