网易云音乐Flink实时数仓建设与实践
版权申诉
5星 · 超过95%的资源 114 浏览量
更新于2024-07-03
1
收藏 860KB PPTX 举报
"基于Flink实时数仓实践.pdf"
在本次分享中,网易云音乐的技术团队详细介绍了他们如何基于Apache Flink构建实时数仓,并分享了相关的实践经验和解决方案。该实践内容涵盖从背景介绍、实时数仓建设到具体的实时数仓实践等多个方面。
首先,背景介绍部分展示了网易云音乐实时计算平台的现状。平台拥有150多台机器,运行着700多个任务,处理的数据峰值QPS高达400万次,由180多位开发者共同维护,服务于包括实时报表、实时特征计算、实时索引和实时业务在内的多种业务需求。2020年上半年,任务量增长了200%,这表明实时计算的需求在持续增长。
在实时平台version-1的设计中,存在一些问题。例如,基于Apache Flink 1.7版本,但社区发展迅速,使得原有的设计逐渐不匹配。他们采用了自定义的SQL语法,包含DDL和维表JOIN,但这与社区的标准不一致,导致问题追踪困难。此外,元数据缺乏统一管理,数据血缘追踪功能缺失,任务监控系统不健全,这些都给任务问题定位带来了挑战。
针对以上问题,网易云音乐在实时数仓建设上进行了升级,转向了基于Flink 1.9的新版本。新版本与元数据中心进行了整合,以提供更加规范的SQL接口和SDK给用户。同时,实现了端到端的数据血缘收集,确保了问题追踪的可行性。此外,他们加强了数据源和任务的监控,从而更好地管理和优化整个实时计算流程。
元数据中心是新版本中的关键模块,负责管理所有存储的元数据,包括独立管理MQ元数据,采用插拔式的元数据管理模式,统一了数据类型,并提供了元数据检索功能。这样的设计提升了元数据的管理和查询效率,增强了系统的灵活性和扩展性。
这份报告揭示了在实际业务场景中,如何利用Apache Flink解决实时数仓面临的挑战,以及如何通过不断迭代和优化,提升实时计算平台的稳定性和效率。对于那些正在或计划构建实时数仓的企业来说,这些实践经验具有很高的参考价值。
644 浏览量
2021-10-19 上传
198 浏览量
156 浏览量
105 浏览量
330 浏览量
257 浏览量
安全方案
- 粉丝: 2673
- 资源: 3978
最新资源
- PeStudio 编程辅助软件 v8.66
- 153146_phase1
- 将数据从Arduino传输到Excel-项目开发
- 在vue3+ts+setup语法糖中使用图片预览组件
- Biofouling:此功能将输出结构上贻贝生长的典型所需值。-matlab开发
- 电影建议
- 中秋节模板HTML
- Noscxript Firefox浏览器安全插件
- koshots-server
- 租金预测-数据集
- Reflib-TSV:用于TSV文件的Reflib解析器
- Quote:提供随机报价-matlab开发
- BioTracker:Java粒子跟踪代码,使用FVCOM不规则网格流体动力学模型的输出
- F103_MINI开发板.rar
- 字体格式转换.zip,带使用方法
- thulai