网易云音乐数仓建设与流量数据治理实践

需积分: 23 5 下载量 88 浏览量 更新于2024-07-09 1 收藏 2.19MB PDF 举报
“网易云音乐在面对业务快速发展带来的数据需求挑战时,启动了数仓建设之路,旨在通过统一的数仓体系降低数据使用门槛,提升决策效率,并推动数据驱动的业务增长。数仓建设中遇到的问题包括缺乏开发规范、统一数据模型、统一体系以及设计规范。业务目标主要包括支持算法高效迭代、方便业务快速探索、降低分析师使用难度。数仓体系建设的目标是规范化、共享化和自助化,以实现数据的高效共享、使用和自助获取。在架构上,重点在于维度化、精细化、场景化、标准化和自动化。在数据资产沉淀方面,关注流量数据的治理,力求准确、丰富、易用和高效。然而,当前存在的痛点有格式不统一、开发效率低、质量低下以及看数困难等。” 网易云音乐的数仓建设是基于业务快速增长和多元化数据需求的背景下展开的。初期,由于缺乏统一的开发规范和数据模型,各业务线独立建设数仓,导致数据资源共享困难,理解和使用成本高。为解决这些问题,他们确立了数仓建设的业务目标,包括提供稳定、标准化的算法服务,简化业务数据探索,降低数据使用难度,以支持快速决策和业务增长。同时,数仓体系建设的目标也包括建立规范化、共享化和自助化的数据环境,使得数据能够高效共享,降低使用门槛,并通过easyFetch等工具实现数据资产的自助获取。 在数仓的架构设计上,网易云音乐强调了维度化、精细化、场景化、标准化和自动化五个核心方向。维度化是指丰富用户域和资源域的标签,精细化则注重不同粒度和维度的明细及汇总数据,场景化是要实现全流程的数据贯通,标准化是制定统一的规则和码值定义,而自动化则是让新增的埋点数据能自动进入流量模型,提高效率。 然而,流量数据治理成为了一个重大挑战。数据格式不统一、业务域间埋点差异大,寻找和测试埋点数据需要大量人力。开发效率受到客户端埋点技术设计和工程规范缺乏的影响,数据质量问题频发,没有明确的质量控制流程。此外,查看数据的困难也是痛点之一,很多聚合流量数据需要重新提取,增加了工作负担。 网易云音乐的数仓建设是一次系统性的改革,旨在构建一个高效、规范、易用的数据平台,以满足业务发展对数据的需求,但这一过程中也面临诸多挑战,需要不断优化和改进。