快手大数据研发:短视频领域的数据建设探索

版权申诉
0 下载量 15 浏览量 更新于2024-07-05 收藏 2.96MB PDF 举报
“1-2+快手短视频领域为例的领域数据建设探索.pdf”主要讲述了快手大数据研发专家范姝琼关于快手早期数据建设、领域建设的探索以及短视频领域的建设实践。 1. 快手早期数据建设: 在2016年至2017年,快手的数据建设采用了主题域划分和分层建设的方法。源数据被分为用户域、设备域、生产域和消费域,分别在ODS贴源层、DWD明细层和DWS聚合层进行处理。随着业务形态的扩充和分析需求的增加,数据仓库从v1版本演进到v2版本,新增了内容供给域、内容消费域、社交域和搜索域等主题域。同时,为了解决模型归属不清晰的问题,构建了核心实体宽表和核心业务过程宽表,并引入TOPIC层,以支持定制开发和快速响应需求。 2. 领域建设探索中的问题与解决方案: 尽管进行了主题域扩展,但仍然存在一些问题,如宽表下游需求重复,烟囱式数据建设导致人力资源紧张,找数难,以及数据建设滞后于业务需求等。为了解决这些问题,快手提出了构建公共模型并下沉,通过交付和资源平衡来减少重复工作,同时升级数据规划和能力输出策略,旨在主动赋能数据平台,使其能够更好地适应和解决业务需求。 3. 快手短视频领域建设实践: 随着短视频业务的发展,快手进一步优化了数据建设策略。在内容供给和消费域,可能涉及到视频上传、审核、推荐算法、观看行为等多个环节的数据处理。社交域则涵盖了用户互动、关注、评论等功能相关的数据。搜索域可能包括用户搜索行为、关键词分析等。在财务域,可能会涉及收入、成本、广告投放等相关数据的整合。这些领域的数据建设需要紧密贴合业务需求,提供高效、准确的数据支持,以驱动产品优化和业务决策。 总结来说,快手的数据建设经历了从初期的简单主题域划分到复杂多维的主题层扩展,不断优化以满足日益增长的业务需求。在这个过程中,他们意识到数据平台不仅需要承载数据,更需要主动赋能,通过提升数据规划和能力输出,来解决供需矛盾,降低使用者的分析成本,提高效率。这一过程对于其他类似平台的数据建设具有重要的参考价值。