NewsBreak数据平台:Hudi-Presto结合的现代化尝试-关立胜

需积分: 0 0 下载量 175 浏览量 更新于2024-03-12 收藏 5.34MB PDF 举报
Hudi-Presto 在 News Break 数据平台的尝试-关立胜;202303架构师峰会PPT,Hudi_Presto 在 News Break 数据平台的尝试--关立胜.pdf;Lisheng GUAN, March 2023 在2023年3月举行的架构师峰会上,关立胜分享了他们在News Break数据平台上尝试Hudi-Presto的经验。作为一家新兴的数字媒体平台,News Break需要一个现代化的数据平台来处理海量的数据并支持快速的数据查询和分析。在这次的尝试中,他们尝试了Fast Ingestion和Query upon Unified Schema等新技术,并取得了一定的成就。 在News Break的数据架构中,他们采用了一种先进的数据处理流程,将数据从传统的CDH平台迁移至AWS云平台,并成功实现了从数据到查询结果的时间从数小时缩短到不到15分钟,查询响应时间的95%分位数更是只有9秒。这一成就在数字媒体行业中可谓是一项里程碑式的进展。 在News Break的数据流水线中,他们运用了Hudi作为数据处理的核心组件,充分发挥了其在多种环境下的强大性能和灵活性。通过Hudi,他们实现了多个数据汇集点的聚合,并在其中应用了先进的数据关联技术,进一步提高了数据层的整合性和查询效率。 在Hudi的表现上,News Break从中获益颇丰。他们成功利用Hudi细化了数据处理和关联流程,充分发挥了Hudi的延迟数据处理能力,并实现了数据的动态更新和变更。这一系列的改进大大提高了数据处理的效率和准确性,为新闻内容的实时性和准确性提供了有力的支撑。 在指标上,News Break的数据平台经过Hudi的优化后,取得了显著的进展。数据源的处理时间从10分钟缩短到不到10秒,数据处理的规模从10GB扩大到50B。每月的数据写入量从30TB扩展到3-10分钟的同步时间间隔,相比之前有了大幅提升。这一系列指标的提高,为News Break的数据处理能力和规模提供了强有力的增强。 在细节方面,Hudi在News Break的数据处理中发挥了重要的作用。通过Hudi,他们实现了数据的实时查询和延迟更新,充分保障了数据的准确性和实时性。Hudi的强大功能和灵活性,为News Break提供了一个现代化的数据平台,为其业务的发展和创新提供了坚实的基础。 总的来说,通过对Hudi-Presto在News Break数据平台的尝试,关立胜和其团队取得了令人瞩目的成就。他们成功地应用了先进的数据处理技术,实现了数据的快速处理和查询,并为News Break的业务增长提供了强大的数据支持。这一经验对于数字媒体行业和其他数据密集型行业来说具有重要的启示意义,将为他们提供宝贵的参考。 总之,通过这次尝试,Hudi-Presto在News Break的数据平台上展现出了强大的潜力和应用价值,为企业数据处理和查询带来了新的可能性。相信在未来,随着这一技术的不断发展和完善,将在更多领域展现出其独特魅力,为企业和行业的数字化转型提供更加可靠和高效的解决方案。