实时计算在贝壳找房的实践
在贝壳找房这个庞大的业务环境中,数据驱动是关键。作为国内知名的房产服务平台,贝壳找房的四大主体业务——二手房交易、新房交易、租赁业务和装修业务,产生了大量的数据,包括楼盘字典、交易数据、用户行为日志和后端服务日志。这些数据的实时性和准确性对于业务决策至关重要。
在2018年初,贝壳大数据部面对数据管理挑战,开始建设DP实时数据总线,实现了埋点数据的标准化处理和实时数据的清洗。这一举措提升了数据的可用性和一致性,为后续的实时计算奠定了基础。随着实时任务需求的增长,Hermes实时计算平台应运而生,它是一个统一的实时任务管理平台,旨在解决数据流稳定性和任务管理的问题。
Hermes平台的发展历程中,2018年10月引入了SQLV1编辑器,采用SparkStructuredStreaming技术,简化了实时计算任务的开发过程。用户可以使用SQL进行需求编写,同时通过界面拖拽方式操作,提高了效率。在2019年5月,Flink技术栈被引入,SQLV2编辑器推出,提供了更全面的FlinkSQL支持和大量自定义函数,兼容HiveUDF,满足了用户多样化的功能需求。
截至当时,Hermes平台已经支持了30多个业务项目,处理的流计算任务超过400个,每天能处理高达800亿级别的消息,显示了其强大的数据处理能力。实时计算的应用范围广泛,涵盖了风控、租赁、策略搜索等多个业务领域,有力地推动了贝壳找房的业务运营和发展。
平台的发展并非一帆风顺,起初任务增长较慢,但随着Flink的引入和SQL开发的全面支持,任务数量在2019年显著提升。如今,Hermes实时计算平台每日可以处理1000亿条数据,平均数据处理延迟保持在40毫秒,展现了高效的数据处理性能。
Hermes平台的核心价值在于提供了一个稳定、高效且易用的实时任务管理环境,通过整合多种技术如Spark和Flink,满足了贝壳找房多样化和高性能的实时数据计算需求,对于优化业务流程、驱动数据驱动决策和增强整体业务效能起到了关键作用。未来,随着贝壳找房业务的持续扩张,Hermes平台有望继续发挥重要作用,推动数据驱动战略的深入实施。