贝壳找房：千亿级实时计算引擎实战与Flink选型策略

190 浏览量更新于2024-08-31 收藏 1.47MB PDF 举报

在贝壳找房，实时计算引擎的广泛应用对于支撑其庞大的数据处理需求至关重要。贝壳的产品技术团队超过1000人，他们面对的主要实时数据来源包括： 1. **日志数据**：来自2000多个在线服务的日志是流式数据的主要组成部分，这些服务产生的海量日志被用于监控系统性能和异常检测。 2. **前端埋点**：APP和web端上报的经纪人作业情况和用户行为，通过前端埋点技术实时收集，用于个性化推荐、用户体验优化等。 3. **业务数据**：Kafka作为消息队列，承载着业务产生的实时数据，如交易记录、用户交互等。为了实现高效的实时计算，贝壳建立了一个流式计算平台，主要依赖SparkStreaming和Flink这两种流行引擎。平台化设计旨在降低业务方的运维成本，避免重复建设和维护自己的实时计算环境。早期，每增加一个业务方使用数据流计算就需要单独搭建客户端，而现在，平台化将这些复杂性统一起来，使得业务人员可以直接使用大数据能力进行实时处理，但同时也要求他们具备一定的技术基础。 Kafka作为数据源，承载不同类型的数据流和实时数据库binlog，以及内部前端项目的埋点数据（如Dig）。资源调度层面，平台使用YARN进行管理，同时基于社区版Flink扩展了SQL能力，并提供通用实时处理模板。数据的输出则需要兼容各种存储和分析工具，如Elasticsearch、Kafka、Hbase等。实时任务管理与监控是平台的核心功能，包括资源调度优化、元数据化数据处理以及SQL IDE支持和报警系统。此外，平台还支持多种业务应用，如指标分析、实时特征工程、安全风控、ETL（提取、转换、加载）以及实时推荐等。当前，贝壳的实时计算平台规模庞大，约有700个节点和1000多个实时任务，每天处理的数据量达到千亿级别，高峰时单个任务每秒可处理百万条消息。在这样的背景下，贝壳选择Flink作为主要引擎的原因在于它的Exactly-Once一致性保证和丰富的窗口机制，这对于保证数据的准确性和一致性至关重要。Flink的这些特性使得贝壳能够处理高并发、低延迟的实时计算场景，满足其业务需求的实时性和可靠性要求。

抗住日均千亿级消息的实时计算引擎在贝壳的应用实践抗住日均千亿级消息的实时计算引擎在贝壳的应用实践

贝壳找房目前有1000多人的产品技术团队。从实时数据应用角度，公司内主要应用的实时数据，一个是线上的日志，大概有

两千多个线上的服务，每个服务又输出了很多的日志，日志数据是流式数据应用最多的。第二部分就是埋点，在 APP、web

端上报的经纪人作业情况和 C 端用户的行为，这部分通过前端的埋点技术上报。第三部分就是业务的数据，业务用 kafka 做

消息队列产生的实时数据。

流式计算平台

1、流式计算平台

平台目前主要建设 Spark Streaming、Flink 两种在实时计算中比较常见的计算引擎。平台化的背景就是早期如果公司内有业

务想用数据流进行计算，可能需要申请客户端，自己去搭建一个客户端，然后向集群上提交实时作业。这个产生的问题就是如

果每个业务方都去自己这样做成本比较高，每个业务都需要关心自己作业的运维问题，还有监控，实时数据作业的监控建设的

水平也是参差不齐。Spark Streaming、Flink 对于业务同学直接开发也有一定的学习成本，很难直接用上大数据的能力做实时

计算。

我们计算平台流数据源主要都是用 Kafka。Kafka 数据中数据分为几类，一个是数据流，数据流指的是线上的业务日志、访问

日志等，会收集到数据流平台。Binlog 是线上 MySQL、TIDB 产生的 binlog 作为实时数据源。Dig 是内部前端埋点项目的代

号。

计算平台底层集群使用 YARN 做资源调度。再上层就是我们现在主要基于社区版 Flink、扩展了开源 Flink 的 SQL 能力。还有

提供一些通用的实时处理模板。流计算的输出要覆盖线上业务所有需要的存储分析引擎，例如 ES、Kafka、Hbase 等等。

在这些底层基础之上，首先要做的就是实时任务的管理管控，包括如何帮助平台上这些所有 Flink 或者 Spark 任务，进行资源

的调优，对实时数据流中的数据的元数据化。另外还有在 Web 端提供的 SQL IDE、任务运行状态的监控报警。在计算平台之

上业务方做的一些应用：指标分析、实时特征、安全风控、ETL、实时推荐等等。

2、目前现状

目前 YARN 平台大概有七百多个节点，一千多个实时任务，每天的消息量千亿级，高峰单个任务消息量百万条/s。

3、为什么要选择Flink

下载后可阅读完整内容，剩余9页未读，立即下载

weixin_38737980

粉丝: 8
资源: 964

贝壳找房：千亿级实时计算引擎实战与Flink选型策略

雅虎日本如何用 Pulsar 构建日均千亿的消息平台

贝壳实时计算引擎在千亿级消息处理中的应用实践

抗千亿级消息实时计算：线段长度对拐角速度限制在贝壳的应用

贝壳实时计算引擎在千亿消息处理中的应用实践

贝壳实时计算引擎在日千亿消息处理中的应用与挑战

贝壳实时计算引擎在大数据处理中的应用与实践

贝壳实时计算引擎在大数据消息处理中的应用与插补周期优化

贝壳找房的千亿级实时计算平台：Flink与SparkStreaming的应用

时间分割圆弧插补技术在实时计算中的应用与实践

硕士论文：连续小线段前瞻插补算法在实时计算中的应用

最新资源