易车Flink实践:从1.7到2.0的流批一体演进与关键应用

版权申诉
0 下载量 108 浏览量 更新于2024-07-04 收藏 5.66MB PDF 举报
Flink在易车落地应用与实践的演讲,由易车数据平台负责人王林红在Flink Forward Asia 2021会议上分享,详细探讨了Flink在易车公司的发展历程和实际应用。演讲分为以下几个部分: 1. **平台现状与发展历程**: - 易车公司在实时计算平台建设上经历了多个阶段,初期使用Storm和Spark进行编码开发,但存在监控不足、无统一平台等问题。 - 2018年引入Flink 1.7,逐步过渡到SQL开发模式,支持实时监控业务。 - 随着Flink版本升级至1.9、1.11,实时平台1.0版本发布,实现了实时数仓的建设,包括统一规范、大量实时任务处理(1000+)和数据湖技术的引入。 2. **平台建设的深化**: - 平台1.0建设聚焦于: - 统一实时数仓标准 - 流批一体架构的实现 - 数据湖技术的应用 - 平台2.0阶段,继续扩展功能,可能涉及实时BI报表、数据源管理(如MySQL、SQL Server、ClickHouse等)、元数据管理、数据质量和血缘跟踪、任务运维智能化等方面。 3. **应用场景**: - 实时监控包括日志监控、前端性能监控和业务数据监控。 - 数据集成涉及DB数据实时接入、Flume到Flink的数据传输,以及不同数据库间的连接。 - 实时数仓建设着重于实时指标的生成,如流量和线索,以及重要活动如818购车节的大屏展示。 4. **平台架构与服务**: - 架构包括公共服务、实时BI报表、数据源管理、元数据管理、任务管理和资源管理等模块。 - 服务涵盖数据接入、存储(如Kafka、HBase、Tidb/MySQL)、自动获取schema、统一数据源和权限管理等。 - 提供了实时画像和推荐、智能诊断、任务状态监控等功能,以及数据血缘分析和变更管理。 5. **技术堆栈与工具**: - 使用了YARN作为调度层,Flink作为实时计算引擎,Kafka用于消息传递,JAR、SQL支持任务开发,以及各种数据接入和加工工具如DTS平台和Table/UDF/Connector等。 总结来说,Flink在易车公司的应用不仅提升了开发效率,还构建了一个全面的实时计算平台,包括数据接入、处理、存储和分析,实现了流批一体,且在实时监控、数据集成、数据仓库和架构设计等方面有深入实践。通过Flink的灵活和高效,易车能够快速响应业务需求,提供实时决策支持。