BIGO的Flink OLAP与实时数仓优化实践

版权申诉

120 浏览量更新于2024-07-05 收藏 5.33MB PDF 举报

"BIGO公司在使用Flink进行OLAP分析及构建实时数仓的实践中，面临了入口不统一、计算时延高以及烟囱式开发等问题。他们通过建设OneSQL统一查询入口和实时数仓，利用Flink、Presto和Spark等引擎优化了数据分析流程。在OneSQL系统中，集成了多种OLAP查询引擎，提供了智能选择执行引擎的功能，并通过FlinkSQLGateway保障了SQL查询的高可用性。此外，BIGO还基于Flink建立了实时数仓任务，采用Kafka和Pulsar进行实时数据分层管理，实现了任务平台化管理和血缘关系建立。未来规划中，将进一步优化系统性能和用户体验。" 在大数据处理领域，BIGO公司运用Apache Flink解决其在线分析处理（OLAP）和实时数仓的挑战。首先，他们面临的业务背景是为全球用户提供直播、短视频和通信服务，这产生了大量的实时数据需要快速分析和处理。在数据流转过程中，BIGO通过Web、App、DB和BinLog接入数据，使用Flink和Spark进行数据计算，Presto和ClickHouse进行数据查询，以及Hive和MySQL等进行数据存储和输出。在实践中，BIGO发现几个主要问题：一是OLAP分析平台入口不统一，影响用户体验且资源利用率低；二是离线任务计算时延高，导致部分结果产出缓慢；三是计算任务开发分散，缺乏数据分层和血缘关系管理。为了解决这些问题，BIGO推出了OneSQL系统，它整合了Presto、Spark和Flink等多种OLAP查询引擎，提供统一查询入口，智能调度执行引擎，确保资源的有效利用。同时，通过Flink构建的实时数仓，使用Kafka和Pulsar实现数据流的实时分层，增强了任务管理和血缘关系的建立，从而提高了数据处理速度。在技术实现上，BIGO采用了FlinkSQLGateway作为SQL提交的入口，利用Zookeeper的HA机制保证了Flink集群的高可用性。当Flink集群出现故障时，系统能够自动切换到新的集群继续执行任务，确保服务的连续性。未来的规划可能包括对系统性能的进一步优化，提升查询效率，增强用户体验，以及可能的架构扩展以支持更多复杂的业务需求。BIGO的这一实践不仅展示了Flink在实时分析领域的强大能力，也突显了在大数据处理中统一入口、智能调度和高可用性的重要性。

OneSQL-Olap 系统 & 建设实时数仓

OneSQL

• 集多种OLAP查询引擎

(presto/spark/flink)于一体，

充分利用各集群计算资源

• 统一查询入口

实时数仓

• 基于Flink 构建实时数仓任务，

使用kafka/pulsar 实施实时

数据分层管理

• 平台化管理实时任务，建立任

务血缘关系

加速产出

• 将部分离线计算慢的任务迁移

到实时计算上

• 构造实时数仓宽表

剩余34页未读，继续阅读

wukangjupingbb

粉丝: 189
资源: 406

BIGO的Flink OLAP与实时数仓优化实践

BIGO使用Flink做Olap分析及实时数仓的实践及优化-Flink Forward Asia 2021.pdf

Flink Hologres云原生实时数仓最佳实践.pdf

6-6+Bigo计算平台的建设之路.pdf

解读大数据架构设计：迈向Fast Data时代的在线分析技术

HDFS列式存储性能优化秘诀：读写效率深度探索

数据倾斜不再难：Map Join技术的深度剖析与实践

【路径规划】乌燕鸥算法栅格地图机器人最短路径规划【含Matlab仿真 2886期】.zip

【路径规划】生物地理算法栅格地图机器人最短路径规划【含Matlab仿真 2914期】.zip

【路径规划】冠状病毒群体免疫算法栅格地图机器人路径规划【含Matlab仿真 2818期】.zip

在 GPU 上计算的各种样条算法.zip

最新资源