联通数科的Flink实时计算平台演进与实践

版权申诉

135 浏览量更新于2024-07-05 收藏 29.1MB PDF 举报

"Apache Flink 在移动云实时计算的实践" Apache Flink 是一款开源的流处理框架，专门设计用于处理大规模的数据流。在移动云环境中，Flink 的实时计算能力得到了广泛应用，尤其在大数据处理领域。本文将探讨中国联通在实时计算平台上的演进历程，以及如何基于 Flink 实现集群治理和未来规划。 1. **实时计算平台背景** - 平台处理大量的数据源，包括30多种不同的数据类型，分布在全国31个省份及多个子公司，每日处理数据量高达1.5万亿条，日增量接近600TB。 - 支持26个标准化场景和超过5000个场景订阅，要求数据延迟小于5分钟，数据完整性保证至少一次，准确率达到95%以上。 - 数据涉及用户行为、使用、触网等多种维度，对手机号码、发生时间、地理位置等关键信息进行实时分析。 2. **实时计算平台演进** - 早期采用Kafka+Spark Streaming的三方平台，但面临资源消耗过大、依赖外部系统、监控粒度不足等问题。 - 后期转向自研平台，基于Kafka+Flink，减少了资源消耗，但仍存在订阅对应多个实时流、资源负载高等挑战。 - 最终发展到全面基于Flink的新架构，实现了资源优化、端到端监控和自定义功能，构建了独享的Flink集群，处理规模达到每天1.5万亿条和600TB+的数据。 3. **基于Flink的集群治理** - 通过Flink的流任务优化，最大化利用Flink的状态机制，例如使用RocksDBStateBackend存储人群进入、驻留等围栏信息，降低对外部系统的依赖。 - 压缩消息策略，将相同基站的消息合并，降低外部系统压力，提高处理效率。 - 自定义hash算法，实现亿级标签的关联计算，进一步减少对外部系统的依赖。 4. **未来规划** - 鉴于Flink的强大功能和平台的成功实践，未来可能继续深化Flink在实时计算中的应用，优化资源分配，提升处理速度，以及增强监控和故障排查能力。 - 可能会探索更多创新场景，如智能分析、预测建模等，以满足不断增长的业务需求。总结，Apache Flink 在移动云实时计算的实践中发挥了关键作用，解决了传统方案的诸多问题，通过优化资源利用、提升处理效率和实现全面监控，提升了整个实时计算平台的稳定性和效率。随着技术的发展，Flink 将继续在大数据实时处理领域扮演重要角色。

数据延迟

小于5分钟

数据完整性

至少一次

数据准确性

95%

平台要求

剩余27页未读，继续阅读

wukangjupingbb

粉丝: 184
资源: 404

联通数科的Flink实时计算平台演进与实践

开发者专场瓦力探索实时计算新架构ApacheFlink的云原生部署架构和实践最终版.pdf

Apache Flink 行业案例集.pdf

Apache Flink 实时计算应用精选：从媒体到金融，行业实践大盘点

李呈祥-Apache Flink: The Next Big Thing?

【02 余海琳】Flink在滴滴出行的应用与实践.pdf

基于Flink+Doris构建电商实时数据分析平台（PC、移动、小程序）

大数据存储及分层实践-4-6 Apache Iceberg 在小红书的探索与实践.zip

腾讯移动分析Crash系统实时化演进与实践.zip

Apache Flink 1.10.0入门与本地安装教程

Flink样例代码：深入理解与实践

最新资源