联通数科的Flink实时计算平台演进与实践
版权申诉
135 浏览量
更新于2024-07-05
收藏 29.1MB PDF 举报
"Apache Flink 在移动云实时计算的实践"
Apache Flink 是一款开源的流处理框架,专门设计用于处理大规模的数据流。在移动云环境中,Flink 的实时计算能力得到了广泛应用,尤其在大数据处理领域。本文将探讨中国联通在实时计算平台上的演进历程,以及如何基于 Flink 实现集群治理和未来规划。
1. **实时计算平台背景**
- 平台处理大量的数据源,包括30多种不同的数据类型,分布在全国31个省份及多个子公司,每日处理数据量高达1.5万亿条,日增量接近600TB。
- 支持26个标准化场景和超过5000个场景订阅,要求数据延迟小于5分钟,数据完整性保证至少一次,准确率达到95%以上。
- 数据涉及用户行为、使用、触网等多种维度,对手机号码、发生时间、地理位置等关键信息进行实时分析。
2. **实时计算平台演进**
- 早期采用Kafka+Spark Streaming的三方平台,但面临资源消耗过大、依赖外部系统、监控粒度不足等问题。
- 后期转向自研平台,基于Kafka+Flink,减少了资源消耗,但仍存在订阅对应多个实时流、资源负载高等挑战。
- 最终发展到全面基于Flink的新架构,实现了资源优化、端到端监控和自定义功能,构建了独享的Flink集群,处理规模达到每天1.5万亿条和600TB+的数据。
3. **基于Flink的集群治理**
- 通过Flink的流任务优化,最大化利用Flink的状态机制,例如使用RocksDBStateBackend存储人群进入、驻留等围栏信息,降低对外部系统的依赖。
- 压缩消息策略,将相同基站的消息合并,降低外部系统压力,提高处理效率。
- 自定义hash算法,实现亿级标签的关联计算,进一步减少对外部系统的依赖。
4. **未来规划**
- 鉴于Flink的强大功能和平台的成功实践,未来可能继续深化Flink在实时计算中的应用,优化资源分配,提升处理速度,以及增强监控和故障排查能力。
- 可能会探索更多创新场景,如智能分析、预测建模等,以满足不断增长的业务需求。
总结,Apache Flink 在移动云实时计算的实践中发挥了关键作用,解决了传统方案的诸多问题,通过优化资源利用、提升处理效率和实现全面监控,提升了整个实时计算平台的稳定性和效率。随着技术的发展,Flink 将继续在大数据实时处理领域扮演重要角色。
2019-08-28 上传
2021-09-26 上传
点击了解资源详情
2015-10-30 上传
2018-12-07 上传
2021-05-19 上传
2022-05-30 上传
2021-10-05 上传
点击了解资源详情
wukangjupingbb
- 粉丝: 184
- 资源: 404
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜