苏宁大数据平台的Spark应用与自动化分析
158 浏览量
更新于2024-08-27
收藏 2.32MB PDF 举报
苏宁大数据平台的架构着重于离线计算、流式计算和OLAP引擎,使用Spark和Hive处理离线数据,SparkStreaming处理准实时计算,Storm与Flink用于实时流计算,而Druid和ES则分别用于OLAP的实时计算和明细查询。在平台化服务化方面,CBT任务流调度平台负责多类型任务的管理和调度,SSMP专注SparkStreaming任务的24小时运行保障,还有在线机器学习平台基于SparkMLlib提供模型训练和部署。
详细知识点:
1. **Spark在大数据平台中的核心地位**:Spark作为一个强大的并行计算框架,在苏宁大数据平台中承担着离线数据分析和挖掘的关键角色,同时通过SparkSQL支持部分Hive的功能迁移。
2. **离线计算**:离线计算主要依赖Spark和Hive,Spark用于复杂的数据处理,Hive则提供数据仓库功能,每日处理大量数据,如文中提到的300TB。
3. **流式计算**:流式计算分为准实时和实时流,准实时计算基于SparkStreaming,可处理数秒至分钟级的业务需求;实时流则采用Storm和Flink,其中Flink因其窗口计算和EventTime处理能力逐渐受到重视。
4. **Storm与Libra**:苏宁拥有大规模的Storm集群,搭配自研的StormSQL引擎Libra,提供了SQL接口以方便实时流业务操作。
5. **Flink的引入**:苏宁开始强化Flink在架构中的作用,利用其在窗口计算和事件时间处理上的优势,以适应不断变化的业务需求。
6. **OLAP引擎**:OLAP服务由Druid和Elasticsearch(ES)共同提供,Druid用于实时指标聚合计算,ES用于快速数据索引和明细查询。
7. **平台工具**:
- CBT任务流调度平台:统一调度Spark、SparkSQL和数据交换等任务,确保大规模任务的高效执行。
- SSMP平台:专注于SparkStreaming任务的管理和调度,确保24小时稳定运行。
- 在线机器学习平台:基于SparkMLlib,支持在线Pipeline构建、模型训练和调优,可一键部署到SparkStreaming应用。
8. **Hive向SparkSQL迁移**:苏宁业务对Hive有较大依赖,但也在逐步将部分工作负载迁移到SparkSQL,以利用其性能优势和更现代的SQL语法。
9. **系统扩展性**:苏宁的大数据平台规模庞大,拥有700多个离线集群节点,每天调度大量任务,显示出系统的高度扩展性和稳定性。
10. **技术发展趋势**:随着业务发展,平台持续引入新工具和技术,如Flink和GPU支持的深度学习,以提升处理效率和满足新的业务需求。
2021-12-07 上传
2021-09-30 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
weixin_38557838
- 粉丝: 2
- 资源: 898
最新资源
- 全国江河水系图层shp文件包下载
- 点云二值化测试数据集的详细解读
- JDiskCat:跨平台开源磁盘目录工具
- 加密FS模块:实现动态文件加密的Node.js包
- 宠物小精灵记忆配对游戏:强化你的命名记忆
- React入门教程:创建React应用与脚本使用指南
- Linux和Unix文件标记解决方案:贝岭的matlab代码
- Unity射击游戏UI套件:支持C#与多种屏幕布局
- MapboxGL Draw自定义模式:高效切割多边形方法
- C语言课程设计:计算机程序编辑语言的应用与优势
- 吴恩达课程手写实现Python优化器和网络模型
- PFT_2019项目:ft_printf测试器的新版测试规范
- MySQL数据库备份Shell脚本使用指南
- Ohbug扩展实现屏幕录像功能
- Ember CLI 插件:ember-cli-i18n-lazy-lookup 实现高效国际化
- Wireshark网络调试工具:中文支持的网口发包与分析