苏宁大数据平台的Spark应用与自动化分析

107 浏览量更新于2024-08-29 收藏 2.32MB PDF 举报

苏宁大数据平台的架构设计与SparkApp自动化分析苏宁大数据平台的计算引擎由离线计算、流式计算和OLAP引擎三部分组成。离线计算主要依赖于Spark和Hive，用于离线数据分析和挖掘。Spark提供高效处理能力，而Hive则提供了SQL接口，方便用户进行数据查询和分析。流式计算方面，苏宁采用两种方式：准实时计算基于SparkStreaming，满足秒至分钟级的业务需求；实时流计算则由39个Storm集群支持，这些集群由1200台Openstack虚拟机（400台实体机）组成，苏宁早期还自主研发了StormSQL引擎Libra，使得Storm可以支持SQL操作。随着技术的发展，苏宁开始逐渐引入Flink，利用其强大的窗口计算和EventTime处理功能来应对更多复杂业务场景。在OLAP领域，苏宁推崇Druid和ES作为主要引擎。Druid用于实时指标聚合计算，而ES则因其快速索引定位能力而被用于明细查询。在平台化和工具支持方面，苏宁搭建了CBT任务流调度平台，它能够调度和管理多种类型的Spark、SparkSQL和数据交换任务。SSMP平台则专注于SparkStreaming任务的管理和调度，确保24小时的稳定运行。此外，苏宁还有一个在线机器学习平台，基于SparkMLlib实现，支持GPU环境下的深度学习，并提供模型训练、优化和发布的全套流程。离线计算集群规模庞大，拥有700多个节点，每天处理超过5万个任务，数据量达到300TB。从图表中可以看出，苏宁的业务对Hive依赖较重，但正在逐步将Hive任务迁移至SparkSQL，以提升效率和性能。同时，Spark任务的数量也在持续增长，反映出Spark在苏宁大数据平台中的重要性日益增强。苏宁大数据平台充分利用Spark的灵活性和高性能，结合其他如Hive、Storm、Druid、ES等工具，构建了一套完整的数据分析和处理体系，并通过自动化分析和故障诊断工具提升运维效率和服务质量。

这是我们在线机器学习平台。目前该平台主要是基于Spark MLlib实现的，对GPU环境下深度学习算法的支持我们也正在开

发。目前我们支持业务在线的进行Pipeline构建、模型训练、调优，并且支持对训练后的模型一键发布到Spark Streaming应用

环境。

这是我们离线大集群的相关数据。目前我们离线这块集群节点数为700多个，每天通过CBT调度任务大概在5W+，每天处理的

数据量在300T左右。

上面表格是我们2016年Q4中期以及最近统计的《Spark和Hive任务分布情况》。当前我们苏宁业务对Hive的依赖还是比较

重，对Hive迁移到Spark SQL的工作我们也在逐步推进。另外我们单看Spark 任务变化情况：在这半年时间里，Spark任务数

增速非常快，Spark任务新增3000+，Spark Streaming任务从0增长到29个。这里要强调一下，目前这3000个Spark任务里

面，只有少少的200个任务是Spark SQL任务，在我们后续Hive迁移过程，Spark SQL任务数增速是会远远超过当前这个数

字。

整体上来说，通过我们平台化以及服务化工作的开展，我们业务已经接受Spark作为它们数据分析链路上一个核心引擎。

Spark平台化遇到的问题

但是在我们整个平台化和服务化的过程中，也遇到很多很多的问题。这些问题一部分是因为业务自身对Spark理解和应用经验

不够，还有一部分是因为我们服务化做的不够好。

剩余12页未读，继续阅读

weixin_38735782

粉丝: 5
资源: 979

苏宁大数据平台的Spark应用与自动化分析

基于Spark的Hadoop日志分析与预测故障技术

Docker驱动的Spark自动化测试环境部署实践

Docker驱动的Spark自动化测试环境搭建

工业设备故障预测分析系统解决方案.docx

【高级日志分析】：Python脚本自动化复杂日志分析的快速指南

【DNAstar的宏和脚本编写】：自动化复杂分析任务的专家指南

Python日志管理自动化：提升日志分析与处理的效率

【自动化数据处理】：Sqoop与Oozie，调度作业的自动化策略

【日志分析进阶秘籍】：使用LogBack故障分析与定位术

【Google App Engine日志分析】：掌握监控和调试的5个高级技巧

最新资源