苏宁大数据平台的Spark应用与自动化分析

PDF格式 | 2.32MB | 更新于2024-08-27 | 17 浏览量 | 举报

苏宁大数据平台的架构着重于离线计算、流式计算和OLAP引擎，使用Spark和Hive处理离线数据，SparkStreaming处理准实时计算，Storm与Flink用于实时流计算，而Druid和ES则分别用于OLAP的实时计算和明细查询。在平台化服务化方面，CBT任务流调度平台负责多类型任务的管理和调度，SSMP专注SparkStreaming任务的24小时运行保障，还有在线机器学习平台基于SparkMLlib提供模型训练和部署。详细知识点： 1. **Spark在大数据平台中的核心地位**：Spark作为一个强大的并行计算框架，在苏宁大数据平台中承担着离线数据分析和挖掘的关键角色，同时通过SparkSQL支持部分Hive的功能迁移。 2. **离线计算**：离线计算主要依赖Spark和Hive，Spark用于复杂的数据处理，Hive则提供数据仓库功能，每日处理大量数据，如文中提到的300TB。 3. **流式计算**：流式计算分为准实时和实时流，准实时计算基于SparkStreaming，可处理数秒至分钟级的业务需求；实时流则采用Storm和Flink，其中Flink因其窗口计算和EventTime处理能力逐渐受到重视。 4. **Storm与Libra**：苏宁拥有大规模的Storm集群，搭配自研的StormSQL引擎Libra，提供了SQL接口以方便实时流业务操作。 5. **Flink的引入**：苏宁开始强化Flink在架构中的作用，利用其在窗口计算和事件时间处理上的优势，以适应不断变化的业务需求。 6. **OLAP引擎**：OLAP服务由Druid和Elasticsearch（ES）共同提供，Druid用于实时指标聚合计算，ES用于快速数据索引和明细查询。 7. **平台工具**： - CBT任务流调度平台：统一调度Spark、SparkSQL和数据交换等任务，确保大规模任务的高效执行。 - SSMP平台：专注于SparkStreaming任务的管理和调度，确保24小时稳定运行。 - 在线机器学习平台：基于SparkMLlib，支持在线Pipeline构建、模型训练和调优，可一键部署到SparkStreaming应用。 8. **Hive向SparkSQL迁移**：苏宁业务对Hive有较大依赖，但也在逐步将部分工作负载迁移到SparkSQL，以利用其性能优势和更现代的SQL语法。 9. **系统扩展性**：苏宁的大数据平台规模庞大，拥有700多个离线集群节点，每天调度大量任务，显示出系统的高度扩展性和稳定性。 10. **技术发展趋势**：随着业务发展，平台持续引入新工具和技术，如Flink和GPU支持的深度学习，以提升处理效率和满足新的业务需求。