首页spark和hadoop的联系

spark和hadoop的联系

时间: 2023-04-08 15:02:43 浏览: 136

Spark和Hadoop的集成

5星 · 资源好评率100%

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。Storm是一个分布式的、容错的实时计算系统。两者整合，优势互补。

Spark是基于Hadoop的MapReduce计算模型的一种快速、通用、可扩展的大数据处理引擎，它可以在Hadoop集群上运行。Spark可以直接读取Hadoop分布式文件系统（HDFS）中的数据，也可以通过Hadoop的YARN管理器来调度任务。因此，Spark和Hadoop是密切相关的，可以说Spark是Hadoop的一个补充和扩展。

阅读全文