Spark生态系统深度解析:为什么选择Spark
155 浏览量
更新于2024-08-30
收藏 509KB PDF 举报
Spark生态系统解析及基于Redis的开源分布式服务Codis
Spark是一款非常快、普适性强的大数据处理引擎。它可以支撑批处理、流计算、图计算、机器学习等众多应用场景,并且与Hadoop具有良好的兼容性。Spark的设计与HDFS有着非常好的兼容性,这使得Spark可以直接使用HDFS存储的数据,不需要进行任何数据迁移工作。
Spark的主要特性包括速度快、易用、通用和兼容Hadoop。Spark可以使用内存缓存中间/常用数据,从而避免磁盘IO开销,并且可以使用DAG、ThreadModel和Optimization等技术来提高性能。
Spark的主要优点包括:
1. 速度快:Spark可以使用内存缓存中间/常用数据,从而避免磁盘IO开销,并且可以使用DAG、ThreadModel和Optimization等技术来提高性能。
2. 易用:Spark提供了一个简洁的编程模型,开发者可以很容易地使用Spark来开发大数据应用程序。
3. 通用:Spark可以支撑批处理、流计算、图计算、机器学习等众多应用场景。
4. 兼容Hadoop:Spark的设计与HDFS有着非常好的兼容性,这使得Spark可以直接使用HDFS存储的数据,不需要进行任何数据迁移工作。
Spark与Hadoop的比较:
1. 迭代计算:Hadoop需要多次读写HDFS(磁盘),造成了大量的IO和序列化、反序列化等额外开销。Spark可以使用内存缓存中间/常用数据,从而避免磁盘IO开销。
2. HDFS同批数据的多维度查询:Hadoop每次做一个独立的query,也就是每次都要从磁盘读取这个数据。Spark可以使用内存缓存中间/常用数据,从而避免磁盘IO开销,并且可以使用DAG、ThreadModel和Optimization等技术来提高性能。
DAG(有向无环图)是Spark的核心技术之一。DAG是一种数据流处理模型,它可以将复杂的数据处理过程分解成多个简单的task,每个task都可以并行执行,从而提高性能。
ThreadModel是Spark的另一个核心技术之一。ThreadModel是一种线程模型,它可以将一个task分解成多个小的task,每个小task都可以并行执行,从而提高性能。
Optimization是Spark的另一个核心技术之一。Optimization是一种优化技术,它可以将Spark的性能提高到极致。Optimization包括延迟调度、数据缓存等技术。
Codis是一个基于Redis的开源分布式服务,它可以将Redis的性能提高到极致。Codis是一个高性能的Redis集群解决方案,它可以将多个Redis实例组合成一个高性能的集群,从而提高性能。
Spark是一个非常快、普适性强的大数据处理引擎,它可以支撑批处理、流计算、图计算、机器学习等众多应用场景,并且与Hadoop具有良好的兼容性。Codis是一个基于Redis的开源分布式服务,它可以将Redis的性能提高到极致。
2019-12-06 上传
2020-08-19 上传
2022-07-04 上传
2019-01-22 上传
2018-12-12 上传
2024-09-01 上传
2020-11-30 上传
2022-06-19 上传
weixin_38600696
- 粉丝: 6
- 资源: 967
最新资源
- Dcd_Analysis
- half:C ++库用于半精度浮点运算。-开源
- Windows版YOLOv4目标检测:原理与源码解析
- am-ripper:转换为WAV(回送记录)
- Package tracker-crx插件
- fiches_med
- scieng:scieng 是一个用 Java 编写的机器学习框架
- 翻译工具 Crow Translate 2.8.1 x64 中.zip
- 你好,世界
- sonarqube
- boot-microservices:Spring Boot 示例项目
- 网购淘实惠 - 神价屋-crx插件
- -Feb16-23-Mar9-Project1_Resume
- SlidingUpPanelIssue
- 詹戈
- uView-UI_1.8.3.zip