淘宝数据挖掘平台:Spark_on_Yarn的实践与优势
4星 · 超过85%的资源 需积分: 9 155 浏览量
更新于2024-07-23
收藏 1.32MB PDF 举报
"基于Spark_on_Yarn的淘宝数据挖掘平台"
在大数据处理领域,Spark_on_Yarn已经成为一种流行的选择,特别是在大规模数据挖掘中。淘宝作为中国最大的电子商务平台,其技术部利用Spark_on_Yarn构建了一个高效的数据挖掘平台,以解决传统Hadoop MapReduce在处理复杂数据挖掘任务时面临的挑战。
**为什么选择Spark_on_Yarn**
1. **性能提升**:传统的MapReduce在处理多次迭代的数据挖掘任务时效率低下,因为每次迭代都需要将中间结果写入磁盘,然后再读取。Spark引入了弹性分布式数据集(RDD),通过内存计算大幅减少了磁盘I/O,提高了计算速度。
2. **快速迭代**:Spark的RDD支持高效的内存缓存,使得多轮迭代操作变得更加迅速,这对于机器学习等需要大量迭代的算法尤其有利。
3. **DAG执行模型**:Spark采用了有向无环图(DAG)执行模型,能够优化任务调度,减少不必要的数据传输。
4. **编程友好**:Spark的Scala基础提供了函数式编程风格,相比Hadoop MapReduce的面向过程编程更加简洁,同时也支持Actor模型,增强了并发处理能力。
**Spark_on_Yarn的原理和框架**
Spark_on_Yarn是Spark运行在Apache YARN(Yet Another Resource Negotiator)上的模式,它利用YARN的资源管理能力来调度和监控Spark应用。在YARN上,Spark应用分为两个阶段:
1. **Application Master**:Spark的Application Master负责与YARN的Resource Manager交互,申请和管理计算资源。
2. **Executor**:Executor是实际执行任务的组件,它们在YARN的Container中运行,负责执行任务并存储中间结果。
**淘宝在Spark_on_Yarn上的工作**
淘宝从2012年开始接触Spark,经历了从小规模Standalone集群到大规模Yarn集群的演进。他们构建的基于Spark_on_Yarn的数据挖掘平台,旨在解决Hadoop MapReduce在数据挖掘中的性能瓶颈,提供更高效、灵活的计算能力。
**基于Spark_on_Yarn的数据挖掘平台架构**
该平台可能包括以下几个关键组件:
1. **Spark Core**:提供基础的计算框架,处理RDD的创建、转换和行动操作。
2. **MLlib**:包含各种机器学习算法,方便数据挖掘和分析。
3. **GraphX**:用于图计算,支持社交网络分析等场景。
4. **Spark Streaming**:处理实时数据流,实现流式数据挖掘。
**案例性能与挑战**
1. **Hadoop问题**:Hadoop MapReduce在处理多次迭代的任务时,序列化和反序列化的开销大,且不适合复杂的算法。
2. **内存管理**:尽管Spark使用内存计算提高性能,但在大数据场景下,内存溢出和内存优化是个挑战。
3. **资源调度**:YARN的资源调度策略需与Spark的执行模型配合,以达到最优性能。
淘宝选择Spark_on_Yarn构建数据挖掘平台,是为了解决Hadoop的性能局限,利用Spark的内存计算、快速迭代等特性,以及YARN的资源管理和调度能力,提升数据挖掘的效率和灵活性,满足其业务对海量数据处理的需求。
142 浏览量
2021-07-14 上传
2023-09-19 上传
2022-11-21 上传
2022-11-24 上传
330 浏览量
2022-03-18 上传
2022-06-20 上传
stiger_104
- 粉丝: 0
- 资源: 2
最新资源
- 天涯部落版主工具 龙网天涯部落版主工具 v1.2
- rpyc:RPyC(远程Python调用)-用于python的透明和对称RPC库
- shopproject
- 欧美风格主机模板
- doodad:用于 docker、EC2、GCP 等的作业启动库
- 深度学习
- e_commerce-endpoint-rest:电子商务的宁静HATEOAS端点
- STM32 ST-LINK Utility v4.2.0 stlink升级固件.rar
- node-usb:改进的Node.js USB库
- 导出表格,及批量删除.zip
- 行业分类-设备装置-一种抗水防破抗氧化书画纸.zip
- QPD:量子囚徒的困境
- EnumSerialComs:使用 Windows 注册表信息来识别串行 COM 设备-matlab开发
- airmash-frontend:上次官方Airmash应用程序的“半原始”副本
- 服装店收银系统 七彩服装收银系统 v3.2 网络版
- Demo_image-video:托管的演示图像