淘宝数据挖掘：Spark_on_Yarn平台实践与性能优势

5星 · 超过95%的资源需积分: 9 26 浏览量更新于2024-07-22 收藏 1.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"基于Spark_on_Yarn的淘宝数据挖掘平台" 在大数据处理领域，淘宝技术部采用基于Spark_on_Yarn的架构构建了高效的数据挖掘平台，以解决传统Hadoop MapReduce在数据挖掘过程中遇到的问题，如多次迭代计算效率低、中间数据序列化与反序列化耗时等。本文将详细介绍这一平台的选型原因、工作原理以及淘宝在此领域的实践。首先，为什么选择Spark_on_Yarn？Spark作为一个快速、通用且可扩展的计算系统，其核心在于弹性分布式数据集（RDD），它支持内存计算，显著提升了迭代计算的速度。此外，Spark提供了一种数据流图（DAG）的处理方式，使得复杂的计算任务可以高效地分解执行。而Yarn作为Hadoop的资源管理系统，能有效地调度和管理计算资源，为Spark提供了一个稳定运行的基础。在Spark_on_Yarn的原理和框架中，Spark的应用通过Spark Yarn Client向Yarn的ResourceManager申请资源，ResourceManager将资源分配给ApplicationMaster。ApplicationMaster负责协调节点Manager启动Container，每个Container内运行Executor进程，Executor是实际执行任务的地方，它们负责处理由DAG Scheduler分发的任务。淘宝在Spark_on_Yarn上的工作主要集中在优化性能和架构上。他们构建了基于此的数据挖掘平台架构，充分利用Spark的内存计算优势和Yarn的资源调度能力，以适应大规模数据处理的需求。平台支持各种复杂的数据挖掘任务，包括但不限于机器学习算法和图计算。在性能方面，相比传统的Hadoop MapReduce，Spark_on_Yarn解决了多次迭代计算的问题，因为Spark可以将中间结果存储在内存中，避免了频繁的磁盘I/O操作。同时，Spark的函数式编程风格简化了开发，使其更适用于数据挖掘中的迭代算法。此外，Scala语言的特性，如函数式编程和Actor模型，进一步增强了并发处理能力。 Spark的生态圈也丰富了数据挖掘的可能性，例如，Shark（基于Spark的Hive）提供了SQL查询支持，GraphX提供了强大的图计算能力，Spark Streaming可以处理实时数据流，Mllib则集成了机器学习库，与传统的Mahout相比，提供了更高的计算效率。淘宝自2012年起就开始探索Spark，从最初的Mesos到独立部署，再到后来的Yarn集成，逐步扩大了Spark的应用规模。目前，阿里云梯1的Spark_on_Yarn集群已达到相当大的规模，显示了Spark在大规模数据挖掘和分析中的强大实力。基于Spark_on_Yarn的淘宝数据挖掘平台通过结合Spark的高性能计算能力和Yarn的资源管理，成功地优化了数据挖掘的效率，实现了对大规模数据的高效处理，满足了业务需求，同时也为其他大型企业提供了有价值的参考。

资源推荐

Li_ableXiao

粉丝: 2
资源: 3

淘宝数据挖掘：Spark_on_Yarn平台实践与性能优势

Spark实现的音乐艺术家推荐系统

像艺术家一样思考.3：贝蒂的色彩.pdf

音乐艺术家推荐系统

cdh6.3.2启动spark提示Failed to bind HistoryServer java.io.IOException: /run/cloudera-scm-agent/process/342-spark_on_yarn-SPARK_YARN_HISTORY_SERVER is a directory

spark-sql on yarn 、spark-shell on yarn 详解

spark on yarn环境配置

SPARK_DIST_CLASSPATH 怎么配置

spark on yarn 怎么配置

spark on yarn的搭建步骤

spark on yarn还是spark on k8s

spark on yarn部署

spark on yarn 和spark on hive

Spark on YARN 部署方式的url

Spark on Yarn安装配置

spark on yarn 需要配置哪些环境变量

spark on yarn 集群部署

idea开发spark程序 spark on yarn

两个参数都配置了，不是再把spark.local.dirs的参数添加到yarn.nodemanager.local-dirs参数中吗

spark on yarn 配置具体步骤

最新资源