Spark 1.2.1 集群部署与运行:Standalone与YARN模式

5星 · 超过95%的资源 需积分: 9 5 下载量 20 浏览量 更新于2024-09-11 收藏 89KB DOCX 举报
"本文主要介绍了Spark 1.2.1版本在独立(standalone)集群模式和YARN集群模式下的部署与运行方法,包括如何运行示例应用和启动Spark Shell。此外,还提及了Spark的不同运行模式,如本地模式、伪分布式模式以及standalone、Mesos和YARN上的分布式部署。" 在Spark 1.2.1中,部署和运行应用涉及到多个关键步骤。首先,确保环境已配置妥当,例如在Linux系统中设置无密码SSH登录。针对`onyarn`模式,需要安装Hadoop 2.6.0并正确配置其环境。 运行示例应用是验证安装是否成功的好方法。通过`bin/run-example`命令可以运行内置的Spark示例。例如,`./bin/run-example SparkPi 10`将执行计算圆周率的Spark Pi程序,而`./bin/run-example org.apache.spark.examples.SparkPi 4`则是另一种调用方式。 Spark Shell是用于交互式测试和开发的工具,它提供了一个Scala REPL环境。用户可以输入`./bin/spark-shell --master local[2]`启动一个包含2个工作线程的本地Shell,或者通过指定`MASTER`环境变量为`local`来运行。在Shell中,可以编写和执行Scala代码,如读取HDFS上的文件,进行数据处理,然后收集结果。例如,读取文本文件,计算单词计数,最后输出结果。 Spark的运行模式多样,包括单机模式(本地模式和伪分布式)以及集群模式。在集群模式下,Spark支持三种部署方式:Standalone、Spark on Mesos以及Spark on YARN。Standalone模式是Spark自带的集群管理器,Mesos和YARN则提供了跨不同框架的资源调度。启动Standalone集群可以手动进行,若无`conf/spark-env.sh`配置文件,会使用默认设置启动Master节点。 Spark 1.2.1的部署和运行涉及环境配置、选择合适的运行模式以及理解不同部署策略。正确理解和操作这些步骤对于在生产环境中高效使用Spark至关重要。