Spark安装与运行指南:从Scala到YARN部署

需积分: 12 1 下载量 123 浏览量 更新于2024-09-01 收藏 1.58MB DOCX 举报
本章内容主要介绍了如何在Linux系统中安装和运行Apache Spark。首先,我们关注Scala语言的部署和安装。Scala是Spark的主要编程语言,选择的是scala-2.11.6版本,通过wget下载并使用`tar`命令进行解压。然后,将scala解压后的文件移动到`/usr/local/scala`目录,并在`.bashrc`环境变量文件中配置`SCALA_HOME`和`PATH`,以便系统能够识别和调用scala。安装成功后,用户可以通过执行`scala`命令验证。 接下来,章节转向Spark的部署。Spark版本为2.0.0-bin-hadoop2.7,同样使用wget下载,解压后移动到`/usr/local/spark`目录。同样地,我们在`.bashrc`中添加`SPARK_HOME`和`PATH`的配置,以指向Spark的安装路径。确认环境设置正确后,通过运行`spark-shell`命令启动Spark的交互式环境,用于编写和测试Spark程序。`spark-shell`命令可以带参数`--master local[N]`,其中`local`表示在本地运行,`N`表示并发线程数,这在多核处理器上可以提高效率。 在YARN上运行`spark-shell`则涉及到了Spark在分布式计算框架上的应用。YARN(Yet Another Resource Negotiator)是Hadoop的一个模块,负责资源管理和调度。在YARN上运行Spark,意味着任务将在集群资源上进行分配。命令形式为`spark-shell --master yarn`,但具体执行时,可能需要在Hadoop集群环境中配置相关参数和权限,如HDFS和YARN的配置文件、必要的JAR包等。 本章内容涵盖了Spark的基础安装、配置以及在本地和YARN模式下运行`spark-shell`的过程,这对于理解和使用Spark进行大数据处理至关重要,为后续的Spark编程和应用打下了坚实的基础。