搭建Spark开发环境:JDK、Scala、Hadoop与Spark Shell详解

需积分: 48 37 下载量 187 浏览量 更新于2024-09-09 3 收藏 48KB DOCX 举报
本文档主要介绍了如何在Windows环境下搭建Spark开发环境,包括JDK、Scala、Hadoop以及Spark本身的安装和配置。以下是详细的步骤和要点: 1. **JDK环境**: - JDK1.8的安装可能会覆盖之前安装的JDK1.6,需要注意的是,Windows系统中的C:\Windows\System32目录内的Java可执行文件优先级高于JAVA_HOME环境变量。因此,如果需要避免冲突,建议删除这些默认的可执行文件,并确保只保留最新的JDK。 2. **Spark安装**: - 下载Spark版本:这里推荐的是spark-2.2.0-bin-hadoop2.7.tgz,可以从官方网站获取。 - 配置环境变量: - 将Spark的bin目录(D:\develop\spark-2.2.0-bin-hadoop2.7\bin)添加到系统PATH中,以便系统能找到Spark的命令行工具。 - 设置SPARK_HOME环境变量,指向Spark的安装目录。 3. **Scala安装**: - 访问scala-lang.org下载最新版的Scala,Scala是Spark的重要语言基础,用于编写Spark应用。 4. **Hadoop安装**: - 下载hadoop-2.7.4.tar.gz并使用管理员权限解压。 - 将HADOOP_HOME设为Hadoop的安装目录,同时将Hadoop的bin目录添加到系统PATH中。 - 为了与Windows系统兼容,需下载winutils.exe,将其放置在Hadoop的bin目录下,并通过`chmod 777 C:/tmp/hive`修改权限,这有助于执行特定的Hadoop命令。 5. **Spark Shell的使用**: - 在运行Spark Shell时,需要根据具体需求配置master URL。常见的master类型有: - `local`:本地单线程模式,适合开发和测试。 - `local[K]`:本地多线程,指定使用K个内核。 - `local[*]`:本地多线程,使用所有可用核心。 - `spark://HOST:PORT`:连接到Spark Standalone集群,需要提供主机名和端口号。 - `mesos://HOST:PORT`:连接到Mesos集群,同样需要指定主机名和端口。 - `yarn-client`:连接到YARN集群,需配置HADOOP_CONF_DIR环境变量,适用于客户端模式。 - `yarn-cluster`:连接到YARN集群,更适用于大规模分布式计算,需指定客户端和集群配置。 通过以上步骤,您可以成功搭建一个适合Spark开发的环境,以便进行Spark程序的编写和测试。注意保持环境变量设置的正确性,避免因路径或配置错误导致的问题。