搭建Spark开发环境:JDK、Scala、Hadoop与Spark Shell详解
需积分: 48 187 浏览量
更新于2024-09-09
3
收藏 48KB DOCX 举报
本文档主要介绍了如何在Windows环境下搭建Spark开发环境,包括JDK、Scala、Hadoop以及Spark本身的安装和配置。以下是详细的步骤和要点:
1. **JDK环境**:
- JDK1.8的安装可能会覆盖之前安装的JDK1.6,需要注意的是,Windows系统中的C:\Windows\System32目录内的Java可执行文件优先级高于JAVA_HOME环境变量。因此,如果需要避免冲突,建议删除这些默认的可执行文件,并确保只保留最新的JDK。
2. **Spark安装**:
- 下载Spark版本:这里推荐的是spark-2.2.0-bin-hadoop2.7.tgz,可以从官方网站获取。
- 配置环境变量:
- 将Spark的bin目录(D:\develop\spark-2.2.0-bin-hadoop2.7\bin)添加到系统PATH中,以便系统能找到Spark的命令行工具。
- 设置SPARK_HOME环境变量,指向Spark的安装目录。
3. **Scala安装**:
- 访问scala-lang.org下载最新版的Scala,Scala是Spark的重要语言基础,用于编写Spark应用。
4. **Hadoop安装**:
- 下载hadoop-2.7.4.tar.gz并使用管理员权限解压。
- 将HADOOP_HOME设为Hadoop的安装目录,同时将Hadoop的bin目录添加到系统PATH中。
- 为了与Windows系统兼容,需下载winutils.exe,将其放置在Hadoop的bin目录下,并通过`chmod 777 C:/tmp/hive`修改权限,这有助于执行特定的Hadoop命令。
5. **Spark Shell的使用**:
- 在运行Spark Shell时,需要根据具体需求配置master URL。常见的master类型有:
- `local`:本地单线程模式,适合开发和测试。
- `local[K]`:本地多线程,指定使用K个内核。
- `local[*]`:本地多线程,使用所有可用核心。
- `spark://HOST:PORT`:连接到Spark Standalone集群,需要提供主机名和端口号。
- `mesos://HOST:PORT`:连接到Mesos集群,同样需要指定主机名和端口。
- `yarn-client`:连接到YARN集群,需配置HADOOP_CONF_DIR环境变量,适用于客户端模式。
- `yarn-cluster`:连接到YARN集群,更适用于大规模分布式计算,需指定客户端和集群配置。
通过以上步骤,您可以成功搭建一个适合Spark开发的环境,以便进行Spark程序的编写和测试。注意保持环境变量设置的正确性,避免因路径或配置错误导致的问题。
2018-04-09 上传
2021-01-20 上传
2023-04-05 上传
2023-06-02 上传
2023-09-16 上传
2024-05-25 上传
2023-03-16 上传
2024-07-13 上传
xiaoman_w
- 粉丝: 0
- 资源: 6
最新资源
- async-websocket:异步WebSocket客户端和服务器,支持Ruby的HTTP1和HTTP2
- SAWD-maker:句法注释的Wikipedia转储的源代码
- scheduler
- 学习网页包
- CephEWS:Ceph预警系统
- wmrss-开源
- triwow
- TabMail-开源
- thinreports-examples:Thinreports的代码示例
- Hello-world-C-:经典程序介绍,在控制台上的消息发送到控制台
- gatsby-pwa-demo:PWA示例:使用Gatsby.js的渐进式Web App电子商务
- vtprint-开源
- CISSP认证考试必过核心笔记精简版.rar
- Easy_Align_Addon:对齐Blender 2.78的插件
- Python二级等级考试电子教案(1-11章)合集(含行文代码).zip
- FibonacciHeap:Fibonacci堆实现