CDH里的spark怎么干净卸载重装
时间: 2023-07-31 22:06:07 浏览: 241
CDH中的Spark可以通过以下步骤进行干净卸载和重装:
1. 停止Spark服务:在CDH管理界面或者终端输入命令 `sudo service spark-master stop` 和 `sudo service spark-worker stop` 分别停止Spark的Master和Worker节点服务。
2. 卸载Spark软件包:在终端输入命令 `sudo apt-get remove spark-core` 卸载Spark的核心软件包。
3. 删除Spark配置文件:在终端输入命令 `sudo rm -rf /etc/spark` 删除Spark的配置文件。
4. 删除Spark数据目录:在终端输入命令 `sudo rm -rf /var/lib/spark` 删除Spark的数据目录。
5. 重新安装Spark:在终端输入命令 `sudo apt-get install spark-core` 重新安装Spark的核心软件包。
6. 配置Spark:在终端输入命令 `sudo vi /etc/spark/conf/spark-env.sh` 编辑Spark的环境变量文件,配置Spark的相关参数,如JAVA_HOME、SPARK_HOME等。
7. 启动Spark服务:在终端输入命令 `sudo service spark-master start` 和 `sudo service spark-worker start` 分别启动Spark的Master和Worker节点服务。
这样就完成了CDH中Spark的干净卸载和重装。
相关问题
cdh6.3.2 spark-submit 提交作业到 yarn
### 回答1:
要将作业提交到CDH6.3.2的YARN集群上,需要使用以下命令:
```
spark-submit --master yarn --deploy-mode client --class <main-class> <application-jar> <application-arguments>
```
其中,`<main-class>`是你的应用程序的主类,`<application-jar>`是你的应用程序的jar包路径,`<application-arguments>`是你的应用程序的参数。
例如,如果你的应用程序的主类是`com.example.MyApp`,jar包路径是`/path/to/myapp.jar`,应用程序需要传递两个参数`arg1`和`arg2`,则提交作业的命令如下:
```
spark-submit --master yarn --deploy-mode client --class com.example.MyApp /path/to/myapp.jar arg1 arg2
```
提交作业后,Spark将在YARN集群上启动应用程序,并将日志输出到YARN的应用程序日志中。你可以使用YARN的命令行工具或Web UI来监视应用程序的运行状态和日志输出。
### 回答2:
在CDH6.3.2框架中,使用spark-submit命令可以将作业提交到YARN资源管理器,实现分布式部署执行作业的功能。
具体步骤如下:
1. 在终端中使用spark-submit命令,指定主类名、执行参数等信息。
例如:
```bash
spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
--num-executors 3 \
--driver-memory 4g \
--executor-memory 2g \
--executor-cores 2 \
/path/to/examples.jar 100
```
--class参数指定执行的主类名,对应的jar文件已经上传至HDFS上。
--master参数指定使用YARN作为资源管理器,--deploy-mode参数指定执行模式为集群模式。
--num-executors参数指定申请的Executor个数。
--driver-memory参数指定Driver进程需要使用的内存大小,同样可以指定Executor进程的内存和核数。
2. 执行以上命令后,YARN资源管理器会为任务分配相应的资源,并启动作业执行。
3. 可以通过YARN界面查看作业的运行状况,包括Container的个数、启动时间、资源使用情况等。
4. 执行完成后,可以在日志文件和任务的输出目录中查看作业的输出结果。
总的来说,通过spark-submit命令提交作业到YARN非常方便,只需指定相应的参数即可实现作业的分布式部署,提高执行效率并节省时间。
### 回答3:
CDH 6.3.2 是包含了 Hadoop、Hive、Spark 等组件的大数据平台。要提交 Spark 作业到 YARN 集群,需要使用 spark-submit 命令。
首先,要确保已经安装了 CDH 6.3.2 和 Spark。然后,在本地编写好 Spark 作业代码,并上传到集群中的一个路径。
接下来,通过以下命令提交 Spark 作业:
```
spark-submit \
--class com.example.YourMainClass \
--master yarn \
--deploy-mode client \
--num-executors 4 \
--executor-memory 4g \
--executor-cores 2 \
/path/to/your/spark/job.jar \
arg1 arg2
```
其中,`--class` 参数指定主类,`--master yarn` 表示使用 YARN 集群作为 Spark 的资源管理器,`--deploy-mode client` 表示客户端模式, `--num-executors`、`--executor-memory` 和 `--executor-cores` 分别是设定 Spark 应用程序执行所需的 executor 数量、每个 executor 占用的内存和 CPU 核心数量。`/path/to/your/spark/job.jar` 是你上传的 Spark 作业包的路径,`arg1` 和 `arg2` 是你的应用程序所需要的参数。
提交成功后,Spark 应用程序就会在 YARN 上执行,输出结果会被打印到标准输出中或者存储到指定路径。
需要注意的是,提交的 Spark 作业路径和参数是相对于 YARN 集群上的路径和参数,而不是本地路径和参数。另外,如果采用了集群管理工具 Cloudera Manager 管理 CDH 6.3.2,也可以通过其提供的界面来提交 Spark 作业,更加方便快捷。
CDH里的spark依赖什么服务
CDH中的Spark依赖于以下服务:
- Hadoop HDFS:Hadoop分布式文件系统,Spark需要HDFS来存储和处理数据。
- YARN:资源管理器,Spark需要YARN来管理集群资源和作业调度。
- Hive:数据仓库,Spark可以通过Hive访问和查询数据。
- HBase:分布式非关系型数据库,Spark可以通过HBase访问和处理数据。
- ZooKeeper:分布式协调服务,Spark需要ZooKeeper来管理集群中的进程和资源。
- Oozie:工作流调度器,Spark可以通过Oozie调度作业和任务。
- Hue:Web界面,Spark可以通过Hue来监控和管理作业。
阅读全文