CDH里的spark依赖什么服务
时间: 2023-08-05 10:47:56 浏览: 108
CDH中的Spark依赖于以下服务:
- Hadoop HDFS:Hadoop分布式文件系统,Spark需要HDFS来存储和处理数据。
- YARN:资源管理器,Spark需要YARN来管理集群资源和作业调度。
- Hive:数据仓库,Spark可以通过Hive访问和查询数据。
- HBase:分布式非关系型数据库,Spark可以通过HBase访问和处理数据。
- ZooKeeper:分布式协调服务,Spark需要ZooKeeper来管理集群中的进程和资源。
- Oozie:工作流调度器,Spark可以通过Oozie调度作业和任务。
- Hue:Web界面,Spark可以通过Hue来监控和管理作业。
相关问题
cdh6 配置 spark on hive
配置 Spark on Hive需要以下步骤:
1. 首先,安装CDH6和Spark。
2. 确认Hive的配置文件hive-site.xml中配置了以下属性:
```
<property>
<name>hive.execution.engine</name>
<value>spark</value>
</property>
<property>
<name>hive.spark.client.connect.timeout</name>
<value>1000s</value>
</property>
<property>
<name>hive.spark.client.server.connect.timeout</name>
<value>1000s</value>
</property>
<property>
<name>hive.server2.enable.doAs</name>
<value>false</value>
</property>
```
3. 将Spark JAR文件添加到Hive的CLASSPATH中,以便Hive可以使用Spark的库和依赖项。可以在hive-env.sh文件中添加以下行:
```
export HIVE_AUX_JARS_PATH=/path/to/spark/jars/*
```
4. 在Spark的配置文件中,添加以下属性:
```
spark.master yarn
spark.submit.deployMode client
spark.executorEnv.HADOOP_HDFS_HOME=/path/to/hadoop
spark.yarn.jars=hdfs:///path/to/hadoop/share/hadoop/yarn/*,hdfs:///path/to/hadoop/share/hadoop/mapreduce/*
```
5. 启动Hive,并在命令行中运行以下命令:
```
set hive.execution.engine=spark;
```
6. 现在可以在Hive中使用Spark作为执行引擎来运行查询。例如:
```
SELECT COUNT(*) FROM my_table;
```
这将使用Spark作为执行引擎来计算表中的行数。
如何在保证数据服务连续性的情况下,对CDH集群中的JDK、Kafka和Spark进行升级操作?
为了确保在升级JDK、Kafka和Spark过程中数据服务的连续性,推荐您参考《CDH运维指南:集中管理大数据组件与高级升级教程》。这份资料会引导你如何在不影响集群服务的情况下,安全高效地完成升级工作。
参考资源链接:[CDH运维指南:集中管理大数据组件与高级升级教程](https://wenku.csdn.net/doc/6fvpvpkhhn?spm=1055.2569.3001.10343)
首先,升级JDK之前,需要确认与现有CDH版本兼容的JDK版本。可以通过ClouderaManager下载并安装新的JDK版本。在升级过程中,建议先在测试环境中验证新版本JDK的兼容性,确保系统升级后能够正常运行。完成JDK升级后,重启所有相关服务,检查日志确保没有错误发生。
接下来,对于Kafka和Spark的升级,需要特别注意组件间的依赖关系。例如,在升级Spark之前,需要检查并替换SparkCSD文件。升级Kafka时,要更新其源地址设置,并重新配置相关的JAVA环境变量。升级操作同样建议在低峰时段执行,并准备相应的回滚计划以防万一。
此外,数据备份是升级过程中必不可少的一环。建议在升级前对namenode元数据、MySQL元数据和关键用户数据进行完整备份。如果在升级过程中遇到问题,可以快速恢复到升级前的状态。
最后,升级完成后,进行全面的系统测试,验证数据的一致性、服务的稳定性和性能指标是否满足要求。在确认一切正常后,才能将新版本的JDK、Kafka和Spark投入生产环境使用。
以上升级流程的详细步骤和注意事项都在《CDH运维指南:集中管理大数据组件与高级升级教程》中有详细描述。如果您希望对CDH集群管理有更全面的理解和操作,这份资料将是您不可多得的学习资源。
参考资源链接:[CDH运维指南:集中管理大数据组件与高级升级教程](https://wenku.csdn.net/doc/6fvpvpkhhn?spm=1055.2569.3001.10343)
阅读全文