hive on spark 配置原理
时间: 2023-10-18 09:29:30 浏览: 188
在Hive on Spark模式下,Hive使用Spark作为计算引擎来执行查询。它的配置原理如下:
1. 首先,需要在Hive中启用Spark支持。可以通过设置hive.execution.engine为spark来启用。
2. 接下来,需要在Hive中配置Spark相关的参数,包括Spark的master地址、Spark的executor内存大小、Spark的executor个数等。这些参数可以通过在Hive中设置对应的配置属性来进行配置。
3. 然后,需要在Hive中创建一个SparkSession,以便Hive可以使用它来执行Spark任务。SparkSession是Spark 2.x中用于创建DataFrame和DataSet的入口点。在Hive中创建SparkSession的方式是通过设置hive.spark.session.*属性,其中*代表SparkSession的相关属性。
4. 同时,为了更好地利用Spark的资源管理能力,需要在Spark集群中配置好资源管理器,如YARN、Mesos或Standalone等。在Hive on Spark模式下,Hive将使用Spark集群中的资源管理器来管理Spark任务的资源分配和调度。
综上所述,Hive on Spark的配置原理是通过在Hive中启用Spark支持,配置Spark相关参数和创建SparkSession,并在Spark集群中配置好资源管理器来实现的。
阅读全文