怎么查看spark使用的metastore是哪一个？

时间: 2023-05-28 11:02:25 浏览: 177

本地使用scala操作spark示例.doc

### 本地使用Scala操作Spark的关键知识点 #### 一、SparkSession的配置与初始化在Scala中使用Spark进行数据处理时，首先需要创建一个`SparkSession`实例。这一步至关重要，因为所有的Spark应用都是基于`SparkSession`进行构建的。下面我们将详细介绍如何在本地环境中配置并初始化`SparkSession`。 ##### 配置参数详解 1. **`.master("local[*]")`**：此配置用于指定执行环境。`"local[*]"`表示在本地模式下运行，并尽可能多地使用本地线程（最多与逻辑处理器数量相同）。这对于开发和测试非常有用。 2. **`.appName("local_client_hive")`**：设置应用名称，这将在日志和UI界面中显示。 3. **`.enableHiveSupport()`**：启用Hive支持，允许在Spark应用中读写Hive表。 4. **`.config("hive.metastore.uris", "thrift://master02:9083")`**：设置Hive Metastore的服务地址，这是Hive用来存储元数据的地方。 5. **`.config("hive.metastore.warehouse.dir", "/user/hive/warehouse")`**：指定Hive仓库目录的位置，即Hive表数据的实际存储位置。 6. **`.config("hive.exec.scratchdir", "hdfs://master01:8020/hive/tmp")`**：设置临时目录，Spark和Hive在执行过程中可能需要临时存储一些数据或文件。 7. **`.config("spark.debug.maxToStringFields", "1000")`**：设置调试时的最大字段数量，这有助于在打印复杂对象时提供更完整的信息。 8. **`.config("spark.sql.sources.partitionOverwriteMode", "dynamic")`**：设置分区覆盖模式为动态，这意味着当写入数据时，如果存在相同的分区，则只覆盖这些分区的数据而不是整个表的数据。 9. **`.config("hive.exec.dynamic.partition", "true")`**：开启动态分区功能，允许在插入数据时动态地创建新的分区。 10. **`.config("hive.exec.dynamic.partition.mode", "nonstrict")`**：设置动态分区模式为非严格模式，这意味着可以创建所有分区都为动态的新分区。完成上述配置后，调用`getOrCreate()`方法获取或创建`SparkSession`实例。 ```scala val spark = SparkSession.builder() .master("local[*]") .appName("local_client_hive") .enableHiveSupport() .config("hive.metastore.uris", "thrift://master02:9083") .config("hive.metastore.warehouse.dir", "/user/hive/warehouse") .config("hive.exec.scratchdir", "hdfs://master01:8020/hive/tmp") .config("spark.debug.maxToStringFields", "1000") .config("spark.sql.sources.partitionOverwriteMode", "dynamic") .config("hive.exec.dynamic.partition", "true") .config("hive.exec.dynamic.partition.mode", "nonstrict") .getOrCreate() ``` #### 二、通过DataFrame向Hive表中插入数据在Scala中使用Spark向Hive表中插入数据时，通常有两种主要的方法：`saveAsTable`和`insertInto`。`saveAsTable`会覆盖整个表中的数据，而`insertInto`则提供了更细粒度的控制，可以根据分区字段覆盖特定的分区数据。 1. **确保DataFrame中包含分区字段**：为了能够正确地使用`insertInto`方法来覆盖特定分区的数据，需要确保DataFrame中包含了Hive表定义中的所有分区字段。如果没有这样做，可能会导致覆盖整个表的所有分区数据。 2. **使用`insertInto`方法**：使用`mode(SaveMode.Overwrite)`参数来指定覆盖模式，然后调用`insertInto`方法将DataFrame中的数据插入到指定的Hive表中。 ```scala // 假设df是一个DataFrame对象 df.write.mode(SaveMode.Overwrite).insertInto("your_hive_table_name") ``` 这里的`SaveMode.Overwrite`指定了覆盖模式，意味着如果存在相同的分区数据，则会被覆盖。`insertInto("your_hive_table_name")`则指定了要插入的目标Hive表。通过这种方式，我们可以有效地控制数据的插入行为，避免不必要的数据覆盖，从而提高数据处理的效率和准确性。

可以通过以下步骤查看spark使用的metastore： 1. 登录到Spark集群的主节点上，打开spark-shell或者使用spark-submit提交一个应用程序。 2. 在spark-shell或者应用程序中输入以下代码： ```scala val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc) hiveContext.sql("show tables").show() ``` 这个命令会列出当前使用的metastore中的所有表。 3. 查看输出结果中的INFO日志，可以看到spark使用的metastore的URL地址。如果使用的是Hive Metastore，会输出metastore thrift地址。例如： ``` +------------+---------+ | tableName|isTemporary| +------------+---------+ |sample_table| false| +------------+---------+ 20/11/05 16:18:46 INFO HiveMetaStore: 0: Opening raw store with implementation class:org.apache.hadoop.hive.metastore.ObjectStore ... 20/11/05 16:18:50 INFO HiveMetaStore: 0: Get schema version result={ version=2.3.0, ... 20/11/05 16:18:50 INFO HiveMetaStore: 1: New partition added to metadata {partitionName=dt=20201105, ... 20/11/05 16:18:50 INFO HiveMetaStore: 1: Completed partition metadata refresh on default.sample_table ``` 在这个例子中，可以看到Spark使用的metastore是Hive Metastore，地址是默认的thrift地址（通常是localhost:9083）。如果使用的是其他类型的metastore，例如AWS Glue或Databricks Metastore，输出结果会显示对应的URL地址。

阅读全文

怎么查看spark使用的metastore是哪一个？

相关推荐

Hive metastore 使用达梦数据库存储元数据

hive metastore java api使用

怎么让hive的metastrore和spark使用的metastore是同一个？

spark hive metastore

Metastore组件

配置Spark3连接Hive1环境：解决metastore.jars问题

同一个代码hive可以跑，spark跑不出来是为什么？

spark连接hive的metastore异常

spark 操作hive Metastore怎么通过owner控制权限

spark.sql.hive.metastore.sharedPrefixes

在处理大规模数据集时，如何通过优化技术提高Spark SQL中JOIN操作的性能？请结合数据分区、表设计和查询策略给出具体建议。

列举 spark.sql.hive.metastore的所有配置项

spark.sql.hive.metastore.sharedPrefixes配置项的作用

spark sql和hql一样吗？

hive和spark的日志分别在哪里？

hive metastore database_params表里面的owner值怎么通过spark的config指定

如何使用idea进行spark编程，访问hive？

hive和spark远程连接报错WARN metastore.ObjectStore: Failed to get database global_temp, returning NoSuchObjectException

最新推荐

精细金属掩模板(FMM)行业研究报告 显示技术核心部件FMM材料产业分析与市场应用

Angular实现MarcHayek简历展示应用教程

管理建模和仿真的文件

深入剖析：内存溢出背后的原因、预防及应急策略（专家版）

Java中如何对年月日时分秒的日期字符串作如下处理：如何日期分钟介于两个相连的半点之间，就将分钟数调整为前半点

Crossbow Spot最新更新 - 获取Chrome扩展新闻

"互动学习：行动中的多样性与论文攻读经历"

【Java内存管理终极指南】：一次性解决内存溢出、泄漏和性能瓶颈

c 语言return用法

量子管道网络优化与Python实现

精细金属掩模板(FMM)行业研究报告显示技术核心部件FMM材料产业分析与市场应用