如何通过pyspark登录hive的hue用户

可以使用`pyspark.sql.SparkSession`类中的`config`方法来设置Hive Metastore URI和Hadoop用户。具体步骤如下： 1. 导入`pyspark.sql.SparkSession`类： ```python from pyspark.sql import SparkSession ``` 2. 创建一个`SparkSession`对象： ```python spark = SparkSession.builder \ .appName("HiveTest") \ .config("hive.metastore.uris", "thrift://<hive_metastore_host>:9083") \ .config("spark.hadoop.fs.defaultFS", "hdfs://<hdfs_namenode_host>:8020") \ .config("spark.hadoop.fs.hdfs.impl", "org.apache.hadoop.hdfs.DistributedFileSystem") \ .config("spark.hadoop.hadoop.security.authentication", "kerberos") \ .config("spark.hadoop.hadoop.security.authorization", "true") \ .config("spark.hadoop.hadoop.security.auth_to_local", "RULE:[2:$1@$0](.*@<REALM>)s/@.*//" \ "DEFAULT") \ .config("spark.yarn.access.hadoopFileSystems", "hdfs://<hdfs_namenode_host>:8020") \ .config("spark.hadoop.yarn.resourcemanager.hostname", "<yarn_resourcemanager_host>") \ .config("spark.hadoop.yarn.resourcemanager.address", "<yarn_resourcemanager_host>:8032") \ .config("spark.hadoop.yarn.resourcemanager.scheduler.address", "<yarn_resourcemanager_host>:8030") \ .config("spark.hadoop.yarn.resourcemanager.resource-tracker.address", "<yarn_resourcemanager_host>:8031") \ .config("spark.hadoop.yarn.resourcemanager.admin.address", "<yarn_resourcemanager_host>:8033") \ .config("spark.hadoop.yarn.resourcemanager.webapp.address", "<yarn_resourcemanager_host>:8088") \ .config("spark.hadoop.yarn.nodemanager.address", "<yarn_nodemanager_host>:8042") \ .config("spark.hadoop.yarn.nodemanager.local-dirs", "/mnt/yarn/nm") \ .config("spark.hadoop.yarn.nodemanager.log-dirs", "/mnt/yarn/logs") \ .config("spark.hadoop.yarn.nodemanager.remote-app-log-dir", "/app-logs") \ .config("spark.hadoop.yarn.nodemanager.remote-app-log-dir-suffix", "/logs") \ .config("spark.hadoop.yarn.timeline-service.enabled", "false") \ .config("spark.hadoop.yarn.timeline-service.hostname", "<timeline_service_host>") \ .config("spark.hadoop.yarn.timeline-service.address", "<timeline_service_host>:10200") \ .config("spark.hadoop.yarn.timeline-service.webapp.address", "<timeline_service_host>:8188") \ .config("spark.hadoop.yarn.timeline-service.store-class", "org.apache.hadoop.yarn.server.timeline.MemoryTimelineStore") \ .config("spark.hadoop.yarn.timeline-service.ttl-enable", "true") \ .config("spark.hadoop.yarn.timeline-service.ttl-ms", "120000") \ .config("spark.hadoop.yarn.timeline-service.ttl-interval-ms", "60000") \ .config("spark.hadoop.yarn.timeline-service.ttl-check-interval-ms", "60000") \ .config("spark.hadoop.yarn.timeline-service.entity-group-fs-store.active-dir", "/yarn/timeline") \ .config("spark.hadoop.yarn.timeline-service.entity-group-fs-store.done-dir", "/yarn/timeline/done") \ .config("spark.hadoop.yarn.timeline-service.generic-application-history.store-class", "org.apache.hadoop.yarn.server.applicationhistoryservice.NullApplicationHistoryStore") \ .config("spark.hadoop.yarn.timeline-service.version", "1.0") \ .enableHiveSupport() \ .getOrCreate() ``` 其中，`hive.metastore.uris`指定了Hive Metastore的地址，`spark.hadoop.fs.defaultFS`指定了Hadoop的默认文件系统（HDFS），`spark.hadoop.hadoop.security.authentication`指定了Kerberos认证方式。 3. 设置Hadoop用户： ```python import os os.environ['HADOOP_USER_NAME'] = '<hue_user>' ``` 这里将环境变量`HADOOP_USER_NAME`设置为Hue用户。 4. 使用`SparkSession`对象进行Hive操作： ```python df = spark.sql("SELECT * FROM <hive_db>.<hive_table>") df.show() ``` 这里使用`spark.sql`方法执行Hive查询，将结果放入DataFrame中，最后使用`show`方法展示结果。

阅读全文

如何通过pyspark登录hive的hue用户

相关推荐

信用贷款风险预测系统：基于PySpark与Hive的大数据分析

ChatGPT在大数据场景的应用实例：Hadoop、Pyspark与Hive操作

Hive用户指南：数据操作与函数详解

Scriptis：Scriptis用于交互式数据分析，包括脚本开发（SQL，Pyspark，HiveQL），任务提交（Spark，Hive），UDF，功能，资源管理和智能诊断

编译好的解压即可用hue-4.3.0.zip

利用hue进行高性能计算与并行计算

基于hue的大数据分析与实时查询

如何在hue中进行数据导入和导出

在hue中实现数据治理与数据质量控制

HDFS、MapReduce、Hive、Hue、HBase、Spark、Sqoop、Azkaban、PySpark机器学习模型等知识

cdh6.3中hue的配置，集成mysql,hive,hbase,spark,sparksql,pyspark

spark读取a账户的oss 写入b账户的emr集群的hive(oss-hdfs)

Hive用户指南：从入门到高级操作详解

通过beeline连接Hive的详细步骤

毕设和企业适用springboot企业健康管理平台类及活动管理平台源码+论文+视频.zip

基于layui框架的省市复选框组件设计源码

LABVIEW程序实例-代码连线.zip

毕设和企业适用springboot社区服务类及互联网金融平台源码+论文+视频.zip

毕设和企业适用springboot企业协作平台类及网络营销平台源码+论文+视频.zip

最新推荐

Hive用户指南(Hive_user_guide)_中文版.pdf

如何在python中写hive脚本

Hive权限设置说明文档.doc

Hive函数大全.pdf

HIVE-SQL开发规范.docx

Windows平台下的Fastboot工具使用指南

管理建模和仿真的文件

DLMS规约深度剖析：从基础到电力通信标准的全面掌握

修改代码，使其正确运行

Python机器学习基础入门与项目实践