Spark-SQL 操作 hive 数据库中的表 1) 在 Hive 中新建数据库 dbspark_xxx，新建以下 3 张表，并导入数据，表数据自由定义，每表数据不少于 10 条记录。 user_xxx: 字段： u_id click_p_id c_id 说明：用户 id 值为 p_id,表示用户点击浏览过该产品当前城市 id product_xxx: 字段： p_id p_name 说明：产品 id 产品名 city_xxx: 字段： c_id area 说明：城市 id 城市所属地区 2) Spark 中查询 hive 表数据，计算各个地区前三大热门商品（即用户点击量最多的）

时间: 2024-02-22 13:59:39 浏览: 121

好的，这里是 Spark-SQL 操作 hive 数据库中的表的步骤： 1.首先在 Hive 中新建数据库 dbspark_xxx，可以使用以下命令： ``` CREATE DATABASE dbspark_xxx; ``` 2.然后在 dbspark_xxx 数据库中新建以下 3 张表，分别是 user_xxx、product_xxx 和 city_xxx，可以使用以下命令： ``` CREATE TABLE user_xxx (u_id INT, click_p_id INT, c_id INT); CREATE TABLE product_xxx (p_id INT, p_name STRING); CREATE TABLE city_xxx (c_id INT, area STRING); ``` 3.导入数据到这些表中，表数据自由定义，每表数据不少于 10 条记录。 4.在 Spark 中查询 hive 表数据，计算各个地区前三大热门商品（即用户点击量最多的），可以使用以下代码： ```scala // 导入 SparkSession import org.apache.spark.sql.SparkSession // 创建 SparkSession val spark = SparkSession.builder() .appName("Spark SQL Hive Example") .enableHiveSupport() .getOrCreate() // 查询 user_xxx、product_xxx 和 city_xxx 表中的数据 val result = spark.sql("SELECT area, p_name, COUNT(*) AS click_count " + "FROM user_xxx " + "JOIN product_xxx ON user_xxx.click_p_id = product_xxx.p_id " + "JOIN city_xxx ON user_xxx.c_id = city_xxx.c_id " + "GROUP BY area, p_name " + "ORDER BY area, click_count DESC") // 计算各个地区前三大热门商品 val top3 = result.rdd.groupBy(row => row.getString(0)) .flatMap{ case (area, rows) => rows.toList.sortBy(_.getLong(2)).reverse.take(3) } // 打印结果 top3.foreach(println) ``` 这段代码会先查询 user_xxx、product_xxx 和 city_xxx 表中的数据，并计算出每个地区每个商品的点击量。然后对结果进行分组，每个地区取前三个点击量最大的商品，最后打印结果。

阅读全文

相关推荐

数据库表的使用，通过SQL语句对表的创建，修改，查询操作！

根据动态链接库的提示，传入不同的参数，就可以调用生成SQL

Hive常用建表SQL

spark-hive-2.11和spark-sql-以及spark-hadoop包另付下载地址

javasql笔试题-spark-hive-udf:展示如何在ApacheSpark中使用HiveUDF的示例项目

从TDW-Hive到TDW-Spark-SQL_ 腾讯TDW数据引擎演进之路

spark-2.4.0-hive-hbase-Api.7z

Chapter6-_-大数据处理技术Spark-第6章-Spark-SQL_1

otus-ecosystem-hadoop-spark-hive

spark--bin-hadoop3-without-hive.tgz

spark-3.2.0-bin-hadoop3-without-hive

编译的spark-hive_2.11-2.3.0和 spark-hive-thriftserver_2.11-2.3.0.jar

spark--bin-hadoop2-without-hive.tgz

spark-2.3.0-bin-hadoop2-without-hive

spark-2.4.8-bin-2.6.0-with-hive.tgz

spark-2.4.0-bin-hadoop-2.7.3-hive.tgz

用spark-shell操作hive时只能连接到default数据库

spark-sql快速入门系列(5) | hive数据库

sparkshell 操作hive表_Spark记录-Spark-Shell客户端操作读取Hive数据

spark-sql修改数据库名

最新推荐

HIVE-SQL开发规范.docx

shell中循环调用hive sql 脚本的方法

如何在python中写hive脚本

win10下搭建Hadoop环境（jdk+mysql+hadoop+scala+hive+spark） 3.docx

白色大气风格的建筑商业网站模板下载.rar

RStudio中集成Connections包以优化数据库连接管理

管理建模和仿真的文件

Keil uVision5全面精通指南

flink提交给yarn19个全量同步MYsqlCDC的作业，flink的配置参数怎样设置

PHP博客旅游的探索之旅