Spark-shell 据Hive的dwd库中相关表或MySQL数据库shtd_store中订单相关表（order_detail、order_info、sku_info），对用户购买过的商品进行去重，将其转换为以下格式：第一列为用户id mapping（Mapping操作：例如用户id：1、4、7、8、9，则做完mapping操作转为字典类型，键0对应用户id 1，键1对应用户id 4，以此类推），第二列为用户购买过的商品id mapping，按照user_id与sku_id进行升序排序，，最后保存结果到Hive

时间: 2024-02-11 14:05:34 浏览: 126

好的，根据您的需求，我可以提供以下Spark SQL代码实现： ```sql -- 从Hive中读取订单相关表 CREATE TEMPORARY VIEW dwd_order_detail AS SELECT * FROM hive_db.dwd.order_detail; CREATE TEMPORARY VIEW dwd_order_info AS SELECT * FROM hive_db.dwd.order_info; CREATE TEMPORARY VIEW dwd_sku_info AS SELECT * FROM hive_db.dwd.sku_info; -- 从MySQL中读取shtd_store数据库中的订单相关表 CREATE TEMPORARY VIEW mysql_order_detail AS SELECT * FROM jdbc_db.mysql.order_detail; CREATE TEMPORARY VIEW mysql_order_info AS SELECT * FROM jdbc_db.mysql.order_info; CREATE TEMPORARY VIEW mysql_sku_info AS SELECT * FROM jdbc_db.mysql.sku_info; -- 合并订单相关表 CREATE TEMPORARY VIEW order_detail_union AS SELECT * FROM dwd_order_detail UNION ALL SELECT * FROM mysql_order_detail; CREATE TEMPORARY VIEW order_info_union AS SELECT * FROM dwd_order_info UNION ALL SELECT * FROM mysql_order_info; CREATE TEMPORARY VIEW sku_info_union AS SELECT * FROM dwd_sku_info UNION ALL SELECT * FROM mysql_sku_info; -- 对用户购买过的商品进行去重 CREATE TEMPORARY VIEW user_sku_distinct AS SELECT DISTINCT user_id, sku_id FROM ( SELECT order_detail_union.user_id, order_detail_union.sku_id, ROW_NUMBER() OVER (PARTITION BY order_detail_union.user_id, order_detail_union.sku_id ORDER BY order_detail_union.order_id) AS rn FROM order_detail_union JOIN order_info_union ON order_detail_union.order_id = order_info_union.order_id WHERE order_info_union.order_status = 'paid' ) t WHERE rn = 1; -- 将用户id和sku_id进行mapping操作 CREATE TEMPORARY VIEW user_sku_mapping AS SELECT dense_rank() OVER (ORDER BY user_id) - 1 AS user_id_mapping, dense_rank() OVER (ORDER BY sku_id) - 1 AS sku_id_mapping FROM user_sku_distinct; -- 按照user_id_mapping和sku_id_mapping进行升序排序 CREATE TEMPORARY VIEW user_sku_sorted AS SELECT user_id_mapping, sku_id_mapping FROM user_sku_mapping ORDER BY user_id_mapping, sku_id_mapping; -- 将结果保存至Hive INSERT OVERWRITE TABLE hive_db.result.user_sku_mapping SELECT collect_list(sku_id_mapping) AS sku_id_mapping_list FROM user_sku_sorted GROUP BY user_id_mapping; ``` 需要注意的是，以上代码中的数据库和表名、字段名等需要根据实际情况进行修改。另外，根据您的要求，最终结果是将用户购买过的商品id mapping按照user_id与sku_id进行升序排序，并将结果保存到Hive中的`hive_db.result.user_sku_mapping`表中，第一列为用户id mapping，这里我将用户id mapping作为结果的索引。

阅读全文

相关推荐

编译的spark-hive_2.11-2.3.0和 spark-hive-thriftserver_2.11-2.3.0.jar

spark-sql_2.11-2.4.0-cdh6.1.1.jar

pandas实现to_sql将DataFrame保存到数据库中

spark--bin-hadoop3-without-hive.tgz

spark-2.3.0-bin-hadoop2-without-hive

spark-2.3.1-bin-hadoop2-without-hive.tgz

spark-2.3.0-bin-hadoop277-without-hive.tgz

Spark-shell批量命令执行脚本的方法

spark-hive-2.11和spark-sql-以及spark-hadoop包另付下载地址

spark-hive-udf:Spark Hive UDF示例

spark2.3.1-with-hive

spark-hive-thriftserver_2.11-2.4.5.jar

hadoop搭建 zookeeper_hbase_hive_sqoop_mysql_spark_hdfs.doc

实时指标计算引擎-Spark-Part_1_杨鑫_2019-12-19.pptx

flink-sql-connector-hive-3.1.2_2.11-1.11.6.jar 已经解决guava冲突亲测可以

spark-hive_2.11-2.1.4-SNAPSHOT.jar

spark-hive_2.11-2.4.5.jar

spark-3.0.0-bin-hadoop2.7-hive1.2.tgz

flink-connector-hive_2.11-1.11.0.jar

Hadoop集群之—MySQL关系数据库_V1.0

最新推荐

Spark-shell批量命令执行脚本的方法

hive-shell批量命令执行脚本的实现方法

shell中循环调用hive sql 脚本的方法

在数据库中有读者的借阅卡信息表、 书刊借阅信息表borrow等，具体表结

Mysql元数据如何生成Hive建表语句注释脚本详解

RStudio中集成Connections包以优化数据库连接管理

管理建模和仿真的文件

Keil uVision5全面精通指南

flink提交给yarn19个全量同步MYsqlCDC的作业，flink的配置参数怎样设置

PHP博客旅游的探索之旅

在数据库中有读者的借阅卡信息表、书刊借阅信息表borrow等，具体表结