id mapping

ID映射是指将不同系统或平台中的标识符（ID）进行相互转换的过程。当不同的系统之间需要交换数据或进行协作时，往往会涉及到不同系统中使用的不同标识符之间的映射。在现实世界中，不同系统可能使用不同的标识符来表示同一个实体。例如，一家公司的员工在人力资源系统中可能有一个员工ID，而在薪资管理系统中有一个不同的薪资ID。当需要在这两个系统之间进行数据同步或者联动操作时，就需要进行ID映射，将一个系统中的ID转换成另一个系统中对应的ID。这样，就可以确保在不同系统之间准确识别和匹配相同的实体。 ID映射可以通过不同的方法来实现，包括手动映射和自动映射两种方式。手动映射需要人工干预，根据不同系统中的实际情况进行对应的ID匹配；而自动映射则利用一些算法或规则进行自动识别和匹配。自动映射的方法可以基于一些共同属性或者模式来进行推断和匹配。 ID映射的好处是可以实现系统之间的数据流动和交互，使得不同系统的操作能够协同工作。它可以提高数据的一致性和准确性，避免因为ID不一致而引起的数据错误。另外，ID映射也能够简化系统集成和数据转换的复杂度，提高系统的可维护性和扩展性。总之，ID映射是一个重要的概念和技术，对于不同系统之间的数据交互和协同工作具有重要意义。它可以帮助确保不同系统中表示同一个实体的标识符之间的一致性，并简化系统集成和数据转换的操作。

数仓建模—id mapping(上)

数仓建模中的id mapping，是指将数据源中的不同标识或编码，映射成数仓中的唯一标识，以便于数据整合和分析。在实际应用中，我们常常会遇到数据源中的标识代码，有可能是一个或多个字段的组合，或者是别名等等。而在数仓建模中，我们需要对这些代码进行整合，统一成一个唯一标识来方便后续的数据分析。这个过程中，需要考虑到多个因素，包括数据的业务含义、数据源的变化以及不同数据源之间的映射关系等。我们通常会根据不同的业务需求和数据源的特点，采用不同的id mapping策略。常见的id mapping策略包括： 1.使用自然键：这种策略直接将数据源中的一个或多个字段作为数仓中的唯一标识，通常是一些固定的编码或标识字段。 2.使用代理键：这种策略是在数仓中新建一个唯一标识字段，通过自增数值等方式，为每条数据记录分配一个唯一的标识。 3.使用复合键：这种策略将多个字段的组合作为数仓中的唯一标识，通常是为了解决自然键冲突或数据源变化等问题。在进行id mapping时，我们需要保证数仓中的唯一标识能够满足不同业务需求的要求，同时也需要保证数据的精确性和一致性。因此，id mapping是数仓建模中非常重要的一个环节，需要仔细设计和实现。

Spark-shell 据Hive的dwd库中相关表或MySQL数据库shtd_store中订单相关表（order_detail、order_info、sku_info），对用户购买过的商品进行去重，将其转换为以下格式：第一列为用户id mapping（Mapping操作：例如用户id：1、4、7、8、9，则做完mapping操作转为字典类型，键0对应用户id 1，键1对应用户id 4，以此类推），第二列为用户购买过的商品id mapping，按照user_id与sku_id进行升序排序，，最后保存结果到Hive

好的，根据您的需求，我可以提供以下Spark SQL代码实现： ```sql -- 从Hive中读取订单相关表 CREATE TEMPORARY VIEW dwd_order_detail AS SELECT * FROM hive_db.dwd.order_detail; CREATE TEMPORARY VIEW dwd_order_info AS SELECT * FROM hive_db.dwd.order_info; CREATE TEMPORARY VIEW dwd_sku_info AS SELECT * FROM hive_db.dwd.sku_info; -- 从MySQL中读取shtd_store数据库中的订单相关表 CREATE TEMPORARY VIEW mysql_order_detail AS SELECT * FROM jdbc_db.mysql.order_detail; CREATE TEMPORARY VIEW mysql_order_info AS SELECT * FROM jdbc_db.mysql.order_info; CREATE TEMPORARY VIEW mysql_sku_info AS SELECT * FROM jdbc_db.mysql.sku_info; -- 合并订单相关表 CREATE TEMPORARY VIEW order_detail_union AS SELECT * FROM dwd_order_detail UNION ALL SELECT * FROM mysql_order_detail; CREATE TEMPORARY VIEW order_info_union AS SELECT * FROM dwd_order_info UNION ALL SELECT * FROM mysql_order_info; CREATE TEMPORARY VIEW sku_info_union AS SELECT * FROM dwd_sku_info UNION ALL SELECT * FROM mysql_sku_info; -- 对用户购买过的商品进行去重 CREATE TEMPORARY VIEW user_sku_distinct AS SELECT DISTINCT user_id, sku_id FROM ( SELECT order_detail_union.user_id, order_detail_union.sku_id, ROW_NUMBER() OVER (PARTITION BY order_detail_union.user_id, order_detail_union.sku_id ORDER BY order_detail_union.order_id) AS rn FROM order_detail_union JOIN order_info_union ON order_detail_union.order_id = order_info_union.order_id WHERE order_info_union.order_status = 'paid' ) t WHERE rn = 1; -- 将用户id和sku_id进行mapping操作 CREATE TEMPORARY VIEW user_sku_mapping AS SELECT dense_rank() OVER (ORDER BY user_id) - 1 AS user_id_mapping, dense_rank() OVER (ORDER BY sku_id) - 1 AS sku_id_mapping FROM user_sku_distinct; -- 按照user_id_mapping和sku_id_mapping进行升序排序 CREATE TEMPORARY VIEW user_sku_sorted AS SELECT user_id_mapping, sku_id_mapping FROM user_sku_mapping ORDER BY user_id_mapping, sku_id_mapping; -- 将结果保存至Hive INSERT OVERWRITE TABLE hive_db.result.user_sku_mapping SELECT collect_list(sku_id_mapping) AS sku_id_mapping_list FROM user_sku_sorted GROUP BY user_id_mapping; ``` 需要注意的是，以上代码中的数据库和表名、字段名等需要根据实际情况进行修改。另外，根据您的要求，最终结果是将用户购买过的商品id mapping按照user_id与sku_id进行升序排序，并将结果保存到Hive中的`hive_db.result.user_sku_mapping`表中，第一列为用户id mapping，这里我将用户id mapping作为结果的索引。

阅读全文

数仓建模—id mapping(上)

相关推荐

idmapping(用户唯一标识)真实数据第二天数据生成

solidity入门学习——mapping

nfs_idmap.rar_idmap

基于kafka的客户画像平台规则引擎IDEA项目中的IDMapping类是干嘛的

es mapping指定id

vlanmapping

VLAN Mapping

cookiemapping原理

mapper mapping跳转插件

es mapping 指定文档id为要导入的数据的数据id

-------user_id_mapping与sku_id_mapping数据前5条如下：------- 0:0 0:89 1:1 1:2 1:3

springboot管理Mapping文件

12.id-mapping算法1

Chapter 18 Cube Mapping

Mapping 索引映射

最新推荐

Android studio 混淆配置详解

精细金属掩模板(FMM)行业研究报告 显示技术核心部件FMM材料产业分析与市场应用

Angular实现MarcHayek简历展示应用教程

管理建模和仿真的文件

深入剖析：内存溢出背后的原因、预防及应急策略（专家版）

Java中如何对年月日时分秒的日期字符串作如下处理：如何日期分钟介于两个相连的半点之间，就将分钟数调整为前半点

Crossbow Spot最新更新 - 获取Chrome扩展新闻

"互动学习：行动中的多样性与论文攻读经历"

【Java内存管理终极指南】：一次性解决内存溢出、泄漏和性能瓶颈

c 语言return用法

精细金属掩模板(FMM)行业研究报告显示技术核心部件FMM材料产业分析与市场应用