MaxCompute实战：数据仓库中的增量转换与应用层设计

版权申诉

43 浏览量更新于2024-07-05 收藏 1.66MB PDF 举报

本资源是一份关于大数据实战Demo系统的详细指南，重点介绍了MaxCompute数据仓库中的数据转换实践。作者彬甫在2018年6月5日撰写了这篇文档，主要关注数据架构、流程以及ETL（Extract, Transform, Load）操作。首先，数据架构部分涵盖了几个关键组件，如HDFS（分布式文件系统）、HBase（NoSQL数据库）、RDS（关系型数据库服务）、OSS（对象存储服务）以及MaxCompute作为数据仓库平台。数据源包括基础数据层和应用层，其中基础数据层有26张表，设计时遵循能保存历史数据并方便高效使用的原则，分为主表、历史表和追加表，使用实体和属性命名规范创建模型表，并且数据保留为永久。基础数据层是数据仓库的核心，包含了客户、商品、事件和渠道等关键信息，而应用层则是数据集市，例如客户分析、销售分析和商品库存分析，这些表通常只保留增量数据。ETL加载转换策略包括全表覆盖（M1）、更新插入（M2）、直接加载（M3）、全量历史拉链（M4）和增量历史拉链（M5），每种策略针对不同场景和数据更新需求。在具体操作中，比如M2更新插入算法，根据主键对比源数据和目标数据，如果目标表已有记录，就更新对应字段；若无记录，则插入新数据。由于MaxCompute不支持update和delete操作，因此采用fullouterJoin来实现这一功能。算法示例展示了如何处理账户状态和余额的更新，通过比较主键值来决定是否进行更新或插入。源数据、目标数据和更新插入（主表）算法的核心在于FULLOUTERJOIN，它会筛选出目标表不变的数据、发生变化的数据和新增的数据，通过源表主键与目标表主键的匹配来决定数据的处理方式。这份文档提供了实用的大数据处理和数据仓库操作技巧，对于理解和实施MaxCompute在实际项目中的数据转换具有很高的参考价值。理解这些概念和策略有助于构建健壮、高效的数据处理流程，适用于各种大数据分析场景。

应用层

应用层

 包含客户分析、销售分析、商品分析等集市表，主要是追加表；

 数据按需进行保留。

剩余17页未读，继续阅读

年鉴汇

粉丝: 102
资源: 1万+

MaxCompute实战：数据仓库中的增量转换与应用层设计

大数据实战Demo系统-MaxCompute数据仓库数据转换实践（PDF格式）.rar

大数据实战Demo系统-MaxCompute数据仓库数据转换实践.zip

FROM openjdk:17 ADD ./demo-0.0.1-SNAPSHOT.jar app.jar CMD java -jar demo-0.0.1-SNAPSHOT.jar那这里应该怎么暴露

FROM openjdk:17 MAINTAINER cren<3089423368@qq.com> ADD ./demo-0.0.1-SNAPSHOT.jar app.jar CMD java -jar demo-0.0.1-SNAPSHOT.jar 哪里出错了

使用fork()创建子进程，形成以下父子关系 期望父子进程树 demo3---demo3---demo3---demo3---demo3---demo3---demo3---demo3---demo3---demo3 注：demo3为程序名

demo-0.0.1-SNAPSHOT.jar中没有主清单属性

Centos7将项目包 demo-2048.tar.gz 导入到 GitLab 中并命名为demo-2048。

java -jar wx-demo-0.0.1-SNAPSHOT.jar wx-demo-0.0.1-SNAPSHOT.jar中没有主清单属性

nohup java -jar Demo-0.0.1-SNAPSHOT.jar

最新资源

使用fork()创建子进程，形成以下父子关系期望父子进程树 demo3---demo3---demo3---demo3---demo3---demo3---demo3---demo3---demo3---demo3 注：demo3为程序名