新零售课程：ODS/DWD层数据操作与分桶表实践

需积分: 9 126 浏览量更新于2024-06-29 收藏 3.01MB PDF 举报

在"big data yipin project note4"中，主要涵盖了大数据项目中的四个关键阶段，分别是ODS（Operational Data Store）层、增量数据处理、分桶表设计与应用以及DWD（Detailed Working Data）层的操作。以下是详细的知识点总结： 1. ODS层增量数据采集：在这一天的学习中，首先关注的是ODS层的数据更新策略。通过模拟实际业务场景，学员们学习了如何进行增量数据的采集。这部分涉及到了数据的实时监控和基于时间戳或事务ID的记录，确保只获取最新的数据变化，避免全量数据迁移带来的性能压力。 2. 分桶表：分桶表是大数据处理中的一种常见技术，用于存储大量数据并支持高效的数据查询。这部分内容包括分桶表的基本概念，如如何根据特定字段（如用户ID或地理位置）对数据进行分区，以及如何通过采样策略减少数据冗余，提高查询效率。此外，还讨论了如何制定执行计划以优化查询性能。 3. ODS表的分桶重建：以订单表为例，具体演示了如何对ODS层的表进行分桶重建，包括创建新的数据结构、导入数据以及调整索引等步骤。这一过程有助于提高数据组织的灵活性和查询速度。 4. DWD层操作： DWD层负责更详细、更具体的事实数据，是数据仓库的重要组成部分。学员们完成了各表的构建，包括数据清洗、转换和加载。此外，还深入研究了拉链表在数据一致性维护中的应用，探讨了拉链表的工作原理以及其实现细节，这对于数据仓库中的数据关联和追踪至关重要。 "big data yipin project note4"详细介绍了大数据项目中数据处理的各个环节，从基础的ODS层增量操作，到高级的分桶表管理和DWD层设计，旨在提升数据处理效率和准确性，适应新零售业务的需求。通过这些实践操作，参与者能够更好地理解和掌握数据仓库在现代商业环境中的实际应用。

展开

Properties

复

制

代

码

思

考

在

shell

执

⾏

的

时

候

是

否

⽀

持

读

取

到

外

部

传

递

的

参

数

完

全

⽀

持

的

如

何

通过

shell

读

取

上⼀

天

的

⽇

期

呢



获

取

当

前

⽇

期

: date

   2022

年

⽉

⽇

星期

四

10:23:06 CST



获

取

上⼀

天

: date -d '-1 day'

   2022

年

⽉

⽇

星期

三

10:24:05 CST



获

取

上⼀个

⼩

时

: date -d '-1 hour'

   2022

年

⽉

⽇

星期

四

09:24:39 CST



获

取

上⼀

周

: date -d '-1 week'

   2022

年

⽉

⽇

星期

四

10:25:01 CST

如

何

让

⽇

期

数据

按

照特

定

的

格

式

输

出

呢

? date -d '-1 day' +'%Y-%m-%d %H:%M:%S'

 2022-04-27 10:27:34

如

果

外

部

传

递

了

参

数

, shell

内

部

如

何

接收

呢

  $# :

获

取

当

前

外

部

⼀

共

传

递

了

多

少

个

参

数

  $N : N

表

示

数据

获

取

第

⼀个

参

数

在

编

写

⼀个

shell

脚

本

默

认

第

⼀

⾏

书

写

#!/bin/bash  

⽤

于

标

识

这

个

是

shell

脚

本

采

⽤

bash

解

释

器



运

⾏

⼀个

shell

脚

本

⽅

式

: sh

脚

本



单

独

⼀个

表

示

是

注

释



关

键

词

: wait

表

示

串

⾏

执

⾏

(

默

认

就

是

)

  

如

果

外

部

传

递

了

参

数

按

照

指

定

的

参

数⽇

期

进

⾏

数据

采

集

如

果

没

有

传

递

使

⽤

上⼀

天

的

⽇

期

即可

#!/bin/bash

注

意

: []

内

部

两

端

都

要

有

空

格

if [ $# == 1 ]

then

 #

等

号

两

端

不

允

许

出

现

空

格

 dateStr=$1

else

 #

飘

号

(`)(esc

下

⾯

的

那

个

键

表

示

内

部

内

容

会

先

执

⾏

 dateStr=`date -d '-1 day' +'%Y-%m-%d'`

# ${

变

量

} :

⽤

于

获

取变

量

的

值

echo ${dateStr}

在

shell

中

在

双

引

号

⾥

⾯

是

⽀

持

特

殊

符

号

操

作

如

果是

单

引

号

表

示

原

样

输

出

如

何

在

shell

脚

本

中

执

⾏

hive

的

SQL

呢

剩余49页未读，继续阅读

身份认证购VIP最低享 7 折!

30元优惠券

两面三刀流

粉丝: 371

新零售课程：ODS/DWD层数据操作与分桶表实践

最新资源