如果DW和DM的JOB没有跑,但是ODS的JOB一直在跑,是不是会导致抽取重复数据
时间: 2024-03-31 22:34:02 浏览: 146
如果DW和DM的JOB没有跑,但是ODS的JOB一直在跑,会导致ODS层的数据一直在更新,但DW和DM层的数据没有及时更新,可能会导致在数据抽取时出现重复数据或遗漏数据的情况。因为DW和DM的JOB没有跑,所以无法及时将ODS层的数据同步到DW和DM层,从而导致问题的发生。因此,在设计数据抽取流程时,应该考虑到所有层级的同步问题,确保数据的准确性和完整性。
相关问题
DW和DM的JOB没有跑,但是ODS的JOB一直在跑导致抽取重复数据后,重新跑了DW和DM的JOB,那ODS的重复数据是不是也会进到DW和DM
如果ODS的JOB一直在跑,并且导致抽取重复数据后,重新跑了DW和DM的JOB,那么在重新跑DW和DM的JOB时,如果没有对ODS抽取的重复数据进行清洗或去重处理,那么这些重复数据很可能会再次进入DW和DM中。因此,在重新跑DW和DM之前,需要先对ODS的重复数据进行清洗或去重处理,以避免数据重复进入DW和DM。
数据分层/ODS/DW/DM
数据分层是指将数据按照不同的层级进行组织和管理的过程。在数据分层中,常见的层级有ODS层(数据运营层)、DW层(数据仓库层)和DM层(数据集市层)。
ODS层是数据分层的第一层,也称为数据运营层。在ODS层中,数据进行一定的清洗和处理,例如处理异常字段、统一时间字段格式等。
DW层是数据仓库层,是数据分层的核心设计层。在DW层中,根据主题建立各种数据模型,包括DWD(数据仓库细节层)、DWM(数据仓库中间层)和DWS(数据仓库服务层)。DWD层或者称为ODS层,作为业务层与数据仓库的隔离层,用于屏蔽底层数据的差异。
DM层是数据集市层,可以理解为DW层向DM层的过渡层。在DM层中,数据进行宽表汇总,用于分析某个特定主题领域的服务数据。
数据分层的目的是为了更好地管理数据,提供清晰的数据掌控能力。通过数据分层,我们可以对不同层级的数据进行不同的处理和分析,以满足各种需求。比如,ODS层可以处理数据的规整和清洗,DW层可以按照主题进行组织和建模,DM层可以提供宽表汇总的服务数据。
综上所述,数据分层是将数据按照不同层级进行组织和管理的过程,包括ODS层、DW层和DM层。每个层级都有不同的作用和目的,通过数据分层可以更好地管理和利用数据。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* *3* [数据分层/ODS/DW/DM](https://blog.csdn.net/cuiyadll/article/details/124682342)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"]
- *2* [数据仓库--通用的数据仓库分层方法?为何分层?ODS/ DW/DWD/DWS/APP](https://blog.csdn.net/u010002184/article/details/113885628)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"]
[ .reference_list ]
阅读全文