ETL开发面试题解析：数据去重与表操作实践

32 浏览量更新于2024-08-03 收藏 145KB DOCX 举报

本资源是一份关于ETL开发面试题目的总结，主要涉及数据清洗、数据库操作以及函数创建等实际问题。在ETL（提取、转换、加载）过程中，数据清洗是至关重要的步骤，用于确保数据质量。第一道题目探讨了如何处理数据表中的重复数据。在RMS_OLT表中，存在具有相同ZH_LABEL字段的记录，我们想要保留最新（根据create_date排序）的一条。解决方案是首先查询具有最大rowid（通常代表最新插入的记录）的行ID，然后删除所有其他具有相同ZH_LABEL但rowid不等于最大rowid的行。这样就能确保每组ZH_LABEL只保留一条create_date最新的记录。第二个问题涉及到数据库模式的修改。客户要求在无线网专业下的所有模型中增加一个名为emos_flag的字段，这涉及到两个步骤：更新模型表（M_RESCLASS）和属性表（m_resattribute）。在模型表中，需要找到所有属于无线网专业的记录并添加新字段；在属性表中，同样需要为每个模型添加对应的emos_flag字段。由于模型和属性表之间的关联是通过resclassenname字段，因此我们需要编写一个程序段或存储过程来遍历这些记录并进行相应的更新。第三部分是创建一个函数，该函数接收地市ID作为输入，返回该地市下的一个随机区县ID。这个问题涉及到两个表的关联查询，即地市表（RMS_CITY）和区县表（RMS_COUNTY），它们通过CITY_ID字段连接。函数的实现可能包括选择一个地市的所有区县，然后使用某种随机算法选取其中的一个区县ID返回。以上内容展示了ETL开发中常见的数据处理任务，包括数据去重、数据库结构动态调整以及基于特定业务需求的函数设计。这些问题要求面试者具备扎实的SQL基础，熟悉数据库操作，以及能够灵活应对数据处理的挑战。

一、RMS_OLT 表发现有 ZH_LABEL 相同的重复数据，如何只保留一条创建日期

（create_date）最新的数据。

Select max(rowid) from RMS_OLT where RMS_OLT.字段 = ZH_LABEL;

Delete from RMS_OLT where RMS_OLT.字段 = ZH_LABEL and

Rowid <>(Select max(rowid) from RMS_OLT where RMS_OLT. 字段 =

ZH_LABEL);

二、现有专业表 m_resclassdiagram 记录，专业 ID，专业中英文

模型表 M_RESCLASS,里面记录模型的中英文，和物理表对应关系。

属性表 m_resattribute，记录模型表属性字段信息，和对应物理表的字段名，两个模

型通过 resclassenname 关联。现在客户需求将无线网专业下面所有模型中增加一个

字段 emos_flag 字段，编写一个程序段或者存储过程，实现属性表和物理表中都添加

该字段。

关联关系和样例如下：

select resclassdiagramid,--专业 ID

resclassdiagramenname,--专业英文名称

resclassdiagramcnname--专业中文名称

from m_resclassdiagram

select resclassenname,--模型英文名称

resclasscnname,--模型中文名称

dstablename,--模型对应物理表

classdiagramtype--模型对应专业 ID，与专业表 ID 关联

from m_resclass --模型表

下载后可阅读完整内容，剩余6页未读，立即下载

sysdate1

粉丝: 292
资源: 11

ETL开发面试题解析：数据去重与表操作实践

ETL架构师面试题+PowerCenter+数据仓库

etl开发工程师面试题

最全sql server面试题

2018BAT最新面试题（合集）

it运维面试题及答案[参考].pdf

史上最全的大数据面试题-大数据开发者必看.docx

牛客大数据面试题集锦与答案详解：523题深度解析

大数据面试题合集：Hadoop、Spark、Flink等

BAT技术面试题集锦：机器学习至前端知识全覆盖

阿里巴巴Android面试精华：Java开发与商业智能技术详解

最新资源