数据仓库面试深度解析:ETL与数据仓库知识点

需积分: 45 3 下载量 173 浏览量 更新于2024-09-12 收藏 36KB PDF 举报
本资源是一份针对ETL工程师的面试题集,涵盖了数据仓库、SQL、Unix和Informatica等方面的问题,旨在考察候选人在数据处理、分析和集成方面的专业知识。 【ETL(Extract, Transform, Load)】 ETL是数据仓库系统中的关键过程,它涉及从各种源系统中提取(Extract)数据,对数据进行清洗、转换(Transform)和标准化,然后加载(Load)到数据仓库中。ETL是确保数据质量、一致性和业务规则遵循的关键步骤。面试中可能会询问ETL的具体流程、常见问题解决和性能优化方法。 1. **数据仓库** - 数据仓库是一个用于分析和报告目的的中央存储库,它整合了来自多个操作系统的数据,提供了一种统一的视图。 2. **adhoc分析** - 非结构化的、自由形式的数据查询和分析,通常由业务用户进行,以满足特定需求或即时问题。 3. **OLAP vs. OLTP** - OLAP(在线分析处理)系统用于复杂的分析查询,而OLTP(在线事务处理)系统则服务于日常业务交易,两者在设计和性能上有显著差异。 4. **事实表与维度表** - 在维度模型中,事实表包含度量数据,而维度表则提供了对数据的描述性信息。 5. **STAR和SNOWFLAKE架构** - STAR架构有较少的维度表连接,适合简单查询;SNOWFLAKE架构通过分解维度表来减少冗余,适合大型复杂系统。 6. **慢变维** - 当维度属性随着时间变化时,需要处理历史数据的方法,如类型1、2、3等。 7. **查找表** - 存储固定值的参考表,用于关联和映射数据。 8. **维度规范化** - 通过消除冗余和提高数据一致性来优化维度表的设计。 9. **多维存储模型** - 包括星型、雪花型、星座型等,各有优缺点,如星型简单快速,雪花型结构复杂但节省空间。 10. **数据集市** - 数据仓库的一个子集,专注于特定业务领域,提供更快的查询响应时间。 【SQL】 SQL(结构化查询语言)是数据库管理的标准语言,用于查询、更新和管理关系数据库。 1. SQL代表Structured Query Language。 2. 列出表中的所有记录:`SELECT * FROM table_name;` 3. SQL92是SQL标准的一个版本,引入了许多新的语法和功能。 【Unix】 Unix相关的问题可能涉及文件系统管理、进程控制、脚本编写等方面,对于ETL工程师来说,熟悉Unix环境是必要的。 【Informatica】 Informatica是一款流行的数据集成工具,面试中可能会询问其工作流设计、映射创建、错误处理和性能调优等方面的问题。 此外,面试还可能涉及其他主题,如数据挖掘(Datamining),包括分类、聚类、关联规则、预测等任务。理解不同数据挖掘技术以及它们在业务智能中的应用也是重要的技能。这份面试题集全面测试了候选人对数据处理生命周期的理解和实践经验。
2015-06-11 上传
1.什么是逻辑数据映射?它对ETL项目组的作用是什么? 2.在数据仓库项目中,数据探索阶段的主要目的是什么? 3.如何确定起始来源数据? 架构 4.在ETL过程中四个基本的过程分别是什么? 5.在数据准备区中允许使用的数据结构有哪些?各有什么优缺点? 6.简述ETL过程中哪个步骤应该出于安全的考虑将数据写到磁盘上? 抽取 7.简述异构数据源中的数据抽取技术。 8.从ERP源系统中抽取数据最好的方法是什么? 9.简述直接连接数据库和使用ODBC连接数据库进行通讯的优缺点。 10.简述出三种变化数据捕获技术及其优缺点。 数据质量 11.数据质量检查的四大类是什么?为每类提供一种实现技术。 12.简述应该在ETL的哪个步骤来实现概况分析? 13.ETL项目中的数据质量部分核心的交付物有那些? 14.如何来量化数据仓库中的数据质量? 建立映射 15.什么是代理键?简述代理键替换管道如何工作。 16.为什么在ETL的过程中需要对日期进行特殊处理? 17.简述对一致性维度的三种基本的交付步骤。 18.简述三种基本事实表,并说明ETL的过程中如何处理它们。 19.简述桥接表是如何将维度表和事实表进行关联的? 20.迟到的数据对事实表和维度表有什么影响?怎样来处理这个问题? 元数据 21.举例说明各种ETL过程中的元数据。 22.简述获取操作型元数据的方法。 23.简述共享业务元数据和技术元数据的方法。 优化/操作 24.简述数据仓库中的表的基本类型,以及为了保证引用完整性该以什么样的顺序对它们进行加载。 25.简述ETL技术支持工作的四个级别的特点。 26.如果ETL进程运行较慢,需要分哪几步去找到ETL系统的瓶颈问题。 27.简述如何评估大型ETL数据加载时间。 实时ETL 28.简述在架构实时ETL时的可以选择的架构部件。 29.简述几种不同的实时ETL实现方法以及它们的适用范围。 30.简述实时ETL的一些难点及其实现方法。 ......