数据仓库与数据挖掘考试重点整理

版权申诉
0 下载量 142 浏览量 更新于2024-08-05 收藏 32KB DOCX 举报
"数据挖掘考试习题汇总.docx" 数据挖掘考试习题涵盖了数据仓库、元数据、数据处理、多维分析以及数据仓库系统架构等多个关键概念。以下是这些知识点的详细说明: 1. 数据仓库是一个专门设计用于数据分析的系统,它以面向主题的方式组织数据,确保数据的集成性、稳定性和历史连续性。数据仓库不用于日常事务处理,而是提供历史数据以支持决策制定。 2. 元数据是关于数据仓库内部数据结构和构建方法的信息,分为技术元数据(如数据库设计、数据源信息)和业务元数据(如数据含义、业务规则)。元数据帮助用户理解和访问数据仓库中的信息。 3. 数据处理通常分为联机事务处理(OLTP)和联机分析处理(OLAP)。OLTP关注日常事务的快速处理,而OLAP则用于复杂的数据分析和报告。 4. 多维分析是数据仓库的核心特性,通过切片、切块、钻取和旋转等操作对多维数据集进行深入分析,使用户能够从多个角度理解数据。 5. ROLAP(关系在线分析处理)依赖于关系数据库,而MOLAP(多维在线分析处理)基于多维数据结构。两者都是OLAP的不同实现方式。 6. 数据仓库的开发涉及数据抽取、存储与管理及数据展现等关键步骤。数据抽取负责从源头获取数据,存储与管理确保数据的质量和可用性,数据展现则将数据以用户友好的方式呈现。 7. 数据仓库的系统架构有四种类型:两层架构、独立型数据集合、依赖型数据集合和操作型数据存储。操作型数据存储(ODS)是集成的、面向主题的、可更新且实时的数据库,常用于运营数据的快速访问。 8. 实时数据仓库强调源数据系统与决策支持服务之间的数据交换速度接近实时,增强了决策的时效性。 9. 数据仓库的发展经历了五个阶段,从初期的报表生成,到分析、预测模型、运营导向,最后到实时数据仓库和自动化决策支持。 第二章中,数据调和、ETL(抽取、转换、加载)过程和数据模型设计也是重点: 1. 调和数据是在数据仓库和ODS中统一存储的企业级数据,确保决策支持的一致性和准确性。 2. ETL过程用于整合来自不同源的数据,目标是提供单一、权威的数据源。调和数据层应具有详细性、历史性、规范性、可理解性、即时性和可控的质量。 3. 数据抽取分为静态和增量两种方式,静态用于初始化数据仓库,增量则用于持续更新。 4. 粒度是衡量数据仓库中数据详细程度的指标,粒度越细,细节越多,但查询性能可能受到影响。 5. 星型模式是一种简化查询的数据仓库设计,事实表包含主要数据,维度表提供上下文信息,有助于提高查询效率。 6. 维度表通常包含主键、分类层次和描述属性,主键可采用自然键或代理键来确保唯一性。 7. 雪花型模式是星型模式的扩展,通过规范化维度表进一步消除冗余,但可能导致更复杂的查询结构。 这些知识点构成了数据仓库和数据挖掘的基础,是理解和实践相关领域的重要框架。