数据仓库与数据挖掘考试重点整理

版权申诉

142 浏览量更新于2024-08-05 收藏 32KB DOCX 举报

"数据挖掘考试习题汇总.docx" 数据挖掘考试习题涵盖了数据仓库、元数据、数据处理、多维分析以及数据仓库系统架构等多个关键概念。以下是这些知识点的详细说明： 1. 数据仓库是一个专门设计用于数据分析的系统，它以面向主题的方式组织数据，确保数据的集成性、稳定性和历史连续性。数据仓库不用于日常事务处理，而是提供历史数据以支持决策制定。 2. 元数据是关于数据仓库内部数据结构和构建方法的信息，分为技术元数据（如数据库设计、数据源信息）和业务元数据（如数据含义、业务规则）。元数据帮助用户理解和访问数据仓库中的信息。 3. 数据处理通常分为联机事务处理（OLTP）和联机分析处理（OLAP）。OLTP关注日常事务的快速处理，而OLAP则用于复杂的数据分析和报告。 4. 多维分析是数据仓库的核心特性，通过切片、切块、钻取和旋转等操作对多维数据集进行深入分析，使用户能够从多个角度理解数据。 5. ROLAP（关系在线分析处理）依赖于关系数据库，而MOLAP（多维在线分析处理）基于多维数据结构。两者都是OLAP的不同实现方式。 6. 数据仓库的开发涉及数据抽取、存储与管理及数据展现等关键步骤。数据抽取负责从源头获取数据，存储与管理确保数据的质量和可用性，数据展现则将数据以用户友好的方式呈现。 7. 数据仓库的系统架构有四种类型：两层架构、独立型数据集合、依赖型数据集合和操作型数据存储。操作型数据存储（ODS）是集成的、面向主题的、可更新且实时的数据库，常用于运营数据的快速访问。 8. 实时数据仓库强调源数据系统与决策支持服务之间的数据交换速度接近实时，增强了决策的时效性。 9. 数据仓库的发展经历了五个阶段，从初期的报表生成，到分析、预测模型、运营导向，最后到实时数据仓库和自动化决策支持。第二章中，数据调和、ETL（抽取、转换、加载）过程和数据模型设计也是重点： 1. 调和数据是在数据仓库和ODS中统一存储的企业级数据，确保决策支持的一致性和准确性。 2. ETL过程用于整合来自不同源的数据，目标是提供单一、权威的数据源。调和数据层应具有详细性、历史性、规范性、可理解性、即时性和可控的质量。 3. 数据抽取分为静态和增量两种方式，静态用于初始化数据仓库，增量则用于持续更新。 4. 粒度是衡量数据仓库中数据详细程度的指标，粒度越细，细节越多，但查询性能可能受到影响。 5. 星型模式是一种简化查询的数据仓库设计，事实表包含主要数据，维度表提供上下文信息，有助于提高查询效率。 6. 维度表通常包含主键、分类层次和描述属性，主键可采用自然键或代理键来确保唯一性。 7. 雪花型模式是星型模式的扩展，通过规范化维度表进一步消除冗余，但可能导致更复杂的查询结构。这些知识点构成了数据仓库和数据挖掘的基础，是理解和实践相关领域的重要框架。

第一章

1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2、元数据是描述数据仓库内数据的结构和建立方法的数据，它为访问数据仓库提供了一个信息目录，根据数据用途的不同可

将数据仓库的元数据分为技术元数据和业务元数据两类。

3、数据处理通常分成两大类：联机事务处理和联机分析处理。

4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作，以求剖析数

据，使拥护能从不同角度、不同侧面观察数据仓库中的数据，从而深入理解多维数据集中的信息。

5、 ROLAP 是基于关系数据库的 OLAP 实现，而 MOLAP 是基于多维数据结构组织的 OLAP 实现。

6、数据仓库按照其开发过程，其关键环节包括数据抽取、数据存储与管理和数据表现等。

7、数据仓库系统的体系结构根据应用需求的不同，可以分为以下 4 种类型：两层架构、独立型数据集合、以来型数据

结合和操作型数据存储和逻辑型数据集中和实时数据仓库。

8 操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据

库，也叫运营数据存储。

9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。

10、从应用的角度看，数据仓库的发展演变可以归纳为 5 个阶段：以报表为主、以分析为主、以预测模型为主、以运营

导向为主和以实时数据仓库和自动决策为主。

第二章

1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。

2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。因此，我们要求 ETL 过程产生

的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。

3、数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于最初填充数据仓库，增量抽取用于进行数据仓库的维护。

4、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小，细节程度越高，综合程度越低，回答查询的种类越多。

5、使用星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织已经经过预处理，主要数据都在庞大的事实表

中。

6、维度表一般又主键、分类层次和描述属性组成。对于主键可以选择两种方式：一种是采用自然键，另一种是采用代理键。

7、雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。

8 数据仓库中存在不同综合级别的数据。一般把数据分成 4 个级别：早期细节级、当前细节级、轻度综合级和高

度综合级。

第三章

1、SQL Server SSAS 提供了所有业务数据的同意整合试图，可以作为传统报表、在线分析处理、关键性能指示器记分卡和

数据挖掘的基础。

2、数据仓库的概念模型通常采用信息包图法来进行设计，要求将其 5 个组成部分(包括名称、维度、类别、层次和

度量)全面地描述出来。

3、数据仓库的逻辑模型通常采用星型图法来进行设计，要求将星型的各类逻辑实体完整地描述岀来。

4、按照事实表中度量的可加性情况，可以把事实表对应的事实分为 4 种类型：事务事实、快照事实、线性项目事实

和事件事实。

5、确定了数据仓库的粒度模型以后，为提高数据仓库的使用性能，还需要根据拥护需求设计聚合模型。

6、在项目实施时，根据事实表的特点和拥护的查询需求，可以选用时间、业务类型、区域和下属组织等多种数据分割类型。

7、当维表中的主键在事实表中没有与外键关联时，这样的维称为退化维。它于事实表并无关系，但有时在查询限制条件(如

订单号码、岀货单编号等)中需要用到。

8 维度可以根据其变化快慢分为元变化维度、缓慢变化维度和剧烈变化维度三类。

9、数据仓库的数据量通常较大，且数据一般很少更新，可以通过设计和优化索引结构来提高数据存取性能。

10、数据仓库数据库常见的存储优化方法包括表的归并与簇文件、反向规范化引入冗余、表的物理分割(分区)。第四章

下载后可阅读完整内容，剩余4页未读，立即下载

Cheng-Dashi

粉丝: 106
资源: 1万+

数据仓库与数据挖掘考试重点整理

苏教版小学六年级下册语文修改病句练习题.docx

法治宣传教育考试练习题.docx

大学英语四级翻译练习题篇汇总.docx.docx

数据挖掘概念与技术原书第3版第一章课后习题.docx

数据挖掘概念与技术习题答案-第1章.docx

计算机信息系统集成高级项目经理继续教育课后习题汇编汇总带答案.docx

人工智能在教育中的应用场景.docx

数据仓库与数据挖掘考试习题汇总.docx

山东大学数据科学导论复习资料以及历年期末近4年真题回忆版

数据仓库与数据挖掘习题答案.docx

最新资源