数据仓库与数据挖掘试题解析

版权申诉

18 浏览量更新于2024-08-06 收藏 341KB DOCX 举报

"数据仓库和数据挖掘相关的研究生试题答案，涉及选择题和简答题，主要涵盖数据仓库的基本概念、OLTP与OLAP的区别、数据仓库的设计与存储方式、数据追加方法以及数据标准化等知识点。" 1. **数据仓库与业务处理**：数据仓库上的业务处理通常被称为联机分析处理（OLAP），它与联机事务处理（OLTP）不同，后者关注日常交易处理，而OLAP则侧重于决策支持和深度分析。 2. **数据仓库的可信性**：数据仓库中的数据可信性可能受到多种因素影响，如数据无时基、抽取程序算法差异、抽取层次不同以及缺乏集成性。这些因素可能导致数据不准确或不一致。 3. **OLTP与OLAP的访问特点**： OLTP系统通常要求高并发性和快速响应时间，处理频繁的事务操作；而OLAP系统则倾向于低访问频率，但需要处理大量历史数据并执行复杂的统计操作，对响应时间的要求相对较低。 4. **数据仓库的数据粒度**：数据粒度表示数据的详细程度，粒度越小，数据越详细，层次级别越高。在设计数据仓库时，需要考虑如何合理组织数据的粒度，以适应不同的查询需求。 5. **数据存储方式**： - 虚拟存储方式中，数据仓库的数据不直接存储，而是通过查询从源数据中获取。 - 星型模式和雪花模式在数据标准化上有所不同，雪花模式的维表通常进行更深入的规范化，而星型模式的维表则较少规范化，以提升查询效率。 - 在查询效率上，星型模式通常优于雪花模式，因为其结构简单，关联操作更快。 - 数据分割和多重粒度级有助于提高数据处理效率，例如创建索引和顺序扫描。 6. **数据追加方法**： - 时标法通过添加时间标志来标识数据，方便追踪和更新。 - 前后映像文件法需要扫描整个数据库，对性能有较大影响。 - DELTA方法和日志文件法都不需要全库扫描，可以提高效率。 7. **数据标准化**：在数据仓库中，维表通常进行标准化处理，以减少冗余和提高数据一致性。在星型模式下，维表是标准化的，而在雪花模式下，维表的规范化程度更高。 8. **数据映射**：最大-最小数据标准化方法中，将30000映射到[0,1]区间，计算公式为 (x - min) / (max - min)，所以结果是 (30000 - 10000) / (90000 - 10000) = 0.2。 9. **维的概念**：维是数据观察的角度，如时间维的层次可以是"年、季、月、日"。"某年某月某日"是一个具体的时间点，而不是层次。 10. **数据仓库开发周期**：数据仓库的开发通常包括规划分析阶段、体系构造设计阶段和设计实施阶段，以及后续的使用维护阶段。没有提及的"B"可能是错误的选项，因为没有明确指出是哪个阶段。简答题部分未提供具体答案，但可能涉及数据仓库的设计原则、数据清洗方法、数据挖掘技术及其应用、ETL（抽取、转换、加载）过程的详细解释等主题。

数据仓库与数据挖掘

I. 选择题，为每个问题选择最适宜的答案(10×2%＝20%)

1. 数据仓库上的业务处理称作＿B＿。

A. 联机事务处理

B. 联机分析处理

C. 联机输入处理

D. 联机查询处理

2. 在自然演化体系构造中，关于导致数据缺乏可信性的原因的说法哪个不正确？D

A. 数据无时基

B. 抽取程序的算法有差异

C. 抽取的层次不同

D. 缺乏集成性

3. 下面哪项关于 OLTP 与 OLAP 访问特点的说法是不正确的。A

A. OLTP 和 OLAP 对于响应时间的要求都高

B. OLTP 访问频率高，OLAP 访问频率低

C. OLAP 访问大量的历史，执行大量统计操作

D. OLTP 数据处理具有并发性

4. 下面关于数据仓库中数据的说法错误的选项是？

A. 数据越详细，粒度越小，层次级别就越高。

B. 在估计直接存储设备数时，如数据超过 1000 万行必须强制采取双重粒度级。

C. 数据仓库大局部分析是针对被压缩的、存取效率高的轻度级数据进展的。

D. 数据分割便于数据的重构、重组和恢复，以提高创立索引和顺序扫描的效率。

5. 下面关于数据仓库的数据存储方式的说法哪个是不正确的？F

E. 虚拟存储方式中，数据仓库的数据仍然在源数据中。

F. 星型模式下的维表标准化的，而雪花模式下的不需要标准化

G. 在查询效率方面，星型模式效率更高

H. 在事实星座模式中有多个事实表，且它们共享一样的维表

6. 下面关于星型模型的说法哪个是不正确的？

I. 有一个包含大量数据的事实表

J. 有一组小的附属表，称为维表，每维一个。

K. 事实表的每个字段都是事实度量字段

L. 事实中每条元组都含有指向各个维表的外键和一些相应的度量数据。

7. 下面关于数据仓库的数据追加的说法哪个是不正确的？C

A. 时标法需要为记录数据增加一个时间标志。

B. 前后映像文件方法需要扫描整个数据库，占用较多资源，对性能有较大影响

C. DELTA 不需要扫描整个数据库，效率较高，应用普遍

D. 日志文件法也不需要扫描整个数据库，是固有机制。

8. 假设收入属性的最小与最大分别是 10000 和 90000，现在想把当前值 30000 映射到区间[0,1],假设采用最大－最小数

据标准方法，计算结果是多少？B

9. 下面关于维的概念哪个是不正确的？ C

A. 维是人们观察数据的特定角度。

B. 维的层次性是由观察数据细致程度不同造成的。

C. “某年某月某日〞是时间维的层次。

下载后可阅读完整内容，剩余6页未读，立即下载

kfcel5889

粉丝: 3
资源: 5万+

数据仓库与数据挖掘试题解析

中国互联网金融实践试题和答案(2017.12.6).docx

大学计算机网络工程期末试卷试题试题(附答案).docx

大学生职业发展与就业指导试题与答案(同名7341).docx

b超试题.docx.docx有答案.doc

教育系统后备干部考试模拟试题及答案(最新)..docx

2019年版人民币培训试题答案-人民币培训试题.docx

《大数据时代下的数据挖掘》试题及答案要点.docx

大学生心理健康教育试题(含答案)..docx

北京理工1. 大学2013级数据结构B试题(A卷)-答案.docx

数据11sqoop-数据仓库工具箱 数据挖掘.docx

最新资源

数据11sqoop-数据仓库工具箱数据挖掘.docx