数据仓库与数据挖掘试题解析

版权申诉
0 下载量 12 浏览量 更新于2024-08-06 收藏 341KB DOCX 举报
"数据仓库和数据挖掘相关的研究生试题答案,涉及选择题和简答题,主要涵盖数据仓库的基本概念、OLTP与OLAP的区别、数据仓库的设计与存储方式、数据追加方法以及数据标准化等知识点。" 1. **数据仓库与业务处理**: 数据仓库上的业务处理通常被称为联机分析处理(OLAP),它与联机事务处理(OLTP)不同,后者关注日常交易处理,而OLAP则侧重于决策支持和深度分析。 2. **数据仓库的可信性**: 数据仓库中的数据可信性可能受到多种因素影响,如数据无时基、抽取程序算法差异、抽取层次不同以及缺乏集成性。这些因素可能导致数据不准确或不一致。 3. **OLTP与OLAP的访问特点**: OLTP系统通常要求高并发性和快速响应时间,处理频繁的事务操作;而OLAP系统则倾向于低访问频率,但需要处理大量历史数据并执行复杂的统计操作,对响应时间的要求相对较低。 4. **数据仓库的数据粒度**: 数据粒度表示数据的详细程度,粒度越小,数据越详细,层次级别越高。在设计数据仓库时,需要考虑如何合理组织数据的粒度,以适应不同的查询需求。 5. **数据存储方式**: - 虚拟存储方式中,数据仓库的数据不直接存储,而是通过查询从源数据中获取。 - 星型模式和雪花模式在数据标准化上有所不同,雪花模式的维表通常进行更深入的规范化,而星型模式的维表则较少规范化,以提升查询效率。 - 在查询效率上,星型模式通常优于雪花模式,因为其结构简单,关联操作更快。 - 数据分割和多重粒度级有助于提高数据处理效率,例如创建索引和顺序扫描。 6. **数据追加方法**: - 时标法通过添加时间标志来标识数据,方便追踪和更新。 - 前后映像文件法需要扫描整个数据库,对性能有较大影响。 - DELTA方法和日志文件法都不需要全库扫描,可以提高效率。 7. **数据标准化**: 在数据仓库中,维表通常进行标准化处理,以减少冗余和提高数据一致性。在星型模式下,维表是标准化的,而在雪花模式下,维表的规范化程度更高。 8. **数据映射**: 最大-最小数据标准化方法中,将30000映射到[0,1]区间,计算公式为 (x - min) / (max - min),所以结果是 (30000 - 10000) / (90000 - 10000) = 0.2。 9. **维的概念**: 维是数据观察的角度,如时间维的层次可以是"年、季、月、日"。"某年某月某日"是一个具体的时间点,而不是层次。 10. **数据仓库开发周期**: 数据仓库的开发通常包括规划分析阶段、体系构造设计阶段和设计实施阶段,以及后续的使用维护阶段。没有提及的"B"可能是错误的选项,因为没有明确指出是哪个阶段。 简答题部分未提供具体答案,但可能涉及数据仓库的设计原则、数据清洗方法、数据挖掘技术及其应用、ETL(抽取、转换、加载)过程的详细解释等主题。
2023-06-10 上传