数据仓库与数据挖掘试题解析
版权申诉
18 浏览量
更新于2024-08-06
收藏 341KB DOCX 举报
"数据仓库和数据挖掘相关的研究生试题答案,涉及选择题和简答题,主要涵盖数据仓库的基本概念、OLTP与OLAP的区别、数据仓库的设计与存储方式、数据追加方法以及数据标准化等知识点。"
1. **数据仓库与业务处理**:
数据仓库上的业务处理通常被称为联机分析处理(OLAP),它与联机事务处理(OLTP)不同,后者关注日常交易处理,而OLAP则侧重于决策支持和深度分析。
2. **数据仓库的可信性**:
数据仓库中的数据可信性可能受到多种因素影响,如数据无时基、抽取程序算法差异、抽取层次不同以及缺乏集成性。这些因素可能导致数据不准确或不一致。
3. **OLTP与OLAP的访问特点**:
OLTP系统通常要求高并发性和快速响应时间,处理频繁的事务操作;而OLAP系统则倾向于低访问频率,但需要处理大量历史数据并执行复杂的统计操作,对响应时间的要求相对较低。
4. **数据仓库的数据粒度**:
数据粒度表示数据的详细程度,粒度越小,数据越详细,层次级别越高。在设计数据仓库时,需要考虑如何合理组织数据的粒度,以适应不同的查询需求。
5. **数据存储方式**:
- 虚拟存储方式中,数据仓库的数据不直接存储,而是通过查询从源数据中获取。
- 星型模式和雪花模式在数据标准化上有所不同,雪花模式的维表通常进行更深入的规范化,而星型模式的维表则较少规范化,以提升查询效率。
- 在查询效率上,星型模式通常优于雪花模式,因为其结构简单,关联操作更快。
- 数据分割和多重粒度级有助于提高数据处理效率,例如创建索引和顺序扫描。
6. **数据追加方法**:
- 时标法通过添加时间标志来标识数据,方便追踪和更新。
- 前后映像文件法需要扫描整个数据库,对性能有较大影响。
- DELTA方法和日志文件法都不需要全库扫描,可以提高效率。
7. **数据标准化**:
在数据仓库中,维表通常进行标准化处理,以减少冗余和提高数据一致性。在星型模式下,维表是标准化的,而在雪花模式下,维表的规范化程度更高。
8. **数据映射**:
最大-最小数据标准化方法中,将30000映射到[0,1]区间,计算公式为 (x - min) / (max - min),所以结果是 (30000 - 10000) / (90000 - 10000) = 0.2。
9. **维的概念**:
维是数据观察的角度,如时间维的层次可以是"年、季、月、日"。"某年某月某日"是一个具体的时间点,而不是层次。
10. **数据仓库开发周期**:
数据仓库的开发通常包括规划分析阶段、体系构造设计阶段和设计实施阶段,以及后续的使用维护阶段。没有提及的"B"可能是错误的选项,因为没有明确指出是哪个阶段。
简答题部分未提供具体答案,但可能涉及数据仓库的设计原则、数据清洗方法、数据挖掘技术及其应用、ETL(抽取、转换、加载)过程的详细解释等主题。
109 浏览量
140 浏览量
2022-06-15 上传
kfcel5889
- 粉丝: 3
- 资源: 5万+
最新资源
- alfred-abbr:关于缩写的阿尔弗雷德(Alfred)工作流程
- 企业新员工的非制度性培训DOC
- ChristineCao98.github.io
- app-algoexpert:ClémentMihailescu和AlgoExpert的软件工程项目CONTEST的获奖项目-2020年冬季
- 娱乐休闲会所大厅模型
- optical-character-recognition-OCR:使用CNN预测验证码图像中的文本
- introduction-to-node-mongo
- 企业-汇创达-2020年年终总结.rar
- 新员工入职培训教材
- soundphase
- Transfer Function V2.2:这是控制计算器 GUI,适用于希望查看传递函数的各种结果的人。-matlab开发
- Unity 特效资源包 TopDownEffects
- 休闲书房三维模型设计
- The Annoy-O-Bug:鸣叫的灯光鸟-项目开发
- 电信设备-去除三氯氢硅中硼杂质的方法.zip
- arnab-dibosh.github.io:商业组织的网站