数据仓库与数据挖掘：习题解析

版权申诉

146 浏览量更新于2024-08-05 收藏 51KB DOCX 举报

"数据仓库与数据挖掘习题" 数据仓库与数据挖掘是信息技术领域的核心概念，它们在商业智能和决策支持系统中发挥着重要作用。数据挖掘是通过应用算法和技术从大量数据中提取隐藏模式、知识和洞察的过程。它不是骗局，而是数据库、统计学和机器学习的综合应用，旨在揭示潜在的有价值信息。 (a) 数据挖掘并非骗局，而是随着大数据的兴起，企业寻求新方法以利用其数据资产的关键工具。 (b) 它超越了简单的数据库查询和统计分析，采用更复杂的技术如预测建模、关联规则学习和聚类分析。 (c) 随着数据库技术的发展，如OLAP（在线分析处理）和数据仓库的出现，使得存储和处理大规模数据成为可能，从而催生了数据挖掘的需求。 (d) 数据挖掘的知识发现过程通常包括数据预处理、数据选择、数据转换、模式发现、模式评估和知识表示等步骤。一个典型的例子是电商企业，数据挖掘对其成功至关重要，因为它可以帮助识别消费者的购买行为、推荐个性化产品和优化营销策略。这些功能无法仅通过数据查询或基本统计分析实现，需要数据挖掘的复杂分析能力。在设计Big-University的数据挖掘系统时，可能的结构包括学生基本信息表、课程信息表和成绩表。每个组件都服务于特定目的，如学生表用于跟踪个人资料，课程表用于管理课程信息，成绩表用于计算GPA。数据仓库与数据库的主要区别在于，数据仓库是为分析和报告设计的，而数据库则侧重于事务处理。它们的相似之处在于都是数据存储和管理的系统，但数据仓库通常具有汇总和历史数据，而数据库则更注重实时数据。高级数据库系统包括面向对象数据库（用于复杂数据结构），空间数据库（处理地理信息），文本数据库（管理非结构化文本），多媒体数据库（存储图像、音频和视频），以及WWW数据库（互联网信息存储和检索）。数据挖掘功能包括：特征化（识别关键属性），区分（找出不同群体之间的差异），关联（发现事件间的联系），分类（基于属性将数据分组），预测（未来趋势估计），聚类（无监督的相似性分组）和演变分析（追踪随时间变化的模式）。例如，零售业中，关联规则可能发现购物篮分析，而分类可用于客户细分。区分和分类的主要区别在于，区分关注找到数据的不同方面，而分类是建立模型将数据分为预定义的类别。特征化是提取数据的显著特性，而聚类则是自然组群相似数据。分类和预测的相似之处在于都涉及模型构建，但分类用于已知类别，预测关注未来值。数据挖掘的挑战可能包括处理大规模数据的性能问题、用户交互的设计和解释复杂结果，以及发现新的知识类型，如情感分析，可能需要使用到文本挖掘等技术。性能挑战可能涉及数据加载速度、查询响应时间和系统可扩展性。在某些情况下，更新驱动方法（如数据仓库）优于查询驱动方法，因为前者提供预先聚合的数据，适合分析；而后者在需要实时集成和更新时更有优势。雪花模式、事实星座和星型网查询模型是数据仓库建模的不同方式，分别处理维度层次、复杂关系和简化查询效率。数据清理确保数据质量，数据变换适应分析需求，刷新则保持数据新鲜。发现驱动数据立方体、多特征方和虚拟仓库是数据仓库的不同实现，涉及数据组织和优化策略。

16 ，16 ，19 ，20 ，20 ，21 ，22 ，22 ，25 ，25 ，25 ，25 ，30 ，33 ，33 ，35 ，35 ，35 ，35 ，36，

40 ，45 ，46 ，52 ， 70

(a) 使用按箱平均值平滑对以上数据进行平滑，箱的深度是 3。解释你的步骤。评论对

于给定的数据，该技术的效果

(b) 你怎样确定数据中的孤立点？

3 ．4 讨论数据集成需要考虑的问题。

(1) 模式识别：这主要是实体识别问题

(2) 冗余：一个属性是冗余的，即它能由另一个表导出，如果属性或唯的命名不一致，

也可能导致冗余，可以用相关分析来检测

(3) 数据值冲突的检测与处理：有些属性因表示比例或编码不同，会导致属性不同

3 ．5 使用习题 3 。3 给出的 age 数据，回答以下问题：

(a) 使用最小-最大规范化，将 age 值 35 转换到[0 。0 ，1 。0]区间

(b) 使用 z-score 规范化转换 age 值 35，其中 age 的标准差为 12 。94 年

(d) 指出对于给定的数据，你愿意使用哪种方法。陈述你的理由。

3 ．6 使用流程图概述如下属性子集选择过程

(a) 逐步向前选择

(b) 逐步向后删除

3.7 使用习题 3.3 给出的 age 数据

(a)画一个宽度为 10 的等宽直方图。

(b)为如下每种选样技术勾画例子:SRSWOR, SRSWR, 聚类选择，分层选择。使用长度为 5

的样本和层"young"，"middle_aged"和"senior"。

3.8 对如下问题，使用伪代码或你喜欢用的程序设计语言，给出算法：

(a)对于分类数据，基于给定模式中属性的不同值得个数，自动产生概念分层。

(b)对于数值数据，基于等宽划分规则，自动产生概念分层。

(c)对于数值数据，基于等深划分规则，自动产生概念分层。

4.1 列出和描述说明数据挖掘任务的五种原语。

4.2 说明为什么概念分层在数据挖掘中是有用的。

4.3 概念分层的四种主要类型是：模式分层，集合分组分层，操作导出的分层和基于规则的

分层。

a)简略定义每种类型的分层。

b)对于每种类型的分层，给出一个不在本章中出现的例子。

4.4 考虑下面的由 Big-University 的学生数据库挖掘的关联规则 major

(X,"science")=>status(X,"undergrad") (4.8)

假定学校的学生人数(即任务相关的元组数)为 5000，其中 56%的在校本科生的专业是科

学， 64%的学生注册本科学位课程， 70%的学生主修科学。

a) 计算规则(4.8)的支持度和置信度。

b)考虑下面的规则(4.9)：

major(X,"biology")=>status(X,"undergrad") [17%,80%] (4.9)

假定主攻科学的学生 30%专业为 biology。与规则(4.8)对比，你认为规则(4.9)新颖吗？解

释你的结论。

4.5 语句可以用于挖掘特征化，区分，关联和分类规则。为聚类的挖掘提出一个语法定义。

剩余10页未读，继续阅读

Cheng-Dashi

粉丝: 106
资源: 1万+

数据仓库与数据挖掘：习题解析

数据仓库与数据挖掘习题范文.docx

数据仓库与数据挖掘习题答案.docx

基于springboot共享经济背景下校园闲置物品交易平台源码数据库文档.zip

基于WoodandBerry1和非耦合控制WoodandBerry2来实现控制木材和浆果蒸馏柱控制Simulink仿真.rar

emcopy042002.zip

(源码)基于Python的遥感图像语义分割系统.zip

(源码)基于Spring Boot的博客管理系统.zip

基于springboot的中医院问诊系统源码数据库文档.zip

基于SpringBoot+Vue的校园篮球联赛管理系统源码数据库文档.zip

基于springboot框架药品购买系统源码数据库文档.zip

最新资源