关联分析:数据挖掘考试重点与Apriori算法详解

版权申诉
0 下载量 177 浏览量 更新于2024-08-22 收藏 32KB PDF 举报
数据挖掘考试题目——关联分析主要考察了关于数据挖掘中的关联分析方法和概念。以下是详细的知识点解析: 一、选择题解析: 1. 关联分析是一种数据挖掘技术,用于发现数据集中项目之间的有趣关系,如购物篮分析(选项B),它研究消费者购买行为中的模式。其他选项如CPU性能预测、自动判断鸢尾花类别和股票趋势建模更多涉及的是预测或分类问题,而非关联分析。 2. 在大数据时代,维克托·迈尔-舍恩伯格强调的是数据的相关性而非因果关系。数据相关性的挖掘可通过Apriori算法(选项D),这是一种基于频繁模式挖掘的算法,用于发现频繁项集和关联规则。 3. 置信度是衡量关联规则强度的一个指标,它表示支持项集出现时另一个项集也出现的概率,因此不是简洁性(选项A)、确定性(选项B)或实用性(选项C)的度量,而是相关性的一种度量。 4. Apriori算法的加速过程通常通过剪枝(选项B)策略来实现,即在搜索过程中去除不可能产生频繁模式的候选集,减少不必要的计算。 5. Apriori算法的效率受支持度阈值、项数和事务数的影响。支持度阈值增大会增加筛选的复杂性,降低效率;项数减少会简化搜索空间,提高效率;事务数减少也会有利于提升效率。减小硬盘读写速率直接影响数据处理速度,也是效率下降的因素。 6. Apriori算法利用格结构进行频繁模式的搜索,同时利用哈希树进行快速查找,以减少搜索时间(选项C)。 7. 非频繁模式是指那些在给定的数据集中不满足用户设定的支持度阈值的模式,即它们的频率低于预设标准,但可能仍具有某些研究价值(选项A)。 8. 频繁项集、频繁闭项集和极大频繁项集之间存在递进关系:极大频繁项集是所有频繁项集中支持度最大的,而频繁闭项集是从频繁项集中去除某些元素后形成的,理论上,极大频繁项集可以从频繁闭项集中无损地重构出来(选项A正确)。 9. HashTree在Apriori算法中作为数据结构用于加速查找过程,通过哈希函数将数据快速定位,从而提高搜索效率(选项C)。 10. SPSSModeler、Weka和Knime都是常用的数据挖掘工具,而ApacheSpark主要用于大规模数据处理,所以选项C不属于纯粹的数据挖掘软件。 二、填空题解析: 1. 关联分析中,表示关联关系的方法主要有频繁模式和关联规则。 2. 关联规则的评价度量主要有支持度(出现频率)和置信度(条件概率)。 3. 主要的关联规则挖掘算法有Apriori算法和FP-Growth算法。 4. 购物篮分析中,数据是以事务(顾客的购买记录)的形式呈现。 5. 满足最小支持度的项集被称为频繁项集。 6. 同时满足最小支持度和最小置信度的关联规则被称为强关联规则。 7. 回归与相关分析中的正相关或负相关现象,指的是因变量值随自变量值的增减变化趋势。 关联分析是数据挖掘中的核心内容,涵盖了从理论概念(如Apriori算法、关联规则和哈希树)到具体应用(如购物篮分析)以及相关术语的理解。