数据挖掘考试:关联分析重点与解题指南

版权申诉
0 下载量 76 浏览量 更新于2024-08-22 收藏 44KB DOC 举报
"数据挖掘考试题目-关联分析.doc" 关联分析是数据挖掘中的一种重要方法,主要用于发现数据集中不同项目之间的频繁共现模式,从而揭示潜在的关联或规律。关联分析通常应用于购物篮分析,例如在超市购物数据中找出哪些商品经常一起被购买。在大数据时代,迈尔-舍恩伯格提出,我们应该更加关注数据的相关性而非因果关系。 1. 关联分析的选择题部分涉及了多种数据挖掘和算法概念: - 问题1中,购物篮分析是关联分析的典型应用,因此答案是B。 - 问题2中,Apriori算法是一种直接用于挖掘数据相关关系的算法,答案是D。 - 置信度是衡量关联规则强度的指标,表示在已知前件的情况下后件发生的概率,答案是B。 - Apriori算法通过剪枝策略加速挖掘过程,答案是B。 - 减小硬盘读写速率会降低Apriori算法的效率,答案是D。 - Apriori算法使用格结构和哈希树来存储和检索频繁项,答案是C。 - 非频繁模式是指其支持度低于阈值的项集,答案是A。 - 频繁闭项集可以无损还原出频繁项集,答案是B。 - HashTree在Apriori中用于加速查找,答案是C。 - SPSSModeler、Weka和Knime都是数据挖掘软件,而Apache Spark主要用作大数据处理框架,答案是C。 2. 填空题部分考察了关联分析的基本概念和技术细节: - 关联关系可以用频度矩阵或关联矩阵来表示。 - 评估关联规则的指标包括支持度和置信度。 - 常见的关联规则挖掘算法有Apriori、FP-Growth等。 - 购物篮分析中的数据以事务(Transaction)形式存在,每个事务是一组购买的商品。 - 如果一个项集满足最小支持度,我们称其为频繁项集。 - 同时满足最小支持度和最小置信度的规则称为强关联规则。 - 在回归与相关分析中,负相关指的是因变量值随自变量值增大而减小。 - 极大频繁项集不包含频繁项集的全信息,因为它只包含最大支持度的项。 - Apriori算法采用宽度优先的方式逐层扫描数据以发现频繁项集。 关联分析的核心在于发现频繁项集和挖掘强关联规则。频繁项集是指在数据集中出现次数超过预设阈值的项的集合;而强关联规则是基于频繁项集生成的,它描述了两个或更多项之间具有显著的共现概率。在实际应用中,关联分析可用于市场篮子分析、推荐系统、网络日志分析等多种场景,帮助决策者发现潜在的商机和行为模式。