数据挖掘考试精选题目:聚类与关联规则应用

版权申诉
0 下载量 25 浏览量 更新于2024-08-27 收藏 95KB DOC 举报
数据挖掘是一门涉及从大量数据中提取有价值信息和知识的技术,通过各种数据分析方法来识别模式和趋势。本考试题集包含了数据挖掘中的基本概念和经典案例,旨在测试学生对数据挖掘基础理论的理解。 选择题部分: 1. 当面临无标签数据时,我们通常采用聚类(B)技术,目的是自动将数据分为相似的组,而无需事先知道每个数据点的具体类别。聚类有助于发现数据内在的结构和组织模式。 2. 在层次聚类中,全链(或称为单链和组平均方法的结合)将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,这是一种凝聚层次聚类技术,它强调了簇内部的紧密度。 3. "啤酒与尿布试验"是关联规则分析(C)的一个著名案例,它揭示了顾客购买行为中的有趣关联,即同时购买啤酒和尿布的概率较高,这是通过查找频繁模式来实现的。 4. 关于K均值和DBSCAN的对比,不正确的说法是:均值可以发现不是明显分离的簇且能处理重叠,而DBSCAN不会合并有重叠的簇。DBSCAN确实可以处理非球形和不同大小的簇,而K均值对此要求更高。 5. Ward's Method对噪声点和离群点的敏感度较小,擅长球状簇,但选项A错误在于它可能对某些异常情况敏感。选项C提到的平方误差邻近度是正确的,但这与组平均法相似性不直接对应。 6. 层次聚类的问题中,全局优化目标函数、处理球状簇和不同大小簇的能力是正确的,但Max方法对噪声敏感是错误的,因为它可能导致过度细分。 7. 凝聚层次聚类的错误说法是算法具有全局优化目标函数,因为这通常是层次聚类的特点。空间复杂度为[pic]的信息不完整,无法判断,但通常空间复杂度与算法的数据依赖有关。 8. 规则{牛奶,尿布}→{啤酒}的支持度是基于项集中包含该规则的事务数量,置信度则是规则出现的频次除以包含前提的事务频率。具体数值需要根据表格中的数据计算得出。 10. 图表题未提供,但从问题描述看,凝聚聚类中簇间相似度使用MAX计算,第二步合并的簇应该是邻近度最高的两个,根据题目给出的数据,可能选择B,{3}和{4,5}合并,因为{3}与这两个簇的距离更接近。 填空题: 1. 属性包括的四种类型通常指定量属性(数值型)、定性属性(类别型)、顺序属性(有序的类别)和布尔属性(真/假)。 2. GroupAverage方法是凝聚层次聚类的一种,它定义两个簇的邻近度为不同簇所有点对邻近度的平均值。 这些题目涵盖了数据挖掘的基本概念、聚类方法、关联规则分析、层次聚类的优缺点以及不同类型属性的理解。通过解答这些问题,学生可以检验自己对数据挖掘技术核心原理的掌握程度。