数据挖掘考试精选题目：聚类与关联规则应用

版权申诉

25 浏览量更新于2024-08-27 收藏 95KB DOC 举报

数据挖掘是一门涉及从大量数据中提取有价值信息和知识的技术，通过各种数据分析方法来识别模式和趋势。本考试题集包含了数据挖掘中的基本概念和经典案例，旨在测试学生对数据挖掘基础理论的理解。选择题部分： 1. 当面临无标签数据时，我们通常采用聚类（B）技术，目的是自动将数据分为相似的组，而无需事先知道每个数据点的具体类别。聚类有助于发现数据内在的结构和组织模式。 2. 在层次聚类中，全链（或称为单链和组平均方法的结合）将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，这是一种凝聚层次聚类技术，它强调了簇内部的紧密度。 3. "啤酒与尿布试验"是关联规则分析（C）的一个著名案例，它揭示了顾客购买行为中的有趣关联，即同时购买啤酒和尿布的概率较高，这是通过查找频繁模式来实现的。 4. 关于K均值和DBSCAN的对比，不正确的说法是：均值可以发现不是明显分离的簇且能处理重叠，而DBSCAN不会合并有重叠的簇。DBSCAN确实可以处理非球形和不同大小的簇，而K均值对此要求更高。 5. Ward's Method对噪声点和离群点的敏感度较小，擅长球状簇，但选项A错误在于它可能对某些异常情况敏感。选项C提到的平方误差邻近度是正确的，但这与组平均法相似性不直接对应。 6. 层次聚类的问题中，全局优化目标函数、处理球状簇和不同大小簇的能力是正确的，但Max方法对噪声敏感是错误的，因为它可能导致过度细分。 7. 凝聚层次聚类的错误说法是算法具有全局优化目标函数，因为这通常是层次聚类的特点。空间复杂度为[pic]的信息不完整，无法判断，但通常空间复杂度与算法的数据依赖有关。 8. 规则{牛奶，尿布}→{啤酒}的支持度是基于项集中包含该规则的事务数量，置信度则是规则出现的频次除以包含前提的事务频率。具体数值需要根据表格中的数据计算得出。 10. 图表题未提供，但从问题描述看，凝聚聚类中簇间相似度使用MAX计算，第二步合并的簇应该是邻近度最高的两个，根据题目给出的数据，可能选择B，{3}和{4,5}合并，因为{3}与这两个簇的距离更接近。填空题： 1. 属性包括的四种类型通常指定量属性（数值型）、定性属性（类别型）、顺序属性（有序的类别）和布尔属性（真/假）。 2. GroupAverage方法是凝聚层次聚类的一种，它定义两个簇的邻近度为不同簇所有点对邻近度的平均值。这些题目涵盖了数据挖掘的基本概念、聚类方法、关联规则分析、层次聚类的优缺点以及不同类型属性的理解。通过解答这些问题，学生可以检验自己对数据挖掘技术核心原理的掌握程度。

数据挖掘考试题

一．选择题

1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数

据相分离(

)

A.分类 B.聚类 C.关联分析 D.主成分分析

2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚

类技术。

(单链) (全链) C.组平均方法

3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。

A 分类 B 预测 C 关联规则分析 D 聚类

4.关于 K 均值和 DBSCAN 的比较，以下说法不正确的是( )

均值丢弃被它识别为噪声的对象，而 DBSCAN 一般聚类所有对象。

均值使用簇的基于原型的概念，DBSCAN 使用基于密度的概念。

均值很难处理非球形的簇和不同大小的簇，DBSCAN 可以处理不同大小和不同形状的簇

均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是 DBSCAN 会合并有重

叠的簇

5.下列关于 Ward’s Method 说法错误的是：( )

A.对噪声点和离群点敏感度比较小

B.擅长处理球状的簇

C.对于 Ward 方法，两个簇的邻近度定义为两个簇合并时导致的平方误差

D.当两个点之间的邻近度取它们之间距离的平方时，Ward 方法与组平均非常相似

6.下列关于层次聚类存在的问题说法正确的是：( )

A.具有全局优化目标函数

B.Group Average 擅长处理球状的簇

C.可以处理不同大小簇的能力

D.Max 对噪声点和离群点很敏感

7.下列关于凝聚层次聚类的说法中，说法错误的事：( )

A.一旦两个簇合并，该操作就不能撤销

B.算法的终止条件是仅剩下一个簇

下载后可阅读完整内容，剩余7页未读，立即下载

aks2100

粉丝: 0
资源: 1万+

数据挖掘考试精选题目：聚类与关联规则应用

数据挖掘考试题库.doc

百度2014校园招聘笔试试题-数据挖掘笔试题.doc

数据仓库与数据挖掘习题答案.doc

数据仓库与数据挖掘考试习题汇总.doc

大数据时代下的数据挖掘试题及答案.doc

数据挖掘与数据仓库考试题a.doc

STM32F4系列W5500；（HAL库版本、W5500官网最新驱动）

iMX6ULL采用Yocto构建嵌入式Linux系统

国内地图资源：2022标准地图、Excel分色、可编辑、审图号、矢量、交通等大合集-最新出炉.zip

坦克炮塔：Tanks Turrets - PRO v1.0

最新资源