数据挖掘考试重点：相似度度量与决策树分析

需积分: 0 96 浏览量更新于2024-08-04 1 收藏 41KB DOCX 举报

"该资源是一份关于机器学习与知识发现的期末考试试卷，涉及概率计算、数据对象间相似性度量、决策树的最小描述长度原则（MDL）以及构建集成分类器的方法等内容。试卷还给出了一个实际的天气分类问题，要求选择最佳分类属性并构建决策树模型，同时应用朴素贝叶斯方法进行预测。" 在这份机器学习与知识发现的期末考试中，主要涵盖了以下几个关键知识点： 1. **概率计算**：题目中计算了两个条件概率，即给定条件下事件发生的概率。`P(no|x)` 和 `P(yes|x)` 分别表示在某一条件下否定事件和肯定事件的概率。这是理解和应用贝叶斯定理的基础，常用于分类任务和预测模型。 2. **数据对象间相似性度量**：这部分涉及到三个不同的相似性度量方法： - **Jaccard相似系数**：用于衡量两个集合的相似性，计算公式为两个集合交集大小除以并集大小。 - **余弦相似度**：在向量空间模型中，衡量两个非零向量之间的角度，计算公式为两个向量的点积除以它们模长的乘积。 - **皮尔森相关系数**：衡量两个变量线性相关程度的指标，其值范围在-1到1之间，1表示完全正相关，-1表示完全负相关。在文本数据相似性度量中，Jaccard和余弦相似度通常更适用，因为它们不依赖于变量的度量单位或尺度，而皮尔森相关则对异常值敏感。 3. **最小描述长度原则（MDL）**：在决策树构建中，MDL原则用于选择最优决策树。总描述长度包括决策树结构的描述成本和数据在树上的编码成本。在给定的例子里，通过比较两棵决策树的总代价来确定哪一棵更好。 4. **集成分类器**：如bagging、boosting和stacking等方法，可以结合多个分类器的预测结果，提高整体性能。这是因为单个分类器可能会有偏差或方差问题，而集成可以减少这些误差，提供更稳定和准确的预测。 5. **决策树构建**：基于信息增益选择最佳属性，例如在天气分类问题中，选择具有最大信息增益的属性作为划分标准。信息增益衡量的是引入一个属性分割数据集后，数据的纯度提升程度。 6. **朴素贝叶斯方法**：这是一种基于贝叶斯定理和特征条件独立假设的分类方法。在给定的测试样本中，可以利用训练数据的概率分布来预测该样本的类别。试卷中的这些问题展示了机器学习中的基础概念和应用，包括概率、相似性度量、模型选择、集成学习和特定算法（如决策树和朴素贝叶斯）的实际运用。通过解答这些问题，学生可以加深对这些概念的理解，并提升解决实际问题的能力。

- 1 -

一．数据对象间的相似性度量计算（8 分）

(1) a=(1, 1, 0, 1, 1, 0), b=(0,1,1,0,1,0), c=(1,1,3,3), d=(3,3,1,1), 计算

i. a, b 的 Jaccard 相似系数（Jaccard Cofficient）

ii. c, d 向量空间余弦相似度（Cosine Similarity）

iii. c, d 的皮尔森相关系数（Pearson Correlation Cofficient）

解：

Jaccard

(

a,b

)

2/5

cos

(

c,d

)

‖

=3/5

corr

(

c,d

)

―

∑

―

(

―

)

―

∑

―

∑

―

(

―

)

4/3

―

(2) 以上三种度量方法，哪些方法比较适合度量文本数据的相似性？简要说

明。

答： Jaccard 和 Cosine。。。

二．考虑下图的决策树。假设产生决策树的数据集包含 16 个二元属性三个分

类 C

、C

和 C

。根据最小描述长度原则（MDL）计算每棵决策树的总描述长

度。

 树的整体描述长度由下式给出：

Cost(tree, data) = Cost(tree) + Cost(data | tree)

 树的每个内部节点用划分属性的 ID 进行编码。如果有 m 个属性，为每

个属性编码的代价是 log

(m)个二进位。

 每个叶节点使用与之相关联的类的 ID 编码。如果有 k 个类，为每个类编

码的代价是 log

(k)个二进位。

 Cost(tree) 是对决策树的所有结点编码的开销。为了简化计算，可以假设

决策树的总开销是对每个内部结点和叶结点编码开销的总和。

 Cost( data|tree) 是对决策树在训练集上分类错误编码的开销。每个错误

用 log

(n)个二进位编码，其中 n 是训练实例的总数。

根据 MDL 原则，哪棵决策树更好？（10 分）

决策树 a 的总代价：2× 4+3× 2+7× log2 n = 14+7 log2 n.

决策树 b 的总代价： 4× 4+5× 2+4×log2 n = 26+4 log2 n.

根据 MDL 原则，

若 n<16。树 a 好；

若 n>16. 树 b 好；

若 N=16，一样好

三．请简述构建组合（集成）分类器的几种方法，并说明集成分类器能够改

下载后可阅读完整内容，剩余3页未读，立即下载

df595420469

粉丝: 32
资源: 310

数据挖掘考试重点：相似度度量与决策树分析

西安邮电大学概率论期末考试卷子2019-2020

山东大学软件学院机器学习期末复习指南

机器学习期末复习讲义与试题解析

六年级下语文期末考试题-学期追踪_12-13河北省涿州市（无答案）.doc

成都信息工程大学期末考试卷子复习-线性代数.zip

《工业机器人技术概论》期末考试试卷A卷及答案 (2).pdf

2021年部编版三年级道德与法治上册期末考试题及答案.pdf

2021年部编人教版六年级道德与法治上册期末考试题(及答案).pdf

线性代数期末试卷附加答案.pdf

python大数据与挖掘技术期末考试习题

最新资源