数据挖掘实战：规范化方法与向量相似度计算

需积分: 10 18 浏览量更新于2024-09-09 收藏 323KB DOCX 举报

在本次数据挖掘习题中，主要涉及了数据预处理和相似度计算的相关概念。首先，关于年龄属性(age)的数据预处理，习题要求使用不同的规范化方法： (a) **Min-Max规范化**：这种方法将数值映射到一个固定范围，如[0,1]。对于年龄值35，通过(35 - min(age)) / (max(age) - min(age))转换，由于没有给出age范围，但按照一般做法，13可能是最小值，70可能是最大值，计算结果大约为0.44。 (b) **Z-Score规范化**：这个方法将数据标准化到均值为0，标准差为1的分布。35岁对应的z-score为(35 - 平均值) / 标准差，如果标准偏差为12.94，平均值未知但可以先算出，然后求z-score，结果将取决于平均值。 (c) **小数定标规范化**：这种规范化的目的是将数据转换成小数点后一定位数的形式，例如千分之一。具体转换需要知道原始数据的最小和最大值，但没有给出，假设最小为13，最大为70，35将转换为(35 - 13) * 1000 / (70 - 13)。 (d) 对于选择哪种方法，这通常取决于数据的特点和应用需求。如果年龄分布接近正态分布，Z-Score可能更合适；若数据范围较大，Min-Max适合避免极端值的影响；小数定标规范化则适合对精度有特定要求的情况。选择时应考虑数据的分布和后续分析的稳定性。接着，习题涉及向量的相似度计算： - 对于向量x和y的比较，涉及到余弦相似度、相关系数、欧几里得距离等指标。余弦相似度衡量的是方向的相似性，相关系数反映线性关系，欧几里得距离则为点到点的最短距离。具体数值在各部分给出。 - Jaccard系数适用于二元变量，它计算的是两个集合的交集除以并集，对于非二元数据，如类别或字符串，不适合。最后，习题讨论了不同变量类型间相异度的计算方法： - 对称二元变量（如是否拥有某种属性）使用Jaccard系数衡量。 - 分类变量通过匹配属性值计算相异度。 - 比例标度变量（如测量值）先进行对数变换，然后用相同的方法计算。 - 数值型变量直接用欧几里得或曼哈顿距离等公式计算。针对给定的向量对象p1和p2，计算了各种距离度量： - 欧几里得距离：计算两点间直线距离，这里未给出具体的计算结果。 - 曼哈顿距离：计算两点间沿坐标轴方向的距离之和。 - 切比雪夫距离：取两个向量对应元素的最大绝对差值。 - 闵可夫斯基距离：一般形式下计算，这里x=3意味着采用第3次幂的平均距离。总体上，本习题涵盖了数据预处理中的规范化方法，以及多种相似度和距离度量在不同场景的应用，有助于理解和实践数据挖掘中的数据准备和模式识别技巧。

1. 假定用于分析的数据包含属性 age，数据元组中 age 的值如下(按递增序)：

13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。

回答以下问题：

(a) 使用 min-max 规范化，将 age 值 35 转换到[0.0，1.0]区间。

(b) 使用 z-score 规范化转换 age 值 35，其中，age 的标准偏差为 12.94 年。

(d) 指出对于给定的数据，你愿意使用哪种方法。陈述你的理由。

2. 对于下面的向量 x 和 y，计算指定的相似性或距离度量。

(a)x=(1，1，1，1)，y=(2，2，2，2) 余弦相似度、相关系数、欧几里得。

(b) x=(0，1，0，1)，y=(1，0，1，0) 余弦相似度、相关系数、欧几里得、Jaccard 系数。

答：(a) 余弦相似度、相关系数、欧几里得分别是 0.5，0，2；

(b) 余弦相似度、相关系数、欧几里得、Jaccard 系数分别是 0，1，2，0；

3. 简单地描述如何计算由以下类型的变量描述的对象间的相异度：

(a) 不对称的二元变量

(b) 分类变量

(d) 数值型变量

答：

(a) 使用 Jaccard 系数计算不对称的二元变量的相异度；

(b) 采用属性值匹配的方法(属性值匹配，相似度为 1，否则为 0)可以计算用分类变量

描述的对象间的相异度；

法来计算相异度；

(d) 可采用欧几里得距离公式或曼哈顿距离公式计算。

4.给定两个向量对象，分别表示为 p1(22，1，42，10)，p2(20，0，36，8)：

(a) 计算两个对象之间的欧几里得距离

(b) 计算两个对象之间的曼哈顿距离

(d) 计算两个对象之间的闵可夫斯基距离，用 x=3

答：

下载后可阅读完整内容，剩余6页未读，立即下载

哇西米卡

粉丝: 1
资源: 3

数据挖掘实战：规范化方法与向量相似度计算

数据挖掘习题及解答答案

天津理工大学 数据挖掘 习题

广东工业大学数据挖掘习题

数据挖掘习题解答

数据仓库及数据挖掘习题.doc

数据仓库与数据挖掘习题.pdf

数据仓库与数据挖掘习题.docx

数据挖掘习题题.doc

数据挖掘习题题.pdf

数据挖掘习题题.docx

最新资源

天津理工大学数据挖掘习题