数据挖掘实战:规范化方法与向量相似度计算

需积分: 10 1 下载量 18 浏览量 更新于2024-09-09 收藏 323KB DOCX 举报
在本次数据挖掘习题中,主要涉及了数据预处理和相似度计算的相关概念。首先,关于年龄属性(age)的数据预处理,习题要求使用不同的规范化方法: (a) **Min-Max规范化**:这种方法将数值映射到一个固定范围,如[0,1]。对于年龄值35,通过(35 - min(age)) / (max(age) - min(age))转换,由于没有给出age范围,但按照一般做法,13可能是最小值,70可能是最大值,计算结果大约为0.44。 (b) **Z-Score规范化**:这个方法将数据标准化到均值为0,标准差为1的分布。35岁对应的z-score为(35 - 平均值) / 标准差,如果标准偏差为12.94,平均值未知但可以先算出,然后求z-score,结果将取决于平均值。 (c) **小数定标规范化**:这种规范化的目的是将数据转换成小数点后一定位数的形式,例如千分之一。具体转换需要知道原始数据的最小和最大值,但没有给出,假设最小为13,最大为70,35将转换为(35 - 13) * 1000 / (70 - 13)。 (d) 对于选择哪种方法,这通常取决于数据的特点和应用需求。如果年龄分布接近正态分布,Z-Score可能更合适;若数据范围较大,Min-Max适合避免极端值的影响;小数定标规范化则适合对精度有特定要求的情况。选择时应考虑数据的分布和后续分析的稳定性。 接着,习题涉及向量的相似度计算: - 对于向量x和y的比较,涉及到余弦相似度、相关系数、欧几里得距离等指标。余弦相似度衡量的是方向的相似性,相关系数反映线性关系,欧几里得距离则为点到点的最短距离。具体数值在各部分给出。 - Jaccard系数适用于二元变量,它计算的是两个集合的交集除以并集,对于非二元数据,如类别或字符串,不适合。 最后,习题讨论了不同变量类型间相异度的计算方法: - 对称二元变量(如是否拥有某种属性)使用Jaccard系数衡量。 - 分类变量通过匹配属性值计算相异度。 - 比例标度变量(如测量值)先进行对数变换,然后用相同的方法计算。 - 数值型变量直接用欧几里得或曼哈顿距离等公式计算。 针对给定的向量对象p1和p2,计算了各种距离度量: - 欧几里得距离:计算两点间直线距离,这里未给出具体的计算结果。 - 曼哈顿距离:计算两点间沿坐标轴方向的距离之和。 - 切比雪夫距离:取两个向量对应元素的最大绝对差值。 - 闵可夫斯基距离:一般形式下计算,这里x=3意味着采用第3次幂的平均距离。 总体上,本习题涵盖了数据预处理中的规范化方法,以及多种相似度和距离度量在不同场景的应用,有助于理解和实践数据挖掘中的数据准备和模式识别技巧。