数据挖掘实战:规范化方法与向量相似度计算
需积分: 10 18 浏览量
更新于2024-09-09
收藏 323KB DOCX 举报
在本次数据挖掘习题中,主要涉及了数据预处理和相似度计算的相关概念。首先,关于年龄属性(age)的数据预处理,习题要求使用不同的规范化方法:
(a) **Min-Max规范化**:这种方法将数值映射到一个固定范围,如[0,1]。对于年龄值35,通过(35 - min(age)) / (max(age) - min(age))转换,由于没有给出age范围,但按照一般做法,13可能是最小值,70可能是最大值,计算结果大约为0.44。
(b) **Z-Score规范化**:这个方法将数据标准化到均值为0,标准差为1的分布。35岁对应的z-score为(35 - 平均值) / 标准差,如果标准偏差为12.94,平均值未知但可以先算出,然后求z-score,结果将取决于平均值。
(c) **小数定标规范化**:这种规范化的目的是将数据转换成小数点后一定位数的形式,例如千分之一。具体转换需要知道原始数据的最小和最大值,但没有给出,假设最小为13,最大为70,35将转换为(35 - 13) * 1000 / (70 - 13)。
(d) 对于选择哪种方法,这通常取决于数据的特点和应用需求。如果年龄分布接近正态分布,Z-Score可能更合适;若数据范围较大,Min-Max适合避免极端值的影响;小数定标规范化则适合对精度有特定要求的情况。选择时应考虑数据的分布和后续分析的稳定性。
接着,习题涉及向量的相似度计算:
- 对于向量x和y的比较,涉及到余弦相似度、相关系数、欧几里得距离等指标。余弦相似度衡量的是方向的相似性,相关系数反映线性关系,欧几里得距离则为点到点的最短距离。具体数值在各部分给出。
- Jaccard系数适用于二元变量,它计算的是两个集合的交集除以并集,对于非二元数据,如类别或字符串,不适合。
最后,习题讨论了不同变量类型间相异度的计算方法:
- 对称二元变量(如是否拥有某种属性)使用Jaccard系数衡量。
- 分类变量通过匹配属性值计算相异度。
- 比例标度变量(如测量值)先进行对数变换,然后用相同的方法计算。
- 数值型变量直接用欧几里得或曼哈顿距离等公式计算。
针对给定的向量对象p1和p2,计算了各种距离度量:
- 欧几里得距离:计算两点间直线距离,这里未给出具体的计算结果。
- 曼哈顿距离:计算两点间沿坐标轴方向的距离之和。
- 切比雪夫距离:取两个向量对应元素的最大绝对差值。
- 闵可夫斯基距离:一般形式下计算,这里x=3意味着采用第3次幂的平均距离。
总体上,本习题涵盖了数据预处理中的规范化方法,以及多种相似度和距离度量在不同场景的应用,有助于理解和实践数据挖掘中的数据准备和模式识别技巧。
2011-06-23 上传
2010-12-15 上传
2013-06-18 上传
2012-12-31 上传
2021-10-08 上传
2023-02-10 上传
哇西米卡
- 粉丝: 1
- 资源: 3
最新资源
- WPF渲染层字符绘制原理探究及源代码解析
- 海康精简版监控软件:iVMS4200Lite版发布
- 自动化脚本在lspci-TV的应用介绍
- Chrome 81版本稳定版及匹配的chromedriver下载
- 深入解析Python推荐引擎与自然语言处理
- MATLAB数学建模算法程序包及案例数据
- Springboot人力资源管理系统:设计与功能
- STM32F4系列微控制器开发全面参考指南
- Python实现人脸识别的机器学习流程
- 基于STM32F103C8T6的HLW8032电量采集与解析方案
- Node.js高效MySQL驱动程序:mysqljs/mysql特性和配置
- 基于Python和大数据技术的电影推荐系统设计与实现
- 为ripro主题添加Live2D看板娘的后端资源教程
- 2022版PowerToys Everything插件升级,稳定运行无报错
- Map简易斗地主游戏实现方法介绍
- SJTU ICS Lab6 实验报告解析