数据挖掘:对象相异度与相似度解析
需积分: 0 154 浏览量
更新于2024-09-07
收藏 52KB DOCX 举报
"数据挖掘导论"的2.4小节主要探讨了数据对象之间的相似度和相异度计算,涉及多个数学和数据挖掘的概念,包括闵可夫斯基距离、非度量的相异度、相似度度量、邻近性度量、相关性以及邻近度计算问题。
1、单属性和多属性对象的相异度:
在数据挖掘中,相异度是衡量两个数据对象之间差异程度的指标。单属性对象的相异度通常比较直观,而多属性对象的相异度计算则复杂得多。闵可夫斯基距离是一个通用的多属性相异度计算方法,其参数r可以调整以适应不同的距离度量,例如r=1对应曼哈顿距离,r=2对应欧几里得距离,而r趋于无穷大时则得到上确界距离,即最大属性差。
2、非度量的相异度:
非度量的相异度不满足度量空间的所有性质,例如集合差就是一个例子。通过修改定义,可以使其满足度量的性质。另一个例子是时间的相异度,需要特殊处理以符合度量要求。
3、数据对象的相似度:
相似度是相异度的对偶概念,描述对象间的相似程度。非对称性相似度可以通过选择合适的参数变为对称的。例如,通过设置某个阈值,可以使得两个对象的相似度是对称的。
4、邻近性度量:
邻近性度量是评估对象间距离的方法,包括二元属性的相似性度量。简单匹配系数和Jaccard系数是常见的度量方式。简单匹配系数考虑了对象间属性的一致性,而Jaccard系数则适用于处理非对称的二元属性,减少了0-0匹配的影响。余弦相似度进一步扩展了这一概念,适用于非二元向量,如文档数据,通过计算向量夹角的余弦值来度量相似度。
5、相关性:
相关性度量了两个变量之间的线性关系,皮尔森相关系数是常见的一种。Bregman散度则是一种衡量失真的方法,常用于相异性函数。
6、邻近度计算问题:
在处理具有不同值域或相关属性的数据时,需要进行规范化,如使用Mahalanobis距离,它考虑了属性的相关性。对于异种对象的相似度计算,需要针对每个属性独立计算相似度并整合到统一的[0,1]区间。
总结起来,本文件提供了数据挖掘中衡量数据对象相似度和相异度的多种方法,涵盖了从基本的距离度量到更复杂的相似度和相关性计算,这些都是数据挖掘和机器学习领域中不可或缺的基础知识。
2022-12-18 上传
2023-04-01 上传
2021-04-29 上传
2021-12-23 上传
2022-06-05 上传
2022-06-20 上传
2022-06-05 上传
2022-06-20 上传
2023-03-06 上传
Leonie_
- 粉丝: 21
- 资源: 5
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析