数据挖掘:对象相异度与相似度解析
需积分: 0 138 浏览量
更新于2024-09-07
收藏 52KB DOCX 举报
"数据挖掘导论"的2.4小节主要探讨了数据对象之间的相似度和相异度计算,涉及多个数学和数据挖掘的概念,包括闵可夫斯基距离、非度量的相异度、相似度度量、邻近性度量、相关性以及邻近度计算问题。
1、单属性和多属性对象的相异度:
在数据挖掘中,相异度是衡量两个数据对象之间差异程度的指标。单属性对象的相异度通常比较直观,而多属性对象的相异度计算则复杂得多。闵可夫斯基距离是一个通用的多属性相异度计算方法,其参数r可以调整以适应不同的距离度量,例如r=1对应曼哈顿距离,r=2对应欧几里得距离,而r趋于无穷大时则得到上确界距离,即最大属性差。
2、非度量的相异度:
非度量的相异度不满足度量空间的所有性质,例如集合差就是一个例子。通过修改定义,可以使其满足度量的性质。另一个例子是时间的相异度,需要特殊处理以符合度量要求。
3、数据对象的相似度:
相似度是相异度的对偶概念,描述对象间的相似程度。非对称性相似度可以通过选择合适的参数变为对称的。例如,通过设置某个阈值,可以使得两个对象的相似度是对称的。
4、邻近性度量:
邻近性度量是评估对象间距离的方法,包括二元属性的相似性度量。简单匹配系数和Jaccard系数是常见的度量方式。简单匹配系数考虑了对象间属性的一致性,而Jaccard系数则适用于处理非对称的二元属性,减少了0-0匹配的影响。余弦相似度进一步扩展了这一概念,适用于非二元向量,如文档数据,通过计算向量夹角的余弦值来度量相似度。
5、相关性:
相关性度量了两个变量之间的线性关系,皮尔森相关系数是常见的一种。Bregman散度则是一种衡量失真的方法,常用于相异性函数。
6、邻近度计算问题:
在处理具有不同值域或相关属性的数据时,需要进行规范化,如使用Mahalanobis距离,它考虑了属性的相关性。对于异种对象的相似度计算,需要针对每个属性独立计算相似度并整合到统一的[0,1]区间。
总结起来,本文件提供了数据挖掘中衡量数据对象相似度和相异度的多种方法,涵盖了从基本的距离度量到更复杂的相似度和相关性计算,这些都是数据挖掘和机器学习领域中不可或缺的基础知识。
2022-12-18 上传
2023-04-01 上传
2021-04-29 上传
2021-12-23 上传
2022-06-05 上传
2022-06-20 上传
2022-06-05 上传
2022-06-20 上传
2023-03-06 上传
Leonie_
- 粉丝: 21
- 资源: 5
最新资源
- Angular程序高效加载与展示海量Excel数据技巧
- Argos客户端开发流程及Vue配置指南
- 基于源码的PHP Webshell审查工具介绍
- Mina任务部署Rpush教程与实践指南
- 密歇根大学主题新标签页壁纸与多功能扩展
- Golang编程入门:基础代码学习教程
- Aplysia吸引子分析MATLAB代码套件解读
- 程序性竞争问题解决实践指南
- lyra: Rust语言实现的特征提取POC功能
- Chrome扩展:NBA全明星新标签壁纸
- 探索通用Lisp用户空间文件系统clufs_0.7
- dheap: Haxe实现的高效D-ary堆算法
- 利用BladeRF实现简易VNA频率响应分析工具
- 深度解析Amazon SQS在C#中的应用实践
- 正义联盟计划管理系统:udemy-heroes-demo-09
- JavaScript语法jsonpointer替代实现介绍