数据挖掘:对象相异度与相似度解析

需积分: 0 0 下载量 154 浏览量 更新于2024-09-07 收藏 52KB DOCX 举报
"数据挖掘导论"的2.4小节主要探讨了数据对象之间的相似度和相异度计算,涉及多个数学和数据挖掘的概念,包括闵可夫斯基距离、非度量的相异度、相似度度量、邻近性度量、相关性以及邻近度计算问题。 1、单属性和多属性对象的相异度: 在数据挖掘中,相异度是衡量两个数据对象之间差异程度的指标。单属性对象的相异度通常比较直观,而多属性对象的相异度计算则复杂得多。闵可夫斯基距离是一个通用的多属性相异度计算方法,其参数r可以调整以适应不同的距离度量,例如r=1对应曼哈顿距离,r=2对应欧几里得距离,而r趋于无穷大时则得到上确界距离,即最大属性差。 2、非度量的相异度: 非度量的相异度不满足度量空间的所有性质,例如集合差就是一个例子。通过修改定义,可以使其满足度量的性质。另一个例子是时间的相异度,需要特殊处理以符合度量要求。 3、数据对象的相似度: 相似度是相异度的对偶概念,描述对象间的相似程度。非对称性相似度可以通过选择合适的参数变为对称的。例如,通过设置某个阈值,可以使得两个对象的相似度是对称的。 4、邻近性度量: 邻近性度量是评估对象间距离的方法,包括二元属性的相似性度量。简单匹配系数和Jaccard系数是常见的度量方式。简单匹配系数考虑了对象间属性的一致性,而Jaccard系数则适用于处理非对称的二元属性,减少了0-0匹配的影响。余弦相似度进一步扩展了这一概念,适用于非二元向量,如文档数据,通过计算向量夹角的余弦值来度量相似度。 5、相关性: 相关性度量了两个变量之间的线性关系,皮尔森相关系数是常见的一种。Bregman散度则是一种衡量失真的方法,常用于相异性函数。 6、邻近度计算问题: 在处理具有不同值域或相关属性的数据时,需要进行规范化,如使用Mahalanobis距离,它考虑了属性的相关性。对于异种对象的相似度计算,需要针对每个属性独立计算相似度并整合到统一的[0,1]区间。 总结起来,本文件提供了数据挖掘中衡量数据对象相似度和相异度的多种方法,涵盖了从基本的距离度量到更复杂的相似度和相关性计算,这些都是数据挖掘和机器学习领域中不可或缺的基础知识。