数据挖掘：对象相异度与相似度解析

需积分: 0 138 浏览量更新于2024-09-07 收藏 52KB DOCX 举报

"数据挖掘导论"的2.4小节主要探讨了数据对象之间的相似度和相异度计算，涉及多个数学和数据挖掘的概念，包括闵可夫斯基距离、非度量的相异度、相似度度量、邻近性度量、相关性以及邻近度计算问题。 1、单属性和多属性对象的相异度：在数据挖掘中，相异度是衡量两个数据对象之间差异程度的指标。单属性对象的相异度通常比较直观，而多属性对象的相异度计算则复杂得多。闵可夫斯基距离是一个通用的多属性相异度计算方法，其参数r可以调整以适应不同的距离度量，例如r=1对应曼哈顿距离，r=2对应欧几里得距离，而r趋于无穷大时则得到上确界距离，即最大属性差。 2、非度量的相异度：非度量的相异度不满足度量空间的所有性质，例如集合差就是一个例子。通过修改定义，可以使其满足度量的性质。另一个例子是时间的相异度，需要特殊处理以符合度量要求。 3、数据对象的相似度：相似度是相异度的对偶概念，描述对象间的相似程度。非对称性相似度可以通过选择合适的参数变为对称的。例如，通过设置某个阈值，可以使得两个对象的相似度是对称的。 4、邻近性度量：邻近性度量是评估对象间距离的方法，包括二元属性的相似性度量。简单匹配系数和Jaccard系数是常见的度量方式。简单匹配系数考虑了对象间属性的一致性，而Jaccard系数则适用于处理非对称的二元属性，减少了0-0匹配的影响。余弦相似度进一步扩展了这一概念，适用于非二元向量，如文档数据，通过计算向量夹角的余弦值来度量相似度。 5、相关性：相关性度量了两个变量之间的线性关系，皮尔森相关系数是常见的一种。Bregman散度则是一种衡量失真的方法，常用于相异性函数。 6、邻近度计算问题：在处理具有不同值域或相关属性的数据时，需要进行规范化，如使用Mahalanobis距离，它考虑了属性的相关性。对于异种对象的相似度计算，需要针对每个属性独立计算相似度并整合到统一的[0,1]区间。总结起来，本文件提供了数据挖掘中衡量数据对象相似度和相异度的多种方法，涵盖了从基本的距离度量到更复杂的相似度和相关性计算，这些都是数据挖掘和机器学习领域中不可或缺的基础知识。

Leonie_

粉丝: 21
资源: 5

数据挖掘：对象相异度与相似度解析

《商业数据挖掘》教学大纲.docx

数据挖掘CHAPTER8聚类分析.docx

数据挖掘技术知识点梳理.docx

数据挖掘化功大法（7）——矩阵.docx

最全的聚类知识.docx

蚁群聚类算法研究及应用.docx

最全的聚类知识(DOC).docx

蚁群聚类算法研究及应用 (3).docx

聚类分析及其在图像处理上的应用 (2).docx

(word完整版)层次聚类分析算法的思考及实现.docx

最新资源