距离度量:欧氏距离与标准化欧氏距离解析

需积分: 7 4 下载量 149 浏览量 更新于2024-08-21 收藏 372KB PPT 举报
本文主要介绍了标准欧氏距离的定义及其在距离度量中的应用,同时列举了多种其他类型的距离度量方法,如曼哈顿距离、切比雪夫距离、明可夫斯基距离等。 标准欧氏距离是数据挖掘和机器学习中常用的一种距离度量方法,用于量化两个样本点之间的差异。它是在欧氏几何基础上定义的,适用于多维空间中的点之间的距离计算。在简单欧氏距离的基础上,标准欧氏距离考虑了数据各维度的分布不一致问题,通过标准化处理使得所有维度在同一尺度上。具体来说,对于一个样本集X,其每个元素x经过标准化处理后,其数学期望为0,方差为1。标准化过程可以用公式表示为: 标准化欧氏距离计算时,首先对每维特征进行标准化,即将每个特征减去该特征的均值,然后除以其标准差。这样处理后的数据具有零均值和单位方差,消除了原始数据各维度量纲不一的影响。标准欧氏距离的公式如下: 对于二维空间的点a(x1, y1)和b(x2, y2),它们的标准欧氏距离为: sqrt((x1 - x2)^2 + (y1 - y2)^2) 在三维空间中,点a(x1, y1, z1)和b(x2, y2, z2)的标准欧氏距离为: sqrt((x1 - x2)^2 + (y1 - y2)^2 + (z1 - z2)^2) 在MATLAB中,可以使用`pdist`函数计算欧氏距离。例如,对于向量(0, 0), (1, 0), (0, 2),可以创建一个2x3的矩阵X,然后调用`pdist(X, 'euclidean')`来获取这些向量两两之间的欧氏距离。 除了标准欧氏距离,还有其他多种距离度量方式。例如: - 曼哈顿距离(Manhattan Distance):在每个维度上分别计算绝对差的总和。 - 切比雪夫距离(Chebyshev Distance):取各个维度上绝对差的最大值。 - 明可夫斯基距离(Minkowski Distance):包括曼哈顿距离和欧氏距离作为特例,是p范数的一种形式。 - 哈拉比斯距离(Mahalanobis Distance):考虑了数据协方差的加权距离,尤其适用于异常值检测。 - 明确距离(Hamming Distance):用于离散数据,计算两个字符串在对应位置上的不同字符数量。 - 杰卡德距离(Jaccard Distance):衡量两个集合的非重叠部分占总交集的比例。 - 相关距离(Correlation Distance):基于特征之间的相关系数计算。 - Hausdorff距离:衡量集合中每个点到另一个集合中最近点的距离的最大值。 - 地球移动者距离(Earth Mover’s Distance):用于图像处理和计算机视觉,想象将一个分布转化为另一个分布所需的最小工作量。 这些距离度量方法在不同的场景和问题中各有优势,选择哪种取决于具体的应用需求和数据特性。