距离度量详解:从欧氏到曼哈顿,从汉明到杰卡德

4星 · 超过85%的资源 需积分: 7 31 下载量 132 浏览量 更新于2024-07-25 1 收藏 372KB PPT 举报
本文主要介绍了多种距离度量方法,包括常用的欧氏距离、标准化欧氏距离、曼哈顿距离、切比雪夫距离、明可夫斯基距离、哈拉比斯距离、汉明距离、杰卡德距离、相关距离以及hausdorf距离和Earth Mover’s distance。这些距离度量在数据挖掘、机器学习等领域有着广泛的应用,用于评估不同对象之间的相似性或差异性。 **欧氏距离(Euclidean Distance)** 是最直观的距离计算方式,源于二维空间中两点之间的直线距离。对于具有相同尺度的特征,它是最简单的度量方式。欧氏距离的计算公式为两个点的各个维度差的平方和的平方根。例如,在二维平面上,两个点(a, b)和(c, d)的欧氏距离为 sqrt((a-c)^2 + (b-d)^2)。在三维空间中,公式类似,增加了一个维度的差值平方项。 **标准化欧氏距离(Standardized Euclidean Distance)** 在特征尺度不一致时使用,通过将特征标准化到零均值和单位方差,使得不同特征在度量时具有相同的权重。 **曼哈顿距离(Manhattan Distance)** 或者叫城市街区距离,是沿着坐标轴方向的绝对距离之和,公式为 |x1 - x2| + |y1 - y2|。 **切比雪夫距离(Chebyshev Distance)** 是所有坐标轴方向上最大绝对距离,即 max(|x1 - x2|, |y1 - y2|)。 **明可夫斯基距离(Minkowski Distance)** 是包含欧氏距离和曼哈顿距离的一般形式,其中p值可以调整以适应不同的情况。当p=2时,即为欧氏距离;当p=1时,即为曼哈顿距离。 **哈拉比斯距离(Mahalanobis Distance)** 考虑了数据的协方差,更适用于处理有相关性的特征,尤其适用于消除变量之间的共线性。 **汉明距离(Hamming Distance)** 用于衡量两个等长字符串之间的差异,表示需要改变多少位才能将一个字符串变成另一个。 **杰卡德距离(Jaccard Distance)** 用于衡量集合之间的相似度,定义为两个集合交集大小与并集大小的比值的补数。 **相关距离(Correlation Distance)** 基于特征之间的相关系数来度量两个向量的相似性。 **Hausdorff距离** 和 **Earth Mover’s Distance (EMD)** 更适用于不规则形状的比较,如图像和几何形状,它们考虑了从一个分布到另一个分布的最小“工作量”。 在MATLAB中,计算欧氏距离通常使用 `pdist` 函数,它可以对矩阵中的每个样本进行两两之间的距离计算。例如,给定一个2维向量数组X = [0, 0; 1, 0; 0, 2],`pdist(X, 'euclidean')` 将返回这三个向量之间的欧氏距离。