机器学习中的六种距离公式详解：欧几里得、曼哈顿、切比雪夫等

需积分: 10 116 浏览量更新于2024-09-09 收藏 897KB PDF 举报

在机器学习领域，相似度和距离公式是衡量数据点间关系的关键工具。本文将详细介绍几种常见的距离度量方法，包括： 1. **欧几里得距离**（Euclidean Distance）：这是最基本的几何距离概念，适用于二维或三维空间，计算两点之间的直线距离，即sqrt(sum((xi - xj)^2 for i, j in zip(x, y)))。例如，通过`euclidean_distance([0,3,4,5],[7,6,3,-1])`函数可以计算这两个点在四维空间中的距离。 2. **曼哈顿距离**（Manhattan Distance）：又称城市街区距离，它考虑的是两点在各个维度上的绝对差值之和，即|xi - xj| + |yi - yj|。这种距离适合于像素坐标或者网格状结构，如棋盘上的移动，车（城堡）的走法即基于曼哈顿距离。 3. **切比雪夫距离**（Chebyshev Distance）：在所有维度中，取最大绝对差值作为距离，适用于对极端值敏感的情况，比如象棋中的王（国王）与后（皇后）的移动，由于只能沿格子线移动，所以使用切比雪夫距离。 4. **闵可夫斯基距离**（Minkowski Distance）：是欧几里得距离和曼哈顿距离的一般化形式，用参数p来控制其性质。当p=1时，变为曼哈顿距离，p=2时恢复为欧几里得距离。这提供了一种灵活性，根据问题特性选择合适的p值。 5. **余弦距离**（Cosine Distance）：主要应用于向量空间模型，如文本相似度计算，它测量的是两个向量的夹角余弦值，不受向量长度影响，常用于高维空间中的相似度比较。 6. **杰卡德距离**（Jaccard Distance）：这是一种度量集合相似性的方法，尤其在文本挖掘和聚类分析中，计算两个集合交集与并集的比例，反映两个集合的重叠程度。这些距离公式在机器学习中有广泛应用，比如特征选择、聚类分析（K-Means）、推荐系统中的相似用户查找、以及信息检索中的文档相似度计算。理解并掌握这些距离度量有助于优化算法性能，提高模型精度。在实际操作中，选择哪种距离取决于问题的具体场景和数据特性。

实现的代码：!

from math import *

def euclidean_distance(x, y):

return sqrt(sum(pow(a - b, 2) for a, b in zip(x, y)))

print euclidean_distance([0, 3, 4, 5], [7, 6, 3, -1])

剩余13页未读，继续阅读

杨鑫newlfe

粉丝: 6241
资源: 189

机器学习中的六种距离公式详解：欧几里得、曼哈顿、切比雪夫等

cn-deep-learning-vs-machine-learning-ebook(1).pdf

machine-learning-iris-flower:实用程序模型KNN

Machine-Learning:机器学习小组的代码和注释

Machine-Learning:关于二分类，多分类，回归预测问题下，实现了比较基础的机器学习的算法。例如KNN，NB，PLA等

k-nn算法全套,kn计算公式,matlab源码.zip.zip

掌握k-means聚类：Python与MATLAB实现详解

TF-IDF算法在文本相似度计算中的应用与优化

R语言中的文本相似度计算与应用：掌握相似度分析的技巧

如何计算文本相似度的余弦值？

【词汇语义相似度】：R085实践操作，让你快速上手

最新资源