机器学习:距离计算详解

需积分: 15 5 下载量 154 浏览量 更新于2024-09-09 收藏 395KB PDF 举报
雪夫距离(ChebyshevDistance) 切比雪夫距离是指在棋盘格上,从一个点移动到另一个点的最短路径长度,允许每次移动只能沿着网格线方向,且移动的步数不限。在数学上,它是两个点对应坐标值差的绝对值的最大值。 1. 二维平面上两点a(x1, y1)与b(x2, y2)间的切比雪夫距离: 2. 两个n维向量a(x11, x12, ..., x1n)与b(x21, x22, ..., x2n)间的切比雪夫距离: 3. Matlab计算切比雪夫距离 例子:计算向量(0, 0)、(1, 0)、(0, 2)两两间的切比雪夫距离 4. 闵可夫斯基距离(MinkowskiDistance) 闵可夫斯基距离是一般化的距离度量,包括了欧氏距离和曼哈顿距离作为特例。当参数p等于1时,它变为曼哈顿距离;当p等于2时,它变为欧氏距离。对于两个n维向量a和b,闵可夫斯基距离定义为: 5. 标准化欧氏距离(StandardizedEuclideanDistance) 在特征尺度差异较大的情况下,可以使用标准化欧氏距离,即将每个特征值减去其平均值,然后除以其标准差,以消除特征之间的量纲影响。 6. 马氏距离(MahalanobisDistance) 马氏距离考虑了变量之间的相关性,尤其适用于多变量分析。它是基于协方差矩阵的,能够处理变量之间的非独立性。 7. 夹角余弦(CosineSimilarity) 夹角余弦用于衡量两个非零向量之间的角度,取值范围在-1到1之间,值越接近1,表示两个向量越相似。 8. 汉明距离(HammingDistance) 汉明距离用于衡量两个等长字符串的差异,即对应位置字符不同的数量。在二进制编码中,它衡量了两个位序列的差异。 9. 杰卡德距离(JaccardDistance) & 杰卡德相似系数(JaccardSimilarity) 杰卡德距离衡量两个集合的不相似度,而杰卡德相似系数衡量它们的相似度,值域在0到1之间,值越大,相似度越高。 10. 相关系数(CorrelationCoefficient) & 相关距离(CorrelationDistance) 相关系数衡量两个变量之间的线性相关性,取值范围在-1到1之间,1表示完全正相关,-1表示完全负相关。相关距离是其倒数,距离越大,相关性越小。 11. 信息熵(Entropy) 信息熵是衡量一个随机变量不确定性的度量,在机器学习中常用于特征选择,高熵表示不确定性大,低熵表示确定性高。 在机器学习中,选择合适的距离计算方法对模型的性能至关重要。例如,欧氏距离适用于数据分布均匀的情况,而曼哈顿距离和切比雪夫距离则更适应于存在离群点或数据分布在轴方向上拉伸的场景。马氏距离和标准化欧氏距离能处理变量尺度不一的问题。夹角余弦适合于文本分类等任务,衡量词向量的相似性。而汉明距离、杰卡德距离和相关系数则常用于集合或序列数据的相似性比较。了解并正确应用这些距离计算方法,可以帮助我们构建更准确、更稳健的机器学习模型。