机器学习中的距离与相似度计算:词频、余弦相似度

需积分: 50 9 下载量 91 浏览量 更新于2024-07-10 收藏 812KB PPT 举报
"本文介绍了计算词频的过程以及在机器学习中距离和相似度度量的重要性。通过例子展示了如何计算两个句子的词频向量,并利用余弦相似度确定它们的相似程度。同时,讨论了多种距离度量方法,如欧式距离、曼哈顿距离、切比雪夫距离和闵可夫斯基距离,以及它们在不同情况下的适用性和局限性。" 在机器学习领域,理解文本之间的相似度是至关重要的,这通常涉及到计算词频。例如,给定的句子A和句子B,可以通过统计每个词出现的次数来构建词频向量。句子A的词频向量为(1, 1, 2, 1, 1, 1, 0, 0, 0),而句子B的词频向量为(1, 1, 1, 0, 1, 1, 1, 1, 1)。接着,可以使用余弦相似度公式来计算这两个向量之间的相似度,结果显示它们的夹角余弦值为0.81,表明句子A和句子B在语义上是相当接近的。 距离和相似度的度量在数据挖掘和机器学习中扮演着核心角色。距离函数d(x, y)需要遵循一些基本规则,包括对称性、非负性以及三角形不等式。其中,欧式距离是最常见的距离度量,它基于欧几里得几何,适用于同一尺度的属性。然而,如果属性的尺度不同,如身高和体重,使用欧式距离可能得到误导性结果。例如,身高10cm的差异并不等同于体重10kg的差异。 曼哈顿距离是另一个常用的度量,它将不同维度上的差距简单相加,适合于城市街区布局的场景。切比雪夫距离则关注最大差异,适用于如棋盘游戏等环境,其中移动的最大步数决定了距离。闵可夫斯基距离是一种更一般的距离定义,包含了上述的欧式和曼哈顿距离作为特殊情况,当p取值为无穷大时,它就变成了切比雪夫距离。 然而,闵可夫斯基距离存在一些缺点,尤其是当不同属性的尺度和分布差异显著时。例如,上述例子中的身高和体重,虽然在闵氏距离下,样本a与b和样本a与c的距离相等,但这种等价性在实际意义中并不合理,因为身高和体重的单位和分布差异可能很大。为了解决这个问题,可以采用标准化欧氏距离,通过归一化数据来消除量纲影响,使不同属性在比较时处于相同的尺度。 计算词频和度量距离是理解和比较数据的关键步骤,尤其是在文本分析和机器学习任务中。选择合适的距离度量方法取决于数据的特性,确保能够准确反映数据间的相似性和差异性。