机器学习距离度量与样本平衡方法详解

需积分: 5 1 下载量 133 浏览量 更新于2024-08-03 收藏 7KB MD 举报
本文主要探讨了机器学习中常见的距离度量方法及其应用,以及解决样本不平衡问题的策略。以下是详细的内容概要: 1. 距离度量方法: - 欧式距离(Euclidean Distance):基于欧几里得距离概念,适用于连续变量的测量,如二维空间中的两点间直线距离,计算公式为各维度差值平方和的平方根。 - 余弦距离(Cosine Distance):在向量空间模型中使用,它强调的是向量方向的相似性,不考虑长度,计算的是两个向量的夹角余弦值。 - 曼哈顿距离(Manhattan Distance):又称城市街区距离,计算的是在网格状坐标系统中两点之间的直线路径距离,即各维度差值的绝对值之和。 - 切比雪夫距离(Chebyshev Distance):简单来说,是各个维度中最大差值,适用于对误差敏感的场景。 2. 处理样本不平衡: - 下采样(Under-sampling):减少多数类样本,使正负样本比例接近。 - 上采样(Over-sampling):增加少数类样本,常用方法有SMOTE等。 - 调整样本权重:给少数类样本赋予更高的权重,确保它们在损失函数中的贡献更大。 3. 高斯混合模型(GMM): - 隐变量表示:在GMM中,隐变量代表数据点所属的高斯分布,每个数据点可能来自多个高斯分布之一,通过概率来决定归属。 4. 偏差与方差的关系: - 当训练样本数量趋向无穷大时,模型的偏差(bias)通常保持不变,因为更多的数据有助于减少模型的不确定性,但不会改变模型的预测能力。 5. 易于解释的模型: - 决策树模型(Decision Tree)通常被认为是易于理解的,因为它通过一系列规则和分支直观地展示数据的决策过程。 6. EM算法的修改: - 若要求最大后验概率估计,需要在EM算法的E步骤中对模型参数进行修正,以最大化似然函数。 7. K-means聚类: - 聚类结果受初始类中心选取、样本输入顺序和相似性度量(如欧式距离、余弦距离等)的影响。 8. 凸函数特性: - 凸函数的二阶导数非负,如线性和四次幂函数,但三次幂函数不是凸函数。 9. 并行训练: - 线性回归、K-means等算法可利用Map-Reduce框架实现数据的并行处理,加速训练。 10. 生成式模型与判别式模型: - 朴素贝叶斯、HMM、MRF和DBN属于生成式模型,它们尝试直接建模数据的联合分布。 11. 监督学习中的特征相关性: - 线性回归模型中,添加新变量可能导致R²值增加,但并不意味着自变量和残差独立,这可能会影响模型的解释性。 12. 平衡样本方法: - 正确处理样本不平衡的方法包括从负样本中随机抽取、调整样本权重以及复制正样本。 以上是关于机器学习中关键知识点的总结,涵盖了距离度量、样本不平衡处理、高斯混合模型、模型复杂度与解释性、EM算法、K-means聚类、函数特性、并行计算以及特定模型的特性。