机器学习距离度量与样本平衡方法详解
需积分: 5 118 浏览量
更新于2024-08-03
收藏 7KB MD 举报
本文主要探讨了机器学习中常见的距离度量方法及其应用,以及解决样本不平衡问题的策略。以下是详细的内容概要:
1. 距离度量方法:
- 欧式距离(Euclidean Distance):基于欧几里得距离概念,适用于连续变量的测量,如二维空间中的两点间直线距离,计算公式为各维度差值平方和的平方根。
- 余弦距离(Cosine Distance):在向量空间模型中使用,它强调的是向量方向的相似性,不考虑长度,计算的是两个向量的夹角余弦值。
- 曼哈顿距离(Manhattan Distance):又称城市街区距离,计算的是在网格状坐标系统中两点之间的直线路径距离,即各维度差值的绝对值之和。
- 切比雪夫距离(Chebyshev Distance):简单来说,是各个维度中最大差值,适用于对误差敏感的场景。
2. 处理样本不平衡:
- 下采样(Under-sampling):减少多数类样本,使正负样本比例接近。
- 上采样(Over-sampling):增加少数类样本,常用方法有SMOTE等。
- 调整样本权重:给少数类样本赋予更高的权重,确保它们在损失函数中的贡献更大。
3. 高斯混合模型(GMM):
- 隐变量表示:在GMM中,隐变量代表数据点所属的高斯分布,每个数据点可能来自多个高斯分布之一,通过概率来决定归属。
4. 偏差与方差的关系:
- 当训练样本数量趋向无穷大时,模型的偏差(bias)通常保持不变,因为更多的数据有助于减少模型的不确定性,但不会改变模型的预测能力。
5. 易于解释的模型:
- 决策树模型(Decision Tree)通常被认为是易于理解的,因为它通过一系列规则和分支直观地展示数据的决策过程。
6. EM算法的修改:
- 若要求最大后验概率估计,需要在EM算法的E步骤中对模型参数进行修正,以最大化似然函数。
7. K-means聚类:
- 聚类结果受初始类中心选取、样本输入顺序和相似性度量(如欧式距离、余弦距离等)的影响。
8. 凸函数特性:
- 凸函数的二阶导数非负,如线性和四次幂函数,但三次幂函数不是凸函数。
9. 并行训练:
- 线性回归、K-means等算法可利用Map-Reduce框架实现数据的并行处理,加速训练。
10. 生成式模型与判别式模型:
- 朴素贝叶斯、HMM、MRF和DBN属于生成式模型,它们尝试直接建模数据的联合分布。
11. 监督学习中的特征相关性:
- 线性回归模型中,添加新变量可能导致R²值增加,但并不意味着自变量和残差独立,这可能会影响模型的解释性。
12. 平衡样本方法:
- 正确处理样本不平衡的方法包括从负样本中随机抽取、调整样本权重以及复制正样本。
以上是关于机器学习中关键知识点的总结,涵盖了距离度量、样本不平衡处理、高斯混合模型、模型复杂度与解释性、EM算法、K-means聚类、函数特性、并行计算以及特定模型的特性。
604 浏览量
1846 浏览量
413 浏览量
328 浏览量
110 浏览量
2024-11-03 上传
163 浏览量
221 浏览量
406 浏览量
_charon_
- 粉丝: 5194
- 资源: 85
最新资源
- transferimg:springboot demo ,含有druid mybatis mysql的简单实用使用
- jdk-8u181-windows-x64+eclipse
- 苹果cms-模板004号
- Intel fit (flash image tool)
- html5手机微信樱木花道投篮游戏源码下载
- 测试项目
- 项目成本管理.zip
- 行业文档-设计装置-一种具有储物功能的床体.zip
- 3.12的OLED资料
- Nettu计划程序是一个自托管的日历和计划程序服务器。-Rust开发
- geopy提取坐标&计算距离矩阵
- UnixTeaching:CICD手动教学项目
- CSS3和Html5实现超级炫酷的风水罗盘效果
- dactrixk
- 行业文档-设计装置-一种平台模切机的定位机构.zip
- 移动端办公管理系统.zip