机器学习算法详解：从朴素贝叶斯到GDBT

需积分: 15 29 浏览量更新于2024-07-18 收藏 1.3MB PDF 举报

"北京邮电大学学生整理的机器学习算法笔记，包括朴素贝叶斯、SVM、决策树等多个常用算法的概述与解析。" 在机器学习领域，掌握各种算法的思想是至关重要的。这篇笔记详细梳理了多个常见的机器学习算法，帮助读者深入理解并应用这些算法。 1. **朴素贝叶斯**：朴素贝叶斯是一种基于概率的分类算法，假设特征之间相互独立，并且基于贝叶斯定理进行预测。它简单且效率高，常用于文本分类和垃圾邮件过滤等领域。 2. **决策树**：决策树通过创建树状模型来表示数据集中的特征与目标变量之间的关系。每个内部节点代表一个特征，每个分支代表一个特征值，而叶子节点则代表类别决策。决策树易于理解和解释，常用于分类和回归问题。 3. **Logistic回归**：虽然名字中有“回归”，但实际上是一种分类算法。它通过构建S型曲线（sigmoid函数）将连续的线性回归结果转换为概率，适用于二分类问题，也可以扩展到多分类问题。 4. **线性回归**：线性回归是最基础的回归分析方法，寻找自变量和因变量之间的最佳线性关系。通过最小化误差平方和来拟合直线，预测连续变量。 5. **KNN算法（K近邻）**：KNN是一种基于实例的学习，将未知类别的样本分配到最近的K个已知类别样本的多数类别中。它的优点是概念简单，但计算量较大。 6. **SVM（支持向量机）**：SVM寻找最大边距超平面，将数据尽可能分开。通过核技巧可以处理非线性数据，常用于小样本、高维空间的分类和回归问题。 7. **Boosting**：Boosting是一种集成学习方法，通过迭代组合弱学习器形成强学习器。每一轮训练都重点修正上一轮的错误，如AdaBoost。 8. **聚类**：聚类是无监督学习的一种，目的是将相似的数据分到同一组，不依赖于预先定义的类别。常见的聚类算法有K-means、层次聚类等。 9. **推荐系统**：推荐系统利用用户历史行为和物品属性，预测用户可能感兴趣的物品，常见的有基于内容的推荐和协同过滤推荐。 10. **pLSA（潜在语义分析）**和**LDA（潜在 Dirichlet 分配）**：这两种方法主要用于主题建模，通过分析文本数据找出隐藏的主题分布。 11. **GDBT（梯度提升决策树）**：GDBT是一种强大的集成学习方法，通过梯度提升策略逐步优化弱预测器，如XGBoost和LightGBM是GDBT的实现。 12. **正则化（Regu）**：正则化是防止模型过拟合的策略，通过在损失函数中添加惩罚项控制模型复杂度，如L1和L2正则化。这篇笔记详尽地涵盖了从基础到进阶的多种机器学习算法，是学习和复习机器学习理论的好材料。通过深入理解这些算法，有助于提升在实际问题中应用机器学习的能力。

匴卌协升卉卓協卉千回归匴

以信息增益为原则，把所有的属性都测试一边，选择一个使增益最大的属

性作为本次分枝属性。

决策树的优点：

• 计算量简单，可解释性强，比较适合处理有缺失属性值的样本，能够

处理不相关的特征；

缺点：

• 容易过拟合（后续出现了随机森林，减小了过拟合现象）；

4 Logistic回归

Logistic 是用来分类的，是一种线性分类器，需要注意的地方有：

• Logistic 函数表达式为：

匨x匩匽 g匨θ

x匩匽

匱

匱匫卥卸印匨−θ

x匩

, 卷here g匨z匩匽

匱

匱匫卥卸印匨−z匩

匨匳匩

其导数形式为：

匨z匩匽

卤

卤x

匱

匱匫卥卸印匨−z匩

匽

匱

匨匱匫卥卸印匨−z匩匩

匨卥卸印匨−z匩匩

匽

匱

匱匫卥卸印匨−z匩



匱 −

匱

匱匫卥卸印匨−z匩



匽 g匨z匩匨匱 − g匨z匩匩

匨匴匩

• Logistic 回归方法主要是用最大似然估计来学习的，所以单个样本的

后验概率为区

p匨y|x医 θ匩匽匨h

匨x匩匩

匨匱 − h

匨x匩匩

1−y

匨匵匩

到整个样本的后验概率区

L匨θ匩匽 p匨~y|X医 θ匩

匽

i=1



(i)

医 θ



匽

i=1



(i)



(i)



(i)



1−y

(i)

匨匶匩

剩余24页未读，继续阅读

蹄子mosa

粉丝: 4
资源: 3

机器学习算法详解：从朴素贝叶斯到GDBT

机器学习数据挖掘常用算法总结梳理完整版

机器学习十大算法的每个算法的核心思想、工作原理、适用情况及优缺点

机器学习算法汇总大全

机器学习&数据挖掘笔记_16（常见面试之机器学习算法思想简单梳理）1

机器学习常见算法思想总览：决策树、逻辑回归、SVM等

机器学习大作业 (2).docx

斯坦福大学机器学习课程个人笔记完整版

基于机器学习的情感分析方法及应用研究综述.docx

协同过滤算法详解

掌握K近邻算法：机器学习代码调试技巧

最新资源