机器学习复习重点:监督与无监督学习,贝叶斯分类与SVM

需积分: 0 9 下载量 143 浏览量 更新于2024-07-01 10 收藏 3.15MB PDF 举报
"该资源是一份机器学习的复习题,涵盖了监督学习与无监督学习的算法区分、概率分布的共轭、朴素贝叶斯分类器的特点、正态密度的贝叶斯分类器的决策函数、线性与非线性分类方法、以及与梯度下降法、最大似然估计相关的机器学习概念,还涉及线性鉴别分析、SVM和支持向量机的核心概念和性能因素。" 在机器学习领域,监督学习和无监督学习是两种主要的学习方式。监督学习包括如贝叶斯分类器这样的算法,它依赖于已知的输入-输出对来训练模型。相反,无监督学习如层次聚类,是在没有标签的情况下寻找数据结构的方法。 二项式分布和多项式分布的共轭分布分别是Beta分布和Dirichlet分布,这是概率论和统计学中的重要概念,特别是在处理不确定性时。在机器学习中,这些概念常用于模型参数的先验和后验概率的建模。 朴素贝叶斯分类器假设各个特征之间相互独立,这是一种简化但实用的假设。正态密度的贝叶斯分类器在各类别的协方差矩阵相同时,可以采用线性决策函数进行分类。 线性分类方法如感知机,通过找寻超平面实现分类,而决策树和最近邻法则属于非线性方法。线性鉴别分析(LDA)的目标是找到一个投影方向,最大化类间距离的同时最小化类内距离,以提高分类效果。 梯度下降法是优化过程中常用的技术,如在感知机、最小二乘分类器和Logistic回归中。而最小距离分类器不依赖于梯度下降。 SVM(支持向量机)是一种强大的分类工具,基于最大间隔原则,选择能最大化类别间隔的决策边界。其性能受到核函数、参数和软间隔的影响。SVM的对偶问题是一个凸二次优化问题,而支撑向量是位于最大间隔边界上的样本点,对于模型的构建至关重要。 当使用如核SVM这样的模型时,增加模型复杂度(例如增加核函数的阶数)可能导致过拟合,即训练准确率可能保持在100%,但测试准确率会下降,因为模型开始过度适应训练数据,失去了泛化能力。这强调了模型选择和防止过拟合的重要性。