机器学习题库详解:监督与无监督算法、贝叶斯与SVM

需积分: 0 17 下载量 50 浏览量 更新于2024-08-03 收藏 56KB MD 举报
本资源是一份针对机器学习期末考试题库,涵盖了监督学习和无监督学习的基本概念及常见算法。首先,监督学习的代表算法包括贝叶斯分类器,它基于特征和标签之间的关系进行预测,其中朴素贝叶斯分类器假设各个特征之间独立,这简化了模型的计算。最大似然估计是许多统计方法的基础,但在没有考虑先验分布的情况下,朴素贝叶斯分类器是一个例外。 无监督学习方面,层次聚类是一种自组织的方法,它不依赖于预先定义的类别标签。在概率论中,多项式分布和贝叶斯分析的共轭性很重要,如多项式分布的共轭分布是Dirichlet分布,而二项式分布的共轭则是Beta分布。 在决策边界选择上,线性鉴别分析试图找到一个最大化类间距离和类内距离的投影方向,而支持向量机(SVM)则追求找到最优的间隔最大化分类器。SVM的性能受到核函数的选择、参数调整以及软间隔参数C的影响,其对偶问题是一个凸二次优化问题,而支撑向量就是位于最大间隔上的关键样本。 核函数方法允许处理非线性问题,通过将数据映射到高维空间来实现线性分类。决策树的节点划分依据信息增益,其中理想情况是信息增益越大,表示划分的纯度越高。集成学习,如随机森林,利用多个分类器的多样性提高预测准确性,每个基分类器的正确率至少要求达到50%以上。 Bagging方法,如随机森林,通过Bootstrap采样构建训练集,以降低过拟合风险。对于软间隔支持向量机,C值小会导致模型过于保守,易产生误分类;当C趋向无穷大,理论上可以确保所有数据被正确分类。K-NN算法在样本数量少且具有较好典型性的场景下表现较好。 回归问题与分类问题的主要区别在于,回归预测的是连续数值,如最小子二乘回归,而分类则是预测离散类别。这份题库涵盖了机器学习基础理论和实践应用的关键知识点,对学习者理解和掌握机器学习算法具有较高的参考价值。