机器学习期末复习重点:监督与非监督学习,过学习解决策略

版权申诉
5星 · 超过95%的资源 20 下载量 114 浏览量 更新于2024-08-28 7 收藏 93KB DOC 举报
"机器学习期末复习试题" 机器学习是人工智能领域的一个关键分支,它涉及让计算机通过经验学习并改进其性能。本次复习试题涵盖了监督学习、非监督学习、过学习、回归与分类问题、损失函数、反向传播算法以及朴素贝叶斯分类器等多个核心概念。 1. 监督学习与非监督学习: - 监督学习是一种学习方法,其中模型通过已知的输入-输出对(即标记的训练样本)进行训练,以构建一个函数,使得新输入可以被正确预测。例如,支持向量机(SVM)在分类任务中就是一个典型的监督学习算法。 - 非监督学习则是在没有标记数据的情况下进行学习,目的是发现数据集中的内在结构或模式。例如,K-means聚类算法是无监督学习的一种,它试图将数据分组成不同的簇。 2. 回归与分类问题: - 回归是监督学习的一种,它的目标变量是连续的,如线性回归预测房价。 - 分类问题也是监督学习,但目标变量是离散的,如朴素贝叶斯或SVM用于文本分类。 3. 过学习及其解决方法: - 过学习发生在模型过度拟合训练数据,导致在未见过的数据上的表现不佳。这通常发生在模型过于复杂或训练数据不足时。 - 为了防止过学习,可以收集更多训练样本、使用验证集来调整模型复杂度,或者引入正则化项来限制模型的复杂度。 4. 回归与逻辑回归的损失函数: - 回归通常使用平方误差损失函数,即 (y-p)^2,其中y是真实值,p是预测值。 - 逻辑回归使用交叉熵损失函数,对于二分类问题,公式为:-y * log(p) - (1-y) * log(1-p),其中y是真实标签(0或1),p是预测概率。 5. 反向传播算法(BP)在多层感知机(MLP)中的应用: - BP算法是一种用于训练多层神经网络的方法,它通过从输出层反向传播误差,更新权重以减小损失。 - 算法流程包括:传播输入到输出,计算输出层误差,反向传播误差并更新权重。 6. 朴素贝叶斯分类器的特性: - 如果数据集D1的特征是离散且二值的,而D2中的某特征被重复了100次,那么在D2上训练的朴素贝叶斯分类器会有所不同,因为朴素贝叶斯假设特征之间相互独立,而D2违反了这一假设。 7. 最近邻法与三近邻法分类: - 对于给定的二维样本点,最近邻法将基于最近的一个训练样本点的类别来决定测试点的类别。 - 三近邻法则考虑最近的三个训练样本,分类基于这三个点的多数类别。 这些题目覆盖了机器学习的基础理论和实际应用,对于理解和掌握机器学习的关键概念非常有帮助。