机器学习面试必备：有监督与无监督学习、正则化与过拟合解析

需积分: 14 89 浏览量更新于2024-07-18 收藏 34KB DOCX 举报

本文主要涵盖了机器学习面试中常见的知识点，包括有监督学习和无监督学习的区别，正则化的概念和作用，以及过拟合的原因和解决策略。此外，还提到了模型的泛化能力和生成模型与判别模型的对比。在机器学习领域，有监督学习和无监督学习是两种主要的学习方式。有监督学习是指利用带有标签的训练数据进行学习，目的是为了对新数据进行分类或回归预测。常见的有监督学习算法包括逻辑回归（LR）、支持向量机（SVM）、反向传播神经网络（BP）、随机森林（RF）和梯度提升决策树（GBDT）。无监督学习则是在没有标签的情况下进行学习，旨在发现数据内部的结构和模式。例如，K-Means聚类和深度学习（DL）都属于无监督学习。正则化是一种防止过拟合的策略。过拟合发生时，模型过于复杂，对训练数据拟合得过好，导致在未见过的数据上表现不佳。正则化通过在损失函数中加入模型参数的范数（如L1或L2范数）作为惩罚项，限制模型的复杂度，防止过拟合。正则化项与经验风险之间的平衡通常通过一个超参数（如学习率）来调整。奥卡姆剃刀原理指出，简洁且能解释数据的模型通常是最佳的。过拟合的原因通常包括样本问题（如样本数量不足、抽样方法不当或噪声数据过多）和模型问题（如模型过于复杂或训练过度）。为了解决过拟合，我们可以从数据和模型两方面入手。数据方面，可以通过增加样本量、数据降维、数据清洗或使用验证集来改善。模型方面，可以控制模型复杂度，选择简单的模型，使用正则化（L1或L2），采用交叉验证，或者在决策树中进行剪枝。同时，避免过度训练，及时停止迭代。泛化能力是衡量模型性能的关键指标，指的是模型对未在训练集中出现的新数据的预测能力。生成模型学习数据的联合概率分布，然后推导出条件概率分布，如朴素贝叶斯和K-means聚类。生成模型的优点包括可还原数据的概率分布，快速学习收敛，以及处理隐藏变量的能力。相对地，判别模型直接学习决策边界或条件概率分布，如逻辑回归、支持向量机等。判别模型更专注于预测任务，通常在实际应用中表现出更好的泛化性能。

样本之间的距离（如欧氏距离），例如 66。如果一个特征值域范围非常大，

那么距离计算就主要取决于这个特征，从而与实际情况相悖（比如这时实际情

况是值域范围小的特征更重要）

,逻辑回归等模型先验假设数据服从正态分布。



哪些机器学习算法不需要做归一化处理？

概率模型不需要归一化，因为它们不关心变量的值，而是关心变量的分布和变

量之间的条件概率，如决策树、'。而像

05//、50、85//、%、*、66、 之类的最优化问题就需要归

一化。



特征向量的归一化方法

线性函数转换，表达式如下：A#8-*)$8*)-*)

对数函数转换，表达式如下：A#*/8

反余切函数转换´，表达式如下：A#.8B$C

减去均值，乘以方差：A#8-%$.



标准化与归一化的区别

剩余35页未读，继续阅读

清平乐的技术博客

粉丝: 1428
资源: 43

机器学习面试必备：有监督与无监督学习、正则化与过拟合解析

"机器学习面试题目精修订.pdf：监督学习与无监督学习、正则化及过拟合解析

机器学习面试热门题目解析

"机器学习面试题目详解：监督学习与无监督学习区别、正则化与过拟合原因及解决方法

机器学习面试题目.docx

机器学习面试题目.doc

机器学习面试题目.pdf

2021年机器学习面试题目.docx

机器学习面试题目精修订.pdf

2021年机器学习面试题目.pdf

机器学习面试题目 (2).pdf

最新资源