机器学习面试必备：有监督与无监督学习、正则化与过拟合解析

版权申诉

65 浏览量更新于2024-07-03 收藏 49KB DOCX 举报

在本文档中，包含了机器学习面试中的关键知识点，主要聚焦于有监督学习和无监督学习的区别、正则化的重要性及其原理、过拟合现象及解决策略，以及模型的泛化能力和生成模型与判别模型的区分。 1. **有监督学习与无监督学习的区别**: - 有监督学习依赖于已标记的训练样本，如逻辑回归(LR)、支持向量机(SVM)、反向传播(BP)、随机森林(RF)和梯度提升决策树(GBDT)，目的是通过训练数据进行预测，适用于分类和回归任务。 - 无监督学习则是处理未标记的数据，如K-means聚类和深度学习(DL)，它的目标在于发现数据内在的结构和模式，不涉及具体的预测任务，常用于数据探索和预处理。 2. **正则化与奥卡姆剃刀原理**: - 正则化通过在模型训练过程中引入惩罚项，如L1或L2正则，以防止模型复杂度过高，避免过拟合。奥卡姆剃刀原理强调简单性的原则，认为在众多可能的解释中，最简单的那个是最优的。 - 过拟合是指模型在训练数据上表现优秀，但在新数据上的性能差，可能由于数据不足、模型复杂度过高或噪声干扰等因素导致。 3. **解决过拟合的方法**: - 增加样本量、降维、使用验证数据 - 选择合适的抽样方法，保证样本的代表性 - 清理噪声数据 - 控制模型复杂度，如使用正则化、限制决策树的深度、权值衰减等 - 采用交叉验证，防止过度训练 4. **泛化能力**: - 泛化能力衡量的是模型在未见过的新数据上的预测性能，这是评估模型好坏的重要标准。 5. **生成模型与判别模型**: - 生成模型（如朴素贝叶斯和K-means）学习联合概率分布P(X,Y)，计算条件概率P(Y|X)，可用于概率预测和隐变量建模。 - 判别模型（如逻辑回归）直接学习决策函数Y=f(X)，直接根据输入X进行分类或预测，无需重建完整的概率分布。理解并掌握这些概念对于机器学习工程师来说至关重要，它们是实际项目中应用和优化模型的基础，同时也是面试中考核技能的重要部分。

*的归一化公式如下：

13、特征向量的缺失值处理

 缺失值较多直接将该特征舍弃掉，否则可能反倒会带入较大的 .，对结果造成不良影

响。

 缺失值较少其余的特征缺失值都在 B以，我们可以采取很多的方式来处理C

 把 11直接作为一个特征，假设用 表示；

 用均值填充；

, 用随机森林等算法预测填充

随机森林如何处理缺失值（charleshm.github.io/2016/03/Random-Forest-Tricks/）

方法一（.)DE3）简单粗暴，对于训练集同一个 /*下的数据，如果是分类变量缺失，

用众数补上，如果是连续型变量缺失，用中位数补。

方法二（'@%&)）这个方法计算量大，至于比方法一好坏？不好判断。先用 .)DE3补

上缺失值，然后构建森林并计算 &.3%=%3，再回头看缺失值，如果是分类变量，则用

没有缺失的观测实例的 &.3%=中的权重进行投票。如果是连续型变量，则用 &.3%=矩

阵进行加权平均的方法补缺失值。然后迭代 6>5次，这个补缺失值的思想和 11有些类似

。

随机森林如何评估特征重要性（charleshm.github.io/2016/03/Random-Forest-Tricks/）

衡量变量重要性的方法有两种，/@1@ 和 /://)/=：

/@1@：对于回归问题，直接使用 %3FGFD作为评判标准，即

当前节点训练集的方差 减去左节点的方差 G和右节点的方差 D。

/://)/=：对于一棵树 -3，我们用 样本可以得到测试误差 ；然后随机改

变 样本的第 H列：保持其他列不变，对第 H列进行随机的上下置换，得到误差 。至此，

我们可以用误差 >误差 来刻画变量 H的重要性。基本思想就是，如果一个变量 H足够重要，

那么改变它会极大的增加测试误差；反之，如果改变它测试误差没有增大，则说明该变量不

是那么的重要。

14、优化 Kmeans

使用 (0树或者 -**这个树不懂

将所有的观测实例构建成一颗 (0树，之前每个聚类中心都是需要和每个观测点做依次距离

计算，现在这些聚类中心根据 (0树只需要计算附近的一个局部区域即可

KMeans 初始类簇中心点的选取

(>%++算法选择初始 0的基本思想就是：初始的聚类中心之间的相互距离要尽可能

的远。

 从输入的数据点集合中随机选择一个点作为第一个聚类中心

 对于数据集中的每一个点 3，计算它与最近聚类中心指已选择的聚类中心的距离 3

, 选择一个新的数据点作为新的聚类中心，选择的原则是：3较大的点，被选取作为聚类

中心的概率较大

6 重复 和 ,直到 (个聚类中心被选出来

剩余16页未读，继续阅读

春哥111

粉丝: 1w+

机器学习面试必备：有监督与无监督学习、正则化与过拟合解析

NET智能docx模板引擎TemplateEngine.Docx使用教程

在.docx文档中嵌入Groovy脚本的高级指南

golang解析.docx文件包使用详解

机器学习面试题目.docx

JAVA程序员基本测试题目.docx

人力资源管理测试题目.docx

机器学习方法有哪些.docx.docx

机器学习在IOT的应用.docx

机器学习算法总结决策树.docx

机器学习概览实验指导手册.docx

最新资源