机器学习面试关键知识点解析

版权申诉

85 浏览量更新于2024-07-03 收藏 48KB DOCX 举报

"该文档是关于机器学习面试的题目集合，涵盖了有监视学习与无监视学习的区别、正则化、过拟合及其解决方案、交叉验证、泛化能力以及生成模型和判别模型等多个核心概念。" 1、有监视学习与无监视学习有监视学习是一种在已标记数据上进行训练的方法，目的是对未知数据进行分类或预测，常见的算法包括逻辑回归（LR）、支持向量机（SVM）、反向传播（BP）、随机森林（RF）和梯度提升决策树（GBDT）。无监视学习则不依赖标记数据，它通过发现数据中的内在结构来学习，如聚类算法KMeans和深度学习（DL）。 2、正则化正则化是为了防止过拟合，通过在经验风险最小化的目标函数中加入正则化项（通常是参数的L1或L2范数），以控制模型复杂度。奥卡姆剃刀原理指出，简洁且能解释数据的模型是最好的。过高的模型复杂度会导致过拟合，即模型在训练数据上的表现很好，但在新数据上的表现较差。 3、过拟合及其解决办法过拟合主要由于样本数据问题（如样本量不足、抽样不合理、噪声数据过多）和模型问题（如模型过于复杂、未剪枝的决策树、权值学习迭代次数过多）引起。解决过拟合的策略包括增加样本数量、降维、数据清洗、选择更简单的模型、应用模型融合技术、添加正则化项（如L1和L2正则化）、实施交叉验证和权值衰减等。 4、交叉验证交叉验证是一种评估模型性能的技术，它将数据集划分为多个子集（如k折），每次用k-1个子集训练模型，剩下的子集用于验证，重复此过程k次，平均结果作为模型的性能评估。 5、泛化能力泛化能力衡量的是模型在未见过的新数据上的预测性能，它是机器学习模型的重要指标，好的泛化能力意味着模型能在实际应用中稳定、准确地预测未知数据。 6、生成模型与判别模型生成模型学习数据的联合概率分布P(X,Y)，进而计算条件概率P(Y|X)，如朴素贝叶斯和K-means。生成模型能够恢复联合概率分布，学习速度快，但可能对数据分布的假设过于严格。判别模型直接学习条件概率P(Y|X)，如逻辑回归、支持向量机等，它们通常在预测任务上表现更好，但无法提供联合概率分布信息。总结来说，这份机器学习面试题库涵盖了机器学习基础理论的关键点，对于准备面试的候选人来说，理解和掌握这些概念对于成功应聘至关重要。

简单来说，标准化是依照特征矩阵的列处理数据，其通过求 A345#的方法，将样本的特征

值转换到同一量纲下。归一化是依照特征矩阵的行处理数据，其目的在于样本向量在点乘运

算或其他核函数计算相似性时，拥有统一的标准，也就是说都转化为“单位向量〞。规那么

为 /#的归一化公式如下：

1、特征向量的缺失值处理

# 缺失值较多直接将该特征舍弃掉，否那么可能反倒会带入较大的 5，对结果造成不良

影响。

# 缺失值较少其余的特征缺失值都在 B以内，我们可以采取很多的方式来处理C

# 把 88#直接作为一个特征，假设用 #表示；

# 用均值填充；

1# 用随机森林等算法预测填充

随机森林如何处理缺失值〔4D/D(D.75'"'1'65(3534+'〕

方法一〔5.DE:〕简单粗暴，对于训练集同一个 4/#下的数据，如果是分类变量缺失，

用众数补上，如果是连续型变量缺失，用中位数补。

方法二〔*@().〕这个方法计算量大，至于比方法一好坏？不好判断。先用 5.DE:#补

上缺失值，然后构建森林并计算 )5:(>#(:，再回头看缺失值，如果是分类变量，那么

用没有缺失的观测实例的 )5:(>#中的权重进展投票。如果是连续型变量，那么用 )5:(>

矩阵进展加权平均的方法补缺失值。然后迭代 3"#次，这个补缺失值的思想和 88#有些类

似 。

随机森林如何评估特征重要性〔4D/D(D.75'"'1'65(3534+'〕

衡量变量重要性的方法有两种，4#@8@# 和 4#=44.4>：

#4#@8@：对于回归问题，直接使用 (:F*FD作为评判标准，即

当前节点训练集的方差 #减去左节点的方差 *#和右节点的方差 D。

#4#=44.4>：对于一棵树 7:，我们用 #样本可以得到测试误差 ；然后随机

改变 #样本的第 G#列：保持其他列不变，对第 G#列进展随机的上下置换，得到误差 。至

此，我们可以用误差 3误差 #来刻画变量 G#的重要性。根本思想就是，如果一个变量 G#足够

重要，那么改变它会极大的增加测试误差；反之，如果改变它测试误差没有增大，那么说明

该变量不是那么的重要。

 、优化 (

使用 +6#树或者 7//#这个树不懂

将所有的观测实例构建成一颗 +6#树，之前每个聚类中心都是需要和每个观测点做依次距离

计算，现在这些聚类中心根据 +6#树只需要计算附近的一个局部区域即可

#初始类簇中心点的选取

+3(00算法选择初始 6#的根本思想就是：初始的聚类中心之间的相互距离要尽可能

的远。

# 从输入的数据点集合中随机选择一个点作为第一个聚类中心

. .word.zl.

剩余16页未读，继续阅读

apple_51426592

粉丝: 9776
资源: 9654

机器学习面试关键知识点解析

2021年机器学习面试题目.docx

机器学习面试题目 (2).docx

两个docx文档，1.docx和2.docx，需要将1.docx文档中的页眉页脚复制到2.docx，用java编写，使用开源jar包，比如poi，poi-tl，docx4j等等，请注意验证你提供的代码中的方法，麻烦给我源码。

.docx文件在vscode打开后。.docx文件发生了错误

c 面试题集锦.docx(共152页)

使用python将xx文件夹下的.sv文件复制到mode.docx文件并另存为.sv文件名的.docx文件

将每个子文件夹里的.docx文件都合成一个.docx文件

两个docx文档，1.docx和2.docx，需要将1.docx文档中的页眉页脚同步到2.docx，用java编写，使用开源jar包，比如poi，poi-tl，docx4j等等，麻烦给我源码

将xx文件夹下的每个子文件夹里的.docx文件都合成一个.docx文件

最新资源