"机器学习面试题目详解：监督学习与无监督学习区别、正则化与过拟合原因及解决方法"

版权申诉

73 浏览量更新于2024-03-06 收藏 1.41MB PDF 举报

机器学习是一门研究如何通过计算机模拟或实现人类学习行为的学科，其在各个领域都有着广泛的应用。在机器学习领域中，有监督学习和无监督学习是两种常见的学习方式。有监督学习是指通过对已标记的训练样本进行学习，从而对未知数据进行分类或预测。典型的有监督学习算法包括逻辑回归（LR）、支持向量机（SVM）、反向传播神经网络（BP）、随机森林（RF）和梯度提升决策树（GBDT）等。这些算法在训练过程中需要有标记的数据来指导学习过程，以便产生准确的预测模型。而无监督学习则是通过对未标记的数据进行训练学习，以发现数据中的潜在结构和模式。常见的无监督学习算法包括K均值聚类（KMeans）和深度学习（DL）等。这些算法可以从未标记的数据中学习到有用的信息，帮助我们理解数据的内在特征和构造知识。为了防止模型过度复杂导致过拟合现象的发生，正则化技术应运而生。正则化是针对过拟合而提出的一种方法，通过在模型训练中引入正则化项，来平衡模型复杂度和经验风险的权重。正则化的目标是最小化带有模型复杂度惩罚项的经验风险，从而有效地降低过拟合的风险。奥卡姆剃刀原理也提出了一个重要观点：在解释同一组数据时，越简单的模型越好。过拟合是机器学习中常见的问题，其根本原因在于模型过于复杂而导致在训练数据上表现良好，但在测试数据上表现不佳。造成过拟合的原因包括样本数据量不足、抽样方法错误和模型复杂度过高等。为了解决过拟合问题，我们可以通过增加训练数据、改进数据抽样方法、降低模型复杂度等方式来有效地提高模型的泛化能力和预测性能。总之，机器学习在不断发展和进步的过程中，探索出了各种方法和技术来应对数据分析和模型训练中遇到的各种挑战。通过有监督学习和无监督学习，正则化技术和对过拟合问题的认识，我们可以更好地理解和利用机器学习算法，从而更好地应用于实际生活和工作中。希望未来机器学习领域能够不断取得更多的突破和进展，为人类带来更多的价值和便利。

简单来说，标准化是依照特征矩阵的列处理数据，其通过求z-score 的方法，将样本的特征

值转换到同一量纲下。归一化是依照特征矩阵的行处理数据，其目的在于样本向量在点乘运

算或其他核函数计算相似性时，拥有统一的标准，也就是说都转化为“单位向量〞。规那么

为 l2 的归一化公式如下：

13、特征向量的缺失值处理

1. 缺失值较多.直接将该特征舍弃掉，否那么可能反倒会带入较大的noise，对结果造成不良

影响。

2. 缺失值较少,其余的特征缺失值都在 10%以内，我们可以采取很多的方式来处理:

1) 把 NaN 直接作为一个特征，假设用 0 表示；

2) 用均值填充；

3) 用随机森林等算法预测填充

随机森林如何处理缺失值〔charleshm.github.io/2016/03/Random-Forest-Tricks/〕

方法一〔na.roughfix〕简单粗暴，对于训练集,同一个 class 下的数据，如果是分类变量缺失，

用众数补上，如果是连续型变量缺失，用中位数补。

方法二〔rfImpute〕这个方法计算量大，至于比方法一好坏？不好判断。先用na.roughfix 补

上缺失值，然后构建森林并计算 proximity matrix，再回头看缺失值，如果是分类变量，那么

用没有缺失的观测实例的 proximity 中的权重进展投票。如果是连续型变量，那么用 proximity

矩阵进展加权平均的方法补缺失值。然后迭代 4-6 次，这个补缺失值的思想和 KNN 有些类

似 12。

随机森林如何评估特征重要性〔charleshm.github.io/2016/03/Random-Forest-Tricks/〕

衡量变量重要性的方法有两种，Decrease GINI 和 Decrease Accuracy：

1) Decrease GINI：对于回归问题，直接使用 argmax(Var−VarLeft−VarRight)作为评判标准，即

当前节点训练集的方差 Var 减去左节点的方差 VarLeft 和右节点的方差 VarRight。

2) Decrease Accuracy：对于一棵树 Tb(x)，我们用 OOB 样本可以得到测试误差 1；然后随机

改变 OOB 样本的第 j 列：保持其他列不变，对第j 列进展随机的上下置换，得到误差2。至

此，我们可以用误差 1-误差 2 来刻画变量 j 的重要性。根本思想就是，如果一个变量 j 足够

重要，那么改变它会极大的增加测试误差；反之，如果改变它测试误差没有增大，那么说明

该变量不是那么的重要。

14、优化 Kmeans

使用 kd 树或者 ball tree(这个树不懂)

将所有的观测实例构建成一颗 kd 树，之前每个聚类中心都是需要和每个观测点做依次距离

计算，现在这些聚类中心根据 kd 树只需要计算附近的一个局部区域即可

KMeans 初始类簇中心点的选取

k-means++算法选择初始 seeds 的根本思想就是：初始的聚类中心之间的相互距离要尽可能

的远。

1. 从输入的数据点集合中随机选择一个点作为第一个聚类中心

. .word.zl.

剩余16页未读，继续阅读

G11176593

粉丝: 6944

"机器学习面试题目详解：监督学习与无监督学习区别、正则化与过拟合原因及解决方法"

人工智能机器学习面试题和答案.pdf

2021年机器学习面试题目.pdf

机器学习面试题目 (2).pdf

机器学习面试题目精修订.pdf

机器学习面精彩试题目.pdf

机器学习算法工程师校招面试题库.pdf

"机器学习面试题目精修订.pdf：监督学习与无监督学习、正则化及过拟合解析

Microsoft - 微软面试题库.pdf

人工智能常见面试题.pdf

智慧星光面试题.pdf_python面试

最新资源