机器学习面试指南：从监督学习到正则化

需积分: 50 55 浏览量更新于2024-07-15 2 收藏 1.03MB PDF 举报

"这份资料包含了机器学习面试中常见的问题，主要涉及有监督学习与无监督学习的区别、正则化及其目的、过拟合的原因与解决方法，以及线性分类器与非线性分类器的差异。" 有监督学习与无监督学习是机器学习的两大基本类型。有监督学习是基于标记的训练数据进行模型训练，目的是为了能够对未知数据进行准确分类或预测，如逻辑回归(LR)、支持向量机(SVM)、反向传播(BP)、随机森林(RF)和梯度提升决策树(GBDT)等。无监督学习则是在未标记数据上进行，目的是发现数据内部的结构或模式，如K-Means聚类和深度学习(DL)。正则化是一种解决过拟合的技术，它通过在损失函数中加入模型参数的范数作为惩罚项，如L1正则和L2正则。正则化有助于保持模型的简洁性，防止模型过于复杂而过度拟合训练数据。过拟合发生时，模型在训练数据上的表现很好，但在新数据上的泛化能力差。其主要原因包括样本不足、抽样方法不当、噪声数据过多以及模型复杂度过高。解决过拟合的方法包括增加样本数量、降维、采用验证集、改进抽样策略、清理噪声数据、控制模型复杂度、利用正则化、早期停止训练、决策树剪枝等。线性分类器，如逻辑回归、朴素贝叶斯、单层感知机和线性回归，它们的分类决策边界是参数的线性组合。这类模型计算效率高，易于实现，但可能无法很好地适应非线性关系。非线性分类器，如决策树、随机森林、梯度提升决策树和多层感知机，它们可以处理非线性可分问题，虽然编程相对复杂，但具备更强的拟合能力。对于支持向量机(SVM)，其线性核对应线性分类器，而高斯核则能处理非线性问题。在LR模型中，sigmoid函数（Sigmoid函数，也称为logistic函数）常用于将连续的预测值转化为概率，这是因为sigmoid函数的输出范围在0到1之间，符合概率的定义，使得模型能够输出预测的概率。此外，LR模型还有解析解，训练效率较高，适合处理大规模数据。

SVM、LR、决策树的对比？

SVM 既可以用于分类问题，也可以用于回归问题，并且可以通过核函数快速的计算，LR 实

现简单，训练速度非常快，但是模型较为简单，决策树容易过拟合，需要进行剪枝等。从优

化函数上看，soft margin 的 SVM 用的是 hinge loss,而带 L2 正则化的 LR 对应的是 cross

entropy loss，另外 adaboost 对应的是 exponential loss。所以 LR 对远点敏感，但是 SVM 对

outlier 不太敏感，因为只关心 support vector，SVM 可以将特征映射到无穷维空间，但是 LR

不可以，一般小数据中 SVM 比 LR 更优一点，但是 LR 可以预测概率，而 SVM 不可以，SVM

依赖于数据测度，需要先做归一化，LR 一般不需要，对于大量的数据 LR 使用更加广泛，LR

向多分类的扩展更加直接，对于类别不平衡 SVM 一般用权重解决，即目标函数中对正负样

本代价函数不同，LR 可以用一般的方法，也可以直接对最后结果调整(通过阈值)，一般小数

据下样本维度比较高的时候 SVM 效果要更优一些。SVM 通过映射到高维在做回归使用的。

GBDT 和决策森林的区别？

随机森林采用的是 bagging 的思想，bagging 又称为 bootstrap aggreagation，通过在训练

样本集中进行有放回的采样得到多个采样集，基于每个采样集训练出一个基学习器，再将基

学习器结合。随机森林在对决策树进行 bagging 的基础上，在决策树的训练过程中引入了随

机属性选择。传统决策树在选择划分属性的时候是在当前节点属性集合中选择最优属性，而

随机森林则是对结点先随机选择包含 k 个属性的子集，再选择最有属性，k 作为一个参数控

制了随机性的引入程度。

另外，GBDT 训练是基于 Boosting 思想，每一迭代中根据错误更新样本权重，因此是串行生

成的序列化方法，而随机森林是 bagging 的思想，因此是并行化方法。

如何判断函数凸或非凸？

首先定义凸集，如果 x,y 属于某个集合 C,并且所有的也属于 c,那么 c 为一个

凸集，进一步，如果一个函数其定义域是凸集，并且

则该函数为凸函数。上述条件还能推出更一般的结果，

如果函数有二阶导数，那么如果函数二阶导数为正，或者对于多元函数，Hessian 矩阵半正

定则为凸函数。

(也可能引到 SVM，或者凸函数局部最优也是全局最优的证明，或者上述公式期望情况下的

Jessen 不等式)

解释对偶的概念

一个优化问题可以从两个角度进行考察，一个是 primal 问题，一个是 dual 问题，就是对偶

问题，一般情况下对偶问题给出主问题最优值的下界，在强对偶性成立的情况下由对偶问题

可以得到主问题的最优下界，对偶问题是凸优化问题，可以进行较好的求解，SVM 中就是

将 primal 问题转换为 dual 问题进行求解，从而进一步引入核函数的思想。

如何进行特征选择？

特征选择是一个重要的数据预处理过程，主要有两个原因，首先在现实任务中我们会遇到维

数灾难的问题(样本密度非常稀疏)，若能从中选择一部分特征，那么这个问题能大大缓解，

另外就是去除不相关特征会降低学习任务的难度，增加模型的泛化能力。冗余特征指该特征

包含的信息可以从其他特征中推演出来，但是这并不代表该冗余特征一定没有作用，例如在

欠拟合的情况下也可以用过加入冗余特征，增加简单模型的复杂度。

在理论上如果没有任何领域知识作为先验假设那么只能遍历所有可能的子集。但是这显然是

不可能的，因为需要遍历的数量是组合爆炸的。一般我们分为子集搜索和子集评价两个过程，

子集搜索一般采用贪心算法，每一轮从候选特征中添加或者删除，分别成为前向和后先搜索。

或者两者结合的双向搜索。子集评价一般采用信息增益，对于连续数据往往排序之后选择中

点作为分割点。

常见的特征选择方式有过滤式，包裹式和嵌入式，filter,wrapper 和 embedding。Filter 类型

先对数据集进行特征选择，再训练学习器。Wrapper 直接把最终学习器的性能作为特征子集

的评价准则，一般通过不断候选子集，然后利用 cross-validation 过程更新候选特征，通常

计算量比较大。嵌入式特征选择将特征选择过程和训练过程融为了一体，在训练过程中自动

进行了特征选择，例如 L1 正则化更易于获得稀疏解，而 L2 正则化更不容易过拟合。L1 正

则化可以通过 PGD, 近端梯度下降进行求解。

为什么会产生过拟合，有哪些方法可以预防或克服过拟合？

一般在机器学习中，将学习器在训练集上的误差称为训练误差或者经验误差，在新样本上的

误差称为泛化误差。显然我们希望得到泛化误差小的学习器，但是我们事先并不知道新样本，

因此实际上往往努力使经验误差最小化。然而，当学习器将训练样本学的太好的时候，往往

可能把训练样本自身的特点当做了潜在样本具有的一般性质。这样就会导致泛化性能下降，

称之为过拟合，相反，欠拟合一般指对训练样本的一般性质尚未学习好，在训练集上仍然有

较大的误差。

欠拟合：一般来说欠拟合更容易解决一些，例如增加模型的复杂度，增加决策树中的分支，

增加神经网络中的训练次数等等。

过拟合：一般认为过拟合是无法彻底避免的，因为机器学习面临的问题一般是 np-hard,但是

一个有效的解一定要在多项式内可以工作，所以会牺牲一些泛化能力。过拟合的解决方案一

般有增加样本数量，对样本进行降维，降低模型复杂度，利用先验知识(L1,L2 正则化)，利用

cross-validation，early stopping 等等。

采用 EM 算法求解的模型有哪些，为什么不用牛顿法或梯度

下降法？

用 EM 算法求解的模型一般有 GMM 或者协同过滤，k-means 其实也属于 EM。EM 算法一

定会收敛，但是可能收敛到局部最优。由于求和的项数将随着隐变量的数目指数上升，会给

梯度计算带来麻烦。

用 EM 算法推导解释 Kmeans

k-means 算法是高斯混合聚类在混合成分方差相等，且每个样本仅指派一个混合成分时候

的特例。注意 k-means 在运行之前需要进行归一化处理，不然可能会因为样本在某些维度

上过大导致距离计算失效。k-means 中每个样本所属的类就可以看成是一个隐变量，在 E 步

中，我们固定每个类的中心，通过对每一个样本选择最近的类优化目标函数，在 M 步，重

新更新每个类的中心点，该步骤可以通过对目标函数求导实现，最终可得新的类中心就是类

中样本的均值。

常见聚类算法比较

(1) k-means

优点：简单，易于理解和实现；时间复杂度低，每轮迭代负载度为 O(n*k)

缺点：需要对均值给出定义；需要指定聚类的数目；一些过大的异常值会带来很大影

响；需要指定初始聚类中心，算法对初始值敏感；适合球形类簇。

(2) 层次聚类（试图在不同层次对数据集进行划分，从而形成树形的聚类结构。AGNES 是一

种采用自底向上聚合策略的层次聚类算法）

优点：距离和规则的相似度容易定义，限制少；不需要预先指定聚类数目；可以发现类

的层次关系；可以聚类成其他形状

缺点：计算复杂度高；奇异值也能产生很大影响；算法很可能聚类成链状

(3) 基于密度的聚类

(4) 基于网格的聚类

(5) 基于平方误差的迭代重分配聚类

(6) 基于约束的聚类

剩余45页未读，继续阅读

知Spring

粉丝: 1
资源: 7

机器学习面试指南：从监督学习到正则化

机器学习面试题总结.pdf

BAT机器学习面试1000题系列

机器学习算法岗面试知识.pdf

机器学习算法面试题.pdf

机器学习算法工程师校招面试题库.pdf

深度学习常见面试题.pdf

计算机专业研究生复试-机器学习面试简答题.pdf

rabbitmq面试题.pdf

Flink面试题.pdf

Zookeeper面试题.pdf

最新资源