机器学习面试精华：SVM、Tensorflow与距离比较

需积分: 13 26 浏览量更新于2024-07-18 收藏 7.98MB PDF 举报

在机器学习面试中，面试者可能会被要求概述一些核心概念和技术。SVM（Support Vector Machine）是一个关键的算法，它是一种监督学习模型，特别适合于分类问题。其目标是找到最优的分类超平面，最大化数据点到该超平面的间隔，使得两类数据点被清晰地分开。SVM通过构建最大间隔决策边界，使得支持向量（即离决策边界最近的数据点）对模型的泛化性能起决定作用。 TensorFlow是一个强大的深度学习框架，它基于计算图的概念，这种图表示了计算任务的顺序和依赖关系。每个节点代表一个操作或变量，边则表示数据如何流动。通过这种方式，TensorFlow允许开发者构建和优化复杂的神经网络结构。面试中还会涉及距离度量的讨论，如欧氏距离和曼哈顿距离。欧氏距离是基于两点间直线距离的度量，适用于欧几里得空间，计算简单直观。而曼哈顿距离，即L1距离，更适合城市街区地图上的路径计算，因为它不考虑角度，只关注沿坐标轴的投影距离。逻辑回归（LR）是基础的预测模型，包括线性回归的扩展。在讲解LR时，会涉及到模型的建立过程，包括特征选择、线性回归模型的数学推导、不同解法（如最小二乘法），以及正则化技术（如L1和L2正则化）的应用。LR和最大熵模型（MaxEnt）虽然都是概率模型，但LR更侧重于线性关系，而MaxEnt则更灵活，能处理非线性问题。面试者会被要求深入理解过拟合（overfitting）问题及其解决方案，如Dropout（随机失活）、正则化（如L1/L2正则化）和批标准化等策略。这些方法旨在提高模型的泛化能力，防止过度适应训练数据。最后，面试者可能会被询问LR与SVM之间的联系和区别。两者都能处理分类问题，尤其是线性问题，但SVM更强调间隔最大化，对非线性可转换数据有更好的适应性。而LR是参数模型，依赖于明确的模型参数估计，而SVM更依赖于核函数来处理非线性问题。并行化实现也是考察的一个环节，面试者可能被要求讨论如何在LR中实现并行化，以及他们熟悉的开源实现。理解这些概念的工程实践对于机器学习工程师来说至关重要。

时候，损失等高线是一个椭圆的形状，这样我想迭代到最优点，就需要很多次迭

代，但是如果进行了归一化，那么等高线就是圆形的，那么 SGD 就会往原点迭

代，需要的迭代次数较少。

另外，注意树模型是不能进行梯度下降的，因为树模型是阶跃的，阶跃点是

不可导的，并且求导没意义，所以树模型（回归树）寻找最优点事通过寻找最优

分裂点完成的。

数据归一化（或者标准化，注意归一化和标准化不同）的原因

能不归一化最好不归一化，之所以进行数据归一化是因为各维度的量纲不相

同。而且需要看情况进行归一化。

有些模型在各维度进行了不均匀的伸缩后，最优解与原来不等价（如 SVM）

需要归一化。

有些模型伸缩有与原来等价，如：LR 则不用归一化，但是实际中往往通过

迭代求解模型参数，如果目标函数太扁（想象一下很扁的高斯模型）迭代算法会

发生不收敛的情况，所以最坏进行数据归一化。

补充：其实本质是由于 loss 函数不同造成的，SVM 用了欧拉距离，如果一

个特征很大就会把其他的维度 dominated。而 LR 可以通过权重调整使得损失函

数不变。

请简要说说一个完整机器学习项目的流程

1 抽象成数学问题

明确问题是进行机器学习的第一步。机器学习的训练过程通常都是一件非常

耗时的事情，胡乱尝试时间成本是非常高的。

这里的抽象成数学问题，指的我们明确我们可以获得什么样的数据，目标是

一个分类还是回归或者是聚类的问题，如果都不是的话，如果划归为其中的某类

问题。

2 获取数据

数据决定了机器学习结果的上限，而算法只是尽可能逼近这个上限。

数据要有代表性，否则必然会过拟合。

而且对于分类问题，数据偏斜不能过于严重，不同类别的数据数量不要有数

个数量级的差距。

而且还要对数据的量级有一个评估，多少个样本，多少个特征，可以估算出

其对内存的消耗程度，判断训练过程中内存是否能够放得下。如果放不下就得考

虑改进算法或者使用一些降维的技巧了。如果数据量实在太大，那就要考虑分布

式了。

3 特征预处理与特征选择

良好的数据要能够提取出良好的特征才能真正发挥效力。

特征预处理、数据清洗是很关键的步骤，往往能够使得算法的效果和性能得

到显著提高。归一化、离散化、因子化、缺失值处理、去除共线性等，数据挖掘

过程中很多时间就花在它们上面。这些工作简单可复制，收益稳定可预期，是机

器学习的基础必备步骤。

筛选出显著特征、摒弃非显著特征，需要机器学习工程师反复理解业务。这

对很多结果有决定性的影响。特征选择好了，非常简单的算法也能得出良好、稳

定的结果。这需要运用特征有效性分析的相关技术，如相关系数、卡方检验、平

均互信息、条件熵、后验概率、逻辑回归权重等方法。

4 训练模型与调优

直到这一步才用到我们上面说的算法进行训练。现在很多算法都能够封装成

黑盒供人使用。但是真正考验水平的是调整这些算法的（超）参数，使得结果变

得更加优良。这需要我们对算法的原理有深入的理解。理解越深入，就越能发现

问题的症结，提出良好的调优方案。

5 模型诊断

如何确定模型调优的方向与思路呢？这就需要对模型进行诊断的技术。

过拟合、欠拟合判断是模型诊断中至关重要的一步。常见的方法如交叉验证，

绘制学习曲线等。过拟合的基本调优思路是增加数据量，降低模型复杂度。欠拟

合的基本调优思路是提高特征数量和质量，增加模型复杂度。

误差分析也是机器学习至关重要的步骤。通过观察误差样本，全面分析误差

产生误差的原因:是参数的问题还是算法选择的问题，是特征的问题还是数据本

身的问题……

诊断后的模型需要进行调优，调优后的新模型需要重新进行诊断，这是一个

反复迭代不断逼近的过程，需要不断地尝试，进而达到最优状态。

6 模型融合

一般来说，模型融合后都能使得效果有一定提升。而且效果很好。

工程上，主要提升算法准确度的方法是分别在模型的前端（特征清洗和预处

理，不同的采样模式）与后端（模型融合）上下功夫。因为他们比较标准可复制，

效果比较稳定。而直接调参的工作不会很多，毕竟大量数据训练起来太慢了，而

且效果难以保证。

7 上线运行

这一部分内容主要跟工程实现的相关性比较大。工程上是结果导向，模型在

线上运行的效果直接决定模型的成败。不单纯包括其准确程度、误差等情况，还

包括其运行的速度(时间复杂度)、资源消耗程度（空间复杂度）、稳定性是否可

接受。

这些工作流程主要是工程实践上总结出的一些经验。并不是每个项目都包含

完整的一个流程。这里的部分只是一个指导性的说明，只有大家自己多实践，多

积累项目经验，才会有自己更深刻的认识。

逻辑斯特回归为什么要对特征进行离散化

在工业界，很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特

征离散化为一系列 0、1 特征交给逻辑回归模型，这样做的优势有以下几点：

离散特征的增加和减少都很容易，易于模型的快速迭代；

稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；

离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30 是 1，

否则 0。如果特征没有离散化，一个异常数据“年龄 300 岁”会给模型造成很大的

干扰；

逻辑回归属于广义线性模型，表达能力受限；单变量离散化为 N 个后，每个

变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大

拟合；

离散化后可以进行特征交叉，由 M+N 个变量变为 M*N 个变量，进一步引

入非线性，提升表达能力；

特征离散化后，模型会更稳定，比如如果对用户年龄离散化，20-30 作为一

个区间，不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区

间相邻处的样本会刚好相反，所以怎么划分区间是门学问；

特征离散化以后，起到了简化了逻辑回归模型的作用，降低了模型过拟合的

风险。

李沐曾经说过：模型是使用离散特征还是连续特征，其实是一个“海量离散

特征+简单模型”同“少量连续特征+复杂模型”的权衡。既可以离散化用线性模型，

也可以用连续特征加深度学习。就看是喜欢折腾特征还是折腾模型了。通常来说，

前者容易，而且可以 n 个人一起并行做，有成功经验；后者目前看很赞，能走多

远还须拭目以待。

new 和 malloc 的区别

1.malloc 与 free 是 C++/C 语言的标准库函数，new/delete 是 C++的运算符。

它们都可用于申请动态内存和释放内存。

2.对于非内部数据类型的对象而言，光用 maloc/free 无法满足动态对象的要

求。对象在创建的同时要自动执行构造函数，对象在消亡之前要自动执行析构函

数。由于 malloc/free 是库函数而不是运算符，不在编译器控制权限之内，不能够

把执行构造函数和析构函数的任务强加于 malloc/free。

3.因此 C++语言需要一个能完成动态内存分配和初始化工作的运算符 new，

以一个能完成清理与释放内存工作的运算符delete。注意new/delete不是库函数。

4.C++程序经常要调用 C 函数，而 C 程序只能用 malloc/free 管理动态内存

hash 冲突及解决办法

关键字值不同的元素可能会映象到哈希表的同一地址上就会发生哈希冲突。

解决办法：

1）开放定址法：当冲突发生时，使用某种探查(亦称探测)技术在散列表中形

成一个探查(测)序列。沿此序列逐个单元地查找，直到找到给定的关键字，或者

碰到一个开放的地址(即该地址单元为空)为止（若要插入，在探查到开放的地址，

则可将待插入的新结点存人该地址单元）。查找时探查到开放的地址则表明表中

无待查的关键字，即查找失败。

2）再哈希法：同时构造多个不同的哈希函数。

3）链地址法：将所有哈希地址为 i 的元素构成一个称为同义词链的单链表，

并将单链表的头指针存在哈希表的第 i 个单元中，因而查找、插入和删除主要在

同义词链中进行。链地址法适用于经常进行插入和删除的情况。

4）建立公共溢出区：将哈希表分为基本表和溢出表两部分，凡是和基本表

发生冲突的元素，一律填入溢出表。

下列哪个不属于 CRF 模型对于 HMM 和 MEMM 模型的优势（B）

A.特征灵活 B.速度快 C.可容纳较多上下文信息 D.全局最优

首先，CRF，HMM(隐马模型)，MEMM(最大熵隐马模型)都常用来做序列标

注的建模.

隐马模型一个最大的缺点就是由于其输出独立性假设，导致其不能考虑上下

文的特征，限制了特征的选择

最大熵隐马模型则解决了隐马的问题，可以任意选择特征，但由于其在每一

节点都要进行归一化，所以只能找到局部的最优值，同时也带来了标记偏见的问

题，即凡是训练语料中未出现的情况全都忽略掉

条件随机场则很好的解决了这一问题，他并不在每一个节点进行归一化，而

是所有特征进行全局归一化，因此可以求得全局的最优值。

什么是熵

从名字上来看，熵给人一种很玄乎，不知道是啥的感觉。其实，熵的定义很

简单，即用来表示随机变量的不确定性。之所以给人玄乎的感觉，大概是因为为

何要取这样的名字，以及怎么用。

熵的概念最早起源于物理学，用于度量一个热力学系统的无序程度。在信息

论里面，熵是对不确定性的测量。

熵的引入

事实上，熵的英文原文为 entropy，最初由德国物理学家鲁道夫·克劳修斯提

出，其表达式为：

它表示一个系系统在不受外部干扰时，其内部最稳定的状态。后来一中国学

者翻译 entropy 时，考虑到 entropy 是能量 Q 跟温度 T 的商，且跟火有关，便把

entropy 形象的翻译成“熵”。

我们知道，任何粒子的常态都是随机运动，也就是"无序运动"，如果让粒子

呈现"有序化"，必须耗费能量。所以，温度（热能）可以被看作"有序化"的一种

度量，而"熵"可以看作是"无序化"的度量。

如果没有外部能量输入，封闭系统趋向越来越混乱（熵越来越大）。比如，

如果房间无人打扫，不可能越来越干净（有序化），只可能越来越乱（无序化）。

而要让一个系统变得更有序，必须有外部能量的输入。

1948 年，香农 ClaudeE.Shannon 引入信息（熵），将其定义为离散随机事件

的出现概率。一个系统越是有序，信息熵就越低；反之，一个系统越是混乱，信

息熵就越高。所以说，信息熵可以被认为是系统有序化程度的一个度量。

熵、联合熵、条件熵、相对熵、互信息的定义

为了更好的理解，需要了解的概率必备知识有：

大写字母 X 表示随机变量，小写字母 x 表示随机变量 X 的某个具体的取值；

P(X)表示随机变量 X 的概率分布，P(X,Y)表示随机变量 X、Y 的联合概率分

布，P(Y|X)表示已知随机变量 X 的情况下随机变量 Y 的条件概率分布；

p(X=x)表示随机变量 X 取某个具体值的概率，简记为 p(x)；

p(X=x,Y=y)表示联合概率，简记为 p(x,y)，p(Y=y|X=x)表示条件概率，简记

为 p(y|x)，且有：p(x,y)=p(x)*p(y|x)。

剩余174页未读，继续阅读

LeanYan

粉丝: 0
资源: 1

机器学习面试精华：SVM、Tensorflow与距离比较

BAT机器学习面试题库：体系化1000题详解

机器学习面试题库：24份精选试题大总结

BAT机器学习面试宝典：1000题深度解析与体系构建

BAT机器学习面试1000题系列

机器学习面试约300题系列

leetcode下载-BAT-ML-1000:BAT机器学习面试1000题系列

机器学习面试题汇总-七月在线

机器学习、深度学习面试笔试题300+.pdf

1000面试题，BAT机器学习面试刷题宝典.rar

机器学习&编程面试笔试题

最新资源