
89.推导朴素贝叶斯分类 P(c|d),文档 d(由若干 word 组成),求该文档属于类别 c 的概率, 并说明公式中哪些
概率可以利用训练集计算得到
91.请写出你对 VC 维的理解和认识
92.kmeans 聚类中,如何确定 k 的大小
94.怎么理解“机器学习的各种模型与他们各自的损失函数一一对应?”
95.给你一个有 1000 列和 1 百万行的训练数据集。这个数据集是基于分类问题的。
经理要求你来降低该数据集的维度以减少模型计算时间。你的机器内存有限。你会怎么做?
96.在 PCA 中有必要做旋转变换吗?如果有必要,为什么?如果你没有旋转变换那些成分,会发生什么情况?
97.给你一个数据集,这个数据集有缺失值,且这些缺失值分布在离中值有 1 个标准偏差的范围内。百分之多少的数
据不会受到影响?为什么?
98.给你一个癌症检测的数据集。你已经建好了分类模型,取得了 96%的精度。为什么你还是不满意你的模型性能?
你可以做些什么呢?
99.解释朴素贝叶斯算法里面的先验概率、似然估计和边际似然估计?
100.你正在一个时间序列数据集上工作。经理要求你建立一个高精度的模型。你开始用决策树算法,因为你知道它
在所有类型数据上的表现都不错。后来,你尝试了时间序列回归模型,并得到了比决策树模型更高的精度。这种情
况会发生吗?为什么?
101.给你分配了一个新的项目,是关于帮助食品配送公司节省更多的钱。问题是,公司的送餐队伍没办法准时送餐。
结果就是他们的客户很不高兴。最后为了使客户高兴,他们只好以免餐费了事。哪个机器学习算法能拯救他们?
102.你意识到你的模型受到低偏差和高方差问题的困扰。应该使用哪种算法来解决问题呢?为什么?
103.给你一个数据集。该数据集包含很多变量,你知道其中一些是高度相关的。
107.KNN 和 KMEANS 聚类有什么不同?
112.是否有可能捕获连续变量和分类变量之间的相关性?如果可以的话,怎样做?
113.Gradient boosting 算法(GBM)和随机森林都是基于树的算法,它们有什么区别?
114.运行二元分类树算法很容易,但是你知道一个树是如何做分割的吗,即树如何决定把哪些变量分到哪个根节点
和后续节点上?
115.你已经建了一个有 10000 棵树的随机森林模型。在得到 0.00 的训练误差后,你非常高兴。验证错误是 34.23。
到底是怎么回事?你还没有训练好你的模型吗?
116.你有一个数据集,变量个数 p 大于观察值个数 n。为什么用最小二乘法 OLS 是一个不好的选择?用什么技术最
好?为什么?
117.什么是凸包?(提示:想一想 SVM)。
118.我们知道,一位有效编码会增加数据集的维度。但是,标签编码不会。为什么?
119.你会在时间序列数据集上使用什么交叉验证技术?是用 k 倍或 LOOCV?
120.给你一个缺失值多于 30%的数据集?比方说,在 50 个变量中,有 8 个变量的缺失值都多于 30%。你对此如何处
理?
121.“买了这个的客户,也买了......”亚马逊的建议是哪种算法的结果?
122.你怎么理解第一类和第二类错误?
123.当你在解决一个分类问题时,出于验证的目的,你已经将训练集随机抽样地分成训练集和验证集。你对你的模
型能在未看见的数据上有好的表现非常有信心,因为你的验证精度高。但是,在得到很差的精度后,你大失所望。
什么地方出了错?
124.请简单阐述下决策树.回归.SVM.神经网络等算法各自的优缺点?
133.机器学习中的 L0.L1 与 L2 范数到底是什么意思?
144.线性回归要求因变量服从正态分布?
评论0