机器学习与数据挖掘：求职者必看的公司趋势与面试技巧

机器学习

需积分: 9 47 浏览量更新于2024-07-18 1 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

在这个分享中，作者superxu作为一名已经就职于互联网行业的专业人士，回顾了他们在面试过程中遇到的相关机器学习与数据挖掘领域的考察点，旨在帮助求职者更好地准备面试。讨论的主题涵盖了算法设计、深度学习基础以及实际应用中的挑战。首先，作者提到了两个面试中的算法题。一个是求解中位数问题，采用快排方法结合丢弃小于数组长度一半部分的数据，目标是达到较低的时间复杂度。另一个是快速找到最大最小值，通过维护一个包含两个元素的小数组（min和max）来动态更新，这种方法保证了线性时间复杂度O(n)。在深度学习面试环节，面试官深入探讨了卷积神经网络(CNN)的特性。CNN因其局部感知野（通过卷积层实现）、参数共享（减少模型复杂度）、多卷积核和池化（降低过拟合和提高模型泛化能力）而被广泛应用。面试者被问到CNN适用的场景，包括降采样保持信息完整性和提取局部特征的场景。与CNN相比，全连接神经网络(DNN)虽然具有更多层次，但容易陷入局部最优和梯度消失问题，通过引入ReLU和LSTM解决这些问题。然而，DNN的全连接结构导致参数膨胀和过拟合，而CNN通过卷积层解决了这一问题，降低了参数数量并利用了图像中的局部结构。 RNN（循环神经网络）也被提及，面试者被要求画出其结构图，并分享在深度学习过程中遇到的问题，如模型不收敛和梯度消失。面对过拟合，他们提到了应对策略，如参数正则化、数据增强、早停法、参数共享、集成学习方法（如bagging）以及Dropout技术。这位作者分享的面试经验强调了对基础算法的理解、深度学习模型的特点及其在实际场景的应用，以及解决深度学习中常见问题的方法，这些都是求职者在面试中展示技术实力和解决问题能力的重要部分。

资源详情

资源推荐

w），另一方面因为LR的损失函数是交叉熵，由于均匀分布的交叉熵时熵最大，不确定性

越大，所以LR的目标是要使交叉熵越小越好，而sigmod函数值取0.5的不确定性的输入值

特别少，所以通过最大熵原则可以得出sigmod函数适合LR算法。

1.sigmoid过饱和、丢失了梯度。2.sigmoid的输出不是零中心的

解释下过拟合

样本在训练数据集上表现的很好，在测试数据集上效果很差

数据类别不均衡的处理方法

对大类数据进行欠采样，对小类数据进行过采样，使用代价函数学习每个类的权值，大

类的权值小，小类的权值小。

XGBoost相对于GBDT有什么不同

GBDT时基于CART作为基分类器的，XGBoost还支持线性分类器（相当于XGBoost带L1

和L2正则化的LR或者线性回归）

XGB在代价函数里加入了正则项，用于控制模型的复杂度。正则项里包含了树的叶子

节点个数，每个叶子节点输出的Score的L2模的平方和。，所以XGB降低了方差，使得模型

更加的简单，防止了过拟合，这是XGB相对于GDBT的一个优势。

列采样，XGB借鉴了RF的做法，支持列采样抽样，不仅能降低过拟合，还能减少计算，

而GBDT算法没有这个特性。

对缺失值的处理。对于特征的值有缺失的样本，XGB可以自动学习出它的分裂方向。

XGB支持并行（是在对特征的值进行排序的时候（确定最佳分割点），XGB在训练之

前，预先对数据进行了排序，然后保存为block结构，后面的迭代中重复使用这个结构。，

在进行节点的分裂时，需要计算每个特征的增益，最终选增益最大的那个特征去做分裂，那

么各个特征的增益计算就可以使用多线程的方式进行。

人工处理特征与使用模型自动生成一些特征各有什么优劣？

人工提取的话能够结合自己对特定任务的认识而加入一些比较重要的特征，如果你的模

型的loss函数定义的好，那么模型特征就有优势，但是如果你的loss函数不能定义或者定义

地不好，那么模型的特征可能不如人工的特征

你提到你感觉一个比赛里比另一差的原因是特征这方面，但我看你写到

构造了交叉特征，请问构造了哪些交叉特征？为什么还是差呢？(这里

针对交叉特征的定义纠结了一段)

LR+XGBoost或者FM+XGBoost，于是我提了一下了解的用来做ctr预估的应用，但是

感觉面试官并不满意）

剩余34页未读，继续阅读

算法驯化师

粉丝: 3641
资源: 7

机器学习与数据挖掘：求职者必看的公司趋势与面试技巧

遥感课后思考题 遥感概论

数据挖掘工程师岗位职责.docx

大数据开发岗位任职要求

目前就职于互联网金融公司，结合上诉我的职责，您觉得我在组织中的位置和发挥的作用可以从哪些方面体现？

帮我写一个全栈数据分析师的JD

信息枢纽数据科学与分析学域 王炜

读取“招聘信息.xlsx”，词云方式展现样本涉及专业技术、工具，分析各个技术、工具名词占比，尝试给出行业领域、技术栈 与薪资之间的关系。最终总结出3个最值得学习的技术栈代码

软件工程要就职大数据开发工程师需要什么

1.内容：选取理工校史、学科专业史某一视角，如可以阐释老校长王大珩精神、理工校训、理工建校史、人工智能专业发展、人工智能领域某一有卓越贡献人物等都可以。

Python数据分析师岗位说明书

前程无忧网数据采集分析

在快递公司任职，对客诉数据进行业务分析需要哪些数据

基于大数据的招聘信息数据分析系统应该怎么实现

在快递公司任职，如何对客诉数据进行业务分析

写一个电气维修工的职位说明书 包括工作概要、工作职责、工作权限、工作联系、考核要点、工作规范、任职资格 其中任职资格包括了年龄要求、性别要求、学历要求、工作经验、应掌握的知识技能、性格要求、素质要求等

请给出工程师、研究员、教师三个岗位的工作内容和任职要求

最新资源

遥感课后思考题遥感概论

信息枢纽数据科学与分析学域王炜

读取“招聘信息.xlsx”，词云方式展现样本涉及专业技术、工具，分析各个技术、工具名词占比，尝试给出行业领域、技术栈与薪资之间的关系。最终总结出3个最值得学习的技术栈代码

写一个电气维修工的职位说明书包括工作概要、工作职责、工作权限、工作联系、考核要点、工作规范、任职资格其中任职资格包括了年龄要求、性别要求、学历要求、工作经验、应掌握的知识技能、性格要求、素质要求等