深度学习面试必备:神经网络基础与激活函数解析

需积分: 0 17 下载量 105 浏览量 更新于2024-08-05 2 收藏 1.3MB PDF 举报
"这篇博客是关于深度学习和机器学习面试问题的整理,涵盖了神经网络基础、梯度消失和梯度爆炸、以及常见的激活函数等核心知识点。" 深度学习是当前人工智能领域的重要分支,主要依赖于神经网络模型进行复杂的模式识别和预测任务。在面试或笔试中,对深度学习的理解通常包括其基本构成和算法原理。以下是深度学习的一些关键知识点: 1. **神经网络基础**: - **Backpropagation(反向传播)**:反向传播是训练神经网络的核心算法,它利用链式法则计算损失函数对网络中每个参数的梯度,从而更新参数。在初始化参数时,应避免所有参数均为0,以防止对称失效,即所有神经元产生相同的输出。 2. **梯度消失与梯度爆炸**: - **梯度消失**:主要发生在使用sigmoid或tanh这类在饱和区导数接近0的激活函数时,反向传播过程中梯度逐层衰减,导致网络的前面层几乎无法更新,影响学习效果。 - **梯度爆炸**:相反,如果激活函数导数较大且权重初始值过大,可能导致梯度的快速增长,同样不利于网络训练。这种情况相对较罕见,但仍然需要关注。 3. **激活函数**: - **Sigmoid**:其输出范围在(0,1)之间,存在梯度消失问题,且不是中心对称,容易导致训练中的梯度消失问题。 - **ReLU (Rectified Linear Unit)**:解决了梯度消失问题,但在负区间为0,可能导致“死亡ReLU”现象,即某些神经元永远不会被激活。 - **Leaky ReLU**:为了解决ReLU的问题,它在负区间有一个小的斜率,允许少量负向信号传递。 - **ELU (Exponential Linear Units)**:进一步改善了ReLU,通过指数形式在负区间平滑了输出,有助于改善梯度消失并加快收敛速度。 - **ReLU6**:在ReLU的基础上限制了输出范围在[0,6],常用于计算机视觉任务,如MobileNetV2等模型。 - **Softmax**:常用于多分类任务,将神经元的激活值转换为概率分布。 此外,描述中提及的数据增强和池化技术也是深度学习中的重要概念。**数据增强**通过旋转、翻转、裁剪等方式增加训练数据的多样性,帮助模型泛化能力提升。**池化操作**则用于减少数据的维度,降低计算复杂度,同时保持特征的局部信息。 对于卷积神经网络(CNN),1x1和3x3的卷积核以及2x2的最大池化是常见的设计。1x1卷积可以用来减少通道数,降低模型复杂度;3x3卷积可以捕获局部特征;2x2最大池化则可以减小特征图的尺寸,提高计算效率。 最后,三个卷积层加一个最大池化,再加上三个全连接层,这种网络结构通常用于图像识别任务,如AlexNet或VGGNet。这些全连接层负责从卷积层提取的特征中学习全局模式,最终实现分类或回归。 在机器学习面试中,对这些基础知识的深入理解是必不可少的,面试者还需要掌握优化算法(如梯度下降、Adam)、损失函数、正则化策略等方面的知识,以展示全面的理论和技术能力。
2018-03-07 上传
BAT机器学习面试1000题系列 1 前言 1 BAT机器学习面试1000题系列 2 1 归一化为什么能提高梯度下降法求解最优解的速度? 22 2 归一化有可能提高精度 22 3 归一化的类型 23 1)线性归一化 23 2)标准差标准化 23 3)非线性归一化 23 35. 什么是熵。机器学习 ML基础 易 27 熵的引入 27 3.1 无偏原则 29 56. 什么是卷积。深度学习 DL基础 易 38 池化,简言之,即取区域平均或最大,如下图所示(图引自cs231n) 40 随机梯度下降 46 批量梯度下降 47 随机梯度下降 48 具体步骤: 50 引言 72 1. 深度有监督学习在计算机视觉领域的进展 73 1.1 图像分类(Image Classification) 73 1.2 图像检测(Image Dection) 73 1.3 图像分割(Semantic Segmentation) 74 1.4 图像标注–看图说话(Image Captioning) 75 1.5 图像生成–文字转图像(Image Generator) 76 2.强化学习(Reinforcement Learning) 77 3深度无监督学习(Deep Unsupervised Learning)–预测学习 78 3.1条件生成对抗网络(Conditional Generative Adversarial Nets,CGAN) 79 3.2 视频预测 82 4 总结 84 5 参考文献 84 一、从单层网络谈起 96 二、经典的RNN结构(N vs N) 97 三、N VS 1 100 四、1 VS N 100 五、N vs M 102 Recurrent Neural Networks 105 长期依赖(Long-Term Dependencies)问题 106 LSTM 网络 106 LSTM 的核心思想 107 逐步理解 LSTM 108 LSTM 的变体 109 结论 110 196. L1与L2范数。机器学习 ML基础 易 163 218. 梯度下降法的神经网络容易收敛到局部最优,为什么应用广泛?深度学习 DL基础 中 178 @李振华,https://www.zhihu.com/question/68109802/answer/262143638 179 219. 请比较下EM算法、HMM、CRF。机器学习 ML模型 中 179 223. Boosting和Bagging 181 224. 逻辑回归相关问题 182 225. 用贝叶斯机率说明Dropout的原理 183 227. 什么是共线性, 跟过拟合有什么关联? 184 共线性:多变量线性回归中,变量之间由于存在高度相关关系而使回归估计不准确。 184 共线性会造成冗余,导致过拟合。 184 解决方法:排除变量的相关性/加入权重正则。 184 勘误记 216 后记 219