深度学习面试热门：DNN、CNN、RNN解析与优化策略

需积分: 0 196 浏览量更新于2024-08-05 1 收藏 1.51MB PDF 举报

"这篇CSDN博客文章主要讨论了面试中常见的深度学习相关问题，包括DNN（深度神经网络）、CNN（卷积神经网络）和RNN（循环神经网络）的一些核心概念和技术。作者提到了如何处理神经网络训练中遇到的问题，如优化策略、网络结构的选择以及防止过拟合的方法。" 深度学习是现代人工智能领域的一个关键组成部分，它通过多层非线性处理单元的大型神经网络模型来解决复杂任务，如图像识别、自然语言处理和推荐系统等。DNN、CNN和RNN是深度学习中的三种重要模型。 1. 深度神经网络（DNN）：DNN通过增加网络的深度（层数）来提高模型的表达能力。更多的层意味着更多的非线性变换，有助于捕捉更复杂的模式。但是，深度网络容易陷入局部最优，解决办法包括调整学习率和初始化权重。 2. 卷积神经网络（CNN）：CNN在图像处理中表现出色，因为它能够自动学习和提取图像的特征。其核心组件是卷积层和池化层，前者用于检测局部特征，后者则用于降低计算复杂度和捕获重要特征。合理的权重初始化对CNN的训练也至关重要。 3. 循环神经网络（RNN）：RNN适用于处理序列数据，如文本和音频，因为它们具有记忆能力。然而，标准RNN可能会遇到梯度消失或爆炸的问题，LSTM（长短时记忆网络）和GRU（门控循环单元）是为了解决这些问题而提出的变体。对于训练过程中的优化，文章提到了以下策略： - 学习率调整：通过动态改变学习率，可以让网络在训练初期快速探索参数空间，而在后期精细调整。 - 权重初始化：合理的初始权重可以帮助网络更快收敛，如Gaussiandistribution、Uniformdistribution、Glorot初始化和He初始化。 - 预训练：预训练网络可以在相关任务上学习到初步的特征，然后在目标任务上微调，有助于提升性能。防止过拟合的措施包括： - L2正则化：通过添加权重的平方和到损失函数中，抑制权重过大，防止过拟合。 - Dropout：随机丢弃一部分神经元，强制网络学习更鲁棒的特征。 - 数据洗牌：每次训练前随机排列数据，避免模型过度依赖数据顺序。 - Early-stopping：监控验证集性能，当验证性能不再提升时停止训练。 - BatchNormalization：标准化输入，减少内部协变量漂移，加速训练并改善模型泛化能力。理解并掌握这些深度学习的基本原理和技巧对于面试和实际项目开发都是非常重要的。通过不断学习和实践，我们可以更好地应对深度学习中的挑战，构建出更强大的AI系统。

2018/5/15 面试常问的深度学习(DNN、CNN、RNN)的相关问题 - CSDN博客

https://blog.csdn.net/xwd18280820053/article/details/76026523 3/8

原

面试常问的深度学习(DNN、CNN、RNN)的相关问题

2017年07月24日 16:46:40 阅读数：3790

神经网络

的学习就是学习如何利用矩阵的线性变换加激活函数的非线性变换，将原始输入空间投向线性可分/稀疏的空间去分类/回归。增加

节点数：增加维度，即增加线性转换能力。增加层数：增加激活函数的次数，即增加非线性转换次数。

对卡在局部极小值的处理方法：

1.调节步伐：调节学习速率，使每一次的更新“步伐”不同；2.优化起点：合理初始化权重（weights initialization）、预训练网

络（pre-train），使网络获得一个较好的“起始点”，如最右侧的起始点就比最左侧的起始点要好。常用方法有：高斯分布初始

权重（Gaussian distribution）、均匀分布初始权重（Uniform distribution）、Glorot 初始权重、He初始权、稀疏矩阵初始权

重（sparse matrix）。

浅层VS深层：

浅层神经网络可以模拟任何函数，但数据量的代价是无法接受的。深层解决了这个问题。相比浅层神经网络，深层神经网络可以用

更少的数据量来学到更好的拟合。深层的前提是：空间中的元素可以由迭代发展而来的。

防止过拟合：

L2正则化，Dropout(若规律不是在所有样本中都存在,则dropout会删除这样的规律)，每个epoch之后shuffle训练数据，设置earl

y-stopping。加Batch Normalization(BN首先是把所有的samples的统计分布标准化，降低了batch内不同样本的差异性，然后

又允许batch内的各个samples有各自的统计分布)，BN最大的优点为允许网络使用较大的学习速率进行训练，加快网络的训练速

度（减少epoch次数），提升效果。

为何使用Batch Normalization：

若用多个梯度的均值来更新权重的批量梯度下降法可以用相对少的训练次数遍历完整个训练集，其次可以使更新的方向更加贴合整

个训练集，避免单个噪音样本使网络更新到错误方向。然而也正是因为平均了多个样本的梯度，许多样本对神经网络的贡献就被其

他样本平均掉了，相当于在每个epoch中，训练集的样本数被缩小了。batch中每个样本的差异性越大，这种弊端就越严重。一般

的解决方法就是在每次训练完一个epoch后，将训练集中样本的顺序打乱再训练另一个epoch，不断反复。这样重新组成的batch

中的样本梯度的平均值就会与上一个epoch的不同。而这显然增加了训练的时间。同时因为没办法保证每次更新的方向都贴合整个

训练集的大方向，只能使用较小的学习速率。这意味着训练过程中，一部分steps对网络最终的更新起到了促进，一部分steps对网

络最终的更新造成了干扰，这样“磕磕碰碰”无数个epoch后才能达到较为满意的结果。

为了解决这种“不效率”的训练，BN首先是把所有的samples的统计分布标准化，降低了batch内不同样本的差异性，然后又允许

batch内的各个samples有各自的统计分布。

1. 为什么神经网络高效：并行的先验知识使得模型可用线性级数量的样本学习指数级数量的变体

2. 学习的本质是什么：将变体拆分成因素和知识（Disentangle Factors of Variation）

i. 为什么深层神经网络比浅层神经网络更高效：迭代组成的先验知识使得样本可用于帮助训练其他共用同样底层结构的样

本。

ii. 神经网络在什么问题上不具备优势：不满足并行与迭代先验的任务

3. 非迭代：该层状态不是由上层状态构成的任务（如：很深的CNN因为有max pooling，信息会逐渐丢失。而residual networ

k再次使得迭代的先验满足）

CNN:

1）卷积：对图像元素的矩阵变换，是提取图像特征的方法，多种卷积核可以提取多种特征。一个卷积核覆盖的原始

图像的范围叫做感受野（权值共享）。一次卷积运算(哪怕是多个卷积核)提取的特征往往是局部的，难以提取出比较

全局的特征，因此需要在一层卷积基础上继续做卷积计算，这也就是多层卷积。

加入CSDN，享受更精准的内容推荐，与500万程序员共同成长！

下载后可阅读完整内容，剩余5页未读，立即下载

袁大岛

粉丝: 39
资源: 305

深度学习面试热门：DNN、CNN、RNN解析与优化策略

机器学习算法教程 深度学习算法系列教程英文PPT课件 DNN深度学习技巧 共49页.pptx

深度学习入门教材

DNN CNN RNN

如何利用Python和深度学习框架实现一个猫狗图像分类器，并对比CNN、DNN、RNN模型的性能？

在Python环境下，使用深度学习框架构建猫狗图像分类器时，如何比较CNN、DNN和RNN模型的分类效果？

在Python环境下，如何构建一个猫狗图像分类器，并评估CNN、DNN和RNN模型的性能差异？

机器学习算法教程 深度学习算法系列教程英文PPT课件 深度学习 共31页.pptx

深度学习21个项目实例

基于深度学习的人脸识别考勤系统.zip

机器学习算法教程 深度学习算法系列教程英文PPT课件 迁移学习 共38页.pptx

最新资源

机器学习算法教程深度学习算法系列教程英文PPT课件 DNN深度学习技巧共49页.pptx

机器学习算法教程深度学习算法系列教程英文PPT课件深度学习共31页.pptx

机器学习算法教程深度学习算法系列教程英文PPT课件迁移学习共38页.pptx