Dropout和BN：从理论到实践

64 浏览量更新于2023-10-18 收藏 1.16MB PDF 举报

测试模式

实践指南

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2682列车模式=1=0（1）测试模式= 1=0（1）��=��−��2019- 02-22�� 中文（简体）�� 中文（简体）��BN通过方差移位Xiang Li1，2，Shuo Chen1，Xiaolin Hu<$3 and Jian Yang 1，11南京理工大学PCALab2 Momenta3清华大学摘要本文首先回答了最强大的技术Dropout和Batch Normalization（BN）在许多现代神经网络中组合在一起时往往会导致更差的性能，但有时会像Wide ResNet（WRN）那样合作？“在理论和实践方面。从理论上讲，我们发现当我们将网络的状态从训练转移到测试时，Dropout会转移特定神经单元的方差。然而，BN保持其统计方差，这是从整个学习过程中积累的，在测试阶段。Dropout和BN中方差的不一致性（我们称之为“方差移位”）导致了推理中数值行为的不稳定，最终导致错误的预测。同时，WRN中的大特征维数进一步减少了对代表性的现代卷积网络（如~=3.53.02.52.01.51.00.50 20 4060 80 100DenseNet、ResNet、ResNeXt和Wide ResNet证实了我们的调查结果。根据所揭示的机制，我们在这两种技术的结合中得到了更好的理解，并总结了更好的实践指南。1. 介绍Srivastava等人[28]将Dropout作为防止神经网络过度拟合的简单方法它已被证明在大范围的机器学习领域中是非常有效的，例如图像分类[26，2]，语音识别[陈硕，杨健，李翔，陈翔，杨健，北京大学智能感知与高维信息系统重点实验室PCA实验室南京理工大学计算机科学与工程学院，江苏省社会保障图像与视频理解李翔也是Momenta的访问学者。电子邮件：xiang.li. njust.edu.cn†Xiaolin Hu是清华大学信息科学与技术国家实验室（TNList）计算机科学系的一名成员，清华大学科技学院。‡通讯作者。在CIFAR100上训练的DenseNet上的BN层索引图1. 上图：“方差偏移”的简化数学说明。在测试模式下，X的神经方差与由Dropout引起的训练模式下的不同，但BN试图将该方差视为从训练中积累的流行统计数据。请注意，p表示脱落保留率，a来自伯努利分布，其概率p为1。下：在CIFAR100数据集上训练的DenseNet实验统计数据的方差变化这两条曲线都是从相同的训练数据计算出来的。“mo ving var i“ 是第 i 个 BN 层在第 i 个 BN 层期间累积的移动方差（如果它是向量，则取其平均值）。而“real var i“代表推理中第i个BN层之前的神经响应的真实方差。识别[9，5，3]甚至自然语言处理[18，15]。在批量标准化（BN）诞生之前，它成为几乎所有最先进的网络的必需品，并且成功地提高了它们对抗过拟合风险的性能，尽管它令人惊讶地简单。Ioffe和Szegedy [17]证明了BN，一种强大的�� =��−��（��）+=~测试访问率77.42%，每个瓶颈中无脱落每个瓶颈中的测试加速率为68.55%，脱落率为0.5Dropout（L）~Bernoullireal_va ri ，moving _v ar i）max（moving_varireal_vari2683∼≤≤.Kp^B{}MMB′m−1^k kp k这些技能不仅加快了所有现代体系结构的速度，而且通过充当正则化器在其强大的基线上进行了改进。因此，BN已被采用在几乎所有最近的网络结构中[31，30，13，34]，并证明了其巨大的实用性和有效性。然而，上述两种强有力的方法在实践中结合在一起时总是无法获得额外的奖励[19]。事实上，当现代网络在其瓶颈块中同时配备BN和Dropout时，其性能甚至更差且不令人满意。[17]已经意识到BN在某些情况下消除了对Dropout的需要，因此证实BN直观地提供了与Dropout类似的正则化好处。在诸如ResNet/PreResNet [10，11]、ResNeXt[32]、DenseNet [16]等最近的架构中提供了更多证据有趣的是，最近的一项研究2. 相关工作和准备工作Dropout [28]可以解释为通过向其隐藏单元添加噪声来正则化神经网络的一种方式。具体地说，它涉及将隐藏激活乘以伯努利分布随机变量，这些随机变量以概率p（0p1）取值1，否则取值0。重要的是，测试方案与培训完全不同。在训练过程中，信息流通过动态子网络。在测试阶段，神经反应由Dropout保留比率缩放。为了近似共享参数的指数数量的学习模型的预测的相等加权几何平均值考虑特征向量x=（x1. . . xd），其中通道尺寸为d，x k=ak x k（k=1. . . d）在训练阶段，如果我们对x应用Dropout，其中kP来自伯努利分布[7]：ResNet（WRN）[33]表明，辍学是积极的，可以应用在WRN到目前为止，以前的线索给我们留下了一个迷-P（a）=1−p，ak=0p，ak=1、（1）关于辍学和国阵之间令人困惑和复杂的关系为什么它们在大多数常见的现代建筑中相互冲突？为什么他们有时候会像WRN那样友好地合作我们发现理解Dropout和BN之间不和谐的关键是神经元方差[12]在网络状态切换过程中的不一致行为考虑一个神经反应X，如图1所示1，当状态从训练改变为测试时，Dropout 将通过其Dropout 保留率（即p），其实际上改变神经方差，如在学习中。然而，BN仍然保持其X的统计移动方差，如在大多数常见的深度学习工具箱tensorflow [1]、pytorch [24]和mxnet [4]）实现。这种方差的不匹配可能导致不稳定性（见图1中的红色曲线）①的人。随着信号深入，数字-且a =（a1. . . a d）是独立伯努利向量随机变量在Dropout测试时，应通过将权重乘以以下因子来按比例缩小权重p. 如[28]中所介绍的，实现相同效果的另一种方法是通过在训练时乘以1并且在测试时不修改权重来扩大保留的激活。在实际应用中，它更受欢迎，因此我们在分析和实验中都使用了Dropout公式。因此，训练阶段的隐藏激活为：x=a1x，而在推理中，它变得简单如：x k= x k。批量归一化（BN）[17]提出了一种确定性-通过将每个神经元归一化为零均值和单位方差来控制信息流考虑小批量的x值（对于澄清度，x x k）：=x（1）. （m）对于m个实例，我们有“normalize”部分的形式最终预测的理论偏差可能会扩大，第一节（一）21美元（i）2（i）x（i）−µ降低系统我们将此方案命名为“方差移位”是为了简单起见。相反，在每个瓶颈块中没有Dropout，推断中的真实神经方差µ=xMi=1，σ= M（xi=1-µ），x^=σ2+，（二）能量似乎与积累的运动能量非常接近BN（见图中的蓝色曲线）1），这也以更高的测试精度被保留。从理论上推导出了现代网络瓶颈块在两种一般条件下的此外，从四个代表性的大范围的实验统计其中μ和σ2参与反向传播。注意我们不认为国阵的因为“方差漂移”的关键存在于其“归一化”部分。依赖于小批量的激活的归一化允许有效的训练，但在推理期间既不因此，BN在学习过程中累积神经均值和方差的移动平均值，以跟踪模型在训练时的准确性现代卷积网络（即，PreResNet、ResNeXt、DenseNet、Wide ResNet）在CIFAR 10/100数据集上的验证E移动（x）←E B（μ），V arMoving（x）←EB（σ2），（3）我们的发现最后，总结了理论和实验的认识，为实践提供了指导。其中，E（μ）表示多个′训练小批量B和EB（σ2）表示无偏方差估计的期望（即， m·EB（σ2））2684122Bpp→△≤△→Bpi=1pi=1wi aipxi在−Σ（a）.（b）.......辍学的财产由于上述定义，ai和aj也是相互独立的。3.1. 案例（a）图2.分析现代网络瓶颈块方差漂移的两种一般情况通过使用方差的定义并遵循上面的范例，我们得到V arTrain（ X）在多个训练小批次上。他们都是获得=1E（a2）E（x2）−1212 2通过移动平均值的实现[17]，并且在推理期间对于线性变换是固定的：p2kkp2（E（ak）E（xk））=（cp+v）−c.（五）在推断中，BN保持方差的移动平均值（即，x− E移动（ x）122x^=..（四）移动（x）+EB（p（c +v）−c））固定。也就是说，国阵希望来自输入12图像最初，应该接近EB（p（c+v）-3. 理论分析从表中可以注意到，Dropout仅通过其测试策略的近似来确保“指数数量的学习模型的预测的等加权几何平均值”，如原始论文[28]中所介绍的该方案提出了c2）。然而，Dropout在测试阶段打破了和谐，让X=xk得到V ar Test（X）=V ar（x k）= v。如果将V arTest（X）放入无偏方差估计中，′mate，它变成了E（v），这显然不同于′训练期间BN的流行统计量E（（c+v）c）-当应用Dropout（p1）时，则为ing。因此，移位比△通过下式获得：隐藏的单元在Dropout模型中未被探索因此中心思想是在BN层之前研究神经响应的方差，其中Dropout先前测试变量（X）△（p）=V arTrain（X）=v1（c2 + v）− c2.（六）应用。在[8]之后，我们首先从研究线性开始耳政权。此外，如果在该瓶颈块中的最后一个BN层之后应用漏失层，则在其之后将是下一个瓶颈块中的第一 BN 层。因此，我们只需要考虑在BN之前发生Dropout的情况。同时，我们还需要考虑Dropout和BN之间的卷积层数量。0或1个卷积层显然是必要的，但2个或更多个卷积层可以通过类似的分析归因最后，我们有两种情况下一般，如图所示。2. 重要的是，具有Dropout的Wide ResNet完全遵循情况（b）公式。在情况（a）中，BN层直接在Dropout层之后，并且我们仅需要考虑一个神经响应X =ak1x k，其中k =1。. . d，测试阶段为X=xk。在情况（b）中，特征向量x=（x1. . . x d）被传递到卷积层中（类似的推导可以被用于卷积层）。如果它是完全连接的层，则在这里被引导）以形成神经响应X。我们还将其相应的权重在情况（a）中，方差移位通过系数发生（p）1.由于现代神经网络具有深度前馈拓扑结构，偏离的数值运算可能导致后续层的数值输出更加不可控（图1）。①的人。随着网络的深入，它依次在每个BN层我们将证明，它直接导致最终预测的错位，并使系统在统计实验部分（例如，图第4节第4和第5段在这种设计中（即，BN直接跟随Dropout），如果我们想减轻方差转移风险，即，（p）1，我们唯一能做的就是消除Dropout，这意味着将Dropout保留率设置为p1。幸运的是，Dropout带来好处的架构（例如，在Wide ResNet中）不遵循这种类型的安排。事实上，他们采用图中的情况（b）。2，这在实践中比较常见，我们将在下面详细描述。3.2. 案例（b）为w =（w1. . . w d），因此我们得到X = d w i ai1x ii=1第1章训练和X=D wi xi用于测试。为了便于推导，我们假设输入都是来自具有均值c和方差v的相同分布（即， E（xi）=c，Var（xi）= v，v> 0，对任意i = 1. . . d）. 我们让ai和xi相互独立，考虑BNBN卷积辍学辍学Var′此时，X通过以下方式获得：′2685训练，其中w表示对应的权重对于x，以及应用的Dropout。为了方便，我们假设在训练的非常晚的时期中，w的权重保持恒定，假设梯度变得显著地接近于零。同样我们可以2686∈2i、j•→ ∞我i、jppi=1我=（i=1i）i=12我i=11i=1wi我Ip我我Ip我V ar（ a x）X1.00.90.80.70.60.50.40.30.20.10.0PreResNetResNeXt错误DenseNet0 20 40 60 80100网络的卷积层指数100806040200PreResNetResNeXt错误DenseNet0100020003000400050006000卷积滤波器的权维数d表1.四个代表性网络上所有卷积层的（cosθ）2和d（cosθ）2的平均值图3. （cosθ）2和d（cosθ）2的统计平均值。这四个现代架构是在没有Dropout的情况下CIFAR100，我们观察到（cosθ）2位于（d）w）2d1·w2（0。010 10）大约在每一个网络结构和各种数据集。有趣的是，项d（cosθ）在WRN中，d·dw2.2.第2章比其它网络上的那些更大，这主要是由于其更大的信道宽度D。将V arTrain（X）展开为：并且θ表示矢量w和矢量（1. . . 1）Rd.为了从经验上证明d（cosθ）2与d近似成线性关系，我们进行了大量的计算w.r.t项d（cosθ）2和（cosθ）2在CIFAR 10/100数据集上训练的四个现代体系结构1上（表1和图2）。3.2）。根据表1和图3.2我们观察到，d d2VarTrain（X）=Cov（wa1x，wa1x）（cosθ）位于（0. 010 10）稳定地在每一种类型的网-i=1Di=1Dd（七）成长从等式(10)不等式测试变量（X）<112−c2）（ωw2+ρaxωw），当p1时，如果我们希望V arTest（X）为=（（cp+v）我i=1Iji=1j/=i与V arTrain（X）接近，我们需要这项vρx+v−vρxd（cosθ）vρx（d（cosθ）2−1）+vaxCov（aixi，ajxj）△（p，d）=1v−vρx+（1−1）c2=vρx（d（cosθ）2−1）+1（c2+v）−c2其中ρi，j=Var（aixi）Var（ajxj）∈[-1，1]。为vρx+pppd（cosθ）2为了便于推导，我们将所有的线性相关系数简化为常数ρ ax= ρ ax，j =1。. . d，i j. 类似地，V arTest（X）由下式获得：（十二）接近1。有两种方法可以实现△（p，d）→1：• p→1：最大化丢弃保留率p（理想情况下d d最多为1，表示完全消除了辍学现象）;VarTest（X）=Cov（wixi，wixi）i=1Di=1Dd（八）d：使通道的宽度完全按照Wide ResNet确实放大了D。=v（ωw2+ρxωwiwj），i=1i=1j i4. 统计实验其中ρx=√Cov（xi，xj）[1，1]，我们也i、jV ar（xi）V ar（xj）我们进行了大量的统计实验，以检查有一个常数ρ x= ρ x，i，j = 1。. . d和ij。以来ai和xi，ai和aj相互独立，我们可以得到ρax和ρx之间的关系：本节中上述推导的正确性。采用了四种现代体系结构，包括DenseNet [16]，PreResNet [11]，ResNeXt [32]和Wide ResNet（WRN）[33]斧头Cov（ai xi，aj xj）CIFAR10和CIFAR100数据集。ρ=ρi，j=i i j jV V=ρ=ρx。（九）数据集。两个CIFAR数据集[20]由彩色自然场景图像组成，每个图像具有32×32像素的1（c2+v）−c2i、j1（c2+v）−c2训练集和测试集包含50k图像和10k图像分别CIFAR10（C10）有10个类，CIFAR100根据等式(7)，（8）和（9），情况（b）的方差偏移可以写为：测试变量（X）△（p，d）=V arTrain（X）（cos（θ））2的平均值d（cos（θ））2的平均值VarT rain（X）=（cosθ）2，（十一）功，而d（cosθ）2趋于平行增加，网络CIF2(cosθ）AR10d（cosθ）2CIFAR1002 2(cosθ）d（cosθ）PreResNet-110 [11]0.035462.918270.031692.59925ResNeXt-29 [32]0.0224414.782660.0246814.72835WRN-28-10 [33]0.0229252.735500.0211844.31261[16]第十六话0.015383.833900.013903.433252687−p（C100）有100。对于数据预处理，我们使用通道均值和标准差对数据进行归一化。对于数据增强，我们采用了一种广泛用于[11，16，21，23，22，27，29]的标准方案：图像被v+vρx（d（cosθ）21）=1（c2+v）−c2+vρx（d（cosθ）2−1），其中（cosθ）2来自表达式：（十）先用每边4个像素补零，然后用32×321对于滤波器尺寸大于1的卷积滤波器，如k×k，k >1，我们通过将其信道宽度d扩展到d×k×k，同时保持所有权重来对其进行矢量化。2688×G∈{}G3.03.01.201.202.52.51.151.152.02.01.101.101.51.51.051.051.00204060801001201401601801.00204060801001201401601801.000204060801001201401601801.00020406080100120140160180[Dropout-（a）C10] PreResNet[辍学-（a）C100] PreResNet[Dropout-（b）C10] PreResNet[Dropout-（b）C100] PreResNet3.03.01.201.202.52.51.151.152.02.01.101.101.51.51.051.051.00 5 10 15 20 25301.00 5 10 15 20 25301.000 5 10 15 20 25301.000 5 10 15 20 25 30[Dropout-（a）C10] ResNeXt上的BN指数[辍学-（a）C100] ResNeXt上的BN指数[Dropout-（b）C10] ResNeXt上的BN指数[辍学-（b）C100] ResNeXt3.03.01.201.202.52.51.151.152.02.01.101.101.51.51.051.051.005 10 15 2025[辍学-（a）C10]巴林王国关于世界资源网1.00 5 10 15 2025[辍学-（a）C100]关于WRN的1.000 5 10 15 2025[辍学-（b）C10]巴林王国关于WRN1.000 5 10 15 20 25[辍学----（b）C100]关于WRN的3.03.01.201.202.52.51.151.152.02.01.101.101.51.51.051.051.00 20 40 60 801001.00 20 40 60 801001.000 20 40 60 801001.000 20 40 60 80 100[Dropout-（a）C10] DenseNet上的BN指数2015105[辍学-（a）C100] DenseNet上的BN指数403530252015105[Dropout-（b）C10] DenseNet上的BN指数87654321[Dropout-（b）C100] DenseNet302520151050ResNeXtWRNDenseNet0ResNeXtWRNDenseNet0ResNeXtWRNDenseNet0ResNeXtWRNDenseNet辍学-（a）C10辍学-（a）C100辍学-（b）C10辍学-（b）C100图4. 按列查看。关于四个现代网络的BN层上的“方差移位”的可视化：1）辍学类型; 2）脱落率; 3）数据集，以及它们的测试错误率（第5行）。显然，WRN受Dropout的影响较小（例如，在第3行和第4列中），当Dropout-（b）下降比率≤ 0时。5，因此，它甚至在每个瓶颈中使用BN应用Dropout进行改进从它们中随机取样裁剪，并且一半的图像被水平翻转。网络与辍学。这四种现代架构都是从用pytorch编写的开源代码中选择的具体来说，有PreResNet-110[11]，ResNeXt-29，8 64 [32]，WRN-28-10 [33]和DenseNet-BC（L=100，k=12）[16]。由于BN层已经发展成为其主体结构的不可或缺的组成部分，因此我们安排了遵循图2中两种情况的Dropout。第二章：(a) 我们仅分配所有Dropout层，并且在这四个网络中的所有瓶颈的最后BN层之前，忽略它们可能的Dropout实现（如DenseNet [16]和Wide ResNet [33]）。我们把这个设计称为Dropout-（a）模型。(b) 我们遵循宽ResNet [33]，它最终提高了WRN该方案被称为Dropout-（b）模型。方差偏移的统计量。假设一个网络连接-总共包含n个BN层我们将这些BN层从从浅到深，相应地给它们从1到n的索引。整个统计操作通过以下三个步骤进行：(1) 计算移动变量i，i1，. n：何时是训练直到收敛，每个BN层从它在整个学习过程中接收的特征图中获得神经方差的移动平均值（无偏方差估计）。我们将该方差表示为移动var。由于每个BN层的移动var是向量（其长度等于先前BN层的通道的量），因此，辍学0.0辍学率0.1辍学率0.3辍学率0.5辍学率0.7辍学0.0辍学率0.1辍学率0.3辍学率0.5辍学率0.7辍学0.0辍学率0.1辍学率0.3辍学率0.5辍学率0.7辍学0.0辍学率0.1辍学率0.3辍学率0.5辍学率0.7辍学0.0辍学率0.1辍学率0.3辍学率0.5辍学率0.7辍学0.0辍学率0.1辍学率0.3辍学率0.5辍学率0.7辍学0.0辍学率0.1辍学率0.3辍学率0.5辍学率0.7辍学0.0辍学率0.1辍学率0.3辍学率0.5辍学率0.7辍学0.0辍学率0.1辍学率0.3辍学率0.5辍学率0.7辍学0.0辍学率0.1辍学率0.3辍学率0.5辍学率0.7辍学0.0辍学率0.1辍学率0.3辍学率0.5辍学率0.7辍学0.0辍学率0.1辍学率0.3辍学率0.5辍学率0.7辍学0.0辍学率0.1辍学率0.3辍学率0.5辍学率0.7辍学0.0辍学率0.1辍学率0.3辍学率0.5辍学率0.7辍学0.0辍学率0.1辍学率0.3辍学率0.5辍学率0.7辍学0.0辍学率0.1辍学率0.3辍学率0.5辍学率0.70.00.10.30.50.70.00.10.30.50.70.00.10.30.50.7错误率（%）0.00.10.30.50.7位移比率位移比率位移比率位移比率位移比率错误率（%）位移比率位移比率位移比率位移比率位移比率位移比率位移比率错误率（%）位移比率位移比率位移比率位移比率错误率（%）2689GG联系我们−∼∼移动变量i实vari表2.CIFAR 100数据集上Dropout-（b）模型所有BN层的平均移位比越小越稳定。辍学率：0的情况。10的情况。30的情况。50的情况。7PreResNet-110 [11]1.0089451.0407661.0520921.076403ResNeXt-29 [32]1.0062961.0325141.0585491.134871WRN-28-10 [33]1.0034851.0064661.0138731.033254[16]第十六话1.0138591.0150651.0360191.042925特征图），我们利用其平均值来表示移动的变量，以便于可视化。此外，我们将移动变量i表示为第i个BN层的移动变量(2) 计算实数var i，i1，.，n：在训练之后，我们固定所有参数并将其状态设置为评估模式（因此Dropout将应用其推理策略，BN将冻结其均值和方差的移动平均值）。训练数据再次用于在一定时期内进行，以便在每个BN层之前的特征图上获得神经方差的真实期望。数据增强也被保持，以确保计算神经方差的每一个可能的细节与训练保持完全相同。重要的是，我们采用相同的移动平均算法来累积无偏方差估计。类似地，在（1）中，我们让实方差向量的均值在第i个BN层之前是实变量i(3) 得到“移位比”=max（realvari，movingvari），i∈[1，n]：由于我们关注移位，如果可能的话，为了更好的观点，标度都保持在1以上。各种辍学率[0. 0，0。1，0。3，0。5，0。7]用于图中的比较4.第一章相应的每一列中还包括错误率。具体来说，我们还计算了在丢弃率为0的情况下整个网络的所有平均移位率。1，0。3，0。5，0。7显示基于图7的定量分析。表2中的4。结果表明，WRN统计实验证实了我们的分析。在这四列图。4，我们发现，当下降率相对较小时（即，0.1），绿色曲线接近蓝色曲线（即，没有脱落的模型），因此它们的性能与基线相当，甚至更好这与我们前面的推论一致，即无论在（a）或（b）情况下，下降率1p的减小都将减轻方差转移风险。此外，在Dropout-（b）模型中（即，最后两列），我们发现，对于WRN，下降率为0. 1，0。3甚至0。5接近0的那个。0比其他网络，他们都超过了基线。它也与我们的分析一致，因为WRN具有显著更大的通道维度d，并且它确保稍大的p不会使神经方差爆炸太多。此外，表2上的统计数据也支持了我们之前的推断，即WRN在方差移位比方面受Dropout的影响较小，并且当Dropout ratio图5.DenseNetDropout的训练模式和测试模式之间不一致的神经响应示例-（a）0。5人在CI-FAR 10数据集上接受培训。这些样本来自训练数据，尽管所有固定的模型参数，但它们在学习期间被模型正确分类，但在推理中被错误地判断。方差偏移最终导致预测偏移，从而降低性能。tio<0. 5，而其他型号卡住或表现甚至更差时，下降率达到0。3（图中的最后一行）4）.训练数据的神经响应（softmax之前的最后一层）从训练阶段到测试阶段是不稳定的。为了更清楚地理解方差偏移最终带来的数值扰动，在训练阶段和测试阶段，在softmax层之前绘制了一组图像（来自训练数据）及其神经响应（图10）。（五）。从这些图片和它们的响应中，我们可以发现，在网络的所有权重都固定的情况下，只有模式转换（从训练到测试）才会改变最终响应的分布，即使在训练集中，它也会导致错误的分类。证明了在网络的瓶颈处分别设置Dropout层和BN层时，训练阶段和测试阶段对训练数据的预测是不同的。因此，我们确认不稳定的数值行为是性能下降的根本原因。尽管所有其他参数都固定，但只有移动均值和方差的调整才能带来改善。考虑到BN的移动均值和方差在测试过程中与真实值不匹配，我们试图通过在评估模式下再次传递训练数据来调整这些值。这样，也可以应用移动平均在使用训练数据将移动统计数据转换为真实统计数据之后，我们可以在测试集上执行模型。根据表3，所有辍学者----（a）/（b）0。5个模型通过调整其移动统计数据而超越其基线。重大改进（例如，2和4. DenseNet在CIFAR10和CIFAR100上分别有5个增益）。它再次验证了每平方米的下降可以归因于2690−U −p表3.通过在测试模式下对训练数据运行移动平均算法来调整BN的移动均值/方差。这些错误率（%）都是从具有不同随机初始种子的5次平行运行中平均得到的。“-A”表示相应的调整。为了比较，我们还列出了这些模型在没有Dropout的情况下的性能。最好的记录被标为红色。C10辍学率-（a）辍学-（b）无脱落0.50.5-A0.50.5-APreResNet8.426.425.855.775.02ResNeXt4.433.964.093.933.77WRN4.594.203.813.713.97DenseNet8.706.825.635.294.72C100辍学率-（a）辍学-（b）无脱落0.50.5-A0.50.5-APreResNet32.4526.5725.5025.2023.73ResNeXt19.0418.2419.3319.0917.78WRN21.0820.7019.4819.1519.17DenseNet31.4526.9825.0023.9222.58292827262524230 10 20 30 40 50 60 70 80CIFAR 100上用于Monte-Carlo平均的样本数（k）图6.蒙特卡罗模型平均值与体重缩放与没有辍学。避免“方差偏移”风险的模型集合具有较小方差偏移的适当的流行统计可以将一束错误分类的样本召回到正确的样本。然而，除了WRN，从理论上讲，在测试阶段应用Dropout将避免尽管在[28]中显示它非常昂贵，但我们仍然感兴趣的是需要多少样本网络才能匹配近似平均方法或基线模型的性能，而不需要Dropout。在这里，我们以Dropout-（b）0.5 PreResNet模型为例，通过对k个随机采样神经网络的预测进行平均来对CIFAR 100从图6中我们可以发现，近10个网络样本可以接近权重缩放的结果而多轮的跑动最终会有轻微的增益，但无法达到没有Dropout的基线性能。总而言之，这些采样网络仍然无法在测试阶段以如此昂贵的方式补偿性能下降。5. 更好地结合它们的策略由于我们清楚地了解了Dropout和BN之间的不协调，我们可以很容易地开发一种方法将它们结合在一起，看看是否可以获得额外的改进在本节中，我们将介绍一种可能的解决方案，该解决方案略微修改了Dropout公式，使其对方差不太敏感，从而可以缓解移位问题并稳定数值行为。vanilla Dropout的缺点在于在测试阶段的体重秤，这可能导致统计方差的大这个线索可以促使我们思考：如果我们找到一个类似Dropout的方案，但带有较小的方差偏移，我们可以稳定神经网络的数值参数，因此最终的性能可能会受益于这种稳定性。在这里，我们把案件(a) 作为一个例子，在调查中，调整统计数据后的其他架构仍然不足，率v1（c2+v）−c2=p（为了简单起见，我们让c=0，形成他们的同行没有辍学。这个提示显示对于大多数结构，通过训练数据移动移动统计数据不能弥补性能差距。Monte-Carlo 模型平均法虽然可以避免 “ 方差漂移”，但它需要花费大量的时间，并限制了性能。.原始Dropout [28]提出的有效测试时间程序是通过缩小训练神经网络的权重来进行近似模型组合。而这正是方差漂移风险的核心原因，因为它只确保了神经均值的稳定性，而不是方差。于是，一个自然的问题就出来了：如果我们尝试对每个测试用例使用Dropout对k个神经网络进行采样并对其预测进行平均，会怎么样？这个讨论）。也就是说，如果我们设置下降率（1p）为0。1，则方差将按0缩放。9.当网络从训练切换到测试时。灵感来自于-inal Dropout [28]，其中作者还提出了另一种形式的Dropout，其相当于添加具有零均值和等于单元激活的标准差的高斯分布随机变量，即，xi+xi r和r<$N（0，1），我们进一步将r修改为均匀分布[-β，β]，其中0≤β≤1。因此，每个隐藏的激活将是X=X i+X i r i和r i（β，β）[6]。为了简单起见，我们将这种形式的Dropout命名为在xi和ri之间的相互独立分布保持不变的情况下，我们在训练模式中应用X = xi+xiri，ri <$U（−β，β），在测试模式中应用X = xi。同样，在简化的情况Monte-Carlo模型对脱落进行平均-（b）0.5 PreResNet对脱落进行权重缩放的近似平均-（b）0.5 PreResNet脱落-（b）0.0 PreResNet（无脱落）测试误差（%）2691∼300 ≈我我我表4.采用新的辍学形式（即Uout）在Dropout-（b）模型中。这些错误率（%）均来自具有不同随机初始种子的5次平行运行的平均值括号中的数字表示与性能相关的βC10β0.0[0.2、0.3、0.5]PreResNet5.024.85（0.2）ResNeXt3.773.75（0.3）WRN3.973.79（0.5）DenseNet4.724.61（0.5）C100β0.0[0.2、0.3、0.5]PreResNet23.7323.53（0.3）ResNeXt17.7817.72（0.2）WRN19.1718.87（0.5）DenseNet22.5822.30（0.5）对于c=0，我们可以再次推导出方差移位，如下所示：和BN由于方差偏移冲突，不建议出现在瓶颈部分，除非我们有一个相对较大的特征维数。我们还建议下降率为<0。5、由于Eq。（12）和实验（图）4）显示更高的跌落率在任何情况下仍然会破坏神经反应的稳定性总之，转移风险取决于辍学率和特征维度。通过训练数据调整移动均值和方差有利于改进，但与没有Dropout训练的基线相比，它不能补偿性能的全部损失。此外，在测试过程中应用Dropout以避免“方差偏移”的网络预测的集合测试变量（X）V ar（xi）v• 我们理解为什么一些最近的模型（例如，V arTrain（X）=V ar（x+xr）=E（（x+xr）2）v3==。E（ x2）+ 2 E（ x2） E（ r）+ E（ x2） E（ r2）3 + β2Inception-v4 [30]， [2014 - 04 - 14][2014 - 04 - 14]在整个网络的最后一个BN层之后丢弃层，因为它不会导致方差偏移。我我（十三）基于我们的理论设β为0。1，则新的方差偏移率为3010. 9966777更接近于1。0比前0。9在案件（a）中。一系列的实验，根据表4中辍学-（b）环境下的这四个现代网络雇用。我们在范围内搜索β 的[0。2，0。3，0。（5）找到最佳结果。我们观察到具有较大比率的“Uout”倾向于表现良好，这表明其优越的稳定性。除了ResNeXt，几乎所有的架构都达到了0。20 的情况。3CIFAR 10和CIFAR 100数据集。除了Uout之外，我们发现在softmax层之前仅添加一个Dropout层可以避免方差偏移风险，因为没有后续BN层。我们在ImageNet验证集（表5）上评估了几个最先进的模型，并观察到丢弃率为0时的一致改进。2在大规模数据集上的最后BN层之后使用。这样做的好处也证实了我们理论的有效性。Top-1错误前五错误ImageNet 下降比0.00.20.00.2ResNet-200 [10]21.7021.485.805.55ResNeXt-101 [32]20.4020.175.305.12表5.ImageNet验证集的错误率（%）6. 指南摘要根据分析和实验，我们可以得到以下认识作为指导：• 在现代CNN架构中，原始的Dropout我们还发现，Dropout的形式可以修改，目的是减少他们的方差移动，以提高他们的表现，即使他们在底部的瓶颈积木。7. 结论在本文中，我们研究了在现代卷积网络上使用批量归一化时，Dropout层的研究发现，由于神经网络测试策略的不同，神经网络的方差在推理过程中会这些理解可以作为设计新正则化器或在深度学习领域获得更好实践的实践指南。致谢作者要感谢编辑和匿名审稿人的批评和建设性的意见和建议。本工作得到国家自然科学基金项目批准号：U1713208，长江学者和国家自然科学基金项目，批准号：61836014.它还得到了中国NSF的支持（编号：61602246）、江苏省国家自然科学基金会（编号：BK 20171430）、中央大学基础研究基金（编号：30918011319），综合业务网国家重点实验室（西安电子科技大学，ID：ISN 19 -03）、六大拔尖人才计划峰会（编号：DZXX-027）和中国科协青年科学家资助计划（编号：2018 QNRC 001）。··2692引用[1] M. 阿巴迪山口Barham，J.Chen，Z.Chen，中国

下载后可阅读完整内容，剩余1页未读，立即下载