Dropout扩展：正则化和优化性质的理论理解与低秩解探索

133 浏览量更新于2023-10-25 收藏 1.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7671∼∈∈∈∈ǁ ǁF∗¨¨ǁ − ǁ ǁ ǁ⊤关于结构丢弃安巴尔·康纳·莱恩·雷内·维达尔·本杰明·D。Haeffele Mathematical Institute forData Science，Johns Hopkins University，Baltimore，MD{ambar，clane，rvidal，bhaeffele}@ jhu.edu摘要Dropout是一种随机梯度下降（SGD）方法，用于最小化以下目标：Dropout及其扩展（例如DropBlock和Drop-Connect）是训练神经网络的流行算法¨¨最小EzY−¨1Udiag（z）VX？.（一）作品，已被证明可以提高泛化性能在实践中。然而，对它们的优化和正则化性质的理论理解仍然是难以捉摸的.最近的工作表明，在单隐层线性网络的情况下，Dropout是一种随机梯度下降方法，用于最小化正则化损失，并且正则化器诱导低秩和平衡的解在这项工作中，我们表明，对于单隐藏层线性网络，DropBlock诱导谱k-支撑范数正则化，并促进低秩和具有相等范数因子的解决方案我们还表明，全局极小的DropBlock可以COM-以封闭形式呈现，并且DropConnect等同于U，V？F这里XRb×N和YRa×N表示具有N个训练点的训练集，URa×d和VRb×d分别是输出和输入权重矩阵，d是隐层神经元的个数，z是d维Dropout变量向量，其第i个元素ziBer（θ）是i.i.d. Bernoulli参数θ此外，[2]表明，Dropout引入了平方nu-clear范数形式的显式正则化，已知该正则化可以诱导低秩解。具体而言，[2]表明优化问题（1）简化为1−θd2 ⊤2最小X射线Y−UVX射线2+（2）第一次见面。辍学。然后，我们表明，这些结果中的一些可以可以扩展到一般的辍学策略类，并且，U、VFθ2 2i=1在一些假设下，当Dropout应用于最后一层时，深度非线性网络。我们验证了我们的理论索赔和假设实验与常用的网络架构。1. 介绍Dropout是用于训练深度神经网络（NN）的广泛使用的启发式算法，其涉及在每次训练迭代时将隐藏神经元的随机子集的输出设置为零Dropout在实践中改进的泛化性能导致了Dropout的许多变体[3，4，5，9]，[10、12、13、14]。然而，尽管Dropout风格技术的流行和改进的经验性能，但关于其优化和正则化性质的几个理论问题仍然存在，例如：什么样的目标函数是最小化的一般辍学风格的技术？这些技术是否收敛于全局最小值？Dropout式正则化是否会导出显式正则化子？什么是Dropout-style正则化的归纳偏差？其中ui和vi分别表示U和V的第i列。此外，[2]表明，全局最小值（U，V）(2) 得到全局最小值 minZYZ2+λ Z2 ，其中Z<$=U<$V<$$>X，Z<$是核范数。此外，[8]表明最佳权重（U，V）可以在多项式时间内找到并且是平衡的，即，的输入和输出重量的范数的乘积对于所有神经元来说都是一样的。纸质捐款。在本文中，我们显着generalize这些结果更一般的Dropout计划和更一般的神经网络架构。我们首先研究DropBlock，它是最近在[5]中提出的卷积网络Dropout的替代方案，与Dropout相比，它在实践中表现出更好的性能。DropBlock不是独立地将每个神经元的输出归零，而是通过将局部邻域内的神经元块一起归零来引入结构性丢弃模式，以反映CNN中相邻像素具体来说，对于块大小为r的块，我们将研究以下优化问题：相关工作。最近的工作考虑了其中的一些单层线性神经网络的接受过损失平方的训练例如，[2]表明，¨¨最小EwY−¨1⊤¨U（diag（ w）diagd） V X、（3）U，V？r？F227672∼D {}←←≫Y−U（diag（w）θη≫1ǁF其中，k表示克罗内克积，w是随机伯努利变量，其中一个条目wiBer（θ）同时应用于（U，V）中大小为r的列块。本文研究了DropBlock的正则化性质，证明了它在解的奇异值上诱导出k-支撑范数形式的低秩正则化，这比k-范数[1]具有更好的性质.这个亲-算法一：Dropblock算法一曰：输入：训练数据=xt，yt，学习率η，保留概率θ，块大小r2：输出：最终迭代UT，VT3：U0Uinit，V0Vinit4：对于t = 1，. - 是的- 是的，T do5：zt−1←DropBlockSample（θ，r）6： Dz← diag（. zt−1）为解释在实践中，与Dropout相比，DropBlock在-1⊤第7章：错误（Ut−1DzVxt）−yt引入了奇异值的范数。在本文中我们8： Ut←Ut−1−θ=txtVt−1Dz19：Vt←Vt−1−ηxtUt−1Dz并研究了DropBlock诱导的最优解的性质。具体地说，我们证明，解决方案(3) 是这样的，这些因素的规范是平衡的，即，U和V的r列的对应块的乘积具有相等的Frobenius范数。结合这些结果将使我们能够得到（3）的封闭形式解。然后，我们将我们的分析扩展到更一般的丢弃策略，允许Dropout变量的任意采样分布，并获得这种一般情况下的显式正则化我们还将我们的分析扩展到应用于深度神经网络的最后一层的Dropout，并表明这一点以及文献中的许多现有结果可以很容易地扩展到这种情况。最后，我们对Dropout和DropConnect之间的等价性给出了一个简短的结果，这是执行Dropout的一种不同方式。最后，在必要时，用各种实验来验证理论2. DropBlock分析在本节中，我们将研究DropBlock的优化和在这个设置中，我们让d是最终隐藏层的尺寸，让r是被丢弃的块的大小。我们做了一个简化的假设，即块在最终的隐藏层中形成神经元的分区，这要求隐藏维度d是r的倍数。这是一个次要的假设，当d r，这是典型的满足。1然后在每次迭代中，我们采样一个二进制向量k=di.i.d.Ber（θ）θt10：结束当块大小被设置为r= 1时的DropBlock的情况。分析技术在随后的小节中介绍我们的分析细节之前，我们暂停一下，从高层次上评论一下分析方法。我们的目标是理解由DropBlock训练引起的正则化，即算法1.我们从2.1节开始，观察到DropBlock训练相当于用额外的正则化项训练我们在2.2节中继续分析当网络宽度允许任意增长时，这个正则化器会发生什么，并观察到正则化器的值变为0，因此没有为问题提供正则化。为了解决这个问题，在第2.3节中，我们自适应地将辍学率作为网络宽度的函数进行缩放，并表明这会导致一个修改的优化问题，其最佳权重是平衡的。这些结果在第2.4节中用于获得优化目标的凸下界，该凸下界被证明是紧的，因此允许我们将凸下界的解与原始目标的解联系起来。最后，我们得到了一个封闭形式的解决方案的凸下界，这另外允许我们的特点解决方案的非凸DropBlock优化问题的封闭形式。2.1. DropBlock诱导的正则化子我们首先证明了DropBlock算法1可以是随机变量w∈ {0，1}kR并设置相应的解释为将SGD应用于（3）中的目标。与最后，回想一下期望值的梯度是相等的，z∈ {0，1}d中的变量块到wi的值，即，zj=wi对于（i−1）rj≤ir。这个抽样方案，梯度的期望值。因此，我们称之为DropBlockSample（θ，r），通过每次丢弃相邻神经元的块来丢弃块背后的关键原理，并且是非常接近于丢弃块（其不假设块需要是非重叠的）的近似。我们将研究的所得DropBlock算法在Al-出租m1中指定。请注意，Dropout可以作为特定的[1]我们在5.3节中通过实验证明，θ的标度就足够了。1dX2相对于U和VR对于w的随机样本，提供了随机梯度，目标（3）。算法1的步骤8和9计算这样的梯度。因此，我们得出结论，DropBlock算法1是用于最小化（3）的SGD方法。下一步是理解DropBlock的正则化特性。下面的引理2表明，Dropblock优化问题等价于具有正则化项的确定性公式，我们使这种近似的行为在很大程度上与原始的Drop相同，封锁战略。2我们所有结果的证明都在补充材料中给出。⊤t−17673−F⊤2RF⊤2−∈∈F用DropBlock表示。也就是说，DropBlock诱导了显式正则化。引理1. 随机DropBlock目标（3）等同于正则化的确定性目标：在下面的内容中，我们证明了如果Dropout概率，1θ随d增大，则DropBlock能够限制网络容量。具体地，让我们将维度d的保留概率表示为：θ¯r¨ ¨¨1⊤¨θ（d）=θ<$r+（1−θ<$）d，（7）EwY−θU（diag（w）Id）V X¨r¨F=Y−UVX2+DropBlock（U，X<$V），（4）其中，ReDropBlock由下式给出：其中θ=θ（r）表示DropBlock pa的值当只有一个块时，并且d = r。与θ=θ（d），引理1给出了DropBlock目标的以下确定性等价：d1−θ<$k⊤21−θkf（U，V，d）=Y−UVX2+我的朋友们DropBlock（U，X<$V）=UiVX（五）FrθiFθiFi=1i=1（八）其中UiRa×r和ViRb×r表示第i个块，分别在U和V中的r个连续列，并且k=d为了研究f（U，V，d）的极小元，请注意，在任何极小元（U，V，d）处，我们将有以下结果：表示块的数量。正如所料，当我们设置r= 1，即。当我们下降f（U，V，d）= Y−UVX2+d1−θ<$k（九）块的1个神经元独立，则Block减少为INFINFUiVX在（2）中丢弃正则化。因此，DropBlock正则化通过tak推广了（2）中的Dropout正则化，DU∈Ra×d，V∈Rb×drUVX= UV XiFi=1求秩为r的子矩阵的Frobenius范数平方和。但是，这种修改的效果是什么？具体地说，我们能不能描述正则化的特征-其中最后一项表示给定全局矩阵乘积的最小值（UVX），DropBlock诱导的正则化将诱导因子联系方式DropBlock ，以及它如何控制（U，V），最小化诱导正则化项网络？2.2. DropBlock的容量控制特性安装DropBlock。这激发了对正则化的研究，在乘积空间中的DropBlock，我们表示为Λ（A）：在本小节中，我们首先研究DropBlock是否能够单独限制网络的容量Λ（A）=1−θ¯ INFINF德鲁克我的朋友们也就是说，如果允许网络任意大，那么DropBlock正则化是否足以约束d U∈Ra×d，V∈Rb×drA=紫外线Xi=1IF（十）网络的容量从Block的定义中可以清楚地看出，对于n y个非零（U，V），正则化子将是严格正的。然而，不清楚正则化子是否随d而增加。下面的引理表明，当丢弃概率1 θ相对于d是常数时，单独的丢弃块不能限制网络的容量，因为对于任何输出A，可以找到一个分解为UV_r_X的分解，通过使最后一层的宽度d足够大，使UV_r_pBlock任意小（接近极限0）。引理2.给定任何矩阵A，如果列数d，in（U，V）允许变化，θ保持不变，则通过（10）中的Λ（A）的定义，可以定义函数F<$（A）=Y−A2+Λ（A）（11）全局下界f（U，V，d），即，F<$ （ A ） ≤f （ U，V ， d ）， f （ U，V ，A ）s.t.UVX=A（12）（U，V，d）相等，达到（10）中的下确界。因此，F<$（A）为研究问题解的性质提供了一个有用的分析工具f（U，V，d），因为它为我们在输出空间中感兴趣的问题提供了一个下界（即，UVUV UVUV）。2⊤27674虽然很容易看出F<$（A）是下界，在我们感兴趣的问题中，不清楚F<$A是否是有用的下界，或者F<$的极小化者是否可以INFDINFU∈Rm×d，V∈Rn×dA=紫外线XDropBlock（U，X（六）刻画f的极小元。在下面的分析中，我们将证明这两个问题的答案都是肯定的。也就是说，我们将证明F<$（A）是一个紧闭x下界，请注意，这个结果对于常规Dropout（一个特殊的DropBlock的典型情况），具有固定的Dropout概率。f，推广了文献[2，8]中已有的结果，并证明了F′（A）的极小元可以用封闭形式计算.7675埃什ǁǁΣa）、我ǁǁ1ǁ ·ǁ2√2.3. DropBlock引入平衡重量为了刻画f（U，V，d）的最小值，我们首先需要定义平衡因子的概念。定义3.一个矩阵对（U，V）被称为平衡的，如果U和V的相应块的乘积的范数相等，即，U1V. . 为证明了它给出了（8）中问题此外，我们将通过证明Λ（A）= Λ_∞（A），<$A来证明Λ（A）（以及通过扩展F<$（A））确实是上凸的。首先，回想一下函数h（x）的下凸包络[11]是最大的凸函数g（x），使得nx g（x）≤h（x），由Fenchel双对偶其中Ui和Vi表示iR块分别在U和V中的连续列下面的结果表明，f（U，V，d）是平衡的。定理4. 如果（U，V，d）是（8）的极小元，则（U，V）是平衡的。定理4提供了DropBlock目标（8）的最小化器的特征，即所有的和-（即，Fenchel对偶的Fenchel对于Λ（A），下面的结果提供了下凸包络。请注意，在本小节中，我们将假设X具有全列秩。这通常是一个次要的假设，因为如果X不是满秩，添加非常少量的噪声将使X满秩。定理6. 当X在（10）中具有满列秩时，（10）中的DropBlock正则化子Λ（A）的下凸包络由下式给出：正则化器中的mands在最优性上是相等有了这个结果，我们就能把f和F′的极小化子联系起来，Λ∗∗（A）=1−θ¯ρ∗−1 了2+第2章（ i=ρi（13）并因此找到由DropBlock引起的正则化。现在我们注意到一些与最近的文学作品的联系。我们θ¯ii=1r−ρ+ 1结果推广了[8]中得到的平衡结果，该结果对应于k= 1的特殊情况。然而，我们的证明技术完全不同。证明在[8]利用秩-1结构来证明正交矩阵Q的存在性，使得给定的因子分解（U，V，d）可以变换为平衡变换（UQ，VQ，d）。相反，我们的证明背后的直觉是，当（U，V）不平衡时，我们可以以特定的方式添加额外的重复神经元块，以使块积范数UiV<$XF更加平衡，从而减少目标。在证明了f（U，V，d）有解的必要条件后，我们现在用这个结果来证明F′是（8）的紧下界定理5. 如果（U，V，d）是分解问题f的全局极小元，则A=UVX是下界F <$的全局极小元。而且下界是紧的，即。 e.我们有 f （ U ， V ， d ）=F<$（A）。定理5提供了感兴趣的硬非凸问题f和下界F<$之间的联系，并为我们提供了一个保证，即我们可以通过证明F<$的解来验证f的解。因此，我们现在要集中注意力关于F′（A）的解的特征。2.4. DropBlock引入k支持范数正则化基于上述讨论，我们现在分析F<$（A）的全局极小。不幸的是，目前还不清楚Λ（A）是否相对于t是凸的.A，这使得F<$（A）的全局极小化的分析变得复杂。在那里-因此，我们将考虑下凸包络其中ρ是{1，2，. - 是的- 是的，r}，并且a1≥ a2。- 是的- 是的 ≥ a d是A的奇异值。注意，（13）中提到的量ρ纯粹是矩阵A、隐藏维数d和块大小r的性质，并且在给定A的SVD的情况下完全在时间dlogd中确定。我们再次注意到与最近的文学的一些联系的解（13）的形式特别有趣，因为它是最近在稀疏预测文献中由[1]发现的矩阵范数，其中它被称为k-支撑范数，并提供了稀疏性的最紧凸松弛与1/2惩罚的组合。当应用于矩阵的奇异值时（就像这里的情况一样），它被称为谱k-支撑范数，最近在[7]中研究过k-支撑范数的性质。我们经常对获得问题的稀疏或低秩解感兴趣，因为它们已经被证明具有很好的泛化能力，并且在丢弃不相关的特征方面很有用。具体地说，如果我们学习一个向量w，我们可以通过限制w的范数（即w中非零项的数量）来获得稀疏解。然而，0不是凸函数（因此不是范数），并且很难解决约束集S0={w：<$w<$0≤k}的优化问题。因此，通常我们将正则化子放松为具有更好性质的N1范数。约束1范数不会产生S0的凸松弛，在这个意义上，w0可能很小，而w1很大。然而，额外地约束R2范数解决了这个问题，因为集合S0，2={w：RwR0≤k，RwR2≤1}的凸包是S1，2的子集={w：<$w<$1≤k，<$w<$2≤1}，即conv（S0，2）S1，2.这促使使用弹性网7676−F·∈CRi=1我R∗≤≤文学中的正则化子最近，研究人员研究了S1，2是否是S0，1的最紧凸松弛，发现它不是。具体地说，[1]证明了这个最紧的凸包络可以作为范数以封闭形式获得，他们称之为w的k-支撑范数。k-支持范数本质上是在最大组件上的102惩罚和剩余较小组件上的101惩罚之间的权衡在我们的案例中，当注意，定理7中提到的常数完全取决于矩阵Y，并且可以在给定奇异值mi 的情况下在时间O（d2）内计算。最后，从定理4获得的以下推论通过示出在定理7中计算的解恢复DropBlock目标f（·，·，·）的全局最小值并且Λ是凸的来完成图片：∗在（13）ρε=1，Λ ε（A）简化为c0（εda）2=c0ε Aε2，推论8. 如果A是下锥的全局极小元，这是A的核范数（平方）（的标度）。对非凸目标f，则我们有F（A）=另一方面，当块大小r较大时，ρ将取<$∗ ∗ ∗ ∗ ∗ ⊤更高的值，这意味着正则化子Λ（A）将移动F（A）=f（U，V，d），其中A=U（V）X。Σd接近Ca2=c<$A2，这是（的缩放）推论9.Λ（A）是凸的，且等于它的下凸0i=1i0FA的平方Frobenius范数故降，块正则化器充当（平方）之间的插值nuclear norm regularization when the block size is smallto (squared) Frobenius norm regularization when the blocksize becomes very large. 此外， [1 ， 7] 观察到使用kSupport范数的正则化在一些真实世界的数据集上实现了比其他形式的正则化更好的性能，这可能是理论上解释DropBlock com-bands优于Dropout的性能的一个步骤，如在[5]中通过实验观察到的那样。DropBlock的封闭形式解决方案。继续我们的分析，利用 Λ （ A ）的凸包络，我们可以如下构造DropBlock目标f（U，V，d）的凸下界：F（A）= ΔY−Δ λ2+ Δλ λ（A）（14）关系式F（A）F<$（A）f（U，V），对于所有（U，V，A），使得UV=A。如前所述，包络ΛΛ（A）（即，Λ（A）= Λ（A），A）。请注意，推论8也平凡地适用于如果A是F<$的全局极小元，因为F和F<$共享相同的全局极小元集合。在理解了单个隐藏层线性网络的一个特定推广的Dropout的属性之后，我们现在将展示我们的方法如何推广到应用于超参数化神经网络的最后一层的其他Dropout变体。3. 广义辍学框架在实践中，常用的神经网络架构通常具有全连接线性层作为网络中的最后一层，并且仅在该最后的全连接层上使用Dropout样式正则化也是常见的这导致我们考虑使用应用于最终线性层的Dropout风格正则化来训练深度NN的效果。具体地说，我们将考虑一个NN训练问题的平方损失的形式定理5下界F′（·）与f（·，·，·）取相同的最小值.利用下凸包络的性质，我们知道函数F<$（·）具有相同的最小值最小EU、Γ¨z？Y− Udiag（µ）−1¨2diag（z）gΓ（X）？F，（15）作为其凸下界F（）。根据这个推理，我们现在通过导出F（A）的全局最小值的封闭形式解来完成分析。定理7. 当X在（10）中具有满列秩时，F（A）的全局极小由Aρ ， λ=UYdiag（aρ ， λ） V给出，其中Y=UYdiag（m）V是在这里，我们遵循的符号在介绍，并在广告-另外，我们让gr表示具有权重参数r的NN的倒数第二层的输出（即，gΓ的第j列是给定输入xj）的网络的倒数第二层的输出，URa×d是最终线性层的权重矩阵，其中d是倒数第二层的输出的大小，并且μ∈Rd\0是网络的平均值的向量。Y YY和aρ，λ的SVD由下式给出：。Σ丢弃变量，μi=E[zi]（注意，在预期中，gΓ的第i个隐藏单元的输出按E[zi]缩放，因此，m1，m2，. . .，mλ，0，. . . ，0if λ ≤ ρ −1我们将输出重新缩放E[zi]−1）。m1，m2，. . .，mρ−1，我们将假设Dropout变量z是随机数-aρ，λ=β+1β+1β+1在算法的每次迭代中从m ρ−βS，m ρ+1−βS，. . . ，当λ≥ρ时，λ= 0。具有协方差矩阵的任意概率分布S刚果民主共和国cm λ− βS，0，. - 是的- 是的，0常数ar eβ=1−θ<$，S=λm，c= r+C= Cov（z，z）和平均值μ。假设每个条目如果μ不为零，我们根据z，μi和ci，j的均值和协方差项定义特征矩阵C<$，如下所示vex envelopeF，（U，V，d）是全局极小元β+1β+1β+17677θ<$i=ρ iβλ+（ β+ 1）（1− ρ），而ρ∈ {1，2，.- 是的- 是的，r−1}和λ∈{1，2，. - 是的- 是的，d}被选择为使得它们最小化F（Ap，λ）。i，jci，j= µiµj或C<$=dia g（µ）−1Cdia g（µ）−1。（十六）7678∈≥ {}−Fci iµ µ−∈−¨¨2i2一Fθ∗F回想一下，典型Dropout算法的一次迭代可以被解释为在（15）上执行一次随机梯度下降的迭代，其中（15）的梯度由Dropout变量z的单个随机样本近似。在这种情况下，我们可以得到确定性的12号提案。如果网络架构gΓ具有足够的能力跨越Rd×N（即，对于所有的QRd×N，存在一组网络权重Γ<$suc，使得gΓ<$（X）=Q）和dmina，N，则（15）的全局最优，其中z i. i. d伯努利（θ）由下式给出：形式（15），它是引理1的推广：引理10. 广义Dropout目标（15）是¨minEz？YUdiag（µ）−1U、Γ¨2diag（z）gΓ（X）？F=minY−Δ2+1−θΔ2（二十）¨Ez？Y−Udiag（µ）−1¨2diag（z）gΓ（X）？F其中，A的核范数表示A的核范数。=<$Y−UgΓ（X）<$2+<$C，μ（U，gΓ（X）<$），（17）其中“广义Dropout”正则化子定义为上述结果在某种意义上具有有趣的含义，这意味着，即使在gΓ网络具有无限容量并且可以表示任意输出的极限情况下，µC，µ（U，V）=Σdi，j=1（u<$uj）（v<$vj）i、jI j完美地，将Dropout应用于最后一层仍然会以（平方）核范数正则化的形式对整个网络的输出产生容量约束，其中=C<$，UU VV，（18）其中ui和vi分别表示U和V的第i列。注意，为了符号简单，我们已经为一般矩阵（U，V）定义了μ C，μ，但通常我们会有V=g（X）μ）。还要注意，C′完全决定了任何dropout方案的正则化属性考试-在经典Dropout中，z的条目是i.i.d.。Bernoulli变量的平均值为θ，因此C是对角的，对角元素为ci，i=θ（1-θ）和µi=θ，因此C<$是对角的。正则化的强度取决于Dropout速率（1θ）。对于应用于具有足够容量的网络的最后一层的DropBlock，可以获得类似于命题12的结果（z的采样策略改变，正则化子从核范数平方改变为k-支持范数平方）。在分析了Dropout及其变体之后，我们现在考虑一种替代但密切相关的方法，下一节中的DropConnect。4. DropConnect分析[12]中提出的DropConnect非常类似于nal，对角线元素为c<$i，i=1−θ。F或DropBlock，θ¯1−θ ⊤Dropout，但不是设置隐藏的neu的输出对于块大小r，我们有C = θ BlkDiag（1r1r，. - 是的- 是的，1r1r），其中BlkDiag（·）表示形成块对角矩阵其中函数参数沿对角线，并且 1r表示所有1 的r在Dropout的情况下，我们在非线性网络的最后一层中恢复了Dropout诱导推论11. 对于适用于目标的（15）下列等价成立：如果将连接权重的元素设置为零，则DropConnect改为将连接权重的元素独立地设置为零，概率为1θ。因此，DropConnect算法对随机矩阵ZRb×d进行采样，其中每个zi，j独立于参数为θ的伯努利分布。对于应用于深度网络的倒数第二层权重V的Dropconnect，参数化为UVλgΓ（X），优化问题则变为以下：¨ ¨¨1⊤¨¨Ez？Y−Udiag（µ）−1¨2diag（z）gΓ（X）？FminU、V、ΓEZüY− θU（ZV）gΓ（X）<$F（二十一）Σd=Y −UgΓ（X）2+i=1ǁuiǁ2ǁgΓ(X)ǁ2,(19)请注意，我们将DropConnect应用于倒数第二层V而不是U，以匹配原作者的亲[12]。我们表明，DropConnect诱导相同的其中gi（X）∈RN表示的第i个神经元的输出，正则化为Dropout。具体来说，正则化子在-Γgr（即，第igΓ（X）的行）。在（21）中引入的是相同的应用香草辍学对最后一层：给定这个结果，对网络最后一层中的Dropout的简单解释是，它将一种形式的权重衰减添加到最后一层中的2等价于正则化的确定性目标：7679¨¨权重参数U和gr的输出。此外，根据该结果，相对简单地示出了以下表征：定理13. 对于应用于深度网络的倒数第二个层权重V的Dropconnect，参数化为UVgΓ（X），以下等价成立： ¨ ¨¨1⊤¨应用于最后一层的Dropout引起的正则化EZY−θU（ZV）gΓ（X）<$F一个网络。注意，以下结果（命题<$<$2 1−θd2 ⊤212）可以使用与在=+ui[2]有足够的能力。Fθ2 2i=127680Γ∈R¨X2 ⊤2D真NFDD¨EY−1U（Z<$V）<$∈图1.上图：使用SGD的随机DropBlock训练相当于确定性目标（5）。底部：DropBlock收敛到定理7中计算的全局最小值。其中g i（X）RN表示第i个神经元的输出，gr（即，gΓ（X）的第i行）。图2.比较DropConnect和DropOut。上图：使用SGD的随机DropConnect 训练相当于确定性目标（ 22 ）。下图：DropConnect训练相当于Dropout训练的平方损失。在图 1 和图 2 的顶部面板中。在图 1 中，标记为DropBlock Stochastic的曲线是训练对象。¨ ¨¨1⊤ ¨在定理13中取gΓ（X）=X，则对于单层线性网络给出以下结果。推论14. 对于单层线性网络，随机DropConnect目标（21）相当于vanilla Dropout确定性目标：¨ ¨¨ ¨泽θ有意义的情节，即它绘制<$Y−θUt（diag（wt）Id）Vt X <$随着训练经由算法1进行。为了生成标记为DropBlockDeterministic的曲线，我们采用当前的时间，即。Ut，Vt，并在每次迭代中绘制在引理1中获得的确定性丢弃块目标.图2中类似地验证了DropConnect目标的确定性等效性。这两幅图都显示了θ = 0时的曲线图。5，更多θ值的图推迟到附录。可以看出，期望值=Y−UVX2+1−θdui（二十二）在迭代过程中的DropConnect和DropBlock匹配2θ2 2i=1请注意，通过与[2，8]中相同的论证，上述结果也意味着DropConnect在线性网络中诱导低秩解。5. 实验在这一节中，我们进行了训练单隐层线性网络以及多层非线性网络的实验，以验证迄今为止开发的理论。5.1. 浅网络实验首先，我们通过从100维标准正态分布中获取x的1000个i.i.d样本来创建一个简单的合成数据集syn 。然后，yR80被生成为y=Mx，其中M=U 真Vx。为了确保可靠的比较，所有实验都从相同的选择U 0=U init∈R80×50和V 0=V init∈R100×50开始。所有矩阵Utrue、Vtrue、Uinit、Vinit的条目从（0，1）按元素采样。确定性公式。我们首先验证了本文分析的各种dropout方案的确定性公式的正确性，即。（5）和（22），从我们的结果中得出的值此外，底部面板图2的显示了Dropout和DropConnect在每次迭代中具有相同的目标期望值。收敛到全局最小值。接下来，我们验证DropBlock收敛到定理7中计算的理论全局最小值。图1的底部面板绘制了随着训练进行的确定性DropBlock目标，显示收敛到计算的理论全局最小值。可以看出，训练收敛到定理7中计算的DropBlock全局最小值。5.2. 深度网络实验为了在常见的网络架构上测试我们的预测，我们修改了标准的Resnet-50架构，删除了最后一层，插入了一个全连接（FC）层，将隐藏层的维度降低到80（使实验与合成实验一致）。因此，现在的网络架构是，x→Resnet-50Layers→FC→Dropout→FC→y。然后，我们在小数据集MNIST，CIFAR10上训练整个网络，并将DropBlock应用于最后一层，块大小为5。图3显示，2227681DBOriginalDBOriginalDBOriginal- -图4.比较DropBlockOriginal和我们所做的近似DropBlock。训练曲线对应于θDropBlock=0。图1的5。曲线已经通过指数移动平均线保留概率θ可以适当地缩放以重新覆盖原始行为。具有与DropBlock相同θ的DropBlockOriginal导致更高的有效滴落率这可以通过求解θ′等丢弃DropBlock中具有保留概率θDropBlock的任何神经元的概率与丢弃DropBlockOriginal中具有保留的神经元的概率相同概率θ′. 具体而言，关于《注释》，在第2节中，在原始丢弃块方案下，z i=0的概率与所有j上的（w j=1）的概率相同，其中|i−j|≤ k。这个概率是（1−θ′）2k−1。在我们的ap-近似，zi=0的概率为1−′θDropBlock。使这些量相等，我们可以将θDBOriginal解为：′1图3. MNIST（第一和第二图）和CIFAR 10（第三和第四图）数据上的Resnet-50训练结果。第一个和第三个面板显示了随着训练的进行，每次训练迭代期间的确定性损失，第二个和第四个面板显示了最终迭代的乘积矩阵的奇异值通过梯度下降找到的解非常接近定理7预测的下限：目标值被绘制在第一和第三面板上，并且最终预测矩阵Ugr（X）的奇异值以递减的顺序被绘制在第二和第四面板上。请注意，除最低有效奇异值外，最终预测矩阵的奇异值与理论预测密切匹配，我们将其归因于高度非凸网络训练问题，该问题不完全收敛到真正的全局最小值。5.3. DropBlock近似原始的DropBlock方法[5]允许在任意位置丢弃块，在本文中，我们通过将块约束为不重叠来进行近似，如第2节开始时所述。这种近似是一个次要的约束，θDB或iginal=1 （一）θDropBlock）2k−1。如可见于图4，具有适当校正的DropBlockOriginal与DropBlock大致相同，因为绿色，蓝色，橙色曲线在迭代105时的对数标度非常接近。6. 结论本文分析了神经网络结构化Dropout训练的正则化性质，并对某些类型的网络和结构化Dropout策略的全局最优性进行了我们表明，DropBlock诱导谱k-支持范数正则化的权重矩阵，提供了一种潜在的方法，从理论上解释经验观察到的优越性能的DropBlock相比，辍学。我们还证明了对于某些网络类来说，Dropout训练等价于最后，我们证明了我们的技术可以扩展到其他通用的Dropout策略，以及在网络的最后一层应用Dropout风格正则化的深度网络，从而显着推广了先前的结果。致谢这项工作得到了IARPA合同D17PC00345和NSF赠款1618485和1934979的支持。7682引用[1] 安德烈亚斯·阿吉里奥，里纳·福伊格尔，内森·斯雷布罗。稀疏预测与k-支持范数。神经信息处理系统，第1457-1465页，2012年二、四、五[2] J. Cavazza ， B.D. Haeffele 角 Lane ， P. Morerio ， V.Murino和R.维达尔Dropout作为矩阵分解的低秩正则化子。在人工智能和统计国际会议上，第84卷，第435-444页一、三、六、七[3] Yarin Gal Jiri Hron和Alex Kendall混凝土辍学。在神经信息处理系统的进展，2017年。1[4] 泽维尔·加斯塔尔迪Shake-shake正则化在arXiv预印本arXiv：1705.07485，2017。1[5] Golnaz Ghiasi ， Tsung-Yi Lin ， and Quoc V Le.Dropblock：卷积网络的正则化方法。神经信息处理系统的进展，第10750-10760页，2018年。一、五、八[6] Benjamin David Haeffele和Rene 'Vidal。结构化低秩矩阵分解：全局最优性、算法与应用.IEEE Transactions onPattern Analysis and Machine Intelligence，2019。[7] Andrew M McDonald，Massimiliano Pontil，and DimitrisStamos.谱k-支撑范数正则化。神经信息处理系统的进展，第3644-3652页，2014年。四、五[8] Poorya Mianjy，Raman Arora和Rene Vidal。关于辍学的隐性偏见。在2018年机器学习国际会议上。一二三四七[9] P. Morerio，J.卡瓦扎河沃尔皮河Vidal和V.穆里诺课程辍学。在IEEE计算机视觉国际会议上，2017年10月。1[10] 史蒂文·J·雷尼、瓦瓦瓦·戈尔和塞缪尔·托马斯。深度网络的一种新的辍学训练在2014年IEEE Spo-ken语言技术研讨会（ IEEESpo-kenLanguageTechnologyWorkshop）上，2014年。1[11] 拉尔夫·提利尔·洛克费勒。凸分析普林斯顿大学出版社，2015年。4[12] Li Wan，Matthew Zeiler，Sixin Zhang，Yann Le Cun，and Rob Fergus.使用drop- connect的神经网络正则化。国际机器学习会议，第1058-1066页，2013年。1、6[13] YoshihiroYamada ， MasakazuIwamura ， TakuyaAkiba，and Koichi Kise.用于深度残差学习的Shakedrop正则化。在arXiv预印本arXiv：1802.02375，2018。1[14] Konrad Zolna ， Devansh Arpit ， Dendi Suhubdy ， andYoshua Bengio.兄弟会辍学生。在arXiv预印本arXiv：1711.00066，2017。1

下载后可阅读完整内容，剩余1页未读，立即下载