没有合适的资源?快使用搜索试试~ 我知道了~
神经网络中的噪声对鲁棒性的影响与探索
1−噪声如何帮助鲁棒性?神经网络框架下的解释与探索刘宣庆xqliu@cs.ucla.edu戴维斯分校texiao@ucdavis.edu桑吉夫·库马尔·谷歌sanjivk@google.com思思谷歌sisidaisy@google.comCho-Jui Hsieh加州大学洛杉矶分校,谷歌chohsieh@cs.ucla.edu曹勤谷歌qincao@google.com摘要神 经常 微分 方 程( Neural ODE) 已被 提出 作 为ResNet架构的连续近似。离散神经网络中的一些常用正则化机制(例如,dropout,Gaussian noise)在当前的Neural ODE网络中缺失。在本文中,我们提出了一个新的连续神经网络框架,称为神经随机神经元方程(神经网络),它自然地结合了各种常用的正则化机制的基础上随机噪声注入。为了正则化的目的,我们的框架包括多种类型的噪声模式,例如dropout,additive和multiplicative noise,这些都是普通神经网络中常见我们提供了一些理论分析,解释我们的模型对输入扰动的鲁棒性提高。此外,我们还证明了神经网络可以实现比神经ODE更好的泛化能力,并且对对抗性和非对抗性输入扰动具有更强的抵抗力。1. 介绍尽管在许多计算机视觉任务中表现出超人的性能,但最近的研究结果[2,8,28]表明,深度神经网络仍然比人类甚至浅层模型更脆弱。现有的研究从不同的角度支持了这一现象;例如,在CIFAR-10和ImageNet上,[25]表明,如果我们用新的测试集替换原始测试集,测试准确率会下降5%-15%。这个实验对泛化的脆弱性提出了质疑,并暗示当前的分类器对数据清理过程的细节非常敏感。即使在相同的测试集上,由特定算法[19]制作的不明显的对抗性扰动也可以使测试准确率接近于零。在不那么具有挑战性的非对抗性案件中,[11]收集了数十种不同类型的扰动和校正,包括运动模糊或青蛙,到大规模的图像数据集;他们发现,测试精度大大下降损坏的图像。我们将上述三种设置总结为泛化,对抗鲁棒性和非对抗鲁棒性。理想情况下,我们希望模型不仅具有分布鲁棒性,而且还能抵抗对抗性和非对抗性扰动。不幸的是,以前的工作只关注其中一个问题-因此,看看是否有一个统一的方法来减轻所有的问题,以及我们是否可以找到一个理论解释是非常有趣的。本文研究了随机性在训练鲁棒神经网络中的作用。随机性有很多来源:1)dropout层[26]随机禁用一些神经连接并将相应的隐藏特征设置为零; 2)类似地,drop block [7]选择一个密集的矩形区域为零; 3)随机深度网络[12]在训练阶段整体移除一些残留块;以及4)随机平滑[4]添加i.i.d. 高斯噪声的输入图像是抵抗敌对扰动。正如我们稍后将看到的,所有这些想法大多是相同的,它们由确定性部分(神经网络)和随机性部分(伯努利或高斯随机变量)组成为了研究和理解随机性如何稳定神经网络,我们提出了一种新的连续神经网络框架,称为神经随机微分方程(Neural Stochastic Differential Equation,NeuralDifferential Equation),它基于最近提出的神经ODE模型[ 3 ]对ResNet的连续极限进行建模,并添加随机扩散和跳跃项,以涵盖各种常用的基于随机噪声的正则化机制,包括Dropout,随机深度和高斯平滑在神经网络模型中,282283有漂移项-我们网络的确定性部分;扩散项--由多维布朗运动驱动的随机部分;跳跃项--由泊松过程驱动的随机部分。扩散项最适合于隐藏特征的小而持久的变化,例如每个残差块后的高斯平滑跳跃项对于隐藏特征的强和稀疏攻击效果更好,示例包括dropout/drop块层和随机深度网络。基于该公式,我们得出了神经网络的鲁棒性与解的稳定性之间的理论联系。在此基础上,得到了神经网络稳定性的条件.除了理论上的贡献,我们还表明,它通过添加随机正则化,所提出的连续神经网络在CIFAR 10(或CIFAR10.1 [24]),STL 10以及Tiny-ImageNet数据集上的泛化能力,对抗鲁棒性和非对抗鲁棒性方面优于神经ODE网络。2. 相关工作我们的工作受到神经常微分方程网络成功的启发,我们试图通过在动态系统中加入噪声来提高神经常微分方程的泛化能力和由于其确定性的性质,诸如dropout之类的正则化机制不能容易地并入原始神经ODE中神经ODE将ResNet公式化为动态系统的想法在[5]中进行了讨论。提出了一个框架,将现有的深度架构与离散化数值ODE求解器[18]联系起来,并证明该框架是参数有效的。这些网络采用分层结构,每一层由不同的独立权重参数化。神经ODE模型[3]以不同的方式计算隐藏状态:它通过ODE求解器直接对隐藏状态的动态进行建模,其中动态由共享模型参数化。开发了一种通过伴随方法计算梯度的内存高效方法,使训练大型多尺度生成网络成为可能[1,9]。我们的工作可以被看作是这个框架的扩展,目的是结合各种基于噪声注入的正则化机制。最近研究了神经网络背景下的随机微分方程(RDE),重点是了解dropout如何塑造损失景观[27],或者使用RDE作为通用函数近似工具来学习高维PDE的解[23]。相反,我们的目标是解释为什么添加随机噪声可以提高深度网络的稳定性,并证明改进的泛化能力和鲁棒性。噪声神经网络向不同层添加随机噪声是训练神经网络时常用的一种技术。Dropout [26]随机禁用一些神经元以避免过拟合,这可以被视为具有Bernoulli随机变量的多重隐藏状态。随机深度神经网络[12]在训练期间随机丢弃残差神经网络的一些残差块。ResNet的另一个成功的正则化是Shake-Shake正则化[6],它设置了一个二进制随机变量,以便在训练期间在两个残差块之间随机切换。最近,dropblock [7]专门为卷积层设计:与dropout不同,它将一些连续区域而不是稀疏点丢弃到隐藏状态。所有上述正则化技术都是为了提高泛化性能而提出的。它们的一个共同特点是在测试期间。还有另一个研究方向是通过噪声注入来提高对扰动/对抗攻击的鲁棒性。其中,随机自集成[17,16]在训练和测试时间期间向隐藏状态添加高斯噪声 在训练时,它作为正则化器防止过拟合;在测试时,随机噪声也是有帮助的,这将在本文中进行解释。最近,有几个并发的工作随机版本的神经ODE [13,29,30]。然而,与[13]和[29]相比,我们的论文解决了一个非常不同的问题,即.深度随机神经网络的鲁棒性虽然[30]涉及对抗鲁棒性(这也在我们的范围内,但我们将其扩展到非对抗鲁棒性),但他们的方法仍然基于对抗训练。相比之下,我们感兴趣的是如何以及为什么在训练和测试阶段的随机噪声提高鲁棒性。3. 神经网络模型传统的神经网络通常是多层堆叠的;最近的工作[3]表明,我们可以在连续极限下对其进行建模这意味着不存在离散层的概念从数学上讲,它具有以下形式∫tht=hs+f(hτ,τ;w)dτ,(1)S其中t>s是两个不同的“深度”;h t是深度t处的隐藏特征; f是由w参数化的残差块。这个公式正好是原始ResNet [10]结构hn+1=hn+f(hn;wn),(2)这里,层索引n = 1,2,. - 是的- 是的 ,N是离散的。请注意,原始神经ODE模型在隐藏特征ht中不包含任何随机性。因此,它还没有准备好建模284∼N- N−−各种随机神经网络(如dropout)。为了解决这个限制,我们用两种随机项来增强原始神经ODE模型(1):一个是扩散项(模拟高斯噪声),另一个是跳跃项(模拟伯努利噪声),形式上ht=hs+∫t∫tf(hτ,τ;w)dτ+G(hτ,τ)dBτ`s˛¸x漂移项∫t+J(hτ,τ)<$ZNτ斯堪的 纳维亚扩散项d Nτ。(三)斯堪的纳维亚跳跃项与(1)中只包含确定性成分(漂移项)的神经ODE模型相比,(3)中增加了两个额外的项来模拟不同性质的随机性:扩散项和跳跃项。扩散项由布朗运动Bt及其系数G(可选地)由未知变量v参数化组成。在跳跃其中,确定性函数J(h τ,τ)控制跳跃的大小,随 机 变 量 ZNτ <$Bernoulli ( ±1 , p ) 控 制 方向;NτPoisson(λτ)是控制跳跃“频率”的Poisson计数过程。对于com-为了更好地说明布朗运动的性质,我们在附录中包括了布朗运动的一些关键性质,为了更系统地讨论布朗运动,我们请读者参考[22,14]中的相关部分,非正式地,我们可以把随机变量dBt看作i.i.d.分布为(0,dt)的高斯随机变量。接下来我们将详细解释这两个术语。扩散项。这一部分是一个整数,我们知道它服从高斯分布。为了更清楚地看到它,我们可以简单地设置G(hτ,τ)=σ,因此积分的结果将是BtBs(0,(ts)σ2),这与向每个残差块添加高斯噪声一致。对于一般G,它确实允许封闭形式的解决方案,但结果仍然是高斯的,只有方差现在取决于隐藏特征hτ。网络深度图1.(3)下的丢弃层的说明理由(3)。可能无法直接看出为什么我们的模型(3)是配备高斯平滑和Dropout层的残差神经网络的离散版本的适当替代品。在这里,我们做更多的理由。我们首先注意到,来自dropout层的噪声模式与高斯平滑生成的噪声非常不同。根据定义,Dropout随机将一些特征设置为零,因此这里的噪声本质上是伯努利分布的。另一方面,扩散项是高斯过程(It ointegergral)。因此,用扩散项来模拟脱落层是不合理的,用跳跃项来模拟高斯噪声也是不合适的。这就是为什么我们在连续框架中使用两个独立的术语。3.1. 一些具体的例子我们在(3)中提出了一个新的框架,用于使用扩散和跳跃项将随机性编码到神经ODE中。接下来我们将给出这两个术语的一些具体例子。跳跃术语。跳跃项的关键特征是积分是在Poisson过程NT上计算的,即在区间[s,t]内跳跃的总数服从Poisson分布辍学生Dropout层随机禁用神经网络中的某些连接,在这里我们考虑一种常见的情况,其中Dropout层放置在卷积块之后和剩余连接之前(图1)。2)。数学上我们P(Ns→t=n)=[λ(t s)]nen!−λ(t−s), n∈ Z+.f(ht;w)f(ht;w)γ我们可以想象,通过将跳跃项插入到隐藏项中-den状态转换公式(3),我们有效地向网络添加了n个丢弃层,其中n来自某些泊松分布;对于每个dropout层,它被随机放置到任何网络深度(见图2)。1以获得更好的图片)。此外,对于每个丢弃层,丢弃概率由伯努利随机变量Z确定。htht+f(ht;w)<$γ图2.我们的dropout层配置。可以将其表示为ht+1=ht+f(ht;w)<$γ,其中ht第一次第二次第三次辍学辍学月4辍学dNtT0T1T2T3654Nt321-1123456789101112 13转换块辍学285p降−联系我们--2N−−−2是深度τ处的输入特征,P(γi=0)=pdrop决定了下降率。为了与(3)兼容,我们将其重写为N(0, 1)。之后,连续版本变为不,不。H=h +f(h; w)dτ+f(h; w)<$dB.不τht+1=ht+f(ht;w)<$γt s τSs1−pdrop1γ 0 的情况。5=h+f(h;w)+2f(h;w)高斯平滑正如我们之前提到的,t2t1t2,(4)高斯噪声更好地由扩散项来建模的=ht+2f(ht;w)+2f(ht;w)Z我们基本上是将伯努利随机变量 从 γ(具有值0、1)到Z(具有值1、 +1)。比较(4)和(3),我们得出以下结论:(4)第一个问题应用高斯平滑的传统方法是在数学上向每个隐藏层[17](或仅输入层[16,4])h t+1= h t+ f(h t; w)+Wt,Wt <$N(0,σ2I). (8)但通过实验我们发现,乘性噪声ht=hs+1吨f(hτ;w)dτ+S s2 f(h τ; w)<$ZNτdNτ.以下形式也适用h t+1= h t+ f(h t; w)+f(h t; w)Wt,Wt(0,σ2I).(九)随机深度网络这是非常相似的以前的dropout设置,唯一的区别是,随机深度网络,随机向量γ不再是i.i.d.伯努利分布,但更正式地说,γ=γ·J,其中Ji,j=1是全一矩阵,γ是(标量)Bernoulli随机变量(值为{0, 1})。是-与(8)不同,(9)中的噪声尺度随着来自卷积块f(ht;w)的输出尺度而增长,因此噪声变化是自调节的,并且有时它可以是可调节的对于加性和乘性高斯噪声,积分形式直接如下 . ∫除此之外,与之前的dropout层没有区别,tG(τ)dB,它的连续形式是ht=hs+f(hτ;w)dτ+τsτ(10)tG(h,τ)d B.h=h∫t+1f(h;w)dτ+∫t 2f(h;w)ZdN,sst τt s τSτNτSτ(五)可以看出,对于加性噪声,扩散系数G与ht无关;而对于乘性噪声,G可以这里ZNτ只是一个标量随机变量。高斯辍学。我们可以创建另一种不涉及伯努利随机变量的丢弃噪声。我们首先将原始dropout(4)缩放1pdrop,其变为γ随着隐藏的特征而改变。3.2. 训练算法和复杂度随机连续神经网络训练算法的实现类似于神经ODE[3],并在算法1中进行了说明。 事实上,我们可以把(3)看作是一个非线性问题,标准的非线性问题求解器可以被应用于ht+1=ht+f(ht;w)<$1−p 下降.(六)来这里训练 我们可以从算法中看出,对于前向传播,我们选择一个标准的递归求解器,我们添加1 pdrop缩放因子的原因是,由于E [γ] = 1 pdrop的事实,现在输出期望E [h t+1]= h t+ f(h t;w)看起来好像没有使用dropout。从方差中分离出均值,我们有例 如 Euler-Maruyama [15] , Milstein [21] 或 更 高 的Runge-Kutta方法,但对于反向传播,我们只是依赖于主要深度学习框架提供的自动梯度。虽然可以推导出h=hγ+f(h;w)+f(h;w)<$(−I)tt算法1正向和反向传播286tt不不w.1− p压降一曰:程序TRAINING-工艺流程&=h+f(h;w)+p降f(h;w)πz,反向传播1−p压降..(七)2:G iv eninitialstate.h0,int e gralrange[0,T].Σ3:h T= n求解f(h t,t; w),G(h t,t; v),[0,T]。其中I是单位矩阵,zt,Σ1−p压降p降γ1−p压降调用黑盒问题求解器I.我们可以验证zt作为两点分布,具有与标准高斯分布相同的均值和方差。作为近似,我们直接用4:计算损失L = Δ(h T)。5:使用自动梯度 计算梯度RSL和RSL。6:更新网络参数w和v。−287→0。√10110010−110−2SDE颂ODE伴随101102103104网络深度t2−42−52−62−72−82−9101102103104网络深度t为了使差异可视化,我们在图1中运行了几个数值模拟。4对于xt具有不同的方差σ。的0的情况。200的情况。150的情况。10图3. 左:我们比较神经网络常微分方程,伴随常微分方程,和我们可以看到,运行时间随着网络深度成比例地增加,并且在我们的模型中没有显着的开销右:我们计算了欧拉格式中离散化引起的Euler求解器误差,测量了ǁhT−hˆT ǁ0的情况。050的情况。00通过ht的相对误差,即ε=,hT是地面实况(使用非常精细的网格计算),0 1 2 3 4 5 6 7时间t在粗网格下,0×10−4,1. 0×10−1](请注意,净工作深度t=T/T)。在实践中,我们发现最直接的autograd方法在我们所有的实验中都有效地工作,参见图3(左)。此外,我们观察到离散化引起的误差对于最终任务来说足够小,即使当在图3(右)中所示的RISSOver(算法1中的第3行)中使用大网格尺寸时也是如此。更多细节见附录。4. 跳跃扩散与鲁棒性的关系在本节中,我们将构建一个新的解释,以解释噪声(在跳跃扩散项(3)中)如何帮助训练鲁棒神经网络。值得注意的是,我们的分析与传统的观点有很大的不同我们专注于随机性在测试时间中的作用,从这个意义上说,我们的想法是对前者的补充。在下面的部分中,我们首先提供一个玩具的例子,有一个更密切的看法这一现象,然后我们提出一些理论来理解背后的原则。4.1. 一个玩具例子让我们看一个一维的玩具例子,随机性使系统稳定。假设我们有一个简单的dxt =xt dt +σxt dBt,(11)Bt是标准的布朗运动。当我们通过设置σ = 0来去除扩散项时,(11)就变成了一个常微分方程:d xt=xtd t,解xt=x0et,其中x0是x t的初始化。 如果x0/=0,我们可以看到xt→当t→ ∞时为±∞。 换句话说,任何微小的扰动,初始化x0=0将通过ODE放大-系统在未来时间t。相反,如果我们把扩散加回σi =0,那么我们就有了这个类。几何布朗木运动的解xt= x0exp(1−σ2/2)t + σBt。一旦噪声的方差足够大(例如,σ> 2),图4. 玩具的例子 通过比较模拟,σ= 0和σ= 2。8,我们看到向系统中添加噪声可以是控制x t的有效方法。多次运行的平均值用于抵消早期阶段的波动。值得注意的是,这里我们采用乘性噪声,其中偏差项与x t成比例缩放。实验图4清楚地表明,在添加扩散项后,溶液路径的行为这个例子很有启发性,因为我们可以通过在网络中添加随机项来控制扰动对输出4.2. 理论解释受上述玩具例子的启发,我们从理论上分析了神经跳扩散方程(3)的稳定性我们的分析结果表明,跳跃扩散项确实可以提高模型对小的、任意的输入扰动的鲁棒性这一发现也解释了为什么噪声注入可以提高离散网络的泛化能力和鲁棒性,这在当前文献中已经观察到[17,16]。为了简化我们的符号,我们暂时忽略跳跃项,专注于扩散项。以下关于漂移f和扩散G的假设保证了解的存在性和唯一性。假设1 f和G至多是线性的,即 f(x,t)<$G(x,t)<$$>≤c1(1+<$x<$$>),其中c1>0,<$x∈Rn,t∈R+.假设2f和G是c2-Lipschitz: f(x,t)−f(y,t)<$+<$G(x,t)−G(y,t)<$<$≤c2<$x−y<$,其中c2>0,x,y∈Rn,t∈R+。基于上述假设,我们可以证明,方程(3)有唯一解[22]。我们注意到,这些关于f的假设是非常自然的,并且也适用于原始的神经ODE模型(见第二节)。6[3])。关于扩散矩阵G,我们已经看到,至少对于加性高斯噪声(其中G是常数矩阵)和乘性高斯噪声(其中G与f成比例),只要满足以下条件,两个假设都自动满足:那么我们知道xta. S.f具有相同的k。运行时间(秒)σ=0样本路径σ = 2。平均8离散化误差样本路径x(t)288{F}F00ǁǁ≤不0不−G(he,t)−不≡∀ ∈∈不不不×›→不×›→dε=f(h,t;w)−f(h,t;w)dt我们分析了扰动的动力学。我们的分析不仅适用于神经网络模型,也适用于神经ODE模型,通过设置扩散项G和跳跃项J为零。 我们的想法如图所示。五、第一图5.这是我们分析的结果在输入端给定一个较小的扰动ε,误差如何通过深度神经网络传播如果误差是可控的,那么我们可以确保最终的预测结果也是可控的。在我们的分析中-零解的含义很清楚:对于神经网络,如果我们不扰动输入数据,那么输出将永远不会改变。然而,解εt=0可能是高度不稳定的,在这个意义上,对于初始化时的任意小扰动ε0/=0,εT可以任意大。幸运的是,正如我们下面将要展示的,通过适当选择扩散项G,我们总是可以将εt控制在一个小的范围内。一般情况下,我们不能得到多维方程的封闭解,但我们仍然可以通过动力学f和G分析渐近稳定性。这是李雅普诺夫稳定性理论在随机系统中的推广首先 , 我 们 定 义 了 随 机 情 形 下 的 稳 定 性 概 念 设(Bt,,P)是一个完备概率空间,且滤过t≥0,Bt是定义在概率空间中的m维布朗运动,我们考虑(13)中的Bt,初始值为ε0妹妹,我们不需要关心ht或he如何演变,只有dε =f(ε,t)dt+G(ε,t)dB, (15)ett tttt差εt=ht−ht很重要;这在(13)中描述首先,我们考虑以两个稍微不同的值h0和h e= h0+ ε0初始化我们的微分方程(3),其中h0是原始(干净)输入,ε0是h0上的扰动(也称为“误差”)。 在许多实际问题中,输入端的扰动是有界的,即。ε0δ。因此,在扰动初始化h e下,时间t处的隐藏状态遵循(3)中的相同规则,为了简单起见,忽略跳转项,dhe =f(he,t;w)dt+G(he,t)dB′,其中he=h0+ε0,其中为了简单起见,我们放弃了对参数w和v的依赖性。 我们进一步假设f∈:Rn R+Rn和G:Rn R+Rn×m都是Borel可测的。我们可以证明,如果假设(1)和(2)对f和G成立,那么它们也对f和G成立(见附录),并且我们知道ε(15)允许唯一的解εt。我们从[20]中得到了以下的Lynaplasts稳定性结果定义4.1(李雅普诺夫稳定性)解εt=0(15):t t t t t t0(十二)A. 是随机稳定的,如果对任意α∈(0, 1)且r>0,其中B′是与初始化h e相关联的ε的布朗运动。然后很自然地分析扰动ε t=heht在长期中如何演变。减去(3)从(12),我们有存在一个δ=δ(α,r)> 0使得当<$ε 0 <$$> ≤ δ时Pr{<$ε t <$ 0,使得Pr {lim t→∞ <$εt<$= 0}≥1−α,只要<$ε0<$≤δ,ΣeΣtttΣ它被称为随机渐近稳定;B. 是几乎必然指数稳定的,如果对所有ε0∈Rn,Σ+G(h,t)dB(十三)limsup 1log ε <0 a.s. 1= f<$(ε t,t; w)dt + G <$(ε t,t)d Bt.这里我们隐含地假设布朗运动Bt和B′对于初始化h0和he具有相同的样本路径,即Bt= B′w.p.1.换句话说,t→∞请注意,对于定义4.1中的A部分,很难量化稳定性有多好以及解达到平衡的速度有多快。此外,在假设(1,0t2),我们有一个简单的结果Pr{εt对于所有t≥0我们关注两个随机过程ht和都是由同样的布朗运动驱动的。 所以0}=1,当ε00时,如附录所示。也就是说,不是有效的,以减去扩散项。(13)的一个重要性质是它允许平凡解ε t0,不 R+ W Rd.为了验证这一点,我们只需要证明在εt= 0时漂移(f)和扩散(G)都为零:几乎所有的样本路径都从非零初始值开始,由于布朗运动,化永远不会达到零。相反,几乎必然指数稳定性的结果意味着几乎所有的样本路径的解决方案将接近零指数快。关于这个系统的稳定性的一个重要结果是[20],推迟到ap。f(0,t;w)=f(ht+0,t;w)−f(ht,t;w)= 0,(十四)钟摆 我们现在考虑一种特殊情况,当噪声是he不|h − h|≤ εe00|H − hT|→ ∞e?不ht网络深度隐藏功能不289G(0,t)= G(h t+0,t)− G(h t,t)= 0.1“a.s.”是“几乎肯定”的缩写290不≡∈·不不2表1. 在上述扩散矩阵G(ht,t; v)的不同选择下评估模型泛化。 对于这三种噪声类型,我们为它们中的每一种搜索合适的参数σt,使得扩散矩阵G适当地正则化模型。 TTN是指测试时间噪声。我们观察到添加噪声可以提高神经ODE的测试精度,而且测试时的噪声是有益的。数据精度@1-w/o TTN精度@1- w/TTN乘法G(h t,t)=σ·h t且m=1.相应的摄动ε t=h e−h t变为d ε t= f<$(ε t,t; w)dt + σ·ε td Bt.(十六)注意,对于通过设置σ0的(16)的确定性情况,在某些情况下解可能不稳定(见图4)。而对于σ>0的一般情况,遵循一般的主张,通过适当地设置σ,我们将获得(几乎肯定)指数稳定的系统。推论4.0.1对于(16 ),如果f(h t,t; w )是L-Lipschtiz连续的w.r.t. h t,则(16)具有唯一解,2性质lim sup1log <$ε<$≤ −(σ−L)几乎必然,5.1. 泛化性能在第一个实验中,我们发现一个小的噪音有助于generalization。然而,请注意,我们的噪声注入与离散情况下的随机性层不同。例如,dropout层在训练时而不是测试时添加Bernoulli噪声,而我们的模型在测试时保持随机性,并采用多个前向传播的平均预测至于数据集,我们选择CIFAR-10,STL-10和Tiny-ImageNet2来包含各种大小和数量的类。实验结果示于表1中。我们观察到,对于所有数据集,噪声版本始终优于ODE,原因是将适度噪声添加到训练时的模型可以充当正则化器,任意ε0Rn. 特别地,如果σ2> 2 L,则解ε t= 0几乎肯定是指数稳定的5. 实验在本节中,我们展示了我们的框架在泛化、非对抗鲁棒性和对抗鲁棒性方面在我们的实验中,我们将f(·)设置为具有几个卷积的神经网络个街区. 对于G(·),我们有以下选择:神经ODE,这可以通过丢弃扩散项G(h t,t)=0来完成。• 加性噪声,当扩散项与ht无关时,这里我们简单地设为对角G(ht,t)=σtI• 乘性噪声,当扩散项与h t成正比,或G(h t,t)= σth t时.• 当扩散项与漂移项f(ht,t;w)成比例时,即G(ht,t)= σtdiag{f(ht,t;w)},为高斯丢弃噪声。请注意,最后三个是我们提出的具有不同类型随机性的模型,如3.1节所述。更多的实验细节,f()的结构和数值求解器,请参阅我们的附录。请注意,我们对上面提到的所有方法都使用了相同的架构,因此比较是公平的。提高了测试精度。在此基础上,如果我们继续测试时间噪声并对输出进行集成,我们将获得更好的结果。5.2. 改进的非对抗鲁棒性我们按照[11]的思想评估了模型在非对抗性腐败下的鲁棒性。被破坏的数据集包含数十个摄影缺陷,包括运动模糊、高斯噪声、雾等。对于每种噪声类型,我们运行Neural ODE和我们的模型,并收集测试精度 。 通 过 改 变 腐 败 水 平 , 在 表 2 中 以 平 均 准 确 度(mAcc)报告最终结果。这两个模型都是在干净的数据上训练的,这意味着在训练阶段,损坏的图像对它们不可见,它们也不能用相同类型的损坏来增强训练集。从表中可以看出,我们的模型在10种情况中有8种情况下比Neu- ral ODE表现得更好。对于剩下的两个,ODE和ESTA都表现得非常接近。这表明,我们提出的神经跳扩散提高了非对抗性损坏数据下的神经ODE的鲁棒性。5.3. 提高对抗鲁棒性接下来,我们考虑我们的模型下的对抗扰动的性能。这种情况严格来说比前面的情况2从www.example.com下载https://tiny-imagenet.herokuapp。联系我们·t→∞颂添加剂乘性辍学颂添加剂乘性辍学CIFAR-1087.9588.6989.0688.23–88.7389.7788.44CIFAR-10.170.0070.8071.5071.85–71.7072.0573.60STL-1058.0361.2360.5461.26–62.1162.5862.13Tiny-ImageNet45.1945.2546.9447.04–45.3946.6547.81291δǁh−hǁhtǁ不不−不−表2.在不同水平的非对抗性扰动下测试准确性结果数据噪声类型轻度损坏←准确度→严重损坏1级2级3级4级5颂75.8970.5966.5260.9153.02CIFAR10-C†辍学77.0271.5867.2161.6153.81辍学+TTN79.0773.9869.7464.1955.99颂23.0119.1815.2012.209.88TinyImageNet-C†辍学22.8518.9414.6411.549.09辍学+TTN23.8419.8915.2812.089.44†从https://github.com/hendrycks/robustness8060402000的情况。0 0。204最大摄动60402000 1 23最大摄动50403020100的情况。0 0。204最大摄动图6.在CIFAR-10(左),STL-10(中)和Tiny-ImageNet(右)数据上比较针对102范数约束对抗扰动的鲁棒性。我们观察到带有乘性噪声或丢弃噪声的跳扩散模型比神经ODE更能抵抗对抗性攻击。约束损失最大化过程,因此它代表最坏情况下的性能。在我们的实验中,我们采用了20步的PGD攻击[19]。实验结果示于图6中。可以看出,带有乘性噪声或丢弃噪声的跳扩散模型比神经常微分方程更能我们还观察到丢弃噪声优于乘性噪声。5.4. 可视化隐藏态的扰动0的情况。1250的情况。1000的情况。0750的情况。0500的情况。0250的情况。0000的情况。00。2040608个1. 0网络深度t图7. 比较隐藏状态的扰动,εt,在ODE和ε上(我们选择丢弃式噪声)。在这个实验中,我们看一下在任何时间t的扰动εt=h e h t。回想一下,在图4中的一维玩具例子中,我们观察到通过添加强扩散项可以很好地抑制时间t处的扰动,这也被我们的定理所证实。然而,同样的现象是否也存在,仍然值得怀疑这是因为我们不能在训练或测试期间向网络添加非常大的噪声 如果噪声太大,它也会删除所有有用的功能。因此,确保这不会发生在我们的模型上变得很重要 为此,我们首先从CIFAR-10中采样输入x,并在时间t =[0,2] t,2] t收集所有隐藏状态ht。- 是的- 是的 ,N. 然后我们执行正则PGD攻击[19]以找到扰动δx,使得xadv=x+δx是对抗图像,并将新数据xadv再次馈送到网络中,因此我们在与ht相同的时间戳获得he。最后,我们绘制误差ε t= heh tw.r.t. 时间t(也称为“网络深度”),如图7所示。我们可以观察到,通过添加扩散项(丢弃式噪声),误差的累积速度比普通的神经ODE模型慢得多。6. 结论最后,我们引入了神经网络模型,它可以通过注入随机噪声来稳定神经网络ODE的预测。我们的模型可以实现更好的推广,提高对抗性和非对抗性噪声下的鲁棒性。鸣谢这项工作部分由NSF根据IIS 1719097支持。颂倍增性辍学颂倍增性辍学颂倍增性辍学ODE相对扰动不不准确度(%)准确度(%)准确度(%)292引用[1] Lynton Ardizzone 、 Jakob Kruse 、 Sebastian Wirkert 、Daniel Rahner、Eric W Pellegrini、Ralf S Klessence 、Lena Maier-Hein、CarstenRothe r和UllrichK?the。用可逆 神 经 网 络 分 析 arXiv 预 印 本 arXiv : 1808.04730 ,2018。2[2] Anurag Arnab,Ondrej Miksik和Philip H.S. 乇论语义分割模型对对抗性攻击的鲁棒性。在CVPR,2018年。1[3] Tian Qi Chen,Yulia Rubanova,Jesse Bettencourt,andDavid K Duvenaud.神经常微分方程。神经信息处理系统的进展,第6572-6583页,2018年。一、二、四、五[4] Jeremy M Cohen,Elan Rosenfeld,and J Zico Kolter. 通过 随 机 平 滑 验 证 对 抗 鲁 棒 性 arXiv 预 印 本 arXiv :1902.02918,2019。1、4[5] 渭南E.通过动态系统进行机器学习的建议。数学与统计通信,5(1):1-11,2017。2[6] 泽维 尔· 加斯 塔尔 迪Shake-shake 正则 化arXiv预印 本arXiv:1705.07485,2017。2[7] Golnaz Ghiasi , Tsung-Yi Lin , and Quoc V Le.Dropblock:卷积网络的正则化方法。神经信息处理系统的进展,第10727-10737页,2018年。一、二[8] Ian J Goodfellow,Jonathon Shlens,Christian Szegedy.解释 和 利 用 对 抗 性 的 例 子 。 arXiv 预 印 本 arXiv :1412.6572,2014。1[9] Will Grathwohl, Ricky TQ Chen, Jesse Beterncourt,Ilya Sutskever,and David Duvenaud. Ffjord:可扩展可逆生成 模型的自由形 式连续动力 学。arXiv预印本arXiv:1810.01367,2018。2[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。2[11] Dan Hendrycks和Thomas Dietterich基准神经网络的鲁棒性 常 见 的 腐 败 和 扰 动 。 arXiv 预 印 本 arXiv :1903.12261,2019。1、7[12] Gao Huang,Yu Sun,Zhuang Liu,Daniel Sedra,andKilian Q Weinberger.深度随机的深度网络。在欧洲计算机视觉会议上,第646施普林格,2016年。一、二[13] Jun teng Jia和Austin R.本森神经跳随机微分方程,2019。2[14] 艾欧尼斯·卡拉扎斯和史蒂文·什里夫。布朗运动在布朗运动和随机微积分,第47Springer,1998年。3[15] Peter E Kloeden和Eckhard Platen。随机微分方程数值解,第23卷。Springer Sci-ence Business Media,2013. 4[16] MathiasLecuyer, VaggelisAtlidakis ,RoxanaGeambasu,Daniel Hsu,and Suman Jana.对具有差分隐私的对抗性示例的认证鲁棒性。arXiv预印本arXiv:1802.03471,2018。二、四、五[17] 刘玄庆、程敏浩、张欢和谢卓瑞。通过随机自集成实现鲁棒神经网络。在欧洲计算机视觉会议(ECCV)的会议记录中,第369-385页,2018年。二、四、五[18] Yiping Lu , Aoxiao Zhong , Quanzheng Li , and BinDong. Beyond Finite Layer Neural Networks : BridgingDeep Architecture and Numerical Differential Equations.在国际机器学习会议上,第3282-3291页,2018年。2[19] Aleksander Madry 、 Aleksandar Makelov 、 LudwigSchmidt、Dimitris Tsipras和Adrian Vladu。迈向抵抗对抗 性 攻 击 的 深 度 学 习 模 型 。 arXiv 预 印 本 arXiv :1706.06083,2017。1、8[20] 毛雪荣。随机微分方程及其应用。Elsevier,2007年。6[21] 米尔施泰因将军随机微分方程的近似积分概率论及其应用,19(3):557-562,1975。4[22] Bernt Øksendal随机微分方程在随机微分方程,第65-84页。施普林格,2003年。三、五[23] 马兹亚·莱西前向-后向随机神经网络:高维偏微分方程的深度学习。arXiv预印本
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功