没有合适的资源?快使用搜索试试~ 我知道了~
5443基于贝叶斯理论的深度图像先验泽洲程Matheus Gadelha Subhransu Maji Daniel Sheldon马萨诸塞大学阿默斯特{zezhoucheng,mgadelha,smaji,sheldon}@ cs.umass.edu摘要深度图像先验[26]最近被引入作为自然图像的先验。它将图像表示为具有随机输入的卷积网络的输出。对于“推理”,执行梯度下降来调整网络参数,以使输出与观测值匹配。这种方法在一系列图像重建任务上产生良好的性能我们证明了当网络每层的通道数趋于无穷大时,深度图像先验在极限下渐近等价于平稳高斯过程先验,这为贝叶斯推理方法提供了信息。我们表明,通过使用随机梯度Langevin动力学进行后验推理,我们避免了早期停止的需要,这是当前方法的一个缺点,并改善了去噪和修复任务的结果。我们在一些1D和2D信号重建任务上说明了这些直觉。1. 介绍众所周知,在大型数据集上训练的深度卷积网络令人惊讶的是,一些工作已经表明,具有随机参数的卷积网络也可以编码非平凡的图像属性。例如,随机卷积网络的滤波器响应的二阶统计对于风格转移和合成任务是有效的[27]。在小数据集上,从随机卷积网络中提取的特征可以像训练的网络一样工作[24]。沿着这些思路,Ulyanov等人提出的[26]表明,在随机输入上适当设计的卷积网络的输出往往是平滑的,并引起自然图像先验,因此可以通过梯度下降来代替对自然图像的搜索,以找到网络参数和输入,从而最小化网络输出的重建误差代码和补充材料可在https:people.cs.umass.edu/zezhoucheng/gp-dip上获得值得注意的是,不需要事先训练,该方法通过随机初始化参数来操作。我们的工作提供了一种新的贝叶斯观点的深度图像先验。我们证明了具有随机参数的卷积网络对平稳输入进行操作,例如,白噪声,当每一层中的信道数趋于无穷大时,接近具有极限中的静止核的二维高斯过程(GP)(定理1)。虽然之前的工作[19,31,18,3,20]已经研究了无限宽网络和卷积网络的GP行为,但我们的工作是第一次分析卷积网络在固定输入上引起的空间我们分析得出的内核作为一个函数的网络架构和输入分布的特征卷积,非线性,上采样,下采样,和跳过连接的空间协方差的影响。这些见解可以为设计1D或2D先验的网络架构的选择提供信息。然后,我们使用贝叶斯的角度来解决目前的深度图像先验估计技术的缺点。从单个图像估计深度网络中的参数会带来巨大的过拟合风险。在以前的工作中,作者依靠早期停止来避免这种情况。贝叶斯推理提供了一种原则性的方法来避免过度拟合,通过在参数上添加合适的先验,然后使用后验分布来量化不确定性。然而,深度网络的后验推理是具有挑战性的。一种选择是计算极限GP的后验。对于具有足够通道的小型网络,我们表明这与深度图像先验非常匹配,但计算成本很高。相反,我们基于随机梯度朗之万动力学(SGLD)[28]进行后验采样,这在理论上是有根据的,在计算上是有效的,因为它是基于标准梯度下降的。我们表明,使用SGLD的后验采样避免了提前停止的需要,并且在图像去噪和修复任务上比香草梯度下降更好(见图1)。它还允许我们系统地计算估计的方差,作为不确定性的度量我们说明了这些想法上的一些1D和2D重建任务。5444ǁ −ǁi=1|Di=1i=1∈i,D{}0.050.040.030.020.010.0080.0060.0040.0020.00101 102 103 104105迭代(对数标度)(a) MSE与迭代0.0000.000 0.005 0.0102(b) 最终MSE与σ2(c)推断均值(d)推断方差图1. (最好放大观看。)使用深度图像先验对结果进行去噪和修复。(a)作为针对两个不同噪声水平的迭代的函数的推断图像相对于噪声输入图像的均方误差(MSE)。SGD收敛到零MSE,导致过拟合,而SGLD大致收敛到图像中的噪声水平。这也在图(b)中示出,其中我们绘制了SGD和SGLD的MSE作为收敛后噪声水平σ2有关实施细节,请参见第5.2.1节。(c)修复结果,其中蓝色边界内的图像的部分被掩蔽并使用具有深度图像先验的SGLD来推断。(d)从后验样本中获得的方差估计,可视化为热图。请注意,左上角附近的缺失区域具有较低的方差,因为该区域是均匀的。2. 相关工作有前科。 我们的工作分析了深度图像先验[26],它将图像表示为卷积网络f,输入x上的参数为θ。给定噪声目标y,通过使重建误差yf(x;θ)在x和θ上最小化来获得去噪图像。该方法从x和θ的初始值开始绘制i.i.d.。从零均值高斯分布,并通过梯度下降优化目标,依靠早期停止,以避免过拟合(见图1)。他们的方法表明,先验知识与最先进的免学习方法(如BM 3D [6])在图像去噪,超分辨率和修复任务方面具有竞争力。 先验对基于字典的方法[21]和非局部技术(诸如BM 3D和非局部均值[4])所利用的分层自相似性进行编码。网络的架构起着至关重要的作用:多层网络用于修复任务,而具有跳过连接的网络用于去噪。我们的工作表明,这些网络诱导的先验对应于不同的平滑高斯过程(GPs)。高斯过程是随机变量的无限集合,其中任何有限子集都是联合高斯分布的[23]。GP通常被视为函数的先验。设T是指数集(例如,T= R或T=Rd),设μ(t)为实均值函数,K(t,t′)为T上的非负定核或协方差函数. 如果f∈GP(μ,K),那么,对于任意有限个数的指数t1,. . .,tnT的vector(f(t i))n 是高斯分布的,平均向量为-tor(µ(t i))n和协方差矩阵(K(t i,t j))n.GPS在空间统计和地质统计学方面有着悠久的历史[17]。在ML中,对GP的兴趣是由它们与神经网络的联系所激发的(见下文)。 可以使用GPS用于通用贝叶斯回归[31,22],分类[30]和许多其他应用[23]。深度网络和GPS。Neal [19]证明了两层网络收敛于高斯过程,走 向 无 穷 大 。 Williams [29] 提 供 了 具 有 sigmoid 和Gaussian传递函数的网络的协方差函数的表达式Cho和Saul [5]提出了ReLU和Heaviside步骤非线性的内核,并使用内核机器研究了它们的有效性。最近,一些工作[13,18]已经将这些结果扩展到深度网络,并导出了所得GP的协方差函数类似的分析也被应用于卷积网络。加里加-阿隆索等人[9]研究了具有剩余层的卷积网络的GP行为,而Borovykh [3]分析了滤波器宽度趋于无穷大时的极限协方差函数。Novak等人[20]评估了结果GP中池化层的效果。这项工作的大部分已经应用于预测任务,其中给定一个数据集= (x i,y i)n ,由深度网络诱导的协方差函数用于使用标准GP机制来估计后验p(y x,)。相比之下,我们将卷积网络视为图像坐标空间上的空间随机过程,并研究诱导的协方差结构。贝叶斯推理与深度网络 人们早就认识到,神经网络权值的贝叶斯学习将是可取的[15,19],例如,以防止过拟合和量化不确定性。事实上,这是连接神经网络和GP的原始工作的动机。相对于权重上的先验执行MAP估计在计算上是直接的,并且对应于正则化。然而,全后验推理的计算挑战是显著的。早期的工作使用MCMC [19]或拉普拉斯近似[7,15],但比反向传播的基本学习慢得多。多年来,已经提出了几种变分推理(VI)方法[12,1,10,2]。 最近,dropout被证明是近似贝叶斯推断的一种形式[8]。我们将使用的方法基于随机梯度朗之万动力学(SGLD)[28],这是一种通过向迭代中添加噪声将SGD转换为MCMC采样器的通用方法。Li等[14]前一篇文章1D,2= 0.0SGLD,2= 0、2=SGLSGD,2= 0SGDSGLDSGDMSEMSE5445- -0∈联系我们v→ ∞222深度网络的条件SGLD方法。3. 卷积网络的极限GP协方差这是由Kz( t1,t2)= E[ z( t1)z( t2)]Σ你好ΣΣ。Σ= Ev2h(Xu)(t)h(Xu)(t)以前的工作集中在两个不同输入(即,图像)。对于深度图像先验,我们感兴趣的是卷积网络每层内的空间协方差结构作为基本构建块,我们考虑通过卷积层、逐元素非线性、然后第二卷积变换的多通道输入图像X,以产生新的多通道kk1k2k=1Σ。Σ。ΣΣ=HσvEh(X <$u1)(t1)h(X <$u1)(t2).最后两个步骤遵循u和v的独立性,并且v是从零均值高斯中得出的。设x<$(t)=vec([X(:,t),X(:,t1),. . . ,X(:,td+1)])be在X的位置t处的大小为d的窗口内具有元素的展平张量。 类似地,记u<$=vec(u)。那么期望值可以写为K( t,t)= Hσ2 E<$T T<$无穷大. 首先,我们推导出极限分布,当Xz1 2vu h(x<$(t1)u<$)h(x<$(t2)u') .(一)是固定的,它模仿了以前工作的派生。我们Williams [29]证明了V(x,y)=EuΣh( xTΣu) h( yT u)可以然后设X为平稳随机过程,并显示空间协方差结构如何传播到z,这是我们的可以对各种传递函数进行解析计算例如,当h(x)=erf(x)=2/<$π<$xe−s2ds时,则主要结果然后,我们将这一论点归纳分析多层网络,并分析其他网络操作,如上采样,下采样等。Verf( x,y)=2 罪πxT√。(二)(xTx)(yTy)3.1. 固定X的极限分布为了简单起见,考虑一个图像XR c×T,具有c个通道,只有一个空间维度。对于两个或更多个空间维度,推导基本相同这里的σ2I是u的协方差。Williams还推导了高斯传递函数h(x,u)=exp的核(xu)T(xu)/2σ2。 F或ReLU非线性,即,h(t)= max(0,t),Cho和Saul [5]导出了如下表达式:1 .一、Σ网络的第一层具有H个滤波器,表示为U=(u1,u2,. . . 其中uk ∈Rc×d,第二个Vrelu(x,y)=2πy.TΣsinθ+(π−θ)cosθ,(3)层有一个过滤器v∈RH(对应于单个变化,其中θ = cos−1xy。我们建议读者参考[5,29]。该层的输出的nel)。这个网络的输出是:ΣHǁxǁǁyǁ对应于其他传递函数的表达式。因此,让σ2缩放为1/H和H,对于任何输入X,我们的基本卷积非线性的输出zz=vh(XU)=k=1v k h(Xuk).卷积构建块收敛于均值和协方差输出z =(z(1),z(2),. . . ,z(T ′))也具有一个空间维度。在[19,29]之后,我们推导出z当U<$N(0,σI)和v<$N(0,σI)时。平均isKz(t1,t2)=V(x<$(t1),x<$(t2)).(四)3.2. 平稳XΣΣHE[z(t)] = Ek=1u vΣvk h(( X<$uk)( t))刚果民主共和国cd我们现在考虑当X的通道被绘制为i.i.d.从一个固定的分布。信号x是平稳的如果均值是位置不变和协方差是平移不变的,即,=Ek=1vkhi=1,j=1x(i,t +1 − j)u k(i,j)。mx= E[x(t)]= E[x(t+τ)],(五)−15446vX 12122通过期望的线性和u和v的独立性,ΣH和Kx(t1,t2)= E[(x(t1)-mx)(x(t2)-mx)](六)E[z(t)]=k=1E[vk]E [h((Xuk)(t))]= 0,=Kx(t1−t2),kt1,t2.平稳分布的一个例子是白噪声因为v的平均值为零。中心极限定理(CLT)当h有界时,可以应用,以表明z(t)在H→ ∞时的分布接近高斯分布,并且σ为其中x(i)是i.i.d.。从零均值高斯分布N(0,σ2)得到均值mx= 0和协方差K(t,t)=σ21[t=t]。请注意,比例为1/H。注意,u和v但我们将使用此属性来导出从该分布中提取图像先验。5447zzXXt,t122→ ∞ → ∞n个zlbXxθ,x定理1. 设X的每个通道独立于具有协方差函数Kx的零均值平稳分布绘制。 然后,具有S形非线性的两层卷积网络的输出,即, h(t)= erf(t),当输入通道c和滤波器H的数量依次变为无穷大时,收敛到零均值平稳高斯过程。平稳协方差Kz由下式给出:在这种情况下,GP仍然是零均值,但是协方差函数变为:K偏置(t1,t2)=σ2+Kz(t1,t2),它仍然是平稳的。上采样和下采样图层。卷积网络具有上采样和下采样层以引入分层表示。很容易看出,下采样(抽取)信号保持平稳,Kerf(t1,t2)=K(r)=其中r= t2− t1。2 罪π−1K x(r)。Kx(0)因为K↓(t1,t2)=Kx(τt1,τt2),其中τ是下采样因子。通过平均池化的下采样也保持了平稳性。所得到的核可以通过应用对应于核的大小的均匀滤波器来获得。完整的证据包括在补充大副中通过将连续映射定理[16]应用于S形非线性的公式而该定理意味着,如果输入X是平稳的,则Z的极限分布是引理1. 假设与定理1相同的条件,除了非线性由ReLU代替则输出收敛于具有协方差Kz的零均值平稳高斯过程池化窗口,其导致稳定信号,随后是下采样。然而,上采样一般不保持平稳性。Therrien [25]描述了使用线性滤波器对信号进行上采样保持平稳性的条件特别地,上采样滤波器必须是带限的,例如sinc滤波器:sinc(x)= sin(x)/x。 如果保持平稳性,则下一层的协方差由K↑(t1,t2)=Kx(t1/τ,t2/τ)给出。跳过连接。 现代卷积网络具有ReLUK x(0)。X添加来自两个层的输出的跳过连接Kz(t1,t2)=2πsinθt1,t2+(π−θt1,t2)cosθt1,t2,(七)其中θ x= cos−1(Kx(t1,t2)/Kx(0))。根据角度,我们得到以下结果:Z= X +Y或级联Z =[X; Y]。在这两种情况下,如果XY和Z都是固定的GP。见[9]。4. 深度图像先验的贝叶斯推断z1。xxx xcosθt1,t2= π sin θt1,t2+(π − θt1,t2)cos θt1,t2 .这可以通过应用ReLU非线性的递归公式来证明[5]。一个有趣的观察是,对于两种非线性,给定偏移r处的输出协方差Kz(r)仅取决于相同偏移处的输入协方差Kx(r)和Kx(0)。两个或多个维度。这一节的结果不加修改地保持不变,并且通过让t1、t2和r = t2− t1为索引向量,对于具有c个通道和两个或更多个空间维度的输入,基本上是相同的证明。3.3.超越两层到目前为止,我们已经表明,我们的基本两层构建块的输出收敛到一个零均值平稳高斯过程c , 然 后 H。下面我们讨论向网络添加更多层的效果。让给出噪声图像的深度图像先验解米||y−f(x,θ)||二、其中x是输入,θ是适当选择的卷积网络的参数x和θ都是从先验分布随机初始化的。 优化是在x和θ上使用随机梯度下降(SGD)(可选地,x保持固定)并依赖于早期停止以避免过拟合(参见图1和图2)。去噪后的图像被获得为y=f(x =0,θ= 0)。该推断过程可以被解释为高斯噪声模型下的最大似然估计(MLE):y=y+y,其中y=N(0,σ2I)。贝叶斯推断建议我们在参数上添加合适的先验p(x,θ)并通过整合后处理重建图像,得到y=p(x,θ|y∈)f(x,θ)dxdθ,则卷积层。 关于深问题[18]在网络中,包括跨可以由线性包络限制的fer函数,例如ReLU。在卷积设置中,这意味着输出收敛到GP,因为每层中的滤波器数量同时达到无穷大。协方差函数可以通过递归地应用定理1和引理1来获得;在每一层保持平稳性。偏倚项。当从零均值高斯采样的偏置项b被添加时,我们的分析成立,即,z偏差=z+b。在最大的挑战是计算这个后验平均值。中间选项是最大后验(MAP)推断,其中使用后验的argmax。然而,MLE和MAP都不能捕获参数不确定性,并且可能过拟合数据。在标准MCMC中,积分被收敛到真实后验的马尔可夫链的样本平均值所取代。然而,MCMC技术的收敛通常比深度网络的反向传播慢。随机梯度朗之万动力学(SGLD)[28]亲-5448SGDSGD+WDSGD+输入+平均值SGLD平均值(相对于ItersSGD+平均值SGD+输入SGLDSGLD平均值−不2不∞∞或下采样。在这两种情况下,我们在每个conv层我们还改变输入协方差30Kx. X 的每个通道首先从具有方差σ2的零均值高斯采样iid。一个简单的方法来获得28个输入,空间协方差Kx等于高斯,26标准的定义是然后空间过滤X用标准偏差为2σ的高斯滤波器。2422200 5K 10K 15K 20K迭代图2.不同学习方法的PSNR曲线在SGD及其变体使用早期停止来避免过拟合。通过添加先验项(WD:权重衰减)并不能避免过拟合。移动平均值(虚线)和向输入添加噪声可提高性能。相比之下,来自SGLD的样本提供了一个通用框架,通过向梯度更新注入高斯噪声,从SGD中导出MCMC采样器。设w=(x,θ).SGLD更新是:图3显示了协方差函数cosθt1, t2=Kz( t1t2)/Kz(0),通过改变两种架构的σ和深度d而引起(图3a-b)。我们通过对先验分布中的许多网络和输入进行采样来经验地估计协方差函数仅卷积架构的协方差函数也使用等式7中的递归来计算。 对于这两种架构,增加σ和d会引入更长范围的空间协方差。对于自动编码器,即使当σ为零时,上采样也会引起较长范围的相互作用,从而揭示了上采样在深度图像先验中的作用。我们的网络架构有128个滤波器,即使如此,经验协方差和解析协方差之间的匹配也相当好,如图3(b)所示。图3(c)显示了从仅卷积架构的先验中提取的样本。图3(d)显示了SGLD推断的后验均值和方差,其中。w=2Σwlogp(y|w)+wlogp(w)+ηt(八)我们随机丢弃了一维信号中90%的数据。更改协方差会影响均值和方差ηt<$ N(0,n).其中,m是最大值。在合适的条件下,例如,ǫ=和ǫ< 和其他人,它可以被证明即w1,w2,. . . 收敛到后验分布。对数先验项被实现为权重衰减。因此,我们使用深度图像先验进行后验推理的策略如图1(a)所示,由于梯度中的高斯噪声,相对于噪声图像的MSE不会变为零,并且收敛到接近图1(b)所示的噪声水平同样重要的是图2显示了一个版本,其中使用权重衰减来正则化参数,这也过拟合噪声。在第5.2节中描述了用于去噪的推理程序的进一步实验。5. 实验5.1. 玩具实例我们首先研究的结构和输入dispersion的平稳GP使用1D卷积网络的协方差函数的效果我们考虑两种架构:(1)自动编码器:其中d个conv +下采样块之后是d个conv+上采样块,以及(2)Conv:其中没有任何上采样的卷积块这在性质上类似于选择阶段的规模GP中的tary内核:更大的尺度(更大的输入σ或深度)导致更平滑的插值。5.2. 自然图像在我们的实验中,我们采用[26]中报告的网络这些architectures是5层自动编码器与跳跃连接,每层包含128个通道。我们考虑来自标准图像重建数据集的图像[6,11]。对于推理,我们使用0的学习率。01用于图像去噪,0. 001图像修复。我们比较以下推理方案:1. SGD+Early:香草SGD+早停。2. SGD+早期+平均值:平均预测与指数滑动窗口的香草SGD。3. SGD+输入+早:在SGD的每个学习步骤中,用平均值为零和标准差为σ p的加性高斯噪声扰动输入x。4. SGD+输入+早期+平均值:用指数窗口平均早期方法的预测。5. SGLD:使用SGLD推断对后验样本进行老化迭代后求平均值。峰值信噪比(dB)5449因为t,t因为t, t12×1.000.950.90100 0100t1t2 (d= 3)1.000.850.70100 0100t1t2 (d= 4)0.40.20.00.20.40 50100输入x1.00.50.00.51.0=2,d=10 50 100输入x1.000.990.90.40.21.00.50.980.970.961000100吨1t2(= 0)0.60.31000100吨1t2(= 2)0.00.20.40 50100输入x0.00.51.00 50 100输入x(a) cosθt1,t2(AE)(b)cosθt1,t2(Conv)(c)既往(d)后验图3. 1D卷积网络的先验和后验。 协方差函数cosθt1,t2=K(t1-t2)/K(0)对于(a)AutoEncoder和(b)Conv架构,根据经验估计深度和输入协方差的不同值对于Conv架构我们还使用如图(b)中的虚线所示的等式7中的递归来解析地计算协方差函数。经验估计是用具有256个过滤器的网络获得的。该协议是相当不错的小值sigma。对于更大的偏移,向高斯的收敛是近似的。图(c)显示了来自具有两种不同配置的Conv架构先验的样本,图(d)显示了使用SGLD估计的后验均值和方差。我们手动地将前四个方案中的停止迭代设置为基本上具有最佳重建误差的一个- 注意,这是一个Oracle方案,并且不能在实际的重构设置中实现。对于图像去噪任务,前两种方案的停止迭代被设置为500,第三种和第四种方法的停止迭代被设置为1800对于图像修复任务,该参数分别设置为5000和第三和第四种变体在[26]的补充材料和发布的代码库中进行了描述。我们发现,在推理过程中向输入注入噪声始终会改善结果。然而,如[26]中所观察到的,无论噪声方差σp 如何,网络都能够将目标驱动到零,即,它对噪音过度适应。图1(a-b)也说明了这一点。由于输入x可以被认为是参数的一部分,因此在推断期间向输入添加噪声可以被认为是近似SGLD。在目标中优化x并保持不变也是没有好处的(尽管添加噪声仍然有帮助)。SGLD推断包括将噪声添加到从高斯分布采样的所有参数x和θ,其中方差缩放为学习速率η,如等式4所述。我们使用7K老化迭代和20K训练迭代用于图像去噪任务,20K和30K用于图像修复任务。运行SGLD更长时间并不能进一步改善结果。SGLD的权重衰减超参数设置为与图像中的像素数成反比,并且对于1024 × 1024图像等于5e-8。对于基线方法,我们没有使用权重衰减,如图2所示,这5.2.1图像去噪我们首先考虑使用各种干扰方案的图像去噪任务每种方法都在图像去噪的标准数据集上进行评估[6],该数据集由9幅被σ= 25的噪声破坏的彩色图像组成。图2显示了经过优化迭代后的干净图像的峰值信噪比(PSNR)值。该实验是在来自数据集的“peppers”图像上进行的,SGD变体(红色、黑色和黄色曲线)的性能达到峰值,但逐渐下降。相比之下,使用SGLD(蓝色曲线)的样本相对于PSNR是稳定的,从而减轻了提前停止的需要。SGD变体受益于指数窗口平均(红色和黄色虚线),最终也会过拟合。采用SGLD(蓝色虚线)进行老化后的后验均值始终可以获得更好的性能。在各种推理方法中,20K迭代的后验均值(带有标记的蓝色虚线)实现了最佳性能。图4显示了提前停止的SGD与SGLD的后验均值的定性比较,后者包含更少的伪影。补充材料中有更多的例子。表1显示了SGLD和基线之间的定量比较。我们运行每种方法10次,并报告平均值和标准偏差。SGD始终受益于使用基于噪声的正则化扰动输入信号以及移动平均。然而,如上所述,这些方法仍然必须依赖于早期停止,这在实践中很难设定。相比之下,SGLD在所有图像上的性能都优于基线方法。我们报告的数字(SGD+输入+=0 =20 =60 =120= 0= 10= 15= 60= 2,d= 1D=3D=4D=5D=6d= 1D= 2D= 3D= 4= 15,d= 4=15,d=4因为t, t1212因为t, t12输出,f(x)输出,f(x)输出,f(x)输出,f(x)5450±××输入SGD(28.38)SGLD(30.82)图4. 图像去噪结果。用SGD和SGLD推理对输入噪声图像进行去噪。早期+平均值)与先前工作中报告的单次运行结果相似SGLD将平均PNSR提高到30.81。作为参考,BM3D [6]获得的平均PSNR为31.68。5.2.2图像修复对于图像修复,我们在与[26]相同的任务上进行实验,其中50%的像素被随机丢弃。我们在由11个灰度图像组成的标准图像修复数据集[11]上评估了各种推理方案。表2列出了SGLD和基线方法之间的比较。与图像去噪任务类似,SGD的性能通过扰动输入信号以及在优化期间对中间样本进行平均来提高。SGLD推理提供了额外的改进;其性能优于基线,并比[26]中报告的结果从33.48提高到34.51 PSNR。图5显示了SGLD和SGD之间的定性比较。SGLD的后验均值比SGD变体生成的最佳结果具有更少的伪影。除了性能的提高,SGLD还提供了不确定性的估计。这在图1(d)中可见。 注意,不确定性在由相对均匀外观的区域(诸如窗户和地板)包围的缺失区域中较低,而在非均匀区域(诸如图像中不同对象的边界附近的那些区域)中较高5.3. GP和DIP之间的等效性我们比较了深度图像先验(DIP)及其高斯过程(GP)对应物,无论是作为先验还是后验推理,以及作为网络中滤波器数量的函数。为了提高效率,我们使用了一个U-Net架构,DIP有两个下采样和上采样层。(a)DIP先验样本(b)GP先验样本上图显示了两个样本,每个样本分别来自DIP(每层256个通道)和具有等效内核的GP。样本几乎相同,表明DIP作为固定GP的特征也适用于2D信号。接下来,我们比较DIP和GP在图6所示的修复任务上。这里的图像大小是6464. 图6顶部(a)显示了RBF和DIP内核作为偏移量的函数与高斯核相比,DIP图6底部(a)示出了作为U-Net的每层中从16到512的通道数量的函数的DIP的PSNR,以及具有限制DIP内核的GP。DIP的PSNR接近GP的通道数增加,这表明对于这种规模的网络,256个过滤器是足够的渐近GP行为。图6(d-e)显示,具有DIP内核的GP比具有RBF内核的GP更有效,这表明长尾DIP内核更适合于对自然图像进行建模。虽然DIP是渐近GP,但SGD优化可能是优选的,因为GP推断对于高分辨率图像是昂贵的。对于精确推理,内存使用量为O(n2),运行时间为O(n3),其中 n 是 像 素 数 ( 例 如 ,500 500 图 像 需 要 233 GB 内存)。另一方面,DIP的内存占用量与像素数呈线性关系,使用SGD进行推断是实用且有效的。这强调了SGLD的重要性,它解决了普通SGD的缺点,使DIP更加强大和有效。最后,虽然我们证明了DIP诱导的先验分布是渐近GP,并且SGD或SGLD估计的后验与小型网络的GP后验匹配,但对于更深的网络,后验是否与GP后验匹配仍然是一个悬而未决的问题。6. 结论我们提出了一种新的深度图像先验的贝叶斯视图,它将自然图像参数化为具有随机参数和随机输入的卷积网络首先,我们证明了随机卷积网络的输出收敛到一个平稳的零均值GP,因为每一层中的通道数趋于无穷大,并展示了如何计算实现的协方差。这将深度图像先验表征为近似静止的GP。我们的工作不同于以往的 工 作 , 有 关 全 球 定 位 系 统 和 神 经 网 络 的 空 间covariance分析网络激活一个单一的输入图像。然后,我们使用SGLD在深度图像先验中进行完全贝叶斯后验推断,这提高了性能并防止了提前停止的需要。未来的工作可以进一步研究卷积网络隐含的内核类型,以更好地理解深度图像先验和深度卷积网络在学习应用中的归纳偏差。鸣谢本研究得到了NSF资助#1749833、#1749854和#1661259的部分支持,以及MassTech Collaborative为麻省大学GPU集群提供的资金。5451GP-DIPGP-RBF212 1232 5|t1t2|24252 62728通道数-DIPGP烫表1. 图像去噪任务。各种推理方案与深度图像先验的比较,用于图像去噪(σ=25)。使用SGLD的贝叶斯推理避免了提前停止的需要,同时持续改进结果。详情见第5.2.1节。房子辣椒莉娜狒狒F16柯达1柯达2柯达3柯达12平均新加坡元+早26.7428.4229.1723.5029.7626.6128.6830.0729.7828.08±0.410.220.25±0.25±0.27±0.49±0.19±0.18±0.33±0.17±0.09SGD +早期+平均值28.7829.2030.2623.8231.1727.1429.8831.0030.6429.10±0.35±0.080.12±0.12±0.11±0.10.070.12±0.12±0.110.12±0.120.05±0.05SGD +输入+早期28.1829.2130.1722.6530.5726.2230.2931.3130.6628.81±0.32±0.110.07±0.08±0.09±0.14±0.13±0.080.12±0.12±0.04SGD +输入+早期+平均30.6130.4631.8123.6932.6627.3231.7032.8631.8730.33±0.3±0.03±0.03±0.09±0.06±0.06±0.03±0.08±0.1±0.03SGLD30.8630.8232.0524.5432.9027.9632.0533.2932.7930.81±0.61±0.01±0.03±0.04±0.08±0.060.05±0.05±0.17±0.06±0.08CMB3D [6]33.0331.2032.2725.9532.7829.1332.4434.5433.7631.68表2. 图像修复任务。图像修复中具有深度图像先验的各种推理方案的比较。SGLD估计值更准确,同时还提供了对方差的合理估计。详情见第5.2.2节。方法 芭芭拉船屋 莉娜 辣椒C.man情侣手指 山地人 蒙太奇平均新加坡元+早28.4831.54 35.34 35.0030.4027.0530.5532.24 31.37 31.3230.2131.23±0.99±0.23±0.450.25±0.25±0.59±0.35±0.190.16±0.16±0.350.29±0.82±0.11SGD +早期+平均值28.7131.64 35.45 35.1530.4827.1230.6332.39 31.44 31.5030.2531.34±0.7±0.28±0.46±0.18±0.6±0.39±0.180.12±0.12±0.31±0.39±0.82±0.08SGD +输入+早期32.4832.71 36.16 36.9133.2229.6632.4032.79 33.27 32.5933.1533.21±0.48±1.12±2.14±0.19±0.240.25±0.25±2.07±0.940.07±0.14±0.46±0.36SGD +输入+早期+平均33.1833.61 37.00 37.3933.5329.9633.3033.17 33.58 32.9533.8033.77±0.45±0.3±2.01±0.14±0.31±0.3±0.15±0.77±0.190.16±0.16±0.6±0.23SGLD33.8234.26 40.13 37.7333.9730.3333.7233.41 34.03 33.5434.6534.51±0.190.12±0.120.16±0.160.05±0.05±0.15±0.15±0.1±0.04±0.03±0.06±0.72±0.08Ulyanov等人[26日]32.2233.06 39.16 36.1633.0529.8032.5232.84 32.77 32.234.5433.48Papyan等人[21日]28.4431.44 34.58 35.0431.1127.9031.1831.34 32.35 31.9228.0531.19(a)输入(b)SGD(19.23 dB)( c ) SGD + 输 入 ( 19.59 dB ) ( d ) SGLD 平 均 值(21.86 dB)图5。(最好放大观看。)使用深度图像先验的图像修复。使用SGLD的后验均值(图(d))实现了更高的PSNR值,并且比SGD变体具有更少的伪影。请参阅补充材料,了解更多的电子邮件。0.050.002624(a)(b)GT(c)损坏(d)GP RBF(25.78) (e)GP DIP(26.34)(f)DIP(26.43)图6. 使用高斯过程(GP)和深度图像先验(DIP)进行修复。Top(a)径向基函数的比较(RBF)具有在(c)中的观察像素上学习的长度尺度的内核和固定DIP内核。底部(a)具有DIP核和DIP的GP后验的PSNR作为通道数量的函数。随着通道数从16增加到512,DIP接近GP性能。(d-f)来自具有RBF(GP RBF)和DIP(GP DIP)内核的GP以及深度图像先验的修协方差峰值信噪比(dB)5452复结果(具有PSNR值)。DIP核比RBF核更有效。5453引用[1] 大卫·巴伯和克里斯托弗·毕晓普贝叶斯神经网络中的包围学习。在神经网络和机器学习中的泛化,第215-237页。Springer Verlag,1998年1月。[2] CharlesBlundell,JulienCornebise,KorayKavukcuoglu,and Daan Wierstra.神经网络中的权重不确定性国际机器学习会议,第1613-1622页,2015年[3] 阿纳斯塔西娅·博罗维赫卷积神经网络的高斯过程观点。arXiv:1810.10798,2018.[4] Antoni Buades,Bartomeu Coll,and J-M Morel.一种非局部图像去噪算法。IEEE计算机视觉与模式识别会议,2005年。[5] Youngmin Cho和Lawrence K Saul.深度学习的核心方法。神经信息处理系统的进展,第342-350页,2009年[6] Kostadin Dabov、Alessandro Foi、Vladimir Katkovnik和Karen Egiazarian。稀疏三维变换域协同滤波图像去噪IEEE Transactions on Image Processing,16(8):2080[7] John S Denker和Yann LeCun。 将神经网络输出水平转换为概率分布. 神经信息处理系统进展,第853-859页,1991年。[8] 亚林·加尔和祖宾·加赫拉马尼。脱落作为贝叶斯近似:在深度学习中表示模型不确定性。在机器学习国际会议上,第1050-1059页[9] 阿德里亚'加里加-阿隆索,劳伦斯艾奇逊,和卡尔爱德华拉斯穆森。作为浅高斯过程的深度卷积网络arXiv:1808.05587,2018。[10] 亚 历 克 斯 · 格 雷 夫 斯 神 经 网 络 的 实 用 变 分 推 理 在Advances in Neural Information Processing Systems,第2348-2356页[11] Felix Heide,Wolfgang Heidrich,and Gordon Wetzstein.快速灵活的卷积稀疏编码。在计算机视觉和模式识别(CVPR),2015年。[12] 杰弗里·E·辛顿和德鲁·范·坎普。通过最小化权值描述长度保持神经网络简单。计算学习理论会议,第5-13页。ACM,1993年。[13] Jaehoon Lee 、 Yasaman Bahri 、 Roman Novak 、 SamSchoenholz、Jeffrey Pennington和Jascha Sohl-dickstein。深度神经网络是高斯过程。2018年学习表征国际会议[14] Chunyuan Li,Changyou Chen,David E Carlson,andLawrence Carin.深度神经网络的预条件随机梯度朗之万动力学。在AAAI,第2卷,第4页,2016年。[15] 大卫·JC·麦凯。一个用于反向传播网络的实用贝叶斯框架。神经计算,4
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功