没有合适的资源?快使用搜索试试~ 我知道了~
2460.Σ12Σ¨− ¨RR--多帧超分辨率的深度参数化及去噪Goutam Bhat Martin Danelljan Fisher Yu Luc Van Gool Radu Timofte计算机视觉实验室,瑞士RAW LR突发输入DBSR我们的真实数据噪声突发输入BPN我们的接地真值图1。我们提出了一个深度重新参数化的经典MAP目标(1)的多帧图像恢复。我们的一般公式- tion最大限度地减少了深潜在空间中的学习重建误差所提出的方法分别在RAW突发超分辨率(顶部)和突发去噪(底部)任务上优于先前最先进的方法DBSR [2]和BPN [64]摘要我们提出了一个深reparametrization的最大后验公式中常用的多帧图像恢复任务。我们的方法是通过引入一个学习的误差度量和目标图像的潜在表示,它将MAP目标转换到一个深特征空间。深度重新参数化允许我们直接对潜在空间中的图像形成过程进行建模,并将学习到的图像先验集成到预测中。因此,我们的方法利用了深度学习的优点,同时还受益于由经典MAP公式提供的原则性多帧融合。我们通过对突发去噪和突发超分辨率数据集的综合实验来验证我们的方法。我们的方法设置了一个新的国家的最先进的这两项任务,表明所提出的配方的一般性和有效性。1. 介绍多帧图像恢复(MFIR)是一个基本的计算机视觉问题,具有广泛的重要应用,包括突发摄影[2,24,39,63]和遥感[12,32,46]。给定场景的多个退化和噪声图像,MFIR的目标是重建干净,清晰,并且通常更高分辨率的输出图像。通过有效地利用不同的输入图像中包含的信息,MFIR方法能够重建更丰富的细节,不能从单个图像中恢复。作为广泛接受的范例[15,17,36,47],MFIR通过首先将图像形成过程建模为xi=Hφmi(y)+ηi来解决。 在该模型中,原始图像y受场景运动Φmi、图像de灰度H和噪声η i的影响,从而产生观察图像Xi。 假设噪声η i遵循i.i.d. 高斯分布,通过找到最大后验概率(MAP)估计,从噪声观测的集合XiN重建原始图像y。Ny(=argminxiH(φmi(y))2+(y),(1)yi=1哪里(y)是施加的先验正则化。虽然MAP公式(1)已经享有很多流行度,但是当在现实世界设置中使用它时存在若干挑战。公式(1)假设退化算子H是已知的,这不是经常的情况。此外,它需要手动调整常规的-RAW突发SR连拍去噪2461RRR[17,19,21].尽管有这些缺点,MAP公式(1)提供了MFIR问题的优雅建模,以及融合来自多个帧的信息的原则性方式。这启发我们制定一种深度MFIR方法,该方法利用(1)的互补优势,同时还受益于退化算子H和正则化器的端到端学习。我们提出了经典MAP目标(1)的深度重新参数化。我们的方法是通过将MAP目标变换到深特征空间来导出的,作为图像空间重建问题(1)的一般化。这是通过首先引入编码器网络来实现的,该编码器网络用可学习的误差满足来替换(1)中的L2ric,提供更大的灵活性。然后我们重新参数化目标图像y与解码器网络,允许我们在学习的潜在空间中解决优化问题。解码器将强学习图像先验集成到预测中,有效地消除了手动设计正则化器的需要。我们的深度重新参数化还允许我们直接学习复杂退化算子H在我们的公式的深层潜在空间中的影响。为了进一步提高我们的模型对例如在改变噪声水平和对准误差的情况下,我们引入了一个估计目标中所有观测的确定性权重的网络我们通过两个多帧图像恢复任务,即RAW突发超分辨率和突发去噪的广泛实验验证了所提出的方法。我们的方法通过优于最近的基于深度学习的方法,在这两项任务上都设置了新的最先进的技术(见图11)。①的人。我们进一步进行广泛的烧蚀实验,仔细分析我们的每一个贡献的影响。2. 相关工作多帧超分辨率:MFSR是一个研究得很好的问题,有超过三十年的积极研究。Tsai和Huang [60]首先提出了用于MFSR的基于频域的解决方案Peleg等人[47]以及Irani和Peleg [31]提出了一种基于图像形成模型的迭代方法。这里,获得SR图像的初始猜测,然后通过最小化重构误差来细化。几项工作[1,15,22,51]用正则化项扩展了[31]中的目标,以获得HR图像的最大后验(MAP)估计。在[17,70]中进一步说明了对离群值或不同噪声水平的稳健性上述方法假设图像形成模型以及输入帧之间的运动可以被可靠地估计。一些作品通过联合估计这些未知参数[16,26,34,48,68]或边缘化来解决这一限制。他们[48]。 可替代地,许多方法直接预测HR图像而不模拟图像形成过程。Chiang和Boult [9]对输入图像进行上采样并将其扭曲到公共参考,然后将其融合。Farsiu等人[18]用鲁棒正则化项扩展这种方法。 Takeda等人[55,56]提出了一种基于核回归的超分辨率方法。Wronski等人[63]使用核回归技术来执行联合去马赛克和超分辨率。最近还针对MFSR提出了一些基于深度学习的解决方案,主要集中在遥感应用[12,32,46]。Bhat等人[2]提出了一种用于手持式突发超分辨率的基于学习注意力的融合方法。Haris等人[23]提出了一种用于视频超分辨率的递归反投影网络。多帧去噪:除了先前讨论的MFSR方法之外,在文献中还提出了许多专门的多帧去噪方法。Tico [57]在图像内以及跨输入图像执行块匹配以执行去噪。[10,41,42]将流行的图像去噪算法BM3D [11]扩展到视频。Buades等人[7]从对齐的图像中估计噪声水平,并使用逐像素平均值和BM3D的组合来降噪。Hasinoff等人[24]使用混合2D/3D维纳滤波器对HDR和低光摄影应用的突发图像进行去噪和合并。Godard等人[20]使用回流神经网络为多帧扩展单帧去噪网络。 Mildenhall等人[45]就业- 核预测网络(KPN),用于获得用于合并输入图像的每像素核。然后[43]扩展了KPN方法以预测多个内核,而[64]引入了基础预测网络以使用更大的内核。基于深度优化的图像恢复:许多基于深度学习的方法[35,36,65,66]已经将图像恢复任务作为显式优化问题。P3[61]和RED [50]方法提供了一个通用框架,用于在基于优化的图像恢复方法中利用标准去噪方法作为正则化器。Zhang等人[66]使用半二次分裂方法将基于深度神经网络的去噪器先验插入基于模型的优化方法。Kokkinos等人[36]使用基于近端梯度下降的框架来学习用于突发摄影应用的正则化器网络。这些现有的工作主要集中在只学习正则化,同时假设数据项(图像形成过程)是已知的和简单的。此外,重建误差计算以及误差最小化被限制在图像空间中相比之下,我们的深度重新参数化方法允许联合学习成像过程以及先验,而不将图像形成模型限制为简单或线性。2462i=1∈∈−−∼∈2NRR我oo oMi2¨xi−H(φmi(y))¨2+R(y)(.Σ联系我们2−N3. 方法3.1. 问题公式化在这项工作中,我们解决了多帧(MF)图像恢复问题。给定x iN,x iRh× w × c中的多个图像 目标是合并来自这些输入图像的信息,以生成更高质量的输出yRsh×s w×cout。这里,c_in和c_out是图像通道的数量,而s是超分辨率因子。我们考虑使用固定或手持相机捕获输入图像的一般场景输入和输出图像可以是RAW或RGB格式,这取决于最终应用。文献[1,17,22,47]中MF恢复和超分辨率的最成功范例之一是首先对图像形成过程建模,xi=Hφmi(y)+ηi(2)这里,y是底层图像,并且Φmi是考虑场景运动mi的环绕操作。图像退化算子H对例如相机模糊和相机中的采样过程假设观测噪声ηi ρη遵循给定分布ρη。退化算子H和场景运动mi根据所处理的任务而采取不同的形式例如,在超分辨率任务中,H充当下采样内核。类似地,场景运动mi可以表示仿射变换的参数,或者在动态场景的情况下表示每像素光流注意,退化算子H以及场景运动m,i通常是未知的并且需要被估计。给定成像模型(2),通常通过最小化每个图像之间的误差来估计原始图像y观察到的图像xi及其模拟的对应物x¯=我空间(见图2)。在本节中,我们将首先基于重建损失(3)导出我们的方法,然后讨论其相对于原始图像空间公式的优点我们的广义深度图像重建目标是从(3)中以三个步骤导出的,下面详细描述。步骤1:我们注意到问题(3)中的第一项最小化了L2距离xix¯i2之间的观测图像x¯ i和模拟图像x¯i=H(φmi(y))。而不是将对象ive限制为平方误差 Xix¯i2在图像空间中,我们学习更一般的距离测度d(xi,x¯i)。我们通过编码器网络E来参数化度量d,以获得图像嵌入E(xi)Rh~×w~×ce. 然后计算误差d(xi,x¯i)作为输入图像xi和模拟图像x¯i的嵌入之间的L2距离,即d(xi,x¯i)=E(xi)E(x¯i)2.由于编码器E的深度和非线性,距离测量d可以表示高度灵活的误差度量,更适合于复杂的噪声和误差分布。步骤2:当编码器E将误差计算映射到深特征空间时,所得到的目标仍然在输出图像空间y中被最小化。作为第二步,我们因此根据潜在的深表示Z图像y的Rs~h~×s~w~×cz。 为此,我们引入解码器网络D,其将潜在表示z映射到估计图像y=D(z)。由于z是目标图像y的直接参数化,因此我们可以优化目标w.r.t.z,并在找到最佳潜在表示z时将最终图像预测为y=D(z)。因此,所得到的目标被表示为,L(z)=Σ¨E(x)−E◦H◦φ◦D(z)¨+R(D(z))i=1H(φmi(y)),使用最大后验概率(MAP)。估计技术如果观察噪声遵循i.i.d.在高斯分布中,MAP估计y(被获得为,y=D(z), z=argminL(z).(四)zΣ¨¨2i=1这里,这里,(y)是整合关于原始图像y的先验知识的正则化项。公式(3)提供了整合来自多个帧的信息的原则性方式,导致其普及。然而,它需要手动调整退化算子H和正则化算子,同时还缺乏推广到更复杂的噪声分布的灵活性在这项工作中,我们提出了一个深度重新参数化(三)解决上述问题。3.2. 深度重新参数化我们引入了一个深度重新参数化,将优化问题(3)转换为学习的深度特征包装操作φmi. 也就是说,解码器和warp-ing操作交换为φmiD=Dφmi. 实际上,如果Φm_i仅由平移组成,则该条件容易通过CNN解码器D的平移等方差来确保。对于更复杂的运动,等效条件仍然保持良好的近似,如果运动mi局部类似于平移。这通常是所考虑的连拍摄影设置的情况,其中帧之间的运动是小到中等的。此外,对于也采用特征扭曲[29,54]的光流网络,我们的解码器D可以学习通过端到端训练来适应期 望的扭曲 等方差。 通 过 使 用 等式方 差 条 件φmi◦D=D◦φmiy=argminy函数f,g.接下来,我们假设解码器D是关于r. t等变的。2463N2oo oRQΣ¨。22Q R◦oo o≈ ◦◦观察到图像模拟图像重建误差更新观察模拟嵌入嵌入重建误差更新图2. 左:经典的多帧图像恢复方法最小化观察图像xi和模拟图像H(Φmi(y())之间的重建误差(3),以获得输出图像y()。相反,我们使用编码器E来计算学习的特征空间中的重构误差(Θ)。重建误差被最小化。 - 潜在表示z,其然后通过解码器D以获得预测在(4)中,我们得到目标,L(z)=Σ¨E(xi)−E◦H◦D◦φmi(z)¨2+R(D(z)),精确的运动估计m,i,到特征空间,其中它更好地近似为独立的高斯噪声。因此,我们的方法避免了严格的假设强加的L2i=1`Gx(五)通过编码器E的灵活性在图像空间中的损失。解码器D:最小化问题(3)经常被解决这都使得我们直接将warpingφmi应用于潜在表示z。步骤3:作为最后一步,我们关注退化算子H。通常,H是未知的,因此需要估计或学习。虽然它可以直接参数化为一个单独的神经网络,我们提出了一个不同的策略。通过直接比较(3)和(5),我们有趣地发现H在(3)中的作用被(5)中的组合物G=E H D所取代代替学习图像空间退化映射H,我们因此可以直接参数化其得到的深度特征空间算子G。这里,G可以被视为特征空间退化算子,其用于直接获得模拟图像嵌入G(φmi(z))。从而获得以下目的,N使用迭代数值方法,例如共轭梯度法。这种方法的收敛速度强烈依赖于条件的目标。由于我们优化了(5)w.r.t.潜在表示z而不是输出图像y,我们的解码器D用作预条件器,导致更快的收敛。此外,虽然有效的图像空间正则化器(y)通常是复杂的[17,21],但我们的潜在参数化z允许平凡的正则化器(z)。类似于基于CNN的单图像超分辨率方法[13,38,40,69],解码器D还学习在预测步骤期间应用的强图像先验。由于我们解码器的正则化效果Q(z)= λz2其中λ是可学习的标量。特征退化G: 图像退化算子L(z)=E(xi)−Gφmii=1(z)Σ¨2+ Q(z).(六)H通常可以是复杂的和非线性的,使得难以解决最小化问题(3)。在我们对(3)的深度改革(6)中,图像退化H被其在(6)中,我们还引入了潜在空间正则化子=D,其可以类似地被直接参数化,以便避免在优化过程期间调用解码器D。接下来,我们将讨论由每个神经网络模块E、D和G带来的(3)的深度重构(6)的优点。编码器E:编码器将输入图像xi映射到嵌入空间E(xi),其中定义了重构误差。因此,它可以学习变换复杂的噪声分布ρη和其他误差源,例如,来自在-特征空间对应物G=E H D. 这里,编码器E和解码器D是深度神经网络,能够学习高度非线性映射。因此,这些可以学习降级操作近似线性的潜在空间。也就是说,对于给定的图像退化H,我们可以学习适当的G、E和D,使得即使在G被约束为线性的情况下也是如此。因此,我们将G约束为线性卷积滤波器,其通过适当的E和D的端到端学习来适应,其中这种线性关系成立。2464−----∗ ∗·∈j=1Nj=1αj=2σi(z))2+λz2我我 i=1我我i=1我i=1g=−2Σφ我我Σ2vi·(G∪φm(g))+2λg--Mi.Σ--联系我们因此,我们的优化问题(6)是凸的,并且可以使用有效的二次求解器来容易地优化。我们将编码器E、解码器D和降级G建模为卷积神经网络。详见第二节。3.5,这些网络直接从数据中学习。但首先,我们对我们的目标(6)提出进一步的推广。3.3. 确定性预测在我们的公式(6)中,每个最近在基于深度优化的少次学习方法中[3,4,59]。最速下降算法在梯度g j = L(z j)方向上执行最优线搜索αj=argminαL(zjαgj)以更新迭代点zj+1=zjαjgj。由于问题是二次的,简单的封闭形式表示-可以针对梯度gj和步长两者来推导出αj。对于我们的模型(7),完整的算法由下式给出:N帧、位置和特征通道被相等地加权。这是正确的模型,如果误差,通常被视为观测噪声,是同分布的。然而在实践中JTMii=1G*T。v2·E(xi)−G∠φm(zj)ΣΣ+2λzjgj图像受到异方差噪声的影响[27],异方差噪声在空间上根据图像强度值而变化。此外,(3)和(6)中的重构误差受到运动估计mi的质量的影响。在实际应用中,场景运动mi是未知的并且需要使用例如光流因此,估计的mi可能包含某些区域的显著误差,导致次优结果。为了对这些效应进行建模,我们进一步引入确定性预测器模块W。我们的确定性预测器旨在确定元素确定性值viRh~×w~×ce 对于残差E(xi)中的每个元素G(φmi(z))。 直观地,具有较高噪声或不可靠运动估计mi的图像区域应被给予较低的确定性权重,从而有效地降低它们在MAP目标(6)中的影响。使用图像嵌入E(x,j)N、运动估计m,i和噪声水平n,i(如果可用)作为输入来计算确定性值v,i。我们的最终优化问题,包括确定性权重Vi,然后被表达为,Ni2j2i=1i2 2zj+1=zj−αjgj。这里,T和分别表示卷积、转置卷积和逐元素乘积。此外,ΦT是转置扭曲算子。详细推导见补充材料。注意,梯度gj和步长αj都可以使用标准可微分神经网络运算来实现为了进一步提高收敛速度,我们学习初始化器P,其使用第一图像xl的嵌入来预测初始潜在编码z〇=P(E(xl))。然后,我们的方法通过迭代地应用KSD来最速下降迭代(8)。由于最陡下降步骤提供的快速收敛,我们发现仅使用KSD= 3次迭代就足够了。通过展开迭代,我们的优化模块可以表示为预测最佳编码的前馈网络A G,W,P。我们的完整推理过程然后被表示为,Σy=D.一L(z)=·(E(x)-G(φMi22i=1. .. E(x),mΣΣN中文(简体)哪里 v i=W{E(x j)}N ,m i,n i.(七)关于MAP估计(3),确定性权重对应于经编码的观测E(x,i)的逆标准偏差v,i=1的估计。3.4. 优化为了确保实际的推理和训练,我们的目标(7)可以有效地最小化此外,为了端到端地学习我们的网络组件,优化求解器本身需要是可微的。由于warp算子Φmi的线性和线性特征退化G的选择,我们的目标L(z)是线性最小二乘问题,其可以用标准化技术来解决特别地,我们采用最速下降算法,其可以被视为共轭梯度的简化[52]。这两种算法以前都曾用于经典的MFIR方法[1,22]等在我们的体系结构中可以直接端到端学习。3.5. 培训我们的整个MFIR网络以直接的方式从数据进行端到端的训练,而不会对各个组件施加任何额外的约束。我们使用由输入-目标对组成的训练数据集=(xkN,yk)对于每个输入x kN,我们使用(9)获得预测yk。然后,通过在训练数据集上最小化预测误差l(yk,yk)来学习每个组件E、G、W、P和D的网络参数D使用例如随机梯度下降 在这项工作中,我们使用流行的L1损失l(y,y)=y−y1。4. 应用我们描述了我们的方法RAW突发超分辨率和突发去噪任务的应用。补充材料中提供了(八)G、W、P在下一节中,我们将描述所有组件如何2465×个--4.1. RAW突发超分辨率这里,该方法给出了从手持相机连续捕获的一组RAW拜耳图像。我们的任务是利用这些多个移位观测来生成去噪、去马赛克、更高分辨率的输出。在该设置中,图像退化H可以被视为相机模糊、抽取、采样和镶嵌操作的合成。接下来,我们简要描述我们的架构。编码器E:编码器沿着通道维度将输入RAW图像中的每个2 × 2块打包以获得4通道输入。然后通过初始转换。层之后是一系列具有ReLU激活且没有BatchNorm[30]的残差块[25]最后一次谈话。层预测输入图像的256操作员G:我们用一个词。 具有步幅s~的层作为我们的特征空间d e等级G。步幅s~对应于G的下采样因子。注意,该下采样不需要与图像劣化H的下采样因子s相同。我们的潜在表示z可以在信道维度中编码更高分辨率的信息,从而能够使用更小的s~用于有效的y。 我们经验性地观察到,在我们的解码器D中设置s~=2并通过因子s/s~执行剩余的上采样是足够的。解码器D:我们的解码器由一系列残差块(与E中的类型相同)组成,随后使用子像素像素变换[53]通过因子s / s ~进行上采样。 上采样的特征图通过附加的残差块,接着是最终的卷积。 层以获得y运动估计:我们将每个输入图像X1和参考图像X1之间的运动m计算为逐像素光流,以便对场景中的小对象运动具有鲁棒性。具体来说,我们使用作者在合成FlyingChairs [14],FlyingTh-ings 3D [44]和MPI Sintel[8]数据集上训练的PWCNet [54确定性预测器W:我们使用三个信息源以便预测确定性Vi:i)编码E(xi),其提供关于局部图像结构的信息,例如边缘、纹理等的存在。ii )残差E(xi)第i个图像X1的编码与变形到第i个图像的参考图像编码E(X1)之间的Φ mi(E(X1)),这可以指示可能的对准失败,以及iii)第i个图像中的像素的子像素采样位置mimod1这三个实体通过残差网络以获得图像xi的确定性vi。4.2. 连拍去噪给定噪声图像的突发,突发去噪的目的是生成干净的输出图像。通常,突发去噪需要在时间和空间维度上进行滤波虽然经典的MAP公式(3)通过专门设计的正则化器来适应后者,但我们的方法可以通过两个学习空间滤波。机制等首先,编码器E和解码器D网络允许有效的空间聚合。第二,我们的确定性预测器可以预测逐帧和空间(通过通道维度编码)聚合权重。在[43,45,64]之后,我们考虑突发去噪场景,其中每像素噪声方差的估计是可用的。在实践中,这样的估计可从由相机报告的曝光参数接下来,我们简要地详细介绍我们的网络架构用于这项任务。编码器E:我们将图像xi和噪声估计ni级联,并将其通过残差网络以获得噪声调节的图像编码E(xi,ni)层作为我们的算子G。解码器D:我们的解码器由一系列残差块组成,随后是最终的编码。 输出y的层运动估计:我们使用与第2.2节中所采用的类似的策略4.1来估计图像之间的运动。确定性预测器W:我们使用与在第二章中所采用的类似的确定性第4.1章有一点小改动我们将噪声估计直接输入到W,以使我们的最小化问题(7)以输入噪声水平为条件。5. 实验我们对RAW突发超分辨率和突发去噪任务进行了全面评估。详细结果见补充材料。5.1. RAW突发超分辨率在这里,我们评估我们的方法上的RAW突发超分辨率任务。我们的实验是在[2]中介绍的Syn- theticBurst数据集和BurstSR数据集上进行的SyntheticBurst数据集由合成生成的RAW burst组成通过对sRGB图像应用随机平移和旋转,并使用反向相机流水线将移位图像转换为RAW格式来生成突发[5]。另一方面,BurstSR数据集包含使用手持智能手机相机捕获的真实世界爆发,以及使用DSLR相机捕获的高分辨率地面实况。由于输入突发和HR地面实况是使用不同的相机捕获的,因此在两者之间存在空间和在我们所有的实验中,我们通过因子s= 4来培训详情:为了对SyntheticBurst数据集进行评估,我们在使用来自苏黎世RAW到RGB [ 28 ]训练集的sRGB图像生成的合成突发上训练我们的模型。 我们使用固定的突发大小N= 14。我们的训练我们的模型使用ADAM [33]优化器进行了500k次迭代的训练,批量大小为16。然后,在合成数据上训练的模型在BurstSR训练集上额外微调40k次迭代,用于2466R∝- -∈ − −∈ − −- −DBSR我们的地面实况BPN我们的地面实况图3.我们的方法与先前最先进的方法DBSR [2]和BPN [64]在RAW突发超分辨率(前四列)和突发去噪(后四列)任务上的定性比较。增益∝1增益∝2增益∝4增益∝8平均值表1. SyntheticBurst和来自[2]的真实世界BurstSR验证数据集的比较。对BurstSR值集的评估。为了处理BurstSR数据集中的输入和地面实况之间的未对准,我们在计算预测误差之前使用[2]中采用的策略执行网络预测与地面实况的结果:我们将我们的方法与最近引入的DBSR [2]进行了比较,DBSR采用了深度网络,并基于注意力融合了输入图像。我们的方法employs相同的光流估计网络DBSR。我们还与HighResNet [12]进行了比较,以及基于CNN的单图像基线,仅由我们的编码器和解码器模块组成。使用与我们的方法相同的训练设置训练所有模型,并使用所有可用的连拍图像(N= 14)进行评估。包含300个脉冲串的Syn-theticBurst数据集的结果(PSNR、SSIM [62]和LPIPS [67])如表1所示1.一、所有度量都是在线性图像空间中计算的。我们的方法,最小化的特征空间重建误差,获得最好的结果,优于DBSR +0。PSNR为80dB。我们还报告了包含882个突发的真实世界BurstSR值集的结果,使用[2]中描述的评估策略我们的方法取得了可喜的成果,优于DBSR+0。PSNR为28dB这些结果表明,我们的深度重新参数化的经典MAP配方generalizes现实世界的退化和噪声。处理包含14个RAW图像的连拍以生成1896 × 1080RGB输出所需的计算时间1.一、定性比较见图。3 .第三章。表2.在PSNR方面,我们的方法与灰度突发去噪集[45]上的先前方法的比较。前四种方法的结果来自[45],而MKPN的结果来自[64]。我们的方法获得了最好的结果,优于- ING以前的国家的最先进的方法BPN的所有噪声水平。5.2. 连拍去噪我们分别在[45]和[64]中介绍的灰度和彩色突发去噪数据集上评估我们的方法。这两个数据集是通过将随机平移应用于基础图像来合成生成的。然后通过添加具有方差σ2+σs x的异方差高斯噪声[27]来破坏移位图像。这里x是干净像素值,而σr和σs分别表示读取和散粒噪声参数。在训练期间,噪声参数(log(σ r),log(σ s))在对数域中从范围log(σ r)[ 3,1. 5]和log(σ s)[4、2]。 然后对网络进行评估4个不同的噪声增益(1,2,4,8),对应于噪声参数(2. 二、二、6),(1 .一、8、二、2),(1 .一、4、1 .一、8)和(1. 一,一。5)分别。注意,在训练期间,最高噪声增益(增益8)的噪声参数是不可见的。因此,在此噪声水平上的性能可以指示网络对看不见的噪声的泛化。假设噪声参数(log(σr)、log(σs))在训练和测试期间都是已知的,并且可以用于估计每像素噪声方差。培训详情:在[45]之后,我们使用来自BurstSRSyntheticBurst颜色去噪灰度去噪SyntheticBurstBurstSRPSNR ↑LPIPS↓SSIM↑PSNR↑LPIPS↓SSIM↑时间(s)SingleImage36.86 0.113 0.91946.600.0390.9790.02HighResNet [12]37.45 0.106 0.92446.640.0380.9800.11DBSR [2]40.76 0.05348.050.0250.9840.24我们41.56 0.045 0.96448.330.0230.9850.40HDR+[24]31.9628.2524.2520.0526.13BM3D [11]33.8931.1728.5325.9229.88NLM [6]33.2330.4627.4323.8628.75VBM4D [42]34.6031.8929.2026.5230.55SingleImage35.1632.2729.3425.8130.65KPN [45]36.4733.9331.1927.9732.39MKPN [43]36.8834.2231.4528.5232.77BPN [64]38.1835.4232.5429.4533.90我们39.3736.5133.3829.6934.74我们的†39.1036.1432.8928.9834.282467×个×个增益∝1增益∝2增益∝4增益∝8 平均运行时间单图像37.94 34.98 31.74 28.03 33.170.005KPN [45] 38.86 35.97 32.79 30.01-BPN [64] 40.16 37.08 33.81 31.190.328我们的42.21 39.13 35.75 32.52 37.400.198我们的†41.90 38.85 35.48 32.29 37.130.046表3.在PSNR方面与先前的方法在彩色猝发去噪集[64]上的比较。KPN的结果来自[64]。我们的方法在所有四个噪声水平上都优于BPNOpen Images [37]训练集以生成合成突发。我们训练包含N= 8的图像与分辨率128 - 128的突发。我们的网络使用ADAM[33]优化器进行训练,分别用于灰度和彩色去噪任务的150k和300k迭代。 整个训练在单个NvidiaV100GPU上花费不到40小时。结果:我们将我们的方法与最近基于内核预测的方法KPN [45],MKPN [43]和BPN [64]进行了比较。由于我们的运动估计网络(PWCNet)是在外部合成数据上训练的,因此我们使用自定义光流网络包括我们的方法的变体,表示为Ours †。我们的流网络使用光度损失与架构的其余部分联合训练,无需任何额外的监督或数据。我们还包括基于非局部滤波的流行去噪算法[6,11,42]、多帧HDR+方法[24]以及仅由我们的编码器和解码器组成的单个图像基线的结果来自灰度脉冲串去噪数据集[45]的73个脉冲串的结果二、我们的方法设置了一个新的最先进的,在所有四个噪声水平上优于以前的最佳方法BPN [64]我们的†采用自定义流网络也获得了有希望的结果,在四个噪声水平中的三个上优于BPN我们还评估了我们的方法对最近推出的彩色猝发去噪数据集[64]包含100个猝发。结果以及处理1024 × 768分辨率突发的计算时间3 .第三章。 进一步的定性比较见图。3.第三章。在灰度集,我们的方法获得了最好的结果,显着优于以前的最佳方法BPN。我们的采用自定义流网络的算法也比BPN的性能高出1倍以上。5dB的平均PSNR,而在显着更高的速度操作。此外,请注意,不像BPN和KPN,被限制为操作上固定大小的突发,我们的方法可以与任何大小的突发操作,为实际应用提供额外的灵活性。表4. 我们的编码器E、解码器D和确定性预测器W模块对SyntheticBurst [2]和灰度去噪[45]数据集的影响。Δ PSNR表示与最终模型的差异(h)。为了确保公平性,当不使用编码器时,我们使用更深的解码器,反之亦然。为了在SyntheticBurst数据集上进行训练,我们采用了一个较短的训练计划,迭代次数为100SyntheticBurst集的平均PSNR以及灰度去噪集中所有四个噪声水平的平均PSNR见表1。4.第一章直接在输入图像空间中最小化重建误差(MAP估计(3))导致超分辨率和去噪任务(a)两者的差结果。注意,与基于经典MAP的方法不同,在这种情况下仍然学习降级算子H图像空间公式的性能通过采用我们的确定性预测器(b)来改进。这种改进在突发去噪任务中更为突出,其中确定性值允许处理变化的噪声水平。我们的仅采用编码器(c)或解码器(d)模块的变体获得更好的性能,这要归功于通过使用深度网络提供的增加的建模能力确定性预测器W提供附加的改进,即使当与编码器(f)或解码器(g)一起使用时。从我们的最终版本中删除三个组件E、D或W(g)-(e)中的任何一个都会导致性能下降,证明这些组件中的每一个都是至关重要的。在超分辨率下性能下降更大任务,因为更复杂的图像退化过程。6. 结论我们提出了一个深度重新参数化的经典MAP制定多帧图像恢复。我们的方法最大限度地减少MAP目标在一个学习的深特征空间,w.r.t.输出IM的潜在表示5.3. 消融研究在这里,我们分析了我们的配方中关键成分的影响。在SyntheticBurst超分辨率数据集[2]和灰度突发去噪数据集[45]上执行实验。我们训练我们的方法的不同变体,有和没有编码器E,解码器D和确定性预测器W。这是通过用恒等函数替换编码器/解码器,并且在适用时将确定性权重vi为了年龄至关重要的是,我们的深度重新参数化允许直接在潜在空间中学习复杂的图像形成过程,同时还将学习到的图像先验信息集成到预测中。我们进一步引入确定性预测器模块以提供对例如对准误差。我们的方法在RAW突发超分辨率以及突发去噪任务上获得了最先进的结果鸣谢:本工作得到了华为技术公司(芬兰)项目、ETHZuürich基金(OK)、Amazon AWS赠款和Nvidia的支持EDW合成突发峰值信噪比∆峰值信噪比去噪峰值信噪比 ∆峰值信噪比(一)31.91-7.9128.06-6.68(b)第(1)款C33.85-5.9733.00-1.742468引用[1] B. Bascle,A.布莱克和安德鲁·齐瑟曼。从图像序列的运动去模糊和超分辨率在ECCV,1996年。二三五[2] Goutam Bhat,Martin Danelljan,L. Gool和R. Timofte深爆超分辨率。在CVPR,2021年。一二六七八[3] Goutam Bhat , Martin Danelljan , Luc Van Gool , andRadu Timofte. 学习判别模型预测跟踪。在IEEE计算机视觉国际会议论文集,第6182-6191页五个[4] GoutamBhat、FelixJéremoLa win、MartinDanelljan、An-dreas Robinson、Michael Felsberg、Luc Van Gool和RaduTimofte。学习视频对象分割的学习内容。欧洲计算机视觉会议(ECCV),2020年。五个[5] T. Brooks , Ben Mildenhall , Tianfan Xue , JiawenChen,Dillon Sharlet,and J.巴伦不处理图像以进行学习的原始去噪。2019年IEEE/CVF计算机视觉和模式识别会议,第11028-11037页,2019年。六个[6] A.布阿德斯湾Coll和J.莫瑞尔一种非局部图像去噪算法。2005年IEEE计算机协会计算机视觉和模式识别会议(CVPR'05),2:60-65卷。2005年2月。七、八[7] 作者:Toni Buades,J. M. Morel和Z.唐关于多图像去噪的一点注记。2009图像处理中的局部和非局部近似国际研讨会,第1-15页,2009年。二个[8] D. Butler,J. Wulff,G. Stanley和Michael J.黑色.一个用于光流评估的自然主义开源电影ECCV,2012年。六个[9] M. Chiang和T.博尔特通过图像变形实现高效的超分辨率图像可见Comput. ,18:761-771,2000. 二个[10] Kostadin Dabov,A.Foi和K.埃吉亚扎利安人基于稀疏三维变换域协同滤波的视频2007年第15届欧洲信号处理会议,第145- 149页,2007年。二个[11] Kostadin Dabov,A. Foi,V.Katkovnik,and K.埃吉亚扎利安 人稀 疏三维 变换 域协同 滤波 图像去 噪。 IEEETransactions on Image Processing , 16 : 2080-2095 ,2007。二七八[12] Michel Deudon,A.作者:David,M. R.作者:陈文,林志超,K.放大图片作者:S.Kahou,Julien Cornebise,and Yoshua Bengio. Highres-net:卫星图像多帧超分辨率的递归融合。ArXiv,abs/2002.06460,2020。一、二、七[13] C. Dong,Chen Change Loy,Kaiming He,and X.唐学习用于图像超分辨率的深度卷积网络。2014年,在ECCV。四个[14] A. Dos o vit s ki y,P. Fische r,EddyIlg,PhilipH ¨ usser,Caner Hazirbas,V.戈尔科夫D. Smagt,D. Cremers和T.布洛克斯Flownet:使用卷积网络学习光流。2015年IEEE计算机视觉国际会议,第2758-2766页,2015年。六个[15] Michael Elad和A.福伊尔从多幅模糊、噪声和欠采样图像中恢复单个超分辨率图像pled测量图像。 IEEE图像处理汇刊:IEEE信号处理协会的出版物,612:1646-58,1997。一、二[16] E. Faramarzi,D. Rajan和M.克里斯滕森多图像超分辨率和 单 / 多 图 像 模 糊 反 卷 积 的 统 一 盲 方 法 。 IEEETransactions on Image Processing , 22 : 2101-2114 ,2013. 二个[17] Sina Farsiu、Michael Elad和P.米兰法欠采样彩色图像的多帧去马赛克和超分辨率。IST/SPIE
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功