没有合适的资源?快使用搜索试试~ 我知道了~
{shiguo.guo,xxxxi.yang,jianqi.ma @connect.polyu.hk,174720一种可微的两阶段对齐方案用于具有大位移的连拍图像重建0Shi Guo 1 Xi Yang 1 Jianqi Ma 1 Gaofeng Ren 2 Lei Zhang 101 香港理工大学;2 阿里巴巴集团达摩院0gaof.ren@gmail.com, cslzhang@comp.polyu.edu.hk0摘要0降噪和解模糊是从原始数据中重建干净的全彩色图像的两个关键步骤。最近,联合降噪和解模糊(JDD)用于连拍图像,即JDD-B,通过使用在短时间内捕获的多个原始图像来重建单个高质量图像,引起了我们的广泛关注。JDD-B的一个关键挑战在于图像帧的稳健对齐。特征域中的最先进的对齐方法不能有效利用连拍图像的时间信息,因为由于相机和物体运动,通常存在较大的位移。此外,现代成像设备的更高分辨率(例如4K)导致帧之间的位移更大。为了解决这些挑战,我们设计了一个可微的两阶段对齐方案,分别在块和像素级别上进行有效的JDD-B。首先,通过使用可微的渐进块匹配方法在块级别上对输入的连拍图像进行对齐,该方法可以以较小的计算成本估计远距离帧之间的偏移量。然后,我们在全分辨率特征域中执行隐式像素级对齐以优化对齐结果。这两个阶段以端到端的方式进行联合训练。大量实验证明我们的方法在现有的JDD-B方法上有显著改进。代码可在https://github.com/ GuoShi28/2StageAlign上获得。01. 引言0颜色解模糊和降噪是数字相机成像流程中的两个关键步骤,用于从传感器原始数据中重建高质量的全彩色图像。颜色解模糊[9, 20, 29, 45,46]从单片CCD/CMOS传感器收集的彩色滤光阵列(CFA)数据中恢复缺失的颜色分量,而降噪[21, 31, 48,49]则消除由光子到达统计和不精确性引起的图像数据中的噪声。0在读出电路中。由于这两个任务实际上是相关的并且可以共同执行,因此已经开发了许多联合降噪和解模糊(JDD)算法[5, 11, 14, 15, 23,28],但这些算法主要集中在单幅图像恢复上。随着智能手机相机的普及使用[1],由于智能手机相机的传感器和镜头较小,从低信噪比的数据中恢复图像变得至关重要。为此,使用连拍图像进行JDD(JDD-B)在近年来变得越来越流行和重要[13]。连拍图像处理是指在短时间内拍摄一系列低质量帧并计算地融合它们以产生更高质量的照片[2,41]。与单幅图像恢复相比,连拍图像恢复的关键挑战在于补偿帧之间的位移。以前的研究通常通过估计光流[8,44]和在图像域中应用空间变体核[32, 33, 42,43]来执行帧对齐。然而,受到噪声的影响,准确估计光流和核是困难的。最近,在特征域中的隐式对齐已经在视频超分辨率[4,40]、视频降噪[47]以及JDD-B[13]上取得了最先进的性能。然而,发现在处理具有大位移的图像序列时,特征对齐效果不佳。例如,对于[40]中的金字塔特征对齐模块,偏移估计的感受野约为28(3个卷积层,3×3内核,1/4比例),即沿一个方向14个像素。这样的搜索范围对于具有大位移的连拍图像来说太小了。而在视频中,由于相机和物体运动,通常存在较大的位移。另一方面,现代图像/视频记录器可以轻松捕捉4K(4096×2160)或UHD(3840×2160)分辨率的视频。因此,帧之间的像素位移进一步增加。即使是4K视频中前景物体的微小运动也可能导致较大的位移值。然而,对于具有大运动的全尺寸图像进行精确的像素级对齐非常困难和昂贵。通过简单的实现,对于每个像素,我们假设偏移量是...174730Y,M0(a)粗对齐0(补丁级别)0DPBM0∆pn↓04倍尺度0粗对齐的补丁 →0深度特征0金字塔偏移估计0∆pn0DConv0(b)精细对齐0(像素级别)0对齐特征0BiGRU0UNet0估计的补丁0JDD-B结果0(c)对齐特征融合0图1. 我们具有可微分的两阶段对齐的网络示意图。0使用感受野D×D的成本F×D2进行估计0乘加运算,其中F由不同的网络结构确定。对于大小为H×W的输入,偏移估计的成本为F×D2×H×W的乘加运算。处理大偏移的一个直接解决方案是通过使用3D卷积层[27]或计算全范围相关体积[24]来增加D。然而,这些解决方案会显著增加计算成本,并且对于具有大尺寸的图像来说效率不高。0为了解决这些问题,我们设计了一种可微分的两阶段对齐框架,将困难的大偏移对齐问题分解为相对较容易的对齐子问题,即粗对齐(CA)和精细对齐(RA)。CA模块旨在使用较小的计算资源粗略地补偿大偏移。CA模块不使用像素级对齐,而是使用F×D2×(H/k)×(W/k)的乘加运算在补丁级别进行对齐,其中k是补丁大小。然后,RA模块根据CA模块的结果对帧进行像素级对齐,使用较小的感受野Ds。这种两阶段框架总共使用F×(D2/k2+D2s)×H×W的乘加运算,比使用单阶段模块直接对齐图像的运算量要小得多,特别是当D很大时。具体而言,我们在图像域中使用基于块匹配(BM)的方法作为CA模块。0为了克服BM引起的不可微性并减少计算成本,我们提出了一种可微分的渐进式块匹配(DPBM)方法。我们进一步为DPBM提出了相应的损失函数,以稳定训练过程。对于RA模块,我们使用可变形卷积在特征域中隐式地进行精细的像素级对齐,以实现准确的图像恢复。两个对齐阶段是互补的,当它们在我们的学习框架中联合使用时,它们可以增强彼此。与最先进的(SOTA)方法GCP-Net相比,我们的两阶段框架具有更少的可学习参数和类似的运行时间,但在具有大偏移的图像上取得了巨大的改进。本文的主要贡献如下:0•为了高效处理具有大偏移的图像,我们提出了一种可微分的两阶段对齐框架,将困难的大偏移对齐问题分解为两个0•我们在CA模块中提出了一种可微分的渐进式块匹配方法,以减少计算成本,并确保我们的两阶段框架可以进行端到端的训练。0我们在合成和真实世界的连拍图像数据集上的实验清楚地表明,我们的两阶段对齐方法在现有方法上取得了令人印象深刻的改进。02. 相关工作02.1. 联合降噪和去马赛克0降噪和去马赛克是相机图像信号处理(ISP)流水线中与单个CMOS/CCD传感器相关的两个基本任务[9, 20, 29, 45,46]。考虑到分别进行降噪和去马赛克可能会积累图像恢复的错误,近年来广泛研究了JDD[7, 11, 13, 15, 23, 28,36]。Gharbi等人[11]表明,使用更具挑战性的补丁进行训练可以减少JDD中的莫尔纹伪影。然后,更复杂的方法被用于获得更好的性能,例如两阶段网络[36],自动编码器架构[15]和迭代结构[23]。通过微调网络使用连拍图像,提出了一种改进实际图像去马赛克性能的马赛克到马赛克框架[7]。由于在相机原始图像的Bayer模式中,绿色通道的采样率是红/蓝通道的两倍,并且具有更高的信噪比,因此利用绿色通道来引导上采样过程[28]、特征提取[13]和帧之间的偏移估计[13]。以前的方法主要在单个CFA原始图像上执行JDD,并且在具有高噪声水平的实际CFA图像上的性能有限。即使已经提出了一种使用连拍原始图像进行JDD任务的方法[13],其对齐模块也有p∆p0 = 0p + ∆p0∆pr+1∆p0 = ∆pr+1p + ∆p0174740帧r(参考帧)帧r + 1帧r + 20降采样0在位置p处的补丁0A0B0以步幅s进行搜索在范围s - 1周围搜索B0A0B C0对齐的r + 3 ...0帧r0未对齐的r + 1未对齐的r + 20对齐的r + 1对齐的r + 20图2. 用可微分的渐进块匹配(DPBM)示例粗对齐过程。为了简化问题,我们展示了以位置p为中心的补丁的DPBM。A是以p +∆p0为中心的搜索区域的中心,其中∆p0对于目标帧r + 1是0,对于目标帧r + n + 1是∆pr +n。为了减少计算成本,我们首先使用提出的可微分块匹配方法以步幅s进行匹配,得到匹配的中心位置B。然后我们在“B”的邻域内以步幅1进行搜索,得到更准确的匹配位置C。∆pr + 1是帧r + 1的“C”和“A”之间的位移。0小的感受野不能在具有大偏移的图像上获得令人满意的结果。在这项工作中,我们提出了一个新的两阶段框架,与[13]相比具有类似的运行时间,但取得了很大的改进。02.2. 多帧和爆发图像恢复0多帧图像恢复在文献中得到了广泛研究[4, 8, 18, 26, 32, 33,38, 40, 42-44,47],旨在产生比单个图像更好质量的照片。多帧图像恢复的主要挑战在于如何补偿帧间的运动。一些常用的解决方案采用光流[8, 44]和空间变化的核估计[32, 33, 42,43]。然而,这些方法的性能受到大运动和严重噪声的影响很大。最近,在特征域中执行隐式帧对齐已经在视频超分辨率[4, 26, 38,40]、视频去噪[47]和JDD-B[13]上取得了最先进的性能。在这些方法中,从相邻帧提取的深度特征估计偏移[38,40]或光流[4],并使用可变形卷积[6]或包裹操作符来补偿特征域中的偏移。在[13, 40,47]中,金字塔处理被用于偏移估计以处理复杂的运动。然而,我们发现,由于有限的感受野,特征域中的隐式对齐只能在具有大偏移的序列上取得有限的性能。为了解决这个问题,我们设计了一个可微分的两阶段对齐方案,并证明了它在JDD-B上的有效性。03. 方法论03.1. 动机和网络结构0JDD-B任务的目的是从一系列噪声CFA图像Y = {yt}Nt=1中重建干净的RGB图像x。0以及它们对应的噪声图M ={mt}Nt=1。然而,之前的SOTA多帧方法[13, 40,47]在小感受野的情况下对大像素位移的处理能力有限。因此,我们提出了一个可微分的两阶段对齐框架,以增加对齐的感受野而不增加计算量。我们的框架如图1所示,将困难的大位移补偿问题分解为两个相对较容易的子问题,即粗对齐(CA)和精细对齐(RA)。CA模块需要使用较小的计算成本粗略地补偿大位移。我们选择基于块匹配(BM)的方法,并提出了一种可微分的渐进块匹配方法来估计低分辨率(LR)特征上的偏移,并输出粗略对齐的爆发图像。然后开发了RA模块,该模块使用可变形卷积(DConv)在高分辨率(HR)特征域中逐像素对齐爆发图像。最后,融合模块通过使用对齐的图像特征估计参考帧的干净全彩色图像(表示为帧r)。每个模块的详细信息在以下各节中描述。03.2. 补丁级别的粗对齐0粗对齐(CA)模块旨在高效估计帧之间的大偏移量。为了满足处理4K分辨率下具有复杂运动的连拍图像的要求,CA模块需要具有较大的感受野,并使用较小的成本。此外,在模型训练中,为了抑制小噪声的影响,通常通过对高分辨率图像进行下采样来获得GT图像,这也减小了运动范围。因此,我们选择使用BM来进行粗对齐,通过增加搜索区域可以轻松地减小训练和测试阶段之间的差距。为了克服不可微分性174750表1. REDS4数据集上不同JDD-B方法的定量比较。按照[33,43]的实验设置,“低”和“高”噪声水平分别对应于σs=2.5×10^-3,σr=10^-2和σs=6.4×10^-3,σr=2×10^-2。0噪声水平 Clip名称 KPN+DMN EDVR+DMN RviDeNet+DMN EDVR* RviDeNet* GCP-Net 我们的方法0Clip000 27.47/0.7437 30.18/0.8517 30.37/0.8532 30.31/0.8539 31.29/0.8803 32.57/0.9147 32.75/0.9174 Clip011 29.64/0.788632.26/0.8611 32.50/0.8639 32.51/0.8643 32.50/0.8710 34.20/0.8972 34.74/0.9059 Clip015 31.21/0.8310 34.01/0.889334.10/0.8909 34.01/0.8919 34.90/0.9068 35.94/0.9225 36.06/0.9247 Clip020 28.66/0.7938 31.65/0.8780 31.74/0.880731.44/0.8757 31.82/0.8822 33.61/0.9154 34.17/0.92330平均31.65/0.8570 33.85/0.9039 34.08/0.9107 34.02/0.9105 34.86/0.9221 36.20/0.9383 36.59/0.94480高0低0平均29.24/0.7893 32.02/0.8700 32.18/0.8722 32.06/0.8715 32.62/0.8850 34.08/0.9124 34.43/0.91780表1. REDS4数据集上不同JDD-B方法的定量比较。按照[33,43]的实验设置,“低”和“高”噪声水平分别对应于σs=2.5×10^-3,σr=10^-2和σs=6.4×10^-3,σr=2×10^-2。0d(Pt,i,Pr)=E[|Pt,i−Pr|]��Mi=1E[|Pt,i−Pr|]^2. (1)0为了克服BM引起的问题并降低计算成本,我们提出了一种可微分的渐进块匹配(DPBM)方法。可微分BM。我们首先介绍可微分BM的过程。对于参考帧r中的补丁Pr和另一帧t中的查询补丁(Pt,i) i∈I,其中I={1,...,M},BM的目的是在(Pt,i)i∈I中找到与目标补丁Pr最匹配的补丁。使用归一化的平均绝对值(NMA)距离作为匹配准则。图像补丁Pt,i和Pr之间的NMA距离可以写成:0wi=exp(0对于传统的BM,选择具有最小距离的补丁作为最佳匹配补丁,表示为Pt,BM。最小距离通过对d(Pt,i,Pr)i∈I按升序排序获得,这是不可微分的。为了解决这个问题,我们参考[12, 19,35],利用连续确定性松弛的BM。可以计算出d(Pt,i,Pr) i∈I的加权因子w如下:0其中T是温度,当T趋近于0时,wi变成one-hot向量。现在我们可以通过使用Pt,BM=�0根据[19]中的讨论,使用较小的T可以使w接近one-hot,但会导致梯度更大,训练过程不稳定。而使用较大的T,w变得平滑但容易训练。因此,我们将训练可微分BM视为一种从软到硬的过程,其中T在实验中初始化为1×10^-2,然后减小到1×10^-3。与[35]中的可微分BM不同,这里我们计算由可微分BM的梯度更新的轻量级网络在LR特征上获得的补丁之间的距离。我们进一步设计了一些约束条件来稳定DPBM的训练过程,将在第3.5节介绍。0DPBM。DPBM的详细过程如图2所示。首先,为了降低计算成本和减轻噪声干扰的影响,我们在轻量级下采样网络上对LR特征进行可微BM。该网络包含三个16通道的3×3卷积层和两个转置卷积层,将图像下采样为学习到的1/4尺度特征。对于参考帧r中以位置p为中心的LR特征块Pr,p,其最接近的目标帧r+1中的搜索区域设置为{p±∆pcmax},其中∆pcmax是最大搜索范围。我们首先使用可微BM在{p±∆pcmax}中以步长s>1找到一个近似匹配的位置,并将匹配的位置表示为pa。然后我们在{pa±s}中以步长1找到一个更准确的匹配块,并将匹配的位置表示为pm。图像块P在帧r和帧r+1之间的偏移量∆pr+1 = pm -p。对于目标帧r+2,搜索区域设置为{p+∆pr+1±∆pcmax},该区域使用从帧r+1估计的偏移量进行更新。通常,帧之间的运动具有连续性,使用时间信息更新搜索区域可以更有效地定位长期帧中的匹配块。在帧之间的运动突然改变的情况下,我们的DPBM等效于标准BM。注意,DPBM在1/4尺度的LR特征上执行,当对齐全分辨率图像时,估计的偏移量应重新缩放到原始图像分辨率。03.3. 像素级精细对齐0精细对齐模块旨在对粗略对齐的帧进行准确的像素级对齐。可变形对齐与DConv [6]在各种视频处理任务的特征对齐中取得了成功[13,38, 40,47]。因此,我们选择在精细对齐模块中使用隐式特征对齐。深度特征是从原始分辨率的连拍图像中提取的。参考帧和目标帧的特征对齐,表示为Fr和Fr+1,可以通过使用∆pr+1 = f([Fr,Fr+1])从深度特征中估计偏移量获得,其中[∙,∙]是连接运算符,f是几个卷积层和非线性函数(例如LReLU)的组合。然后,通过使用估计的偏移量执行DConv,可以获得对齐的特征F′r+1:F ′r+1 = DConv(Fr+1, ∆pr+1).(3)hfr = fgru(Fr, hfr−1),hbr = fgru(Fr, hbr+1),(4)Lone−hot = |sum(w) − 1| + |var(w) − 1/M|,(5)LBM = ∥d(Pt,i, Pr) − d(P ct,i, P cr )∥22,(6)Lip = mh ⊙174760(a) 噪声图像0(b) EDVR+DMN0(c) RviDeNet+DMN0(d) EDVR*0(e) RviDeNet*0(f) GCP-Net0(h) GT0图3. 在REDS4数据集的Clip 020上,不同方法的JDD-B结果。0描述如下。首先,通过使用∆pr+1 = f([Fr,Fr+1])从深度特征中估计偏移量,其中[∙,∙]是连接运算符,f是几个卷积层和非线性函数(例如LReLU)的组合。然后,通过使用估计的偏移量执行DConv,可以获得对齐的特征F′r+1:0与[40]类似,我们还采用了金字塔DConv对齐策略来提高对齐性能。03.4. 对齐特征融合0在连拍图像恢复中,对齐特征的融合是另一个重要步骤。有三种典型的解决方案,即非定向融合[18, 25, 40,47],单向融合[18, 37]和双向融合[4, 16,17]。与非定向和单向融合相比,双向融合可以利用前向和后向方向的长期记忆和信息[4]。因此,我们设计了一个双向门循环单元(Bi-GRU)作为我们融合模块的核心组件。我们融合模块的输入是对齐的特征帧{F′t}Nt=1。对于参考帧r,特征通过前向(hfr)和后向(hbr)信息进行传播,可以计算如下:0其中 f gru是门控循环单元(GRU)。前向传播和后向传播的输出被连接起来作为干净全彩色图像重建的输入。使用典型的3尺度UNet和两个跳跃连接作为图像重建网络。网络结构的更多细节请参见补充文件。03.5. 训练损失的设计0DPBM损失。首先,为了避免在Equ.2中学习到全零向量或均匀向量 w ,我们在 w0通过计算 w 的统计特征来判断 w 是否是一个独热向量,即L one − hot 。具体而言,w的和和方差应分别等于1和1/M,其中 M 是查询 d(P t,i , P r) i ∈ I 的块数。L one − hot 可以写成:0其中 sum(w) 和 var(w) 是 w的和与方差。由于原始图像中的噪声污染,嘈杂块之间的BM距离不准确。为了稳定DPBM训练过程并减轻噪声的影响,我们使用干净图像得到的BM结果来指导训练过程。我们令0其中 P c t,i 和 P c r 是帧 t 中的查询块和帧 r中的目标块,使用干净图像。前20W次迭代中使用 L BM。插值损失。我们设计了一个插值损失 L ip,以鼓励网络更好地利用其他帧的信息。L ip的核心思想是使用相邻帧来“插值”参考帧。在融合模块中,我们聚合所有其他帧(不包括参考帧)的特征,使用重建UNet来插值参考帧。所谓的“插值”输出表示为 ˆ x i。为了鼓励对齐的特征捕捉更多纹理,我们仅在高频区域(用 m h 表示)上计算 L ip ,可以使用 [28] 获得。L ip可以写成:0∥ ˆ x i − x ∥ 2 + ϵ 2 ,(7)0∥ ˆ x − x ∥ 2 + ϵ 2 是Charbonnier惩罚函数,其中 ϵ设为0.001。总体损失。用 ˆ x表示从嘈杂的原始连拍数据中重建的干净全彩色图像,用 x表示EDVR*36.0738.4540.0740.8437.8233.9336.9635.7137.0234.8637.6036.9937.190.94060.95830.96520.97210.95110.92070.94540.93100.94190.92990.93870.93670.9443RviDeNet*36.2238.5640.7840.4238.3434.3037.7636.4037.2334.8338.0437.1637.500.94900.96570.97380.97890.95820.92710.95430.93990.94480.93850.94320.93960.9510GCP-Net35.5139.1741.3240.8538.7434.8338.5037.1237.6935.6738.2137.7837.940.93060.96830.97550.96460.96530.93650.96500.95300.94820.94580.94730.94240.9535(b) EDVR*(c) RviDeNet*(d) GCP-Net(f) GT174770表2. Videezy4K数据集上的定量比较。噪声水平设为 σ s = 6 . 4 × 10 − 3 , σ r = 2 × 10 − 2 。0方法 00 01 02 03 04 05 06 07 08 09 10 11 平均0我们的 37.75 39.61 41.71 42.42 39.30 36.09 39.24 37.21 38.76 35.94 38.64 38.27 38.74 0.9578 0.9737 0.9809 0.9855 0.9698 0.9532 0.97410.9594 0.9604 0.9491 0.9515 0.9514 0.96390(a) 嘈杂图像0(e) 我们的0图4. Videezy4K数据集上不同方法的JDD结果。0参考帧的地面真实干净图像。可以定义重建损失为:0Lr = �0∥x� - x∥2 + ε2 + 0∥Γ(x�) - Γ(x)∥2 + ε2,(8)0其中Γ(∙)是ISP运算符,包括白平衡、颜色校正和伽马压缩。Γ(∙)的实现细节可以在[3]中找到。总体上,我们的模型的总损失为:0L = Lr + βLip + ρLone-hot + ηLBM,(9)0其中β和η是平衡参数,分别设置为1和1×103。惩罚因子ρ设置为1×105。04. 实验04.1. 模型训练细节0训练数据。我们按照[3]的方法合成了用于真实世界突发图像的训练数据。我们使用REDS数据集[34]中的240个720p训练剪辑生成训练数据。首先,将sRGB视频使用[3]转换为线性RGB空间。得到的序列被视为干净的真实图像xt。网络的输入{yt}Nt=1是通过[10]获得的噪声原始突发图像:0yt = M(xt) + n(M(xt), σs, σr),(10)0其中n(x, σs, σr) � N(0, σs x +σ2r),M(∙)是马赛克下采样运算符。σs和σr分别表示拍摄噪声和读取噪声的尺度。0训练细节。我们将中心帧作为参考帧。根据[13,33],在范围[10−4, 10−2]和[10−3,10−1.5]内均匀采样σs和σr。我们的模型使用PyTorch实现,并使用两个RTX 2080TiGPU进行训练。训练过程中,我们使用Adam[22]优化器,动量为0.9。轻量级网络在粗对齐中的学习率初始化为1×10−5,其他网络部分的学习率初始化为1×10−4。然后使用余弦函数[30]降低学习率。04.2. 与最先进方法的比较0竞争方法。我们将我们的方法与最近开发的JDD-B方法GCP-Net[13]进行比较。根据[13],我们还将几种SOTA突发去噪算法,即KPN[33]、EDVR[40]和RviDeNet[47],与SOTA去马赛克方法DMN[11]结合起来进行比较。EDVR[40]和RviDeNet[47]也稍作修改,以适应JDD-B任务,通过在输出层添加上采样运算符,我们将它们表示为EDVR*和RviDeNet*。所有竞争模型都使用我们的实验设置进行重新训练。合成数据的结果。为了定量评估竞争方法,我们首先在两个合成数据集上进行实验,即REDS4[40]和我们收集的名为Videezy4K的数据集。REDS4被广泛用作视频超分辨率研究中的测试集,其分辨率为720p。由于现代智能手机相机和数码单反相机拍摄的图像/视频通常具有4K分辨率,帧之间的位移可能比(b) KPN+DMN(c) EDVR+DMN(d) RviDeNet+DMN(e) EDVR*174780(a) 噪声图像0图5. 不同方法在真实世界突发图像上的JDD-B结果。0REDS4数据集。为了更好地评估在4K视频上的性能,我们从Videezy网站[39]收集了12个4K视频剪辑,并选择每个视频的20帧进行测试。所有测试视频首先使用与生成训练数据相同的流程转换为线性RGB空间,然后通过在Equ.10中添加异方差高斯噪声生成噪声突发原始图像。分别在REDS4和Videezy4K数据集上的定量结果分别显示在表1和表2中。根据[13,33],我们在伽马校正后计算PSNR和SSIM指数,以更好地反映感知质量。在REDS4和Videezy4K上的定性比较分别显示在图3和图4中。我们可以看到,由于去噪和去马赛克之间的相关性,JDD-B算法(即EDVR*和RviDeNet*)的性能优于EDVR+DMN和RviDeNet+DMN。然而,由于单阶段对齐模块的小感受野,EDVR*、RviDeNet*和GCP-Net在运动较大的区域存在过度平滑的问题。由于两阶段对齐的好处,我们的模型恢复了更多的纹理,特别是在移动物体上。在图3中,我们的模型能够很好地重建行走人物的水平条纹,几乎没有拉链和色彩伪影。在图4中,我们的方法能够更清晰地恢复和识别字符。对于小运动的图像,即REDS4数据集中的Clip000,我们的方法仍然获得更好的性能。更多的视觉结果可以在补充文件中找到。对真实世界突发图像的结果。然后,我们在真实世界突发图像上定性评估我们的方法。我们使用SCBurst数据集[13],其中突发图像是使用具有各种ISO值的智能手机拍摄的。SCBurst包含噪声原始图像和相应的元数据,用于测试和可视化。我们在图5中提供了视觉比较。可以看到,KPN+DMN、EDVR+DMN的恢复结果,0EDVR*,RviDeNet+DMN和RviDeNet*存在明显的运动引起的伪影。GCP-Net在高噪声水平区域无法重建纹理,但伪影较少。由于两阶段对齐模块的好处,我们的模型可以更有效地利用时间信息并重建更多细节。我们在补充文件中提供了更多的视觉结果和用户研究。模型大小和运行速度。表3列出了我们的方法和其他方法在具有UHD分辨率的5帧上的模型参数数量和运行时间,使用的是GTX 2080TiGPU。EDVR*具有最少的参数数量和最快的速度,但性能最差。RviDeNet*的计算成本最高,因为它包含一个预去噪模块和非局部模块。与GCP-Net相比,我们的模型在训练参数更少且运行时间相似的情况下获得更好的性能。CA模块耗时3.6秒,RA+融合模块耗时16.1秒。0表3.不同CNN模型在输入尺寸为2160×3840和输出尺寸为2160×3840×3的5帧上的参数数量和运行时间的比较。0EDVR* RviDeNet* GCP-Net 我们的0#. 参数 6.28M 57.98M 13.79M 12.05M 时间(秒) 10.4 124.3 19.519.7(3.6+16.1)04.3.消融研究0粗对齐与精对齐。为了评估我们模型中CA和RA模块的作用,我们将其与三个变体进行比较,即不使用对齐(我们的(无对齐)),仅使用CA模块(我们的(带CA))和仅使用RA模块(我们的(带RA))。在REDS4数据集上的定量比较如表4所示。可以看到,我们的(带RA)在补偿小运动(剪辑000)时可以获得很大的改进(1.83dB),但对于具有大运动的序列(剪辑020)只能获得有限的增益(0.26dB)。这表明,受到小感受野的限制,DConv失败了。174790(a)嘈杂的图像0(b)嘈杂的补丁0(c)无对齐0(d)带RA0(e)带CA0(f)两阶段0图6.使用我们的两阶段对齐模型的不同变体的JDD-B结果。0为了有效利用具有大运动场景的时间信息。通过在大区域中使用DPBM进行搜索,我们的(带CA)可以更有效地利用时间信息,并获得比我们的(带RA)在具有大运动的图像(剪辑020)上获得0.52dB的增益。然而,它在具有小运动的剪辑000上只实现了较小的改进(0.31dB)。我们还在图6中可视化了使用不同对齐模块的JDD-B结果。可以看到,两阶段对齐可以重建更多纹理。平均而言,没有CA模块,我们的(带RA)比我们的(无对齐)获得1.02dB的增益。当包括CA模块时,我们的完整模型比我们的(带CA)获得更多的改进(1.28dB)。同时,没有RA模块,我们的(带CA)比我们的(无对齐)带来0.27dB的增益,而考虑RA模块时,我们的完整模型比我们的(带RA)带来0.53dB的增益。可以清楚地看到,两个对齐步骤都可以提高JDD-B的性能。CA和RA模块互补,当一起使用时它们可以增强彼此。0表4.在REDS4数据集中具有小运动(剪辑000)和大运动(剪辑020)的剪辑以及整个REDS4的平均结果的不同变体的比较。0剪辑000 剪辑020 平均0我们的(无对齐)30.74/0.8662 32.43/0.8969 32.88/0.8889我们的(带CA)31.05/0.8738 33.21/0.9080 33.15/0.8932我们的(带RA)32.57/0.9190 32.69/0.9002 33.90/0.9077我们的(无E2E)32.67/0.9158 34.07/0.9217 34.31/0.91590我们的(完整)32.75/0.9174 34.17/0.9233 34.43/0.91780两阶段对齐的端到端学习。为了以端到端的方式训练我们的方法,我们提出了DPBM模块。为了评估端到端学习的有效性,我们训练了一个变体,即我们的(无E2E),它在CA模块中使用普通BM。由于普通BM是不可微分的,可学习的轻量级下采样网络被双三次下采样替代。结果也显示在表4中。可以看到,我们的完整模型可以比我们的(无E2E)获得0.12dB的改进,验证了端到端CA模块可以学习更好的对齐恢复。更重要的是,由于平坦补丁之间的主要差异是由噪声引起的,直接在嘈杂的补丁上执行BM可能会对齐噪声并生成伪影。图7中显示了一个例子。0由于使用了可学习的轻量级网络进行下采样,我们的完整模型可以减轻噪声干扰,特别是在对齐平坦区域时。0(a) 噪声图像0(b) 我们的(无端到端)0(c) 我们的0图7.平坦区域的重建,有/无端到端两阶段对齐学习。在屏幕上放大查看效果更好。我们的模型减轻了噪声干扰并获得了更清晰的结果。0限制。当补丁中存在相反方向大移动的对象时( P t,i ) i ∈ I,CA模块可能失败,我们的方法在这种情况下只使用RA模块。05. 结论0我们提出了一种可微分的两阶段对齐方法,用于高性能连拍图像恢复。由于有限的感受野,当前的特征对齐方法在连拍图像具有大偏移时无法充分利用时间信息,这在具有移动对象和/或4K分辨率的序列中非常常见。我们将这个问题分解为两个相对较容易的子问题,即粗对齐和精细对齐,并提出了JDD-B任务的两阶段框架。在粗对齐模块中,我们开发了一个可微分的渐进式块匹配模块,以扩大搜索区域并减少计算成本。然后,我们开发了一个可变形对齐模块,以进行像素级对齐。我们进行了合成和真实世界连拍数据集的实验。我们的方法在PSNR/SSIM度量以及视觉质量方面相对于现有方法具有明显优势,而且增加的计算成本不多。0致谢 本工作得到香港研究资助局RIF基金(R5001-18)的支持174800参考文献0[1] CIPA. 2018. CIPA报告. (于2018年11月29日访问). 1 [2]Miika Aittala和Fr´edo Durand.使用置换不变卷积神经网络进行连拍图像去模糊. 在欧洲计算机视觉会议(ECCV) 论文集中, 页码731–747, 2018. 10[3] Tim Brooks, Ben Mildenhall, Tianfan Xue, Jiawen Chen,Dillon Sharlet和Jonathan T Barron.通过学习的原始去噪图像的还原. 在IEEE计算机视觉与模式识别会议 论文集中, 页码11036–11045,2019. 60[4] Kelvin CK Chan, Xintao Wang, Ke Yu, Chao Dong和ChenChange Loy. Basicvsr:在视频超分辨率和其他领域中寻找基本组件. arXiv预印本arXiv:2012.02181 , 2020. 1 , 3 , 50[5] Laurent Condat和Saleh Mosaddegh.通过总变差最小化进行联合去马赛克和去噪. 在2012年第19届IEEE国际图像处理会议 论文集中, 页码2781–2784.IEEE, 2012. 10[6] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, GuodongZhang, Han Hu和Yichen Wei. 可变形卷积网络. 在IEEE国际计算机视觉会议 论文集中, 页码764–773, 2017. 3 , 40[7] Thibaud Ehret, Axel Davy, Pablo Arias和Gabriele Fac-ciolo. 通过对连拍原始图像进行微调进行联合去马赛克和去噪. 在IEEE国际计算机视觉会议 论文集中, 页码8868–8877, 2019. 20[8] Thibaud Ehret, Axel Davy, Jean-Michel Morel, GabrieleFacciolo和Pablo Arias. 通过帧间训练进行模型盲视频去噪. 在IEEE计算机视觉与模式识别会议 论文集中, 页码11369–11378,2019. 1 , 30[9] Thibaud Ehret和Gabriele Facciolo.两种CNN去马赛克算法的研究. 图像处理在线 , 9:220– 230,2019. 1 , 20[10] Alessandro Foi, Mejdi Trimeche, VladimirKatkovnik和Karen Egiazarian.用于单幅图像原始数据的实用泊松-高斯噪声建模和拟合.IEEE图像处理期刊 , 17(10):1737–1754, 2008. 60[11] Micha¨el Gharbi, Gaurav Chaurasia, Sylvain Paris和Fr´edoDurand. 深度联合去马赛克和去噪声. ACM Transactions onGraphics (TOG),35(6):1-12,2016年. 1 , 2 , 60[12] Jacob Goldberger, Geoffrey E Hinton, Sam Roweis和RussR Salakhutdinov. 邻域成分分析.神经信息处理系统进展,17,2004年. 40[13] Shi Guo, Zhetong Liang和Lei Zhang.基于绿色通道先验的联合去噪声和去马赛克方法用于真实世界的连拍图像. arXiv预印本arXiv:2101.09870,2021年. 1 , 2 , 3 , 4 , 6, 70[14] Felix Heide, Markus Steinberger, Yun-Ta Tsai, MushfiqurRouf, Dawid Pajk, Dikpal Reddy, Orazio Gallo, Jing Liu,Wolfgang H
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功