没有合适的资源?快使用搜索试试~ 我知道了~
14030用于超高清视频去模糊的多尺度可分离网络Senyou Deng1,Wenqi Ren1,2,Xiao,Yanyang Yan1,Tao Wang3,Fenglong Song3,andXiaoxun Cao11中国科学院信息工程研究所,北京,中国中国;2国家重点实验室3华为诺亚{邓森友,颜艳阳,曹晓春}@ iie.ac.cn; rwq.任文琪@ gmail.com;{wangtao10,songfenglong} @huawei.com.摘要虽然最近的研究已经见证了视频去模糊任务的重大进展,但是这些方法难以同时协调推理效率和视觉质量,特别是在超高清(UHD)视频(例如,4K分辨率)。为了解决这个问题,我们提出了一种新的深度模 型 , 用 于 快 速 准 确 的 UHD 视 频 去 模 糊(UHDVD)。所提出的UHDVD通过可分离补丁架构来实现,该架构与多尺度集成方案协作以实现大的感受野,而不增加通用卷积层和内核的数量。此外,我们设计了一个残余通道空间注意(RCSA)模块,以提高准确性,并适当减少网络的深度。所提出的UHDVD是用于35fps的4K视频的第一个实时去模糊模型。为了训练所提出的模型,我们使用三种不同的智能手机构建了一个由4K模糊视频和相应的清晰帧组成的新数据集综合实验结果表明,我们的网络在4K数据集和公共基准点上的准确性,速度和模型大小方面都优于最先进的方法。1. 介绍超高清(UHD,即,1200万像素或4K)在过去几年中成为一种趋势。许多设备制造商已经发布了新的设备(例如,智能手机和数码单反相机),支持4K。不幸的是,不规则的相机抖动和高速移动通常在捕获的UHD视频中产生不期望的模糊。模糊的视频导致视觉质量低,并妨碍高水平的视觉任务[27]。已经提出了许多图像和视频去模糊方法来从捕获的模糊视频中恢复清晰帧。传统的方法通常对运动模糊和潜在帧进行假设。在这些方法中,运动模糊通常被建模为均匀的k。图1. PSNR(dB)与运行时间(ms)的几个去模糊方法和我们的方法在不同的数据集。绿色区域表示30 fps的实时推理。蓝色PSNR和图标是HD数据集上的方法,具有相同形状的红色图标是4K数据集上的方法。显然,我们的方法是更好的,不仅在效率,而且在准确性。此外,我们尝试处理4K分辨率,并取得了可观的成果。nels [35,57,54]或非均匀内核(例如,区域性[11,1,9,45,4]和逐像素[10,33])。而清晰帧通常受到手工制作的图像先验[19,39,24,8]的约束然而,这些假设通常不适用于真实情况,这导致模糊核的不准确估计,并且去模糊图像的质量是不期望的。为了解决这些问题,最近已经提出了深度学习去模糊算法。这些方法使用卷积神经网络(CNN)来明确地从模糊输入中学习特征并回归模糊核[34,7,38]或直接恢复干净图像[26,52,53,56,50]。这些算法可以消除由相机抖动和物体运动引起的模糊效果,并在图像去模糊任务上取得了最先进的结果。然而,现有的基于CNN的方法具有两个主要问题。第一个问题是计算量和内存占用量太大,不适合实际应用,特别是当输入图像的分辨率很高时。例如,最近的CDVD-TSP [30]的视频去模糊方法需要大约四秒零一分钟来从HD(720 p)和HD(720 p)去模糊单个帧。14031×个UHD(4K)视频。二是现有的基于CNN的视频去模糊方法在处理不同类型的信息时缺乏灵活性,这是由于模糊和清晰对之间的区分能力学习因此,从模糊的视频生成详细的纹理仍然是一个不平凡的问题。为 了 克 服 上 述 局 限 性 , 我 们 提 出 了 一 种 新 的UHDVD网络,它具有高效率,低内存开销,和高质量的去模糊性能的优点。我们的方法部分地由补丁分层图像去模糊方法[50,37]激发,其中多补丁分层被馈送到网络中。该方案在720p图像去模糊方面取得了很大的改善,且效率很高。然而,多补丁层次结构[50,37]在不同级别具有相同的空间分辨率,并且需要缓慢的算法来布局补丁并将它们缝合在一起,这阻碍了深度网络的重建能力并降低了特征提取速度。我们注意到,低分辨率图像比高分辨率图像更容易恢复,边缘和纹理)[13]。因此,我们提出了一种新的可分离补丁架构结合多尺度集成方案,它允许捕获的粗尺度上的全局结构和处理多个补丁的每个规模在一个迭代内并行。此外,大多数现有的去模糊算法采用级联网络来帮助潜在帧恢复[30,50]。然而,据我们所知,简单地堆叠相同的网络来构建更深的网络很难获得更好的改进[37]。为了实现更有表现力和智能的视频去模糊能力,我们进一步提出了一个级联的残差通道和空间注意力(RCSA)模块,以提高去模糊性能,而不牺牲速度。建议的RCSA是能够自适应地学习更有用的通道方式的功能和emphasize的最具信息性的区域的视频去模糊的特征图。本文的主要贡献概括为:• 我们提出了一种新的UHDVD网络,通过使用可分离的补丁架构结合多尺度集成方案。据我们所知,我们提出的模型是第一个视频去模糊模型,可以通过并行化多个补丁实时去模糊4K视频• 我们设计了一个级联的RCSA模块,以提高特征表示能力和鉴别能力,确保高的去模糊性能。• 我们建立了一个4K视频去模糊数据集,包括合成和真实捕获的视频。我们在建议的基准和公共数据集[25,26,36]上评估了所提出的模型,并表明所提出的方法对最先进的方法表现良好。2. 相关工作为了解决去模糊问题的不适定性质,传统方法做出不同的假设并使用适当的先验。这些包括总变差[32],稀疏图像先验[22,5],梯度分布[16,2],补丁先验[24,39]、10-范数正则化器[46,20]等。这些基于先验的方法的局限性之一是它们并不总是适用于包含深度变化和移动对象的动态场景。最近,由于深度学习在计算机视觉领域的巨大成功,许多基于CNN的方法也被提出用于图像去模糊[51,12,28]。在这些方法中,想法是使用CNN架构来学习模糊输入与对应的清晰图像之间的映射。此外,由于纹理生成能力,生成对抗网络(GAN)也已被用于图像去模糊化[18,17]。然而,这些模型通常涉及大尺寸的网络参数并且消耗长的处理时间,这不能满足对实时去模糊的日益增长的需求,特别是对于UHD视频。多尺度和多补丁网络。由粗到细(即,多尺度)方法已经在传统的去模糊文献中流行[46,16],最近的基于CNN的方法也使用多尺度机制来模拟传统的从粗到细的方法。Nah等人[26]提出了第一个基于多尺度CNN的去模糊网络,该网络从模糊输入的粗尺度开始,然后在更高尺度上逐渐去模糊输入,直到恢复全分辨率潜像。Tao等人。[41]通过跨尺度训练共享参数来引入尺度递归网络。该方法可以保留图像的结构和运动信息,从以前的粗尺度的基础上的递归网络。Gao等人[6]通过在每个尺度中选择性地共享参数和模块来改进多尺度CNN [41]然而,这些多尺度网络通常很大,并且遭受昂贵的推断时间。为了解决这一挑战,提出了一种分层多补丁模型[50],通过多个补丁上的特征聚合来利用不同尺度的运动信息。Suin等人。[37]结合了多补丁层次和全局注意力机制,以避免沿深度的级联网络。Zamir等人[48]在多级体系结构中使用类似的方案以获得更好的结果,但增加了计算时间。这三种多补丁网络支持实时消除720p图像的模糊,但仍难以协调全高清(FHD,1920 1080分辨率)和UHD视频(例如,4K分辨率)。一些代表性方法在720P和UHD数据集上的性能如图1所示。14032i、ji、ji、ji、j×个×个×个i、ji、j图2.我们提出的UHDVD模型和它的一些层配置。符号FHD和UHD图像增强。已经提出了一些方法,通过学习双边正则化器[14]或3D查找表[49]从FHD或UHD退化输入中恢复清晰图像。然而,所有这些方法通过使用一些复杂的内插技术从下采样版本重新构造最终输出在…将原始图像输入(Bi,i=1,2,3,4)分成多个非重叠块。每个尺度的最大片数(Bi,j)被设置为J =[1,2,4,8]。这些过程可以建模为:Ds, Fs=Nets (Bs, Ds, Ds+1 , Fs+1;θps) ,(1)trast这些方法,我们的网络直接deblur im-i、ji、ji、ji−1,ji、ji、j在最精细的尺度上以全分辨率输入老化,是第一个以35 fps的4K视频实时去模糊模型3. 该方法我们提出的网络的总体思路是适当地整合多尺度和多补丁计划,我们进一步提出了一个可分离的补丁策略,以显着加快参考实现。我们的UHDVD的架构如图2所示。受[36]的工作启发,其证明简单地堆叠相邻帧而没有任何对齐比基于单帧的方法表现更好。在我们的网络中,给定模糊视频B,先前的去模糊帧(D(i-1))与当前模糊帧(B(i))在通道维度上级联作为我们的网络输入以改善去模糊结果。因此,每个尺度网络中的第一卷积层的输入通道是6而不是3。然后,在不同的4个尺度(B1,B2,B3,B4)下对级联输入进行半下采样或线性下采样,并且在每个尺度下恢复相应的清晰图像(D1,D2,D3,D4)。第1级(D1)的锐化部分是最终输出。基于此方案,我们可以在训练过程中设置更大的此外,每个比例中分割面片的数量乘以比例。每个比例的输入是通过除以其中s是尺度索引,其中s = 1表示最细尺度,j和i分别是补丁索引和视频帧索引; Ds和Bs分别是我们在第i帧的第s 个尺 度 和 第j 个补 丁 处的网络输出和输入;Ds+1表示在上尺度的第i帧的去模糊的第j块;Nets表示所提出的4K视频去模糊网络,其中训练参数表示为θps。 由于网络也是递归的,中间状态特征F s在从s +1到s的尺度上流动。如图2所示,我们的实时4K视频去模糊网络在每个尺度上由4个类似的编码器-解码器架构组成。每个编码器分支包含3卷积,lutions与内核大小为3 3和步幅1,每个卷积层后面是一个RCSA模块。同时,在每个解码器分支中,残差模块在每个解卷积层的前面解码器中的第一反卷积的核大小是步长为2的4 4,第二反卷积的核大小是步长为4的4 4,解码器的第三层是正常卷积,其输出通道为3。 红色箭头表示(1)中的中间特征图Fs,其是从Fs+1进行双上采样的。3.1. 非对称编解码器结构对称的编码器-解码器结构已经在许多方法中被证明是有效的[26,50,41,23],其首先将输入数据渐进地变换成特征。14033×个∗∗×个* **图3.可分离补丁加速架构。以第二RCSA模块之前的标度3的编码器分支为例,其中Gi是卷积层中的组号。映射更小的空间尺寸和更多的通道(在编码器中),然后将它们变换回输入的形状(在解码器中)。层间跳接被广泛用于组合不同层次的特征信息。通常,在每一层中添加更多的卷积层,以进一步增加网络深度,从而提高精度。然而,直接采用对称编码器-解码器结构不是我们工作的最佳选择,原因如下。首先,我们的目标是实时处理4K分辨率的视频,因此使用传统的编码器/解码器结构仍然是一个很大的挑战,因为与常见的720 P图像相比,来自4K输入的中间特征图的大小仍然非常大。第二,在编码器-解码器模块的每一级使用更多的卷积层将使网络缓慢收敛(在每个尺度上具有平坦卷积),尽管这种方法可以减小处理图像的大小。基于这些考虑,我们提出了受超分辨率框架启发的近似非对称编码器-解码器结构[40]。在我们的新架构中,编码器和解码器之间的转换是不同于传统的架构。这种不对称性主要体现在我们在编码器和解码器分支中使用的不同模块中。在解码器分支中,我们在每个标准反卷积之后仅使用图4(a)中揭示的三个正常光残差模块来减少参数数目,使得计算速度可以大大提高。三个残差模块中的每一个包含1个卷积层,其内核大小为3 × 3,步长为1,然后是ReLU激活函数和另一个相同的卷积层。相对地,我们在编码器分支中使用RCSA模块代替残差模块(图4(a))。编码器中的卷积和解码器中的去卷积在信道维度上也是不对称的3.2. 可分离补丁加速架构为了进一步提高UHDVD模型的推理速度,以达到在单个GPU上可以在30 ms内对4K分辨率视频进行去模糊的目标,我们设计了可分离补丁加速架构,以同时处理如图3所示,该架构的过程是线性的,类似于流水线。在开始时,多个补丁(例如,n=4)连接在一起作为通道维度中的新张量,并且其大小为[批次大小,n_c_in,h,w]。张量由随后的卷积层处理,其中设置参数组=n。显然,新张量的计算负担是((ncin)(不含)k_n=2)/g组,而它等于n个原始张量。但好处是,我们可以改变这n个串行计算并行计算,这将大大减少计算时间。在残差模块中的计算之后,我们将张量整形为大小[批量大小n,c_out,h,w],使得它可以分别在通道注意力模块和空间注意力模块中同步计算。输出将被作为下一个RCSA模块的输入,并且这种加速将继续,直到我们得到中间特征图或尺度的恢复图像。3.3. RCSA模块我们进一步提出了一个新的RCSA模块,该模块包含去模糊网络中的通道注意力模块和空间注意力模块[55,6]RCSA的架构如图4(b)所示。随着最近在自然语言处理领域[42]和图像处理任务[37,21,31]中的Transformer架构的成功,RCSA的主要构建块是通道注意力和空间注意力,其计算通道和空间维度的响应。通道注意模块(CAM)由两个自适应池化计算组成:平均池化和最大池化。每次池化计算后,标准卷积层的输入通道数与前一卷积层的输出通道相同,如图2中的蓝色块(RCSA模块,c32/c64/c128)所示,输出通道为输入通道的1/8,内核大小为11、偏见是假的。那么是ReLU激活函数和另一个相同的卷积其输入和输出通道与前卷积完全相反C(x)=sigmoid(MC(Pavg(x))+MC(Pmax(x),(2)其中Pavg和Pmax是平均池化和最大池化14034×个×个ΣKL=||D−G||、(五)CsH sWsK我我K分别汇集;MC是上面描述的处理模块。将两个处理后的池化结果加在一起作为sigmoid函数的输入空间注意模块(SAM)仅具有一个卷积层,其中输入通道为2,输出通道为1,内核大小为3,填充大小为1,并且偏置为假。 输入数据首先在dim=1处分别通过平均值和最大值计算进行处理,然后在相同的dim处连接在一起。S(x)=sigmoid(MS(Avg(x,1),Max(x,1),(3)其中MS是上述特殊卷积,并且输出将在传递到下一层之前通过S形函数来计算后续计算如下:图4.残差模(a)和RCSA模的结构OC=C(x)×x,ORCSA=S(OC)×OC+x,(四)(b)在UHDVD中。(c)以及(d)是RCSA模块中的CAM和SAM。符号其中OC是CAM模块的输出,而ORCSA是RCSA模块的输出,运算“”表示逐点乘法。RCSA模块结构简单,深度小。该算法对计算速度没有明显以下实验证明了这一结论。3.4. 损失函数作为视频去模糊网络,与使用具有额外计算的先前中间特征图的方法[56]不同,我们直接使用整个先前去模糊帧以通过连接来保证时间连续性。因此,我们不必花费额外的时间来计算光流及其损耗[7,30]。同时,从粗到精的方法期望每个中间级输出是对应尺度的去模糊图像。因此,我们提出的UHDVD网络的训练损失是网络输出的图像内容与每个尺度下的地面真值帧之间的MSE损失。Sss s2i MSEβ设置为1e−7,以控制TV损耗的影响。请注意,我们的4K实时视频去模糊网络不依赖于其他复杂的损失函数,例如对抗损失[26,17]和光流损失[30],仅使用MSE和TV损失可以实现竞争结果,如下一节所示。4. 实验在本节中,我们在合成数据集和真实世界的4K视频上评估了所提出的算法,并在准确性和视觉效果方面与最先进的图像/视频去模糊方法进行了比较。为了公平比较,我们还使用这些方法在公共720p数据集上评估了我们的方法。新的4KRD数据集将向公众提供,以供进一步讨论和研究。更多帧和真实模糊视频的结果可以在补充材料中找到。4.1. 实现细节我们所有的实验都在PyTorch中实现,并在具有32GB RAM的单个NVIDIA Tesla V100 GPU在训练过程中,批量大小设置为1,因为s=1我 我 我每一帧都需要它的前一个去模糊帧作为额外其中Ds和Gs是去模糊图像和地面功能.亚当优化器[15]用于训练我们的模型。图像块大小为512×512。初始学习速率为第i帧的第s尺度处的真值;Ci、Hs、WS是多尺度图像的维度;s是每个刻度的权重。 我们根据经验设定1、2、3、4=[0。七比零。15,0。1,0。05]。此外,S是我们网络中的尺度数,我们在本文中将S此外,我们加上总变差(TV)损失,以避免恢复图像中的条纹伪影。因此,总损失公式为:L总=Li MSE+βLi TV,(6)设置为0.0001,衰减率为0.1。我们将帧归一化到[0,1]的范围并减去0.5。4.2. 数据集由于没有公开的高质量4K数据集用于去模糊研究,我们选择[27]的方案来生成4K分辨率去模糊(4KRD)数据集。所提出的数据集涵盖了各种各样的字符,人,人工或我我214035(a)输入(PSNR/SSIM)(b)[26](30.28/0.912)(c)[41](31.32/0.917)(d)[50](29.84/0.907)(e)[44](31.38/0.923)(f)[18](30.66/0.912)(g)[30](30.88/0.945)(h)[56](26.97/0.883)(i)我们的(34.29/0.951)(j)GT(+∞/1)(a)输入(PSNR/SSIM)(b)[26](29.48/0.903)(c)[41](30.83/0.909)(d)[50](28.39/0.880)(e)[44](30.40/0.911)(f)[18](30.48/0.906)(g)[30](31.67/0.918)(h)[56](30.32/0.906)(i)我们的(32.69/0.921)(j)GT(+∞/1)(a)输入(PSNR/SSIM)(b)[26](28.01/0.787)(c)[41](27.74/0.797)(d)[50](27.14/0.775)(e)[44](30.62/0.887)(f)[18](27.63/0.784)(g)[30](29.29/0.842)(h)[56](27.35/0.717)(i)我们的(31.26/0.894)(j)GT(+∞/1)图5. HD去模糊数据集的定量评价,从上到下分别为GoPro [26]、DVD [36]和REDS [25]。与MSResNet [26],SRN [41],DMPHN-Stack(4)[50],EDVR [44],DeburGAN-v2 [18],CDVD-TSP [30]和STFAN [56]相比,我们提出的方法生成了更清晰的图像,具有更高的PSNR和SSIM值。(放大以获得最佳视图)表1.与现有去模糊方法(MSResNet [26],SRN [41],DeflurGAN-v2 [18],DMPHN-Stack(4))的定量比较/ DMPHN-(1-2-4-8)[50],EDVR [44],CDVD-TSP [30],STFAN [56])。运行时间(不考虑将生成的图像写入磁盘)以图像的毫秒表示我们使用粗体和下划线分别表示最佳和表示EDVR [44]使用验证数据在REDS数据集上进行训练。数据集[26]第二十六话DVD [36](10个剪辑)方法[26日][41个][18个国家][50个][第四十四届][30个][56个]我们[26日][41个][18个国家][50个][第四十四届][30个][56个]我们PSNR28.45 30.10 29.55 31.20/30.25 26.87 31.67 28.63 31.33 28.9829.1028.5430.47/29.9130.2732.1331.24 32.19SSIM0.917 0.932 0.934 0.945/0.935 0.843 0.928 0.863 0.921 0.8850.8990.9250.881/0.8660.9170.9270.934 0.937时间747.8 731.7 293.6 1029.3/30.9 384.6 4216.6 150.4 12.7775.8783.6312.2987.9/30.4289.24098.2 177.2 13.2数据集REDS [25](验证)4KRD(13个剪辑)方法[26日][41个][18个国家][50个][44] [30个][56个]我们[26日][41个][18个国家][50个][第四十四届][30个][56个]我们PSNR26.49 25.40 25.61 25.18/25.06 30.63 26.29 25.49 27.53 25.8125.58 25.6424.99/24.9126.3626.4326.14 27.88SSIM0.742 0.734 0.731 0.724/0.724 0.850 0.774 0.719 0.815 0.7780.759 0.7630.757/0.7480.8030.7930.800 0.813时间802.6 823.3 350.8 1069.9/29.3 325.7 3765.6 155.7 13.9 7543.4 8723.3 3283.4 10378.1/399.4 2428.1 26922.9 953.2 27.9(a)输入(PSNR/SSIM)(b)[26](22.79/0.686)(c)[41](22.11/0.675)(d)[50](19.69/0.546)(e)[44](20.88/0.587)(f)[18](21.52/0.626)(g)[30](21.70/0.679)(h)[56](21.39/0.646)(i)我们的(24.10/0.749)(j)GT(+∞/1)(a)输入(PSNR/SSIM)(b)[26](25.91/0.885)(c)[41](23.65/0.864)(d)[50](20.74/0.802)(e)[44](21.58/0.838)(f)[18](24.22/0.864)(g)[30](23.58/0.866)(h)[56](21.86/0.837)(i)我们的(27.71/0.894)(j)GT(+∞/1)图6.对我们的4K分辨率去模糊数据集进行定量评估。与MSResNet [26],SRN [41],DMPHN-Stack(4)[50],EDVR [44],DeflurGAN-v2 [18],CDVD-TSP [30]相比,我们的UHDVD生成更清晰的图像,具有更高的PSNR和SSIM。STFAN [56].(放大以获得最佳视图)自然景物、室内场景、室外景观、城市街景等。生成过程由两个主要部分组成:帧插值和数据集合成。视频采集设备均为当时主流的旗舰iPhone 11 Pro Max,Samsung S2014036华为Mate 30 Pro我们还使用DJI Osmo Mobile 3来稳定手机,以便拍摄的视频尽可能清晰。为了保证同步帧中帧的连续性,后续的多帧融合需要较高的帧速率14037×个(a) 输入(4KRD测试集)(b)MSResNet [26](c)SRN [41](d)DMPHN-堆栈(4)[50](e)DMPHN-(1-2-4-8)[50](f)EDVR [44](g)DeflurGAN-v2 [18](h)CDVD-TSP [30](i)STFAN [56](j)我们的图7.对我们的4KRD真实测试数据集进行定性评估。我们提出的UHDVD模型在细节和完整图像中产生更清晰的结果。(放大以获得最佳视图)(a)输入(GoPro)(b)w/o(26.27/0.783)(c)w/(27.64/0.824)(d)GT(+∞/1)(a)输入(REDS)(b)w/o(27.44/0.787)(c)w/(29.48/0.860)(d)GT(+∞/1)(a)输入(DVD)(b)w/o(25.65/0.814)(c)w/(27.22/0.836)(d)GT(+∞/1)(a)输入(4KRD)(b)w/o(26.17/0.871)(c)w/(27.46/0.874)(d)GT(+∞/1)图8.使用(w/)整个RCSA模块或不使用(w/o)对不同数据集进行定量评价(放大以获得最佳视图)thetic数据集然而,由于硬件配置的限制,我们不能直接用智能手机以高帧率捕获4K视频。因此,我们使用帧插值方法[29]将记录的4K视频从30/60 fps插值到480fps,就像[27]的方案一样然后,我们通过平均一系列连续的清晰帧来生成模糊帧。除了我们的4K分辨率数据集之外,我们还使用Go-Pro [26],DVD [36]和REDS[25]的三个公共去模糊数据集来测试我们的UHDVD模型。特别地,由于测试地面真相不适用于REDS [25]数据集,因此我们选择验证集作为我们的测试数据。4.3. 性能比较在本节中,我们将我们的UHDVD方法与[56,36,44]的最先进的视频去模糊方法进行了和[18,26,41,50]的图像去模糊方法。我们通过三个标准来评估这些方法:每个数据集上图像的PSNR、SSIM和平均运行时间。所有这些方法都在同一服务器环境中进行了测试。定量评价。表1表明,我们提出的方法对国家的艺术算法在四个数据集。本表中报告的所有方法的运行时间均基于相同的测试环境。在DVD基准[36]和我们的4KRD数据集上,我们的算法在PSNR和SSIM方面获得了最佳结果,而在GoPro [26]和REDS [25]数据集上,我们也是次优方法。虽然EDVR [44]在REDS数据集上取得了最好的结果,但我们注意到这种方法使用了REDS的所有验证视频来训练他们的模型。此外,由于CDVD-TSP [30]明确使用多帧的时间信息,因此该方法在GoPro数据集上超过了我们然而,我们的算法比这种方法快300倍。图5分别示出了来自GoPro [26]、DVD [36]和REDS [25]数据集的三个视觉示例。图6给出了4KRD数据集的两个示例。我们的方法在视觉效果上取得了较好的效果。定性评价。 为了进一步验证我们的网络的泛化能力,我们还定性地比较了所提出的网络与其他算法对我们的4K真实视频上的真实模糊帧。如图7所示,所提出的方法可以比其他方法恢复具有更多细节的更清晰的帧。这些对比结果显示14038×个×个表2. UHDVD图像的PSNR和时间,具有(w/)可分离补丁加速架构(SPAA)或没有(w/o)。720×12802160×3840PSNR时间PSNR时间不含SPAA29.76 32.5毫秒27.62 65.6毫秒带SPAA29.74 12.5毫秒27.61 27.9毫秒表3.我们提出的UHDVD模型在具有(w/)整个RCSA模块或不具有(w/o)的不同数据集上的PSNR/时间数据集GoProDVD红军4KRD不含RCSA带RCSA30.64/12.431.33/12.731.57/12.332.19/13.226.64/12.527.53/13.927.38/22.627.88/27.9我们的UHDVD方法可以鲁棒地处理大多数场景中的未知例如,我们恢复的图像中的kiosk lattice包含比其他方法生成的结果更清晰的结构和细节。4.4. 可分离贴片结构为了验证可分离补丁加速架构(SPAA)的有效性,我们分别在720p和4K上使用1000个模糊帧进行实验我们以毫秒为单位计算每个任务的平均时间。结果示于表2中。它清楚地表明,我们有超过一倍的计算速度,通过使用提出的加速架构,而PSNR几乎相同。这些结果表明,我们提出的可分离补丁加速架构是关键,以提高速度,使4K图像去模糊的实时。虽然所提出的SPAA在理论上是简单的,并且在SPAA架构中使用的多补丁方案类似于工作[37,50],但是同时并行处理多个补丁是SPAA4.5. RCSA模块为了验证RCSA模块在我们网络中的有效性基线模型仅使用两层残差块,而没有任何CAM和SAM。除了这个区别,其他的一切都和最初的模型完全一样。定量结果示于表3中。这表明我们的UHDVD模型实现了约在PSNR方面,比不使用RCSA的模型有0.5 dB的增益同时,通过使用可分离的补丁加速流水线,两种模型的计算速度几乎相同一些视觉结果如图8所示。从这些例子中,我们可以看到,所提出的UHDVD在图像细节方面获得了更好的结果视觉性能也证明了RCSA模块的有效性。4.6. 运行时间我们的模型(UHDVD)可以在30 ms内处理21603840帧,这意味着我们的模型支持35fps的实时4K视频去模糊任务。DMPHN [50]也试图在720p分辨率的图像上实现实时去模糊,但他们通过降低准确度来实现这一点从表1中的DMPHN的定量结果可以观察到,在所有测试数据集中,它们的高速版本(没有堆栈)产生比具有堆栈的版本更低的PSNR此外,他们的高速版本仍然无法在4K分辨率上达到实时。在4K分辨率视频上,我们的模型比DMPHN-(1-2-4-8)方法快10倍。此外,我们的模型还提高了在720p上的操作效率,并达到每帧12.7ms的速度。需要指出的是,我们遵循[49,50]中的pro-totype,我们考虑的时间只是GPU处理时间,存在与I/O操作相关的运行时开销因此,GPU的实时性是指GPU以下因素有助于我们的实时性:i)多尺度方案减小前三个尺度的输入图像尺寸; ii)多片和可分片加速结构提高了计算速度; iii)相对较少的网络层和参数量。5. 结论在本文中,我们提出了一个4K视频实时去模糊网络,通过使用非对称的编码器-解码器架构。我们在一个统一的框架中集成了多尺度和多补丁计划,以提高效率和精度的同时。与其他方法不同的是,我们使用非对称的编码器-解码器结构来构建我们的网络,减少了卷积层,以节省计算成本。此外,我们提出了RCSA模块,以进一步提高效率,并采用可分离补丁加速架构,以达到35 fps的4K分辨率视频的实时处理速度。为了研究4K去模糊,我们创建了第一个公开的4K分辨率视频数据集。定量和定性的结果表明,我们提出的方法对合成和真实世界的数据集上的相关国家的最先进的去模糊方法表现良好。致 谢 。 本 研 究 得 到 国 家 重 点 研 发 & 计 划 项 目2019YFB1406500、北京市教委合作项目北京市自然科学基金(No. KZ 201910005007)、国家自然科学基金(No. 61802403,U1803264,62025604),北京Nova计划(编号Z201100006820074),中国科学院青年创新促进会。14039引用[1] Leah Bar , Benjamin Berkels , Martin Rumpf , andGuillermo Sapiro.一种同时进行运动模糊视频的运动估计和恢复的载于ICCV,2007年。一个[2] Liang Chen,Faming Fang,Tingting Wang,and GuixuZhang.基于局部最大梯度先验的图像盲去模糊。在CVPR,2019年。二个[3] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv:1706.05587,2017. 三个[4] Sunghyun Cho , Yasuyuki Matsushita , and SeungyongLee.从图像中去除非均匀运动模糊。载于ICCV,2007年。一个[5] Weisheng Dong , Lei Zhang , Guangming Shi , andXiaolin Wu.自适应稀疏域选择和自适应正则化的图像去模糊和超分辨率。IEEE TIP,20(7):1838-1857,2011。二个[6] Hongyun Gao,Xin Tao,Xiaoyong Shen,and Jiaya Jia.基于参数选择共享和嵌套跳跃连接的动态场景去模糊在CVPR,2019年。二、四[7] Dong Gong,Jie Yang,Lingqiao Liu,Yanning Zhang,Ian Reid,Chunhua Shen,Anton Van Den Hengel,andQinfeng Shi.从运动模糊到运动流:用于去除异质运动模糊的深度学习解决方案。在CVPR中,第2319-2328页,2017年。一、五[8] 胡哲和杨明轩。学习好的区域去模糊图像。IJCV,115(3),2015. 一个[9] Tae Hyun Kim,Byeongjoo Ahn和Kyoung Mu Lee。动态场景去模糊。在ICCV,第3160-3167页,2013中。1[10] Tae Hyun Kim和Kyoung Mu Lee。免分割动态场景去模糊。在CVPR,第2766-2773页,2014年。1[11] 惠姬、康王。盲空间变化运动去模糊的两阶段方法。CVPR,2012。一个[12] Zhang Yu,Zhang Zhang,Dongqing Zou,Jimmy Ren,Jiancheng Lv,and Yebin Liu.学习基于事件的运动去模糊。在CVPR,2020年。二个[13] Tero Karras , Timo Aila , Samuli Laine , and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。在ICLR,2018年。二个[14] Soo Ye Kim,Jihyong Oh,and Munchurl Kim.深sr-itm:4k超高清应用中超分辨率和逆色调映射的联合学习。在ICCV,2019年。三个[15] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。五个[16] Dilip Krishnan、Terence Tay和Rob Fergus。使用归一化稀疏性度量的盲去卷积。CVPR,2011。二个[17] OrestKupyn、VolodymyrBudzan、MykolaMykhailych 、 DmytroMishkin 和 Jiˇr´ıMatas 。Deblurgan:使用条件对抗网络进行盲运动去模糊在CVPR中,第8183-8192页二、五[18] Orest Kupyn , Tetiana Martyniuk , Junru Wu , andZhangyang Wang.Deblurgan-v2:去模糊(数量级)更快更好。在ICCV,2019年。二六七[19] Wei-Sheng Lai,Jian-Jun Ding,Yen-Yu Lin,Yung-YuChuang.使用归一化色线先验的模糊核估计。CVPR,2015。一个[20] 李仁汉,潘金山,赖伟胜,高长新,桑农,杨明轩。学习一种判别先验的盲图像去模糊方法。在CVPR,2018年。二个[21] Ding Liu , Bihan Wen , Yuchen Fan , Chen ChangeLoy,and Thomas S Huang.用于图像复原的非局部递归网络。在NeurIPS,第1673-1682页,2018年。四个[22] Ziwei Liu , Raymond A Yeh , Xiaoou Tang , YimingLiu,and Aseem Agarwala.使用深体素流的视频帧合成。在ICCV,第4463-4471页,2017年。二个[23] 毛晓娇,沈春华,杨玉斌。使用具有对称跳跃连接的非常 深 的 卷 积 编 码 器 - 解 码 器 网 络 的 图 像 恢 复 。 在NeurIPS,第2802-2810页,2016中。三个[24] Tomer Michaeli和Michal Irani使用内部补片递归盲去模糊。2014年,在ECCV。一、二[25] Seungjun Nah 、 Sungyong Baik 、 Seokil Hong 、Gyeongsik Moon 、 Sanghyun S
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功