没有合适的资源?快使用搜索试试~ 我知道了~
2482用于视频去模糊的周尚晨1张佳伟1潘金山2谢浩哲1、3左王梦3任志英1商汤科技2南京理工大学3哈尔滨工业大学,哈尔滨,中国https://shangchenzhou.com/projects/stfan摘要由于摄像机抖动、物体运动和深度变化等引起的空间变化的模糊,视频去模糊是一项具有挑战性的任务。现有的方法通常通过估计模糊视频中的光流来对齐连续的帧或近似模糊核。然而,当估计的光流不准确时,它们倾向于产生伪影或不能有效地去除模糊。为了克服单独光流估计的局限性,我们提出了一个时空滤波自适应网络(STFAN)的对齐和去模糊在一个统一的框架。STFAN以前一帧的模糊图像和恢复图像以及当前帧的模糊图像然后,我们提出了新的滤波器自适应卷积(FAC)层,以将前一帧的去模糊特征与当前帧对齐,并从当前帧的特征中去除空间变化的模糊。最后,我们开发了一个重构网络,它融合了两个变换后的特征来恢复清晰的帧。在基准数据集和真实视频上的定量和定性评估结果表明,所提出的算法在准确性、速度以及模型大小方面优于1. 介绍近来,手持和机载视频捕获设备已经享有广泛的普及,例如,智能手机,动态摄像机,无人机动态场景中的相机抖动和高速运动通常会产生不期望的模糊并导致模糊视频。低质量视频不仅导致视觉质量差,而且还阻碍了一些高级视觉任务,例如跟踪[12,21],视频稳定[20]和SLAM [18]。因此,开发一种有效的算法来对视频进行去模糊化以用于上述人类感知和高级视觉任务是非常有意义的。*同等贡献†通讯作者:sdluran@gmail.com。(a) 模糊帧(b)SRN [38](c)GVD [9](d)OVD [10](e)DVD [36](f)w/o FAC(g)Ours(h)Ground truth图1:视频去模糊的一个具有挑战性的例子。由于大的运动和空间变化的模糊,现有的图像(b)[38]和视频去模糊(c,d,e)[9,10,36]方法效果较差。通过使用所提出的滤波器自适应卷积(FAC)层进行帧对齐和去模糊,我们的方法生成了更清晰的图像。当FAC层被移除(f)时,我们的方法不能再很好地执行。与单图像去模糊不同,视频去模糊方法可以利用跨相邻帧存在的附加信息。由于使用来自相邻帧[20,3]的更清晰区域或来自连续帧[9,32]的光流,已经取得了重大进展。然而,直接利用周围帧的尖锐区域通常会产生显著的伪影,因为相邻帧没有完全对齐。尽管利用相邻帧的运动场(如光流)能够克服对准问题或近似非均匀模糊核,但从模糊的相邻帧估计运动场是相当具有挑战性的。受深度神经网络在低级视觉中的成功的启发,已经提出了几种算法来解决视频去模糊[10,36]。Kim等人[10]通过深度递归网络连接多帧特征以恢复当前图像。然而,该方法没有明确考虑对齐问题,未能充分利用相邻帧的信息,性能不佳2483当视频包含大的运动时。Su等人。 [36]将连续帧与参考帧对齐。结果表明,该方法在输入帧不太模糊时效果较好,但在输入帧含有严重模糊时效果较差我们还根据经验发现,对齐和去模糊对于深度网络从模糊视频中恢复更清晰的帧至关重要。另一组方法[4,37,8,9]使用单个或多个图像来估计光流,其被视为非均匀模糊核的近似。对于估计的光流,这些方法通常使用现有的非盲去模糊算法(例如,[46]重建清晰图像。然而,这些方法高度依赖于光流场的精度。此外,这些方法只能预测线状模糊核,在某些情况下是不准确的。为了处理动态场景中的非均匀模糊,Zhang et al.[44]开发空间变量递归神经网络(RNN)[19]用于图像去模糊,其像素权重从卷积神经网络(CNN)学习。该算法不需要额外的非盲去模糊算法。但该方法仅限于单帧图像的去模糊,不能直接推广到视频图像的去模糊.为了克服上述局限性,本文提出了一种时空滤波自适应网络(STFAN)用于视频去模糊.受动态滤波器网络[11,24,22]的启发与[11,24,22]相比,FAC层将生成的空间变化滤波器应用于下采样特征,这使得它能够使用较小的滤波器尺寸获得更大的感受野。 它还具有更强的能力-针对特征的不同通道动态地估计由于不同滤波器而导致的灵活性和灵活性。该方法将对准和去模糊过程表示为统一网络中的两个逐单元滤波自适应卷积过程。具体而言,给定模糊和恢复的前一帧的图像和当前帧的模糊图像与从单个模糊图像[44,4,37,8]或两个相邻模糊图像[9]估计非均匀模糊内核相比,我们的方法从更丰富的输入中估计去模糊滤波器:三个图像和从对准滤波器获得的两个相邻帧的运动信息。通过使用FAC层,STFAN自适应地对齐在不同时间步长获得的特征,而不显式地估计光流和扭曲图像,从而导致对齐精度的公差。此外,FAC层允许我们的网络更好地处理空间变化的模糊,并在特征域中进行去模糊图1中的一个例子表明,我们的方法生成的图像(图1(g))比我们的基线没有FAC层(图1(f))以及竞争的方法更清晰。主要贡献概述如下:• 我们提出了一个滤波器自适应卷积(FAC)层,该层将生成的逐元素滤波器应用于特征变换,该特征变换用于两个空间变量任务,即特征域中的对准和去模糊。• 提出了一种新的时空滤波自适应网络(STFAN)用于视频去模糊。它将帧对齐和去模糊集成到一个统一的帧中-的工作没有显式的运动估计,并公式化他们作为两个空间变化的卷积过程的基础上FAC层。• 我们定量和定性地评估我们的网络对基准数据集,并表明它的表现在准确性、速度以及模型大小方面优于现有技术的算法。2. 相关工作我们的工作制定了相邻帧对齐和非均匀模糊去除视频去模糊任务的两个元素的滤波器自适应卷积过程。下面分别回顾了单图像去模糊、多图像去模糊和核预测网络的相关工作单图像去模糊。已经提出了许多方法用于单图像去模糊。早期的研究者采用均匀的模糊核,设计了一些自然的图像先验,如L0正则化先验[43],暗通道先验[28],以补偿不适定的模糊去除过程。然而,这些方法很难在动态场景下建模空间变化的模糊。为了对非均匀模糊进行建模,方法[7]和[27]针对不同的分割图像块估计不同的模糊核。其他作品[4,37,8]估计了密集的运动场和逐像素模糊内核。随着深度学习的发展,提出了许多基于CNN的方法来解决动态场景去模糊。方法[37]和[4]利用CNN来估计非均匀模糊核。然而,预测的内核是线形的,在某些场景中是不准确的,并且通常需要耗时的传统非盲去模糊[46]来恢复清晰图像。最近,许多端到端CNN模型[38,44,17,23,26]也被提出用于图像去模糊。为了获得用于处理大模糊的大感受野,在[38,23]中使用多尺度策略为了处理动态场景模糊,Zhang等人。 [44]使用空间变化的RNN [19]通过神经网络生成RNN权重来去除特征空间中的模糊然而,与基于视频的方法相比,RNN权重的准确性高度受限于仅具有单个模糊图像作为输入。为了降低恢复的难度并确保颜色的一致性,Noroozi等人 [26]在输入和输出之间建立了跳过连接。 对抗性损失在[23,17]中用于生成具有更多细节的更清晰图像。2484图2:拟议的网络结构。它包含三个子网:时空滤波自适应网络(STFAN)、特征提取网络和重建网络。给定三重图像(模糊的Bt-1和恢复的Rt-1图像和当前输入图像Bt),子网络STFAN按顺序生成对准滤波器Falign和去模糊滤波器Fdeblur然后,使用所提出的FAC层,STFAN将前一时间步的去模糊特征Ht-1与当前时间步对齐,并从从当前模糊图像提取的特征Et中去除模糊通过特征提取网络。最后,利用重构网络从融合后的特征Ct中恢复清晰图像。k表示FAC层的滤波器大小。多图像去模糊。许多方法利用多幅图像来解决来自视频、突发或立体图像的动态场景去模糊[41]和[32]的算法使用预测的光流来分割具有不同模糊的层并逐层估计模糊。此外,Kim等人 [9]将光流视为模糊核的线形近似,其迭代地优化光流和模糊核。基于立体的方法[42,34,29]从立体图像估计深度,其用于预测逐像素模糊核。Zhou等人。 [45]提出了一种具有深度感知和视图聚合的立体去模糊网络。为了提高泛化能力,Chen等人 [2]提出了一种基于光流的重新模糊步骤来重建模糊输入,该步骤用于通过自监督学习来微调去模糊最近,已经提出了几种端到端CNN方法[36,10,15]用于视频去模糊。在使用光流进行图像对准[36]和[15]聚合相邻帧的信息以恢复清晰图像。Kim等人。 [10]应用时间递归网络将前一个时间步的特征传播到当前时间步的特征中 尽管运动可以是模糊估计的有用指导,但Aittala et al. [1]提出了一种通过在突发图像的特征之间重复交换信息的顺序无关方式的突发去模糊网络。核预测网络核(滤波)预测网络(KPN)近年来在低层次视觉任务中取得了迅速的进展. Jia等人 [11]首先提出了动态滤波器网络,它由一个滤波器预测网络和一个动态滤波层组成,前者预测以输入图像为条件的内核,后者将生成的内核应用于另一个输入。 他们的方法显示了视频和立体声预测任务的有效性。Niklaus等人 [24]将内核预测网络应用于视频帧内插,将光流估计和帧合成合并到一个统一的框架中。为了减轻对存储器的需求,他们随后提出了可分离卷积[25],该卷积估计两个可分离的1D内核to approximate近似2Dkernels内核.在[22]中,他们利用KPN进行突发帧对齐和去噪,使用相同的预测内核。[13]使用生成的动态上采样滤波器从低分辨率输入然而,所有上述方法都直接在图像域中应用预测的内核(滤波器)。此外,Wang等人。 [39]提出了用于图像超分辨率的空间特征变换(SFT)层。它为像素特征模生成变换参数的特征,它可以被认为是在特征域的核大小为1×1的KPN2485我23. 该算法在本节中,我们首先概述了我们的算法。第3.1条然后,我们在第二节中介绍了所提出的滤波器自适应卷积(FAC)层。3.2.在这一层上,我们在第二节中展示了所提出的网络的结构三点三最后,我们提出了损失函数,用于约束网络的训练在第二节。三点四分。3.1. 概述与标准的基于CNN的视频去模糊方法[36,10,15]不同,该方法将五个或三个连续的模糊帧作为输入来恢复清晰的中间帧,我们提出了一种帧递归方法,该方法需要前一帧和当前输入的信息。由于该方法的递归特性,它能够在不增加计算量的情况下,从大量的连 续 帧 中 探 索 和 利 用 信 息 。 如 图 2 所 示 , 提 出 的STFAN生成用于从三重图像(先前时间步t-1的模糊和恢复图像,以及当前输入模糊图像)。然后,使用FAC层,STFAN将来自前一时间步的去模糊特征与当前时间步对齐,并从从当前模糊图像提取的特征中去除模糊最后,将两种变换后的特征融合到重构网络中,恢复清晰图像。3.2. 滤波器自适应卷积层受核预测网络(KPN)[11,24,22]的启发,它将生成的空间变化滤波器应用于输入图像,我们提出了滤波器自适应卷积(FAC)层,它将生成的逐元素卷积滤波器应用于特征,如图3所示。[11,24,22]中预测的滤波器对于每个位置的RGB通道是相同的。为了更灵活地处理空间变化的任务,为FAC层生成的过滤器对于每个通道都是不同的由于存储容量的限制,本文只考虑通道内的卷积在理论上,逐单元自适应滤波器是五维的(h × w × c× k × k)。实际上,生成的滤波器F的维数为h×w×ck2,我们将其重新整形为五维滤波器对于输入的每个位置(x,y,c),图3:滤波器自适应卷积层特征和变换的特征。提出的FAC层是可训练的、高效的,并通过CUDA实现和加速.大的感受野对于处理大的运动和模糊是必不可少的。标准KPN方法[11,24,22]必须预测输入图像的每个像素的滤波器的大小比运动模糊大得多,这需要大量的计算成本和内存。相比之下,由于在下采样特征上使用FAC层,所提出的网络不需要大的滤波器大小。表4中的实验结果示出了小的滤波器尺寸(例如,5)在中间特征层上足以进行去模糊。3.3. 网络架构如图2所示,我们的网络由时空滤波自适应网络(STFAN),特征提取网络和重建网络组成。特征提取网络。该网络从模糊图像B t中提取特征E t,该模糊图像B t由三个卷积块组成,并且每个卷积块具有一个步长为2的卷积层和两个具有LeakyReLU(负斜率λ = 0)的残差块[ 6 ]。1)作为激活函数。提取的特征被送入STFAN,使用FAC层进行去模糊。空时滤波自适应网络拟议的STFAN由三个模块组成:编码器e三元组特征Q∈Rh×w ×c我,一个特定的局部滤波器Fx,y,c∈Rk×k图像、对齐过滤器生成器g对齐和去模糊文件。称为发电机g。(从1×1×k2整形)应用于中心区域去模糊围绕Qx,y,ci如下所示给定三元组输入:模糊图像B t-1和re-前一帧的存储图像Rt-1和当前帧的Q(x,y,ci)=Fx,y,ci<$Q阿吉尔x,y,ci2模糊图像Bt,STFAN通过编码器etri提取特征Tt。编码器由三个卷积块(内核大小为3)组成,每个卷积块由一个卷积块组成=n=−r m=−rF(x,y,kci+kn+m)具有步幅2和两个残差块的卷积层。对齐过滤器生成器galign将提取的特征?Q(x−n,y −m,ci),(1)Tt作为输入来预测自适应滤波器其中r=k−1,卷积运算,F是对于对齐,表示为F对齐∈Rh×w ×ck2:生成的滤波器,Q(x,y,ci)和Q(x,y,ci)表示输入Falign=galign(etri(Bt−1,Rt−1,Bt)),2486(2)2487其中生成的F_align包含丰富的运动信息,这有助于对动态场景中的非均匀模糊进行为了充分利用它,去模糊滤波器恢复帧R和地面实况S:L=1||Φ(R)−Φ(S)||第二条,第(五)项发电机g去模糊取对准滤波器F对准以及感知CjHjWjj j三重图像的特征T以生成空间变化的用于去模糊的ant滤波器,表示为F去模糊∈Rh×w ×ck2:其中,Φj(·)表示来自第j个conv 0的特征预训练VGG-19网络的初始层,F去模糊=g去模糊(etri(Bt−1,Rt −1,Bt),Falign),(3)两个滤波器生成器都由一个卷积层和两个内核大小为3×3的残差块组成,然后是一个1×1卷积层,用于将输出通道扩展到ck2。利用两个生成的滤波器,两个FAC层被用于将来自连续时间步长的去模糊特征Ht-1与当前帧对齐,并在特征域中从当前模糊帧的提取特征Et然后将这两个变换后的特征连接起来作为Ct,通过重构网络恢复清晰图像。为了将去模糊信息Ht传播到下一个时间步,我们通过卷积层将特征Ct值得注意的是,模糊的Bt−1、Bt和恢复的Rt−1都需要学习用于对齐和去模糊的滤波器,因此被视为STFAN的三元组输入。一方面,Bt-1和Bt对于捕获跨帧的运动信息至关重要,因此有利于对齐。另一方面,包含Bt-1和Rt-1使得可以隐式地利用帧t-1处的模糊核来改善帧t处的去模糊。更多-因此,去模糊被认为是更困难的,但是可以受益于对齐。因此,在我们的实现中,我们将gdeblur堆叠在galign 上我们将在第二节中分析将三重图像Bt−1,Rt−1,Bt作为输入的五点三。重建网络。以STFAN的融合特征为输入,重建网络用于恢复清晰图像。它由尺度卷积块组成,每个块都有一个去卷积层和两个残差块,如图2所示。3.4. 损失函数为了有效地训练所提出的网络,我们考虑了两种损失函数。第一个损失是均方误差(MSE)损失,其测量恢复的帧R与其对应的尖锐地面实况S之间的差异:Cj、Hj、Wj是特 征 的 尺寸。 在本文中,我们使用conv 3 -3(j = 15)的特征。建议网络的最终损失函数定义为:L去模糊其中权重λ被设置为0。01在我们的实验中4. 实验4.1. 实现细节在我们的实验中,我们使用[36]中的视频去模糊数据集训练所提出的网络它包含71个视频(6,708对模糊-清晰),分为61个训练视频(5,708对)和10个测试视频(1,000对)。数据增强。我们执行几个数据扩充训练。我们首先将每个视频分成几个长度为20的序列。为了在训练数据中增加运动多样性,我们随机地颠倒序列的顺序。对于每个序列,我们执行相同的图像变换。它由亮度,对比度和饱和度等颜色变换组成,这些变换从[0.8,1.2]和几何变换中均匀采样,包括随机水平翻转和垂直翻转。随机种植256×256块。 为了使我们的网络在现实世界的场景中鲁棒,来自N(0,0. 01)被添加到输入图像。实验设置。我们使用[ 5 ]中的初始化方法初始化我们的神经网络,并使用Adam [16]优化器训练它,β1= 0。9和β2= 0。999我们将初始学习率设置为10−4,并以0.1的速度衰减,40万次迭代。所提出的网络在90万次迭代后收敛我们对视频去模糊数据集[36]进行了定量和定性评估。为了与最相关的基于深度学习的算法进行公平比较[23,17,44,38],我们通过视频去模糊数据集上相应的公开发布的实现对所有这些方法进行微调[36]。在实验中,我们使用PSNR和SSIM作为合成测试集的定量评价指标。 训练代码,测试模型,12和实验结果将提供给公众。Lmse=CHW||R− S||、(四)其中C、H、W分别是图像的尺寸;R和S分别表示恢复的图像和相应的地面真值。为了生成更逼真的图像,我们进一步使用[14]中提出的感知损失,其定义为VGG-19 [35]特征之间的欧几里得距离,4.2. 实验结果定量评价。我们将所提出的算法与最先进的视频去模糊方法进行比较,包括传统的基于光流的像素级内核估计[9]和基于CNN的方法[36,10]。我们还将其与最先进的图像去模糊方法进行了比较,包括传统的非均匀去模糊[40],2488表1:视频去模糊数据集[36]的定量评估,包括不同网络的PSNR、SSIM、运行时间(秒)和参数数(×106)。所有现有的方法都使用其公开可用的代码进行评估。‘-’ indicates that it is not方法怀特[40]阳光[37]Gong [4][23]第二十三话卡宾枪[17]张[44]陶[38][9]第九话[10]第10话苏[36]我们框架编号11111113552PSNR25.2927.2428.2229.5126.7830.0529.9727.0129.9530.0531.24SSIM0.8320.8780.8940.9120.8480.9220.9190.8610.9110.9200.934时间(秒)700120015004.780.221.402.528800.136.880.15参数(M)-7.2610.2911.7111.389.228.06-0.9216.675.37(a)模糊图像(b)Gong等人 [4]美国(c)Kupyn等人 [17个](d)Zhang等人 [第四十四届](e)Tao等人[38个]PSNR /SSIM22.72 /0.791121.22 /0.718923.92 /0.832125.29 /0.8533(f)金与李[9](g)Kim等人 [10个国家](h)Su等人 [36个](i)我们(j)地面实况20.97 /0.723523.21 /0.802323.98 /0.829126.50 / 0.8820+∞/1.0图4:视频去模糊数据集的定性评估[36]。所提出的方法产生更清晰的图像,具有更高的PSNR和SSIM。基于CNN的空间变化模糊核估计[37,4]和端到端CNN方法[23,17,44,38]。表1显示,所提出的方法在动态场景视频去模糊数据集的测试集上与最先进的算法相比表现良好[36]。图4显示了来自[36]的测试集中的一些示例。实验结果表明,现有的方法不能很好地保持图像的清晰细节,也不能很好地去除非均匀模糊。通过时间对齐和空间变化去模糊,我们的网络表现最好,并恢复更清晰的图像和更多的细节。定性评价。为了进一步验证所提出的方法的泛化能力,我们还定性地比较了所提出的网络与[36]中真实模糊图像上的其他如图5所示,所提出的方法可以比现有技术的图像和视频去模糊方法恢复具有更多图像细节的整形器图像。对比结果表明,我们的STFAN可以鲁棒地处理动态场景中的未知真实模糊,这进一步证明了所提出的框架的优越性。4.3. 运行时间和模型大小我们使用PyTorch平台实现了所提出的网络[30]。为了加快速度,我们用CUDA实现了建议的FAC层。我们评估了所提出的方法和最先进的图像或视频去模糊方 法 在 同 一 台 服 务 器 上 与 英 特 尔 至 强 E5 CPU 和NVIDIA泰坦Xp GPU。传统的算法[40,9]由于复杂的优化过程而耗时。因此,[37]和[4]利用CNN基于运动流来估计非均匀模糊内核。然而,它们仍然是耗时的,因为传统的非盲去模糊算法[46]用于恢复清晰图像。DVD [36]使用CNN从相邻的多个模糊帧中恢复清晰的图像,但他们使用传统的光流方法[31]来对齐这些输入帧,并且计算成本很高。通过GPU实现,基于端到端CNN的方法[23,17,44,38,10]相对有效。为了扩大感受野,[23,17,44,38]中的网络非常深,这导致模型尺寸大以及处理时间长。尽管空间变化的RNN在[44]中用于放大2489(a) 图像模糊(b)Gong et al. [4](c)Nah et al. [23](d)Kupyn等人。 [17](e)Zhang et al. [第四十四届](f)Tao等人 [38](g)Kim和Lee [9](h)Kim et al. [10](i)Su et al. [36](j)我们的图5:对真实模糊视频的定性评估[36]。所提出的方法生成更清晰的图像。接受域,他们需要一个深度网络来估计RNN权重,RNN也很耗时。我们的网络使用前一帧的对齐去模糊特征,这降低了网络重新存储当前帧的清晰图像的难度。此外,FAC层对于空间变化对准和去模糊是有效的。由于以上两个优点,我们的网络设计得小巧而高效.如表1所示,与现有的端到端CNN方法相比,所提出的网络具有更少的运行时间和更小的模型大小尽管[10]运行速度略快,模型尺寸较小,但所提出的方法在特征域中的帧对齐和去模糊方面表现更好。4.4. 时间一致性为了增强时间一致性,我们采用递归网络来传输以前的特征图,并提出了FAC层,用于通过显式对齐在连续帧之间传播信息图结果表明,该方法不仅恢复了较清晰的帧,而且保持了较好的时间一致性。此外,视频结果在我们的[项目网页]上给出。5. 分析和讨论我们已经表明,该算法执行faforably对国家的最先进的方法。在本节中,我们进行了一些比较实验,以进一步研究和分析消融。5.1. FAC层的有效性生成的对准滤波器和去模糊滤波器分别在图7(c)和(h)中可视化根据EpicFlow [33]在图7(b)中估计的光流,视频中有一辆车在移动,这与我们的网络估计的对准滤波器是一致的由于重新移动不同的模糊需要不同的操作和模糊T= 0 T= 1 T= 2 T= 3 T= 4 T= 5 T= 6图6:对来自模糊视频的连续帧的时间一致性评估。(放大以获得最佳视图)。在某种程度上与光流有关,我们的网络为前景车辆和背景估计不同的去模糊滤波器为了验证FAC层用于对齐和去模糊的有效性,图7中示出了一些中间特征。根据图7(d)和(i),用于对准的FAC层可以正确地将车辆的头部从绿线扭曲到紫线,即使在训练期间没有图像对准约束至于图7(j)中用于去模糊的变换特征,它们比图7(e)中FAC层之前的特征更清晰,这意味着去模糊分支可以有效地去除特征域中的模糊我们还进行了三个实验,取代一个或两个FAC层直接连接相应的功能,没有功能转换的FAC层。在表2中,(w/o A,w/D)、(w/A,w/o D)和(w/o A,w/o D)分别表示仅针对特征域对准、仅针对特征域去模糊以及针对两者而移除FAC层(参见图2以进行说明)。 结果表明,在没有FAC层特征变换的情况下,网络性能较差。此外,图1还表明,我们的方法在不使用FAC层的情况下无法恢复如此清晰的图像。我们的DVD [36] OVD [10]输入2490(a) 模糊图像Bt−1(b)光流(c)对准滤波器(d)对准前(e)去模糊(f)模糊图像Bt(g)恢复图像(h)去模糊滤波器(i)对准后(j)去模糊后图7:自适应滤波器生成器和FAC层的有效性。(b)是根据EpicFlow [33]的来自相邻输入模糊帧(a)和(f)的光流。(c)和(h)分别是所生成的FAC层的对准和去模糊滤波器的可视化。(d)以及(i)是在使用FAC层对准之前和之后选择的特征图。(e)和(j)是使用FAC层去模糊之前和之后的选定特征图表2:不同结构变体的(w/o A,w/ D)、(w/ A,w/oD)和(w/o A,w/o D)分别表示仅用于对准、仅用于去模糊以及用于对准和去模糊两者的重新移动FAC层与仍然考虑非对准特征的上述变型不同,(-,wD)和(w A,-)表示去除对准分支的特征和去除去模糊分支的特征。结构w/o A w/o A w A-w A 我们不含Dw D不含Dw D-PSNR29.9130.9230.5930.8030.2931.24SSIM0.9190.9310.9260.9290.9240.9345.2. A和D处为了验证对齐(A)和去模糊(D)分支的有效性,我们将我们的网络与两个变体网络进行比较:去除对准分支(-,w D)的特征,以及去除去模糊分支(wA,-)的特征。根据表2,与我们提出的方法相比,这两个基线网络没有产生令人满意的去模糊结果5.3. STFAN三重输入的有效性为了生成自适应对齐和去模糊滤波器,STFAN采用三元组输入(先前模糊图像Bt-1、先前恢复图像Rt-1和当前模糊图像Bt)。表3显示了分别以(Bt−1,Bt)和(Rt−1,Bt)作为输入的两个变体的结果。三元组输入导致最佳性能。作为Sec. 3.3讨论,该网络可以隐式地捕获运动,并从三元组输入中更好地建模动态场景模糊。5.4. 自适应滤波器为了进一步研究所提出的网络,我们测试了不同大小的自适应滤波器,如表4所示。自适应滤波器的尺寸越大,性能越好然而,仅在k= 5之后增加自适应滤波器的大小表3:使用STFAN 的三重输入的有效性。我们将STFAN的输入分别替换为(Bt−1,Bt)和(Rt−1,Bt),作为我们的网络(Rt−1,Bt−1,Bt)的两个变体。输入(Bt−1,Bt)(Rt−1,Bt)(Rt−1,Bt−1,Bt)PSNR30.8730.8531.24SSIM0.9300.9300.934表4:不同尺寸的自适应滤波器的结果滤波器大小k=3k= 5k= 7k= 9PSNR30.9531.2431.2731.30SSIM0.9310.9340.9340.935感受野798795103参数(M)4.585.376.568.14性能略有改善。我们根据经验将k= 5设置为计算复杂性,模型大小和性能之间的权衡。6. 结论提出了一种基于滤波自适应卷积(FAC)层的时空视频去模糊网络。该网络动态地生成按顺序的元素对齐和去模糊滤波器。使用生成的滤波器和FAC层,我们的网络可以在特征域中执行时间对齐和去模糊。我们已经表明,在视频去模糊中的两个空间变化问题的公式化(即,对准和去模糊)作为两个滤波器自适应卷积过程允许所提出的方法利用在不同时间步长获得的特征而光流),并且使得我们的方法能够处理动态场景中的空间变化模糊。实验结果证明了该方法在精度、速度和模型大小方面的有效性。2491引用[1] MiikaAittala和Fre'doDurand。基于排列不变卷积神经网络的突发图像去模糊在ECCV,2018。[2] Huajin Chen,Jinwei Gu,Orazio Gallo,Ming-Yu Liu,Ashok Veeraraghavan,and Jan Kautz.Reblur2deblur:通过自监督学习对视频进行去模糊。在ICCP,2018。[3] 赵成贤,王觉,李承京。使用基于补丁的合成的手持相机的视频去模糊。TOG,31(4):64,2012.[4] Dong Gong,Jie Yang,Lingqiao Liu,Yanning Zhang,Ian D Reid,Chunhua Shen,Anton Van Den Hengel,and Qinfeng Shi.从运动模糊到运动流:一种用于消除异构运动模糊的深度学习解决方案。在CVPR,2017年。[5] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun. 深入研究整流器:超越人类对imagenet分类的水平。在ICCV,2015年。[6] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[7] Tae Hyun Kim,Byeongjoo Ahn和Kyoung Mu Lee。动态场景去模糊。InICCV,2013.[8] Tae Hyun Kim和Kyoung Mu Lee。免分割动态场景去模糊。在CVPR,第2766-2773页[9] Tae Hyun Kim和Kyoung Mu Lee。动态场景的广义视频去模糊。CVPR,2015。[10] Tae Hyun Kim,Kyoung Mu Lee,Bernhard Scholkopf,and Michael Hirsch.基于动态时间混合网络的在线视频去模糊。在CVPR,2017年。[11] Xu Jia,Bert De Brabandere,Tinne Tuytelaars,and LucV Gool.动态过滤网络。在NIPS,2016年。[12] Hailin Jin,Paolo Favaro,and Roberto Cipolla.运动模糊情况下的视觉跟踪. 2005年[13] Younghyun Jo、Seoung Wug Oh、Jaeyeon Kang和SeonJoo Kim。使用动态上采样滤波器的深度视频超分辨率网络,无需显式运动补偿。在CVPR,2018年。[14] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。在ECCV,2016年。[15] Tae Hyun Kim,Mehdi SM Sajjadi,Michael Hirsch,andBernhardSc ho¨ l k opf. 用于视频恢复的时空Transformer网络在ECCV,2018。[16] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。2015年,国际会议[17] OrestKupyn,VolodymyrBudzan,MykolaMykhailych,Dmytro Mishkin和Jiri Matas。Deblurgan:使用条件对抗网络进行盲运动去模糊。在CVPR,2018年。[18] Hee Seok Lee,Junghyun Kwon,and Kyoung Mu Lee.同时定位、映射和去模糊。见ICCV,2011年。[19] Sifei Liu,Jinshan Pan,and Ming-Hsuan Yang.通过混合神经网络学习用于低级视觉的递归滤波器。在ECCV,2016年。[20] Yasuyuki Matsushita , Eyal Ofek , Weina Ge , XiaoouTang,and Heung-Yeung Shum.全帧视频稳定与运动修复。TPAMI,28(7):1150[21] 克里斯托弗·梅和伊恩·里德为实时跟踪建模和生成复杂的运动模糊。CVPR,2008。[22] Ben Mildenhall , Jonathan T Barron , Jiawen Chen ,Dillon Sharlet,Ren Ng,and Robert Carroll.使用核预测网络进行突发去噪。在CVPR,2018年。[23] Seungjun Nah,Tae Hyun Kim,and Kyoung Mu Lee.深度多尺度卷积神经网络动态场景去模糊。在CVPR,2017年。[24] 西蒙·尼克劳斯、龙迈、风流。基于自适应卷积的视频帧InICCV,2017.[25] 西蒙·尼克劳斯、龙迈、风流。基于自适应可分离卷积的视频帧内插在CVPR,2017年。[26] Mehdi Noroozi,Paramanand Chandramouli,and PaoloFavaro.运动去模糊在野外。在GCPR,2017年。[27] 潘金山,胡哲,苏志勋,李新英,杨铭轩。软分割引导的对象运动去模糊。在CVPR,2016年。[28] 潘金山,孙德清,汉斯佩特·菲斯特,杨明轩.使用暗通道先验的盲图像去模糊。在CVPR,2016年。[29] Liyuan Pan , Yuchao Dai , Miaomiao Liu , and FatihPorikli.同时立体视频去模糊和场景流估计。在CVPR,2017年。[30] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。在NIPS研讨会,2017年。[31] JavierSa'nchezPe'rez,EnricMeinhardt-Llopis,andGabrieleFacciolo.Tv-l1光流估计Image Processing OnLine,2013:137[32] Wenqi Ren , Jinshan Pan , Xiaoxun Cao , and Ming-Hsuan Yang. 通过语义分割和逐像素非线性核的视频去模糊InICCV,2017.[33] JeromeRevaud,PhilippeWeinzaepfel,ZaidHarchaoui,and Cordelia Schmid. Epicflow:光流对应的边缘保持插值。CVPR,2015。[34] 安妮塔·塞伦特卡斯滕·罗瑟斯特凡·罗斯立体视频去模糊。在ECCV,2016年。[35] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络2015年,国际会议。[36] Shuochen Su , Mauricio Delbracio , Jue Wang ,Guillermo Sapiro,Wolfgang Heidrich,and Oliver Wang.用于手持相机的深度视频去模糊。在CVPR,2017年。[37] Jian Sun,Wenfei Cao,Zongben Xu,and Jean Ponce. 学习用于非均匀运动模糊去除的卷积神经网络。CVPR,2015。[38] 陶新,高红云,沈晓勇,王珏,贾继亚.用于深度图像去模糊的尺度递归网络。在CVPR,2018年。[39] Xintao Wang,Ke Yu,Chao Dong,and Chen ChangeLoy.基于深度空间特征变换的图像超分辨率真实感纹理恢复。在CVPR,2018年。[40] Oliver Whyte,Josef Sivic,Andrew Zisserman,and JeanPonce.抖动图像的非均匀去模糊。IJCV,98(2):1682492[41] Jonas Wulff和Michael Julian Black。模糊视频的分层建模。2014年,在ECCV[42] 李旭和贾佳雅。 深度感知运动去模糊。 在ICCP,2012年。[43] Li Xu,Shicheng Zheng,and Jiaya Jia.自然图像去模糊的非自然l0稀疏表示。CVPR,2013。[44] Jiawei Zhang,Jinshan Pan,Jimmy Ren,Yibing Song,Lin- chao Bao,Rynson WH Lau,and Ming-Hsuan Yang.使用 空间 变化 递归 神经
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功