没有合适的资源?快使用搜索试试~ 我知道了~
视频恢复中的时间对齐技术研究
6053视频恢复中的时间对齐技术研究广州1,2* 广州白云 国际机场酒店3* 广州白云国际 机场酒店3 * 广州白云国际机场酒店3* 广州白云国际机场酒店3 * 广州白云国际机场酒店1香港中文大学(深圳)、2SmartMore Corporation3香港中文大学kunzhou@link.cuhk.edu.cn,{wenboli,lylu}cse.cuhk.edu.hkhanxiaoguang@cuhk.edu.cn@jiangbo.lu gmail.com摘要长距离时间对准对于视频恢复任务是至关重要的,但也是困难的。近年来,一些工作尝试将长路线划分为若干个子路线,并逐步进行处理。虽然此操作有助于对远距离对应进行建模,但由于传播机制,误差累积是不可避免的。在这项工作中,我们提出了一种新的,通用的迭代对齐模块,采用逐步细化方案的子对齐,产生更准确的运动补偿。为了进一步提高对准精度和时间一致性,我们开发了一种非参数的重新对准算法。37.937.737.537.337.1我们的(17.0M)EDVR(20.6M)IconVSR+IAM(7.8M)0.1dBIconVSR(8.7M)VSR-T(43.8M)基础VSR(6.3M)MuCAN(19.9M)0 500 1000 1500平均推理时间(ms)加权方法,其中以空间方式自适应地评估每个相邻帧的重要性以用于聚合。凭借所提出的策略,我们的模型在一系列视频恢复任务(包括视频超分辨率、去噪和去模糊)的多个基准上实现了最先进的性能。1. 介绍帧对齐在视频恢复任务中聚合时间信息中起着重要作用,例如,视频超分辨率(Video SR)、视频去模糊和视频去噪。近年来,人们对这一问题进行了大量的研究特别是,基于深度学习的方法在建立时间对应方面取得了成功,并取得了令人满意的结果。现有的对准方法可以大致分为两类:(i)独立校准,完全独立地进行帧到帧校准(见图1)。2(a))和(ii)渐进式对准,其以递归方式顺序地执行时间上连续的对准(参见图2(a))。第2段(b)分段)。这些独立的对齐方法通常集中在设计有效的特征描述符和运动估计模块,以提高性能。例如,EDVR [29]开发了金字塔,*同等贡献†通讯作者图1.Vimeo-90 K-T上的性能和效率比较[33].除了高PSNR和快速推理外,我们的对齐算法可以很容易地集成到现有的框架中(例如,IconVSR [3])以进一步提高性能。圆的大小与参数的数量成比例设置。级联和可变形卷积(PCD),以实现更准确的对齐。然而,在没有利用多个对齐之间的重叠的情况下,该策略在估计长距离运动场方面仍然面临挑战第二行通常采用循环框架进行逐步对齐。以BasicVSR [3]为例,作者提出了一种基于光流的视频超分辨率递归架构。它们预测两个相邻帧之间的双向光流,然后进行双向传播,其中通过扭曲由先前步骤产生的图像特征来聚合时间信息。这类方法主要被提出来建模长距离依赖性,因为它只需要在一个步骤中处理相邻帧之间相对较小的运动然而,这种基于链规则的传播没有机会校正由不连续步骤引起的未对准,并且可能遭受误差累积问题。如示于图2(c),我们观察到不同的长程排列(Ai)实际上共享一些子排列(Ai),例如,A1、A2和A3之间共用一个1,A2和A3之间共用一个2。我们如何利用这一财产峰值信噪6054321I3I2I1I0(a)独立对准3 一个32 一个21的1I3I2I1I0I3(b)渐进比对运动场传播迭代精化1的1I1I02一个2的1I2I1I03一个3一个2的1I2I1I0(c)我们的迭代调整图2.视频恢复任务中的三种对齐策略。(a)独立对齐,可单独估计帧与帧之间的对应关系。(b)顺序执行多个对齐的渐进式对齐。(c)我们提出的迭代对齐方案,执行逐步细化共享子对齐。k指的是第k次时间对准,而i是第i次子对准.以提高共享子路线的准确性?在这项工作中,我们提出了一个迭代对齐模块(IAM)的渐进对齐策略,逐步完善共享的子对齐。对于特定的共享子对齐(例如,A2和A3中的a2),则先前估计的结果(A2中的a2)被用作当前迭代中的先验(A3中的a2)。我们的综合调整机制较渐进式调整机制有两个优点。首先,渐进式对准仅对每个子对准进行单个预测,使得不能校正未对准。相比之下,我们的IAM迭代地细化每个子对齐,产生更准确的对齐。其次,渐进式对齐基于链式传播执行多帧聚合,使得未对齐将传播到末端。在我们的IAM中,每个相邻帧通过单独的传播进行对齐,使其更加可靠。此外,为了降低计算复杂度,我们详细阐述了一个简单而有效的时间子对齐对齐单元。从图1中可以观察到,与现有技术的视频SR方法相比,我们的对齐算法产生高推理效率和优异的性能。特别是,我们的IAM可以很容易地插入现有的深度模型。例如,通过将IconVSR [ 3 ]的原始独立比对模块替换为我们的“IAM”(在图1中表示为“IconVSR+IAM”)。1 ) , Vimeo-90 K-T 上 的 PSNR 从 37.47dB 提 升 到37.56dB [33],同时将参数数量从8.7M减少到7.8M。此外,为了在消除对准误差的同时保留细节,多个对准帧的聚合仍然是必要的步骤现代恢复系统要么采用一系列卷积来直接融合对齐的特征[3,28],要么采用时空自适应聚合策略[9,13,15,16,19,29,31]。然而,所有这些方法都仅仅依赖于学习的参数,从而增加了在特定域上过拟合的风险。在这项工作中,我们提出了一个非参数重新-加权模块,其中两个策略被设计为示例性地评估不同帧的空间自适应重要性首先,我们探讨的准确性的路线。将对齐帧中的块与参考帧中的块进行比较,并且在融合期间为高相似性的块分配更大的权重。其次,为了评估对齐的一致性,我们计算对齐帧的像素级L2距离及其平均值。具有较小距离的像素被认为与其他帧更一致,因此被分配有较大的权重。所提出的重新加权模块是无参数的,因此可以插入到其他模型中。主要贡献归纳如下:• 我们重新思考的渐进对齐的问题,并相应地提出了一个迭代对齐方案,产生更准确的估计,特别是在长距离的对应关系。• 我们提出了一个非参数的重新加权模块,同时评估的对齐精度和时间的一致性。• 定量和定性的结果证明了我们的方法在几个视频恢复任务的最先进的性能2. 相关工作时间对齐。许多视频恢复方法[3,22,30,33]在相邻帧与中心帧之间执行独立的时间对准。已经提出了各种策略来提高性能。例如,为了填补优化流估计和视频SR任务之间的领域空白,TOF [33]将面向任务的流模块集成到其VSR框架中,以进行端到端训练。Pan等人[22]开发CNN以同时估计光流和潜在帧。6055重建0这些帧0{I,···,I,···,I}对准段第3.3节ሼ ۷ǡڮ۷ǡڮ۷ሽିିேିேି(a)拟议框架视频去模糊去噪级联双三次升级残余块图3.视频恢复任务的一般框架。该算法由帧特征提取模块、迭代对齐模块、自适应重加权模块和重构模块四部分组成。后来,一些方法开始开发基于自适应内核的方案[14,24,28,29,32,34,35],以同时执行对齐和处理遮挡EDVR [29]提出了一种由粗到精的对准算法来解决大位移问题。然而,这些独立的比对模型只专注于探索两个帧之间的相关性。处理长距离的比对仍然是一个挑战.另一条工作线[3,4]开始探索用于视频恢复任务的渐进式对齐策略。为了减轻远程比对的挑战,他们通常将多个远程比对分成几个子比对。随后逐步处理这些子对准。在BasicVSR [3]中,利用预先训练的SPyNet[23]来估计相邻帧之间的每个子对准的运动场。然后,他们逐步聚合的时间信息,通过扭曲的图像特征产生的前几步。渐进对准方案使其有效地处理远程对准。BasicVSR++ [4]在BasicVSR的基础上提出了一种二阶传播和运动场残差学习方法,以提高子对准的精度。然而,不准确地估计某些子对准的运动场未对齐的信息随后在后面的步骤中传播和聚集,导致错误累积。在这项工作中,我们提出了一个迭代对齐算法建立在渐进式对齐方案。每个子图4.我们的特征提取模块概述。此外,通过应用基于空间或时间注意力的机制,已经提出了更有效的聚合策略[9,13,19,31]。Isobe等人[9]设计一个帧速率感知的群体注意力,它可以处理各种级别的运动。在[30]中,采用运动鲁棒性分析来融合时间信息,其中将不同的受此启发,我们设计了一个自适应重加权模块的信息聚合,同时考虑到准确性和一致性的比对。3. 方法3.1. 概述图3显示了拟议的框架。 我们的目标是重建一个高质量的图像Ihq从2N+ 1CON-1。连续低质量图像lq lq智商 在特征提取模块中,−N输入0N第一使用步幅卷积进行下采样以用于视频去模糊,振铃/去噪,同时在视频SR的相同分辨率下进行处理。然后,我们利用所提出的IAM对齐输入帧参考的中心帧。为了简单起见,我们在下文中仅考虑一侧对准,因为另一侧被对称地处理。最后,设计了一个自适应重加权模块来融合对齐后的特征。最后,通过将预测残差添加到原始(用于视频去模糊/去噪)或上采样(用于视频SR)输入图像来获得Ihq3.2. 特征提取如示于图4、进行特征提取,将RGB帧Ilq变 换 为高维特征,逐步地估计和改进对准,很大程度上不-映射FKK. 我们首先使用步长为2的两个卷积从而证明对准的准确性。功能融合。大多数视频恢复方法通过特征级联以及随后的卷积来融合对齐的帧以用于时间信息聚集[18,28,33]。例如,FastDVD [26]将连续帧分成不同的组,并设计了一个用于多帧融合的两级卷积神经网络。对视频去模糊和去噪的特征分辨率进行下采样(图中蓝色虚线框中突出显示)。4)计算效率,同时保持视频SR的相同分辨率(在图中的绿色虚线框中突出显示)。4).然后,我们利用另外两个步长为2的卷积来获得输入帧的金字塔表示。最后,我们融合金字塔功能与一个单一的卷积。特征提取第3.2节视频SRConv. +ReLU步幅Conv. +ReLU步幅۷۴H4 +H2+重新加权第3.4节۷6056一关于我们K一K我KK1一333232从Fi到Fi−1的亚藻化:11我一0.0-0.5EDVRMuCAN基本VSRVSR-T-1.0FREDS 4 REDS 4-快速当量6(i=k)图5.四种SOTA视频SR方法[2,3,14,29]与我们的方法(虚线)在REDS 4 [21]和REDS 4-Fast上的PSNR差异值越小,间隙越大。3.3. 时间对准时间对齐旨在对齐多个相邻要素F−N,,F−1,F1,,FN参考值为F0。设k是相邻帧Fk和参考帧F0之间的第k次时间对准,则我们有图6.我们的迭代子对准单元的说明K. Fi是源特征,Fi−1是目标特征。迭代细化在虚线框中突出显示。Fi−1是aligned result and hk+1−i is the refined motion field of ai.之后,我们通过顺序地执行两个子比对{a2,a1}来考虑下一个比对A2:.a2(F2,F1,t=1)<$F< $1,h1,22120121A2: a(F< $1,F,h1,t=2)<$F<$0,h2.(四)Ak(Fk,F0)=F< $0,k∈{−N,···,−1,1,···,N},(一)对于A2中的A1,它已经在A1中执行过一次。其中F0是对齐结果。3.3.1渐进比对为了便于长距离对准,最近的一些方法[4]采用渐进对准策略。对于对齐Ak,他们将其划分为连续的子序列,因此,我们将a1的预先估计的运动场h1融合在A1在A2中提炼出一个1,公式化为迭代优化。对于随后的路线A3,两个子路线{a2,a1}将细化为:a3(F3,F2,t=1)⇒Fˆ 2,h1,答3:a2(Fˆ 2, F1, h1, t = 2) ⇒ Fˆ 1, h2 ,(五)3131Fk到参考系F0。 我们用i来表示a1(Fˆ 1,F0,h2,t=3)⇒Fˆ 0,h3.ai:Fi→Fi−1.(2)如图所示。在图2(b)中,通过链式子对准处理所有相邻帧,这表明后一子对准强烈地依赖于前一预测。因此,由中间不准确的子对准引起的误差将被传播和累积到最后,导致性能较差 为了解决误差积累问题,提高对准质量,提出了一种迭代对准算法,重点是提高每个子对准的精度。3.3.2迭代对准与渐进式对准不同,该算法只进行一次子对准,我们的算法迭代地细化子对准的基础上,以前的估计。如图所示在图2(c)中,我们从仅包含子对准a1:F1→F0的对准A1开始,描述为:A1:a1(F1,F0,t=1)<$F< $0,h1,(3)可以得出结论,除了k中的第一子对准ak之外,所有其他子对准被优化至少两次。有两个优点:(i)通过我们的迭代优化,子路线将更加准确。(ii)子对准不仅依赖于预对准的特征,而且依赖于预估计的运动场,使其更可靠。为了验证我们的说法,我们在REDS 4 [21]和REDS 4-Fast1上评估了我们的算法以及最近的视频SR模型[2,3,14,29]。如图5、我们的模型在竞争方法中取得了最好的性能。特别是,我们的方法带来了显着的改善,在大运动的背景下,证明了有效性我们的IAM的远程校准3.3.3次定线小组节中3.3.2、详细描述了迭代对齐算法。据观察,对于2N个相邻帧,我们的方法需要N(N+ 1)个子对齐。相反,独立和渐进的路线方案其中Fi−1是指子对准ai1的对准结果K在k中。由方程式表示的估计运动场子对准ai在被细化t次之后。REDS 4-Fast是REDS 4 [21]的一个子集,平均运动幅度为9.4像素,远大于REDS 4的平均值4.3像素。通过RAFT计算光流[27]。我们残余块+连接可变形Conv.Conv. + ReLU当 量 6 ( 其他)次级路线优化hF^iKHC我我hk+1-i我F^iK++i-1峰值信噪对齐{ak,ak−1,···,a1}以逐渐对齐要素6057Repe۴۴一我.h,i=k,−一我我K我K¨一K联系我们K×KavgKKK我Kavg2¨我¨KKK2仅需要2个N(子)对齐。 因此,设计一个简单的子对准单元对提高计算效率至关重要。为此,提出了两项改进建议。(i)虽然以前的方法[3,29]通常采用在对齐阶段执行多尺度处理的金字塔对齐方案,但我们在特征提取阶段采用早期多尺度融合策略,以便我们的IAM仅执行单尺度对齐。(ii)我们开发了一种轻量级的子对准单元,其参数比其他方法少得多[2,29]。具体来说,我们使用残差块的紧凑结构来减少计算开销(参见补充材料中的详细信息)。图图6示出了我们的子对准单元的结构以k的第i个子对齐ai为例,我们首先利用两个卷积,然后进行ReLU激活,从源特征Fi的连接中估计初始化的运动场hc,并获得特征Fi−1。在此之后,有两种情况用于ai的预测hk+1−i:(a)基于精度的重新加权۴۴.۴Softmaxሺݔǡݕሻ在ǡǡ.۴۴۴۱ ିିሺכ ሻ(b)基于一致性的重新加权内积减法。 Hadamard积图7.自适应重新加权模块。有两个分支:(a)用于测量对准精度的基于精度的重新加权分支,(b)基于一致性的重新加权k+1iiCiθ(hc,hk−i),其他。(六)用于评估对齐帧的一致性的分支i i 3×3贴片,以第k个对齐的相同位置为如果ai是k(i=k)的第一子对准,则不能再使用历史预测来细化ai。因此,我们简单地将hc设置为ai的估计运动场。否则,我们将取最后一次估计hk−i和当前值,帧F0。F或该补丁上的每个特征向量,我们计算其关于v0的余弦相似度(归一化内积)为:并利用单个卷积x为ohF< $0(x+<$x,y+<$y)v0然后是两个残差块(称为θ),以细化Sk(x,y)=ˆ0你好,预测. 最后,我们采用可变形卷积[6]来适应来自源特征Fi的样本内容:哪里x为ohFk(x+ nx,y+ny)202(九)KFi−1=DConv(Fi,Fi−1,hk+1−i)(7)Sk是位置(x,y)处的3×3相似性图,△表示内积。 (x+ x,y+y)是特别地,如果ai是k(i=k)中的第一子对准,则等式7可以写成:Fk-1=DConv(Fk,Fk-1,h1)(8)子对准单元对于所有子对准是共享的,特征向量的坐标,其中,101然后将Softmax函数应用于空间维度中的Sx,y,从而产生像素级权重,如下所示:Wx,y= Softmax(Sx,y)。(十)大大减少了可学习参数的数量。K K3.4. 自适应重新加权虽然时间对齐模块对相邻帧执行运动补偿,但它仍然至关重要然后使用Wx,y融合3 × 3块上的特征向量,并获得重新加权的结果F<$0(x,y):F<$0(x,y)=<$Wx,y(<$x,<$y)<$F<$0(x+<$x,y+<$y)。K以一种有效的方式融合它们。 最近,卷积-K阿勒克斯K(十一)基于注意力的机制变得流行,以聚合多帧信息[9,13,19,31]。相比之下,我们提出了一个非参数的重新加权模块,明确评估的空间自适应的重要性对齐帧从两个角度。首先,我们评估对齐帧相对于参考帧的精度。其次,我们测量对齐的相邻帧的一致性。图7描述了我们的重新加权模块的流水线。基于精度的重新加权。如图7(a),我们测量对齐帧的准确性。对于参考帧F0,位置(x,y)处的特征向量被表示为v0,即,v0=F0(x,y).我们发现它对应的其中⊙表示Hadamard乘积。基于一致性的重新加权。我们首先计算对齐的相邻帧的平均值,得到F 0如图1B所示。第7(b)段。 F或第k个对齐帧F∈ 0,我们评估其与其他对齐帧的一致性,Ck=exp(α·<$F< $0−F< $0(12)H=6058−K在我们的实验中,α被设置为1。注意,Ck保持与F0相同的形状。6059KK××K×K任务视频SR视频去模糊视频降噪数据集Vimeo-90K-TVDB-TDAVIS(σ=20)基线37.3629.8835.62+IAM37.72(+0.36)32.19(+2.31)36.36(+0.74)+IAM+ARW37.84(+0.48)32.28(+2.40)36.73(+1.11)表1.培训和网络配置。最后,我们将基于精度的重新加权特征F<$0乘以一致性映射Ck,并获得结果:表 2. 消 融 研 究 的 定 量 比 较 报 告 PSNR ( dB) “IAM” and“ARW” denote the iterative alignment module and adaptive re-weighting,F0=F<$0Ck。(十三)精细对齐的特征F0被传递到反射模块,用于高质量图像回归(见图10)。(3)第三章。4. 实验4.1. 实施和培训详情配置. 如图3、我们的网络由四个模块组成:特征提取、对齐、重新加权和重建。特征提取模块在Sec. 3.2包含所有任务的5个残差块。表1示出了其他详细配置,其中M是网络中的特征通道的数量,B是重构模块中的残差块的数量。训练我们在表1中显示了训练设置。我们使用2-6个NVIDIA GeForce RTX 2080 Ti GPU来训练我们的模型,以完成所有三个视频恢复任务的900 K迭代。我们采用随机垂直或水平翻转或90度旋转的数据增强。初始学习率设置为5 × 10−4,并采用余弦衰减策略。我们使用Charbonnier损失为所有三个任务。4.2. 数据集和指标视频超分辨率。 REDS [21]和Vimeo-90 K [33]是VideoSR中广泛使用的两个数据集。Vimeo-90 K包含64,612个训练和7,840个测试7帧序列,分辨率为448 256。测试集表示为Vimeo-90 K-T。在REDS中,有266个训练和4个测试视频序列。每个序列由100个连续帧组成,分辨率为1280 - 720。 在[29]之后,我们将测试集表示为REDS4。 除了这两个测试数据集外,我们还给出了Vid 4 [17]的定量结果,其中包括4个视频片段。我们采用MAT-LAB双三次下采样来产生LR帧。视频去模糊。我们利用视频去模糊数据集[25](VDB的缩写)来训练和评估我们的模型。总共有61个训练视频和10个测试视频对。每一对都包含模糊和清晰的视频。测试子集被标记为VDB-T。为了与SOTA视频去模糊方法[12,22,29,35]进行定量比较,我们测量了RGB通道上的PSNR/SSIM值。图8.视频SR中IAM迭代次数的分析。第一行显示预测,第二行显示预测和GT之间的光流(使用RAFT [27])。视频去噪在这项任务中,我们的目标是去除已知噪声水平(σ)的高斯白噪声。我们的模型在DAVIS上训练[11],其中包含87个训练和30个测试540p视频。[26]也采用Set8进行测试。在[26]之后,我们为所有训练和测试序列保留最多85帧。针对所有噪声水平训练单个去噪模型。我们在RGB通道上报告我们的PSNR/SSIM结果以进行公平的比较。4.3. 分析在本节中,我们对我们的方法进行了全面的分析。为了清晰起见,我们将迭代对齐模块称为IAM,将自适应重新加权称为ARWIAM和ARW。为了评估所提出的IAM和ARW设计的性能,我们在表2中进行了定量比较。从没有这些设计的基线开始,我们逐步添加迭代对齐模块(IAM)和自适应重新加权(ARW)。如表2所示,所提出的IAM 在 视 频 SR 、 去 模 糊 和 去 噪 任 务 中 分 别 带 来0.36dB、2.31dB和0.74dB的PSNR改善此外,我们注意到ARW的使用进一步将PSNR提升到一个新的高度。特别是,它在去噪任务中带来了更多的All these resultsmanifest the effec- tiveness of our proposed IAM andARW strategies.IAM中的迭代数。我们评估表3中的迭代次数对视频SR的影响。相比执行每个子对准的单个预测的基线(与渐进对准相同),我们逐渐地将细化的数量增加到2和3(去,双三次27.90dB基线33.86dB IAM-R2 35.66dBIAM-R336.77 dB流量大小1.73流量大小0.39流量大小0.46流量大小0.69任务视频SR视频去模糊视频去噪配置男(128)、女(40)男(128)、女(10)男(128)、女(40)男(64)、女(10)个gpu补丁Reso.nFra664 ×64第五章(七)6128 ×12852128 ×12856060×∗方法峰值信噪比(dB)SSIM运行时间(ms)基线37.360.9468153IAMR2R337.68(+0.32)37.72(+0.36)0.94870.9490166169ARWAcc.Con.37.39(+0.03)37.43(+0.07)0.94690.9469154158充分37.84(+0.48)0.9498170表3.针对视频SR的不同IAM和ARW设置的消融研究。每个模型的运行时间也被报告,输入大小为7×3×64×112。输入35.20 dB w/o ARW 40.47 dB w/ ARW 42.04 dBBicubic EDVR MuCAN BasicVSROursGT(a) 视频SR上的视觉比较tt图10. Vimeo-90 K-T [33]和REDS 4 [21]在视频SR中的定性比较。yy不带ARW,带ARW GT(b) 视频SR上时间剖面的视觉分析图9.视频SR中ARW模块的分析。(a)不带(w/o)和带(w/)ARW的目视比较。(b)无ARW和有ARW的时间一致性比较标 记 为 R2 和 R3 ) , 分 别 导 致 PSNR 增 益 0.32dB 和0.36dB。值得注意的是,运行时间的增加相当小(13-16 ms)。此外,如图所示。8,预测和GT之间的光流随着细化的增加而变小,指示更准确的对准。定量和定性的结果都表明,我们的IAM可以显着提高对准精度,通过减少传播过程中的误差积累。ARW中的重新加权类型。如表3所示,我们研究了针对视频SR提出的基于准确性和一致性的重新加权策略与基线相比,基于精度的重加权带来0.03dB的增益,而基于一致性的重加权获得0.07dB的改善,仅花费额外的1- 5 ms。图9显示了一些例子来说明我们的ARW的改进的准确性和一致性。可以观察到,具有我们的重新加权模块的模型能够在保持时间一致性的同时恢复更准确的纹理。4.4. 与最新方法的我们比较我们的方法与国家的最先进的方法定量和定性的视频SR,视频去,表 4. 视 频 SR 中 的 4 设 置 下 的 REDS4 [21] 和 Vid4 [17PSNR(dB)/SSIM结果在x4设置下进行评估’ ’ indicates the resultsare from [模糊和视频去噪任务。视频超分辨率。 表5和表4显示我们的方法和现有视频SR方法的定量结果[2-[21]第21话:“四个人”与代表性的独立[29]和渐进式(BasicVSR [3])对齐方法相比,我们的方法在Vimeo-90 K-T上分别获得了0.23dB和0.66dB的优异此外,我们的模型还优于VSR-T [2] 0.13dB,后者具有更多的参数。Vimeo-90 K-T上的BasicVSR++的结果是通过在REDS上预测试获得的 虽然我们的模型只在Vimeo-90K上训练,没有预先训练(作为典型的设置),但我们的模型仍然比它表现得更好。就Vid 4 [17]数据集而言,与Icon-VSR [ 3 ]相比,我们的方法在PSNR上实现了0.51dB的显著改善。请注意,我们只包括最近使用5/7帧设置的方法,以便在REDS 4和Vid 4上进行公平比较。图10显示了Vimeo-90 K-T和REDS 4上的视觉比较。与其他方法相比,我们的模型恢复了更清晰的文本和更准确的结构。视频去噪根据以前的方法[1,5,26],我们采用Set8[26]和DAVIS [11]作为我们的基准,方法REDS4(RGB)Vid4(Y)NPSNR/SSIMNPSNR/SSIM双三126.14/0.7292123.78/0.6347[33]第三十三话527.98/0.7990725.89/0.7651[第10话]528.63/0.8251727.33/0.8318EDVR [29]531.09/0.8800727.35/0.8264MuCAN [14]530.88/0.8750727.26/0.8215VSR-T [2]531.19/0.8815727.36/0.8258IconVSR [3]530.81/0.8746727.39/0.8279我们531.30/0.8850727.90/0.83806061方法双三EDVR [29]MuCAN [14] 基本VSR [3]IconVSR [3]†BasicVSR++[4]VSR-T [2]我们nFrame参数1-120.6M719.8M76.3M78.7M77.3M743.8M717.0MRGBY29.79/0.848331.32/0.868435.79/0.937437.61/0.9489-37.32/0.9465-37.18/0.9450-37.47/0.9476-37.79/0.950035.88/0.938037.71/0.949435.96/0.938937.84/0.9498表5.[33]第十三话:PSNR(dB)/SSIM结果在×4设置下获得红蓝数字最好的和第二好的结果。“†”表示BasicVSR++使用额外的REDS数据集进行预训练。Input(输入)VNLNetFastDVD Ours GT表6. Set8 [26]和DAVIS [11]导致视频去噪。PSNR(dB)结果报告。图11.Set8 [26]在视频去噪中的定性比较模糊补丁STFA潘我们的GT表 7. VDB-T [25] 导 致 视 频 去 模 糊 。 “Ours-M” and “Ours”denote our medium and standard视频去噪任务。定量结果见表6。我们的模型在大多数噪声水平下都能达到最佳效果特别是在噪声水平σ= 50的情况下,与次优方法相比,我们的方法在Set8和DAVIS上的峰值信噪比分别提高了0.37dB和0.65dB图11显示了一些定性结果。据观察,我们的方法恢复更丰富,更清晰的纹理与其他方法相比。视频去模糊。我们将我们的方法与VDB-T [25]上的几种最近的视频去模糊方法[8,22,25,29,35]进行了比较。如表1所示,开发了具有不同大小(10或40个残余块)的两个模型,称为从表7中,与第二好的ARVo[12]相比,我们可以看到我们的模型在PSNR和SSIM,repeat上实现了0.12dB图12所示的一些视觉示例也表明,我们的模型能够处理一些具有复杂运动模糊的chal-challening情况。限制社会影响建议的设计主要是为了提高远程对准的精度。仍然有足够的空间来优化微妙运动的建模。此外,进一步提高整个管道的效率也是我们未来的目标。我们所有的模型都是使用公共可用的视频恢复数据集进行训练和评估的,没有潜在的负面社会影响。图12.视频去模糊中VDB-T [255. 结论在本文中,我们提出了一个简单而有效的迭代对齐算 法 ( IAM ) 和 一 个 有 效 的 自 适 应 加 权 策 略(ARW),以更好地利用多帧信息。三个视频恢复任务的定量和定性结果说明了我们的方法的有效性。此外,我们表明,我们的方法是通用的,可以部署在现有的视频处理系统,以进一步提高其性能。我们将在未来探索更多基于视频的任务。该守则将公开提供,以促进社区的发展。鸣谢由SmartMore公司和香港中文大学深圳分校信息技术服务办公室(ITSO)支持的GPU。数据集 σ[1]V-BM4D [20] VNLnet [5] [26]第二十六话我们1037.2636.0537.1036.4437.252033.7232.1933.8833.4334.05Set83031.7430.00-31.6832.194030.3928.4830.5530.4630.895029.2427.3329.4729.5329.901038.8537.5835.8338.7139.752035.6833.8834.4935.7736.73戴维斯 3033.7331.65-34.0434.894032.3230.0532.3232.8233.565031.1328.8031.4331.8632.51Meth.EDVR [29] STFA [35]潘[22] ARVO[12] Ours-M 我们参数23.6M5.4M16.2M-12.7M 16.7MPSNRSSIM28.510.86431.240.93432.130.92732.800.93532.280.94232.920.9486062引用[1] 巴勃罗·阿里亚斯和让·米歇尔·莫雷尔基于时空片经验贝叶 斯 估 计 的 Journal of Mathematical Imaging andVision,60(1):70-93,2018。七、八[2] Jiezhang Cao,Yawei Li,Kai Zhang,and Luc Van Gool.视频超分辨率Transformer。 arXiv,2021。 四五七八[3] 开尔文C.K. Chan,Xintao Wang,Ke Yu,Chao Dong,and Chen Change Loy. Basicvsr:搜索视频超分辨率及更高分辨率的基本组件。在IEEE计算机视觉和模式识别会议上,2021年。一二三四五七八[4] Kelvin CK Chan,Shangchen Zhou,Xiangyu Xu,andChen Change Loy. Basicvsr++:通过增强的传播和对齐来提高视频的超分辨率.在2022年IEEE计算机视觉和模式识别会议上三、四、七、八[5] 陈新元,宋丽,杨小康。深度rnns视频去噪。在数字图像处理的应用,第9971卷,第99711T页。国际光学与光子学会七、八[6] Jifeng Dai,Haozhi Qi,Yuwen Xiong,Yi Li,GuodongZhang,Han Hu,and Yichen Wei.可变形卷积网络。在Proceedings of the IEEE international conference oncomputer vision,第764-773页,2017年。5[7] Muhammad Haris Gregory Shakhnarovich 和 NorimichiUkita。用于视频超分辨率的递归反投影网络。在IEEE计算机视觉和模式识别集,第3897-3906页,2019年。7[8] Tae Hyun Kim,Kyoung Mu Lee,Bernhard Scholkopf,and Michael Hirsch.基于动态时间混合网络的在线视频去模糊。在CVPR中,第4038-4047页,2017年。8[9] 矶部隆、徐佳、谷书航、李松江、王胜金、齐天。具有递归结构-细节网络的视频超分辨率。在欧洲计算机视觉会议上,第645-660页。Springer,2020年。二三五[10] Younghyun Jo、Seoung Wug Oh、Jaeyeon Kang和SeonJoo Kim。使用动态上采样滤波器的深度视频超分辨率网络,无需显式运动补偿。在CVPR中,第3224-3232页,2018年。7[11] Anna Khoreva,Anna Rohrbach,and Bernt Schiele.基于语言指称的视频对象分割。 亚洲计算机视觉会议,第123Springer,2018. 六七八[12] Dongxu Li ,Chenchen Xu,Kaihao Zhang,Xin Yu,Yiran Zhong , Wenqi Ren , Hanna Suominen , andHongdong Li. Arvo:学习视频去模糊的全范围体积对应。在IEEE/CVF计算机视觉和模式识别会议论文集,第7721-7731页六、八[13] 李峰,白慧慧,赵耀。学习深度双注意力网络以实现视频超分辨率。IEEE Transactions on Image Processing,29:4474-4488,2020。二三五[14] 李文波、辛涛、泰安郭、卢琦、江波卢、贾亚贾。Mucan:视频超分辨率多对应聚合网络。见ECCV,第335-351页。Springer,2020年。三、四、七、八[15] Wenbo Li,Kun Zhou,Lu Qi,Nianjuan Jiang,JiangboLu,and Jiaya Jia. Lapar:线性组装像素自适应回归网络,用于单图像超分辨率和远距离。NeurIPS,33,2020。2[16] 李文博,周坤,陆琪,陆丽英,陆江波。最好的伙伴甘斯高度详细的图像超分辨率。2022年AAAI人工智能会议。2[17] 刘策,孙德清.贝叶斯自适应视频超分辨率研究。IEEEtransactionsonpatternanalysisandmachineintelligence,36(2):346-360,2013. 六、七[18] Ding Liu , Zhaowen Wang , Yuchen Fan , XianmingLiu , Zhangyang Wang , Shiyu Chang , and ThomasHuang.鲁棒的视频超分辨率与学习的时间动态。在IEEE计算机视觉国际会议论文集,第2507-2515页,2017年。3[19] Zhi-Song Liu , Li-Wen Wang , Chu-Tak Li , Wan-ChiSiu,and Yui-Lam Chan.基于注意力的反投影网络实现图像超分辨率。在2019年IEEE/CVF计算机视觉国际会议 研 讨 会 ( ICCVW ) 上 , 第 3517-3525 页 。 IEEE ,2019。二三五[20] Matteo Maggioni、Giacomo Boracchi、Alessandro Foi和Karen Egiazarian。通过可分离的4-D非局部时空变换进行视频去噪、去块和增强。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功