没有合适的资源?快使用搜索试试~ 我知道了~
基于多摄像机视频的参考视频超分辨率
17824××基于多摄像机视频三元组的参考视频超分辨率Junyong Lee Myeonghee Lee Sunghyun Cho Seungyong Lee POSTECH{junyonglee,myeonghee,s.cho,leesy} @ postech.ac.kr摘要我 们 提 出 了 第 一 个 基 于 参 考 的 视 频 超 分 辨 率(RefVSR)的方法,利用参考视频高保真的结果。我们专注于RefVSR在三摄像头设置,我们的目标是超分辨率的低分辨率超宽视频利用广角和远摄视频。我们介绍了第一个RefVSR网络,它重新对齐并传播与从低分辨率帧中提取的特征融合的时间参考为了便于时间参考特征的融合和传播,我们提出了一种传播时间融合模型。为了学习和评估我们的网络,我们提出了第一个RefVSR数据集,该数据集由从智能手机的三个摄像头同时拍摄的超宽、广角和长焦视频组成。我们还提出了一个两阶段的训练策略,充分利用视频三元组在建议的数据集为现实世界的4视频超分辨率。我们广泛评估我们的方法,结果表明,最先进的4倍超分辨率性能。1. 介绍诸如苹果iPhone或三星Galaxy系列之类的最近的移动设备被制造成具有至少两个或三个非对称多相机,这些相机通常具有不同但固定的焦距。在三相机设置中,每个超宽、广角和长焦相机具有不同的视场(FoV)和光学变焦因子。这种配置的一个优点是,与超宽相机相比,广角相机以更多细节和更高分辨率捕获对象,并且该优点在长焦相机的情况下甚至进一步升级一个自然的问题是,为什么不利用具有较长焦距的相机的较高分辨率帧来提高具有短焦距的相机的帧的分辨率。利用参考图像从低分辨率图像重建高分辨率图像的方法在基于参考图像的图像重建中代码和数据集:https://github.com/codeslake/RefVSR中国中国CE框架相邻引用中国我们的4×SR结果我们的4×SR结果SOTA 4×SR结果SOTA 4×SR结果(重叠内)(重叠外双三次4×双三次4×参考框架(广角),位于100米处输入帧(超宽),在1000图1. 8K 4的比较SR视频结果从一个真正的最新技术水平(SOTA)RefSR方法[26]和拟议RefVSR方法之间的高清视频。我们的方法通过利用参考帧的相关高质量块来学习超分辨率LR视频,并且鲁棒地恢复输入超宽和参考广角帧(白色虚线框)之间的重叠FoV内部和外部超分辨率(RefSR)方法[2,23,26,28,29,32,34,35]。然而,尚未探索将Ref视频用于视频超分辨率(VSR)。在本文中,我们将RefSR扩展到VSR任务,并引入基于参考的视频超分辨率(RefVSR),其可应用于在非对称多相机设置中捕获的视频。RefVSR继承RefSR和VSR任务的目标,并利用Ref视频从LR视频重建HR视频。将RefVSR应用于在非对称多相机设置中捕获的视频在该设置中,每个时间步长处的一对LR和Ref帧在其重叠的FoV(图1中最左列的顶行和中间行)中共享几乎相同的内容。此外,当视频呈现运动时,相邻Ref帧可能包含用于恢复重叠FoV外部(图1B中最左列的底行)的高质量内容。1)。17825×××为了在非对称多相机设置中成功的RefVSR,我们利用时间Ref帧来重建重叠FoV内部和外部的区域在先前的RefSR方法[26,28,29,32]中,全局匹配已经是用于在一对LR和Ref图像之间建立非局部对应然而,给定一对LR和Ref视频序列,在LR帧和多个Ref帧之间直接应用全局匹配并不简单。为了在大的真实世界视频的全局匹配中利用尽可能多的帧(例如,HD视频),我们需要一个能够以内存高效的方式管理Ref帧的我们提出了第一个基于端到端学习的RefVSR网络,该网络通常可以应用于使用Ref视频对LR视频进行超分辨率。我们的网络采用双向循环管道[4,7,8]来循环对齐和传播与LR帧特征融合的Ref特征。我们的网络在计算和内存消耗方面是有效的,因为在每个时间步,仅在一对LR和对应的Ref帧之间执行对齐Ref特征所需的全局尽管如此,我们的网络仍然能够利用时间Ref帧,因为对齐的Ref特征不断融合并在管道中传播。作为一个关键组成部分,在管道中管理参考功能,我们提出了一个传播的时间融合模块,融合和传播良好匹配的参考功能。该模块利用在LR和Ref特征之间的全局匹配期间计算的匹配置信度作为指导来确定要融合和传播的良好匹配的Ref特征。该模块还在整个流水线中累积匹配置信度,并在融合传播的时间Ref特征时使用累积值作为指导。为了训练和验证我们的模型,我们提出了第一个Re-fVSR数据集,由161个超宽,广角和长焦视频的视频三元组组成,这些视频是用智能手机的三个摄像头同时捕获的。广角和远摄视频与超宽视频具有相同的大小,但它们的分辨率分别是超宽视频分辨率的2和4。使用RefVSR数据集,我们训练我们的网络来超分辨率超宽视频4,以产生与长焦视频相同分辨率的8K视频。为此,我们提出了一个两阶段的训练策略,充分利用了建议的数据集中的视频三元组我们证明,通过我们的训练策略,我们的网络可以成功地学习真实世界高清视频的超分辨率,并生成高保真的8K视频。总之,我们的贡献包括:• 第一个RefVSR框架,专注于在非对称多相机设置中记录的视频,• 有效地融合和传播时间Ref特征的传播时间融合模块,• RealMCVSR数据集,它是RefVSR任务的第一个数据集,以及• 充分利用视频三元组的两阶段训练策略用于真实世界的4×VSR。2. 相关工作基于参考的超分辨率(RefSR)以前的RefSR方法[2,23,26,28,29,32,34,35]专注于建立LR和Ref特征之间的非局部对应关系。为了建立对应关系,基于偏移的匹配(光流[35]和可变形卷积[23])或基于分块的匹配(分块匹配[1,2,32,34],可学习的补丁匹配[28,29],可学习的补丁匹配与仿射校正[26])。视频超分辨率(VSR)先前的VSR方法集中于如何有效地利用视频序列中高度相关但未对齐的LR帧。关于模型如何处理视频序列中的LR帧,以前的VSR方法可以归类为基于滑动窗口的方法[3,14,15,25,27]或基于循环框架的方法[4,7,8,9,21]。为了处理未对齐的LR帧,使用光流[3,4,21],基于块的相关性[15]和可变形的卷积[25,27]已经被使用。RefSR和VSR中的上述先前研究开发了各种组件。在本文中,为了将Ref特征与LR帧匹配和对齐,我们采用了可学习的基于补丁匹配的参考对齐模块[26,28,29]。为了处理视频序列,我们采用了双向递归框架[4,7,8]。然而,对于RefVSR,我们修改组件以处理LR和Ref视频。我们还为我们的网络配备了传播时间融合模块,旨在有效地和高效地利用时间Ref特征重建HR帧。最近,RefVSR方法[33],其中仅HR视频的第一帧用作参考以超分辨率从HR视频下采样的LR视频,已经与我们的工作同时提出然而,据我们所知,我们的是第一个RefVSR帧-工作,利用多个帧在参考视频超分辨率的现实世界的LR视频。3. 多摄像头视频超分辨率3.1. 框架概述图2示出了所提出的网络的概述,其通常可以应用于RefVSR任务,用于利用Ref视频对LR视频进行超解析。我们的网络遵循一个典型的双向传播方案[4,7],由双向递归单元Ff和Fb组成,其中下标f和b分别表示前向和后向传播分支(图3)。我们的网络是不-17826±^ff^不^不不^{f,b}LR不{f,b}不Ft−1不不t−1t−1不不不 不不LR LRRef ffLR������−1R������−1LRRLR日本+1R日本+1、图2.我们的RefVSR框架概述。在附加输入、中间特征和模块中与先前的区别,以利用参考视频序列。具体地,对于时间步长t,每个递归单元Ff或Fb不仅在预处理处采用低分辨率LR帧ILR图3.前向(顶部)和后向(底部)递归细胞。3.2. 双向回归细胞在每个递归单元Ff和Fb(图3)中,我们首先使用流估计网络S[20]来估计光流可见时间步长和LRt±1在当前时间步的LR帧ILR和ILR之间It在当前时间点,但也t{t±1a当前时间步的Ref帧IRef每个细胞也是在前一时间步,以对准传播的特征htf,b}LR±1循环地馈送有聚集的LR和Ref特征ht{f,b}It- 是的然后,使用残差块R,我们将和累积的置信图{f,b}±1LR帧ILR到对齐的特征中,以获得时间Ct1从上一个时间步传播。在这里,积累的信心图用于稍后在每个递归单元中融合匹配良好的Ref特征最后,每个循环细胞不聚集特征ht{f,b}。具体来说,我们有:w{f,b}=S(ILR,ILR),得到的特征h{tf,b}和累积的匹配不{f,b}t t±1{f,b}{f,b}置信度c{tf,b}到第n个单元格。首先,我们有:{h,c}=F(I,I,I,h,c),b b LR LRRefbht=warp(ht±1,wt),^ht=R{f,b}(It,ht),(三){h,c}=Fb(I,I,I,h,cb)。其中,warp(,)表示扭曲操作,并且w{f,b}是tt t+1tt电话+1电话+1不由流估计网络估计的光流为了重构SR结果ISR,上采样模块U首先获取中间特征h{tf,b}和用于前向分支和后向分支两者的累积匹配置信度c{tf,b}然后,特征被聚合,使用多重卷积和像素混洗进行上采样[22]S. 注意,时间聚集特征h{tf,b}包含从多个LR特征聚集的细节,以及从相邻单元传播的时间Ref特征现在,我们为每个单元Ff和Fb提出参考对齐和传播模块,以融合当前Ref层以产生It。在数学上,我们有:t tSrISR= U(hf,hb,cf,cb)。(二)将帧IRef分解为时间上聚合的特征h{f,b}。3.3. 参考对齐和传播为了使上采样模块U准确地重构在SR中,中间特征h{f,b}应包含de {f,b}我们的参考对齐和传播模块(图。4)由三个子模块组成:余弦相似度,t t从视频序列中的LR帧和Ref帧两者整合的尾部。为此,每个递归单元Ff和Fb执行先前和当前LR输入帧之间的帧间对准,然后聚合并传播特征(第3.2)。要利用多个Ref帧,每个循环像元将当前Ref要素与当前LR帧对齐,并将对齐的Ref要素与聚合要素参考对准和传播时间融合模块。余弦相似性模块计算Ref帧IRef和目标LR帧ILR之间的余弦相似性矩阵,并计算其他两个子模块所需的索引图pt和置信度图ct。参考对齐模块从当前的特征图中提取特征图。参考帧IRef并使用t t使用参考对准和传播模块对先前的参考帧、LR帧和当前LR帧进行比较(第12节)。3.3)。以这种方式,时间上遥远的LR输入帧和Ref帧的特征可以被循环地积分和传播。索引映射pt.然后,传播时间融合模型-ULE将对准的Ref特征与时间上经聚集的特征ht{f ,b}融合。 在下文中,我们将更详细地描述每个模块。FFFFFFUUU我的朋������−1我的朋友我的朋日本+1、、、经纱我经纱我我我我我(一)不˜17827不˜不˜˜不~t±~t不不˜不Refthe ne xt cell(Fig.(五)。请注意,对齐的参考特征h^˜^~^^ctt⊗tt融合。形式上,我们有:不ILR[28,29].最后,模块COM-不不Ref不不↓↓t~t其中p是参考要素的面片索引,即不参考对齐和传播(R P)时间上����系我��������解释性时间融合LR余弦相似度匹配置信度4…5 ������聚合特征IR矩阵...… ……9…2 (匹配指数)�P���于我� �对齐参照要素�系我��我们的团队参考对准参考特征与LR暂时性我们的团队融合指导匹配������̃{��� ������,������}融合{ , }信心累积匹配置信度��������������累积匹配置信度������̃{��� ������,������}我们的团队图4.引用对齐和传播模块。余弦相似模计算索引映射pt和置信图Ct,我们首先将ILR和IRef嵌入到图5.传播时间融合模块。然而,Ref特征hRef的简单融合是容易出错的,因为匹配不一定准确.启发不通过共享编码器不去[26]我以《易经》为鉴,以《易经》为鉴。[24]其中,注意下采样运算符。然后,我们提取3× 3匹配置信度ct,其引导融合模块从具有步幅1的LR和Ref特征图中提取块,并计算它们之间的余弦相似性矩阵C,在hRef中只选择匹配良好的特征。融合模块还需要对传播的参考特征进行引导,了Ci、j是LR的第i个补丁之间的相似性以^h{tf,b}为单位计算。引导的方向应该是节奏。特征图和Ref特征图的第j块。然后,匹配索引图p和置信度图c被计算为:pt,i=argmaxCi,j,ct,i=maxCi,j,(4)与传播管道中维护的传播Ref特征一致的ral信息。为此,我们在整个传播管道中累积匹配置信度,并使用累积置信度作为指南。时间上聚集的特征的 联合t,itLR与LR特征的第i个片最相关的,{f,b}{f,b}{f,b}(五)和 ct,i不分别是它们的匹配置信度ct=warp(ct±1,wt),其中,Ct{f,b}是累积的匹配置信度。参考对齐模块我们使用[ 26 ]中提出的参考对齐模块来获得与ILR对齐的Ref特征,其将用于稍后的融合。该模块首先获取IRef并提取Ref特征hRef。1从邻近的细胞中分离出来。我们使用在等式中预先计算的光流来对准置信度以获得c{f,b}3 .第三章。对于融合,我们提供匹配置信度ctcom-在当前目标帧和参考帧之间然后,使用匹配索引映射pt(等式2),4),我们扭曲Ref特征hRef的片以粗略地对准特征,并且我们还提供对齐匹配置信度c{f,b}补偿可能的贴片间未对准(例如,缩放和旋转)在粗略对齐的参考特征中使用分块仿射空间Transformer[5,10]。我们将最终对齐的Ref特征表示为hRef。解释性时间融合模块最后,我们亲-提出了传播时间融合模块,融合层考虑相邻块的匹配分数,以在融合期间提供更准确的引导[26]。形式上,融合过程被定义为:h{f,b}={conv([ct,<$c{f,b}])<${f,b}{f,b}对准的Ref特征hRef与时间上聚合的特征ht{f,b},并将融合特征h{tf,b}推广到包含当前时间步的Ref特征,而时间聚集特征h{tf,b}包含从相邻递归单元传播的聚集时间为了成功融合,传播时间融合模块必须以conv([ht,ht])}+ht,其中[,]和指示级联操作,元素乘法,分别。对于下一个单元格,我们使用max(,)操作将c累积到{f,b}中,并获得更大的置信度分数。累积过程定义为:c{f,b}=max(ct,c {f,b})。(七)选择与目标帧使得良好匹配的Ref特征可以保持传播到下一个单元。否则,错误的参考特征可能会在流水线中累积,导致模糊的结果。RconcatconvMaxconcatconv我ℎℎℎℎ当前LR帧从邻近的复发细胞中繁殖出来作为指导。匹配的置信度嵌入一个convo-(六)17828不不c和c{f,b}之间的最大运算间接地施加了传播时间融合模块,用于选择性地进行融合,在相应的特征之间传播更好的匹配特征。17829××不××不不不HR×t′∈iitt′t,it′∈C我t我不不不不Σ Σ·′不不磁损失UWSR Tele4. 真实世界4× VSR的训练策略为了训练我们的网络,我们提出了RealMCVSR数据集,它由超宽,广角,在第一项的右手边在方程。利用高斯核滤波帧将结果强加给地面实况超宽帧IHR的低频结构。第二个术语强制网络遵循和长焦视频,其中广角和长焦tHR视频的大小与超宽视频相同,但它们的分辨率是超宽视频的2倍和4倍的It的高频细节。请注意,在第二项中,我们甚至对对齐对ISR使用上下文丢失和HR数据集的详细信息见第2节。五、给定视频三元组,我们训练我们的网络以执行超宽高清视频的4超分辨率,其中广角视频作为参考视频,以获得8K视频。由此产生的8K视频具有与长焦视频相同的分辨率,但16 尺寸更大值得注意的是,我们只使用广角视频作为参考视频。虽然看起来合理的使用远程-It,因为经验证,该损失在提高感知质量方面比设计用于感知的感知损失[11]更好。[18]第十八话。为了引导网络利用多个Ref帧,我们鼓励Ref特征从一个单元格传播到下一个单元格。 受[26]的启发,我们提出了多参考保真度损失。给定超分辨率超宽帧ISR和地面实况广角帧IRefHR,照片视频作为额外的参考视频,以实现分辨率,远摄视频的作用,我们发现它并没有改善不多参考保真度损失定义为:t∈N超分辨率质量很大程度上是因为长焦视频仅覆盖超宽视频的1/16区域详细在补充中提供了讨论和实验ℓMfid=δ(ISR,IRefHR)c阿罗克,训练我们的网络来制作8K视频并不容易,其中,k =[t-k-1,. - 是的- 是的,t+k-1]是在因为没有地面实况8K视频。当我们有22广角和长焦视频,它们既不覆盖整个区域,也不与超宽视频完美对齐到大小为k的时间窗口。在实践中,我们使用k=7在这里,ct′,i是用于加权距离δi(ISR,IRefHR)的匹配置信度。具体地,在训练期间,像素tt′为了克服这一点,我们提出了一种新的训练策略,充分利用广角和长焦视频。具有较高匹配置信度ct′,i的ISR被分配具有更大的权重用于优化。当量9、让我们的网--我们的培训策略包括预培训和适应-阶段。在预训练阶段,我们对超-努力有效利用多个参考框架t∈N 和宽和广角视频4 .然后,我们使用下采样的广角视频作为参考,训练网络4超分辨率下采样的超宽视频。训练是在一个监督的方式使用原来的保持多个Ref帧的细节流过传播管道。我们在训练前阶段的损失定义为:λpre=λrec(ISR,IHR)+λpreλMmax(ISR,IRefHR)。( 十)t t tt∈N超宽视频作为地面实况最后,在自适应阶段,我们对网络进行微调,使其适应原始大小的真实视频。该阶段使用长焦视频作为监督来训练网络以恢复长焦视频的高频细节。以下小节更详细地描述了每个阶段。其中λpre是预训练阶段的多参考保真度损失的权重4.2.真实世界4× VSR为了适应,我们的网络将现实世界的超宽UW和广角IWideHD帧作为LR和Ref4.1.培训前阶段在这个阶段,我们使用两个损失函数来训练我们的网络:由[18,19,26]驱动的重建损失和多参考保真度损失。重建损失使超分辨超宽帧ISR与地面实况超宽帧IHR之间的低频和高频差异最小化。重建损失Δrec定义为:rec=帧,分别。如在预训练阶段中一样,自适应阶段分别处理超分辨率超宽帧ISR的低频和高频。然而,由于不存在可用于ISR的地面实况帧,因此我们对ISR进行下采样,并使用输入超宽帧IUW作为用于恢复低频结构的监督。为了恢复高频细节,我们直接利用长焦作为所提出的多参考保真度t∈N的监督。自适应损失定义为:t,模糊t,模糊t t我8K=||ISR−I|| + λ8KℓMfid(I, I),(11)其中下标模糊指示滤波操作,t↓,模糊t,模糊t t∈一个33高斯核,σ=1。0和λrec是一个权重,第二个任期。δi(X,Y)=minjD(xi,yj)是上下文损失[19],它测量X中的像素xi与Y中最相似的像素yj之间的距离,在某个特征距离测量D下,例如,感知距离[18,19,30]。其中,λ8K是针对多参考保真度损失的权重,适应阶段。第一项要求我们的网络重建输入超宽帧的低频结构,第二项训练我们的网络传输长焦帧的最精细的高频细节。我(九)17830LR↑/ Ref↓双三次基线电子邮件 :info@ptf.com.cn××××××~^^××PSNR↑SSIM↑Params(M)30.71 0.894 4.2768✓31.31 0.913 4.27682019年12月31日表1.定量消融研究。第一行对应于基线模型。PTF和PTF表示使用Eq.9和传播时间融合模块。5. 实验RealMCVSR数据集我们的RealMCVSR数据集提供了由配备三个固定焦距摄像头(超宽(30 mm)、广角(59 mm)和长焦(147 mm))的iPhone 12 Pro Max同时录制的真实高清视频三元组。为了同时记录视频三胞胎,我们构建了一个iOS应用程序,该应用程序提供对曝光参数的完全控制(即,快门速度和ISO)。为了记录每个场景,我们将相机设置为自动曝光模式,其中三个相机的快门速度同步,以避免在视频三重体中变化的运动模糊。ISOs相应地调整每个相机拾取相同的曝光。每个视频使用HEVC/H.265编码以MOV格式保存,具有HD分辨率(1080×1920)。数据集包含图6.定性消融研究。第一列显示LR和Ref真实世界HD输入。对于其余列,我们显示了不同模块组合的放大裁剪的4个SR结果(表1)。红色和绿色框分别表示LR和Ref帧之间重叠的FoV的内部和外部角地面实况参考帧用于计算损失。关于传播时间融合模块,我们使用一个修改的基线模型。具体而言,Eq。6变为:161个视频剪辑的三个单元,总共23,107帧。的{f,b}Ref{f,b}{f,b}视频三元组被分成训练集、验证集和测试集,每个训练集、验证集和测试集分别具有137、8和16个三元组,1,141帧和2,540帧。实现网络使用rectified- Adam [16]进行训练,初始学习率为2。0 10-4,稳步下降至1。0 10-6使用余弦退火策略[17]。 该网络在预训练和自适应阶段分别训练300k和50k次迭代,λrec= 0。01,λpre= 0。05,且λ8K=0。1.一、对于每次迭代,我们从RealMCVSR训练集中随机抽取帧三元组批次。对于预训练阶段,我们对超宽LR和广角Ref帧4使用MATLAB提供的双三次下采样函数imresize。我们从每个帧中的一个三联体中裁剪补丁,以具有重叠的内容,并在每个裁剪窗口上应用随机然后,将超宽LR帧分别裁剪为64 × 64和128 × 128块,用于预训练和自适应阶段广角和长焦Ref帧分别被裁剪成LR贴片大小的2和4个贴片。5.1. 消融研究为了分析我们模型的每个组成部分的效果,我们进行消融研究。首先,我们验证传播时间融合模块的效果6)和多参考保真度损失ΔM(等式6)。第9段)。为此,我们比较了剥离基线模型及其两个变体。基线模型是用megrec和megrec训练的,但是我们为megrec设置了时间窗口大小k=1,这表明只有sin。ht={conv(ct)conv([ht ,ht])}+ ht.对于其他变体,我们从基线模型中逐一恢复关键组件。对于具有最小值的变体,我们使用最小值和最小值训练基线模型,窗口大小k=7。对于最后一个变体,我们附加了传播时间融合模块。为了进行定量和定性比较,我们比较了预训练的模型(第二节)。4.1)和他们的微调模型(第二节)。4.2)分别在建议的RealM-CVSR测试集上进行测试。表1显示了定量结果。该表表明,与基线模型(表中的第一行)相比,使用ARMMANN训练的模型(第二行)显示出更好的VSR性能。另外配备了传播时间融合模块(第三行)的模型在每个测量中都实现了最佳结果。图6示出了定性比较。如图所示,与基线模型(第三列)的结果相比,使用RIMPACK结果证实,MPEG增强了时间Ref特征,以保持通过传播管道的流式传输,以用于重建高保真结果。与传播时间融合模块相连的模型显示了重叠FoV(最后一列)内部和外部的准确恢复结构和增强细节。这表明传播时间融合模块促进良好匹配的Ref特征被融合并流过传播管道。17831××××LR↑/Ref↓双三次曲线,前8 K图7.两阶段训练策略的消融研究我们还验证了所提出的培训策略的效果。具体来说,我们定性比较使用预训练损失函数对模型进行预训练预(等式。10)、表2.RealMCVSR测试集的定量评价并且模型用自适应损失108K进行(等式。第11段)。为了进行比较,我们显示了真实世界高清视频的8K VSR结果。请注意,在现实世界的情况下,没有地面实况可用于定量比较。图7示出了结果。由于真实世界输入和下采样输入之间的域差距,预训练模型不会改善真实世界输入的细节(第三列)。然而,与预训练模型(最后一列)相比,微调模型显示出更高的保真度结果,这要归功于训练网络以适应真实世界视频的适应阶段。5.2. RealMCVSR数据集在这一节中,我们将我们的方法与传统方法进行比较-我们最先进的方法:SRCNN [6],RCAN [31],TTSR [29],DCSR [26],EDVR [27],BasicVSR [4],和IconVSR [4]. SRCNN和RCAN是SISR模型,只采用单个LR帧。TTSR和DCSR是RefSR模型,由一对LR和Ref帧提供。EDVR是基于滑动窗口的VSR模型,其在局部时间窗口中获取多个帧。BasicVSR和IconVSR是具有双向递归框架的VSR模型,其中每个视频帧被馈送到每个时间步长的递归单元。我们用作者提供的RealM-CVSR数据集和代码训练每个模型。定量比较表2示出了定量比较,其中超宽HD帧及其4个下采样帧被用作地面实况和输入参考。为了比较,我们使用我们的模型预先训练与Eq。10(我们的)。此外,为了考虑模型大小和SR质量之间的权衡,我们展示了具有较少参数的较小模型(Ours-small)和附加有[4]中提出的信息填充和耦合传播模块的较大模型(Ours-IR)的结果我们还比较了仅使用损失函数训练的模型(模型用-E1表示),以便与损失函数进行公平比较。使用基于像素的损失训练的模型,例如PSNR1,PSNR2和PSNR(Charbonnier损失[12]),这些模型在PSNR方面优于基于感知的损失[11]。在表2中,虽然RefSR方法显示出比SISR方法更好的性能,但我们的方法优于所有先前的方法。有趣的是,VSR方法优于另外馈送Ref帧的然而,如果我们测量与不同FoV范围相对应的SR帧的区域上的性能,则这不是特别正确的。表3显示了结果。为了进行比较,我们测量了超宽SR和广角Ref帧之间重叠FoV(0%-50%)内区域的SR质量对于重叠FoV之外,我们测量了从重叠FoV(50%)到完整FoV(100%)的不同FoV范围内带状区域的SR性能在该表中,对于输入帧和参考帧之间的重叠FoV(0%-50%),DCSR [26]优于IconVSR [4我们的型号超过所有地区的所有型号。请注意,在表3中,我们的模型显示了重叠FoV内部(0%-50%)和外部(50%-100%)区域之间的性能差距然而,与DCSR的PSNR/SSIM差距(8.5%/4.2%)相比,我们的模型显示出小得多的差距(Ours-IR-NO1:4.2%/1.8%和Ours-IR-NO1:4.2%/1.6%)。结果表明,所提出的架构有效地利用了相邻的Ref特征,用于恢复重叠FoV内部和外部的区域定性比较对于定性比较,我们显示了8K(4320 7280)4 SR视频结果,给出了真实世界的HD(1080 1920)视频。为了进行比较,我们从每种SISR,RefSR和VSR方法中选择最佳模型:RCAN [31],DCSR [26]和IconVSR [4],分别根据RealMCVSR测试集显示的定量性能。我们用建议的训练策略训练每个模型(第二节)。4).RefVSRRefSRVSRSISR模型[13]第十三话PSNR↑26.6529.38SSIM↑0.8000.877参数(M)-0.734[31]第三十一话31.070.91515.89[第29话]30.310.9056.730[29]第二十九话30.830.9116.730DCSR [26]30.630.8955.419[26]第二十六话32.430.9335.419[27]第二十七话33.260.9463.317[27]第二十七话33.470.94820.63[4]第四话33.660.9514.851IconVSR-瑞士[4]33.800.9517.255我们的-小31.630.9121.052我们的-小-100033.880.9511.052我们31.680.9144.277我们的-10134.740.9584.277Ours-IR31.730.9164.774Ours-IR-0134.860.9594.77417832LR↑/ Ref↓(a)双三(c)RCAN [31](d)DCSR [26](e)IconVSR [4](f)我们×针对指定FoV范围内的测量的模型SISRRefSRVSRRefVSR我们的-10136.02 /0.97134.59 /0.95834.31 /0.95634.23 /0.95434.40 /0.95534.50 /0.9544.277Ours-IR-0136.14 /0.97134.66 /0.95934.40 /0.95634.34 /0.95534.52 /0.95534.63 /0.9554.774表3.用不同的FoV范围测量的定量结果。超宽SR帧中FoV的中心50%与广角参考帧的FoV重叠。这里,0%-50%表示重叠FoV内的区域,50%-100%是重叠FoV外的区域。50%-60%是指超宽SR帧的中心50%和60%之间的带状区域。图8.对来自真实世界高清视频的8K 4×图8示出了来自真实世界HD视频的8K 4 SR结果的定性比较。结果表明,非基于参考的SR方法,RCAN和IconVSR,倾向于过度夸大纹理,而非纹理区域倾向于过度平滑。RefSR方法DCSR在重叠FoV(红框)中显示出比RCAN和IconVSR 更好的保真度。然而,DCSR倾向于平滑重叠FoV(绿框)之外的区域。与以前的方法相比,我们的与DCSR相比,我们的模型鲁棒地重建了重叠FoV内部和外部区域之间的平衡保真度。此外,在FoV之外重建的细节和纹理更加照片般逼真。6. 结论我们提出了第一个RefVSR框架,其实际重点是在非对称多相机设置中捕获的视频。为了有效地利用Ref视频序列,我们采用了双向递归框架和pro-提出了传播时间融合模块,以融合和传播与LR特征匹配良好的Ref特征。为了训练和验证网络,我们提供了由真实世界高清视频三元组组成的RealM-CVSR数据集。提出了一种自适应训练策略,以充分利用数据集中的视频三元组在实验中,我们验证了我们的模型中的关键组件的影响,我们的模型,实现了最先进的4×VSR性能。限制与以前的RefSR方法[26,28,29,32]一样,我们的网络消耗相当多的内存来应用真实世界HD帧之间的全局匹配我们计划开发一个内存高效的RefVSR框架。致谢我们感谢Hyeongseok Son的有益讨论,以及Jihye Kim和Anna Choi在收集RealMCVSR数据集方面的帮助这项工作得到了韩国科学和信息通信技术部的支持,通过IITP资助(SW Star Lab,2015-0-00174; AI Innovation Hub,2021-0-02068; 人 工 智 能 研 究 生 院 计 划 ( POSTECH ) , 2019-0-01906 ) 和 NRF 资 助 ( 2018 R1 A5 A1060031; 2020 R1 C1C1014863)。0%50%50%50%50%50%(男)双三25.38 /0.75726.30 /0.78526.42 /0.78926.71 /0.79826.99 /0.80127.29 /0.815-[31]第三十一话29.77 /0.89530.69 /0.90830.86 /0.91031.17 /0.91431.50 /0.91831.80 /0.92115.89[26]第二十六话34.90 /0.96331.96 /0.92731.61 /0.92131.58 /0.91931.81 /0.92131.93 /0.9235.41917833引用[1] Connelly Barnes , Eli Shechtman , Adam Finkelstein ,and Dan B Goldman. PatchMatch:一种用于结构图像编辑的随机对应算法。ACM Trans- actions on Graphics(TOG),28(3),2009. 2[2] 维韦克·布米纳坦,考希克·米特拉,阿肖克·维拉伽·凡.使用混合成像系统改进光场相机的分辨率和景深。在IEEE计算摄影国际会议(ICCP)的会议记录中,2014年。一、二[3] Jose Caballero , Christian Ledig , Andrew Aitken ,Alejan- dro Acosta,Johannes Totz,Zehan Wang,andWenzhe Shi.采用时空网络和运动补偿的实时视频超分辨率。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,2017年。2[4] Kelvin CK Chan,Xintao Wang,Ke Yu,Chao Dong,and Chen Change Loy. Basicvsr:搜索视频超分辨率及更高分辨率的基本组件。在IEEE计算机视觉和模式识别会议(CVPR)上,2021年。二七八[5] Jifeng Dai,Haozhi Qi,Yuwen Xiong,Yi Li,GuodongZhang,Han Hu,and Yichen Wei.可变形卷积网络。在IEEE国际计算机视觉会议(ICCV)的论文集,2017。4[6] Chao Dong , Chen Change Loy , Kaiming He , andXiaoou Tang. 使用 深度卷积 网络的图 像超分 辨率。SpringerEuropeanConferenceonComputerVision(ECCV),2014年。7[7] 炎黄、魏王、梁王。用于多帧超分辨率的双向递归卷积网络。在神经信息处理系统进展(NeurIPS)的会议记录中,2015年。2[8] 炎黄、魏王、梁王。通过双向递归卷积网络实现视频超分 辨 率 . IEEE Transactions on Pattern Analysis andMachine Intelligence ( TPAMI ) , 40 ( 4 ) : 1015-1028,2018。2[9] 矶部隆、徐佳、谷书航、李松江、王胜金、齐天。具有递归结构-细节网络的视频超分辨率。Springer欧洲计算机视觉会议(ECCV),2020年。2[10] Max Jaderberg,Karen Simonyan,Andrew Zisserman,and koray kavukcuoglu.空间Transformer网络。神经信息处理系统进展(NeurIPS),2015年。4[11] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。Springer欧洲计算机视觉会议(ECCV),2016年。五、七[12] 赖伟胜,黄家斌,纳伦德拉·阿胡贾,杨明轩。 深拉普拉斯金字塔网络实现快速和精确的超分辨率。在IEEE计算机视觉和模式识别会议(CVPR)上,2017年。7[13] Christian Ledig 、 Lucas Theis 、 Ferenc Huszar 、 JoseCaballero 、 Andrew Cunningham 、 Alejandro Acosta 、Andrew Aitken、Alykhan Tejani、Johannes Totz、ZehanWang和Wenzhe石使用生成对抗网络的照片逼真的单图像超分辨率。在IEEE计算机视觉和模式识别会议(CVPR)上,2017年。7[14] Sheng Li , Fengxiang He , Bo Du , Lefei Zhang ,Yonghao Xu,and Dacheng Tao.用于视频超分辨率的快速时空残差网络在IEEE计算机视觉和模式识别会议论文集(CVPR),2019年。2[15] 李文博,陶鑫,郭泰安,陆琪,陆江波,贾继亚.Mucan:视频超分辨率多对应聚合网络。Springer欧洲计算机视觉会议(ECCV),2020年。2[16] Liyuan
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功