没有合适的资源?快使用搜索试试~ 我知道了~
4781真实世界视频超分辨率:基准数据集和基于分解的学习方案Xi Yang1,2,*,Wangmeng Xiangg1,2,*,Hui Zengg1,2,Lei Zhangg1,2,†1香港理工大学、2达摩书院、阿里巴巴集团xxxxi. connect.polyu.hk,{cswxiang,cshzeng,cslzhang} @ comp.polyu.edu.hk摘要视频超分辨率(VSR)旨在提高低分辨率(LR)视频的空间分辨率。 现有的VSR方法大多在合成数据集上训练和评估,其中LR视频通过一些简单的算子(例如,双三次下采样)。然而,这种简单的合成退化模型不能很好地描述真实世界视频中的复杂退化过程,因此训练的VSR模型在真实世界应用中变得无效。为了弥补这一差距,我们通过使用iPhone 11 Pro Max的多摄像头系统捕获成对的LR-HR视频序列来构建真实世界视频超分辨率(Re-alVSR)数据集由于LR-HR视频对由两个单独的摄像机捕获,因此它们之间不可避免地存在某些未对准和亮度/颜色差异。为了更鲁棒地训练VSR模型并从LR输入中恢复更多细节,我们将LR-HR视频转换为YCbCr空间并将亮度通道分解为拉普拉斯金字塔,然后将不同的损失函数应用于不同的分量。实验验证了在我们的RealVSR数据集上训练的VSR模型比在真实世界设置下的合成数据集上训练的VSR模型表现出更好的视觉质量它们在跨相机测试中也表现 出 良 好 的 泛 化 能 力 。 数 据 集 和 代 码 可 以 在https://github.com/IanYeung/RealVSR 上 找到。1. 介绍超分辨率(SR)[5]是图像/视频处理和计算机视觉中的经典但具有挑战性的任务,旨在从低分辨率(LR)图像/视频中重建高分辨率(HR)图像/视频。超分辨率技术主要有两个研究方向:单图像超分辨率(SISR)[9]和视频超分辨率(VSR)[1]。*平等捐款。[2]通讯作者。这项工作是由香港研资局RIF补助金(R5001-18)资助LRVimeo-90kRealVSR+ Lv1RealVSR+ Lv2图1. EDVR [27]在合成Vimeo-90 k数据集[31]和我们的RealVSR数据集上训练的真实世界视频(由iPhone 11 Pro Max捕获)的视频超分辨率结果。虽然SISR主要利用图像内的空间冗余,但VSR利用空间和时间冗余来重建HR视频。随着移动成像设备的日益普及和通信技术的快速发展,VSR技术在HR视频生成和增强方面的巨大潜力正受到越来越多的关注。VSR研究的最新进展在很大程度上归功于深度卷积神经网络(CNN)的快速发展[3,31,14,20,25,27,11],它在几个基准VSR数据集上设置了新的最先进技术[31,23]。然而,这些数据集大多是合成的,因为很难收集真实世界的LR-HR视频对。具体地,LR视频是通过使用一些简单的算子(例如,双三次下采样或高斯平滑后的遗憾的是,这种简单的退化模型不能忠实地描述真实世界LR视频中复杂的退化过程作为4782××结果,在这种合成数据集上训练的VSR模型在实际应用中的效果要差得多。一个例子如图1所示,我们可以看到,在广泛使用的Vimeo-90 k数据集[31]上训练的VSR模型在iPhone 11 Pro Max拍摄的真实视频上的超分辨率效果较差。为了补救上述问题,非常期望我们能够具有与真实世界退化更一致的成对LR-HR序列的VSR数据集。构建这样的配对数据集过去是非常困难的,因为它需要同时捕获相同动态场景的精确对齐的LR-HR序列幸运的是,iPhone 11 Pro系列的多摄像头系统使我们朝着这个目标迈出了一大步。如图2所示,iPhone 11 Pro系列中有三个不同焦距的独立摄像头。利用DoubleTake应用程序提供的双重拍摄功能,我们能够使用三个摄像头中的两个捕获两个近似同步的序列然后可以采用一些图像配准算法[4]来对齐LR-HR视频序列对。图2还示出了配准之前和之后的LR-HR对的示例通过这种方式,通过在不同光照下捕获各种室内和室外场景RealVSR提供了一个有价值的基准训练和评估VSR算法的现实世界的退化。由于双相机捕获中的约束,即使在配准之后,LR-HR序列之间也因此,直接训练CNN以简单损失将LR序列映射为了减轻色差的影响,我们通过将RGB视频转换到YCbCr空间来分离亮度和颜色,并专注于边缘和纹理等视频细节的描述。在颜色通道上,我们采用梯度加权损失[30],以便更加关注颜色边缘重建。为了解决Y通道中的小的未对准和亮度差异的问题,我们将预测帧和目标帧的Y通道分解成拉普拉斯金字塔,并且在低频和高频分量上应用不同的损耗如图1,使用所提出的学习策略在我们的数据集上训练的VSR模型再现了更好的视频细节,具有更少的伪影。这项工作的贡献是双重的。首先,构建了一个Re-alVSR数据集(据我们所知,这是第一个此类数据集),以减轻合成VSR数据集的局限性,并为训练和评估真实世界的VSR算法提供了一个新的基准。其次,我们提出了一个具体的训练策略在RealVSR学习VSR模型,重点是细节重建。进行了大量的实验来验证所提出的RealVSR数据集和训练策略。虽然RealVSR数据集是用iPhone11 Pro Max构建的,但在其上训练的VSR模型对其他手机摄像头拍摄的视频也表现出良好的泛化能力。2. 相关工作视频超分辨率数据集。有几个数据集广泛采用的VSR研究。Vimeo-90k[31]是最受欢迎的一个,由从互联网上收集的9万多个七胞胎组成。每个七元组包含7帧的结果256 448。REDS [23]是由GOPRO运动相机捕获的数据集。它由300个序列组成,每个序列包含100帧分辨率为720 -1280。也有一些用于VSR训练的私有数据集[25]。在所有这些数据集中,LR序列是从HR序列合成的,具有简单的退化模型,例如双三次下采样或高斯平滑后的直接虽然这些数据集可以作为研究和评估VSR算法的合理基准,但LR-HR视频对生成所采用的简单退化模型使得它们难以在实践中使用,因为真实世界视频的退化过程要复杂得多。当将在这些数据集上训练的VSR模型应用于真实世界的LR视频时,超分辨率视频通常过于平滑,并且容易出现视觉伪影。这促使我们建立一个真实世界的VSR数据集,以缩小这种合成到真实的差距。真实世界图像超分辨率数据集。 虽然还没有真实世界的VSR数据集,但已经建立并发布了几个真实世界的SISR数据集。Chen等人[6]在仔细控制的室内环境中收集了100对印刷明信片的LR-HR图像对。Zhang等人。[33]通过光学变焦建立了500个户外场景的原始图像SISR数据集,而LR-HR图像对没有很好地对齐。Cai等人[4]也通过光学变焦构建了一个真实世界的SISR基准,但他们开发了一种配准算法来仔细对齐LR-HR图像对,以便CNN的端到端训练易于实现。Wei等人[30]进一步探索了这个想法,并建立了一个更大的基准数据集,其中包含更多的DSLR相机。受现实世界SISR数据集研究的启发,我们提出建立第一个真实世界的VSR数据集,以促进实际VSR的研究。视频超分辨率方法。VSR算法[3,31,14,20,25,27,11]的最新发展在很大程度上受益于深度学习技术的快速发展。现有的VSR算法可以根据帧对齐的方式大致分为两类。第一类算法没有明确的对齐过程。相反,他们采用三维卷积[15]和递归神经网络[11]等技术来利用时空信息。另一类算法采用显式对齐,4783×××图2. iPhone 11 Pro Max的摄像头系统、DoubleTake应用程序、捕获的低分辨率(LR)和高分辨率(HR)序列以及LR-HR视频注册过程。帮助网络更好地利用时空信息。这些算法通常遵循对齐、融合和重建的范式。早期的算法采用光流进行帧对齐。Deep-DE[20]和VSRnet [14]首先使用光流进行运动补偿,然后使用CNN重建HR帧。后来,Caballero等人[3]提出了一种名为VESPCN的端到端解决方案,该解决方案将对齐和重建集成到单个深度学习框架中。DRVSR [25]和TOF [31]采用了类似策略。最近,由于其强大的建模能力,可变形卷积[7,35]已成为对齐的流行特别是,EDVR [27]将多级帧特征与可变形卷积对齐,并将对齐的特征与空间和时间注意力融合。上述VSR算法都是基于合成数据集开发的。在这项工作中,我们建立了一个真实世界的VSR数据集,它具有与合成数据集不同的属性因此,我们将提出一些新的训练策略,以训练有效的真实世界的VSR模型。3. 真实世界的VSR数据集我们的目标是建立一个真实世界的成对LR-HR序列的VSR数据集,它可以作为一个有价值的基准来训练和评估真实世界的VSR算法。该数据集是使用iPhone11 Pro Max手机构建的,该手机具有DoubleTake应用程 序 提 供 的 双 摄 像 头 拍 摄 功 能 。 如 图 2 所 示 ,DoubleTake应用程序可以通过两个不同焦距的摄像头iPhone 11 Pro Max上安装了这三个摄像头都是1200万像素的。具有较大焦距的相机可以捕获具有更精细细节的场景,并且缩放因子等于焦距的比率考虑到超宽镜头畸变严重,裁剪后图像质量较差,我们采用26mm等效相机用于数据集构建的52 mm等效透镜对于每对捕获的视频序列,将具有52mm等效镜头的相机捕获的序列作为地面实况HR序列,而采用具有26mm等效镜头的相机捕获的序列来生成对应的LR序列,从而产生用于2个VSR的数据集。值得一提的是,2缩放是目前实际VSR的主要需求。使 用iPhone 11 Pro Max 相 机和DoubleTake应 用程序,我们捕获了700多个序列对。每对由两个帧速率为30fps和分辨率为1080P的近似同步序列组成。为了确保数据集的多样性,捕获的序列覆盖各种场景,包括室外和室内场景,白天和夜间场景,静止场景和具有移动对象的场景等。通常,具有丰富纹理的场景是首选的,因为它们更有效地训练有用的VSR模型。数据集中的序列涵盖了各种运动,包括相机运动和物体运动。在数据收集后,我们手动选择并排除了约200个质量较差的序列,例如,严重模糊、噪声、过度曝光或曝光不足的视频等。考虑到LR-HR序列之间的不完全同步,我们排除了具有严重错误对齐问题的序列对。经过仔细选择,数据集中剩下500个序列对。图3示出了数据集的一些示例场景和运动统计。更多的例子场景和内容分析可以在补充材料中找到。最后,每个序列对中的LR帧和HR帧需要对齐,以便可以更容易地执行监督VSR模型训练我们采用[4]中提出的图像配准算法逐帧对齐LR-HR考虑到相邻帧之间可能存在一些小的配准漂移,我们通过使用五个相邻帧作为输入来计算中心帧的配准矩阵来扩展[4一旦对齐,我们就在大小为1024 512的中心区域处裁剪对齐的LR和HR序列,以消除边界周围的对齐伪影。图2显示了数据集构建过程。值得注意的4784图3.示例视频场景和构造的RealVSR数据集的运动统计。LR和HR序列在注册后具有相同的大小。为了进一步标准化数据集,我们将所有序列切割为具有相同的50帧长度。最终数据集由500个LR-HR序列对组成,每个序列对其具有50帧长度和1024×512像素大小。4. VSR模型学习4.1. 动机和总体学习框架在大多数现有工作[19,31,26,27]之后,我们将VSR表示为多帧超分辨率问题。给定2N+ 1个连续LR视频帧图五、任何现有的VSR网络都可以在我们的框架中采用建议的训练损失。我们将估计的和地面实况的HR视频转换到YCbCr空间中以解开亮度和颜色,并对不同的分量应用在Y通道上,我们设计了一个基于拉普拉斯金字塔的损失,以帮助网络在较小的亮度差异下更好地重建细节在颜色通道Cb和Cr上,我们采用梯度加权内容损失来关注颜色边缘。为了进一步提高重建的HR视频的视觉质量,我们提出了一个多尺度的基于边缘的GAN损失来指导纹理生成。损失的详细情况将在下一节介绍。(b)LR作物{IL、...、我..., 我们的目标是预测HR版本(a)LR-HR配对(c)HR作物t−Ntt+NH表示为It。视频中有几个图像退化的来源与现有的假设简单的双三次下采样退化的合成VSR数据集[31,23然而,它也提出了更大的挑战,有效地训练振动时效模型。具体而言,从两个相机拍摄的LR-HR视频经历不同的镜头、传感器和ISP流水线,因此表现出不同的失真。我们采用的配准算法[4图4示出了一个示例,其中我们可以看到由于两个相机之间的照明、曝光时间和相机ISP的变化而导致的LR和HR帧之间的轻微全局亮度和色差。我们的目标是恢复图像的细节(边缘,纹理,图4.部分LR- HR序列对存在轻微的亮度和色差4.2. 基于分解的损耗基于拉普拉斯金字塔的亮度通道损失。Y通道包含大部分纹理信息在VSR中,图像细节的重建是关键。VSR研究中常用的损失[19,31,26,27],如L1损失,L2损失和Charbonnier损失[17],对全局亮度差异敏感,因此使用这种损失训练的VSR模型可能会分散学习图像结构和细节的注意力。为了解决这个问题,我们将Y通道分解为拉普拉斯金字塔[2]。低频分量反映了原始图像的整体亮度和总体结构,高频分量反映了原始图像的多尺度细节。通过在低频和高频分量上施加不同的损失,我们能够在允许全局亮度有一定差异的情况下实现更好的细节重建。表示预测的HR亮度通道,等等)。在LR帧中,但不是全局亮度,地面实况HR亮度通道(Y)Y,颜色. 因此,我们提出了一组基于分解的损失,从构建的RealVSR数据集学习一个有效的VSR模型显示了总体学习框架很好如图5所示,我们将它们分解为一个三层拉普拉斯金字塔,用{S0,S1,S2}表示,{S0,S1,S2},其中S0和S0是指4785我LSL LLSSIM0000{−ESi[log(Di(Si,Si))]−ESi[log(1−Di(Si,Si))]},(五)∥∆gw∗Cˆ−∆gw∗C∥L{− }+12,(3)第二个版本,由Lv2,旨在进一步加强-图5.基于分解的VSR模型学习方案的框架低频分量和其他高频分量。Y和Y之间的全局亮度差异主要在于低频分量,并且我们采用SSIM损失[29]来鼓励结构信息重构。与L1损失和L2损失相比,SSIM更关注图像结构,对亮度变化不敏感,这符合我们的目标。结构损耗由下式给出:基于边缘的多尺度GAN损耗。生成对抗网络(GAN)[10]已用于一些SISR方法[18,28]中,以提高估计HR图像的感知质量。然而,这些方法通常直接在全色图像上应用GAN损失,这可能不足以有效地生成纹理。我们通过采用PatchGAN [12]的设计和相对论性平均熵,提出了L=L(S,S)=1−SSIM(S,S)。(一)[13 ]第10段。 将GAN损耗应用于高频通信,拉普拉斯金字塔的S1和S2,由于高频分量基本上没有全局亮度差异,因此我们采用Charbonnier损失来促进精细细节的精确重建。细节损失是L=.S2+2+。S2+12,(2)VSR任务的细粒度区分发电机的不利损失为G=ESi[log(1 Di(Si,Si))]ES[log(Di(Si,Si))],我(四)而对于希腊人来说,d22其中,= 10−31 1∥Σˆ ˆ我色度通道上的梯度加权损失。 与亮度通道相比,色度变化其中,Di是相对论平均值,拉普拉斯金字塔的第i个高频分量。Nels CbCr更平滑。因此我们专注于侦查-最后的损失。 对于重建损失L,L,L和在色度上构造突出的颜色边缘对抗性损失s d c渠道受[ 30 ]的启发,我们在这里采用梯度加权损失。参照图5,分别用C和C表示预测和地面真实HR色度通道。梯度加权颜色损失由下式给出:adv,我们提出了两个版本的VSR网络训练的最终损失。第一个版本,由Lv1表示,专注于精细细节的重建,其将Ls,Ld和Lc组合如下:.2Lv1= Ls+ Ld+ Lc,(6)其中,gw=(1 +wx)(1 +wy),x和y是分别在水平方向和垂直方向上的C的梯度和C的梯度之间的绝对差映射。w= 4是一个加权因子,而ω=10−3是一个小常数。通过生成一些细节来提高视觉质量,定义为Lv2=Lv1+λLadv,(7)其中adv是生成器的G和判别器的D,λ是控制生成器和判别器的程度的参数。是一个小常数。LD=Lc=4786将涉及合成细节。4787×××LLL5. 实验5.1. 实验设置数据集。除了构建的RealVSR,我们还在实验中采用了广泛使用的合成Vimeo-90 k [31]数据集。Vimeo-90 k由超过90,000个分辨率为256448的7帧序列组成。其中,64,612个序列被选为训练集。Vimeo-90 k中的LR序列通过双三次(BI)下采样合成。我们的RealVSR数据集由500个真实世界的LR-HR序列对组成,分辨率为1024 512。每个序列包含50帧。我们随机选择50个序列对作为测试集,剩下的450个序列对作为训练集。VSR网络。 我们通过将5个代表性的和最近开发的VSR模型纳入我们的VSR模型学习框架(参见图5)进行实验:RCAN [34],FSTRN [19],TOF [31],TDAN [26]和EDVR [27]。RCAN是SISR的代表性深度网络我们modify它的VSR连接输入帧沿通道尺寸。FSTRN是一个轻量级的VSR模型,没有显式对齐。它利用可分离的3D卷积的时空信息。TOF是一种典型的VSR模型,它利用光流进行图像域对齐我们将其重建分支替换为具有10个残余块的 残 余 主 干 。 TDAN 是 一 种 具 有 可 变 形 卷 积 的PioneerVSR模型[7]。EDVR是一种功能强大且流行的VSR模型,它使用可变形卷积来执行特征空间对齐对于EDVR,我们采用其适度版本并删除TSA模块,其主要由PCD对齐模块和具有10个剩余块的重建主干组成对于所有方法,我们删除了它们的上采样操作,以适应我们的RealVSR数据集。实施细节。 我们随机地裁剪大小不同的小块192192从训练期间的视频帧中。 最小批处理大小设置为32。通过随机水平翻转和随机90°旋转来执行数据扩充此外,我们采用CutBlur [32]技术来减轻真实世界VSR训练中过拟合的风险。 对于L v2中的权重因子,我们根据经验设置λ = 1e −4。在合成Vimeo-90 k数据集和我们的Re-alVSR数据集上训练的els。使用5个VSR网络(RCAN ,FSTRN,TOF,TDAN,EDVR),在两个数据集上总共训练了10个VSR模型。为了平衡速度和性能,使用3个相邻LR帧来估计中心HR帧。为了公平比较,我们在YCbCr空间中训练了所有10个具有基线Charbonnier(CB)损失的模型。我们在RealVSR测试集上评估了10个训练模型表1列出了完全参考和无参考指标的定量结果。考虑到RealVSR中LR序列和HR序列之间存在细微色差的影响,我们计算了Y通道上的PSNR/SSIM指标,以更准确地反映纹理重建的性能。如表1所示,与基线双三次插值(LR)相比,在合成数据集上训练的VSR模型在SSIM方面仅实现了微小的改进,而在PSNR方面表现更差。这验证了在合成数据集上训练的VSR模型不能很好地推广到具有更复杂退化的相比之下,在我们的RealVSR数据集上训练的所有VSR模型在PSNR/SSIM方面都取得我们还将结果与两种流行的无参考图像质量 指 标 NIQE [22] 和 BRISQUE [21] 进 行 了 比 较 。 在RealVSR数据集上训练的模型也表现出更好的性能。图6示出了用于定性比较的超分辨帧。可以看到,在合成数据集上训练的模型往往会生成模糊的边缘和一些伪影,而在RealVSR上训练的模型会生成更清晰的边缘,并且表现出更少的伪影。这进一步证明了使用具有真实降级的数据来训练鲁棒VSR模型的重要性。更多的视觉例子可以在补充文件中找到。我们进一步比较了用不同数据集训练的VSR结果的时间一致性在RealVSR数据集上训练的模型实现了更好的时间一致性,通过扭曲帧的向量范数差异(T-diff)来测量5.3.损失研究在本节中,我们进行实验,以证明建议的损失Lv1和Lv2的有效性。 我们我们选择Adam [16]作为默认参数的优化器。 对于Lv1的模型训练,我们将初始学习率设置为1e −4。 对于使用Lv2的模型训练,我们使用使用L v1训练的模型权重初始化模型权重,并设置初始值。本研究中使用了两种具有代表性的VSR网络,TOF和EDVR。我们用5种不同的损失来训练模型。其中三个是以盈利为导向的损失。 第一个是YCbCr通道上的基线CB损失(LYCbCr)。的将学习率降到5e−5。在这两种情况下,我们逐渐衰退第二个结合了建议的Ls和LCBY通道上的d学习率与余弦学习率衰减策略在CbCr通道上CB丢失(Ls+LD+LCbCr)。的埃吉 所有的模型都经过了15万次迭代的训练。我们第三个是我们的LCBv1. 另外两个是感知导向的使用PyTorch [24]框架进行所有实验5.2.合成数据集与RealVSR数据集为了证明我们的数据集在真实世界VSR中的优势,我们比较了VSR模型的性能损失一个是将v1与Y通道上的基线RaGAN结合[28],表示为v1 + RaGAN,另一个是我们的v2。在RealVSR测试集上评估使用五种不同损失训练的TOF和EDVR模型,4788LCBCBLLL LLLLLLLCBL L LL表1.在我们的RealVSR测试集上评估的不同VSR模型的定量结果度量双三次(LR)RCAN [34]FSTRN [19][31]第三十一话[26]第二十六话EDVR [27]Vimeo-90kRealVSRVimeo-90kRealVSRVimeo-90kRealVSRVimeo-90kRealVSRVimeo-90kRealVSRPSNR↑24.6724.6625.5024.6325.3024.5825.5924.6425.6224.5825.60SSIM↑0.77980.78360.80560.78800.80040.78840.80810.78480.80610.78380.8102NIQE↓5.06274.72694.04504.70714.10974.47493.97304.70904.10094.63773.9082BRISQUE↓43.107140.319836.093639.735336.259338.657635.488339.344836.233139.459634.9699T-diff↓3.91454.25613.69384.37963.88444.61013.77064.41743.86954.42293.6860LR RCAN(Vimeo-90k)FSTRN(Vimeo-90k)TOF(Vimeo-90k)TDAN(Vimeo-90k)EDVR(Vimeo-90k)来自028序列的HR帧HR RCAN(RealVSR)FSTRN(RealVSR)TOF(RealVSR)TDAN(RealVSR)EDVR(RealVSR)来自374序列的HR帧LR RCAN(Vimeo-90k)FSTRN(Vimeo-90k)TOF(Vimeo-90k)TDAN(Vimeo-90k)EDVR(Vimeo-90k)HR RCAN(RealVSR)FSTRN(RealVSR)TOF(RealVSR)TDAN(RealVSR)EDVR(RealVSR)图6.不同型号RealVSR测试集上的2个定量结果列于表2中。我们通过PSNR和SSIM评估面向感知的模型,通过LPIPS [34]和DISTS [8]评估面向感知的模型。如表2所示,使用s + d + CbCr和v1训练的模型比 使 用 基 线 YCbCr 训 练 的 模 型 获 得 更 好 的PSNR/SSIM结果。正如我们在第4.2节中提到的,考虑到LR和HR序列之间可能存在的未对准和亮度差异,PSNR/SSIM可能无法如实反映VSR模型的改进,而我们在v1中的损失旨在改进这些条件下的帧细节,而不仅仅是PSNR/SSIM。因此,我们进一步可视化了图7中EDVR模型获得的VSR结果。人能可以看出,与基线相比,所提出的基于分解的损失(s + d +CbCr和v1)有助于网络重建更清晰的边缘和更精细的细节,表现出更好的视觉质量。关于面向感知的模型,参考表2,我们提出的v2比v1 + RaGAN产生更好的LPIPS/DISTS分数,证明了基于多尺度边缘的边缘的作用。 关于定性比较,如图7所示,所提出的v2使网络能够生成比v1 +RaGAN更清晰的细节。它还提高了使用v1训练的VSR模型获得的结果的视觉质量。更多的视觉例子可以在补充文件中找到。4789CBCB×LL来自170序列的HR帧LRLYCbCrLs+Ld+LCbCrLv1Lv1+RaGANLv2图7.来自RealVSR测试集的视频的×2VSR结果,由EDVR [27]模型训练,具有不同的损失。OPPO Reno 2 LR Vimeo-90kRealVSR+Lv1RealVSR+Lv2华为Mate 30 Pro LR Vimeo-90kRealVSR+Lv1RealVSR+Lv2图8. 2在RealVSR数据集之外的真实世界视频上的VSR结果,由EDVR [27]模型在合成Vimeo-90 k [31]和我们的RealVSR上训练。表2.关于损失的消融研究。在Y通道上进行PSNR/SSIM评价。在RGB通道上评估LPIPS/DISTS。忠诚导向的比较模型LYCbCrCBLs+Ld+LCbCrCBLv1PSNR↑SSIM↑PSNR↑SSIM↑PSNR↑SSIM↑[31]第三十一话25.590.808125.650.811025.660.8115EDVR [27]25.600.810225.830.813025.830.8131感知导向比较模型Lv1Lv1+RaGANLv2LPIPS↓联系我们LPIPS↓联系我们LPIPS↓联系我们[31]第三十一话0.26360.08570.26250.08610.26220.0810EDVR [27]0.26120.08690.25980.08520.24590.07665.4.真实世界视频测试为了进一步证明我们的RealVSR数据集的优势和提出的训练损失,我们在数据集之外的几个真实世界视频上评估了训练模型。测试视频由几个手机摄像头模块拍摄。在Vimeo-90 k [31]和Re-alVSR上训练的EDVR[27]模型的VSR结果如图1和图8所示。与在合成Vimeo-90 k 数 据 集 上 训 练 的 模 型 相 比 , 在 我 们 的RealVSR数据集上训练的模型具有损失v1,重建了更清晰的边缘和更少的伪影。此外该使用损失v2训练的模型丰富了细节和纹理,进一步提高了视觉质量。更多的视觉示例和视频演示可以在补充文件中找到。6. 结论在本文中,我们建立了第一个,据我们所知,真实世界的VSR数据集与配对的LR-HR序列的各种场景,试图弥合合成到真实的差距,在VSR研究,并提供一个基准的训练和评估不同的VSR算法。考虑到捕获的LR-HR序列之间不可避免的微小错位和亮度/颜色差异,我们提出了一种基于拉普拉斯金字塔的损失,以帮助VSR网络更好地重建视频帧细节。我们进一步提出了一个多尺度的边缘为基础的边缘引导细节和纹理的生成,并提高视觉质量的生成HR序列。我们的实验表明,在我们的数据集上使用所提出的学习方案训练的VSR模型在真实世界的视频上表现出比在合成数据集上训练的更好的视觉质量。它们也可以推广到其他手机摄像头拍摄的视频。4790引用[1] Christopher M Bishop , Andrew Blake 和 BhaskaraMarthi。视频的超分辨率增强。载于AISTATS,2003年。1[2] 彼得·伯特和爱德华·阿德尔森。拉普拉斯金字塔作为一个 紧 凑 的 图 像 代 码 。 IEEETransactions oncommunications,31(4):532-540,1983. 4[3] Jose Caballero 、 Christian Ledig 、 Andrew Aitken 、Alejandro Acosta 、 Johannes Totz 、 Zehan Wang 和Wenzhe Shi。结合时空网路与运动补偿之即时视讯超解析。在IEEE计算机视觉和模式识别会议集,第4778-4787页一、二、三[4] Jianrui Cai,Hui Zeng,Hongwei Yong,Zisheng Cao,and Lei Zhang.迈向真实世界的单图像超分辨率:一个新的基准和一个新的模型。在IEEE计算机视觉国际会议论文集,第3086-3095页,2019年。二、三、四[5] 苏巴西斯·乔杜里超分辨率成像,第632卷。Springer Science Business Media,2001. 1[6] 常晨,熊志伟,田心梅,查正军,凤舞。相机镜头超分辨率。在IEEE计算机视觉和模式识别会议论文集,第1652-1660页,2019年。2[7] 戴继丰、齐浩之、宇文雄、李毅、张国栋、韩虎、魏一晨。可变形卷积网络。在IEEE计算机视觉国际会议论文集,第764-773页,2017年。三、六[8] Keyan Ding , Kede Ma , Shiqi Wang , and Eero PSimoncelli.图像质量评估:统一结构和纹理相似性。arXiv预印本arXiv:2004.07728,2020。7[9] 丹尼尔·巴克纳,沙伊·巴贡,米哈尔·伊拉尼。从一个单一的图像超分辨率。2009年IEEE第12届国际计算机视觉会议,第349IEEE,2009年。1[10] Ian Goodfellow , Jean Pouget-Abadie , Mehdi Mirza ,Bing Xu , David Warde-Farley , Sherjil Ozair , AaronCourville,and Yoonne Bengio.生成对抗网。 神经信息处理系统的进展,第2672-2680页,2014年5[11] 炎黄、魏王、梁王。通过双向递归卷积网络实现视频超分 辨 率 . IEEE transactions on pattern analysis andmachine intelligence , 40 ( 4 ) : 1015-1028 , 2017 。一、二[12] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络进行图像到图像的翻译。在IEEE计算机视觉和模式识别会议论文集,第1125-1134页,2017年。5[13] Alexia Jolicoeur-Martineau.相对论性量子点:标准gan中缺 失 的 一 个 关 键 元 素 。 arXiv 预 印 本 arXiv :1807.00734,2018。5[14] Armin Kappeler , Seunghwan Yoo , Qiqin Dai , andAggelos K Katsaggelos.卷积神经网络视频超分辨率IEEETransactions on Computational Imaging,2(2):109-122,2016。一、二、三[15] Soo Ye Kim , Jeongyeon Lim , Taeydong Na , andMunchurl Kim. 3dsrnet:使用3d卷积神经网络的视频超分辨率arXiv预印本arXiv:1812.09079,2018。2[16] Diederik P Kingma和Jimmy Ba。Adam:一种随机优化方法。arXiv预印本arXiv:1412.6980,2014年。6[17] 赖伟胜,黄家斌,纳伦德拉·阿胡贾,杨铭轩。深度拉普拉斯金字塔网络实现快速准确的超分辨率。在IEEE计算机视觉和模式识别会议论文集,第624-632页,2017年。4[18] ChristianLedig , LucasTheis , FerencHusza'r , JoseCaballero , Andrew Cunningham , Alejandro Acosta ,Andrew Aitken,Alykhan Tejani,Johannes Totz,ZehanWang,et al. Photo-realistic single image super-resolutionusing a generative ad- versarial network.在IEEE计算机视觉和模式识别会议论文集,第4681-4690页5[19] Sheng Li , Fengxiang He , Bo Du , Lefei Zhang ,Yonghao Xu,and Dacheng Tao.用于视频超分辨率的快速时空残差网络在IEEE计算机视觉和模式识别会议论文集,第10522-10531页四、六、七[20] Renjie Liao,Xin Tao,Ruiyu Li,Ziyang Ma,and JiayaJia.通过深度草稿集成学习实现视频超分辨率。IEEEInternational Conference on Computer Vision,第531-539页,2015年。一、二、三[21] 阿尼什·米塔尔,阿努什·克里希纳·穆尔蒂,艾伦·康拉德 · 博 维 克 . 空 间 域 无 参 考 图 像 质 量 评 价 。 IEEETransactions on Image Processing , 21 ( 12 ) : 4695-4708,2012。6[22] Anish Mittal、Rajiv Soundararajan和Alan C Bovik。制作“ 全 盲 ” 图 像 质 量 分 析 仪 。 IEEE Sign-nal processingletters,20(3):209-212,2012. 6[23] Seungjun Nah , Sungyong Baik , Seokil Hong ,Gyeongsik Moon , Sanghyun Son , Radu Jumfte 和Kyoung Mu Lee。Ntire 2019年视频去模糊和超分辨率挑战:数据集和研究。在IEEE计算机视觉和模式识别研讨会会议论文集,第0-0页,2019年。一、二、四[24] Adam Paszke,Sam Gross,Soumith Chintala,GregoryChanan,Edward Yang,Zachary DeVito,Zeming Lin,Al-ban Desmaison , Luca Antiga , and Adam Lerer.pytorch中的自动微分。在NIPS-W,2017年。6[25] Xin Tao,Hongyun Gao,Renjie Liao,Jue Wang,andJiaya Jia.细节揭示深视频超分辨率。在IEEE计算机视觉国际会议的Proceedings中,第4472-4480页,2017年。一、二、三[26] Yapeng Tian,Yulun Zhang,Yun Fu,and Chenliang Xu.Tdan:用于视频超分辨率的时间可变形对齐网络。在IEEE/CVF计算机视觉和模式识别会议论文集,第3360-3369页,2020年。四、六、七[27] Xintao Wang,Kelvin CK Chan,Ke Yu,Chao Dong,and Chen Change Loy. Edvr:使用增强的可变形卷积网络进行视频恢复。在IEEE计算机视觉和模式识别研讨会会议集,第0-0页,2019年。一、二、三、四、六、七、八4791[28] Xintao Wang,Ke Yu,Shixiang Wu,Jinjin Gu,YihaoLiu , Chao Dong , Y
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功