没有合适的资源?快使用搜索试试~ 我知道了~
基于神经压缩的特征学习用于视频恢复
𝑐𝑡Noise frame 𝑥𝑡Noise frame 𝑥𝑡features 𝒄𝒕temporal features 𝒄𝒕(c) t-SNE visualization of 𝒄𝒕, 𝒄𝒕, and 𝒄𝒕𝒈𝒕𝒄𝒕𝒄𝒕𝒄𝒕𝒈𝒕features 𝒄𝒕58720基于神经压缩的特征学习用于视频恢复0Cong Huang 1 * Jiahao Li 2 Bin Li 2 Dong Liu 1 Yan Lu 201 中国科学技术大学 2 微软亚洲研究院0hcy96@mail.ustc.edu.cn, dongeliu@ustc.edu.cn, {li.jiahao, libin, yanlu}@microsoft.com0摘要0如何高效利用时间特征对于视频恢复至关重要,但也具有挑战性。时间特征通常包含各种噪声和不相关的信息,它们可能干扰当前帧的恢复。本文提出了学习抗噪声特征表示以帮助视频恢复。我们受到神经编解码器是自然去噪器的启发。在神经编解码器中,难以预测但占用大量比特的噪声和不相关内容更倾向于被丢弃以节省比特率。因此,我们设计了一个神经压缩模块来过滤噪声并保留特征中最有用的信息以进行视频恢复。为了实现对噪声的鲁棒性,我们的压缩模块采用了一种空间-通道自适应量化机制,以自适应地确定每个位置在潜变量中的量化步长。实验证明,我们的方法在视频去噪方面可以显著提升性能,仅使用0.23倍的FLOPs就可以比BasicVSR++提高0.13dB。同时,我们的方法在视频去雨和去雾方面也取得了SOTA结果。01. 引言0视频恢复旨在从退化的输入中恢复高质量的视频。典型的退化包括各种噪声、雨、雾等。它具有广泛的应用,但这个问题仍然未被充分探索。与侧重于单个图像的内在属性的图像恢复不同,视频恢复更依赖于提取和利用时间特征以获得更好的质量。最近的视频恢复方法主要集中在网络结构设计上,以更好地提取时间特征。例如,RViDeNet和EDVR使用可变形卷积对相邻帧的特征进行对齐。BasicVSR设计了一个双向特征传播网络。BasicVSR++引入了二阶网格传播网络结构和流引导0*本工作是在Cong Huang在微软亚洲研究院实习期间完成的。0恢复0恢复0特征解码器0先验模型0特征编码器0(a)以前的视频恢复框架0(b)我们的视频恢复框架0(d)PSNR-运行时间比较0FastDVDNet0EMVD-L0BasicVSR0EDVR0嘈杂的时间0抗噪声的0直接融合而没有任何细化0基于神经压缩的0特征学习0嘈杂的时间0自适应0量化0图1.(a)以前的没有时间特征细化的框架。(b)我们的基于神经压缩的特征学习框架。(c)t-SNE可视化。c gtt是从干净视频(hypersmooth,Set8)中采样的。对于c t和˜ ct,我们对相同的输入视频添加不同的加性白噪声(相同的噪声σ但不同的噪声随机种子)来采样这些特征点。结果显示,˜ ct对噪声更具鲁棒性,并且更接近于c gtt。(d)视频去噪性能比较(Set8,噪声σ = 50)。0可变形对齐网络。然而,这些方法直接使用提取的时间特征而没有进行任何细化。时间特征通常包含大量噪声和无关信息,这干扰了当前帧的恢复。本文以视频去噪为案例研究,探索如何高效利用提取的时间特征。我们提出了一种新颖的基于神经压缩的解决方案来细化特征并学习抗噪声的特征表示。58730从神经编解码器的角度来看,噪声数据通常包含大量高频内容,很难预测。为了节省比特率,编解码器倾向于丢弃这些噪声和不相关的内容。这激发了我们设计一个神经压缩模块,用于净化时间特征并过滤其中的噪声信息以进行视频恢复。为了实现对噪声的鲁棒性,即让噪声扰动数据的表示以高概率映射到与干净数据相同的量化表示,需要适当设置量化步骤。然而,大多数现有的神经压缩框架只支持固定的量化步长。这无法满足我们的目的,甚至会损害固有的纹理。为了解决这个问题,我们在空间通道上设计了一个自适应量化机制,用于我们的压缩模块,其中量化步骤是由我们的先验模型学习的。我们的量化机制可以自适应地净化具有不同内容特征的特征。在训练过程中,使用交叉熵损失来指导压缩模块的学习,并帮助保留最有用的信息。图1显示了框架比较。从图1(c)中显示的t-SNE[35]可视化结果中,我们发现,通过我们基于神经压缩的特征学习,特征对噪声更加鲁棒,并且更接近于从干净视频生成的特征。图1(d)是性能比较。我们观察到,由于噪声鲁棒特征表示的增强,我们的框架在恢复质量方面显著优于先前的最先进方法。本文的主要贡献总结如下:•我们提出了一种新颖的基于神经压缩的特征学习方法用于视频恢复。经过我们的压缩模块处理后,特征对噪声更加鲁棒,从而提高了恢复质量。•为了实现对噪声的鲁棒性并自适应地净化具有不同内容特征的特征,我们在空间通道上设计了一个可学习的量化机制。•为了进一步提高性能,我们还设计了一个注意力模块来帮助特征学习,并设计了一个运动矢量细化模块来改善从噪声视频中估计的不连续运动矢量。•我们提出了一个轻量级的框架。与先前的最先进方法相比,我们的方法在视频去噪、去雨和去雾方面实现了更好的质量-复杂度平衡。02. 相关工作02.1. 视频恢复0滑动窗口方法和循环方法。滑动窗口方法将几个相邻帧作为每一帧的输入。一些方法[10,34]不依赖于显式的运动对齐。VNLNet[10]使用非局部模块在帧之间搜索相似的块。FastDVDNet[34]使用堆叠的U-Net[32]逐步融合不对齐的相邻帧。相比之下,ToFlow[39]和DVDNet[33]使用运动估计组件来明确对齐相邻帧。为了探索更多的时间相关性,RViDeNet[43]和EDVR[36]提出了特征域对齐。它们对齐相邻帧的特征而不是原始像素,这个机制被大多数最新的方法采用。滑动窗口方法受限于狭窄的时间范围,无法利用滑动窗口之外的信息。相比之下,循环方法学习长时间范围内的时间特征,并且取得更好的性能。EMVD[25]将所有过去的帧循环地组合为辅助信息。Yan等人[40]提出了一个循环特征传播框架,无需显式对齐。BasicVSR[7]中的特征传播使用了显式对齐。最近,BasicVSR++[8]通过使用二阶网格传播结构和流引导的可变形对齐模块实现了出色的性能。02.2. 视频压缩0传统的视频编解码器,例如H.264和H.265,采用了预测、变换、量化、熵编码和环路滤波等混合框架。受益于神经图像压缩[3, 4, 27]的进展,神经视频压缩[2, 17, 19, 20,24]最近也有了很大的发展。例如,Lu等人[24]设计了DVC模型,该模型遵循传统视频编解码器的框架,但使用神经网络来实现其中的所有模块。在DVC之后,Agustsson等人[2]在尺度空间中设计了更先进的光流估计。最近,Li等人[17]提出了一种基于条件编码的框架,实现了更好的性能。03. 动机0我们的动机来自于视频压缩可以过滤噪声。视频压缩旨在以最少的比特率成本来表示视频。对于传统编解码器,噪声内容的残差通常很大,因为它们很难从参考帧中预测出来。这些残差包含了许多高频内容,并且会消耗许多比特。为了实现比特率的节省,传统编解码器使用量化来丢弃噪声内容的残差,特别是其中的高频内容,这类似于一个低通滤波器。我们使用传统编解码器x265[1]进行了一个分析实验,如图2所示。从图2(c)可以看出,传统编解码器x265可以以一种58740(b)作为编解码器输入的有噪声视频(c)通过x265压缩0BPP: 0.05980(d)通过x265压缩0BPP: 0.16950(e)通过神经编解码器压缩0BPP: 0.07460(a)无噪声视频0图2. 在压缩有噪声的视频(加性白高斯噪声,σ =20)时,传统编解码器x265[1]和神经编解码器[17]之间的比较。BPP表示每像素的比特数,用于衡量比特率成本。0在很大程度上。图2(d)显示,当分配更多的比特时,x265将以更平滑的方式对噪声进行编码。与使用线性离散余弦变换(DCT)的传统编解码器不同,神经编解码器将学习一个神经编码器,将视频从像素域转换为潜在特征域。然后对潜在特征进行量化,并估计其分布以执行算术编码。更准确地预测分布,可以实现更多的比特率节省。然而,噪声和不相关内容的分布很难预测。因此,为了节省比特率,这些内容更倾向于通过交叉熵损失进行丢弃。图2(e)显示了神经编解码器的有效性[17](模型权重由[17]的作者提供)。特别是,与x265相比,神经编解码器可以更好地去除其中的噪声并保留更多的语义信息。受到这个分析的启发,我们提出利用神经编解码器来帮助视频恢复。神经编解码器用于通过量化来过滤特征中的噪声信息。如果正确学习了量化步骤和数据分布,受噪声干扰的数据的表示将以高概率映射到与干净数据相同的量化表示。噪声鲁棒的特征表示将提高最终的恢复质量。使用神经编解码器而不是传统编解码器的另一个优点是,神经编解码器可以进行端到端的训练,并且在与其他恢复模块联合训练时性能更好。04. 提出的方法04.1. 框架概述0我们设计了一个基于神经压缩的视频恢复框架。我们的框架包含三个部分:特征对齐、用于学习噪声鲁棒特征表示的特征细化和特征融合。框架如图3所示。特征对齐。给定有噪声的帧xt−1和xt,我们首先使用运动估计来估计运动矢量(MV)mvt。然后我们设计了一个MV细化模块0为了改善从嘈杂视频中估计得到的不连续MV mv t,我们提出了一个模块来改善MV。通过改进的MV � mv t,通过双线性变换函数获得粗糙特征 ˆ c t。特征细化。由于 ˆ c t包含一些噪音和不相关的信息,我们提出了一个基于神经压缩的特征细化方法来净化特征。值得注意的是,我们的特征细化部分包括两个模块。一个是注意力模块,另一个是用于噪音鲁棒特征学习的神经压缩模块。特征融合。通过噪音鲁棒特征 ˜ c t 和当前帧 x t ,通过修复模块生成最终输出帧 yt 。除了 y t ,修复模块还会生成用于下一步的时间特征 c t。04.2. 特征对齐0为了将上一步的时间特征与当前帧对齐,我们需要预测MV。在我们的论文中,我们使用预训练的光流估计网络SPyNet[30]作为我们的运动估计模块。然而,从退化的帧中准确估计MV是非常困难的。如图4(a)所示,没有任何处理的MV受到破坏和不连续性的影响,与图4(c)中从干净帧估计得到的MV相比不准确。为了解决这个问题,我们提出使用MV细化模块来改进MV。MV细化模块采用轻量级的自动编码器结构。它将受损的MV编码为紧凑的表示,然后解码为精细化的MV。详细的网络结构可以在补充材料中找到。如图4(b)所示,通过我们的MV细化,MV更清晰,更接近于干净帧的MV。04.3. 通过神经压缩进行特征细化0以往的递归方法直接融合当前帧和对齐的时间特征,没有进行任何细化。实际上,时间特征可能仍然包含一些噪音和不相关的信息,这会干扰当前帧的修复。Noisy frame 𝒙𝒕−𝟏Feature 𝒄𝒕−𝟏Aligned feature ො𝒄𝒕Feature 𝒄𝒕෦𝒎𝒗𝒕𝒎𝒗𝒕𝒕𝒕𝒎𝒕𝒙𝒕𝒕To achieve the robustness to noise, the quantization is ap-plied to et.The et[sk, sk+1) is quantized to valueˆet = ⌈et − µtqt⌋ ∗ qt + µt.(2)58750运动0估计0嘈杂帧 � �0C0特征对齐0通过神经压缩进行特征细化 特征融合0输出 �� �0[ � � , � � , � � ]0�� � C0MV0细化0修复0特征编码器0特征解码器0C串联0逐元素乘法0自适应量化0双线性变换0先验模型0图3. 我们方法的整体框架。每个模块的详细网络结构可以在补充材料中找到。0(a) 细化前的MV (b) 细化后的MV (c) 从干净帧得到的MV0图4.MV比较示例。我们发现MV在ME细化后更准确、更接近于干净帧的MV。放大以获得更好的视图。0为了解决这个问题,我们提出了一个特征细化过程来学习噪音鲁棒的特征表示。这个过程包括两个模块,即注意力模块和神经压缩模块。关于注意力机制,许多论文[14, 26, 28,46]已经研究过并证明了其有效性。因此,我们设计了一个注意力模块来缩放时间特征以帮助特征学习。为了在性能和复杂性之间取得良好的平衡,我们设计了一个基于自动编码器的注意力网络,其详细的网络结构可以在补充材料中找到。在注意力模块之后,通过我们提出的神经压缩模块,时间特征 ˇ c t 将被净化。按照神经图像/视频压缩[4, 17,24]的设计,我们的神经压缩模块包括特征编码器-解码器、量化过程和先验模型。首先,时间特征 ˇ c t通过特征编码器被编码为紧凑的潜在代码 e t:0e t = 编码器 (ˇ c t ) . (1)02 ,其中 s k 和 s k +1 表示数值范围。设 ¨ c t = ˇ c t+ ϵ 为带有噪声 ϵ的噪声特征。在假设编码器是Lipschitz连续的情况下,0¨ e t = 编码器 (¨ c t ) 和 e t = 编码器 (ˇ c t )如果量化步长 s k +1 − s k相对较大,则它们很可能位于相同的区域 [ s k , s k +1 ),那么它们具有相同的量化值。这意味着,量化表示对噪声输入具有鲁棒性。然而,鲁棒性取决于数据分布和量化步骤的适当学习。大多数现有的神经图像/视频压缩量化解决方案仅使用固定的量化步骤。实际上,内容特征在空间上有很大的变化。固定的量化步骤无法很好地处理各种复杂内容。例如,固定的小量化步骤无法去除噪声信息。相反,固定的大量化步骤会导致大量信息丢失(即固有的量化噪声)。因此,我们提出了一种自适应量化机制,其中学习量化步骤。示例如图5所示。首先,将 e t 除以学习到的量化步长 q t,然后将商四舍五入为最接近的整数。最后,通过相反的操作获得量化的潜在编码 ˆ e t 。公式如下:0�∙� 是整数四舍五入操作。通过量化的潜在编码 ˆ e t,可以通过特征解码器获得抗噪声的时间特征 ˜ c t :0˜ c t = 解码器 (ˆ e t ) . (3)0如前所述,为了实现噪声鲁棒性,需要适当学习数据分布和量化步骤。在实践中,我们不知道数据分布,因此使用先前模型来估计数据分布,然后使用𝝁𝒕𝒒𝒕Round𝒆𝒕ො𝒆𝒕CE 𝑳𝒐𝒔𝒔𝝁𝒕CE𝝁𝒕ු𝒄𝒕pˆet(ˆet) =�i(L(µt,i, σ2t,i) ∗ U(−qt,i2 , qt,i2 ))(ˆet,i),(5)Loss =n58760分割 � �0先前模型0图5. 自适应量化机制的示意图。CE表示交叉熵。0交叉熵损失用于指导数据分布和量化步骤的学习。交叉熵损失的公式如下:0损失 CE = E ˆ e t [ − log 2 p ˆ e t (ˆ e t )] , (4)0其中 p ˆ e t (ˆ e t ) 是潜在编码 ˆ e t的估计概率质量函数。在本文中,我们遵循[15,17]的方法,假设 p ˆ e t (ˆ e t )服从拉普拉斯分布。先前模型由神经网络组成,用于估计分布参数。先前模型的详细结构可以在补充材料中找到。但与[15, 17]不同的是,我们的先前模型还学习了量化步长 q t。通过 ( µ t , σ t , q t ) ,可以计算 p ˆ e t (ˆ e t )的概率估计值如下:0其中 i 指定 ˆ e t 中每个元素的空间位置。根据公式 5中的概率质量函数,可以通过公式 4计算交叉熵损失。交叉熵损失指导压缩模块学习适当的数据分布和量化步骤,从而实现对噪声的鲁棒性。在我们的框架中,空间通道的量化步骤 q t是可学习的。它可以适应具有不同内容特征的区域。我们在图6中可视化了一个通道的量化步骤图例。像素强度表示量化步骤的大小。较大的像素强度表示应该消除的更多噪声信息。如图6所示,平滑区域的量化步骤大小通常较大,因为其中的噪声信息更容易去除。相反,纹理区域(例如背景海报中的桌子,实际上存在许多细节)的量化步骤大小通常较小。04.4. 特征融合0特征融合部分包含一个恢复模块。它将抗噪声的时间特征 ˜c t 与当前帧 x t 融合,然后生成最终的输出帧 ˜ y t 。0(a)当前帧(b)量化步长图0图6.输入帧和相应的学习量化步长图的可视化示例。帧来自Johnny,HEVC Class E数据集[5]。0值得注意的是,除了最终的输出帧 ˜ y t,恢复模块还生成了下一步使用的时间特征 c t,类似于[7]。我们的恢复模块基于轻量级的U-Net[32]。详细的网络结构可以在补充材料中找到。04.5. 损失函数0在我们的方法中,损失函数包括两个项:0t =1 L oss L 2 ( y t , ˜ y t ) + λ ∙ L oss CE (ˆ et ) . (6)0y t 和 ˜ y t 分别是干净帧和估计帧。L oss L 2 是L2损失,Loss CE是交叉熵损失。为了学习抗噪声的特征表示,并让其帮助最终的重建,我们采用了两阶段的训练方案,详细信息请参见补充材料。05. 实验0我们在几个视频恢复任务上评估了我们的方法,包括去噪、去雨和去雾。05.1. 数据集0视频去噪。我们测试了合成数据集和真实世界数据集。对于合成数据集,我们遵循FastDVDNet[34]的设置。使用包含90个视频的DAVIS2017训练-验证集进行训练。使用Set8进行测试。我们向干净视频添加加性白噪声(AWGN)以合成噪声视频。测试了五个噪声水平,即σ=10、20、30、40、50。对于真实世界数据集,我们遵循EMVD [25]的设置,并使用RViDeNet[43]的数据集。它包括一个捕获的原始视频数据集(CRVD)和一个合成的原始视频数据集(SRVD)。按照EMVD和RviDeNet的要求,我们使用CRVD场景1�6加上SRVD进行训练,使用CRVD场景7�11进行测试。视频去雨。根据[42]的要求,我们在RainSynComplex25 [21]和RainSynAll100[42]数据集上测试我们的方法。RainSynComplex25包含190个用于训练和25个用于测试的视频。RainSynAll100包含900个用于训练和100个用于测试的视频。1037.10/0.963736.08/0.959236.44/0.962436.56/0.962435.01/0.944237.16/0.965837.12/0.967437.27//0.968237.17/0.96842033.88/0.936033.49/0.930733.43/0.933433.27/0.932031.65/0.892734.09/0.937934.13/0.939734.25/0.941134.22/0.94373031.95/0.909631.79/0.902331.68/0.906631.40/0.903229.94/0.867832.31/0.912532.33/0.915732.55/0.916832.57/0.91844030.55/0.881430.55/0.874530.46/0.881230.05/0.876128.64/0.832831.02/0.888731.05/0.892931.28/0.893631.39/0.89705029.47/0.856129.56/0.848029.53/0.857329.15/0.852827.83/0.808230.06/0.866030.11/0.869030.32/0.869630.45/0.8770FLOPs (G)--66511065308929473402771PSNR44.3044.7144.0844.4842.6344.8044.9844.7245.09SSIM0.98810.99020.98810.98950.98510.99030.99030.99060.990958770σ VNLnet [10] DVDNet [33] FastDVDNet [34] EMVD-L [25] EMVD-S [25] EDVR [36] BasicVSR [7] BasicVSR++ [8] 我们的方法0表1. 在合成数据集Set8上与SOTA视频去噪方法的PSNR/SSIM比较。最佳性能以红色(第一名)和蓝色(第二名)突出显示。我们的方法在所有噪声水平上都实现了最佳的SSIM。0FastDVDNet [34] EDVR [36] RViDeNet [43] EMVD-L [25] EMVD-S [25] BasicVSR [7] BasicVSR++ [8] 我们的方法 我们的方法-L0运行时间(ms)132 1511 1254 246 59 425 488 188 2750表2. 在真实世界数据集CRVD[43]上与SOTA视频去噪方法的比较。我们的方法在默认设置下优于其他快速方法,并接近慢速方法。通过使用更强大的恢复模块(即'Ours-L'),我们可以在PSNR和SSIM方面实现SOTA性能。运行时间是在P100 GPU上对整个数据集的平均帧运行时间。0视频去雾。我们使用REVIDE[45]数据集,该数据集通过一个采集系统在同一场景中捕获了有雾和相应无雾的视频对。它包含42个用于训练和6个用于测试的视频。05.2. 视频降噪结果0我们将我们的方法与以下基线进行比较:VNL-Net[10],DVDNet [33],FastDVDNet [34],EMVD[25],EDVR [36],BasicVSR [7],BasicVSR++[8]和RVi-DeNet[43]。EMVD具有不同复杂度的几种网络结构配置。测试了大型(EDVR-L)和小型(EMVD-S)模型(有关配置的更多细节请参见补充材料)。原始的BasicVSR/BasicVSR++是双向方法,利用未来和过去帧的时间特征。为了更公平地与其他方法进行比较,我们将BasicVSR/BasicVSR++修改为仅使用过去帧的时间特征的单向方法。定量比较。我们使用峰值信噪比(PSNR)和结构相似性指数(SSIM)作为定量评估指标。我们在合成噪声视频上呈现结果表1和在真实世界噪声视频上的结果表2。对于合成视频,如表1所示,我们的方法在所有噪声水平上都实现了最佳的SSIM。对于PSNR,当噪声水平较高(σ =40或50)时,我们的方法比第二好的方法BasicVSR++[8]至少提高了0.11dB。此外,我们发现在噪声水平较高时,与BasicVSR++相比,质量改进更大。这验证了我们提出的神经压缩模块可以有效过滤噪声。值得注意的是,我们的方法的FLOPs仅为BasicVSR++的0.23倍,这表明我们的方法在质量和复杂度之间取得了更好的平衡。与低复杂度方法FastDVDNet [34]和EMVD-L[25]相比,我们的方法实现了显著的质量改进。对于真实世界的噪声视频,必须承认我们的默认设置下的方法目前无法0在PSNR方面优于BasicVSR和BasicVSR++,但在SSIM方面优于它们。与低复杂度方法FastDVDNet和EMVD-L相比,我们的方法可以实现最佳质量。此外,如果我们将类似于U-Net [32]的恢复网络更改为具有更高复杂度的类似于W-Net[38]的恢复网络(更多细节请参见补充材料),在表2中标记为'Our-L',我们可以同时实现最佳的PSNR和SSIM,但复杂度仍然远低于BasicVSR和BasicVSR++。定性比较。图7显示了视觉质量比较。如图7所示,没有特征对齐的FastDVDNet在文本区域遭受严重失真。BasicVSR++的结果由于时间特征中的传播噪声而非常模糊。相比之下,我们基于神经压缩的方法可以学习到抗噪声的特征,并能够恢复更清晰的纹理。更多的视觉比较请参见补充材料。05.3. 视频去雨结果0我们将我们的方法与先前的SOTA视频去雨方法进行比较,包括MS-CSC [18],SE [37],Spac-CNN [9],FastDerain[16],J4RNet-P [21],FCRVD [41],RMFD[42]和BasicVSR++[8]。由于RainSynAll100使用雨累积退化来生成雨天视频,其中包括SE,MS-CSC,SpacCNN和FastDerain等基线方法无法处理此退化,因此使用MRF[6]作为后处理。更多细节可以在[42]中找到。FCRVD,RMFD,BasicVSR++和我们的方法可以处理此退化而无需额外的后处理。如表3所示,BasicVSR++在RainSynComplex25上的PSNR和SSIM方面超过了RMFD,但在RainSynAll100上的SSIM方面略逊于RMFD。相比之下,我们的方法通过稳健的时间特征在两个数据集上实现了最佳的PSNR和SSIM。我们的方法在RainSynAll100上带来了0.44dB的PSNR增益和0.0063的SSIM增益。我们还测试了RainSynLight25 [21]和NTURain [9]。他们的RainSynAll100PSNR16.1915.2918.3917.0919.2621.0625.1427.6728.11SSIM0.50780.50530.64690.58240.62380.74050.91720.91350.9235RainSynComplex25PSNR16.9616.7621.2119.2524.1327.7232.7033.4234.27SSIM0.50490.52730.58540.53850.71630.82390.93570.93650.9434PSNR11.0319.6918.5116.3222.0116.6516.6421.2223.2121.6823.63SSIM0.72850.85450.82720.77310.87590.81330.81330.87070.88360.87260.8925ettingMaMbMcMdMVR✓✓✓NCFL✓✓FA✓PSNR29.7529.8730.2930.45onNCFL-AdapQNCFL-FixedQNCFL-NoQPSNR30.2929.8629.9858780MS-CSC [18] SE [37] SpacCNN [9] FastDerain [16] J4RNet-P [21] FCRVD [41] RMFD [42] BasicVSR++ [8] 我们的0表3. 在RainSynComplex25 [21]和RainSynAll100 [42]上与SOTA视频去雨方法的比较。我们使用与我们相同的设置训练Ba- sicVSR++[8]。其他基准结果由RMFD [42]论文提供。0DCP [12] GDNet [22] DuRN [23] KDDN [13] MSBDN [11] FFA [29] VDN [31] EDVR [36] CG-IDN [45] BasicVSR++ [8] Ours0表4. 在REVIDE [45]测试集上与SOTA视频去雾方法的比较。我们使用与我们相同的设置训练BasicVSR++ [8]。其他基准结果由CG-IDN[45]论文提供。0表5. 对不同模块进行消融研究。在Set8(σ =50)上进行测试。MVR是MV细化,NCFL是基于神经压缩的特征学习。FA是特征注意力。0表6. 对量化进行消融研究。在Set8(σ =50)上进行测试。NCFL-AdapQ是我们的默认模型,采用自适应量化,即表5中的Mc。NCFL-FixedQ表示我们使用与现有神经视频编解码器相同的固定量化步骤。NCFL-NoQ去除了量化,只是一个普通的自动编码器。0补充材料中提供了结果。图7还显示了视觉质量比较。我们可以看到,我们的模型可以很好地去除雨滴,并产生更清晰、更具视觉效果的结果。05.4. 实际视频去雾结果0表4显示了我们的方法与先前SOTA真实世界视频去雾方法的比较:DCP [12],GDNet [22],DuRN [23],KDDN[13],MSBDN [11],FFA [29],VDN [31],EDVR[36],CG-IDN [45]和BasicVSR++[8]。如表4所示,BasicVSR++优于EDVR,但比MBSDN和CG-IDN差,后两者专为去雾任务设计。相比之下,我们的方法与第二好的CG-IDN方法相比,PSNR提高了0.42dB,SSIM提高了0.0089。此外,我们的方法的参数为16M,仅为CG-IDN的0.70倍,后者的参数为23M。如图7所示,我们的方法的结果更加视觉上令人愉悦。05.5. 消融研究0本文提出了三个关键模块:MV细化(MVR)用于改善MV,神经压缩特征学习(NCFL)与自适应0量化和特征注意力(FA)。我们研究了这些模块的效果,并在表5中报告了结果。没有MVR、NCFL和FA,基准模型只包含运动估计模块、双线性变换和恢复模块。MV细化(MVR)。如表5所示,基准模型M a 仅达到PSNR29.75dB。它受到从嘈杂视频中估计出的不连续MV的影响。当启用我们的MVR时,MV被细化,M b 达到PSNR29.87 dB。我们的MVR带来了0.12dB的PSNR改进。基于神经压缩的特征学习(NCFL)。如果我们进一步结合NCFL和MVR,M c 达到PSNR 30.29dB,比M b 提高了0.42dB。这一显著改进验证了NCFL的有效性。此外,我们还研究了NCFL的两个变体。如表6所示,没有量化的普通自动编码器(即NCFL-NoQ)的PSNR降至29.98dB。这表明NCFL带来的改进主要来自自适应量化机制,而不是模型参数的增加。此外,我们还测试了NCFL-FixedQ,其中使用了固定的量化步骤,就像许多现有的神经视频编解码器一样。NCFL-FixedQ的PSNR降至29.89dB。其性能甚至不如NCFL-NoQ。这表明固定的量化步骤会丢失一些有用的信息,并且无法学习到抗噪声的表示。相比之下,空间通道自适应滤波噪声和纯化具有不同内容特征的时间特征的可学习量化步骤非常重要。特征注意力(FA)。在本文中,我们还提出了一个FA模块来进一步帮助特征学习。如表5所示,M d 达到PSNR 30.45dB。FA将PNSR提升了0.16 dB,显示了其有效性。05.6. 不同退化情况下的NCFL0表5和表6研究了AWGN退化下的NCFL。然而,我们的NCFL不仅限于AWGN。它对其他复杂的退化情况,如真实世界的去噪、去雨和去雾,也非常有效。表7展示了对多种退化情况的综合研究。例如,M1和M3之间的比较58790输入 FastDVDNet BasicVSR++ 我们的方法 目标0输入 BasicVSR++ RFMD 我们的方法 目标0去噪0去雨0去雾0输入 BasicVSR++ MBSDN 我们的方法 目标0图7. 去噪:Set8测试集中的motorbike视频,噪声方差为50。去雨:RainSynAll100测试集中的0985视频。去雾:REVIDE数据集中的L006视频。0去雨 去雾 RWD AWGN0M1:无NCFL 27.30 23.07 44.48 29.99M2:有NCFL(无交叉熵损失) 27.64 23.30 44.56 30.20M3:有NCFL 28.11 23.63 44.72 30.450表7.不同退化类型下的NCFL研究。CE表示交叉熵损失。RWD表示真实世界的去噪。AWGN表示加性白噪声。0结果表明,NCFL在去雨中可以获得0.81dB的增益。这些显著的改进验证了我们的NCFL的有效性。此外,M2和M3之间的比较表明,交叉熵损失可以有效地指导NCFL在多种退化情况下的学习。05.7. 双向视频去噪0在之前的实验中,我们专注于单向设置,其中时间特征仅来自过去的时间。对于双向设置,时间特征既可以来自过去的时间,也可以来自未来的时间。我们方法的一个优点是可以轻松扩展到双向设置。我们测试了BasicVSR[7]、BasicVSR++[8]和我们的双向模型。表8显示了PSNR和复杂度的比较。如表8所示,双向设置使BasicVSR提高了0.59dB,BasicVSR++提高了0.78dB,而我们的方法提高了0.76dB,复杂度增加了约2倍。在双向设置下,我们的方法仍然比BasicVSR++高出0.11 dB,但FLOPs仅为0.21倍。0方向 方法 PSNR FLOPs (G)0单向 BasicVSR 30.11 2947 单向 BasicVSR++30.32 3402 单向 我们的方法 30.45 7710双向 BasicVSR 30.68 5855 双向 BasicVSR++31.10 7097 双向 我们的方法 31.21 15220表8. σ = 50 的Set8双向视频去噪结果。06. 结论和局限性0在本文中,我们设计了一个基于神经压缩的视频恢复框架。我们受到神经视频编解码器可以自然地滤除噪声的启发,然后提出使用神经压缩来净化时间特征并学习抗噪声的特征表示。为了解决固定量化步骤对固有纹理的破坏问题,我们提出了一个可学习的空间通道量化机制,以实现对噪声的鲁棒性。同时,我们提出了一个注意力模块和一个运动矢量细化模块,以进一步提升性能。实验结果表明,与先前的SOTA方法相比,所提出的方法在质量-复杂度权衡方面取得了更好的效果。0虽然我们的方法比大多数先前的SOTA方法更快,但我们的方法的推理速度仍然不能满足实时场景的要求。未来,我们将继续改进我们的方法的效率,以实现实时视频恢复。[1] Ffmpeg. https://www.ffmpeg.org/. 2, 3[2] Eirikur Agustsson, David Minnen, Nick Johnston, JohannesBalle, Sung Jin Hwang, and George Toderici. Scale-spaceflow for end-to-end optimized video compression. In Pro-ceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition, pages 8503–8512, 2020. 258800参考文献0[3] Johannes Ball´e,Valero Laparra和Eero PSimoncelli。端到端优化的图像压缩。arXiv预印本arXiv:1611.01704,2016年。20[4] Johannes Ball´e,David Minnen,Saurabh Singh,SungJin Hwang和NickJohnston。具有尺度超先验的变分图像压缩。arXiv预印本arXiv:1802.01436,2018年。2, 40[5] FrankBossen等人。公共测试条件和软件参考配置。在JCTVC-L1100中,第12卷,2013年。50[6]蔡博伦,徐向民和陶大成。基于时空MRF的实时视频去雾。在多媒体的太平洋会议上,页315-325。Springer,2016年。60[7]陈家克,王新涛,于珂,董超和刘长乐。BasicVSR:视频超分辨率及其更多关键组件的搜索。在计算机视觉和模式识别的IEEE/CVF会议论文集中,页4947-4956,2021年。1, 2, 5, 6, 80[8]陈家克,周尚辰,徐翔宇和刘长乐。BasicVSR++:通过增强传播和对齐来改进视频超分辨率。arXiv预印本arXiv:2104.13371,2021年。1, 2, 6, 7, 80[9]陈杰,陈志豪,侯俊辉,周立培和李赫。在CNN框架中用于雨滴去除的鲁棒视频内容对齐和补偿。在计算机视觉和模式识别的IEEE会议论文集中,页6286-6295,2018年。6, 70[10] Axel Davy,Thibaud Ehret,Jean-Michel Morel,Pablo Arias和GabrieleFacciolo。通过CNN进行非局部
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功