非局部ConvLSTM在视频压缩编码中的应用

70 浏览量更新于2023-10-12 收藏 1.22MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7043非局部ConvLSTM在视频压缩编码中的应用徐毅1高龙文2田凯1周水耕1孙胡阳21复旦大学计算机学院上海市智能信息处理重点实验室2Bilibili，上海，中国{yxu17，ktian14，sgzhou}@ fudan.edu.cn{gaolongwen，sunhuyang}@ bilibili.com摘要视频压缩伪影减少旨在从低质量压缩视频中恢复高质量视频。大多数现有方法使用单个相邻帧或一对相邻帧（在目标帧之前和/或之后）来完成该任务。此外，由于总体上高质量的帧可能包含低质量块，并且高质量块可能存在于总体上低质量的帧中，因此关注于附近峰值质量帧（PQF）的当前方法可能错过低质量帧中的高质量细节为了弥补这些缺点，在本文中，我们提出了一种新型的端到端深度神经网络，称为非局部ConvLSTM（简称NL-ConvLSTM），它利用多个连续帧。在NL-ConvLSTM中引入了一种近似非局部策略来捕获全局运动模式并跟踪视频序列中的时空依赖性。这种近似策略使得非本地模块以快速和低空间成本的方式工作。我们的方法使用目标帧的前帧和后帧来生成残差，从该残差中重建更高质量的帧在两个数据集上的实验表明，NL-ConvLSTM优于现有的方法。1. 介绍视频压缩算法由于有限的通信带宽和存储空间而在许多实际（尤其是移动）应用场景中被广泛使用[34]。在显著降低传输和存储成本的同时，有损视频压缩也会导致各种压缩伪影，例如块化、边缘/纹理浮动、蚊式噪声和急动[48]。这种视觉失真通常严重影响体验质量（QoE）。因此，视频压缩伪影减少具有本文作者大部分作品都是在B站实习期间完成的。†通讯作者。补丁来自140帧补丁来自142帧补丁来自143帧补丁��图1.低质量帧中存在高质量补丁的示例。这里，虽然第140和第143帧具有比第142帧更好的全帧SSIM，但是来自第142帧的裁剪的补丁具有最好的补丁SSIM。上半部分显示了Fames和裁剪面片的SSIM值;下面的图像是来自三个帧的裁剪的块。此外，比较相同颜色框中的细节，我们可以看到第142帧的裁剪补丁质量更好成为多媒体和计算机视觉领域的重要研究课题[26，43，45]。近年来，由于深度神经网络的广泛应用，压缩图像/视频增强已经取得了重大进展。例如，[11，12，36，49]直接利用深度卷积神经网络来去除图像的压缩伪影，而不考虑底层压缩算法的特性。[16，38，43，44]提出了被馈送压缩帧并输出增强帧的模型。这些模型都使用单个帧作为输入，不考虑相邻帧的时间依赖性。为了利用相邻帧的时间相关性，[26]提出了深度卡尔曼滤波器网络，[42]采用面向任务的运动，[45]使用两个运动补偿的最近PQF。然而，[26]仅使用目标帧的先前帧，而[42，45]仅采用一对相邻帧，这可能会错过一些其他相邻帧的高质量细节（稍后将解释）。帧索引7044视频压缩算法具有帧内和帧间编解码器。帧间编码帧（P帧和B帧）显著地依赖于在前和在后的相邻帧。因此，提取相邻帧之间的时空关系可以为提高视频增强性能提供有用的信息。然而，从一个/两个相邻帧或甚至两个最近的PQF中挖掘详细信息为了说明这一点，我们在图中给出了一个例子。1.具有较大结构相似性指数测度（SSIM）的帧通常被认为具有更好的视觉质量。这里，虽然第140帧和第143帧具有比第142帧更好的整体视觉质量，但是最高质量的裁剪块来自第142帧。现有的时空信息挖掘方法往往忽略了这些小块中的高质量细节信息。基于上述观察，本文尝试从目标帧的多个前后帧中捕获隐藏的时空信息为此，我们开发了一个非局部ConvLSTM 框架，该框架使用非局部机制 [3] 和ConvLSTM [41]架构来从帧序列中学习时空信息。为了加快非局部模块的计算速度，我们进一步设计了一种近似有效的方法来计算帧间像素级相似度。与现有的方法相比，我们的方法至少在三个方面具有优势：1 ）不需要精确的运动估计和补偿 ; 2 ）适用于H.264/AVC、H.265/HEVC等各种常用压缩算法压缩的视频; 3）该方法优于现有方法。这项工作的主要贡献包括：1）提出了一种新的视频压缩伪影抑制方法，即利用目标帧的多个前后帧，而不需要对帧间运动进行显式计算和补偿。2)我们开发了一个称为非局部ConvLSTM的端到端深度神经网络，以从多个相邻帧中学习时空信息。3)我们设计了一种近似的方法来计算帧间像素级的相似度，这大大减少了计算量和内存开销。4)我们在两个数据集上进行了广泛的实验来评估所提出的方法，该方法在视频压缩伪影减少方面达到了最先进的性能。2. 相关工作2.1. 单图像压缩压缩早期的工作主要包括手动设计的滤波器[3，9，30，51]，基于亲理论的迭代方法，凸集上的投影[29，47]，基于小波的方法[40]和稀疏编码[5，25]。继AlexNet [21]在ImageNet [31]上取得成功之后，许多基于深度学习的方法已被应用于这个低级的长期计算机视觉任务。Dong等人[11]首先提出了一种名为ARCNN的四层网络来减少JPEG压缩伪影。因此，[22，28，35，36，49，50]提出了更深的网络来进一步减少压缩伪影。一个值得注意的例子是[49]，它设计了一个端到端的可训练去噪卷积神经网络（DnCNN）用于高斯去噪。DnCNN在JPEG去块任务上也取得了令人满意的结果。此外，[7，14，46]通过利用JPEG压缩图像的小波/频域信息增强了视觉质量。最近，又提出了更多具体地，Galteri等人[12]使用了一个深度生成对抗网络，恢复了更多的光度细节。受[39]的启发，[24]将非局部操作纳入递归框架以进行质量验证，它计算每个像素及其邻居之间的自相似性，并递归地应用非局部模块进行相关传播。相应地，我们采用了一个非局部的模块，通过利用帧间像素相似性来捕获全局运动模式。2.2. 视频压缩压缩大多数现有的视频压缩伪影减少工作[10，16，38，43，44]集中在单个帧上，忽略了相邻帧之间的时空相关性。最近，提出了一些工作来利用相邻帧的时空信息。Xue等人[42]设计了一个包含运动估计和视频处理两部分的神经网络，并采用联合训练策略来处理各种低级视觉任务。Lu等人[26]进一步在压缩码流中引入量化预测残差作为强先验知识，提出了利用目标帧前几帧的时空信息的深度卡尔曼滤波网络（DKFN）。此外，考虑到附近压缩帧的质量波动剧烈，[13，45]提出了多帧质量增强（MFQE），并利用两个最近PQF的运动补偿来增强低质量帧。与DKFN[26]相比，MFQE是一种后处理方法，使用较少的压缩编解码器先验知识，但仍然在HEVC压缩视频上实现了最先进的性能。除了压缩伪影去除之外，时空相关性挖掘也是其他视频质量增强任务（例如视频超分辨率（VSR））中的热门话题。[4，18，19，23，32，37，42]估计光流和扭曲的几个帧捕捉隐藏的spa。7045��−2输入中心框��−1残余日本+1解码器中国+2非本地模块ConvLSTMFF−1阿利什特Fℋ ��−1,✔መt −1ℋ��−1,✔t−1��−2��−1日本+1中国+2压缩视频共享编码器双向NL-ConvLSTM输出增强型中心架图2.我们方法的框架（左）和NL-ConvLSTM的架构（右）VSR的时空依赖性。虽然这些方法工作得很好，但它们严重依赖于运动估计的准确性。而不是明确地利用帧之间的运动，[17]利用3D卷积网络作为动态滤波器生成网络来生成动态上采样滤波器和VSR的精细残差。总之，大多数基于端到端CNN的视觉质量增强方法仅考虑单个帧或一对相邻帧，因此可能错过其他相邻帧的重要细节。与这些工作不同的是，在这里我们采用NL-ConvLSTM机制，利用多个帧和捕获帧序列中的时空变化，而无需显式的运动估计和补偿，通过非局部相似性计算的近似策略，我们的方法可以有效地减少伪影，并达到最先进的性能。3. 方法视频压缩伪影减少的目标是从原始帧（地面实况）Yt的压缩帧Xt中推断高质量帧Yt，其中Xt∈RC×N是在时间t处的压缩帧。这里，C是单帧的通道为了符号清晰起见，我们将空间位置（宽度W 和高度H ）折叠成一维，N=HW 。设Xt={X t−T，. . . ，X t+T}表示（2T+1）个连续压缩的序列，框架，我们的方法把Xt作为输入，输出Yt。3.1. 框架我们的方法是一个端到端的可训练框架，由三个模块组成：编码器，NL-ConvLSTM模块和解码器，如图所示。2.它们分别负责从各个帧中提取特征，学习帧间的时空相关性，并将高级特征解码为残差，最终利用残差重建高质量的帧编码器。它被设计为具有多个2D卷积层，以从Xt中提取特征。以 Xt 作为输入，它输出Ft={Ft−T，. . . ，Ft+T}。这里，Ft∈RCf×N是从Xt中提取的相应特征，Cf是信道输出特征的大小它单独处理每个帧NL-ConvLSTM.为了跟踪帧序列中的时空依赖性，我们在编码器和解码器之间放置了一个ConvLSTM [41]ConvLSTM能够从任意长度的帧序列中捕获时空信息为了解决这个问题，我们将非局部（NL）[3]机制嵌入到ConvLSTM中，并开发了NL-ConvLSTM模块。这里，非局部相似性用于来自不同帧的像素，而不是帧内的像素[3]。的NL-ConvLSTM模块N可以描述为[Ht，Ct]=N（Ft−1，Ft，[Ht−1，Ct−1]）.（一）与[37，41]中的ConvLSTM不同，在时间t仅提供特征Ft，NL-ConvLSTM采用额外的特征F t−1在时间（t-1）作为输入，并输出相应的隐藏状态和单元状态Ht，Ct∈ RCh×N。这里，C h是隐藏状态和小区状态的信道的数量。此外，在NL-ConvLSTM中，隐藏状态Ht−1和单元状态Ct−1不直接输入gate操作相反，我们计算-Ft-1和Ft之间后期帧间逐像素相似性St，然后以St作为权重对erHt-1和Ct-1执行加权求和此外，本文还使用双向ConvLSTM来学习两者的时空依赖性前后帧。在下面的部分中，我们只提到前向 NL-ConvLSTMconcat解码器7046不不不不p2 2Dp（i，j）=Fp（i）−Fp（j）为了简单起见。NL-ConvLSTM模块的详细信息可以参考图。2（右），Fig.第3.2和3.3节。译码器它将NL-ConvLSTM模块两个方向的隐藏状态解码为残差，并利用残差重建高质量的帧。具体来说，我们首先通过一个核大小为1×1的卷积层组合隐藏状态，然后使用几个堆叠的卷积层来生成残差。3.2. 非局部ConvLSTMConvLSTM可以描述如下[37]：[Ht，Ct]=ConvLST M（Ft，[Ht−1，Ct−1]）.（二）为了学习鲁棒的时空依赖性，我们在ConvLSTM中采用非局部机制来帮助估计帧序列中的运动模式。作为Con-vLSTM的扩展，NL-ConvLSTM可以公式化为：St=NL（Ft−1，Ft），第一阶段1F（）ℋ��−1F−1F23top-k的位置在100��- 1F−1中的top-k块F（）4ℋ第二阶段��相似度矩阵��−1图3.两阶段相似性近似的工作流程①从Ft中找到Ft-1中相对于块Fp（j）的前k个最相似块;②从Ft-1中前k个最相似块的对应位置提取Ht-1中的块;③计算Ft-1ΣHt−1Σ，Ct−1 =NLWarp（[Ht−1，Ct−1Σ]，St），Σ（三）和Fp（j）;对Ht进行NLWarp运算。[Ht，Ct] =ConvLSTM（Ft，Ht−1，Ct−1），St作为St，它可以减少计算和内存，保持准确性。我们近似的关键思想是，其中，St∈RN×N表示当前帧的像素与前帧的所有像素放弃框架。NL是用于计算两帧特征之间的相似性矩阵的非局部算子，NLWarp是时间（t-1）处的隐藏状态和单元状态的具有加权和形式的扭曲运算。在非局部操作[3]之后，我们工作中的帧间像素相似性和非局部扭曲操作如下：Dt（i，j）=<$Ft−1（i）−Ft（j）<$2，exp（−Dt（i，j）/β）方法是在计算像素级相似度之前，根据编码器学习的深度特征对具体情况如下：在第一阶段，我们使用平均池化来从编码器中对特征图进行下采样，并降低几何变换（移位和旋转）的块匹配敏感性。将平均池化的核大小表示为p，将下采样特征图表示为Fp。然后，将特征图的分辨率降低到N/p2，即，原决议的1/p2下采样特征图Fp中的每个超像素对应于由p2组成的块原始特征图中的像素。因此，下采样St（i，j）=0∀Σ Σexp（−Dt、（i，j）/β）（四）距离矩阵Dt∈R（N/p）可以通过下式计算：Ht−1，Ct−1=[H t·St，Ct·St]，¨ ¨¨ ¨t t−1t2.（五）其中i，j∈{1，···，N}是特征图中像素的索引，F（i）和H（i）是位置i处的对应特征和状态。Dt（i，j）和St（i，j）是Eu-在时间t-1的前一特征图中的像素i与时间t的当前特征图中的像素p∈i × e1j之间的所有通道中的Clidean距离和相似性。St（i，j）满足iSt（i，j）=1。因此，非局部方法可以看作是特别关注机制[39]。3.3. 两阶段非局部相似逼近对于高分辨率视频，直接计算St∈RN×N及其压缩运算将带来极高的因此，我们提出一个用两阶段非局部方法将Dt近似为Dt，我7047不t−1对于Fp的任意块bt中的每个像素，我们只考虑k×p2F p的k个块中的像素最接近bt的。在第二阶段，我们计算并存储Ft的每个像素与Ft−1的对应k × p 2像素之间的相似性。而对于前一帧中的其他像素，D_t和S_t的元素被设置为+∞和0_r。由于相似的像素是稀疏的，并且像素可以由来自相邻帧的几个像素表示，前k个块近似的质量损失是不可接受的。图3示出了两阶段相似性近似Ct的NLWarp操作类似于Ht。为了简单起见，我们在图3中只示出了Ht复杂性分析。选项卡. 1比较复杂的-7048不ˆ¨22 222OO我们的近似方法与原方法的一致性。由于在我们的实验中logkC，我们可以在Tab中找到与搜索前k个1为简单。我们表示的复杂性原始的非局部方法，作为一种新的方法，φ的近似解可改写为O（（N/p2）2C+2kNCp2）.通过适当地选择k和p的值使得kp2<$N，我们得到φ/N=1/（2p4）+kp2/N<$1，这意味着我们的方法大大减少了原方法的计算量法对于给定的k，φ/φ达到最小值1。5（k/N）2/3，其中p=（N/k）1/6。对于内存成本也可以得出类似的结论更具体地说，通过设置p=10，k=4，C=64，f=41，φ接近于（O（NC2f2）），这是具有f×f内核的卷积层的计算复杂度表1.原始非局部方法和我们的方法的复杂性比较。这里，N和C是位置和通道的数量，k和p是预滤波块的数量和下采样比例。通过设置k=4和p=10，我们的方法在1080 P视频中将时间和空间减少到原始非局部方法消耗的1/1000左右。原始非局部NL-ConvLSTM2 2 2 2时间（2N C）（（N/p）（C+ logk）+ 2kNCp）空间O（2N）O（（N/p））+ kN/p+ 2kNp）为了进一步加快非局部算子的运算速度，在计算距离矩阵Dt时采用了向量化的方法。虽然向量化并没有减少浮点运算的数量，但它通过并行计算实现了加速。通过在Equ.(4)，我们有非局部操作与运动补偿。那里这两部歌剧Dt2=Cf2t−1 ·1分+1分·Cf2不⊤t−1 ·Ft，（七）选项。相似之处：1）两者都可以用来捕捉空间-时间关系和连续帧中的运动模式。2）两者都可以被看作是一种注意力机制。在非局域操作中，计算了warped状态Ht−1其中1∈RN×1是元素为1的向量。我们采用Equ。(7)在第一阶段计算Dp，并实现了一个稀疏版本的Equ。（7）计算距离其中H中所有像素的状态t−1 以加权和形式;在当前帧中的每个像素与k×p2前之间，而在运动补偿中，Ht-1中的每个像素el通过与Ht-1中的一些相邻像素的插值来估计，也是以加权和的形式。差异：1）非本地操作中，每个像素从Ht-1中的多个位置扭曲，并且运动不受固定流量大小的限制，这与必须设置固定流量大小的运动补偿不同。因此，非局部操作可以更有效地捕获全局运动模式。2)在非局部操作中，一旦提取特征，就确定相似性;而在运动补偿中，我们需要训练用于运动场生成的附加层。3.4. 实现细节在我们的实现中，遵循现有的方法[26，45]，我们使用L2范数作为损失函数：过滤前一帧中的像素。4. 绩效评价为了评估我们的方法，我们对两个数据集进行了广泛的实验：Vimeo-90K [42] and Yang et al.的数据集[45]。我们的评估包括五个部分：1）消融研究; 2）用两个性能指标（PSNR和SSIM）进行定量评价; 3）通过比较不同方法压缩伪影减少的视觉效果进行定性评价：4）运行时间比较;5）在另一种算法压缩的视频上检验我们的方法的有效性4.1. 数据集和设置Vimeo-90K。它是一新建的大型视频l（X¨¨t，Yt）=<$Yt¨-Yté2 .（六）用于低级别视频处理的数据集。所有帧都被重新调整为固定的分辨率448×256。我们遵循[26]中的设置，并请感兴趣的读者参阅[26]以了解详细信息。在由于 NL-ConvLSTM 的优点，全局运动可以在ConvLSTM中用小的内核捕获。因此，我们的NL-ConvLSTM是用3×3内核实现的。对于所有数据集，使用ADAM [20]优化器训练网络，初始学习率为10- 4，小批量大小为32。在训练中，原始和压缩序列以NL-ConvLSTM的80×80补丁大小进行采样相比之下，全分辨率视频序列在测试期间被馈送到我们的模型中。我们在所有实验中使用k=4和p=10来平衡效率和有效性，并为所有数据集设置T=31f是卷积层的内核大小在FFmpeg中通过量化参数QP=32和37的x265生成短的压缩剪辑。环路滤波器、SAO [34]和B帧在编解码器中被禁用。我们遵循[26] 并且仅评估每个剪辑的第4杨等。的数据集。它由从Xiph.org2和JCT-VC [2]的数据集中选择的70个视频序列组成这些视频序列的分辨率从352 ×240到2560×1600不等。为了进行公平的比较，我们遵循[45]中的设置：60个序列用于训练，剩下的10个用于测试。所有序列都在HEVC LDP模式中编码，使用具有QP=37和42的HM 16.0。2https://media.xiph.org/video/derf/网站FF-2F7049不a)b）、c）、图4.在我们的方法的第一阶段中预过滤后的块的示例。图片来自Yanget al。的数据集。红色块是相对于另一帧中的黄色块最相似的前4个表2. Yang上拟议的NL-ConvLSTM的烧蚀研究等。s数据集，QP=37。PSNR改善的结果PSNR（db）在第1行中报告。SSIM改进的结果SSIM（×10−2）列在第2行。编码器-解码器ConvLSTM ME-ConvLSTM我们的方法1帧7帧7帧7帧7帧峰值信噪比0.395 0.456 0.5030.6012007年12月31日4.2. 消融研究ConvLSTM.我们遵循[33]中的运动生成架构。Yangetal.'的结果QP=37的数据集列于表2的第4列与ME-ConvLSTM相比，我们的方法表现更好，19。48%的高出方面的峰值信噪比和 8 。在 CNOSSIM 方面高出46%，这表明具有非局部机制的ConvLSTM更好地利用了时间信息。两阶段非局部方法的效果。我们提出了一种两阶段的非局部方法来学习两个相邻帧之间的时空依赖性。在第一阶段，它试图找到前k个最相似的块，多帧效果。在这里，我们评估了效果-使用多帧的可能性。首先，我们比较pt−1 对于Fp的每个块。这种预过滤会影响spa-编码器-解码器（使用1帧）和ConvLSTM（使用7帧）之间的性能表 2 中第 2 列和第3 列的结果表明，在ConvLSTM中使用多个帧明显提高了性能。然后，我们进一步验证了我们的方法的有效性，使用更多的帧作为输入的杨等。s数据集，QP=37。每个输入剪辑由20个连续帧组成：目标帧、15个前帧和4个后帧。我们在T =3的相同设置上使用预先训练的模型，然后使用几乎相似的训练设置对20帧输入的模型进行微调，除了较小的批量大小。我们发现，我们的模型在较长序列上调谐得到0.604dB/0.00923的PSNR/PSNR/PSNR，这比表2中第5列的结果更好。上述结果表明，多帧和更长的序列确实提高了伪影减少性能。非本地机制的影响。在这里，我们研究了非局部机制的有效性。非局部模块的目标是学习两个连续帧之间的时空依赖性。通常，运动估计和补偿模块可以做这样的作用。因此，我们使用运动估计和补偿模块来代替非局部模块，并将这样的方法命名为ME。时空依存学习在这里，我们想象一些在第一阶段中的预滤波结果表明，我们的 NL-ConvLSTM方法可以学习连续帧之间的时空依赖性。图图4示出了预滤波之后的块的一些示例红色块是在相对于另一帧中的黄色块进行预滤波之后的帧中的前4个在图4（a）和图4。4（b），这些区块被放大，用白框包围，并显示在完整的图像中。图图4（a）示出了两个连续帧。右边框中的我们的方法在左边找到了女儿这表明我们的方法可以在不同的位置捕获相似的模式，这可以为增强提供额外的信息图在图4（b）中，我们手动构造具有大时间间隔的3帧序列。基于运动估计的方法很难处理这样大的运动。然而，我们的方法仍然可以捕捉篮球的时空依赖性。在图4（c）中，我们迭代地将每个帧的顶部1块从最右边帧中的黄色块向左线程化。这样的路径反映了我们的方法在帧之间建立的鲁棒时空关系。F7050表3.Vimeo上的平均PSNR/SSIMQP3237HEVC [34]34.19 /0.95031.98 /0.923ARCNN [11]34.87 /0.95432.54 /0.930DnCNN [49]35.58 /0.96133.01 /0.936DSCNN [44]35.61 /0.96032.99 /0.938DKFN [26]35.81 /0.96233.23 /0.9393D CNN35.81 /0.96133.25 /0.938图5. HEVC基线、MFQE和NL的PSNR/SSIM曲线。我们的方法35.95 /0.96533.39 /0.943ConvLSTM在QP=37的序列TunnelFlag表4. Yang et al .“上的平均峰值信噪比（dB）和平均信噪比（×10−2）的数据集。QPSeq.ARCNN [11] DnCNN [49] DSCNN [44] MFQE [45] 我们的方法3710.241 /0.510.448 /0.830.492 /0.870.772 /1.15 0.827/1.2120.115 /0.300.439 /0.520.458 /0.580.604 /0.63 0.971/0.9230.161 /0.490.276 /0.760.271 /0.740.472 /0.91 0.483/0.9940.183 /0.350.377 /0.550.393 /0.540.438 /0.48 0.576/0.6650.150 /0.300.333 /0.480.356 /0.530.550 /0.52 0.598/0.7460.161 /0.230.415 /0.500.435 /0.490.598 /0.51 0.658/0.6770.128 /0.290.284 /0.440.277 /0.450.390 /0.45 0.394/0.5880.125 /0.370.276 /0.610.230 /0.630.484 /1.01 0.563/1.1890.149 /0.380.299 /0.710.271 /0.660.394 /0.92 0.439/1.03100.146 /0.240.289 /0.580.274 /0.540.402 /0.80 0.501/0.99Ave.0.156 /0.350.344 /0.590.346 /0.600.510 /0.74 0.601/0.9042Ave.0.252 /0.830.301 /0.960.364 /1.060.461 /-0.614/1.47第1集：街上的人第2集：隧道旗第3集：和服第4集：酒吧第5集：Vidyo6：Vidyo37：Vidyo48：BasketballPass9：RaceHorses10：MaD4.3. 定量比较为了公平比较，我们使用相同的数据处理方法和训练数据。因此，为了证明我们的方法的优势，我们将其与五种现有方法进行比较：ARCNN [11]，DnCNN[49]，DSCNN [44]，表5.六种方法之间的运行时间（ms/帧）比较决议180x180416x240640x3601280x7201920x1080ARCNN [11]1.734.589.1936.0680.70DnCNN [49]6.3015.8435.51139.77315.83DSCNN [44]15.2636.8882.31322.92731.21[45]第四十五话20.28+51.01+112.87+443.82+1009.00+原始NL4391.75----我们102.13304.11621.942607.606738.00其他方法。Yang等人的数据集的训练数据比Vimeo-90 K少，这两个数据集使用不同的压缩设置进行处理。所有方法在Yang等人身上的表现都稍差。的数据集比Vimeo-90K。但是，从表4中我们仍然可以得到类似的结论：利用相邻帧的时空信息的方法比没有利用的方法性能更好。我们的方法在所有测试序列上都优于所有其他方法，平均PSNR/SSIM改善为17。8%/21。6%，高于MFQE。具体地，对于QP =37，我们的方法在第二序列上实现了最高的 PSNR/SSIM 改善，其为 60 。7%/46%，高于[26][27][28][29][29][29]对于ARCNN，DnCNN和DSCNN，我们得到更好的结果后，他们被重新训练杨等人"的数据集比[45]中报道的。对于DKFN [26]，我们直接引用了原始论文的性能结果，其中仅在Vimeo-90 K上进行了评估。对于MFQE [45]，我们引用了PSNR改善的结果，并通过我们手动标记的PQF及其发布的模型3计算SSIM改善。此外，考虑到3D CNN能够从视频帧中捕获时空信息由于它的内存成本很大，我们只在Vimeo-90 K上训练和评估它。提高质量。两个数据集的PSNR/SSIM结果分别见表3和表4在表3中，我们使用具有环路滤波器的HEVC[34]作为基线。从表3中，我们可以看到，我们的方法在PSNR方面比第二好的方法（DKFN和3D CNN）高出约0.14 dB，并且在PSNR上提高了25%。这些MFQE。对于QP =42，我们的方法得到33。19%，68。百分之六十八分别比MFQE和DSCNN提高了PSNR质量波动。质量波动是评估整个视频质量的指标[13，45]。剧烈的质量波动往往导致严重的时间不一致性以及QoE的降级。我们通过每个序列的PSNR/SSIM曲线的标准偏差（STD）和峰谷差（PVD）5评估波动，如[13，45]所示。这里，为了简单起见，我们仅呈现HEVC基线、MFQE和我们的方法的STD和PVD。对于PSNR，HEVC基线、MFQE和我们的方法的STD值为1。130 dB，1. 055 dB和1. PVD值分别为1.558dB、1.109dB和1.038dB。对于SSIM，我们注意到类似的趋势。图5示出了序列TunnelFlag上的HEVC基线、MFQE和NL-ConvLSTM的PSNR曲线。在图5中，与MFQE相比，我们的方法在PQF上得到了类似的改善，但在非PQF上实现了更高的PSNR和SSIM改善。所有这些结果表明，我们的方法执行更稳定利用时空信息的方法，包括我们的DKFN和3D CNN都实现了更好的性能3[45]仅发布QP=37的模型。不包括4次PQF检测时间5PVD计算峰值与其前/后最近谷值7051压缩ARCNN DnCNN DS-CNNMFQEDKFNOursRaw Patch全帧图6.四种压缩伪影的抑制效果比较而不是基线和MFQE。4.4. 定性比较图6比较了不同方法对来自Vimeo-90 K的qp=37的图像发生的四种压缩伪影的减少效果这四种伪影是阻塞、渗色、蚊式噪声和振铃[48]。每一行代表一个带有某种压缩伪像的图像。具体地，在第一行中，由于阻挡伪影，杯边缘模糊;并且在第二行中，与面部重叠的黑色头发第三幅图像中的单词被蚊式噪声包围，第四幅图像受到与人的轮廓相似的剪影状阴影的最后一列显示原始帧，第8列显示每个原始帧的裁剪第1列列出了每个裁剪部分的压缩图像。从第2列到第7列，示出了通过不同方法减少伪影之后的裁剪部分。检查图中的图像。6，我们可以看到，通过我们的方法减少伪影后的裁剪图像（第7列）比其他方法处理的图像质量更高，并且与原始图像（第8列）更相似。这意味着我们的方法可以比现有的五种方法更好地处理这些失真。4.5. 运行时间比较在选项卡中。5.给出了运行时比较结果。由于我们的方法必须处理更多的帧，它比其他方法消耗更多的时间。然而，我们的方法的运行时间是可以接受的，我们的方法使用的时间与原始NL方法（没有近似机制的NL-ConvLSTM）相比。在这里，我们只给出了原始NL在180×180分辨率下的运行时间（对于更高的分辨率，它会消耗太多的时间和GPU内存）。我们的方法可以进一步加快cudnn加速ConvLSTM和高度调优的实现。4.6. 适用于其他压缩标准最后，我们检查我们的方法是否是有效的压缩视频序列产生的其他压缩算法，如H.264。模型用在由HEVC压缩的视频剪辑上训练的对应模型初始化，并且然后在QP=37的FFmpeg中由x264压缩的视频剪辑上微调。我们的方法在Vimeo-90 K和Yanget al上得到的PSNR/SSIM 改进。的数据集分别为 1.43dB/0.011 和0.693dB/0.0085。我们的这些结果表明，我们的方法也是有效的H.264压缩视频。5. 结论在本文中，我们提出了一种新的端到端的非本地ConvLSTM视频压缩伪影去除建模空间变形和时间变化simulation.com。在两个数据集上的实验表明，该方法可以显著提高压缩视频的质量，有效地去除伪影，性能优于现有的方法。在未来，我们计划将我们的方法扩展到其他低级别的视频增强任务，如视频超分辨率，插值和帧预测。7052引用[1] Siavash Arjomand Bigdeli ， Matthias Zwicker ， PaoloFavaro，and Meiguang Jin.图像增强的深度均值漂移先验在NIPS，第763-772页[2] 弗兰克·博森。通用测试条件和软件参考配置，itut sg16wp3和iso视频编码联合协作组。技术报告，IEC JTC1/SC 29/WG 11，Doc. JCTVC-J1100，斯德哥尔摩，瑞典，2012年。[3] Antoni Buades，Bartomeu Coll，and J-M Morel.一种非局部图像去噪算法。见CVPR，第2卷，第60-65页。IEEE，2005年。[4] Jose Caballero ， Christian Ledig ， Andrew Aitken ，Alejan- dro Acosta，Johannes Totz，Zehan Wang，andWenzhe Shi.采用时空网络和运动补偿的实时视频超分辨率。在CVPR中，第4778- 4787页[5] Huibin Chang，Michael K Ng，and Tieyong Zeng.通过一个学习字典减少 jpeg 解压缩中的人工制品。 IEEETransactions on Signal Processing，62（3）：718-728，2014。[6] Jen-HaoRickChang ， Chun-LiangLi ， BarnabasPoczos ， BVKVijayaKumar ， andAswinCSankaranarayanan.一个网络解决所有问题-使用深度投影模型解决线性逆问题。在ICCV，第5889-5898页，2017年。[7] Honggang Chen ， Xiaohai He ， Linbo Qing ， ShuhuaXiong，and Truong Q Nguyen.双像素小波深度卷积神经网络，用于JPEG压缩图像的软解码。在CVPR研讨会，第711-720页[8] 崔凯和埃克哈德·斯坦巴赫。解码器侧图像质量增强利用3级CNN中的通道间相关性：提交至clic 2018。在CVPR研讨会，第2571-2574页[9] Kostadin Dabov、Alessandro Foi、Vladimir Katkovnik和Karen Egiazarian。稀疏三维变换域协同滤波图像去噪IEEE TIP，16（8）：2080[10] 戴元英、柳东、凤舞。卷积神经网络方法用于hevc帧内编码的后处理。在多媒体建模国际会议上，第28-39页。Springer，2017.[11] Chao Dong ， Yubin Deng ， Chen Change Loy ， andXiaoou Tang. 通过深度卷积网络减少压缩伪影。在ICCV，第576-584页[12] 莱昂纳多·加尔泰里，洛伦佐·塞代纳里，马可·贝尔蒂尼，阿尔-贝托·德尔宾博.深度生成对抗压缩伪影去除。在ICCV，第4826-4835页[13] 关振宇，邢群良，徐迈，任阳，刘铁，王祖林Mfqe2.0：一种压缩视频多帧质量增强的新方法arXiv预印本arXiv：1902.09707，2019。[14] 郭军，赵宏阳。构建双域表示以减少压缩伪影。参见ECCV，第628-644页。施普林格，2016年。[15] 郭军，赵宏阳。一对多网络，用于减少视觉上令人愉悦的压缩伪影。在CVPR中，第4867-4876页[16] 金志鹏，平安，杨超，沈立泉。经由cnn的帧内编码的质量增强：对抗性方法。在ICASSP中，第1368-1372页。IEEE，2018年。[17] Younghyun Jo、Seoung Wug Oh、Jaeyeon Kang和SeonJoo Kim。使用动态上采样滤波器的深度视频超分辨率网络，无需显式运动补偿。在CVPR中，第3224-3232页[18] Armin Kappeler ， Seunghwan Yoo ， Qiqin Dai ， andAggelos K Katsaggelos.卷积神经网络视频超分辨率IEEETransactions on Computational Imaging，2（2）：109[19] Tae Hyun Kim，Mehdi SM Sajjadi，Michael Hirsch，andBernhardSc ho¨ l k opf. 用于视频恢复的时空Transformer网络在ECCV中，第111-127页。Springer，Cham，2018.[20] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议[21] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在NIPS，第1097-1105页[22] 科利、巴合提亚尔·巴热、薄衍。一种用于压缩图像去块效应的高效深度卷积神经网络模型。在ICME中，第1320-1325页。IE

下载后可阅读完整内容，剩余1页未读，立即下载