深度学习优化的HEVC可伸缩扩展环内滤波器

52 浏览量更新于2023-12-10 收藏 548KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

⃝可在www.sciencedirect.com在线获取ScienceDirectICTExpress 6（2020）306www.elsevier.com/locate/icte用于HEVC的可缩放扩展的基于组合时空的环内滤波器Dhanalakshmi A a，b，Nagarajan G.一aSathyabama科学技术学院电子工程系，Chennai，600119，印度b印度，钦奈，600123，接收日期：2019年11月2日;接收日期：2020年4月6日;接受日期：2020年4月20日2020年4月23日在线提供摘要深度学习在目前的视频处理工具和算法中发挥着重要作用。针对HEVC可伸缩扩展（SHVC）中现有环路滤波器的局限性，提出了一种组合残差网络（CResNet）环路滤波器。所提出的CResNet环路滤波器利用时空域中可用的层信息来抑制像块和振铃这样的视觉伪影。特别地，考虑与空间和时间基本层参考帧的当前和共置块相关的块信息以优化环路内滤波。所提出的架构在基础层有四个卷积层，在增强层有两个卷积层，这大大降低了编码复杂度和内存。此外，为了完全训练输入内容，同时为了提高环路滤波器的性能，采用率失真优化（RDO）方法检测编码树单元（CTU）的开/关电平控制标志。实验结果表明，所提出的架构提供了高达6.2%至7.2%的比特率和1.01 dB的改善PSNR相比，标准SHVC编解码器的减少。c2020年韩国通信与信息科学研究所（KICS）。出版社：Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：可伸缩高效视频编码;环内滤波;神经网络;峰值信噪比;时间;比特率1. 介绍视频编码通常通过压缩来自重构的视频的比特和可识别的失真来描述。为了减少由于视频编码引起的失真量，研究了几种环路滤波器[1文献[1]提出了一种去块效应方法来抑制边界之间的伪影相邻的街区。开发了一种统计方法[2]，以便在编码器处训练偏移，并将其发送到解码器，以补偿由变换和量化产生的振铃效应。一种非局部自适应环路滤波器是为HEVC开发的，并且是从低秩技术[6，7]中合并的。*通讯作者：Sathyabama科学技术学院电子工程学院，Chennai，600119，印度。电子邮件地址： dhanalakshmi248@gmail.com （ DhanalakshmiA.）。同行审议由韩国通信研究所负责教育与信息科学（KICS）。https://doi.org/10.1016/j.icte.2020.04.006SHVC的基本机制仅包含一个基础层和一个或多个增强层。基本层包含较低质量的较重要信息，增强层包含较高质量的较不重要信息。通常，低质量的基本层信息并且其具有通过添加一个或多个增强层来将视频重构为高质量的能力。这里，所提出的CResNet架构示出了仅具有单个增强层的基础层。在增加更多增强层的同时，获得高质量的视频。视频表示帧序列 ; 每个序列构成一组图片（GOP）。GOP指示I、P以及如视频编码标准所建议的预定义模式中的B帧。因此，GOP的大小表示视频中的帧的数量，范围从2到32。GOP的第一帧是I（帧内）帧，所有其它帧是PB（帧间）帧，因此视频是GOP的序列。在视频编码和图像处理中，卷积神经网络2405-9595/2020韩国通信和信息科学研究所（KICS）。出版社：Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。Dhanalakshmi A和Nagarajan G./ICT Express 6（2020）306307×××美国有线电视新闻网（CNN）近年来取得了巨大的成功。通过[8]中提出的技术减少JPEG图像中的伪影，作为提高编码JPEG图像的重建质量的伪影减少CNN。在[9]中提出了一种不同的技术或网络，用于减少JPEG图像中的伪影。超分辨率CNN技术[10]被直接集成用于HEVC，其取代了[11]中提出的样本自适应偏移（SAO）和去块滤波器。这种策略可能会失去通用性，因为训练和测试使用相同的序列。在[12]中，可变滤波器大小残差学习HEVC可变大小变换以后处理HEVC中的帧内编码。在[13]中进行了一项研究，通过在解码器端对深度CNN进行后处理来提高解码帧质量。在[14]中，设计了一种基于重要映射的CNN结构化自动编码器来压缩图像以分配比特。在[14]中提出了一种用于图像压缩的端到端结构类型以及一种新的速率估计技术。这里，我们提出了一种组合的基于空间时间的环内滤波器，用于HEVC层间编码的可伸缩扩展，扩展了我们先前的工作 [15] 。环路滤波器包含一个整流线性单元（ReLU），它是CNN中的激活函数[16]，也可以对最后一个隐藏层的预测输出进行分类。与基于用于视频压缩的CNN的传统滤波器相比[11，12]，对于环路滤波器还额外考虑了时间细节，以提高编码帧的质量。在[17]中提出了一种基于时空残差网络的环内滤波器，以加快训练并提高编码效率。特别是，ReLU方法[16]在我们提出的CResNet中实现，以加速训练并实现更好的编码性能。为了检查与最近的视频编码算法的兼容性，所提出的工作与SHM12.1 [18]集成以在SAO（样本自适应偏移）滤波器之后引入环路滤波器此外，为了确保CResNet环路滤波器的性能，编码树单元（CTU）中的电平滤波器开/关控制标志用于检测率失真优化（RDO）。概括而言，本文的贡献如下：1. 我们提出了一种新的CResNet架构的环路滤波器，以抑制视觉伪影。2. 这项工作的主要贡献是残差网络的工作架构，说明了四个和两个卷积层的基础和增强层分别为一个GOP的视频序列。3. 使用不同的QP压缩视频序列以生成训练数据，并制定损失函数。4. 实验结果表明，PSNR提高了1.01 dB，达到了6。两千七百万。2%的编码效率。本文分为第2节，第2节阐述了拟议的CResNet环路滤波器，第3节描述了网络模型训练。第4节描述了实验结果，第5节总结了论文。图1.一、提出的CResNet架构。2. 组合残差网络这里，详细描述了所提出的基于组合时空残差网络（CResNet）的环路滤波器。首先，介绍了具有整流线性单元（ReLU）的网络架构及其参数。然后讨论了将CResNet集成到SHVC中的相关信息。2.1. 网络架构所提出的CResNet架构是一个完全卷积网络，其包含分别用于基本层和增强层的四个和两个卷积层，用于如图所示的视频序列中的GOP。1，并在表1中列出。该结构在基本层有两个输入，例如当前块输入和先前编码帧基于当前块的相邻参考帧在空间时间域中获得用于基础层和增强层的共位块。层1涉及两个卷积函数，其作为空间卷积网络操作以相应地提取空间特征。空间卷积网络中滤波器的大小为5 5和3 3。为了执行时间卷积网络，堆叠的基层的层1熔合到基层的层2，层以及通过不同的特征图和不同的滤波器大小输入到增强层。三个以上的时间卷积层;例如两个用于基础层，一个用于增强层，其中两者都使用相同的滤波器大小 3 3 。整流线性单元（ReLU）[19]的重要性在于为CResNet中的每个卷积网络层采用非线性映射。环路滤波器包含一个整流线性单元（ReLU），它是CNN中的激活函数[16]，也可以使用softmax分类函数对最终卷积层的预测输出进行分类。这种类型的网络利用函数softmax交叉熵来训练神经网络权重参数θ。在这里，仍然实现了损失函数，但是可以与ReLU特性折衷，308Dhanalakshmi A和Nagarajan G./ICT Express 6（2020）306××××=−表1测试序列的规范。1 8 16增强层特征图16 64参数数量9216 1600参数总数10816预测单位。预测单元y与倒数第二层激活输入x使用等式（1）作为r（θ）= −∑y·ln（max（0，θx+c））（1）权重参数θ通过反向传播学习ReLU分类器中的梯度。为了实现这一点，交叉熵函数是基于ReLU的倒数第二层的激活。令该激活输出j代替激活输入x，则使用等式（1）的激活（2）作为其中D和R分别表示RDC函数J的失真和比特率。下标a和b分别表示所提出的环路内滤波器的存在和不存在。当RDC功能Ja Jb时，开/关电平控制标志被禁用，反之亦然。显然，将不存在由环路滤波器生成的额外编码信息，因此将不存在Ra和Rb的差异。因此，估计Da和Db之间的失真差就足够了。3. 训练网络模型讨论了CResNet的训练过程r（θ）θ·yθ jmax（0，θ j+c）·log10（二）本节基于两个阶段。在第一阶段中，训练数据集的生成，和第二阶段描述的超参数的训练方法反向传播类似于用于具有n类离散似然分布d和softmax层输入 q 的传统 softmax 网络的反向传播，使用等式（1）。（3）作为r（θ） ∑[JJ3.1. 数据集生成所有训练样本由（yi，xi，xi-1）表示）在哪里=我nnq n（三）xi和xi−1表示位于同一位置的输入和当前输入个街区. 同位块是相邻参考如图1所示的当前块的帧。此外，委员会认为，通过四个卷积层在基层和两个在增强层作为残差学习[17]。输出通过当前块和最终卷积层输出的元素求和来获取CResNet中的参数描述如表1所示。2.2. SHVC中的CResNet所提出的CResNet集成到SHVC参考软件SHM 12.1 [18]中，以扩展环路滤波器。该环路滤波器位于SHVC编码器中SAO滤波器之后。为了全面研究CResNet性能，编码树单元（ CTU ）被定义为滤波单元。这意味着CResNet将接管所有CTU其在其相邻参考帧中的共址CTU，当前块作为输入。编码树单元（CTU）[20]的开/关电平控制标志使用率失真优化（RDO）方法来感测。RDO方法使用等式2比较率失真成本（RDC）函数Ja和Jb。（4）作为Ja= Da+ λRaJb=Db+λRb（4）yi表示xi的原始块。从训练数据开始集生成，以下三个B类视频序列例如和服19201080，parkscene 19201080和1920年的鸭子1080使用SHM 12.1压缩对于所有配置（全帧内、随机接入、低延迟B和低延迟P）。在压缩这三个序列时，SAO和解块滤波器被打开，因为所提出的CResNet被放置在SAO之后。训练数据集将从三个视频序列中选择，例如，前100帧可以用作本工作中考虑的训练数据集。另外，在压缩时，这三个视频序列使用四个不同的量化参数（QP）集合用于基本层和增强层，诸如（22，26）、（27，31）、（32，36）、（37，41），以用于生成各种模型中的训练数据。应注意，在所有配置下使QP偏移为零，这表示B帧和I帧都用相同的QP编码。接下来，将块大小的所有训练样本固定为38× 38，即，为yi，xi和xi−1。在设置固定块大小之后，可以从第i帧提取xi，使得i∈2到100帧，并且可以在第i相邻参考帧的等效空间位置处识别xi-1。为了获得大的训练数据，通过在每帧的Y（亮度）分量因此卷积层层4层3层2层1滤波器基础层要素地图参数总数参数总数1× 18114643× 311523× 392163× 3 5× 532 32288 800卷积层滤波器层23× 3层15× 5Dhanalakshmi A和Nagarajan G./ICT Express 6（2020）306309N i=1i−1我我的∑对于不同的QP集合获得巨大的训练样本。最后，所有裁剪的训练样本都被随机打乱。3.2. 培训办法由于具有不同的编码配置，网络被单独训练以区分不同的质量水平。为了训练样本，例如yi、Xi、Xi-1，目标是减少（4）中的损失函数，由下式给出1NR（Φ）=F（x，xΦ）−y（5）其中 Φ 表示在训练时使用的超参数列表，并指示CResNet。CResNet是用深度学习结构Caffe [21]训练的，使得针对一组QP训练的模型，类似地四组QP（22，26），（27，31），（32，36），（37，41）具有四个不同的模型都受过训练为了配置训练，每个卷积层都使用零填充来保证输入和输出的图像大小相同。最初，所有卷积层权重和偏置条件都使用高斯初始化，标准误差为0：001。为所有迭代设置批大小为128的批规格化。方程中的目标函数（5）使用Adam [22]中的优化梯度进行训练，并为不同的集合设置0.99至0.98的Nesterov动量的QP。此外，在不同的QP集合下训练模型时使用不同的学习速率，如表2所示。表2 列出了训练时使用的超参数，它指示了不同QP集下的学习率，Nesterov动量和迭代。4. 实验结果建议的CResNet通过修改SHM12.1[18]用于SHVC的参考软件。修改是在SAO后SHVC编码器中引入建议的CResNet环路滤波器。用于实验所提出的工作的系统配置是英特尔i7处理器与windows 7操作系统32位处理-排序和缓存[21] CPU。建议的CResNet中的训练模型将单独处理Y（亮度）分量。此外，CResNet的性能是最大化的CTU使用RDO使用开/关电平控制标志。在RDO方法中，考虑Y（亮度）分量的失真的差异。针对所提出的CResNet，使用四组不同的QP，诸如用于基础层和增强层的（22，26）、（27，31）、（32，36）、（37，41）来自类别A、B、C、D和E的所有类型的视频序列被用于所有配置（所有帧内、随机访问、低延迟B和低延迟P）中的实验，其中进行每个B帧的QP偏移为零。与之相比，视觉质量的比较及其复杂性也进行了分析和讨论。对每一类中的所有视频序列进行压缩，并将所有序列的初始100帧用于测试。使用BD速率和BD-PSNR评估所提出的CResNet编码效率性能[23]图二、和服在QP（27，31）（a）SHM下的视觉质量比较(b)CResNet。计算CResNet对SHVC视频序列[24]在A、B、C、D类中的编码特性和质量C、D和E列于表3中。表3示出了分别针对所有配置的实验结果得到不同类型的视频序列下的每个类从A到E的建议CResNet。获得了1.01dB的PSNR的平均视频质量改进，并且实现了所有配置的平均编码增益，即在全帧内节省2.3%的比特率，在随机访问节省2%的比特率，在低延迟B节省2.7%的比特率，以及在低延迟P节省3%的比特率。E类四人视频序列的最大压缩率为6.2%~7.2%。由于所提出的CResNet被应用于亮度分量，因此仅针对Y（亮度）分量实现编码特性。在所有配置中使用的视频序列的编码/解码时间的平均值用于评估所提出的CResNet的时间复杂度分析。计算SHM 12.1和CResNet的编码/解码时间。计算所有配置的平均时间节省百分比表III列出了平均编码器时间节省从4.23%所有配置的平均解码时间节省从 58.72% 到70.11%。此外，所提出的CResNet环路滤波器减少了伪影，并产生了良好的视觉质量，如图2所示的和服序列。图像中的选定区域被最大化并与图像一起显示，以比较所提出的CResNet与SHM编码器的视觉质量。5. 结论因此，本文提出了一种组合时空残差网络（CRes-Net）环内滤波器来抑制块效应和振铃效应。特别地，考虑与空间和时间基本层参考帧的当前和协同定位块相关的块信息，其优化了环内滤波器。更具体地说，每个网络根据具有不同QP集合的不同配置来单独训练，以区分各种质量级别和编码方法。此外，采用RDO方法来切换CTU的电平控制标志。结果表明，与标准SHVC编解码器相比，所提出的CResNet2310Dhanalakshmi A和Nagarajan G./ICT Express 6（2020）306表2不同QP集合的超参数超参数QP（BL，EL）=22，26QP（BL，EL）=27，31QP（BL，EL）=32，36QP（BL，EL）=37，41学习率0.0000010.00000010.000000010.00000001Nesterov动量0.999.990.980.98迭代400,000400,000200,000200,000表3建议CResNet的实验结果类别视频序列分辨率BD-PSNR（dB）所有帧内，Y（%）RA，Y（%）LD B，Y（%）LDP，Y（%）A流量2560×1600 0.93 −1.0 −0.9 −1.1 −1.2街道上的人2560×1600 0.92 −0.9 −0.8 −1.0 −1.1和服1920×1080 0.97 −1.4 −1.3 −1.8 −2.1B ParkScene 1920×1080 0.89 −1.5 −1.4 −1.9 −2.2DucksTakeOff1920×1080 0.89 −1.5 −1.2 −1.6 −1.9篮球训练器832×480 0.99 −1.7 −1.6 −2.0 −2.3C PartyScene 832×480 1.02 −2.1 −1.9 −2.3 −2.6BQ商城832×480 1.10 −2.2 −1.7 −2.5 −2.8BasketballPass416×240 1.03 −3.1 −2.6 −3.4 −3.8D BQ Square 416×240 1.04 −2.9 −2.4 −3.3 −4.2吹泡泡416×240 1.12 −3.3 −2.8 −4.1 −4.8E四人1280×720 1.09 −6.5 −6.2 −6.9 −7.2Johny 1280×720 1.09 −1.9 −1.4 −2.6 −3.3平均1.01-2.31.308-2.7-3.0EncT_CResNet / EncT_SHM（%）111.3109.7108.5110.4DecT_CResNet / DecT_SHM（%）8164460350166798(EncT_SHM-EncT_CResNet）/EncT_SHM（%）6.894.764.235.51(DecT_SHM-DecT_CResNet）/DecT_SHM（%）58.7278.268.4370.11竞合利益作者声明，他们没有已知的可能影响本文所报告工作CRediT作者贡献声明Dhanalakshmi A.：概念化，方法论，软件，数据管理，写作 - 初稿，可视化，调查，写作 - 评论编辑 .Nagarajan G.：监督、软件、验证。引用[1] A. Norkin 等人， HEVC 解块滤波器， IEEE Trans. Circuits Syst.Video Technol.22（12）1746[2] C.M. 傅，等，HEVC 标准、 IEEE Trans. 电路系统视频技术22（12）17551764。[3] X. Zhang等人，高效率的图像编码通过近最佳滤波，IEEE信号处理。Lett.[4] X. Zhang 等人，具有时间预测的自适应环路滤波器，在：PictureCoding Symposium，PCS，IEEE，2012，pp. 四三七四四零[5] L. Balaji等人，提出了一种基于AEGBM 3D滤波器和反向传播神经网络相结合的H.265/SHVC增强型视频信号图像处理算法。12（5）（2018）809[6] X. Zhang等人，基于低秩非局部自适应环路滤波器的高效视频压缩，IEEE电路系统视频技术。[7] S. Ma等人，非局部环路滤波器：下一代视频编码的方向？IEEEMultimedia 23（2）16[8] C. Dong等人，通过深度卷积网络减少压缩伪影，见：IEEE计算机视觉国际会议论文集，第100页。第576-584页。[9] Z. Wang等人，D3：JPEG压缩图像的基于深度双域的快速恢复，在：IEEE计算机视觉和模式识别会议论文集，pp.2764-2772。[10] C. Dong等人，学习图像超分辨率的深度卷积网络，在：欧洲计算机视觉会议，Springer，Cham，pp。184-199。[11] Park等人，基于CNN的环路滤波用于提高编码效率，见：图像、视频和多维信号处理研讨会（IVMSP），2016年IEEE第12届，IEEE，pp.1比5。[12] Y. Dai 等人， A convolutional neural network approach for postprocessing in HEVC intra coding， in ： International Conference onMultimedia Modeling，Springer，Cham，pp.28比39[13] T. Wang等人，一种从HEVC的解码器端提高编码效率的基于深度学习的新方法，在：数据压缩会议，DCC，IEEE，2017，pp. 410-419[14] J. Ball等人，端到端优化的图像压缩，arXiv预印arXiv：1611。01704.[15] A. Dhanalakshmi等人，SHVC性能增强使用高级步搜索算法，ICTExpress 5（3）（2019）211-214。[16] Abien Fred M. Agarap，使用整流线性单元（ReLU）的深度学习，2019，arXiv：1803。08375v2[cs.NE] 2 月7日[17] K. He等人，图像识别的深度残差学习，在：IEEE计算机视觉和模式识别会议论文集，pp. 770-778[18] 常见SHM测试条件和软件参考配置，文档。JCTVC-Q1009，ITU-TSG 16 WP 3和ISO/IEC JTC 1/SC 29/WG 11，2014年3月。SHM 12.1软件包 [ 在线 ]. Avail- able ： https ： //hevc. 海喜岛 fraunhoferr.de/svn/svn_SHVCSoftware/tags/SHM-12. 1/。[19] V. Nair等人，修正线性单元改进受限玻尔兹曼机，在：第27届国际机器学习会议论文集，ICML-10，pp。807-814[20] Chuanmin Jia等人，用于视频编码的基于时空残差网络的环路滤波器，2017，arXiv：1709. 08462v1[cs.MM] 9月25日Dhanalakshmi A和Nagarajan G./ICT Express 6（2020）306311[21] 杨青贾等， Caffe ： Convolutionalarchitectureforfastfeatureembedding ，in：Proceedings of the 22nd ACM InternationalConferenceon Multimedia，ACM，2014。[22] D. Kingma 等人， Adam ： A method for stochastic optimization ，arXiv preprintarXiv：1412. 6980.[23] G. Bjontegaard，RD曲线之间的平均PSNR差异的计算，在：ITU-TQ. 6/SG 16 VCEG，第15次会议，美国得克萨斯州奥斯汀，2001年4月。[24] F. 2001年1月25日，国际电信联盟第16届工作组第3次会议和ISO/IEC JTC 1/SC29/WG 11第5次会议上，通用测试条件和软件参考配置。2011年。

下载后可阅读完整内容，剩余1页未读，立即下载