端到端学习视频压缩方法的研究与优化

83 浏览量更新于2023-10-25 收藏 713KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3546M-LVC：用于学习视频压缩建平林东刘玉强李凤武中国科学技术大学中国科学院地理空间信息处理与应用系统技术重点实验室，合肥230027ljp105@mail.ustc.edu.cn，{dongeliu，lihq，fengwu}@ustc.edu.cn摘要我们提出了一个端到端的学习视频压缩方案的低延迟的情况下。以前的方法局限于使用前一帧作为参考。我们的方法引入了使用以前的多个帧作为参考。在我们的方案中，运动矢量（MV）字段之间的当前帧和前一个计算。利用多个参考帧和相关联的多个MV场，我们设计的网络可以生成当前帧的更准确的预测，产生更少的残差。多个参考帧也有助于产生运动矢量预测，这降低了运动矢量场的编码成本我们使用两个深度自动编码器来分别压缩残差和MV为了补偿自动编码器的压缩误差，我们进一步设计了一个MV细化网络和一个残差细化网络，并利用了多参考帧。在我们的计划中的所有模块联合优化，通过一个单一的率失真损失函数。我们使用一步一步的训练策略来优化整个方案。实验结果表明，该方法优于现有的学习视频压缩方法的低延迟模式。我们的方法在PSNR和MS-SSIM方面也优于H.265。我们的代码和模型是公开的。1. 介绍2017年，视频占所有互联网流量的75%，预计到2022年，这一比例将达到82%[6]。为了降低传输成本，视频压缩成为一个迫切的需求.目前，互联网视频通常被压缩成H.264 [29]或H.265格式[21]。新的视频编码标准如H.266和AV1正在兴起。虽然新标准承诺改善本工作得到了国家重点研究发展计划项目2018YFA0701603和国家自然科学基金项目61931014和61772483的支持代码和型号可在https://github.com/JianpingLin/ M-LVC_CVPR 2020上获得。（通讯作者：刘东。）压缩比，这种改善伴随着成倍的编码复杂度。事实上，所有正在使用或即将到来的标准都遵循相同的框架，即运动补偿预测、基于块的变换和手工熵编码。该框架已经传承了三十多年，框架内的发展逐渐饱和。最近，一系列研究试图在训练好的深度网络之上构建全新这些研究可以分为两类，根据他们的目标场景。对于第一类，Wuet al.提出了一种用于基于内插的视频压缩的基于递归神经网络（RNN）的方法[30]，其中运动信息通过传统的基于块的运动估计来获得，并且通过图像压缩方法来压缩后来，Djelouahet al.还提出了一种基于插值的视频压缩方法，其中插值模型结合了运动信息压缩和图像合成，并且相同的自动编码器用于图像和残差[7]。基于插值的压缩使用先前帧和后续帧作为参考来压缩当前帧，这在诸如回放的随机访问场景中是有效的。然而，它不太适用于低延迟场景，如实时传输。第二类研究针对低延迟情况，并限制网络仅使用时间上不一致的帧作为参考。例如，Luet al. DVC是一种端到端深度视频压缩模型，它联合学习运动估计、运动压缩、运动补偿和残差压缩功能[14]。在该模型中，仅一个先前帧用于运动补偿，这可能没有充分利用视频帧中的Rippel等人提出了另一种视频压缩模型，它保持一种潜在的状态来记忆先前帧的信息[18]。由于潜在状态的存在，该模型难以训练且对传输误差敏感。在本文中，我们感兴趣的低延迟scenar- ios，并提出了一个端到端的学习视频压缩方案。我们的关键思想是使用之前的多帧3547作为参考。与仅使用一个参考帧的DVC相比，我们使用多个参考帧将预测增强两倍。首先，给定多个参考帧和相关联的多个运动矢量（MV）场，可以导出用于预测当前帧的多个假设;假设的组合提供了一个整体。第二，给定多个MV场，可以外推以预测随后的MV场;使用MV预测可以降低MV场的编码成本因此，我们的方法被称为多帧预测学习视频压缩（M-LVC）。请注意，在[18]中，先前多帧的信息被隐式地用于通过潜在状态预测当前帧;但在我们的方案中，多帧预测被显式地解决。因此，我们的计划是更可扩展的（即。可以使用更多或更少的引用），更易理解（即，通过运动补偿实现预测），并且根据我们的观察更容易训练。此外，在我们的方案中，我们设计了MV细化网络和残差细化网络。由于我们使用深度自动编码器来压缩MV（resp.残差），压缩是有损的并且在解码的MV中引起误差（相应地，残余）。MV（MV）残差）细化网络用于补偿压缩误差并提高重建质量。我们还利用残差/MV细化网络中的多个参考帧和/或相关联的多个MV场。总的来说，我们的技术贡献包括：• 我们在端到端学习视频压缩中引入了四个有效的模块：基于多帧的运动矢量预测、基于多帧的运动补偿运动向量细化和残差细化。烧蚀研究表明，这些模块实现的增益。• 我们使用一个单一的率失真损失函数，连同一个逐步的训练策略，共同优化我们的计划中的所有模块。• 我们在具有各种分辨率和不同内容的不同数据集上进行了广泛的实验。我们的方法优于现有的学习视频压缩方法的低延迟模式。我们的方法在PSNR和MS-SSIM方面都优于H.265。2. 相关工作2.1. 学习图像压缩最近，基于深度学习的图像压缩方法取得了很大进展[2，3，11，15，24，25]。与传统图像编解码器（如JPEG [26]、JPEG 2000 [20]）中的手工制作技术不同，和BPG [4]，新方法可以从数据学习非线性变换，并以端到端的方式估计熵编码在[11，24，25]中，基于长短期记忆（LSTM）的自动编码器用于渐进地编码原始图像和重建图像之间的差异。此外，还有一些研究利用基于卷积神经网络例如，Balle 'et al. [2]在基于CNN的自动编码器中引入了一个非线性激活函数，即广义分裂归一化（GDN），并使用全连接网络估计了潜在表示的概率该方法优于JPEG2000。它没有考虑输入自适应熵模型。Balle等随后在[3]中介绍了一种输入自适应熵模型，该模型通过使用零均值高斯分布来对每个潜在表示进行建模，并且通过参数变换来预测标准偏差。最近，Minnenet al.[15]进一步改进了上述输入自适应熵模型，加入了上下文自适应模型;他们的方法优于BPG。本文的运动矢量压缩模块和残差压缩模块是在文献[2，3]的图像压缩方法的基础上设计的我们注意到，学习图像压缩模型的新进展可以很容易地集成到我们的计划。2.2. 学习视频压缩Compared with learned image compression, relatedwork for learned video compression is much less. In 2018,Wu et al.提出了一种基于RNN的方法，用于基于插值的视频压缩[30]。他们首先使用图像压缩模型来压缩关键帧，然后使用分层插值来生成剩余的帧。运动信息通过基于块的运动估计提取，并通过传统的图像压缩方法进行编码。Han等人提出使用变分自动编码器（VAE）来压缩序列数据[8]。他们的方法共同学习将原始视频转换为低维表示，并根据时间条件概率模型对这些表示进行熵编码。然而，他们的模型仅限于低分辨率视频。最近，Djelouahet al.提出了一种基于插值的视频压缩方案，其中运动和混合系数直接从潜在表示中解码，残差直接在潜在空间中计算[7]。但是插值模型和残差压缩模型没有联合优化。虽然上述方法是针对随机访问模式设计的，但是已经针对低延迟模式开发了一些其他方法。例如，Luetal.提出了用基于CNN的组件，即CNN组件代替传统视频压缩框架中的模块。运动3548不ME-Net�� MVMV编码器解码器��−1��解码帧缓冲器�� −1MC-Net��ҧ��残留量�� R��e sidual ��Ƹ编码器解码器−当前帧解码MV缓冲MAMVP-净�� −3 �� −2��−1��ҧ��−ME-NetMVDMVD��−1�� 编码器�� D ec od e r��መMV�� ′ 优化-净��−1�� −3�� −2�� −1 ��解码帧缓冲�� −4�� −3�� −2��−1MMC-Net��ҧ��R e sidual��R��esidual��Ƹ′编码器解码器−残留量��Refine-Net当前帧解码MV缓冲(a)（b）第（1）款图1. (a)DVC方案[14]。(b)我们的计划。与DVC相比，我们的方案有四个新的模块，用蓝色突出显示。此外，我们的解码帧缓冲区存储多个先前解码的帧作为参考。我们的解码MV缓冲区还存储多个解码MV字段。图中描绘了四个参考框架，这是本文中的默认设置。估计、运动压缩、运动补偿和残差压缩[14]。他们的模型直接压缩运动信息，并且仅使用前一帧作为运动补偿的参考。Rippel等人提出通过保持潜在状态来利用多个参考帧的信息由于潜在状态的存在，它们的模型难以训练并且对传输误差敏感。我们的方案也是为低延迟模式量身定制的，我们将在下面更具体地与[14]进行比较3. 该方法符号。设V={x1，x2，. . .，xt，. . . }表示原始视频序列。xt、x<$t和xt表示原始帧、预测帧和解码/重构帧步骤t。 r t是原始帧xt和预测帧xt之间的残差。 R′表示由残差自动编码R重构的残差，并且R′t是最终解码的残差。为了消除视频帧间的时间冗余，我们使用基于光流估计的逐像素运动矢量（MV）场。 vt、v′t和v′t分别表示在时间步长 t 处的原始、预测和解码的 MV场。 dt 是原始 MVvt 和预测 MV 之间的 MV 差（MVD）v't. 是通过MVD自动编码r重构的MVD，并且v′表示通过将d′加到v′而重构的MV。新的模块，都是基于多个参考框架。我们方案的具体压缩工作流程介绍如下。步骤1.运动估计和预测。当前帧xt和参考帧xt-1被馈送到运动估计网络（ME-Net）中以提取运动信息vt。在本文中，ME-Net基于光流网络FlowNet2.0 [10]，这是最先进的。代替如图1B中直接编码逐像素MV场vt。1（a），这会导致高编码成本，我们提出使用运动向量预测网络（MAMVP-Net）来预测当前运动向量场，这可以在很大程度上去除运动向量场的时间冗余。更多信息见第3.2节。步骤2.运动压缩和细化。在运动预测之后，我们使用MVD编码器-解码器网络来编码原始MVvt和预测MVvt之间的差 d t。这里的网络结构类似于[2]中的网络结构。该MVD编码器-解码器网络可以进一步去除在dt中存在的空间冗余。具体地，首先将d t非线性地映射到潜在表示mt，然后通过舍入操作将其量化为mt。然后，通过[2]中提出的CNN来估计m的概率分布。在推断阶段，使用tt t由于自动编码器表示变换，因此残差r t和MVDdt被变换为yt和mt。 y_t和m_t分别是对应的量化版本。3.1. 拟定方法图1显示了DVC [14]的方案和我们的方案进行了并排比较。我们的计划引入了四个估计分布。然后，可以从通过非线性逆变换对输入进行解码。由于解码的数据包含由于量化引起的误差，因此，特别是在低比特率下，我们提出使用MV细化网络（MV Refine-Net）来减少量化误差并提高质量。之后，将细化的MVv_i_t缓存在解码的MV缓冲器中以用于下一帧编码。更多详情见第3.3节。3549Conv（3，Conv（3，不不不v<$tvt−ivt−3vt−2t−2vt−3t−2t−1tv<$tL步骤3.运动补偿重建后，��0123MV，我们使用运动补偿网络（MMC-Net）来得到预测帧x′t。代替如图1所示仅使用一个参考帧进行运动补偿1（a），我们的MMC-Net可以通过使用多个参考帧来生成更准确的预测帧。更多信息见第3.4节。步骤4.残余压缩和细化。在运动补偿之后，残差编码器-解码器网络用于对原始帧xt和预测帧xt之间的残差r t进行编码。网络结构与文献[3]中的网络结构相似。该残差编码器-解码器网络可以通过强大的非线性变换进一步去除在rt中存在的空间冗余，由于其有效性，该非线性变换也用于DVC [14]。类似于dt��−�� −�� −��（一）(a)�� −�� −��ҧ�� 在压缩过程中，首先将残余r t变换为y t，且接着量化为yt。然后通过[3]中提出的CNN估计y的概率分布在推断阶段中，使用估计的分布将y t输入编码到比特流中。然后，可以通过非线性逆变换从经熵解码的y_t重构r_t。解码后的r′包含量化误差，因此我们建议使用残差细化网络（残差细化网络）以减小量化误差并提高质量。详情见第3.5节。步骤5.帧重建。在细化残差之后，可以通过将r_t添加到预测帧x_t来获得重构帧x_t。然后，将x_1_t高速缓存在解码帧缓冲器中，用于下一帧编码。3.2. 多尺度对齐MV预测网络为了解决帧间大而复杂的运动，我们提出了一种多尺度对齐MV预测网络图 2. 的多尺度对齐 MV 预测网络Conv（3，16，1）表示卷积层的超参数：核大小为3×3，输出通道数为16，步长为1。每个卷积层都配备了一个泄漏的ReLU，除了由绿色指示的那个。(a)多尺度特征提取部分。2×下采样由步长为2的卷积层执行，i为0，1，2。(b)在第l级的MV预测部分。l是0，1，2，3，并且第3级的网络不以前一级为条件。vt−1和vt−2在第l个水平的版本。 W arp代表基于双线性插值的扭曲。请注意，由于其有效性，在先前的工作中已经采用了特征域扭曲，例如[16]中的视频帧插值和[22]中的光流生成。第三，我们使用金字塔网络，根据vt−1的特征pyramid 和vt−2和vt−3 的 warped 特征pyramid，从粗到细预测当前MV场。如图所示。2（b）、预测的MV场v′l和预测的fea。（MAMVP-Net），如图所示二、我们使用前三个重构的MV场，即，vt−3，vt−2和vt−1，得到turesfl在第l级，可以通过以下方式获得：MV预告片我不知道。可以使用更多或更少的MV字段vl，fl =Hmvp（v<$l+1，u，fl+1，u，fl，fl，w，fl，w）（3）这取决于解码MV缓冲器的大小不v<$ttv<$tvt−1vt−2vt−3如图在图2（a）中，我们首先使用多尺度特征提取网络（例如使用四个级别）为每个先前重构的MV场生成多级特征金字塔，其中v<$l+1，u和fl+1，u是2×上采样MV场，并且使用双线性从先前第（l+1）级的MV场中提取特征。重复该过程直到期望的第0电平，从而产生最终的预测MV场v′t。Lvt−i其中fl|l=0,1,2,3}=Hmf(vˆt−i),i=1,2,3(1)表示vt−i在第l个evel处的特征。3.3. MV精炼网络第二，考虑先前重构的MV场在MVD压缩之后，我们可以重建MV通过将解码的MVDdt添加到预测的MVDdt，包含压缩误差，我们选择扭曲特征t′vt−3和vt−2的pyramid，而不是MV字段them- selv es，通过以下方式向vt−1发送MVv't。但是v_t包含由quan引起的压缩误差特别是在低比特率下。例如，我们发现l，wvt−3l，wvt−2=Warp（fl=Warp（fllt−1lt−1+W arp（vl），l=0，1，2，3t−1））（二）数据中有许多零，因为零MVD需要较少的位来编码当压缩MV字段时，在DVC [14]中也报告了类似的结果。但是这种零MVD导致不准确的运动补偿。因此，我们建议使用其中fl，wl，wvt−2 是vt−3的特征，MV细化网络（MV Refine-Net），以减少COM-vt−2在第l个水平。vl和vl是下采样的提高重建精度��ҧ��+1,��+1,��−1，��−2，��−3Conv（3，ConcatenateConv（3，Conv（3，32，1）Conv（3，32，1）Conv（3，Conv（3，32，1）Conv（3，Conv（3，32，1）Conv（3，Conv（3，32，1）Conv（3，Conv（3，2，1）{fFF，v，v，v和f3550xt−it−it−kt−kxt−4t−1不不不不wt−kW=W arp（vt−k，vt+k−1l=1wt−l ），k=1， 2， 3x<$t−1=W arp（x<$t−1，v<$t）f w=W arp（fxn ，vnt+Σi−1k=1i=1，2，3，4（四）其中vw是vt-k向vt的收缩版本，并且wxt−i是xt−i的warped特征最后，如图。三个小时，扭曲的特征和帧被馈送到CNN中以获得预测帧，x<$t=Hmc（f wwxt−3wxt−2wxt−1wt−1 ）+xw（五）图3.运动补偿网络。残差块之外的每个卷积层都配备了一个泄漏的ReLU，除了最后一层（由绿色表示）。每个残差块由两个卷积层组成，其配置如下：内核大小为3×3，输出通道数为64，第一层为ReLU。MV. 如图 1（b），我们使用前三个重构的MV场，即， vt−3、vt−2和vt−1，以及参考坐标系xt−1来细化v′。使用先前的多个重构的MV场可以更准确地预测当前MV，然后帮助细化。使用xt−1的原因是，下面的运动补偿模块将依赖于细化的vt和xt−1来获得预测帧，因此xt−1可以作为帮助细化v′ 的指导。根据我们的实验结果（第4.3节），将xt−1馈送到MV细化网络中确实会提高压缩效率。有关MV Refine-Net的更多详细信息，请参见补充资料。3.4. 多参考系运动补偿网络在传统的视频编码方案中，使用多个参考帧的运动补偿在H. 264/AVC [29]中被采用，并且被以下标准继承。例如，一些编码块可以使用来自不同参考帧的两个不同运动补偿预测的加权平均，这大大提高了压缩效率。此外，在最近的视频超分辨率工作中，也观察到多帧方法比基于单帧的方法好得多[9，13，27]。因此，我们建议在我们的方案中使用多个参考系进行运动补偿。网络架构如图所示3.第三章。在这个模块中，我们使用前面的四个参考帧，即。e. xt-4、xt-3、xt-2和xt-1，以获得预测帧xt。根据解码帧缓冲器的大小，可以使用更多或更少的参考帧。首先，我们使用双层CNN来提取每个参考帧的特征。然后，通过以下方式向当前帧发送扩展特征和xt-1其中网络基于U-Net结构[19]并集成多个残差块。3.5. 残差精化网络在残差压缩之后，重构的残差r′包含压缩误差，特别是在低比特率下。类似于MV细化网络的情况，我们提出了一个残差细化网络（残差细化网络），以减少压缩误差，提高质量。如图1（b），该模块利用前四个参考帧，即，xt−4、xt−3、xt−2和xt−1，以及预测帧xt以细化r′。有关该网络的更多详情，请参阅补充资料。3.6. 培训战略损失函数。我们的方案旨在联合优化编码比特数和原始帧xt与重构帧xt之间的失真。我们使用以下损失函数进行训练，J=D+λR=d（xt，xt）+λ（Rmvd+Rres）（6）其中d（xt，x<$t）是xt和x<$t之间的失真。我们使用均方误差（MSE ）作为失真度量在我们的实验。R_mvd和R_res分别表示用于对MVD_d_t和残差r_t进行编码的比特率在训练过程中，我们不执行实数编码，而是根据相应的潜在表示m*t和y*t的熵来估计比特率。我们利用文献[2]和[3]中的CNN估计m_t和y_t的概率分布，从而得到相应的熵。由于mt和yt是量化表示，并且量化操作不可微，因此我们使用[2]中提出的方法，其中通过在训练期间添加均匀噪声来代替量化操作。渐进式训练。我们试着从头开始训练整个网络，除了ME-Net之外的所有模块都随机初始化（ME-Net容易初始化使用FlowNet2.0）。结果并不令人满意，因为产生的比特率不平衡：MVD的速率太低x��−4��−3��−2 ��−1��−1X3X1��ҧ��X3 X31 × 1 × 1ConcatenateConv（3，Conv（3，残余块残余块残余块Conv（3，双线性，Conv（3，残余块Conv（3，残余块残余块双线性，vvF，f，f，f，x3551UVG数据集3938373635340.0 0.1 0.2 0.30.4BPP（一）HEVC B类数据集3635343332310.1 0.2 0.3 0.4 0.50.6BPP（b）第（1）款HEVC D类数据集3635343332313029280.1 0.2 0.3 0.4 0.5 0.6 0.7BPP(a)0.9800.9750.9700.9650.9600.9550.9500.945UVG数据集0.0 0.1 0.2 0.30.4BPP(b)0.9800.9750.9700.9650.9600.9550.9500.9450.940HEVC B类数据集0.1 0.2 0.3 0.4 0.50.6BPP(c)0.990.980.970.960.95HEVC D类数据集H.264和H.265DVC提出0.1 0.2 0.3 0.4 0.5 0.6 0.7BPP(d)图4. 整体性能。使用H.264 [29]，H.265 [21]，DVC [14]，Wu方法[30]和所提出的方法对三个数据集进行压缩。我们直接使用[14]和[30]中报道的结果。 H.264和H.265的结果引自[14]。Wu [30]没有报告HEVC B类和D类。顶行：PSNR。底行：MS-SSIM。并且对于残差的速率太大，因此压缩结果是低效的（参见4.3节中的实验结果）。为了解决这个问题，我们采用了一步一步的培训策略。首先，我们训练只包含ME-Net和MMC-Net的网络然后，在固定ME-Net和MMC-Net参数的情况下，加入MVD和残差编解码器网络进行训练。之后，对上述四个模块进行联合微调.接下来，我们将MAMVP网络，MV精炼网络和残差精炼网络逐一添加到训练系统中。每次添加新模块时，我们都会修复之前训练的模块，并专门学习新模块，然后联合微调所有模块。值得注意的是，许多以前的研究，使用分步训练通常采用不同的损失函数为每一步（例如，[17，32]），而损失函数在我们的方法中保持相同的率失真4. 实验4.1. 实验装置培训数据。我们使用Vimeo-90 k数据集[31]，将大而长的视频序列裁剪成192×192，16帧的视频剪辑。实施详情。在我们的实验中，编码结构是IPPP。-是的- 是的所有的P帧都被压缩，同样的网络。我们没有实现一个单一的图像压缩网络，而是使用H.265来压缩唯一的I帧。对于前三个P帧，其参考帧小于四个，我们复制最远的参考帧以实现所需的四个帧。我们训练了四个具有不同λ值（16，24，40，64）的模型，用于多种编码率。亚当优化器[12]的动量为0。9采用了初始学习率为5e−5，用于训练新添加的模块，在微调阶段为1e−5。在训练过程中，学习率降低了5倍。批量大小为8（即，8个剪辑）。整个方案由TensorFlow实现并经过训练/测试一个泰坦XP GPU。测试序列。HEVC公共测试序列，包括16个不同分辨率的视频，称为B，C，D，E [5]，用于评估。我们还使用来自UVG数据集的1080p处的七个序列[1]。评估指标。PSNR和MS-SSIM [28]都用于测量重建帧与原始帧相比每像素位数（bpp）用于测量用于对包括MVD和残差的表示进行编码的位数。4.2. 实验结果为了证明我们提出的方案的优势，我们与现有的视频编解码器，特别是H[29]H.265 [21]。为了便于与DVC进行比较，我们Wu_ECCV2018H.264H.265数字视频编码提出H.264和H.265DVC提出H.264和H.265DVC提出Wu_ECCV2018H.264H.265数字视频编码H.264和H.265DVC提出峰值信噪比（dB）MS-SSIM峰值信噪比（dB）MS-SSIM峰值信噪比（dB）MS-SSIM3552DVC2_Ref_Frames3_Ref_Frames建议峰值信噪xt−4HEVC Class D数据集HEVC Class B数据集35.53335.0三十二三十四点五3134.033.53033.0290.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45BPP32.532.00.10 0.150.20BPP0.25 0.30图5.在HEVC D类数据集上的训练模型中使用两个或三个参考帧的压缩结果。所提出的模型默认使用四个，而DVC [14]仅使用一个。264和H.265的压缩结果。H.264和H.265默认设置的结果可以在补充文件中找到。此外，我们比较了几个国家的最先进的学习视频压缩方法，包括吴ECCV 2018 [30]和DVC [14]。据我们所知，DVC [14]报告了低延迟模式下基于学习的方法中PSNR的最佳压缩性能。图4呈现了UVG数据集和HEVC B类和D类数据集上的压缩结果。可以观察到，我们的方法优于学习的视频压缩方法DVC [14]和Wu ECCV 2018 [30]图6. 消融研究。以下设置对HEVC B类数据集的压缩结果。(1)我们的基线：网络包含ME-Net，只有一个参考帧的MC-Net，以及MV和残差编码器-解码器网络。(2)添加MAMVP-Net：将MAMVP-Net添加到（1）。(3)添加MVRefine-Net：将MV Refine-Net添加到（2）。(4) 添加MVRefine-Net-0 ：从（ 3 ）中的 MV Refine-Net 中删除 fxt−1 。（5）添加MMC-Net：将（3）中具有一个参考帧的MC-Net替换为具有多个参考帧的MMC-Net(6)建议：将剩余精炼网添加到（5）。（七）Scratch：培训（6）从零开始。衣服锚是包含ME-网络、仅具有一个参考帧的MC-网络以及MV和残差编码器-解码器网络的网络。这里，只有一个参考帧的MC网络几乎与图1所示的MMC网络相同。3，除了去除f w，大幅度地。在HEVC Class B数据集上，我们的Wxt−3Wxt−2从输入。该锚点表示为在相同的bpp为0.226时，该方法比DVC获得约1.2dB的编码增益。与传统的H. 265相比，该方法在PSNR和MS-SSIM两个方面MS- SSIM的增益值得注意的是，我们的模型是用MSE损失训练的，但结果表明它也适用于MS-SSIM。更多的实验结果，包括HEVC C类和E类，与其他方法的比较[7，18]，在补充中给出。4.3. 消融研究关于参考帧的数量。的参考帧的数量是我们方案中的重要超参数。我们使用的默认值是四个参考帧及其相关的MV字段，这也是H.265参考软件中的默认值为了评估使用较少参考帧的有效性，我们在训练模型中使用两个或三个参考帧进行比较实验。图5呈现了HEVC D类数据集上的压缩结果。如所观察到的，增加参考帧的边际增益越来越小。多尺度对齐MV预测网络。为了评估其有效性，我们进行了比较实验-我们的基线（图中的绿色曲线）（六）。被测网络是通过将MAMVP网络添加到我们的基线来构建的，并由添加MAMVP网络表示（图中的红色曲线）。（六）。可以观察到，MAMVP-Net显著提高了压缩效率，达到约0. 五块钱相同bpp时的7dB增益。在图7中，我们可视化了压缩时的中间结果。和服序列使用Add MAMVP-Net模型。图8示出了v6和d6的MV幅度的相应概率分布。据观察，通过使用我们的MAMVP-Net，要编码的MV的幅度大大降低。在量化上，使用我们的基线模型对原始MVv6进行编码需要0.042bpp，而使用Add MAMVP-Net模型对MVDd6因此，我们的MAMVP-Net可以大大减少用于编码MV的比特，从而提高压缩效率。更多消融研究结果可参见补充资料。MV精炼网络。为了评估有效性，我们通过将MVRefine-Net添加到Add MAMVP-Net 来执行另一个实验，导致Add MVRefine-Net（图中的青色曲线）。（六）。与AddMAMVP-Net的压缩结果相比，我们的基线添加MAMVP-Net添加MVRefine-Net-0添加MVRefine-Net添加MMC-Net建议划痕峰值信噪F，f3553(a)（b）（c）（d）（e）图7.使用Add MAMVP-Net模型（λ= 16）压缩和服序列的可视化结果。 (a)参考帧x105。（b）原始帧x6。（c）原始MVV6。（d）预测的MVv′6。（e）内务部d6。表1.对于320×256序列，使用我们的不同模型的每帧平均运行时间模型我们的基线添加MAMVP-Net添加MVRefine-Net添加MMC-Net提出编码时间0.25s0.31s0.34s0.35s0.37s解码时间0.05s0.11s0.14s0.15s0.17s0.150.100.050.000 5 10 1520MV幅度（一）0.80.60.40.20.005 10 15 20MV幅度（b）第（1）款在较低的比特率，因为更多的压缩错误。残差精炼网的可视化结果见补充资料。一步一步的训练策略。为了验证有效性，我们通过从头开始训练提出的模型来进行实验，除了由[10]中的预训练模型初始化的ME-Net（由Scratch表示，图中的黄色曲线）（六）。我们可以观察到，压缩-图 8. MV星等的分布。(a) 图的MV 。7 （c） . (b)图中的MVD。7（e）。在相同的bpp下，MV Refine-Net在高比特率下实现约0.15dB的压缩这是可以理解的，因为当比特率较低时，压缩误差更严重。此外，为了评估将xt−1引入MVRefine-Net 的效果，我们进行了一个实验，从 MVRefine-Net 的输入中删除fxt−1 （用Add MVRefine-Net-0表示，图中的黑色曲线）。（六）。我们可以观察到，将xt−1馈入MVRefine-Net始终提供约0.1dB增益。MV Refine-Net的视觉结果见补充资料。多参考帧运动补偿网络。为了验证有效性，我们通过将Add MVRefine-Net中的MC-Net（仅具有一个参考帧）替换为使用多个参考帧的提议的MMC-Net（由Add MMC-Net表示，图中的洋红色曲线）来执行实验。（六）。我们可以观察到，在MMC-Net提供约0。10。25dB增益。MMC-Net的可视化结果见补充资料。残差精化网络。我们进行另一个实验通过将残差细化网络添加到添加MMC网络来评估其有效性（由建议表示，图中的蓝色曲线）。（六）。我们观察到，残差细化网络在低比特率下提供约0.3dB增益，在高比特率下提供约0.2dB增益。与MV Refine-Net类似，残差Refine-Net的增益更高结果非常糟糕。量化，当使用λ = 16的Scratch模型压缩和服序列时，比特率非常不平衡：MVD 为 0.0002bpp，残差为0.2431 bpp。我们的逐步培训策略可以克服这一点。编码和解码时间。我们使用单个Titan XpGPU来测试不同模型的推理速度。运行时间见表1。我们可以观察到，MAMVP-Net比其他新添加的模块增加了更多的编码/解码时间。对于352×256序列，整体编码（分别为解码）速度我们建议的模型是2.7fps（分别为。5.9fps）。这就需要我们在今后的工作中优化网络结构，提高计算效率，实现实时解码。5. 结论在本文中，我们提出了一个端到端的学习视频压缩方案，用于低延迟场景。我们的方案可以有效地消除时间冗余，利用多个参考帧的运动补偿和运动矢量预测。我们还引入了MV和残差细化模块来补偿压缩误差并提高recruitc- tion质量。在我们的计划中的所有模块的联合优化，通过使用一个单一的率失真损失函数，以- gether与一个逐步的训练策略。实验结果表明，我们的方法优于现有的学习视频压缩方法的低延迟模式。在未来，我们期望先进的熵编码模型可以进一步提高压缩效率。概率概率3554引用[1] Ultra视频组测试序列。http://ultravideo.cs.tut.fi的网站。访问时间：2018-10-30[2] JohannesBal le´、ValeroLaparra和EeroP. 西蒙切利端到端优化的图像压缩。arXiv预印本arXiv：1611.01704，2016。[3] JohannesBalle´ ， DavidMinnen ， SaurabhSingh ，SungJinHwang，and Nick Johnston.基于尺度超先验的变分图像压缩。arXiv预印本arXiv：1802.01436，2018。[4] F.贝拉BPG图像格式（http：//bellard.org/bpg/），访问日期：2017-01-30。[5] 弗兰克·博森。常见测试条件和软件参考配置。JCTVC-F900，都灵，意大利，2011年7月。[6] VNI思科。思科可视网络索引：预测和趋势，2017-2022年。白皮书，2018年。[7] Abdelaziz Djelouah，Joaquim Campos，Simone Schaub-Meyer，and Christopher Schroers.用于视频编码的神经帧间压缩。在ICCV中，第6421-6429页[8] Jun Han，Salvator Lombardo，Christopher Schroers，andStephan Mandt.深度概率视频压缩。arXiv预印本arXiv：1810.02845，2018。[9] Muhammad Haris Gregory Shakhnarovich 和 NorimichiUkita 。用于视频超分辨率的递归反投影网络。在CVPR，第3897-3906页[10] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.Flownet2.0：深度网络光流估计的演变在CVPR中，第2462-2470页[11] Nick Johnston 、 Damien Vincent 、 David Minnen 、Michele Covell、Saurabh Singh、Troy Chinen、Sung JinHwang、Joel Shor和George Toderici。改进的有损图像压缩与启动和空间自适应比特率的递归网络。在CVPR中，第4385-4393页[12] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[13] Sheng Li ， Fengxiang He ， Bo Du ， Lefei Zhang ，Yonghao Xu，and Dacheng Tao.用于视频超分辨率的快速时空残差网络在CVPR中，第10522-10531页，2019年6月。[14] 郭璐，欧阳万里，徐东，张晓云，蔡春雷，高志勇.DVC：端到端深度视频压缩框架。在CVPR中，第11006-11015页[15] D a vidMinnen，JohannesBal le'，andGeo r geDToderici. 联合自回归和分层先验的学习图像压缩。神经信息处理系统进展，第10771-10780页，2018年[16] 西蒙·尼克劳斯和凤琉。用于视频帧内插的上下文感知合成。在CVPR中，第1701-1710页，2018年。[17] 菲萨姆河放大图片作者：Reda，Guilin Liu，Kevin J.作者声明：作者声明：SDC-net：使用空间位移卷积的视频预测。参见ECCV，第718-733页[18

下载后可阅读完整内容，剩余1页未读，立即下载