视频压缩的端到端深度图像插值编解码器

133 浏览量更新于2023-10-13 收藏 1.79MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于图像插值的Chao-Yuan Wu[0000- 0002- 5690- 8865]，Nayan Singhal[0000- 0002- 3189- 6693]，andPhilippKra¨henbu¨hl[0000−0002−9846−4369]德克萨斯大学奥斯汀分校{cywu，nayans，philkr} @ cs.utexas.edu抽象。越来越多的数字通信、媒体消费和内容创作都围绕着视频进行。我们通过它们分享、观看和存档我们生活的许多方面，所有这些都由强大的视频压缩提供支持。传统的视频压缩是手工设计和手工优化的。本文提出端到端深度学习编解码器中的替代方案。我们的编解码器一个简单的想法：视频压缩是重复的图像插值。因此，它受益于深度图像插值和遗传算法的最新进展。261、MPEG-4第2部分等1介绍视频通信管理着互联网的份额，并且一个y m a k占用了所有互联网流量的四分之三[ 17 ]。我们捕捉瞬间，分享回忆，并通过移动图片彼此娱乐，所有这些都由功能强大的数码相机和视频压缩提供支持强大的压缩功能可显著减少互联网流量、节省存储空间并提高吞吐量。它驱动着云游戏、实时高质量视频流[20]或3D和360度视频等应用。视频压缩甚至有助于使用深度神经网络更好地理解和解析视频[31]。尽管有这些明显的好处，视频压缩算法仍然主要是手工设计的。当今最具竞争力的视频编解码器依赖于块运动估计、残差颜色模式及其使用离散余弦变换和熵编码的编码之间的复杂相互作用[23]。虽然每个部分都经过精心设计，以尽可能多地压缩视频，但整个系统并没有进行联合优化，并且在很大程度上没有受到端到端深度学习的影响。据我们所知，本文介绍了第一个端到端训练的深度视频编解码器。我们的编解码器的主要见解是对视频压缩的不同看法：我们将视频压缩视为重复的图像插值，并借鉴了深度图像生成和插值的最新进展。我们首先使用标准的深度图像压缩对一系列锚帧（关键帧）进行编码。我们的编解码器，然后重建所有剩余的帧相邻的锚帧之间的插值然而，该图像插值不是唯一的。我们2Chao-YuanWu，NayanSinghal，PhilippKréahenbuéhlMPEG-4第二部分H.264（MS-SSIM = 0.946）（MS-SSIM = 0.980）（MS-SSIM =0.984）图1：我们的端到端深度视频压缩算法与MPEG-4第2部分和H.264在BlenderTears of Steel电影中的比较。所有方法均使用0.080BPP。我们的模型提供了比MPEG-4第2部分更好的视觉质量和可比H.264。与传统方法不同，我们的方法是免费的块文物。MS-SSIM [28]测量视频剪辑的图像质量与原始未(Best在屏幕上查看）。此外，向插值网络提供小且可压缩的代码，以消除不同插值的歧义，并尽可能忠实地主要的技术挑战是可压缩图像插值网络的设计我们提出了一系列越来越强大和可压缩的编码器-解码器架构的图像插值。我们首先使用普通U-网插值架构[22]来重建除关键帧之外的帧。这种架构很好地利用了随时间重复的静态模式，但是它很难正确地消除移动模式的轨迹的歧义。然后，我们直接将离线运动估计从块运动估计或光流到网络中。新架构使用预先计算的运动估计来插值空间U-网特征，并将压缩率提高了一个数量级。该模型捕获了我们重建帧所需的大部分但不是全部信息。我们还训练了一个编码器，该编码器提取源图像中不存在的内容，并紧凑地表示它最后，我们减少了任何剩余的空间冗余，并使用具有自适应算术编码[30]的3D PixelCNN[19为了进一步降低比特率，我们的视频编解码器应用图像插值的分层方式。层次结构中的每个连续级别在更接近的参考帧之间插值层次结构中的每个级别使用所有先前解压缩的图像。我们将我们的视频压缩算法与最先进的视频压缩（ HEVC ，H.264，MPEG-4第2部分，H.261）和各种图像插值算法进行了比较。基于图像插值的3行动基线。我们在未压缩视频的两个标准数据集上评估所有算法：视频跟踪库（VTL）[2]和超视频组（UVG）[1]。我们还收集了Kinetics数据集的子集[7]用于训练和测试。Kinetics子集包含高分辨率视频，我们对这些视频进行下采样，以去除YouTube上先前编解码器引入的压缩伪影最终数据集包含280万帧。我们的深度视频编解码器在压缩率和MS-SSIM [28]和PSNR测量的视觉质量方面优于所有深度学习基线，MPEG-4第2部分和H.261。我们与最先进的H.264编解码器不相上下。图1显示了一个直观的比较。所有数据都是公开的，我们将在接受后发布我们的代码。2相关工作视频压缩算法必须指定用于压缩视频的编码器和用于重构原始视频的解码器编码器和解码器一起构成编解码器。编解码器有一个主要目标：编码一系列以尽可能少的比特数来处理图像。大多数压缩算法在压缩率和重构误差之间找到微妙的折衷最简单的编解码器，如运动JPEG或GIF，独立编码每帧，并严重依赖于图像压缩。图像压缩。对于图像，深度网络产生最先进的压缩比，具有令人印象深刻的重建质量[6，11，21，24，25]。他们中的大多数人用一个小的二进制瓶颈层来训练自动编码器，以直接最小化失真[11，21，25]。一个流行的变体使用递归神经网络对图像进行渐进编码[5，11，25]。这允许单个模型的可变压缩我们将这个想法扩展到可变速率视频压缩。深度图像压缩算法使用全卷积网络来处理任意大小的图像然而，全卷积网络中的瓶颈仍然包含空间冗余激活。熵编码进一步压缩该冗余信息[6，16，21，24，25]。我们遵循Mentzer et al. [16]并对Pixel-CNN的概率估计使用自适应算术编码[19]。学习二进制表示本质上是不可微的，这使得基于梯度的学习变得复杂。Toderici等人。 [25]使用随机二进制化并反向传播期望的导数。Agustsson等人 [4]使用软分配来近似量化。Balle等人 [6]通过添加均匀噪声来替换量化。所有这些方法的工作方式类似，并且允许梯度流过离散化。在本文中，我们使用随机二值化[25]。结合这些技术，深度图像压缩算法在相同的图像质量水平下提供比手动设计的算法（如JPEG或WebP [3]）更好的压缩率[21]。深度图像压缩算法大量利用图像的空间结构。然而，他们错过了视频中的一个关键信号：时间视频在时间上是高度冗余的。深度图像压缩无法与最先进的（浅层）视频压缩竞争，后者利用了这种冗余。4Chao-YuanWu，NayanSinghal，PhilippKréahenbuéhl视频压缩。手工设计的视频压缩算法，如H.263，H.264或HEVC（H.265）[13]基于两个简单的想法：它们将每个帧分解为像素块，称为宏块，并且它们将帧划分为图像（I）帧和参考（P或B）帧。I帧使用图像压缩直接压缩视频帧视频编解码器的大部分节省来自参考帧。P帧从前面的帧借用颜色值。它们存储每个宏块的运动估计和高度可压缩的差分图像。B帧还允许双向引用，只要不存在循环引用。H.264和HEVC都以分层方式对视频进行编码。I-帧形成层次结构的顶部在每个连续级别中，P帧或B帧参考更高级别处的解码帧传统视频压缩的主要缺点是需要密集的工程努力和联合优化的困难。在这项工作中，我们使用深度神经网络构建了一个分层视频编解码器。我们端到端地训练它，没有任何手工设计的算法或过滤器。我们的关键见解是，参考（P或B）帧是图像插值的特殊情况。基于学习的视频压缩在很大程度上是未开发的，部分原因是建模时间冗余的困难。Tsai等人提出了一种深度后处理滤波器，用于在特定领域的视频中对H.264的错误进行编码[26]。然而，目前还不清楚过滤器是否以及如何在开放域中推广。据我们所知，本文提出了第一个用于视频压缩的通用深度网络图像内插和外推。图像插值试图在两个参考帧之间产生一个看不见的帧。大多数图像插值网络构建在编码器-解码器网络架构上，以通过时间移动像素[9，10，14，18]。 Jia等人 [9]和Niklaus et al. [18]估计空间变化卷积核。Liu等人 [14]给出了一个流场。然后，所有三种方法组合两种预测，即时间上的向前和向后，以形成最终输出。图像外推更雄心勃勃，并从几帧[15]或静止图像[27，32]预测未来的视频。图像内插和外推都适用于小时间步长，例如。用于创建慢动作视频[10]或预测未来几分之一秒然而，当前的方法在更大的时间步长上挣扎，其中内插或外插不再是唯一的，并且需要附加的边信息在这项工作中，我们扩展了图像插值，并纳入了一些可压缩位的边信息重建原始视频。3初步设I（t）∈RW×H×3表示一系列框架，其中t∈ {0，1，. . . {\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}我们的目标是将一个矩阵I（t）构造成一个二进制码b（t）∈{0，1}Nt。一个代码E：{I（0），I（1），. . . }→{b（0），b（1），. . . }，并将D：{b（0），b（1），. . . }→{I（0），I（1），. . . }压缩和压缩可实现特定的视频压缩。E和D都有竞争力目标：最小化总比特率tNt，并将原始视频重建为f aithullyaspossiblee，measuredy（I，I）=I−I1.基于图像插值的5我图像压缩。最简单的编码器和解码器处理每幅图像的方式如下：EI：I（t）→b（t），DI：b（t）→I（t）。本文构建在Toderici等人[25]的模型上，该模型在K次迭代中渐进地编码和重建图像。在每次迭代时，模型对残差rk进行编码。先前编码的图像和原始帧：r0：=Ibk：= EI（rk−1，gk−1），rk：= rk−1−DI（bk，hk−1），其中k = 1，2，. . .其中gk和hk是在每次迭代时更新的潜在Conv-LSTM状态所有迭代共享相同的网络架构和参数，从而形成一个recurΣentstructure。重新进行约束检查可最大限度地减少存储空间步骤Kk=1 rk 在IK =I K =I K =IK=Kk=1 DI（bk）均为变量比特率编码取决于K.编码器和解码器都由步长为2的 4个 Conv-LSTM组成瓶颈由具有L个通道的二进制特征图组成，并且在宽度和高度上具有小16倍Toderici等人使用随机二值化来允许梯度信号通过瓶颈。在数学上，这减少到S形激活的REINFORCE[29]。在推断时，选择最可能的状态。这种架构产生最先进的图像压缩性能。但它没有利用任何时间冗余。视频压缩。现代视频编解码器使用图像编码器E1和解码器D1来处理I帧。P帧存储块运动估计T ∈RW×H×2，类似于光流场，以及残差图像R，捕获不由运动解释的外观变化。运动估计和残差都使用熵编码进行联合压缩。然后通过以下步骤恢复原始颜色帧：I（t）=I（t−1） +R（t），（1）i−T（t）i我对于图像中的每个像素i。压缩由块结构和运动估计T唯一地定义。残差只是运动插值图像和原始图像之间的差异。在本文中，我们提出了一个更一般的看法，通过图像插值视频压缩在图像插值网络中加入运动信息，增加了一个可压缩的瓶颈层.4基于插值的我们的编解码器首先使用Toderici等人的压缩算法对I帧进行编码。参见图2a。我们选择每第n帧作为I帧。剩余的n-1帧被插值。我们称这些框架为R-框架，因为它们参考其他框架。我们在实践中选择n= 12，但也对更大的图片组进行了实验。我们将首先讨论我们的基本插值网络，然后展示进一步降低比特率的分层插值设置。6Chao-YuanWu，NayanSinghal，PhilippKréahenbuéhlEIDI上下文ERDR上下文(a) I形框架模型。（b）最终插值模型。图2：我们的模型是由一个压缩关键帧的图像压缩模型和一个插值剩余帧的条件插值模型组成蓝色箭头表示运动补偿上下文特征。灰色箭头表示网络的输入和输出。4.1插值网络在我们的编解码器的最简单版本中，所有R帧使用盲内插网络来在两个关键帧I1和I2之间内插。具体地，我们训练一个c_t_e_t_n_w或k_C：I-{f（1），f（2），. . . }以执行不同空间分辨率的映射f（l）的x字符串。 F或非整数都是简单的，f：={f（1），f（2），. . . 是所有上下文特征的集合。在我们的实现中，我们使用的上卷积特征地图的U-网架构与增加空间分辨率W×H，W×H，W×H，W×H，除了原始图像。8 8 4 4 2 2我们分别为关键帧I1和I2提取上下文特征f1和f2，并训练网络D来插值帧I：=D（f1，f2）。C和D是共同训练。该简单模型倾向于高压缩率而不是图像质量，因为R帧中没有一个捕获I帧中不存在的任何信息。在没有进一步信息的情况下，不可能忠实地重建帧。我们可以为网络提供什么来使插值更容易？运动补偿插值。一个很好的候选人是地面实况运动。它定义了像素在时间中的移动位置，并极大地消除了插值的歧义。我们尝试了光流[8]和块运动估计[20]。块运动估计更容易压缩，但光流保留更精细的细节。我们使用运动信息来扭曲每个上下文特征图f~（l）=f（l）、（二）i i−Ti在每个空间位置i.我们用特征图的分辨率来缩放运动估计，并且对分数位置使用双线性插值。解码器现在改为使用扭曲的上下文特征f~，这允许其仅关注图像创建，而忽略运动估计。运动补偿极大地改善了插值网络，我们将在第5节中展示。然而，它仍然仅产生在任一参考图像中看到的内容。运动之外的变化，例如光照变化、变形、遮挡等。这个模型没有捕捉到。基于图像插值的7DIDRDRDRDI我们的目标是在一个高度紧凑的形式编码剩余的信息。残余运动补偿插值。我们最终的插值模型combines运动补偿插值与压缩的残差信息，捕捉运动和外观差异的插值帧。图2b示出了模型的概览。我们联合训练编码器ER、上下文模型C和插值网络DR。编码器看到与插值网络相同的信息，这允许它仅压缩丢失的信息，并避免冗余编码。形式上，我们遵循的渐进式压缩框架Toderici等人 [25]，并训练以扭曲上下文f ~为条件的可变比特率编码器和解码器：r0：=Ibk：=ER（rk−1，f~1，f~2，gk−1），rk：=rk−1-DR（bk，f~1，f~2，hk−1），f或k=1，2，. . .该框架允许以高重构质量学习可变速率压缩。内插网络通常需要较少的比特来编码时间上接近的图像，并且需要较多的比特来编码距离较远的图像。在一个极端，当关键帧不提供任何有意义的信号的插值帧，我们的算法减少到图像压缩。在另一个极端中，当图像内容不改变时，我们的方法简化为香草插值，并且需要接近零的比特。在下一节中，我们将利用这一优势，设计一个分层插值方案，最大化时间上接近的插值的数量4.2分层插值分层插值的基本思想很简单：我们首先插值一些帧，并将它们用作下一级插值的关键帧例如，参见图3每个内插模型Ma，b将a帧参考到过去，将b帧参考到未来。有几件事我们需要交换。首先，我们的分层插值中的每一层都会产生误差。层次越浅，复合错误就越少在实践中，误差传播为更多图3：我们分层应用插值层次结构中的每个级别使用先前解压缩的图像。箭头表示运动补偿插值。8Chao-YuanWu，NayanSinghal，PhilippKréahenbuéhl分级结构中的三个以上的级别显著地降低了我们的编解码器的性能。其次，我们需要针对每个时间偏移（a，b）训练不同的插值网络Ma，b，因为不同的插值表现不同。为了最大限度地使用每个训练模型，我们尽可能频繁地重复相同的时间偏移第三，我们需要最小化插值中使用的时间偏移的总和。压缩率与时间偏移直接相关，因此最小化时间偏移会降低比特率。仅考虑比特率和插值网络的数量，最优层次结构是在每一层将插值范围一分为二的二叉树。然而，这不能在没有显著误差传播的情况下内插多于n=23= 8个连续帧我们扩展这种二进制结构，n=12帧，通过在最后一级的层次结构中的三帧的间隔内插对于四个帧I1，. . . ，I4，我们训练预测帧I2的插值模型M1，2，给定I1和I4。我们使用完全相同的模型M1， 2来预测I3，但翻转条件图像I4和I1。这产生预测系列中的第三而不是第二图像的等效模型M2， 1将其与层次中的插值模型M3， 3和M6， 6相结合，我们将插值范围从n=8帧扩展到n=12帧，同时保持相同数量的模型和级别。我们尝试将相同的技巧应用于层次结构中的所有级别，将插值扩展到n=27帧，但性能下降，因为我们有更远的插值。为了将其应用于N帧的完整视频，我们将它们分成N/n组图像（GOP）。两个连续的组共享相同的边界I帧。我们将分层插值独立地应用于每个组。比特率优化。在层级的级别l处的每个插值模型可以选择花费Kl比特来编码图像。我们的目标是最小化整体比特率，同时保持所有编码帧的低失真。这里的挑战是，随着误差传播，Kl因此，选择{K1}的全局最优集合需要迭代所有可能的组合，这在实践中是不可行的。相反，我们提出了一个启发式的比特率选择基于波束搜索。对于每个级别，我们从m个不同的比特率中选择。我们首先列举I-框架模型的所有m种可能性接下来，我们用所有m个可能的比特率扩展第一插值模型，从而得到m2个组合。在这些组合中，并非所有组合都导致每比特率良好的MS-SSIM，并且我们丢弃不在MS-SSIM对比特率曲线的包络上的组合。在实践中，只剩下O（m）个组合。我们对层次结构的所有级别重复此过程。这将搜索空间从mL减少到O（Lm2），用于L级层次结构。在实践中，这产生足够好的比特率。4.3执行架构我们的编码器和解码器（插值网络）架构遵循Toderici等人 [25]中的图像压缩模型。虽然Toderici等人使用L=32个潜在位来压缩图像，但我们发现对于插值，基于图像插值的9/16/16 LL= 8位对于距离3足够，L= 16对于距离6和12足够。这产生0的比特率。0625比特每像素（BPP）和0. 03125 BPP。我们使用原始的U-net [22]作为上下文模型。为了加快训练速度并节省内存，我们将所有滤波器的通道数量减少了一半。我们没有观察到任何显著的性能下降。为了使其与我们的架构兼容，我们删除了最终的输出层，并以比原始输入图像小2倍，4倍，8倍的分辨率获取特征图条件编码器和解码器。为了将上下文帧的信息添加到编码器和解码器中，我们将U-net特征与各个Conv-LSTM层融合。具体来说，我们在每个Conv-LSTM层之前通过连接相同空间分辨率的相应U-网特征来执行融合为了提高计算效率，我们选择性地关闭编码器和解码器中的一些条件。这是为每个插值网络调整的;详见补充资料。为了帮助模型并排比较上下文帧和目标帧，我们还将两个熵编码由于该模型是完全卷积的，因此它对图像的所有位置使用相同数量的位。这忽略了信息在图像中不是均匀分布继Mentzer等人 [16]，我们训练一个宽×高×3D Pixel-CNN在{0， 1}二进制码上进行，以获得概率每个比特的顺序。然后，我们使用这个概率与自适应算术编码的特征图进行编码。更多详情请参见补充材料。运动压缩我们将前向和后向块运动估计存储为无损4通道WebP [3]图像。对于光流，我们训练了一个单独的有损深度压缩模型，因为无损WebP无法压缩流场。5实验在本节中，我们对一系列插值模型进行了详细分析（第5.1节），并对我们的方法进行了定量和定性（第5.2数据集和协议。我们使用来自Kinetics数据集的视频训练我们的模型[7]。我们只使用宽度和高度大于720px的视频。为了消除先前压缩引起的伪影，我们将这些高分辨率视频下采样到352× 288px。我们允许纵横比改变。结果数据集包含37K视频。我们使用27K进行训练，使用5K进行验证，使用5K进行测试。对于训练，我们对每个视频采样100帧。为了更快地测试Kinetics，我们每个视频只使用一组n=12张图片10Chao-YuanWu，NayanSinghal，PhilippKrüahenbuühl0的情况。980的情况。980的情况。950的情况。960的情况。960的情况。90的情况。850的情况。51BPP0的情况。940的情况。920的情况。90的情况。 10.20304BPP0的情况。940的情况。920的情况。90的情况。5 1BPP(a) 消融研究。(b) 运动信息。(c) 熵编码图4：在VTL数据集上评估的不同模型的MS-SSIM我们还在两个原始视频数据集上测试了我们的方法，视频跟踪库（VTL）[2]和超视频组（UVG）[1]。VTL数据集包含20个视频中分辨率为352×288的40K帧。UVG数据集包含7个视频中的3，900帧分辨率为1920×我们基于每像素比特数（BPP）的压缩率以及多尺度结构相似性（MS-SSIM）[28]和峰值信噪比（PSNR）的重建质量来评估我们的方法。我们报告所有视频的平均性能，而不是所有帧的平均值，作为我们的最终性能。除非另有说明，否则对于所有算法，我们使用n培训详情。我们所有的模型都是使用ADAM[12]从头开始训练200K次迭代，梯度范数修剪为0。5. 我们使用的批量大小为32，学习率为0.0005，当验证MS-SSIM稳定时，学习率除以2我们通过水平翻转来增加数据。对于图像模型，我们在96× 96随机裁剪上训练，对于插值模型，我们在64 ×64随机裁剪上训练我们用10次重建迭代来训练所有模型。5.1消融研究我们首先在VTL数据集上评估第4图4a示出了结果。我们可以看到，图像压缩模型需要到目前为止最高的BPP来实现高的视觉质量，并且在低比特率区域表现不佳。这并不奇怪，因为它不利用任何时间冗余，并且需要从头开始编码所有内容。香草插值并没有更好地工作。我们目前的结果插值从1到4帧，使用最好的图像压缩模型。虽然它利用了时间冗余，但它无法准确地重建图像。我们的（欧共体）我们的Interp.+ MVInterp.Img残余我们的（MV）我们的（流程）我们的（流程）我们无运动M6，6+ECM6、 6Img+ECImg三、三MM1，2+ECM1、 2M3，3+EC基于图像插值的11运动补偿插值的效果明显更好。附加的所提出的BPP包括运动矢量的大小。我们的最终模型有效地编码残差信息，并充分利用层次参考。当与熵编码相结合时，它实现了最佳性能请注意，我们的方法和图像压缩模型在低比特率制度之间的巨大性能差距作为健全性检查，我们进一步实现了一个简单的深度编解码器，该编解码器使用图像压缩来对传统编解码器中的残差R进行编码。这个简单的基线将视频存储为编码残差、压缩运动矢量以及由单独的深度图像压缩模型压缩的关键帧残差模型难以从噪声残差图像中学习模式，并且比仅图像压缩模型工作得更差这表明将深度图像压缩扩展到视频是不够的。我们的端到端插值网络表现得更好。议案接下来，我们分析了不同的运动估计模型，并比较光流块运动矢量。对于光流，我们使用Farnebécek算法的OpenCV实现[ 8 ]。对于其他组合，我们使用与H. 264相同的算法。图4b示出了具有两个运动源的M6，6使用运动信息显然有助于提高模型的性能，尽管运动压缩的开销。块运动估计（MV）明显优于基于光流的模型（流）。几乎所有的性能增益都来自于更好的可压缩运动信息。块运动估计更小，更容易压缩，并且适合无损压缩方案。为了理解光流的较差性能是由于流压缩中的误差还是流本身的属性，我们进一步测量基于光流的模型的假设性能上限，假设无额外成本的无损流压缩（流）。如图4b所示，这个上限比运动矢量表现得更好，用于通过可压缩光流估计进行改进。然而，找到这样一个可压缩流估计超出了本文的范围。其他地区在本节中，我们在所有实验中使用块运动估计独立的插值模型和熵编码。图4c示出了具有和不具有熵编码的不同内插模型的性能。为在所有模型中，熵编码在低比特率下节省高达52%BPP，并且在高比特率下节省至少10%。更有趣的是，短时间帧内插几乎是免费的，在一个或两个数量级低BPP实现相同的视觉质量作为基于图像的模型。这表明我们的大部分比特率节省来自层次结构中较低级别的插值模型。12Chao-YuanWu，NayanSinghal，PhilippKréahenbuéhl5.2与先前工作的我们现在在所有三个数据集上定量地评估我们的方法，并将我们的方法与今天的预评估编码进行比较。265），H. 264、MPEG-4第2部分和H. 261。为了一致的比较，我们使用相同的GOP大小12来进行比较。H.264和HEVC。我们只在VTL和Kinetics-5 K上测试H.261，因为它不支持UVG数据集的高分辨率（1920× 1080）视频。图5-7呈现了结果。尽管其简单，我们的模型大大超过MPEG-4第2部分和H. 261，与H. 264表现相当，并且接近最先进的HEVC。特别是，在高分辨率UVG数据集上，它的性能优于H. 264，并且在PSNR方面与HEVC相匹配。我们的测试数据集不仅规模大（> 5K视频的> 100K帧），而且还包括各种大小的视频（从352 × 288到1920 × 1080），时间（从20世纪90年代的大多数视频到2018年的Kinetics），质量（从专业的UVG到用户上传的Kinetics），和内容（从场景、动物，到Kinetics中的400种人类活动）。我们的模型，只训练了一个数据集，在所有数据集上都运行良好。最后，我们在图8中展示了三个性能最好的模型的定性结果，即MPEG-4第2部分、H.264和我们的模型。这里的所有模型都使用0。12± 0。01 BPP。我们可以看到，在所有数据集中，我们的方法显示了忠实的图像，没有任何块状伪影。它大大优于MPEG-4第2部分没有花里胡哨，并匹配最先进的H.264。6结论据我们所知，本文介绍了第一个端到端训练的深度视频编解码器。它依赖于重复的深度图像插值。为了消除内插的歧义，我们对表示不是从相邻关键帧推断出的信息的几个可压缩比特的信息进行这产生了一个忠实的重建，而不是纯粹的幻觉。该网络直接训练以优化重建，而无需先验工程知识。我们的深度编解码器简单，性能优于MPEG-4第2部分或H.261等主流编解码器，与最先进的H.264相匹配。我们没有考虑工程方面，如运行时或实时压缩。我们认为它们是未来研究的重要方向。简而言之，由深度图像插值驱动的视频压缩实现了最先进的性能，而无需复杂的启发式算法或过度的工程。确认我们要感谢Manzil Zaheer、Angela Lin、Ashish Bora和Thomas Crosley对本文提出的宝贵意见和反馈这项工作得到了Berkeley DeepDrive和Nvidia设备资助的部分支持。基于图像插值的13HEVC我们的（欧共体）我们的H.264MPEG-4 Part 2HEVC我们的（欧共体）我们的H.264MPEG-4 Part 2H.261HEVC我们的（欧共体）我们的H.264MPEG-4 Part 2H.261图像0的情况。95360的情况。9340的情况。850的情况。1320的情况。20304300的情况。10的情况。20 304(a)MS-SSIM（b）PSNR（dB）图5：UVG数据集上的性能。0的情况。95360的情况。9340的情况。850的情况。204320的情况。60八十一20的情况。2040的情况。60八十一2(a)MS-SSIM（b）PSNR（dB）图6：VTL数据集上的性能。0的情况。98380的情况。96360的情况。94340的情况。920的情况。 10.2320的情况。30405060的情况。 10.20的情况。3040506(a) MS-SSIM（b）PSNR（dB）图7：Kinetics-5 K数据集上的性能。HEVC我们的（欧共体）我们的H.264MPEG-4 Part 2HEVC我们的（欧共体）我们的H.264MPEG-4 Part 2H.261HEVC我们的（欧共体）我们的H.264MPEG-4 Part 2H.26114Chao-YuanWu，NayanSinghal，PhilippKréahenbuéhl地面实况MPEG-4第2部分 H.264我们的(a) 动力学-5K(b) VTL(c) UVG图8：0时压缩结果的比较。12± 0。01 BPP。我们的方法显示忠实的图像，没有任何块状文物。（最好在屏幕上观看显示时间相干性的更多示例和演示视频可在https://chaoyuaw.github.io/vcii/获得。基于图像插值的15引用1. Ultra视频组测试序列。http://ultravideo.cs.tut.fi，访问时间：2018-03-112. 视频跟踪库。http://trace.eas.asu.edu/index.html，访问时间：2018-03-113. WebP。 https://developers.google.com/speed/webp/，访问：2018 -03-11 2018-03-112018-03-114. Agustsson，E.，Mentzer，F.Tschannen，M.，Cavigelli，L.Timofte河，贝尼尼湖古尔，L.V.：用于端到端学习可压缩表示的软到硬矢量量化In：NIPS（2017）5. Baig，M.H.，Koltun，V. Torresani，L.：学习图像压缩的修补。In：NIPS（2017）6. B al l'e，J.，拉帕拉，维， Simoncelli，E. P. ：End-to-endoptim i mizedimagecompression. In：ICLR（2017）7. 卡雷拉，J.，齐瑟曼，A.：你好，动作识别？新模型和动力学数据集。在：CVPR（2017）8. F a rnebac¨k，G. ：两个自定义模块将数据存储在聚合物非线性扩展空间中。In：SCIA（2003）9. Jia，X.，De Brabandere，B.，Tuytelaars，T.，古尔，L.V.：动态过滤网络。在：NIPS（2016）10. 江，H.，孙，D.，Jampani，V.，Yang，M.H.，Learned-Miller，E. Kautz，J.：超级斯洛莫：用于视频插值的多个中间帧的高质量估计。CVPR（2018）11. Johnston，N. Vincent，D. Minnen，D.，Covell，M.，辛格，S.，Chinen，T.，Hwang，S.J.，Shor，J.，Toderici，G.：用于循环网络的预处理和空间自适应比特率改进有损图像压缩。arXiv预印本arXiv：1703.10114（2017）12. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法arXiv预印本arXiv：1412.6980（2014）13. Le Gall，D.：MPEG：多媒体应用的视频压缩标准。ACM通讯（1991年）14. 刘志，是的R唐，X.，Liu，Y.，Agarwala，A.：使用深体素流的视频帧合成。In：ICCV（2017）15. Mathieu，M.，库普利角LeCun，Y.：超越均方误差的深度多尺度视频预测。In：ICLR（2016）16. Mentzer，F. Agustsson，E.，Tschannen，M.，Timofte河，Van Gool，L.：深度图像压缩的条件概率模型。来源：CVPR（2018）17. 网络索引，C.V.：预测和方法，2016-2021年。思科白皮书（2016）18. 尼克劳斯，S.，迈湖Liu，F.：基于自适应可分离卷积的视频帧内插。In：ICCV（2017）19. Oord，A.v.d.，Kalchbrenner，N.Kavukcuoglu，K.：像素递归神经网络。In：ICML（2016）20. Richardson，I.E.：视频编解码器设计：开发图像和视频压缩系统。02 TheDog（2002）21. 里佩尔岛Bourdev，L.：实时自适应图像压缩。在：ICML（2017）22. Ronneberger，O.，Fischer，P.，Brox，T.：U-net：用于生物医学图像分割的卷积网络。电影：MICCAI（2015）23. Schwarz，H.，Marpe，D.，Wiegand，T.：概述了H.264/AVC标准的可伸缩视频编码扩展。TCSVT（2007）16Chao-YuanWu，NayanSinghal，PhilippKréahenbuéhl24. 这是L Shi，W.， Cunningham，A.， Husz′ar，F. ：使用压缩自动编码器来减少图像压缩。In：ICLR（2017）25. Toderici，G.，Vincent，D.Johnston，N.Jin Hwang，S.，Minnen，D.，Shor，J.，Covell，M.：基于递归神经网络的全分辨率图像压缩在：CVPR（2017）26. 蔡永宏，Liu，M.Y.孙，D.，Yang，M.H.，Kautz，J.：学习领域特定视频流的二进制残差表示。In：AAAI（2018）27. 冯德里克角Pirsiavash，H.，Torralba，A.：生成具有场景动态的视频在：NIPS（2016）28. 王志，Simoncelli，E.P.，Bovik，A.C.：图像质量评价的多尺度结构相似性。载于：ACSSC（2003年）29. Williams，R.J.：简单的统计梯度跟随算法用于连接主义强化学习。在：强化学习。02 The Dog（1992）30. Witten，I.H.，尼尔，RM，Cleary，J.G.：用于数据压缩的算术编码。ACM通信（1987年）31. Wu，C.是的，Zaheer，M.，哈，哈，MANMAT H A RSmola，A.J.Kr¨ahenbu¨ hl，P.：压缩视频动作识别。来源：CVPR（2018）32. Xue，T.，吴，J.，Bouman，K.，Freeman，B.：视觉动态：通过交叉卷积网络进行概率在：NIPS（2016）

下载后可阅读完整内容，剩余1页未读，立即下载