基于光流的神经视频编码方法

165 浏览量更新于2023-10-12 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1视频编码AbdelazizDjelouah 1JoaquimCampos 1SimoneSchaub-Meyer 1，2ChristopherSchroers11 DisneyResearch |Studios2苏黎世联邦理工学院计算机科学系abdelaziz. disney.comchristopher. disney.com摘要虽然有许多基于深度学习的单图像压缩方法，但端到端学习视频编码领域的探索仍然很少。因此，在这项工作中，我们提出了一种用于神经视频编码的帧间压缩方法，该方法可以无缝地建立在不同的现有神经图像编解码器上。我们的端到端解决方案通过基于光流的运动补偿在像素空间中执行时间预测关键的见解是，我们可以通过将所需的信息编码到直接解码为运动和混合系数的潜在表示中来提高解码效率和再现质量。为了考虑剩余的预测误差，需要原始图像和内插帧之间的残差信息我们建议直接在潜在空间而不是像素空间中计算残差我们对不同数据集和分辨率的扩展评估表明，我们的方法的率失真性能与现有的最先进的编解码器具有竞争力。1. 介绍2017年，视频内容已经占互联网总流量的75%，预计到2022年将达到82%[7]。这是由于流媒体服务的订户的预期增加、更高的分辨率、帧速率和动态范围。因此，视频压缩技术在有效地处理这些数据并且具有低的视觉质量损失方面受到挑战虽然通过彻底的测试和对变化的探索，不同代的视频编解码器已经取得了重要进展[24，31]，但它们都遵循类似的策略。然而，最近已经提出了依赖于深度学习的视频编码的一些根本不同的方向[11，14，23，32]。例如，Wu等人 [32]提出了一种用于基于插值的压缩的递归策略，但光流仍然是编码的H264 - 0.02bppH265 - 0.02bpp我们的-0.02bpp GTruth图1：基于学习的视频压缩。与现有的视频编解码器相比，我们的方法在相似或更低的比特率下实现了更好的视觉伪影更少，颜色更接近原始（最好在屏幕上查看传统的方法[10]。Han等人的变分方法。 [11]从变分推理的角度考虑视频压缩，但侧重于小分辨率视频。最近的工作[23，14]针对低延迟设置，其旨在通过在运动补偿期间仅考虑来自过去的帧来减少编码中的延迟量。这些方法需要比特率的复杂空间适应[23]或在运动补偿期间在解码器侧使用细化网络进行更多计算[14]。在这项工作中，我们提出了一个基于插值的视频压缩框架，该框架与神经图像压缩方法兼容[4，17，15]。关键要素是帧间压缩方法，可以无缝构建64216422在不同的现有神经图像自动编码器上。它包括两个阶段;插值和残差压缩。首先，插值问题是在视频压缩的背景下，我们结合运动压缩和图像合成在一个单一的网络。其次，将原始帧和插值帧之间的残差信息直接表示在隐空间中。我们的目标是对图像（关键帧）和残差（插值帧）使用相同的自动编码器，并限制学习对两者都表现良好的表示。我们的贡献可归纳如下：• 插值模型结合了运动压缩和图像合成，同时减少了解码时的计算量。这种联合方法提供了减小运动代码大小的可能性（例如，当运动无助于产生良好的插值图像时）。• 我们展示了如何将相同的神经自动编码器除了减少参数数量外，它还具有自动实现两种输出相同图像质量的优点。不需要单独调整残差质量来匹配关键帧。• 我们对不同数据集和分辨率的广泛评估这包括一个比较研究与不同的插值方法，demonstrating我们的方法的好处。2. 相关工作由于我们的视频编码方法使用自动编码器压缩每帧数据，因此我们将图像和视频压缩方法视为相关工作，并相应地构建本节我们提出的编解码器是有损的，因此，我们将只专注于有损压缩方法。图像压缩。最古老但广泛使用的有损图像编解码器之一是JPEG [29]。它将图像分割成更小的块，并使用离散余弦变换对数据进行编码。然后对所得系数进行缩放、量化和熵编码以形成最终比特流。在较新的格式中，已经探索了不同的方向，例如使用其他变换-JEPG2000 [26]中的小波-或帧内预测，以及从BPG [6]和Webp [10]中的视频编解码器导出的环路滤波。神经图像压缩最近，将深度学习应用于图像压缩方面有了重要的工作[4，15，17，22，28]。这些模型可以从数据中学习最佳非线性变换，而不是手工制作编解码器的各个组件。以端到端的方式将潜在表示熵编码到比特流中所需的概率。虽然第一种方法[4，27，28]显示出优于JPEG或JPEG 2000的结果，但后续方法[5，15，17]现在与BPG[ 6 ]相当或超过BPG [6]。性能最好的方法[5，17]通过传输边信息和应用自回归模型来细化熵编码的先验模型。视频压缩。在20世纪60年代，视频压缩研究开始于对每个帧进行单独压缩的编解码器[3]，而今天的编解码器都通过使用运动估计和运动补偿进行帧间预测来利用视频数据的时间冗余。它们还依赖于手工制作的基于块的混合结构[19]，将帧间预测与帧内预测相结合。目前的情况，H.264 (AVC)是最常用的标准[31]，但在不久的将来，更新的编解码器，如H.265（HEVC）[24]，VP9 [18]和AV1 [8]将取代它。神经视频压缩在最近的图像压缩成功以及帧内插[13，16，20，21，33]和光流估计[12，25]的有希望的进展之后，最近的一些作品提出使用神经网络进行视频压缩。据我们所知，Wu et al. [32]提出了基于插值的视频压缩的唯一深度学习方法。他们的工作重点是在扭曲参考帧及其上下文后对残差进行编码。它提供了有趣的见解之间的相互作用插值和压缩。然而，该解决方案在计算上是昂贵的，因为需要几次迭代来达到更高的质量水平，并且对于不同的插值间隔需要多个模型。在一个非常不同的方法来解决这个问题，汉等人。 [11]，将所有预测性的空间和时间建模保持在潜在空间中。但这种方法仅限于低分辨率视频。最近，探索了低延迟设置[14，23]，其中仅使用先前的参考帧来推断时间信息。Rippel等人。 [23]保持模型学习的潜在状态，而不是使用过去的帧然而，他们的模型并没有解决插值的情况。Lu等人。 [14]用神经网络组件替换传统的视频编解码器块，但与我们的连接策略相反，它们顺序计算和压缩光流，估计补偿并最终压缩图像残差。这就需要一个专门的运动补偿和残差网络，这在我们的情况下是不必要的。3. 神经帧间压缩有损图像和视频压缩的主要目标是找到一种输入帧的编码，该编码满足竞争约束，即它应该占用尽可能少的存储，而另一方面，6423关键帧在形式上可以表示为最小化比特流的预期长度以及与原始图像相比的重构图像的预期失真，公式化为优化以下速率-失真目标函数：L（gφ，gφ′，py）=Expx[−log2py（y）+λd（x，x）]，（1）联系我们率联系我们失真关键帧图2：概述。为了对n帧的序列进行编码，第一帧和最后一帧被编码为图像（称为关键帧）。间隔中的其余帧使用我们的神经帧间压缩块进行递归编码。应该有尽可能小的失真。特别地，视频压缩利用图像序列中的时间在我们的插值为基础的压缩设置（见图。2），视频被分成长度为n的片段。该段的第一帧和最后一帧被编码和解码为独立的图像（关键帧），而运动信息被用于通过插值从这些已经解码的帧生成我们还定义了参考帧的概念，参考帧是神经帧间压缩块使用的图像。这些包括关键帧，但也包括任何插值帧，其本身用作另一帧间块的输入，如图2所示。在这项工作中，我们提出了一种基于神经网络的插值压缩算法，这是兼容的图像压缩架构，建立一个有效的视频压缩流水线。我们提出的解决方案由两个子任务组成 ; 内插法（ Sec. 3.1 ）和残余压缩（第 3.1节）。3.2）。我们首先介绍一个单一的网络，结合运动编码和图像合成地址插值。在第二步中，我们通过对从一个其中d（x，x≠ 0）是离散测度，例如，均方误差该速率对应于基于自然图像的未知分布px上的学习的熵模型pyx对量化表示yx进行编码所需的比特流的长度。通过减小权值λ，可以以较大的重建图像失真为代价，实现较好的压缩效果。通过设计，我们的框架与任何神经自动编码器兼容在这项工作中，我们使用Balle等人提出的编码器-解码器对。存在几种可能性[4，5，15]来学习熵模型py。我们遵循[17]并使用神经网络来预测潜在空间值的概率，基于额外发送的边信息。潜在空间值的分布被建模为高斯分布，并且使用超参数和上下文模型网络来预测概率。3.1. 带压缩约束的为了利用视频编码中的时间冗余，我们的解决方案依赖于通过运动补偿的信息传输更准确地说，中间帧x可以从其参考图像集合Kx={x1，. . .，x，k}。相反对于帧内插的标准设置，原始帧x在编码期间可用我们的解决方案通过内部估计位移图fiw.r.t. 真值帧x，然后计算一个quan，量化的潜在表示qi，其可以直接解码为位移映射fi和混合系数αi。如果我们将w表示为将参考转换为根据运动，插值结果为神经图像压缩网络由于神经图像压缩是一个关键的组成部分，我们首先回顾它的一些xintrp= Σki=1α<$iw（xi，f<$i），其中Σki=1αi=1。（二）神经图像压缩。利用神经编码器-解码器对实现了从图像到潜在空间的映射，其中瓶颈值构成潜在表示。gφ表示从象空间到潜空间的函数映射，gφ ′表示逆映射。所学习的参数为φ和φ′。图像x首先被映射到其潜在表示y=gφ（x）。在量化之后，所得到的潜伏期被有损地编码为比特流，该比特流可以被解码为图像 xk=gφ′（yφ ′）。图像压缩-我们提出了一种编码器-解码器对（hρ，hρ′）来解决这个插值问题.在我们的方法中，我们使用两个参考框架（n=2），图3显示了相应的模型。编码器hp将输入数据映射到潜在表示q：q=hρ （ x ， x1 ， x2 ， f1 ， f2 ），（3）它被量化为qρ。图像压缩神经帧间压缩神经帧间压缩图像压缩Inter{pozlated|}6424光流熵编码Q.光流Q. =量化图3：具有压缩约束的插值。我们建议结合两个任务的插值和光流压缩。给定两个参考系x1和x2，我们首先使用一个光流网络来计算2维位移映射f1和f2。与经典帧内插的重要区别是在编码时地面实况图像x的可用性我们通过将原始帧x、光流场f1和f2以及扭曲帧w1= w（x1，f1）和w2= w（x2，f2）作为输入提供给编码器h p来利用这一点。结果表示被量化（q）在开始编码之前。解码器hρ′可以直接合成位移映射（f∈1，f∈2）和混合系数（α1，α2）来计算解码参考帧x1，x 2和x3的中间帧xintrp。根据q_n，解码器r_h_p′可以重建光流场和混合系数：（α1，α2，f1，f2）=hρ′（q）.并且根据等式（2）直接计算x intrp。类似于图像压缩，所提出的潜在代表-表示应当尊重压缩目标，即满足占用尽可能少的存储的竞争约束，同时使内插结果的失真形式上，这可以表示为优化以下率失真问题：L （ Θintrp ） =Expx[−log2pq （ q ） +λintrpd （ x ，xintrp）]，（5）其中，Θintrp={ρ，ρ′，pq}由编码器-解码器网络参数（ρ，ρ′）和熵模型（pq）组成。我们的方法的第一个优势来自于供应商-在压缩期间，将扭曲结果与原始帧X一起进行压缩，从而可以对混合系数进行更好的预测此外，我们只惩罚重建的中间帧上的失真，而不是重建的运动场本身。这使得网络能够识别流矢量重要性，并推断出忠实的运动重建对于最终结果是不必要的或不太重要我们的方法的另一个优点是减少了计算时间，因为在解码侧避免了复杂的帧内插;网络工作hρ′并不比图像解码器gφ′，并且其输出直接用于合成内插结果。3.2. 潜在空间阻力上一节描述了我们如何基于运动补偿获得原始图像x的估计xintrp。然而，插值结果仍然可能包含明显的误差，这可以通过在xintrp和x之间另外传输残差信息来减少。代替为图像空间残差设计不同的网络，我们提出利用用于k个y帧的压缩编码r-解码器对（gφ，gφ′）并计算潜在空间中的残差信息图4示出了当从两个关键帧x1和x2插值时的潜在残差估计。关键帧采用图像压缩策略进行编码，然后用作插值的参考帧，如3.1节所述。x和xintrp之间的剩余残差信息通过计算y和yintrp之间的潜在空间中的残差来表示：r= y − yintrp= g φ（x）− g φ（xintrp）。（六）残差被量化，并且最终的解码图像x_n可以被计算为：xφ=gφ′（yintrp+rφ）。（七）估计潜在空间中的残差允许对关键帧和解码器两者使用相同的编码器和解码器。+X6425渠道可视化Q.-内插[Fig.三、+=Q.Q.渠道可视化熵编码Q. =量化图4：潜在空间残差。当压缩视频片段时，首先使用图像压缩自动编码r对关键帧x1和x2进行编码。然后使用解码帧x_i和x_i2来估计插值结果x_intr_p。使用相同的图像编码器gφ来计算潜伏期y和y_intrp，并且仅必须传输残差r_intrp（提供一个通道的可视化）。利用潜在空间中的残差，我们只需要额外估计r的概率模型。残差，减少了参数的数量。这还提供了通过设计实现k个y帧（x∈i）和预测帧x∈ i两者的相同反射质量的优点。由于图像压缩网络也用于残差，因此需要进行一些调整。等式（1）中描述的损失函数限于图像压缩。我们扩展该目标函数以在训练编码器r-解码器对（gφ，gφ′）时考虑残差。此外，除了模型Py_n之外，我们还需要构建用于熵编码残差值的概率模型Pr_n这些修改相当于共同优化关键帧和插值残差的率失真目标泛函：Σ关键帧的图像压缩网络也用于我们帧间压缩块中的残差，最终插值图像质量相似。该质量通过针对损失函数中的λimg的特定值训练图像压缩网络来确定（等式1）。（八）。结果，唯一剩余的自由度来自于为插值自动编码器（hρ，hρ′）选择等式（5）中的λ intrp。例如，通过选择较低质量的内插，比特率大大降低，但这可能负面地影响残差所需的比特率在另一端，选择更高质量的插值也可能不是理想的，因为可能存在大的运动，在这种情况下，插值是困难的，并且分配更大比例的比特来编码残差成为总体上更好的选择。L（Θimg）=Exθpx-log2pr（r）+λimgd（x，x）联系我们残余Σ（八）在拟议的框架中，最佳的折衷办法是通过在测试时比较几种插值配置并使用导致最低总位的配置，1992年1月。Σ+2`−log2py（yi）+λimgd（xi，xi），残差计算后的速率为了能够自由地-在两个网络的不同版本中，我们训练它们，i=1联系我们关键帧独立地插值部分首先针对dif进行训练，损失函数中的不同λintrp值（等式（5）只有我们--其中，Θimg={φ，φ′，pyθ，prθ}是学习参数。3.3. 平衡边信息和弹性在前面的部分中，我们已经描述了图2中所示的视频压缩框架的所有组成元素。如果我们考虑视频的固定目标质量，则理想的帧间压缩应该实现内插帧的最低比特率，同时具有与关键帧相似的感知质量以来地面实况图像。然后在第二步中使用所获得的插值模型之一来训练图像压缩网络，保持其参数固定。3.4. 网络架构我们使用Balle等人提出的编码器-解码器对。[4]用于图像和插值网络，我们接下来开发一些细节。编码器gφ和gp具有5个块，每个块由卷积和卷积码组成。6426顺序我们我们输入（平均值）[21]第二十一话TOFlow [33](flow+插值）（较低比特率）（更高的比特率）0 bpp 0 bpp 0.027 bpp 0.24 bpp0 bpp 0 bpp 0.021 bpp 0.27 bpp图5：插值结果。使用压缩约束的帧插值，我们能够实现良好的插值结果，即使在低比特率。最左边的列显示平均输入帧。帧内插技术[21，33]不期望传输运动数据。在顺序方法中，首先解压缩光流，然后估计插值。所有这些方法在解码时需要更多的计算能力，并且比我们的联合策略性能更差。广义归一化变换（GDN）层。卷积层具有内核大小k=5和步幅s=2。解码器gφ′和gp′还共享5个块的相同架构，每个块具有上采样卷积（k=5和s=2）和逆GDN层。图像解码器gφ′输出通道的最终数量为3，对应于RGB图像。解码器gρ′ 用于插值部分，有5个输出通道。四通道核心-响应于两个运动场f∈1和f∈2，而S形应用于第5个通道以获得混合系数α<$1 ，这意味着α<$2=1−α<$1，相对于v。对于光流估计，我们使用预训练的PWC-Net [25]并在训练中保持固定重量为了近似在瓶颈中执行的量化操作，我们在训练期间向潜在空间值添加独立的均匀噪声。这被证明是舍入运算的连续可微松弛[4]。培训程序。我们使用Vimeo-90 K七联体数据集[33]中的所有帧进行训练。视频压缩适用于短视频段，需要从不同的间隔范围内插。为了在训练期间模拟这一点，我们以1、2或3帧的间隔随机采样三组图像。我们使用均方误差（MSE）作为图像失真损失d（等式2）。5、8）。我们通过训练来实现不同的率失真比，不同的权重（λintrp，λimg）。对于熵编码，我们使用由Minnen等人 [17]提出的概率模型来对图像潜在值py_n、潜在残差值pr_n和运动信息pq_n进行建模。在测试期间，我们通过改变潜在表示中使用的量化步长来达到不同的率失真点[9]。4. 实验结果我们在这里提出了一个详细的评估所提出的模型。我们分析了我们框架的各个部分的优点，即压缩约束帧内插以及潜在空间残差，然后对标准视频压缩编解码器H.264 [31]和H.265[24]进行了完整模型的比较研究。为了测量失真，我们使用峰值信噪比（PSNR）。在我们的实验中，我们使用了三个不同的数据集。第一个数据集是视频跟踪库[2]，进一步引用为[1]。在我们的实验中，我们只使用最高分辨率的剪辑（352×288），并将所有剪辑的最大长度设置为300帧。除此之外，我们还使用了来自Ultra Video Group [1]和MCL-JVC数据集[30]的原始视频，这些视频的分辨率都是1920×1080，内容和动作种类繁多。建议插值的优点。为了评估拟议的压缩控制的好处6427应变插值方法我们使用UVG数据集和以下实验设置：给定要插值的帧x=Ii，我们使用帧x1=Ii−k和x2=Ii+k作为参考帧。对于这个实验，我们使用原始帧xi作为参考帧，并且不应用任何im-i-i。年龄压缩我们的方法遵循图3的图表。为了比较，我们实现了顺序方法，其中光流首先被单独压缩和解压缩，然后是对相应扭曲的参考帧的插值方法（参见补充材料的细节）。除此之外，我们还测试了两种帧插值方法; TOFlow [33]和SepConv [21]，使用在线实现，其中不需要编码额外的运动信息。图5显示了结果图像的示例。第一示例对应于参考帧之间的12帧的间隔，而第二示例对应于6帧。我们的方法是能够明显优于帧插值技术，即使在低比特率，而使用更多的位也不断改善的结果（最后一列）。对UVG数据集的定量评估（图1）。6）具有12帧的帧间隔示出了图像质量相对于比特率的演变。我们使用简单因子分解模型[4]以及完整模型[17]评估我们的插值方法作为参考，帧内插和灰技术绘制水平线，因为它们不需要传输任何数据在这种情况下，插值图像直接从可用的参考帧预测然而，计算成本更高，任务更具挑战性，特别是对于非线性的大运动。顺序方法受益于解码的运动场，但当增加比特率时，改进是有限的。另一方面，我们的方法在编码过程中可以访问地面实况图像，并且可以更有效地利用额外的数据。潜在空间残差分析。为了更好地理解潜在空间残差，图7说明了获得的值和概率。第一行对应于关键帧压缩情况。输入图像x被映射到y上的潜在表示i，该潜在表示i被量化为y。中间一列显示了其中一个瓶颈通道的结果。潜在空间值由温度表示，而概率由灰度值表示。第二行对应于通过插值获得的结果xintrp，并且与地面真实值的偏差是可见的，其也出现在量化的后空间残差中。因为r的值的范围小于y的值的范围，所以我们可以实现低得多的输入，所有这些都是更有效的编码。视频编解码器比较。为了显示所提出的视频压缩框架的优点，我们将其与现有的视频编解码器进行比较，特别是H.264 [31]和3432302800。10. 2速率（bpp）图6：插值的定量评估。使用因子分解（绿色）和完整模型（粉色）的插值模型的率失真曲线我们还评估了插值前的顺序方法解压缩流。水平线对应于帧插值，lation技术，不需要任何编码数据。游艇序列-和图7：潜在空间残差分析。使用图像压缩，图像x被映射到其具有相关联的概率Py_n（y_n）（针对一个通道示出）的量化的潜在表示y_n 在第二行中，插值结果xintrp具有在潜在空间残差中出现的一些误差。残差将主要具有以0为中心的值，这导致更高的概率（即，低熵）。H.265 [24]第10段。我们的关键帧每12帧定位一次，插值在它们之间递归执行。这也反映在用于比较的所使用的视频编解码器配置中。我们使用ffmpeg工具来压缩视频，确切的命令行在补充材料中提供我们考虑视频编解码器的两种设置：快速零延迟和中等。除了标准视频编解码器之外，我们还比较了来自最新技术水平的两种神经视频压缩方法[32，14]。我们的评价（Fig.8）使用完整模型显示了与现有编解码器的竞争结果，特别是在高分辨率、高质量数据集UVG和MCL-JVC上。图1示出了通过以下方式实现的图像质量的示例：我们的（完整）我们的（简单）顺序[21]第二十一话TOFlow [33]失真（PSNR）6428我们H.264H.264（快速）H.265H.265（快MCL-JVC数据集40 39数据集UVG数据集40373838353636333400。204速率（bpp）31 3400。2040608 1速率（bpp）0的情况。10.203速率（bpp）图8：最终评价。使用12帧的关键帧间隔对三个不同的视频数据集进行压缩。我们在两种不同的配置下与H.264[31]和H.265 [24图9：比特率分布。底部的视频是一个延时剪辑，其中只有很少的比特被分配给运动。对于顶部视频，运动是非常重要的，并且可以代表接近一半的低质量水平的数据。随着质量的提高，残差数据变得更加重要。我们的方法与现有的视频编解码器相比，存在较少的视觉伪像，并且颜色更接近原始。由于MPEG数据集包括许多与训练集不同的噪声低分辨率视频，因此我们的解决方案在较低比特率上的表现不佳，但仍与现有的编解码器相当。与现有的神经视频压缩方法的UVG数据集的比较。我们的方法优于DVC [14]和基于插值的视频压缩[32]。除此之外，我们的方法的优点是只使用两个网络进行压缩，而DVC [14]有4个不同的网络。我们也-传统上，使用单个自动编码器处理所有帧间隔和运动幅度，而[32]有处理不同插值间隔的模型。比特率分配。我们研究了不同类型数据之间的比特重分配。对于每个质量级别，我们计算关键帧，残差和运动方面的位的重新划分。图9针对在运动方面具有非常不同的内容类型的两个视频剪辑示出了这一点上面的视频包含许多移动元素，而第二个是一个几乎没有运动的时间推移。这反映在分配给运动补偿的比特数还值得注意的是，运动和残差数据对于不同质量水平的相对重要性。在最低级别中，运动补偿是非常有效的，因此将比特率的较大部分分配给它是有益的。对于更高的质量水平，最好增加残差数据的比例。这与图5中的结果一致，其中较低比特率结果与较高比特率结果之间的质量差与大小差相比是边际的。5. 结论我们的神经视频编码框架能够实现与现有视频编解码器竞争的结果，这些编解码器已经经历了几十年的工程改进。这特别是由于嵌入压缩约束并利用编码时所有可用信息的插值方法。除此之外，在潜在空间中表达残差简化了视频压缩任务，因为相同的网络用于关键帧和残差。在这项工作中，我们专注于压缩依赖于过去和未来的关键帧的中间帧然而，我们的方法也与其他设置兼容，例如仅来自过去的帧。因此，寻找关键帧选择的最佳策略将是未来工作的一个有趣分支。[14]第十四话Wu等人 [32]失真（PSNR）质量水平关键帧运动残差大小-视频与大动作大小-视频与小动作6429引用[1] Ultra视频组测试序列。 http：//ultradevide.orgcs.tut.fi。2019-03-22. 6[2] 视频跟踪库。http://trace.kom.aau.dk/yuv/index.html 。2019-03-22. 6[3] HC安德鲁斯和WK普拉特。通过对空间频率进行编码来减少电视带宽1968年，SMPTE杂志。2[4] JohannesBall e' ， ValeroLaparra ， andEeroPSimoncelli. 端到端优化的图像压缩。ICLR，2017年。一、二、三、五、六、七[5] JohannesBalle´ ， DavidMinnen ， SaurabhSingh ，SungJinHwang，and Nick Johnston.基于尺度超先验的变分图像压缩。ICLR，2018年。二、三[6] Fabrice Bellard Bpg规范版本0.9.5，2014。2[7] VNI思科。思科可视网络索引：预测和趋势，2017-2022年。白皮书，2018年。1[8] 彼得·德·里瓦斯和杰克·豪顿。Av1码流解码过程规范。开放媒体联盟，2018年182页。2[9] 蒂埃里·杜马斯，艾琳·鲁米，克里斯汀·吉列莫。基于自动编码器的图像压缩：学习可以是量化独立的吗？在ICASSP，2018年。6[10] Google. Webp，2010. 一、二[11] Jun Han，Salvator Lombardo，Christopher Schroers，andStephan Mandt.深度概率视频压缩。arXiv，2018年。一、二[12] Tak-Wai Hui，Xiaoou Tang，and Chen Change Loy. Lite-flownet：用于光流估计的轻量级卷积神经网络。在CVPR，2018年。2[13] 蒋怀祖，孙德清，Varun Jampani，杨明轩，Erik G.Learned-Miller和Jan Kautz。超级斯洛莫：用于视频内插的多个中间帧的高质量估计。在CVPR，2018年。2[14] 郭璐，欧阳万里，徐东，张晓云，蔡春雷，高志勇.Dvc：端到端深度视频压缩框架。在CVPR，2019年。一、二、七、八[15] FabianMentzer，EirikurAgustsson，MichaelTschannen，Radu Timofte，and Luc Van Gool.深度图像压缩的条件概率模型。在CVPR，2018年。一、二、三[16] SimoneMeyer、AbdelazizDjelouah、BrianMcWilliams、Alexander Sorkine-Hornung、Markus Gross和Christo-pher Schroers。用于视频帧插值的相位网。在CVPR，2018年。2[17] D a vidMinnen，JohannesBal le'，andGeo r geDToderici. 联合自回归和分层先验的学习图像压缩。在NeurIPS中。2018. 一二三六七[18] D. 穆克吉Bankoski，A.Grange，J.Han，J.Koleszar，P.Wilkins，Y.Xu和R.布提耶最新开源视频编解码器vp 9-概述和初步结果。图片编码研讨会（PCS），2013年。2[19] Hans Georg Musmann，Peter Pirsch，and H-J Grallert.图像编码的进展。 IEEE会议录，1985年。 2[20] 西蒙·尼克劳斯和凤琉。用于视频帧内插的上下文感知合成。在CVPR，2018年。26430[21] 西蒙·尼克劳斯、龙迈、风流。基于自适应可分离卷积的视频帧InICCV，2017.二六七[22] Oren Rippel和Lubomir Bourdev。实时自适应图像压缩。ICML，2017。2[23] Oren Rippel 、 Sanjay Nair 、 Carissa Lew 、 SteveBranson、Alexander G Anderson和Lubomir Bourdev。学过视频压缩。arXiv，2018年。一、二[24] Gary J Sullivan ， Jens-Rainer Ohm ， Woo-Jin Han ，Thomas Wiegand，et al.高效率视频编码标准综述。IEEE Transactions on Circuits and Systems for VideoTechnology，2012。一二六七八[25] 孙德清、杨晓东、刘明宇和Jan Kautz。PWC-Net：使用金字塔，扭曲和成本体积的光流CNN。在CVPR，2018年。二、六[26] David S Taubman和Michael W Marcellin。Jpeg 2000：交互式成像标准。IEEE，2002年。2[27] George Toderici、Sean M基于递归神经网络的变速率图像ICLR，2016. 2[28] George Toderici 、 Damien Vincent 、 Nick Johnston 、Sung Jin Hwang、David Minnen、Joel Shor和MicheleCovell。基于递归神经网络的全分辨率图像压缩在CVPR，2017年。2[29] 格雷戈里·华莱士静止图像压缩标准。IEEE消费电子学报，1992年。2[30] Haiqiang Wang ， Weihao Gan ， Sudeng Hu ， JoeYuchieh Lin，Lina Jin，Longguang Song，Ping Wang，Ioannis Katsavouni- dis ， Anne Aaron ， and C-C JayKuo.Mcl-jcv：基于jnd的H. 264/avc视频质量评估数据集。在ICIP。IEEE，2016.6[31] Thomas Wiegand，Gary J Sullivan，Gisle Bjontegaard，and Ajay Luthra. H的概述。264/AVC视频编码标准。IEEE Transactions on Circuits and Systems for VideoTechnology，2003。一二六七八[32] 吴朝元，纳扬·辛格哈尔，菲利普·克拉亨布. 通过图像插值进行视频压缩。ECCV，2018年。一、二、七、八[33] Tianfan Xue，Baian Chen，Jiajun Wu，Donglai Wei，and William T Freeman.具有面向任务流的视频增强。arXiv，2017. 二六七

下载后可阅读完整内容，剩余1页未读，立即下载