学习视频压缩算法的新颖架构及基于ML的空间速率控制

154 浏览量更新于2023-10-12 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3454学习视频压缩Oren Rippel，Sanjay Nair，Carissa Lew，Steve Branson，Alexander G. Lubomir BourdevWaveOne，Inc.{oren sanjay carissa steve alex lubomir}@ wave.one摘要我们提出了一种新的视频编码算法，学习端到端的低延迟模式。在这种情况下，我们的ap-proach优于所有现有的视频编解码器在几乎整个比特率范围。据我们所知，这是第一个基于ML的方法。我们评估我们的方法对标准的视频压缩，不同分辨率的测试集，并对所有主流的商业编解码器在低延迟模式的基准在标准清晰度视频上，HEVC/H.265 、AVC/H.264和VP 9通常会产生比我们算法大60%的代码。在高清1080p视频上，H.265和VP9通常会产生高达20%的代码，而H.264则会增加35%。此外，我们的方法不会受到阻塞文物和像素，从而产生的视频，更视觉上令人愉快。我们提出两个主要贡献。第一种是用于视频压缩的新颖架构，其（1）概括运动估计以执行任何学习的补偿而不是简单的平移，（2）而不是严格依赖于先前传输的参考帧，保持由模型学习的任意信息的状态，以及（3）能够联合压缩所有传输的信号（诸如光流和残差）。其次，我们提出了一个基于ML的空间速率控制的框架-跨空间为每个帧分配可变比特率的机制这是视频编码的关键组成部分，据我们所知，这在机器学习环境中还没有得到解决。1. 介绍2016年，视频内容消耗了所有互联网流量的70%以上，预计到2021年将增长三倍[1]。与此同时，现有视频压缩算法的基本原理在过去20年中没有发生显著变化[46，36，35，. . . ].虽然它们经过精心设计和彻底调整，但它们是硬编码的，因此无法适应日益增长的需求和日益多样化的视频用例，如社交媒体共享，对象检测，VR流等。与此同时，基于深度学习的方法已经革新了许多行业和研究学科。特别是，在过去两年中，图像压缩领域取得了巨大的飞跃：基于ML的图像压缩方法已经远远超过了商业编解码器，并且仍然远远没有饱和到其全部潜力（第1.3节中的调查）。深度学习的流行进一步促进了神经网络加速架构在各种设备和机器上的扩散。这场硬件革命已经越来越多地提高了已部署的基于ML的技术的性能-使视频压缩成为中断的主要候选者。在本文中，我们介绍了一种新的视频编码算法。我们的方法是端到端学习的低延迟模式，其中每个帧只能依赖于过去的信息。这是实时传输的一个重要设置在这种情况下，我们的方法在几乎整个比特率范围内都优于所有现有的视频编解码器。我们在不同分辨率的标准数据集上彻底评估了我们的方法，并在此模式下对所有现代商业编解码器进行了基准测试。在标准清晰度（ SD ）视频上，HEVC/H.265、AVC/H.264和VP 9通常产生比我们的算法大多达60%的代码。在高清（HD）1080p视频上，H.265和VP9通常会产生高达20%的代码，而H.264则会产生高达35%的代码。此外，我们的方法不会受到块效应和像素化的影响，因此可以产生视觉上更令人愉悦的视频（见图1）。在第1.1节中，我们简要介绍了视频编码的一般情况。在第1.2节中，我们继续描述我们的贡献。在第1.3节中，我们讨论了相关的工作，并在第1.4节中，我们提供了本文的大纲。1.1. 视频编码简介1.1.1视频帧类型视频编解码器设计用于高压缩效率，并通过利用视频帧内和跨视频帧的空间和时间冗余来实现这一点（[51，47，36，34]提供了商业视频编码技术的概述）。现有的视频编解码器具有3种类型的帧：34550.980.960.940.920.51.01.52.00.9950.9900.9850.9800.51.01.5每像素位数每像素位数我们0.0570 BPPAVC/H.2640.0597 BPPAVC/H.2650.0651 BPP我们0.0227 BPPAVC/H.2640.0247 BPPAVC/H.2650.0231 BPP图1.对于相同的每像素比特（BPP）值，不同编解码器的重构示例视频取自Xiph HD library2，通常用于压缩评估。全面的基准测试结果见第5节。左上：原始输入帧，放大区域周围的框。右上：每个视频的率失真曲线。底部行：从每个编解码器的重建中裁剪，用于精细细节的视觉比较（更好地以电子方式查看）。1. I帧（2. P帧（3. B帧（虽然引入B帧能够实现更高的编码效率，但它增加了延迟：为了对给定帧进行解码，必须首先发送和解码未来的帧。1.1.2压缩程序在所有现代视频编解码器中，P帧编码总是通过两个单独的步骤来完成：（1）运动补偿，然后是（2）残差压缩。运动补偿这一步的目标是以翻译的形式来利用时间冗余。这是通过块匹配（[30]处的概述）来完成的，块匹配从少数先前传输的参考帧重构当前目标，比如时间步长t的x t。具体而言，目标中的不同块与参考帧内的块在可能的位移范围内进行比较。这些位移可以被表示为光流图ft，并且块匹配可以被写为流估计问题的特殊情况（参见第1.3）。为了最小化传输流所需的带宽并降低搜索的复杂性，流被均匀地应用于大的空间块，并被离散化到半像素/四分之一像素/八分之一像素的精度残余压迫。在运动补偿之后，然后压缩目标与其运动补偿的近似之间的剩余差m_t。该差Δt=xt-mt被称为残差，并且利用适于残差的稀疏性的图像压缩算法来独立地编码。1.2. 贡献本文介绍了对视频编解码器设计和压缩的ML建模的几个新贡献：赔偿超过翻译. 传统编解码器被限制为严格地以运动的形式然而，存在无法通过简单翻译捕获的显著例如，考虑平面外旋转，例如人将他们的头转向侧面。传统的编解码器将无法从正面视图预测侧面人脸。相反，我们的系统能够学习任意时空模式，从而提出更准确的预测，从而节省比特率。我们的AVC/H.264AVC/H.264 [慢速]HEVC/H.265HEVC/H.265 [慢]HEVC HMVP9我们的AVC/H.264AVC/H.264 [慢速]HEVC/H.265HEVC/H.265 [慢]HEVC HMVP9MS-SSIMMS-SSIM345621学习状态的传播。在传统的编解码器中，从帧到帧传播的所有这些表征在它们可能表征的信号类别中是非常有限的，而且不能捕获长期记忆。相比之下，我们传播一个由模型自主学习的任意状态，以最大限度地保留信息。关节运动和残余压迫。每个编解码器必须从根本上决定如何在运动和残差之间分配带宽。然而，这些之间的最佳折衷对于每个帧是不同的。在传统的方法中，运动和残差被单独压缩，并且没有简单的方法来权衡它们。相反，我们使用相同的瓶颈来联合压缩补偿和残差信号。这使得我们的网络能够通过学习如何根据帧复杂度在它们之间分配比特率来减少冗余。灵活的运动场表示。在传统的编解码器中，光流用分层块结构表示，其中块内的此外，运动矢量被量化到特定的子像素分辨率。虽然选择这种表示是因为它可以有效地压缩，但它不能捕获复杂和精细的运动。相比之下，我们的算法具有充分的灵活性来分配带宽，使得更重要的区域在任意流精度下具有任意复杂的运动边界，同时非常有效地表示不重要的区域参见图2中的比较。多流表示。考虑一个视频，一列火车在一棵树的细树枝后面移动。这样的场景用使用单个流图的传统系统来表示是非常低效的，因为存在破坏流的小遮挡图案。此外，一旦被遮挡的内容重新出现，就必须再次合成我们提出了一种表示，使我们的方法的灵活性，分解成多个简单的流的混合物，复杂的场景和保留闭塞的内容。空间速率控制。对于任何视频压缩方法来说，关键是要有一种机制，用于在每个帧的不同空间位置分配不同的比特率。在基于ML的编解码器建模中，构建支持R个多比特率的单个模型，并且实现与R个单独的单独模型相同的结果是具有挑战性的，每个单独模型专门针对比特率之一进行训练。在这项工作中，我们提出了一个框架ML驱动的空间速率控制，满足这一要求。1.3. 相关工作基于ML的图像压缩在过去的两年里，我们看到了基于ML的图像压缩应用的巨大浪潮(a) H.265运动矢量。（b）我们的光流。图2. H.265的光流图和我们的方法，对于相同的比特率。传统的编解码器使用块结构来表示运动，并且对运动矢量进行了大量的重采样。我们的算法具有代表任意复杂的运动的灵活性。proaches [15，44，45，5，4，14，25，43，38，23，2，27，6，3，10，32、33]。这些学习的方法已经重新发明了传统图像编码中开发的许多硬编码技术：编码方案、进入和离开学习的代码空间的转换、质量评估等等。ML视频压缩据我们所知，唯一预先存在的端到端基于ML的视频压缩方法是[52，8，16]。[52]首先对关键帧进行编码，并继续在它们之间分层地内插帧。[8]为预测和残差编码步骤设计神经网络。[16]提出了一种用于64 × 64视频样本的视频压缩的变分推理方法。使用ML增强传统编码。已经有几个重要的贡献证明了用基于神经网络的对应物替换或增强传统编解码器的不同组件的有效性这些包括改进的运动补偿和插值[54，21，58，31]，帧内预测编码，ing [40]，后处理细化[7，55，26，56，48，57，[17][28][29][29]。光流估计光流估计问题多年来得到了广泛的研究，使用偏微分方程[18，29，12，13，.. . [最近，机器学习[50，11，22，37，.. . ]中。给定两个相似的帧x1，x2∈RC×H×W，构造一个水平位移和垂直位移的光流场f∈R2×H×W，空间“洗牌”值从x1到最佳匹配x2. 这可以更具体地写为f=minL（x，F（x，f））+λR（f）F对于一定的度量L（·，·），光滑正则化R（·），其中F（ ·， ·）是逆光流算子[F（x，f）]chw= xc ，h+f1hw ， w+f2hw.请注意，虽然h，w是整数索引，但f1hw，f2hw可以是实值，因此右侧使用格点插值计算在在本书中，我们严格地讨论了逆向流动，但为了简洁起见，我们通常将其简称为34571.4. 纸质组织本文件的结构如下：• 在第2节中，我们激励我们的模型的整体设计，并提出其架构。• 在第3节中，我们描述了从固定大小的码延迟张量生成可变长度比特流的编码过程• 在第4节中，我们介绍了基于ML的空间速率控制框架，并讨论了如何训练/部署它。• 在第5节中，我们讨论了我们的培训/评估程序，并介绍了我们的基准测试和消融研究的结果• 在附录A中，我们完全指定了我们模型的架构细节。2. 模型架构记法。我们试图用帧对视频进行编码x1，. . .，xT∈R3×H×W.在本节中，我们讨论了视频模型构建的不同策略。在在高级，所有视频编码模型共享下面伪码中的通用输入-输出结构。时间步长t的视频编码器结构输入：1：目标帧xt∈R3×H×W2：先前状态St−1输出量：1：要发送的比特流et∈ {0，1}（e）2：帧重构xt∈R3×H×W3：更新状态St状态St由一个或多个张量组成，并且直觉对应于从帧到帧传播的某些先前记忆这一概念将在下文加以澄清。2.1. 状态传播子为了激发和提供最终架构背后的直觉，我们提出了一系列步骤，说明了传统视频编码流水线如何可以逐步适应越来越通用（和更干净）的基于ML的流水线请注意，在本节中，我们的目标只是提供模型的高级描述：我们在附录A中详细说明了所有更精细的架构细节。步骤#1：流-残差范例的ML公式化。我们最初的方法是使用我们的ML工具箱中的构建块来模拟现有编解码器（参见第1.1节）所具有的传统流-残差管道。我们首先构造一个可学习的流估计器网络M（·），它输出一个（逆）流ft∈R2×H×W，补偿最后重构帧xt-1，以补偿当前目标xt。然后，我们用编码器E f和解码器D f网络构建了一个可学习的流运动补偿残余压缩图3.步骤#1的图，它使用ML的工具制定了传统的蓝色张量对应于帧，绿色张量对应于流，两者都嵌入在原始像素空间中。黄色算子是可学习的网络，灰色算子是硬编码的可微函数。M（·）是流量估计器，F（·，·）是第1.3节中描述的光流算子巴夫湾传统编解码器通过仅对与先前重构的流的差异ft-1进行编码来进一步增加流的编码效率。接下来，我们使用我们的流重建来计算帧本身的运动补偿重建，mt=F（x<$t−1，<$ft），其中F（·，·）表示逆光学流操作符（见1.3节）。最后，我们构建了一个残差压缩器，它具有可学习的编码器Er（·）和解码器Dr（·）网络，用于自动编码残差t=xt−mt。任何最先进的基于ML的图像压缩架构都可以用于核心流量和残差压缩器的编码器/解码器请参见图3以获得该图的可视化。虽然这种设置通过端到端学习推广了传统方法，但它仍然受到几个重要障碍的影响，我们将在接下来的步骤中描述和缓解这些障碍。第二步：流动和残余的联合压缩。在上一步中，我们通过不同的代码分别对流和残差进行编码。相反，在许多方面，通过单个瓶颈共同压缩它们是有利的：这消除了它们之间的冗余，并允许模型自动确定如何根据输入复杂度在它们之间分配与最后，我们将其合并为一个编码器E（·）网和一个解码器D（·）网。请参见图4中的架构图图4.步骤#2的图，其通过联合压缩流和残差来概括步骤#13458图5.步骤#3的图形。我们不依赖于嵌入在像素空间中的参考帧和流，而是传播一个包含模型学习到的信息的广义状态。步骤#3：传播学习状态。我们现在观察到，从帧到帧传播的所有先前的记忆都严格地通过先前的保留来表示3. 编码过程我们假设我们已经应用了我们的编码器网络，并且已经达到了一个固定大小的张量c∈[−1，1]C×Y×X（为了符号清晰，我们省略了时间戳编码过程的目标是将c映射到具有可变长度的比特流e∈ {0，1}n（e）。该编码器通过利用注入到c中的冗余来实现高编码效率在训练的过程中，通过正则化器（见下文）。我们遵循[38]并在本节中进行了总结。位平面分解。我们首先将c变换为二元张量b∈ {0，1}B×C×Y×X，将其分解为：B位平面。此操作转换映射每个值构造框架xt−1和flowft−1，两者都嵌入在原始像素空间。这些代表不仅是COM-中国妇女联合会二进制展开b1chw，的。.. ，bBchw 的B位。它们被认为是低效的，而且在它们的表现力方面也是非常次优的，因为它们只能表征非常有限的一类有用信号，并且不能捕获长期记忆。因此，定义一个或多个张量的通用且可学习的状态St，并为模型提供自动决定如何填充它并跨时间步长更新它的机制，这是非常有益的。我们的状态传播可以理解为递归神经网络（RNN）的扩展，其中St通过递归更新来更新时间信息。与传统的RNN不同，对S t的更新必须通过低带宽瓶颈，我们通过与编码、解码、比特流压缩、补偿等模块集成来实现。每个帧重构xt是使用以下公式从更新的状态St计算的：这是一个有损操作，因为每个值的精度被截断。实际上，我们使用B=6。自适应熵编码（AEC）。AEC将二元张量b映射到比特流 e 中。我们训练一个分类器来计算激活概率P[bbcyx=1|对于以某个上下文C为条件的每个比特值bbcyx。上下文由相邻的预发送比特的值组成，利用位平面内和跨位平面的结构。自适应码长正则化。正则化器被设计为以熵编码器可以利用的方式减少b的熵内容特别地，它将量化的代码层的元素的分布整形为以作为位平面索引的函数的稀疏度的增加为这是用函数形式完成的我们将模块称为状态到帧，并表示为G（·）。我们在图5中提供了这种架构的示例框架。在图9中，可以看出，引入R（αc）=αi 斯图尔奥格|cCY X cyxcyx|学习状态可节省10-20%的比特率。步骤#4：任意补偿。我们可以进一步推广上一步提出的架构。我们观察到G（·）中的补偿形式仍然模拟传统的基于流的方法，因此是有限的。仅限于简单翻译的补偿。也就是说，基于流的补偿只允许我们“移动像素”，但不允许我们改变它们的实际值。然而，由于我们有一个端到端培训工具，现在可以学习除运动之外的任意补偿。因此，我们可以一般化G（·）以生成多个流而不是单个流，以及流可以分别应用于的多个参考2.2. 架构构建块我们已经经验性地发现，多尺度双路径骨干网作为我们的架构中的基本构建块工作良好。具体来说，我们将DenseNet [20]的多尺度再现[19]与双路径[9]相结合。我们的视频编码器和解码器的核心是简单地重复应用这个块。的完整描述E（·）、D（·）、G（·）的选项可参见附录A。对于迭代i和标量αi。 αi的选择允许训练所述平均码长以匹配目标比特数E_c[k（e）]-→k_r_ge_t。具体来说，在训练过程中，我们使用编码器来监控平均代码长度。然后，我们使用反馈回路将αi调制为目标码长与其观测值之间的差异的函数。4. 空间速率控制对于任何视频压缩方法来说，包括对空间速率控制的支持，即，在每个帧上的不同空间位置独立地分配任意比特率R、H、W的然后，速率控制器a1-a2 m确定这些速率的适当值，作为各种因素的函数：时空重构复杂度、网络条件、质量保证等。为什么不使用单比特率模型？大多数基于ML的图像压缩方法训练许多单独的模型-R-D曲线上的每个点一个[5，38，6，. . . ]中。将该公式扩展到视频编码并使用在固定比特率水平下编码的模型是诱人的然而，人们很快就会发现，由于编码复杂性的可变性，这会导致错误的3459R（a）Ta r getframext.（b）Ta r get-previousxt−xt−1（c）输出光通量。（d）R e sidualxt-mt。（e）产出调整。（f）最终误差xt −x<$t。（g）MS-SSIM图。（h）输出比特率图。图6. Xiph HD数据集示例视频的中间输出可视化。（a）原始目标框架。（b）目标帧和前一帧之间的差异。有几种不同类型的运动：摄像机摇摄转动轮子移动拖拉机（c）由算法产生的输出光流图，补偿（b）中描述的运动模式。（d）运动补偿之后的剩余残差。（e）添加残余重建之后的输出。（f）目标与其最终重建之间的差异。（g）由MS-SSIM评估的目标与其重建之间的误差图。颜色越亮表示误差越大。（h）由空间速率控制器分配的作为空间位置的函数的比特率的映射。在空间和时间上。也就是说，对于给定的帧，使用我们的固定比特率预算难以以高质量重建的区域在下一帧中将更加困难在图6中的示例中，可以看出，根据重构复数自适应地分配不同的比特率codelength正则化（见第3节），以匹配不同的目标codelength正则化目标。然后，我们的速率映射p指定在每个空间位置处哪个代码延迟器是特别地，我们将p映射到R个二元掩码ur∈ {0，1}Cr ×Yr ×Xr，每个代码延迟器一个，其中单个掩码在每个空间位置处是活动的：是的在图9中，可以看出，引入空间速率控制器导致10-20%的更好的压缩。ur，cyx=Ipyx=r，r = 1，. . . ，R传统的视频编解码器通过量化参数的变化实现速率控制：这些控制在每个空间位置处的代码的数值精度，并因此提供比特率和精度之间的折衷。然而，在基于ML的压缩方案中，设计用于速率控制的高性能机制是相当具有挑战性的。具体地，难以构建支持R个多比特率的单个模型，并且实现与R个单独的单独模型相同的结果，每个单独模型专门针对比特率之一训练。在第4.1节中，我们提出了一个神经网络环境中的空间速率控制框架，并在第4.2节讨论了我们的速率分配控制器算法。在Ap-Penalty A中，我们完全指定了空间速率控制器的所有架构选择。4.1. 空间复用框架在这里，我们构建了一种机制，针对每个视频帧跨不同空间位置的比特率。具体地说，我们假设我们的输入是一个空间映射的整数率p∈ {1，2，. . . ，R}Y×X. 我们的目标是构建一个模型，该模型可以任意改变每个位置（y，x）处的BPP/质量，作为所选速率pyx的函数。为此，我们概括了我们的模型，其特征是一个罪-GLE代码延迟器c以替代地支持R个不同的代码延迟器cr∈RCr×Yr×Xr。每个编码延迟器与不同的速率相关联，并且用不同的熵编码器进行训练，其中I是指示函数。每个映射在熵编码期间掩蔽代码层cr然后，最终比特流对应于每个编码延迟器中所有活动值的编码，以及速率掩码本身（因为它也必须在解码器侧可用）。在架构方面，在编码流水线的末端，编码器被分成R个分支E1，. . .、ER，每个映射到对应的代码延迟层。然后，每个解码器Dr执行逆操作，map-ping每个被屏蔽的代码延迟层回到一个公共空间，在那里它们被求和（见图7）。为了避免产生相当大的计算开销，我们选择了非常轻量级的单个代码延迟器分支：每个en-共享编码器共享解码器SRC图7.用于速率控制的空间多路复用器的结构在每个位置处，从R个码延迟器中的一个中选择一个值，作为速率映射p中指定的速率的函数。附录A中的体系结构完整细节。3460RBPP−BPPMS-SSIMH.264H.265HEVC HMVP90.990百分之一百三十三122%百分之一百零二123%0.992百分之一百四十四百分之一百三十三111%百分之一百三十三MS-SSIMH.264H.265HEVC HMVP90.980百分之一百二十一百分之一百一十二百分之九十五百分之一百零二0.984百分之一百三十二百分之一百二十百分之一百零八百分之一百一十二0.99750.9950CDVL SD0.990Xiph HD0.99250.9850.99000.98750.00.20.40.60.81.01.21.41.60.9800.9750.20.40.60.81.01.2每像素位数每像素位数图8. CDVL SD和Xiph HD数据集的压缩结果。我们对HEVC/H.265和AVC/H.264、VP 9以及HEVC HM参考实现的默认和较慢的延迟进行基准测试，所有这些都在低延迟设置（无B帧）中。我们调整每个基线编解码器，以最好的我们的能力。评价程序的所有详细信息见第5.2节。顶行：每个数据集的所有视频的平均率失真曲线。底行：相对于我们的平均压缩大小，代表性的MS-SSIM水平覆盖每个数据集的BPP范围。编码器/解码器分支仅由单个卷积组成在实践中，我们发现，选择目标BPP作为目标BPP=0。01×1。5R导致令人满意的Bi-P分布。我们总共训练了5个不同的模型，每个模型都涵盖了BPP范围的不同部分。在训练期间，我们对每个帧均匀地简单采样p。下面我们描述我们在部署过程中使用的空间复用器。4.2. 速率控制器算法视频比特率可以通过多种方式进行控制，这取决于视频例如，可能需要保持最低保证质量，或者遵守最大比特率，以确保在约束网络条件下的低缓冲（[53，39]中对速率控制的出色概述）。一种常见的方法族基于拉格朗日优化，并且围绕根据速率失真曲线的斜率的估计来分配比特率。这可以直观地解释为最大化每单位比特花费的质量改进。我们的速率控制器的灵感来自于这个想法。具体地，在视频编码期间，我们定义某个斜率阈值λ。对于给定的时间步长，对于每个空间位置（y，x）和率r，我们估计局部的斜率Lr+1，yx−Lr，yxr+1，yx r，yxR-D曲线，对于某个质量度量L（·，·）。然后，我们选择我们的速率图p，使得在每个空间位置处，pyx是最大速率，使得斜率至少为阈值λ。5. 结果5.1. 实验装置训练数据。我们的训练集包括从YouTube下载的高清动作场景。我们发现这些工作很好，因为它们相对不失真的性质，和更高的编码复杂性。我们在128×128上训练模型在时空上均匀采样的视频裁剪，过滤掉包括场景切换的剪辑。培训程序。在训练（和部署）过程中，我们使用学习的图像压缩器对第一帧进行编码;我们发现选择此压缩器不会显著影响性能。然后，我们将每个视频展开为5帧。我们发现额外展开的收益递减。我们使用Adam [24]优化模型，动量为0。学习率为2 × 10−4，在训练期间减少5倍我们使用一个批处理大小为8，总共迭代400，000总的来说，我们没有观察到过度拟合的迹象，而是相反：该模型还没有达到作为容量的函数的性能饱和点，并且似乎受益于增加其宽度和深度。度量和颜色空间。对于每个编码视频，我们将BPP测量为总文件大小，包括所有头部信息，在视频中的所有像素上平均。我们使用多尺度结构相似性指数（MS-SSIM）[49]来惩罚最终帧重建xt与其目标xt之间的差异，该指数是为人类视觉系统设计的，并且已知其与人类视觉系统的匹配明显优于诸如 PSNR 或 PSNR 类型损失的替代方案。我们使用Charbonnier损失来惩罚所有中间运动补偿重建中的失真，已知其对于基于流的失真效果良好[42]。由于人类视觉系统对亮度的失真比对颜色的失真敏感得多同样，我们将所有颜色表示为我们的AVC/H.264AVC/H.264 [慢速]HEVC/H.265HEVC/H.265 [慢]HEVC HMVP9我们的AVC/H.264AVC/H.264 [慢速]HEVC/H.265HEVC/H.265 [慢]HEVC HMVP9MS-SSIMMS-SSIM3461YCbCr域，并且用Y、Cb、Cr分量权重6/8、1/8、1/8对所有度量进行加权。5.2. 评价程序基线编解码器。我们以所有主流商业编解码器为基准：HEVC/H.265、AVC/H.264、VP9和HEVC HM 16.0参考实施方案。我们evalu- ate H.264和H.265在两个默认预设的介质，以及较慢.我们对所有编解码器都使用FFmpeg，除了HM，我们使用其官方实现。0.9950.9900.9850.9800.9750.10.20.30.40.50.6我们尽最大努力调整所有编解码器。为了删除B帧，我们使用H.264/5和bframes=0选项，VP 9和-auto-alt-ref 0 -lag-in-frames 0，并使用HM编码器 lowdelayPmain.cfg pro-file 。为了在 MS-SSIM指标上最大限度地提高基线的性能，我们使用-ssim标志对其进行调优。视频测试集。我们在标清和高清标准视频测试集上对上述所有编解码器进行了基准测试，这些测试集经常用于评估视频编码算法。在SD中，我们评估了来自消费者数字视频库（CDVL）1的VGA分辨率数据集。该数据集包含34个视频，共15，650帧。在HD中，我们使用Xiph 1080p视频数据集2，包含22个视频和11，680帧。我们将所有1080p视频的中心裁剪为高度1024（目前，我们的方法要求每个维度都能被32整除）。每个数据集中的视频列表可以在附录中找到。曲线生成。每个视频都有一个单独的R-D曲线，该曲线是根据给定编解码器的所有可用压缩率计算的：正如许多论文[5，38]详细讨论的那样，总结这些R-D曲线的不同方法可能会导致非常不同的结果。在我们的评估中，为了计算给定的我们在这个自变量值上为每个视频插值R-D曲线，并在因变量上平均所有为了确保准确的插值，我们为每个编解码器生成所有可用速率的结果。5.3. 性能率失真曲线。在图8的第一行，我们展示了所有视频的平均MS-SSIM，数据集和每个编解码器（第5.2节），作为BPP的函数相对压缩大小。在图8的底行上，我们呈现了相对于我们的方法的代表性MS-SSIM值的平均文件大小对于每个MS-SSIM点，我们对数据集中所有视频的BPP进行平均，并计算与我们的BPP的比率请注意，对于此比较，我们被限制使用对数据集中的所有视频有效的MS-SSIM值，对于SD数据集为0.990-0.998，对于HD数据集为0.980-0.994。消融研究。在图9中，我们展示了具有和不具有不同组件的不同模型的性能。评价的不同配置包括：• 本文提出的完整模型每像素图9.消融研究证明了个体在CDVL SD数据集上的性能上的双架构组件。变化的因素包括引入学习状态、使用基于流的运动补偿和空间速率控制（所有这些都在第2节和第4节中描述）。• 步骤#2中描述的模型，使用先前的帧和流作为先验知识，但不学习任意状态;以及• 一个朴素的ML模型，不包括学习状态，直接重建目标帧，不进行任何运动补偿。我们评估了所有上述模型，以及第4节中描述的运行时间。在NVIDIA Tesla V100和VGA视频上，我们的解码器平均运行速度约为10帧/秒，编码器运行速度约为2帧/秒，无论比特率如何。然而，我们的算法应该被视为一个参考实现：目前的速度是不够的实时部署，但要在未来的工作中大幅提高。作为参考，在相同的视频上，HEVC HM对于低BPP以大约0.3帧/秒进行编码，并且对于高BPP以大约0.04帧/秒进行编码。6. 结论在这项工作中，我们介绍了第一个基于ML的视频在低延迟模式下，在几乎整个比特率范围内，该编解码器的性能优于所有商用编解码器。然而，我们提出的方法只支持低延迟模式。未来工作的两个明确方向是提高模型的计算效率以实现实时编码，以及扩展模型以支持时间内插模式（即使用B帧）。鸣谢。我们感谢Josh Fromm 、Trevor Darrell、SvenStrohband 、 Michael Gelbart 、 Albert Azout 、 BrunoOlshausen和Vinod Khosla在此过程中进行的有意义的讨论和投入。1 消费者数字视频库可在 http ： //www.example.com 上找到www.cdvl.org/。为了检索SD视频，我们搜索原始和优秀质量水平的VGA分辨率。有几个几乎重复的视频：在这些情况下，我们只检索了第一个。2Xiph 测试视频可以在 www.example.com 上找到https://media.xiph。org/video/derf/.我们使用1080p分辨率的所有视频。完整型号No RC没有国家无状态+无RCNaive ML初始ML+无RCMS-SSIM3462引用[1] 白皮书：2016- 2021年思科虚拟网络接口预测与方法。2016年。[2] EirikurAgustsson，FabianMentzer，MichaelTschannen ， Lukas Cavigelli ， Radu Mrs. fte ， LucaBenini，and Luc V Gool.用于端到端学习可压缩表示的软到硬矢量量化。在重症盖永V. Luxburg，S. Bengio，H.瓦拉赫河Fergus，S. Vish-wanathan和R. Garnett，编辑，《神经信息处理系统进展》30，第1141-1151页。Curran Associates，Inc. 2017年。[3] EirikurAgustsson ， MichaelTschannen ， FabianMentzer，Radu Timofte，and Luc Van Gool.用于极端学习图像压缩的生成对抗网络。arXiv预印本arXiv：1804.02958，2018。[4] JohannesBall e' ， ValeroLaparra ， andEeroPSimoncelli. 非线性变换码的端到端优化，以提高视觉质量。图片编码研讨会（PCS），2016年，第1-5页。IEEE，2016.[5] JohannesBall e'，ValeroLaparra，andEeroPSimoncelli. 端到端优化的图像压缩。arXiv预印本arXiv：1611.01704，2016。[6] JohannesBalle´ ， DavidMinnen ， SaurabhSingh ，SungJinHwang，and Nick Johnston.变分图像压缩与尺度超先验。在2018年国际学习代表会议上[7] Lukas Cavigelli ， Pascal Hager ， and Luca Benini. Cas-cnn：一种用于图像压缩伪影抑制的深度卷积神经网络。神经网络（IJCNN），2017年国际联合会议，第752-759页。IEEE，2017年。[8] 陈彤，刘豪杰，沈秋，陶月，曹勋，马占。Deepcoder：基于深度神经网络的视频压缩。2017 IEEEVisual Communications and Image Processing（VCIP），第1-4页[9] Yunpeng Chen，Jianan Li，Huaxin Xiao，Xiaojie Jin，Shuicheng Yan，and Jiashi Feng.双路径网络。神经信息处理系统进展，第4467-4475页，2017年[10] 蒂埃里·杜马斯，艾琳·鲁米，克里斯汀·吉尔莫.基于自动编码器的图像压缩：学习可以是量化独立的吗？arXiv预印本arXiv：1802.09371，2018。[11] Philipp Fischer，Alexey Dosovitskiy，Eddy Ilg，PhilipH¨usser ， CanerHazırbaså ， VladimirGolkov， PatrickVanderSmagt，Daniel Cremers，and Thomas Brox.Flownet：使用卷积网络学习光流arXiv预印本arXiv：1504.06852，2015年。[12] David Fleet和Yair Weiss。光流估计计算机视觉数学模型手册，第237-257页Springer，2006年。[13] Denis Fortun，Patrick Bouthemy，and Charles Kervrann.光学流动建模和计算：调查。计算机视觉和图像理解，134：1[14] KarolGregor ， FredericBesse ， DaniloJimenezRezende，Ivo Danihelka，and Daan Wierstra.对概念的压缩。In D. D.李，M。Sugiyama，U.卢克斯堡岛Guyon和R.Garnett，编辑，《神经信息处理系统进展》29，第3549Curran Asso- ciates，Inc.，2016年。[15] Karol Gregor和Yann LeCun。通过最大化压缩来学习表示2011年。[16] Jun Han，Salvator Lombardo，Christopher Schroers，andStephan Mandt.深度概率视频压缩。arXiv预印本arXiv：1810.02845，2018。[17] Xiaoyi He，Qiang Hu，Xintong Han，Xiaoyun Zhang，and Weiyao Lin.用分区屏蔽卷积神经网络增强hevc压缩视频。arXiv预印本arXiv：1805.03894，2018。[18] Berthold KP Horn和Brian G Schunck。确定光学流。Artificial intelligence，17（1-3）：185[19] Gao Huang ， Danlu Chen ， Tianhong Li ， Felix Wu ，Laurens van der Maaten，and Kilian Weinberger.多尺度密集网络用于资源有效的图像分类。在2018年国际学习代表会议[20] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。[21] 甩火、刘东、凤舞、李厚强。用于视频编码的基于卷积神经网络的运动补偿改进。电路与系统（ISCAS），2018年IEEE国际研讨会，第1-4页。IEEE，2018年。[22] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.Flownet2.0：深度网络光流估计的演变。[23] Nick Johnston 、 Damien Vincent 、 David Minnen 、Michele Covell、Saurabh Singh、

下载后可阅读完整内容，剩余1页未读，立即下载