文件标题：用于深度低复杂度视频压缩的在线训练上采样器

10 浏览量更新于2023-10-14 收藏 790KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7929用于深度低复杂度视频压缩的在线训练上采样器国立台湾大学kloppjp@gmail.com台湾人工智能实验室calvin89029@gmail.com国立台湾大学sychien@ntu.edu.twlgchen@ntu.edu.tw摘要用于图像和视频压缩的深度学习作为独立的技术和与现有编解码器的混合组合已经证明了有希望的结果。然而，这些系统仍然具有高计算成本。深度学习模型通常直接应用于像素空间，这使得它们在分辨率变大时变得昂贵在这项工作中，我们提出了一个在线训练的上采样器，以增强现有的编解码器。上采样器是在一组孤立的帧上训练的小型其参数被用信号通知给解码器。该混合解决方案具有仅10或100帧的小范围，并且允许编码侧和解码侧的低复杂度我们的算法工作在离线和零延迟设置。我们的评估采用了流行的x265编解码器的几个高分辨率数据集，从全高清到8K。我们证明了8.6%至27.5%的消融率节省，并提供消融研究以显示我们的设计决策的影响。与同类产品相比，我们的...方法表现良好。1. 介绍自从将深度学习引入图像和视频压缩以来，稳步的改进已经使学习算法的性能超过了许多常用的编解码器。然而，它们的原理类似于常规编解码器的原理。主要的算法驱动因素是模拟感受野内的分布，有时也是其邻居，以及两个连续图像之间的运动。大规模的视频语料库使学习必要的功能。另一方面，传统的编解码器是手动调谐的，并且使用逐块变换和预测以及运动估计。这项工作提出了一种方法来利用扩展的传统编解码器范围学习的编解码序列数据集在线训练的上采样器（本作品）100帧10帧若干帧单个帧阻止或接收领域学习转移Dist&.块变换帧级过滤器（光）流运动矢量机器学习手工调谐图1. 利用不同的范围。定性程度和关键方法，利用冗余在各种范围内的传统和学习编解码器。使用在线训练的上采样器的10s或100s的帧的范围。与深度学习压缩模型或深度去噪器相比，在线训练的设计具有计算费用可以保持较低的优点，特别是后两种可能需要100 K的操作为一个单一的像素，而我们添加不到600 op-erations到传统的编解码器，这反过来又需要只有几十个操作。与机器学习最常应用的方式相比，我们考虑的数据范围很小。然而，与常规编解码器通常处理的内容相比，它很大（参见图1B）。1用于定性概述）。请注意，某些数据也有例外，例如，一个7930具有很小变化的图像，其中第一图像与任何其他图像一样是最后图像的良好预测器。在这种情况下，编解码器将隐含地覆盖更广泛的范围。然而，这并不适用于显著的运动或演变的纹理，如粒子系统（水，烟，火）。我们使用一个传统的编解码器，以提供一个较低的分辨率信号的压缩，同时，我们提出的上采样器在一组帧上进行训练，以高效地重建高分辨率信号。然后，编码器将上采样器的参数用信号通知它们通常构成比特流的一小部分，因此对编码增益几乎没有影响。我们的实验涵盖了用于传统非交互式视频传输的离线设置和适用于交互式环境的零延迟设置。总之，我们提出一种用于结合内部特征和位置编码的在线训练的上采样器的新架构，证明了对常用的X265编解码器的显著改进，并进行广泛的消融研究，以显示我们提出的方法在不同编码设置下的比较。2. 相关工作2.1. 基于学习的压缩基于学习的压缩用来自深度学习域的可区别的等效物替换常规编解码器的每个阶段它们的优点是它们在概念上更直接，因为它们对信号统计的适应是学习的而不是手动设计的。他们为此付出了更高的复杂性，每像素的操作。早期的方法[39，40，3]只是基于图像，并且通过添加潜在预测策略变得更加复杂，以允许在更大的感受野中建模依赖性给定这些方法，添加可微分光流状运动估计模型可以实现简单的视频编解码器。更复杂的视频编码模型从显式运动补偿中抽象出来，并让模型决定从一个帧转发到下一个帧的状态中应该包含什么[37，6，23，1，44，22，33，24，11，31]。这些编解码器通常仅在两个连续帧上操作，从而使它们具有低延迟的优点。这种方法也可以被转移到传统的压缩，其中CNN被用来预测编解码器的压缩内部图像表示直接，从而利用加速器的可用性，同时仍然使用标准编解码器，这允许有效的解码[36，35，12]。学习的编解码器的方法是用来解决同样的问题，因为我们是。然而，没有直接重叠。我们的方法可以很容易地与基于学习的压缩技术相结合2.2. 基于学习的传统压缩增强传统的压缩可以通过使用离线训练的模型来增强机器学习，该离线训练的模型减少解码信号中的噪声。如引言中所述，这样的模型必须同时处理编解码器的非平稳噪声分布和自然图像统计，从而产生巨大的模型，例如[25，13，47，43]，具有超过200 K Op/像素。这种复杂性比我们的方法高出两到三个数量级。如引言中所述，这在实践中对于高分辨率视频变得难以实现。另一种有前途的方法是在编码时调整滤波器。Lam等人。[19，20]已经提出了使网络权重适应内容并将这些权重信号化的方法。他们的方法和我们的相似。然而，所采用的网络具有许多层，并且占用与离线训练的网络类似的大量计算。[16]在概念上更接近于我们，因为它们关注于非常低的复杂度和对解码器的信号权重。与我们的方法不同，他们使用的重构信号与前馈网络结构，实现较低的编码增益比所提出的算法。此外，它们不处理零延迟情况。最后，与这些方法不同，[34，7，38，17]已经提出了在编码之前应用的不同的预滤波技术，以在不改变解码器的情况下降低编码成本。3. 在线训练的上采样器我们的方法增强了现有的编解码器与上采样神经网络训练的一组连续的帧。这种策略具有明显的优势，即负责上采样过程的深度神经网络需要比必须处理所有可能内容的深度神经网络由于传统视频编解码器固有的复杂度已经很低，这种组合系统需要比端到端可区分卷积神经网络流水线或预先训练的去噪器更少的计算。在我们的设计中，神经网络承担的任务是对解码图像进行超分辨，而不是简单地对其进行降噪。这种做法背后有两个主要动机。首先，（传统的）编解码器难以以越来越高的分辨率···7931⇥⇥⇤t，x，y编码传输解码校正输出↓2编码器解码器解码器代码NN参数原始输入上采样器训练上采样器推断图2. 算法概述。我们的压缩算法的简化操作。传统的编解码器（蓝色框）被应用于下采样的信号，而神经网络（绿色框）负责恢复原始分辨率。它在编码时被训练，并且其参数与常规编解码器的代码一起被用信号发送。在解码时，首先调用常规解码器。上采样器获取解码信号并以原始分辨率计算最终输出。(see Ohm等人[29]关于这个问题的一些实验结果）。其次，因为传统的编解码器仅在1/4的像素上操作，所以存在减少编码时间的潜力，而去噪器将必然增加编码时间。去噪的主要障碍是歧义的解决。因此，我们的设计使用传统的编解码器在线训练的上采样器的目标是最小化率失真标准LRD=R+λD（1）在我们的情况下，速率R大部分是固定的，因为（二次采样的）源序列即使对于像全高清这样的较小分辨率，我们的方法的信令开销对于32帧的短片段（在60Hz下约0.5s）也小于0.0005bit/px。对于处于较高质量的大多数序列，这是小的开销。对于低比特率序列，我们将示出我们还可以拍摄更扩展的图片组，例如，128帧，并且仍然实现编码增益。此外，实验结果将表明，对于大多数序列和质量设置，额外的开销大多低于5%。因此，除了量化参数之外，我们在这项工作中不添加任何进一步的网络参数压缩。我们的算法的基本步骤如图2所示。对于实现细节，请考虑补充中的算法1。3.1. 网络架构我们的网络架构需要集成不同的信息源，并且具有低数量的参数和低数量的每个像素的操作。为了达到这个目标，我们选择使用下面移动网络分解为11卷积的想法表1.在推断期间单个像素或在训练期间批处理中单个像素的总计算复杂度（以MAC为单位）。F/W是指向前，BN是指BatchNorm（估计µ和σ），B/W是指向后，“Grad”是指“梯度”。到梯度计算。模式推理训练网络F/WF/W（Trn）BNB/W毕业。特征29.2531.1253.7526.2529.25位置173.50188.500 30.00 187.00 171.75降噪器329.00359.250 60.50 340.25 325.50Op/Pix531.75578.875 94.25 553.50 526.50操作/图像培训1753.125自己的一套参数。数据流如图3所示。特征网络fFeat处理内部特征zint（参见第2节）。3.3）。位置网络fPos将那些经处理的特征zEnc与经编码的位置pEnc-起（参见第2节）。3.2)以计算去噪器中的注意力机制的权重zΔ tt。去噪器fDenoise采用重构的YUV420输入（我们将U、V上采样到Y的大小）来计算上采样残差，该上采样残差被添加到双线性上尺度重构。所有网络的推理和训练的计算复杂度补充材料的表12、13和14中列出了详细的架构和复杂性。3.2. 位置编码我们建议提供位置信息作为一个额外的输入到上采样器，以减少歧义。一组图像中的像素的绝对位置具有时间（帧号）维度t和两个空间维度x和y。因此，位置张量ρAbs对于大小为H W的T个帧具有维度[T，3，H，W]。位置存储在第二轴中，如CNN十索的通道。每个条目等于其归一化索引（t，x，y）：pAbs[ t，x，y]=WH 不和3×3通道卷积。每个网络具有.7932✓-2L✓联系我们位置编码绝对像素位置（生成）Abs,EncCNN层特色网络特色Enc[...]位置网络位置降噪器降噪取消洗牌Concatenate属性内部产品特点Y乙状U↑2解码器YUV��1V↑2Hadamard+↑2校正输出图3. 神经网络工作原理三个网络分别处理重构的低分辨率序列x（1/2）、内部特征z int，以及编码的位置子p Enc.后两者用于计算在去噪器中使用的注意信号z Att。去噪器在低分辨率上操作，并且仅在最后一层处提供上采样的残差信号。每一层都是BatchNorm、卷积和ReLU（除了简单线性的输出层可以直接使用这些位置。然而，位置编码先前已被证明对自然语言处理模型是有益的（例如，参见[45，41，10]特别地，Vaswani et al.[41]使用了一个简单的三角编码，创建相量pEnc，i =sin（2cipAbs+$i）cos（2cipAbs+$i）（二）图4. 块位置编码。示例中有三个块（红色框），左侧为垂直坐标，右侧为水平对于不同的频率对ci和相位对si。这在机器翻译任务上表现得与Gehring等人的学习编码类似。[10]第10段。因此，我们采用三角编码，具有用于时间和空间坐标的不同频率ci在图像的上下文中，低频对应于在远离的位置（例如，图像的不同象限中的像素）。相反，高频率从一个像素到下一个像素改变编码。我们观察到，低频率提高了预测能力，而高频率导致相反的结果，在一些情况下，大大降低了性能。由于组合两个频率没有产生任何益处，因此我们选择5，0。25]表示时间坐标（帧号）且s=[0. 5，0。25，0。125]用于水平和垂直轴;阶段$被初始化为0。每个相量具有两个通道，导致对于pEnc总共4+ 6+ 6= 16个通道（详见补充中的算法5）。注意，这些通道中的每一个仅沿一个维度变化。在计算该维度之后，张量的剩余部分可以用副本填充因此复杂的-2D坐标是块内的相对位置。3.3. 特征生成如前一节所述，像位置这样的附加信号可以有益于误差预测性能，因为它们提供了区分模糊度的信息因此，我们添加相对位置和预测信息的基础上，除了编码的绝对位置信号的编解码器传统的编解码器根据块的层次结构来表示图像，控制像变换大小或运动补偿的参数。它们在解码器处容易获得，因为需要它们来重构图像。在我们的设置中，我们仅使用来自预测块的信息：每个预测块内的相对位置和运动矢量。每个块具有多达两个2D运动向量，给出z_int的前四个通道。我们将块的运动矢量复制到属于该块的所有点块内的相对位置通过以下方式生成每像素的光密度可以忽略。这些编码的位置与fea-bk，l=1 .一、0+2kK-2-1 0 +L-2◆（三）tureszEnc，其在下一节中描述并且用作计算注意力权重zAtt的位置网络fPos的输入。其中k=0、1、. ......、 K1和l=0、1、. ......、 L1是大小为K L的块内的水平和垂直坐标。此编码提供有关-1-1-1-1-1-1-1-1-1-1/31/31-1-1/31/31-5/7-5/7-5/7-5/7 -1/3-1/3-1/3-1/3-1-1/31/31-1-1/31/31-3/7-3/7-3/7-3/71/31/31/31/3-1-1/31/31-1-1/31/31-1/7-1/7-1/7-1/71111-1-1/31/31-1-1/31/311/71/71/71/7-1-1-1-1-1-1/31/31-1-1/31/313/73/73/73/7-1/3-1/3-1/3-1/3-1-1/31/31-1-1/31/315/75/75/75/71/31/31/31/3-1-1/31/31-1-1/31/3111111111-1-1/31/31-1-1/31/31◆7933InitG--当前块大小（两个相邻条目之间的图4给出了一个简单块设置的示例。b，k，l将两个以上声道添加到z，int，我们以解码器的重构分辨率的1 / 2对其进行采样（即，原始视频的1/4）。zint然后由4层特征网络fFeat（Tab.第12条补充）。3.4. 初始化预培训已经开发了像MAML [9]和REP-TILE [28]这样的元学习技术来改进迁移学习，其中在一个任务上学习的神经网络将适应于类似的任务。为了将这些技术转移到我们的设置中，我们将针对单个帧组的优化解释为适应，尽管我们的初始模型未被训练而是随机初始化。我们采用REPTILE [28]，因为它更容易实现，并实现类似于MAML [9]的结果。为了获得更好的初始化，我们从不同的序列中随机选择G组图片（不包括我们正在应用我们的算法的序列），并将我们的训练算法应用于几次迭代，每次开始。默认情况下，每组包括32帧，在第4.4节中评估更大的组。使用Adam [15]优化参数，学习率为0.01，权重衰减为0.0002。确切的量化过程在补充材料的算法3中描述。所有实验都在PyTorch [30]中实现，并使用相同的超参数（除非另有说明我们使用x265作为基本编解码器，因为它在实践中被广泛使用，并且是基于学习的编码文献的基线。除非指定，否则编解码器在veryslow设置中运行，并且根据所使用的评估度量将tune设置为psnr或ssim（尽可能接近MS-SSIM这确保了我们以最佳性能设置为基准4.2. 数据集我们将我们的方法应用于八个高分辨率数据集，分辨率从全高清到8K，帧速率从30到120Hz。这些数据集中的四个被视频压缩标准化委员会选择作为性能进展的其余4人分别为使用相同的初始参数✓0. 将合并的由研究人员或视频制作专业人员提供。然后对这些参数的变化进行平均，并更新初始参数：✓t=✓t-1+“1X（✓-✓t-1）（4）4.3. 测量PSNR和MS-SSIM [42]用作测量。如果除非另有指示，否则所有序列都被处理并且InitInitGg初始化G在YUV 4：2：0中测量。测量按通道进行。为了解释人类对其中，g是在更新几次迭代之后的最终参数向量，并且是Meta学习率。该过程重复多次迭代，每次迭代使用不同的数据（参见Alg.4在补充实施）。使用此程序有几个优点。我们不仅可以获得更高的增益和更快的收敛速度，但更重要的是，算法变得更加稳定。这一点很重要，因为优化过程始终使用相同的超参数，并且没有手动调整。自动调谐是可能的，但非常耗时。在实践中，我们的REPTILE的实现仅需要大约50次更新，每次更新是对特定图片组的更新的平均值，如等式（1）所示4.第一章我们使用Meta学习率“=0”。1在所有的实验中消融结果如图1D所示。5表明，几乎所有的数据集评估利润从这个简单的初始化方案。4. 实验结果4.1. 设置每个帧组被独立地优化，使得所提出的系统可以并行地应用于不同的场景。独立于数据集，每个组都针对以下方面1250次迭代，批次大小为48，来自目标序列的80 160像素（hw）的随机样本。亮度分量，通道被加权[6/8，1/8，1/8]如在视频编码中通常所做的那样。在聚合来自不同通道或帧的结果之前，使用MSSSSIM dB= 10 log10（1MSSSSIM）。为了对不同质量进行比较的客观测量，我们计算速率的Bjontegaard Delta [5]（即，在相同质量下节省了多少速率，以%计）以及对于质量测量（即，在相同速率下获得多少质量，单位为dB）。按照视频编码标准，我们在四个率失真权衡下执行测量，其中量化参数（QP）被设置为22、27、32和37。固定的QP偏移-5用于编码低分辨率视频信号在我们的算法。4.4. 离线和高延迟编码离线编码设置由视频点播和类似服务使用因此，这种设置是必不可少的，因为它被广泛用于通过互联网提供视频。表2列出了两种方法的速率节省和质量增益。两个最高分辨率的增益略低于其他数据集。一个原因可能是它们不同7934图5.消融在我们的模型中使用的不同技术的八个数据集。消融首先连续地移除预训练（Sec.3.4），然后是内部特征（Sec.3.3），最后是位置编码（Sec.3.2），使得仅剩下去噪器表2.通过PSNR和MS-SSIM在x265上测量的速率和失真的Bjontegaard增量，分别具有调谐psnr和ssim。负利率储蓄表明我们的方法重新-表3.我们的方法和[16]之间的比较。括号中的数字表示组中的帧数。我们[16个]需要更少的代码位来提供相同的质量。质测量单位为dB。复杂度531.75 Op/Pix488.75 Op/PixPSNRMSSSIM∆速率∆峰值信噪比∆速率∆峰值信噪比∆速率∆峰值信噪比∆速率∆MSSSIMCTC A（32） -13.6%+0.2954-9.1%+0.2541CTC A-13.6%+0.2954-9.0%+0.1399JVET A（32）-18.4%+0.4813-5.7%+0.1561JVET A-18.4%+0.4813-17.1%+0.4966简体中文（zh_cn）-27.5%+0.6632-5.0%+0.1667JVET 360 6K-9.0%+0.2451-12.3%+0.4034CTC A（128）-13.4%+0.2992-9.1%+0.2655JVET 360 8K-8.6%+0.1864-10.4%+0.3484JVET A（128）-19.6%+0.4983-6.3%+0.1735UVG UHD [26]-25.5%+0.6247-17.1%+0.3979中文（简体） -20.6%+0.6331-6.4%+0.1891UVG FHD [26]-16.3%+0.5156-13.0%+0.4277Xiphh UHD [8]-23.6%+0.4374-21.2%+0.4421Netflix-27.5%+0.6632-21.3%+0.4399在内容中，因为它们描绘了360°视频，其中帧的大部分被相对平坦的天空和地面纹理占据，这些纹理更容易编码，留下更少的改进空间。对于所有其他数据集，我们提出的方法传递13之间。6%和27。PSNR上5%的速率增益，即，最多可以节省四分之一的数据大小。对于MS-SSIM，除了两个360°序列集合之外，大多数数据集的增益略低尽管如此，我们仍然可以实现高达21.3%的利率节省，即，五分之一带宽减少。接下来，我们评估上一节中介绍的不同措施如何图5显示了完整模型的速率节省和PSNR增益，并且预训练、内部特征和位置编码一个接一个地被移除。在几乎所有的数据集上，无论是在速率降低还是质量提高方面，性能都显着下降同样，360°视频确实显示出略有不同的结果，这可能是特定于其内容。有趣的是，对于CTCA数据集，其中增益相对较低，为13.6%，即，对基本编解码器的改进是具有挑战性的，所提出的措施具有最大的影响。最后，我们与[16]的在线训练去噪器进行比较。他们的方法有一个更简单的网络架构比我们的更好，只使用编解码器的重建作为输入。我们使用7层20滤波器架构，其方法需要488.75 op/pixel（参见补充中的表15和16请注意，这是亮度和色度网络的复杂度（[16]有两个单独的网络）。表3示出了三个数据集和两个不同的帧组长度的结果。我们的算法在短帧组和长帧组中实现了更高的增益，特别是在UHD和4K-DCI数据集上。对于CTC A数据集，考虑到图1所示的消融研究结果。5、我们之所以跑赢大盘，是因为额外的投入和注意力机制。图6.在每组图片中可用于训练的帧数上的BDRate节省帧取自组的开始。组大小为32帧。7935--⇥我4.4.1概括我们稍微改变训练设置以评估泛化：我们仅提供前N个帧，而不是对帧组中的所有数据进行训练。评估仍然考虑所有帧。图6示出了每组32个帧的结果，128个帧的结果在图6中找到。第11话补充一旦少于前半部分可用，性能急剧下降，这表明在这种设置中，如果有足够的训练数据（相对的），则泛化是可能的。幅组编码解码G − 1群群g测试数据量）是可用的。我们将在下面描述的零延迟场景中利用此属性。4.4.2编码时间表4比较了我们的算法传入帧训练数据* − 3* − 2* -1 ** +1方法到JVET A UHD数据集上的原始x265。我们的方法的运行时间包含在低分辨率流上运行x265的时间。我们使用双Intel Xeon5680@3.33GHz，共24个核心和8G内存的NVidia 1080 GPU。我们的x265是最新的版本，锡永，包括汇编加速。对于一组32帧，我们的方法需要比基线更长的时间。如何以往，如上图所示，我们可以很容易地扩大到128帧没有太多的损失。在这种情况下，我们的方法减少了编码时间高达三分之一，其中编码增益通常是支付较长的编码时间。表4.针对JVET A UHD数据集的x265和我们的方法（包括低分辨率x265）的以秒/帧为单位的编码持续时间。正节省表明我们的算法需要更多的时间，负节省表明我们与x265相比节省了时间。括号中的数字是帧组长度。QPX265我们的（32）储蓄我们的（128）储蓄22 1.68秒2.40s42.36%1.11s-34.15%27 1.24秒2.23s79.79%0.94s-24.33%32 1.00秒2.10s110.48%0.81秒-18.60%37 0.82秒2.01s144.92%0.72s-12.02%4.5. 零延时利用前面部分利用泛化，我们改变我们的算法来训练帧，而它们是零延迟编码和发送的传统编解码器。如图7（顶部），我们将训练和测试数据分开：编码器在数据到达时进行训练，解码器使用先前用信号通知的参数。为了模拟真实的场景，我们使帧仅连续地可用于训练算法（见图2）。7、底部）：我们山姆图7.顶部：通过分离训练和测试数据实现的零延迟编码底部：一旦新帧变得可用，训练数据就被连续地扩展，直到到达帧组的末尾。表5.零延迟条件下不同信令频率的速率节省。信号频率81632CTC A-7.9%-11.5%-8.5%JVET A-12.0%-11.6%-10.8%Netflix-17.2%-14.3%-8.6%编码器在组g上训练参数✓g，解码器使用✓g-1组。对于我们的实验，基本编解码器使用bframes=0切换到零延迟模式，这在其他工作中是常见的。因为该零延迟场景对时间更加关键，所以我们将每个帧组的迭代次数减少到200，将批次大小减少到40，并且将补丁大小减少到72 144。表5示出了N=8、16、32的结果。虽然我们的算法只适用于看不见的数据，它仍然可以实现显着的速率增益。这指示在大组帧上的联合优化不一定限于离线处理。要为不同的编码方法划分领域，Fig.图8显示了我们的算法（N=16帧）、x265基线和两个最先进的学习视频编解码器。如上所述，我们的编解码器优于x265，它甚至将介质提升到非常慢的设置，以实现低比特率。注意我们的算法负责提供输出数据的3/4，这使得这种改进不是微不足道的。学习的编解码器仍然需要更高的比特率。然而，用我们的方法来推进从第一个iN开始重复面片第i个迭代他们也是。其中，N和I是帧的总数，并且总迭代。而关于编码成本，因为我们的网络收敛非常快，所以我们的编码复杂度最多为......%s%s%s（培训%&%'（Appl y%’）Appl y%'（%&7936图8. UVG FHD数据集上的率失真特性，将我们算法的零延迟版本与x265（在中等和非常慢的设置中）和[31，11，1，24]进行比较，所有这些都使用端到端深度学习的视频编解码器。编码在没有色度二次采样的情况下发生（即，在YUV4：4：4中），并且在RGB颜色空间中测量PSNR以进行公平比较。注意，我们添加了QP=15的第五个数据点。表6. Op/Pix中的编码复杂度计算为训练像素除以帧组中的总像素乘以来自Tab. 1.在高分辨率/32帧的情况下，我们的模型的编码和解码的复杂度几乎匹配。方法信令频率81632UVG FHD876643832192我们的CTC A（WQXGA）443822191110JVET A（UHD）21921096548Netflix（4K）20451023512Agustsson等人[1]>140000Lu等人[24]>100000表7.我们的方法的网络参数大小相对于编码大小（包括参数）。零延时线下序列172273217222732美容百分之三百分之八百分之十五百分之二十五百分之三百分之五百分之九百分之十四博斯普鲁斯百分之三占6%百分之十三百分之二十六百分之二百分之四百分之八百分之十四蜜蜂百分之十百分之二十四百分之三十六百分之四十五百分之三百分之五百分之八百分之十一赛马百分之三占6%百分之十一百分之十七百分之二百分之四占6%百分之十ReadySetGo 百分之一百分之二百分之四百分之八百分之一百分之二百分之三百分之四振动干燥百分之一百分之四百分之十一百分之二十四百分之一百分之二百分之五百分之八游艇骑行百分之一百分之二百分之四百分之十百分之一百分之一百分之三占7%平均百分之三百分之八百分之十三百分之二十二百分之二百分之三占6%百分之十我们的算法通常导致更多的失真减少。在未来，更短的比特深度和熵编码可以帮助进一步降低份额。最后图图9示出了我们的编码改进在很大程度上独立于速率和质量，即，这里获得的增益不是由于偏斜的测试数据分布，并且在实践中也可能实现。仅比我们的解码复杂度高一个阶，如表1所示。6.此外，底层的x265编解码器仅对1/4的像素负责，从而允许更快的编码。5. 讨论除了编码增益之外，我们的方法面临两个关键问题：编码复杂度和信令开销。节中4.5我们表明，所得到的编7937码复杂度不需要高得不可行。计时结果来自Sec. 4.4.2支持这个。除此之外，SEC。7.1证明了我们的方法收敛很快，即，可以在对编码增益几乎没有影响的情况下加速编码。信令开销隐含地包括在上面报告的测量中。然而，这是我们设计的一个关键方面，应该进行调查。选项卡.图7列出了在零延迟和离线设置中网络参数在当质量较低或序列具有很少的动态（例如，动态）时，份额变得显著。“HoneyBee”）。但是，较低的素质有更大的提升空间，意义图9.QP处速率节省在速率和失真上的分布22.节省由每个斑点的半径指示。6. 结论在这项工作中，我们已经为传统的编解码器引入了一种基于超分辨率的在线训练增强方法，与预训练或深度学习方法相比，该方法具有较低的计算开销。我们的评估表明，与x265相比，在各种数据集上节省了速率，并且可以缩短编码时间。在未来，一个简单的改进是添加参数压缩方法，以降低我们的方法的信令开销。此外，甚至更好的网络架构或优化技术可以进一步增加所提出的方法的编码增益，建立用于混合常规深度学习编解码器的路径。另一方面，我们的算法如何与学习的编解码器相结合，以更低的成本为高分辨率提供更好的性能，这也是很有趣的。7938引用[1] Eirikur Agustsson ， David Minnen ， Nick Johnston ，Johannes Ball e'，SungJinHang，andGeo r geToderici. 用于端到端优化视频压缩的尺度空间Proceedings of the IEEEComputer Society Conference on Computer Vision andPattern Recognition，第8500-8509页[2] 约翰内斯·鲍尔，尼克·约翰斯顿，和D a vidMinnen。用潜变量模型进行数据压缩的集成在国际会议上学习代表，2019年。[3] JohannesBal le´、ValeroLaparra和EeroP. 西蒙切利端到端优化图像压缩。ICLR，2017年。[4] JohannesBalle´ ， DavidMinnen ， SaurabhSingh ，SungJinHwang，and Nick Johnston.基于尺度超先验的变分图像压缩。2018年学习表征国际会议[5] G·比约恩特加德计算RD曲线之间的平均PSNR差异。ITU-T SG16/Q6。技术报告，ITU- T SG 16/Q6，美国德克萨斯州奥斯汀，2001年。[6] 郑学成、孙鹤鸣、Masaru Takeuchi和Jiro Katto。通过时空能量压缩学习图像和视频压缩。arXiv，第10071-10080页[7] 崔振英和韩宝亨任务感知量化网络在JPEG图像压缩中的应用。在欧洲计算机视觉会议上，2020。[8] 德夫Xiph.org：：Derf[9] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。第34届机器学习国际会议，ICML 2017，3：1856[10] Jonas Gehring ， Michael Auli， David Grangier ， DenisYarats，and Yann N.太子卷积序列到序列学习。第34届国际机器学习会议论文集，2017年。[11] 胡志豪，郭璐，徐东。FVC：一种新的特征空间深度视频压缩框架。第1502-1511页[12] Yan Huang，Li Song，and Ebroul Izquierdo. CNN加速的帧内视频编码，上界在哪里？2019年图片编码研讨会，PCS 2019，第1-5页。IEEE，2019。[13] Chuanmin Jia， Shiqi Wang ，Xinfeng Zhang，ShansheWang，Jiaying Liu，Shiliang Pu，and Siwei Ma.内容感知卷积神经网络用于高效视频编码中的环路滤波IEEETransactions on Image Processing，第1-1页[14] Nick Johnston 、 Damien Vincent 、 David Minnen 、Michele Covell、Saurabh Singh、Troy Chinen、Sung JinHwang、Joel Shor和George Toderici。改进的有耗图像压缩与启动和空间自适应比特率的递归网络。计算机视觉与模式识别，2017年。[15] Diederik P. Kingma和Jimmy Lei Ba。亚当：一种随机优化方法。2015年学习表征国际会议，第1-15页[16] Jan P. Klopp、Liang-Gee Chen和Shao-Yi Chien。利用低复杂度 CNN 来提升视频编码中的非局部 IEEETransactions on Image Processing，第1-1页[17] Jan P. Klopp ， Keng-Chi Liu ， Liang-Gee Chen ， andShao-Yi Chien.如何利用学习图像压缩到传统编解码器的可转移性。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第16165-16174页[18] Jan P Klopp、Yu-chiang Frank Wang和Liang-gee Chen。利用图像内相关性学习码空间预测器在英国机器视觉会议上，第1-12页[19] Yat Hong Lam ， Alireza Zare ， Caglar Aytekin ，Francesco Cricri，Jani Lainema，Emre Aksu，and MiskaHannuksela.压缩图像伪影去除神经网络的权重更新。在计算机视觉和模式识别研讨会，2019年。[20] Yat-Hong Lam ， Alireza Zare ， Francesco Cricri ， JaniLainema，and Miska Hannuksela.用于视频压缩的神经网络滤波器在ACM多媒体，2020年。[21] Haojie Liu，Tong Chen，Peiyao Guo，Qiu Shen，andZhan Ma.用于深度图像压缩的具有嵌入先验的门控上下文模型。2019年2月[22] Jerry Liu，Shenlong Wang，Wei-Chiu Ma，Meet Shah，Rui Hu，Pranaab Dhawan，and Raquel Urtasun.用于高效视频压缩的条件熵编码。2020年。[23] Guo Lu，Chunlei Cai，Xiaoyun Zhang，Li Chen，WanliOuyang，Dong Xu，and Zhiyong Gao.内容自适应和错误传播感知的深度视频压缩。计算机科学讲义（包括人工智能子系列，12347 LNCS：456[24] Guo Lu，Wanli Ouyang，Dong Xu，Xiaoyun Zhang，Chunlei Cai，and Zhiyong Gao.DVC：端到端深度视频压缩框架。在计算机视觉和模式识别，2019年11月。[25] Di Ma ， Fan Zhang ， and David R. Bull. Videocompression with low complexity CNN based spatialresolution adapta- tion. 2020年。[26] Alexandre Mercat，Marko Viitanen和Jarno Vanne。UVG数据集：50/120 fps 4K序列，用于视频编解码器分析和开发。在MMSys 2020 - 2020年多媒体系统会议论文集，2020年。[27] D a vidMinnen，JohannesBal le´，andGeo r geToderici. 联合自回归和分层先验的学习图像压缩。在神经信息处理系统中，第10771-10780页[28] Alex Nichol，Joshua Achiam，and John Schulman.关于一阶元学习算法。第1-15页[29] 放大图片作者： Jens Rainer Ohm Sullivan ， HeikoSchwarz，Thiow Keng Tan，and Thomas Wiegand.视频编码标准的编码效率比较 - 包括高效视频编码（HEVC）。IEEE Transactions on Circuits and Systemsfor Video Technology，2012。[30] Adam Paszke，Sam Gross，Soumith Chintala，GregoryChanan，Edward Yang，Zachary DeVito，Zeming Lin，Alban7939Desmaison，Luca Antiga，and Adam Lerer. PyTorch中的自动区分。在NIPS Autodiff研讨会，2017年。[31] 放大图片作者： Ale

下载后可阅读完整内容，剩余1页未读，立即下载