视频缩放的自适应概率学习

187 浏览量更新于2023-10-13 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4490视频缩放的自适应概率学习袁天1郭璐2熊阔敏1车朝晖1翟广涛1 *郭国栋3高志勇11上海交通大学2北京理工大学3百度{ee tianyuan，minxiongkuo，chezhaohui，zhaiguangtao，zhiyong.gao}@ sjtu.edu.cnguo.lu @ bit.edu.cnguoguodong01@baidu.com摘要双三次降尺度是一种流行的技术，用于减少视频存储负担或加快下游处理速度。然而，逆放大步骤是不平凡的，并且缩小的视频也可能降低下游任务的性能在本文中，我们提出了一个自调节的概率框架，视频重新缩放学习配对的缩小和放大的程序同时进行在训练过程中，我们通过最大化其概率条件下的强大的空间-时间先验信息内的缩小的视频，减少在缩小的熵的信息丢失。在优化之后，通过我们的框架的缩减的视频保留了更多有意义的信息，这对于放大步骤和下游任务都是有益的视频动作识别任务我们进一步扩展的框架，有损视频压缩系统，其中提出了一个梯度估计的非差分大量的实验结果表明，我们的方法在视频缩放，视频压缩和高效的动作识别任务的优越性。1. 介绍高分辨率视频广泛用于各种计算机视觉任务[44][62][7][35][33][50][64]。然而，考虑到增加的存储负担或高计算成本，通常需要首先缩减高分辨率视频。然后，我们可以压缩输出的低分辨率视频以节省存储成本，或者将它们馈送到下游任务以减少计算成本。尽管这种范例是普遍的，但它具有以下两个缺点。首先，从（压缩的）低分辨率视频恢复原始高分辨率视频是不平凡的，即使我们使用最新的超分辨率方法[30，63，48，57]。其次，基于这些低分辨率视频实现高性能对于下游任务也是一个挑战。因此，我们认为，*通讯作者。这就提出了一个问题，即缩减操作是否能够促进高分辨率视频的重建并且还保留最有意义的信息。最近，这个问题已经被部分研究为单个图像重新缩放问题[24，27，47，60]，其联合学习向下/向上缩放算子。然而，如何将这些方法从图像应用到视频领域，并充分利用视频中丰富的时间信息仍然是一个悬而未决的问题。更重要的是，在降尺度过程中对丢失的信息进行建模是不平凡的。当前- t方法要么忽略丢失的信息[24，27，47] 或者假设它是潜在空间中的独立分布[60]，而忽略缩小的图像和丢失的信息之间的内部关系。此外，上述所有文献都没有探索如何将重新缩放技术应用于有损图像/视频压缩。在本文中，我们专注于建立一个视频resscaling框架，并提出了一个自适应的概率学习方法来学习一对视频缩放和放大运营商，通过利用视频本身的信息依赖性。具体来说，我们首先设计了一个可学习的频率分析器，将原始的高分辨率视频分解成其缩小的版本和相应的高频分量。然后，利用高斯混合分布来通过调节缩小的视频来对高频分量进行建模。为了准确估计分布参数，我们进一步引入局部和全局时间聚合模块来融合来自相邻降尺度视频帧的空间信息。最后，可以通过频率合成器从降尺度视频和从分布采样的高频分量恢复原始视频。我们将上述组件集成为称为SelfC的新型自调节视频缩放框架，并通过最小化分布的负对数似然来优化它。此外，我们将我们提出的SelfC应用于两个实际应用中，即。有损视频压缩和视频动作识别。特别地，为了将我们的框架与现有的非差分视频编解码器（例如，、4491·|LKKKK2小时WH.264 [59]和H.265 [46]），我们提出了一种基于控制变量方法的高效和有效的一遍优化策略，并在反向传播过程中近似传统编解码器的梯度，从而形成端到端优化系统。实验结果表明，该框架实现了国家的最先进的视频缩放任务的性能。更重要的是，我们进一步证明了该框架在实际应用中的有效性。对于有损视频压缩任务，与直接压缩高分辨率视频相比，基于我们的SelfC框架的视频压缩系统大大降低了存储成本（高达50%的减少）。对于视频动作识别任务，我们的框架减少了60%以上的计算复杂度与negli- gible性能下降。总之，我们的主要贡献包括：我们提出了一个概率学习框架称为SelfC的视频缩放任务，模型在缩小的视频作为一个动态的分布条件下的降尺度过程中丢失的信息我们的方法利用丰富的时间信息，在缩小的视频的分布参数的准确估计，通过引入指定的本地和全球的时间聚合模块。本文提出了一种基于控制变量法和蒙特卡罗采样技术的非差分有损编码器的梯度估计方法，并将该框架扩展到视频压缩系统中。2. 相关工作缩小后的视频放大。先前的SR工作[30，63，48，57，17，23]主要利用重神经网络来使在缩减期间丢失的细节产生幻觉，仅实现不令人满意的结果。考虑视频缩小方法可以帮助缓解视频放大过程的不适定性。已经有一些作品在单图像缩放任务遵循这种精神。比如说，Kim等人[24]提出了一种基于自动编码器框架的任务感知降尺度模型。Li等[27]建议使用神经网络来估计给定超分辨率方法的缩小的低分辨率图像。Yang等[65]提出了一种基于超像素的下采样/上采样方案，以有效地保留对象边界。最近，Xiaoet al.[60]提出利用深度可逆神经网络（INN）来对问题进行建模，该网络将丢失信息的复杂分布映射到独立且固定的正态分布。然而，这些方法既没有利用相邻帧之间的时间信息，这对于视频相关的任务是重要的，也没有考虑自然图像或视频中不同频率的是有条件依赖的[53，45，38，54]。视频压缩。已经提出并广泛部署了几种传统的视频压缩算法，例如H.264 [59]和H.265 [46]。它们中的大多数遵循预测编码架构，并且依赖于复杂的手工制作的变换来分析视频内的冗余。最近，已经通过优化速率失真折衷提出了完全端到端视频编解码器 [32][15][6][66][2][29][31][19][34]。它们展示了有前途的性能，并可能通过在野外提供更多无处不在的视频来进一步改进。然而，由于计算效率低，它们并没有被工业界广泛使用。相比之下，我们的框架可以很容易地与最好的传统视频编解码器集成，并进一步节省视频存储空间显着。视频动作识别。Simonyan等人[44]首先提出了两个流框架。 Feichtenhofer等”[9]于是，他就改进了。后来，王等。[56]提出了一种新的稀疏帧采样策略。最近，3D网络[51][5][16][52][39][8][49]也显示出有希望的性能。我们的工作可以将现成的动作CNN加速3-4倍，同时保留相当的性能。我们主要在轻量级2D动作CNN（例如，，TSM [28]）以获得效率。3. 该方法我们提出的SelfC框架的概述如图所示。第1（a）段。在降尺度过程期间，给定高分辨率（HR）视频，频率分析器（FA）（第3.1节）首先将其转换成视频特征f，其中前3个通道是低频（LF）分量fl，最后3k2个通道是高频（HF）分量fh，并且k是降尺度比。然后，将fl量化为LR视频xl以用于存储。在该过程中丢弃在放大过程期间，给定LR视频xl，时空先验网络（STP-Net）（第3.3节）预测HF分量fh的概率密度函数：p（f h|xl）= STP-Net（xl）。（一）我们将p（fhxl）建模为参数高斯分布的连续混合（3.2节）.然后，从该分布中得出与LR视频xl相关的HF分量fh的情况最后，我们通过频率合成器（FS）从HF分量fh和LR视频xl的级联重构HR视频3.1. 频率分析仪和频率合成器如图在图1（b）中，我们首先将HR输入视频x分解为k倍缩小的低频分量。元素c：=Down（x）∈Rt×3×h×w和残余高频分量ch：=PixelUnshuffle（x-Up（cl））∈Rt×3·k× ×，其中h×w表示图像的空间尺度。···4492视频功能f输入视频降尺度LF fl组件QuantHF F调节H组件丢弃XL存储介质重构视频视频功能fLR视频xlSTP-NetfhHF详细信息fhˆHF密度p（f h|xUpscaling双三下来Clxt3wh像素解混洗concatChDense2D-TDense2D-TYK||w k p g（f h（o）|µ k，eσo），（3）g√πσ-−(a) 框架（b）分析器...（c）合成器...fT51W HfT51WHDense2D-Tclsplitch双立方向上像素洗牌xt3wh图1：SelfC框架概述。我们利用输入视频中不同频率分量之间的条件关系，以更好地学习视频缩放。在缩减期间，低频（LF）分量fl被量化以产生低分辨率（LR）视频xl，然后被存储。对于不同的应用，存储介质可以是无损的在升尺度期间，概率密度p（f h|x l）的高频（HF）分量f h由时空先验网络（STP-Net）从Xl预测。然后，重建xl和采样的HF细节通过频率合成器转换成高分辨率视频。我们还引入了一些新的符号，W=w/k，H=h/k和T=t，以更好地指示张量维数。Conv 1/SCv 3/TConv 3表示核大小的3D卷积1×1×1/1×3×3/3×1×1。LReLU表示泄漏-ReLU非线性[61]。原始视频，并且t表示视频长度。Down和Up表示具有缩放比k的双三次缩小和放大操作。PixelUnshuffle是[43]中提出的像素混洗操作的逆操作，其中缩放比也是k。然后，我们使用一个可学习的将cl和ch变换为输出特征的操作Tp（f h|f（l）=p（f（o））|（1）、（2）O其中0表示空间-时间位置。我们使用连续高斯混合模型（GMM）[40]来逼近具有分量数K=5的p。分布由可学习的混合权重wk定义，f：=T（clcch），其中c表示信道级联。意味Ok和对数方差k操作。所产生的视频特征f由μo组成σo。使用这些参数，LF分量fl和HF分量fh。在我们的框架中，T的网络体系结构非常灵活，我们分布可以精确地确定为：Σkdefault.通过用时间卷积替换最后的空间卷积，从普通Dense 2D块[20频率合成器的结构是对称的哪里Ok=1p（f |µ，σ2）=1 eO（fµ）2σ2。（四）与分析仪，如图所示。第1段（c）分段。具体地，我们使用通道分裂、双三次放大和像素混洗操作来基于重构的视频特征合成最终的高分辨率视频。3.2. 一种自适应概率模型直接优化方程中的p（fh xl）（1）由于量化模块的不平滑梯度[24]，通过梯度下降是不稳定的因此，我们在训练过程中优化p（f h f l）。具体地，我们将高频分量fh表示为以低频分量fl为条件的连续多模态概率分布，其被公式化为：3.3. 时空先验网络如图参考图1（d），为了估计上述分布的参数，我们提出了STP-Net来对缩小视频内的局部和全局时间信息进行建模。我们首先利用Dense 2D-T块提取每个输入帧的短期时空特征。在该阶段中，仅使用来自局部帧的信息，即前一帧或后一帧被聚集到当前帧中，而忽略视频中的时间上的长范围依赖性。因此，我们进一步引入了用于建模全局时间信息的注意机制。更具体地，首先降低短期时空特征(d)STP-NetXLDense 2D-T（局部建模）Dense2D-T空间聚合器...6...SCv3LReLU注意力发生器W·H·64 TTTT重塑重塑相似性得分SCv3LReLUT不 W H720SCv3LReLU3层MLP GMM参数空间聚合器W H 64WH W HWH平均池323232323232FC层（1024 1）64注意力发生器...T 64线性线性重塑T 6464 TSCv3LReLUTConv3LReLUSoftmaxTT...Dense2D-T分析仪合成器采样Conv1全局建模使用多个堆叠的Dense 2D-T块来实现p（f）h（o）|f（l）=4493×N2H不L通过空间聚合器，其被实现为平均池化操作，随后是全连接（FC）层。池化操作的输出规模为32 32。然后，我们使用点生成操作来生成注意图，它表示每两个帧之间的相似性得分最后，我们细化的局部时空特征的相似性分数的基础上。我们重复以下过程六次以提取更好的视频特征。在此之后，一个三层的多层感知器（MLP）被用来估计的GMM分布的参数3.4. 量化和储存介质我们使用舍入操作作为量化模块，并以无损格式存储输出的 LR视频，即。、H.265 无损模式模块的梯度由直通估计器[3]计算。我们还讨论了如何使框架适应更实际的有损视频格式，如H.264和H.265在第3.6节。3.5. 培训战略构建学习的视频重新缩放框架是不平凡的，特别是所生成的低分辨率视频被期望有益于升级过程和下游任务两者。我们考虑以下目标。学习自适应概率。首先，为了确保STP-Net可以获得HF分量f h的准确估计，我们直接最小化p（f h）的负对数似然|fl）在等式（二）：Lc=−Σlo g（p（fi|（fi））、（5）i=0时其中L表示光度量损失（i. e. ，llloss），则表示信道级级联操作。在每次训练迭代中，fh从由STP-Net输出的参数构造的分布中采样，条件为在LR视频上，为了实现端到端的优化，我们应用总损耗则由下式给出：其中，λ1、λ2、λ3和λ4是平衡参数，并且k是缩放比。我们框架的损失函数可能有点复杂然而，我们要提到的是，我们的框架的性能对这些超参数并不敏感，并且直接将所有参数设置为1已经实现了合理的性能。3.6. 应用I：视频压缩在本节中，我们将所提出的SelfC框架扩展到有损视频压缩系统，其旨在证明我们的方法在减少视频存储空间方面的有效性。整个系统如图所示。二、具体地，我们首先使用SelfC来生成缩小的视频xl，其将通过使用现成的工业视频编解码器来压缩，例如，265编解码器。然后，在解码器侧，压缩视频将被解压缩并放大到全分辨率视频。考虑到传统的视频编解码器是不可差分的，我们进一步提出了一种新的优化策略.具体地说，我们引入了一个可微代理视频扰动器Φ，其被实现为深度神经网络其中N是训练样本的数量。模仿双三次降尺度。然后，缩减的视频优选地类似于原始视频，使得其用于下游任务的部署更容易。因此，我们在量化之前正则化缩减的视频，即，f1，以模仿双三次下采样的x：L模拟= ||xbicubic − fl||2，xbicubic = Bicubic（x）.（六）惩罚。没有任何额外的限制，Eq。可以通过针对任何输入视频将fh调谐到一个恒定张量来容易地最小化因此，为了避免琐碎的解决方案，频率分析器和合成器的CN-N部分被光参量损耗（即，，l2损失）之间的关系：DNN网络由6个Dense 2D-T块组成。在反向传播阶段期间，编解码器的梯度可以近似为Φ的梯度，这是易于处理的。在测试阶段，替代DNN被移除，我们直接使用H.265编解码器进行压缩和解压缩。根据控制变量理论[11，13]，Φ可以是用于视频编解码器的低方差梯度估计器（即， η）时，（1）两个函数的输出之间的差被最小化，以及（2）两个输出分布的相关系数ρ被最大化。因此，我们将这两个约束引入到所提出的基于SelfC的视频压缩系统的优化过程替代视频L笔=||x−FS（f）||二、（七）最小化重建差异。最后，从模型采样的重构视频与原始视频之间的预期差异应当被最小化：Lrecons=l（x，x），x=FS（xlcfh），（8）向前（训练）向前（测试）向后图2：我们引入了替代DNN来计算非差分编解码器的梯度。我们以H.265编解码器为例。DNNφH.265编解码器ηφ（xl）L编解码器下来缩放XLH.265 Enc H.265 Decη（xl）起来缩放4494×√ΣL√ΣL×k=1l l扰动器被公式化为：L编解码器=||η（xl）−φ（xl）||2−λρρ（η，φ），（10）其中λ ρ被设置为小值，即，10−5，并且ρ在每个批次内通过Monte Carlo抽样进行估计：ΣN （η（xk）−E[η]）（φ（xk）−E[φ]）4.2.实现细节视频缩放。 λ1、λ2、λ3和λ4分别设为0.01、1、分别为1和1。λ1在最后200K次迭代中衰减到0。每个训练剪辑由大小为224 - 224的7个连续RGB块组成批量大小设置为8。我们用随机水平翻转和90度旋转来增加训练数据我们用Adam optimizer [25]训练我们的模型ρ（η，φ）=Nk=1（η（xk）−E[η]）2Nk=1、（φ（xk）−E[φ]）2设置β1as 0.9，β2为0.999，学习率为10- 4。的哪里N（十一）N总的训练迭代次数约为400K。学习每100K次迭代速率除以2。我们使用PyTorch框架[37]实现模型并训练它们E[η]=1η（xk），E[φ]=1φ（xk），（12）NVIDIA 2080Ti GPU 我们从Nlk=1Nlk=1生成每个评估的分布，并报告平均性能。我们利用可逆神经网络-并且N表示批量大小。请注意，ρ分别为com-在每个空间-时间位置上放置，然后平均。最后，基于SelfC的视频压缩系统的总损失函数由下式给出：其中λcodec是平衡权重。3.7.应用二：高效动作识别我们进一步将建议的SelfC框架应用于视频动作识别任务。具体而言，我们采用LR视频（即，xl）作为动作识别CNN的输入，用于有效的动作识别。考虑到我们的方法的降尺度器可以为下游任务保留有意义的信息，并且其本身的复杂度可以相当低，在现成的动作CNN之前插入降尺度器可以降低它们的巨大计算复杂度，而性能下降可以忽略不计。此外，轻量级的重新缩放框架，使联合优化易于处理。事实上，与双三次降尺度操作相比，即使没有联合训练过程，我们在SelfC框架中的降尺度器仍然可以为动作识别任务生成更多信息的低分辨率视频。更多实验结果请参见第4.54. 实验4.1. 数据集我们使用Vimeo90K数据集[63]中的视频作为我们的训练数据，最近的视频超分辨率方法[21，22，57]和可学习的视频压缩方法[32，18，31]也采用了这些数据。对于视频缩放任务，评估数据集是Vimeo 90 K的测试集（由Vimeo 90 K-T表示），广泛使用的Vid 4基准[30]和SPMCs-30数据集[48]。对于视频压缩任务，评估数据集包括UVG [1]、MCL-JCV [55]和HEVC B类[46]，其包含分辨率为1920 1080的高质量视频对于视频识别任务，我们在两个需要时间关系推理的大规模数据集上训练和评估它，即。，Something V1 V2 [12][36].4495--工作（INN）架构来实现成对的频率分析器和合成器的CNN部分，我们提出以下两个模型：SelfC-小和SelfC-大，其由2个和8个可逆的Dense 2D-T块组成。可逆式建筑”[60]。训练SelfC-大型模型需要大约6天。视频压缩。SelfC的重新缩放比率被设置为2。265作为嵌入式编解码器。λ4被设置为0.1，以确保缩小的视频的统计分布更接近自然图像，这稳定了整个系统的性能λ编解码器是根据经验设定为4。 H.265编解码器的CRF值在训练期间从11、13、17、21中随机选择，而在评估期间将其设置为固定值。输入视频剪辑长度设置为3。其他细节遵循视频重新缩放任务。模型从SelfC-大模型初始化，但是可逆的Dense 2D-T块的数量减少到4。代理CNN被随机初始化，并且与SelfC的其他组件在线联合优化。训练模型需要大约5天的时间。动作识别。我们在动作识别CNN之前插入我们的框架的降尺度器，即，TSM [28].数据增强管道也遵循它。SelfC的降尺度比为2。在推理时，我们每个视频只使用1个剪辑，每个剪辑包含8帧。我们采用2个普通的Dense 2D-T块作为频率分析仪的CNN部分请注意，缩减器首先在Vimeo90K数据集上进行了重新缩放任务的预训练。4.3. 视频重新缩放如Tab.所示。1和Tab。2.在PSNR和SSIM两个方面，我们的方法在Vid 4、SPMCs-30和Vimeo 90 K-T上都大大优于最近最先进的视频超分辨率方法。例如，我们的SelfC-large模型在Vid 4数据集上的结果是32.85dB，而最先进的视频超分辨率方法RSDN仅达到27.92dB。此外，我们还提供了图像重新缩放方法的结果，即。，IRN，在4496∼ ××Groundtruth TOFlow DUF EDVR IRN Ours图3：4×缩小日历剪辑重建的定性比较最好通过放大来查看。降尺度Upscaling#框架FLOPs #参数。日历-Y城市-Y叶-YWalk-Y平均-Y平均RGB双三双三1N/AN/A18.83/0.4936 23.84/0.5234 21.52/0.4438 23.01/0.7096 21.80/0.542620.37/0.5106双三SPMC [48]3---/--/--/--/-25.52/0.76-/-双三刘[30]5--21.61/-26.29/-24.99/-28.06/-25.23/--/-双三TOFlow [63]70.81T1.41M22.29/0.7273 26.79/0.7446 25.31/0.7118 29.02/0.8799 25.85/0.765924.39/0.7438双三FRVSR [42]20.14T5.05M22.67/0.7844 27.70/0.8063 25.83/0.7541 29.72/0.8971 26.48/0.810425.01/0.7917双三[23]第二十三话70.62T5.82M24.17/0.8161 28.05/0.8235 26.42/0.7758 30.91/0.9165 27.38/0.832925.91/0.8166双三RBN [17]79.30T12.2M24.02/0.8088 27.83/0.8045 26.21/0.7579 30.62/0.9111 27.17/0.820525.65/0.7997双三EDVR-L [57]70.93T20.6M24.05/0.8147 28.00/0.8122 26.34/0.7635 31.02/0.9152 27.35/0.826425.83/0.8077双三[67]70.70T3.00M23.56/0.8232 28.11/0.8366 26.42/0.7761 30.55/0.9103 27.16/0.836525.67/0.8189双三RLSP [10]30.09T4.21M24.36/0.8235 28.22/0.8362 26.66/0.7821 30.71/0.9134 27.48/0.838825.69/0.8153双三TGA [22]70.23T5.87M24.50/0.8285 28.50/0.8442 26.59/0.7795 30.96/0.9171 27.63/0.842326.14/0.8258双三RSDN 9-128 [21]20.13T6.19M24.60/0.8355 29.20/0.8527 26.84/0.7931 31.04/0.9210 27.92/0.850526.43/0.8349IRN伊朗[60]10.24T4.36M26.62/0.8850 33.48/0.9337 29.71/0.8871 35.36/0.9696 31.29/0.918829.21/0.8990SelfC-小SelfC-小70.043T1.76M27.10/0.9020 33.49/0.9379 30.46/0.9138 35.40/0.9730 31.61/0.931729.64/0.9151SelfC-大型SelfC-大型70.084T3.37M27.82/0.9167 34.14/0.9454 30.95/0.9210 36.28/0.9778 32.30/0.940230.27/0.9245表1：Vid4上4倍视频缩放的定量比较（PSNR（dB）和SSIM）Y指示亮度通道。FLOP（MAC）通过放大大小为180×120的LR帧来计算。降尺度双三双三双三双三双三双三双三伊朗[60]SelfC-小SelfC-大型Upscaling双三TOFlow [63] FRVSR [42] [23]第二十三话RBN [17][67]RSDN 9-128 [21]伊朗[60]SelfC-小SelfC-大型SPMCs-3023.29/0.6385 27.86/0.8237 28.16/0.8421 29.63/0.8719 29.73/0.8663 29.74/0.8792-/-36.24/0.9559 37.20/0.9681 38.32/0.9744Vimeo90K-T31.30/0.8687 34.62/0.9212 35.64/0.9319 36.87/0.9447 37.20/0.9458-/-37.23/0.947140.83/0.9734 40.68/0.9756 41.53/0.9786表2：针对4倍视频重新缩放的SPMC-30和Vimeo 90 K-T上的定量比较（PSNR-Y（dB）和SSIM-Y）选项卡. 1和Tab。二、很明显，我们的方法明显优于- sIRN，同时也减少了计算量-将复杂度降低3（SelfC-大）或6（SelfC-小）。这一结果清楚地证明了利用时间关系进行视频缩放任务是必要的，而现有的图像缩放方法如IRN忽略了这个时间线索。我们还在图中示出了与Vid4上的其他方法的定性比较。3.第三章。我们的方法比视频超分辨率方法和图像缩放方法表现出更好的细节，证明了视频缩放范例的优越性4.4. 视频压缩在我们的框架中，我们采用H.265编解码器在默认1或零延迟2模式。第一种模式用于视频数据的离线存储，而另一种模式面向在线低延迟视频流服务。评估指标为PSNR和MS-SSIM [58]。1ffmpeg-pix fmt yuv444p-s WxH-r 50-i video.yuv-c：v libx265-presetveryfast -x265-params“qp=Q”2ffmpeg-pix fmt yuv444p-s WxH-r 50-i video.yuv-c：v libx265-presetveryfast -tune zerolatency -x265-params“qp=Q”图4示出了实验结果。很明显，我们的方法优于传统方法和基于学习的方法（DVC [32]， Yanget al.[66]，Huet al.[18]和Luet al. [31]）在视频压缩任务上有很大优势。虽然我们的方法仅通过11损失进行优化，但它在PSNR和MS-SSIM度量方面表现出很强的性能。还应该提到的是，我们的模型可以很好地推广到默认模式，尽管只使用H.265编解码器的零延迟模式进行训练我们还通过使用H.265作为锚方法来评估BjntegaardDelta比特率（BDBR）[4]。如Tab.所示。3、在相同的MS-SSIM下，与普通的H. 265编解码器相比，该方法平均节省比特开销或存储空间30%以上。值得注意的是，我们将位成本降低了H.265模式BDBR-SSIMBDBR-PSNRUVGMCL-JCVHEVC BUVG默认-50.84-36.48-30.61-49.01零潜伏-33.98-28.16-18.04-19.41表3：使用H.265作为锚点的BDBR结果值越低，减少的比特成本越多。4497××∼ ×UVG数据集3938373635340.1 0.2 0.3BPP0.9850.9800.9750.9700.9650.9600.9550.9500.945UVG数据集0.1 0.2 0.30.4BPP0.9850.9800.9750.9700.9650.9600.955MCL-JCV数据集0.1 0.2 0.30.4BPP0.9750.9700.9650.9600.9550.9500.945HEVC B类数据集H.264H.265视频编码Lu等人SelfC（H.265）SelfC（H.265*）0.10.20.30.40.50.6BPP图4：所提出的方法与H.265，H.264和可学习视频编解码器之间的比较。H.265和H.265* 分别表示零等待时间和默认模式UVG数据集38373635340.1 0.2 0.30.4BPP图5：我们的“视频缩放+编解码器”方案与其他范例的比较S. SelfC w/o梯度模型通过忽略H.265编解码器梯度[3]。4.5. 高效视频动作识别我们在Tab中显示视频动作识别结果。4.第一章在第一组中，当直接测试在全分辨率视频上预训练的动作模型时，我们观察到Bicubic缩减的低分辨率视频的然而，我们的降尺度器仍然表现得更好（30.4% vs.在Something V1数据集上为32.7%）。在UVG数据集上超过45%。这证明了视频重缩放技术是一种新颖而有效的提高视频压缩性能的方法，它不需要过多考虑工业有损编解码器的复杂细节我们进行更多的分析，以验证“视频缩放+编解码器”的范例和建议的梯度估计方法的有效性。如图如图5所示，可以观察到，在视频压缩系统中使用双三次函数作为降尺度器和升尺度器（即，H.265+Bicubic）导致比基线差得多的结果。我们还尝试通过使用最先进的视频超分辨率方法来改善结果，即，TGA [22].虽然性能仍低于基线方法，H.265.考虑到TGA的网络参数为5.87M，而我们的只有0.88M，这一结果进一步证明了我们的SelfC框架的有效性。最后，我们提供了实验结果（即，SelfC w/ogradien- t），当直接使用有偏直通估计器[3]来近似H.265的梯度时结果表明，第3.6节中提出的梯度估计方法可以带来近0.3dB的改善。最后，我们给出了所提出的视频压缩系统的复杂度分析虽然看起来我们的方法在H.265编解码器上增加了额外的计算成本，但我们的系统确实更有效，因为编解码器的输入视频被缩小了。具体地说，在零时延模式下，对于分辨率为1920 × 1080的一帧，该方法的平均编码时间为108ms，其中包括2次降频所需的21ms和嵌入式H.265编解码器所需的87ms。我们的系统提高了效率的香草H.265编解码器（116毫秒），也是5比学习编解码器DVC（522毫秒）。在第二组中，我们提供了当动作识别CNN在由Bicubic和我们的降尺度器下采样的低分辨率视频上进行微调时的实验很明显我们的方法明显优于-s双三次下采样器约1。两个数据集上的Top1准确度为5%。值得注意的是，我们的降尺度器是可学习的。因此，我们然后联合微调动作识别CNN和我们的降尺度器。最后的结果结果表明，端到端的联合训练策略进一步提高了系统的性能，提高幅度明显.在Something V2上，我们的方法的最终性能n-早期达到直接在HR视频上执行识别的性能IRN的降尺度器不能提高该任务的效率，因为其计算成本甚至大于HR设置。我们试图减少IRN的层数，但它不再收敛。方法行动CNNFLOPsParamsV1V2前一名（%）前5名（%）前一名（%）前5名（%）HRTSM33.0 G24.31M45.674.258.885.4双三我们TSMTSM8.6G10.8G24.31M24.35M30.432.757.559.540.141.868.771.5双三次（FT）我们的（FT）TSMTSM8.6G10.8G24.31M24.35M42.143.572.172.856.057.483.984.8我们的（E2E）TSM10.8G24.35M44.673.358.385.5表4：我们的方法与双三次降尺度器之间的比较。FT表示仅微调动作识别CNN。E2E还表示微调下行分频器。4.6. 框架的消融研究在本节中，我们对视频缩放任务进行了实验，以验证组件在H.264H.265*DVCYang等人Hu等人SelfC（H.265）SelfC（H.265*）H.264H.265* DVCYang等人Hu等人SelfC（H.265）SelfC（H.265*）H.264H.265* DVCLu等人SelfC（H.265）SelfC（H.265*）H.265H.265+双三次H.265+TGASelfC（不含梯度SelfC）PSNRPSNRMS-SSIMMS-SSIMMS-SSIM4498|××|输入HR视频xLR视频xlxl−Bicubic（x）HF分量fh样本1fh的样本2图6：从学习的分布p（fh xl）中采样的高频分量fh的可视化。我们还比较了我们的可学习降尺度器和双三次降采样器的降尺度视频的差异由于差异的幅度很小，我们将其放大10倍以获得更好的可视化效果。我们的框架。我们首先定义以下两个基线：(1)IRN [60]，这是最新的最先进的图像缩放方法。为了公平比较，我们使用作者开源的代码在Vimeo90K数据集上重新训练它。(2)Auto-Enc，这是一个简单的自动编码器-解码器架构，通过删除我们的模型- el的STP网络。实验结果如表1所示。五、方法骨干概率模型参数（M）Vid4-Y峰值信噪比（dB）SSIM自动编码IRN*IRN-T16×Dense2D-T16×Dense2D16×Dense2D-T-正常正常3.634.363.6328.9130.6830.420.87970.90670.9004SelfC-基本SelfC-basicTSelfC-smallSelfC-large2×Dense2D2×Dense2D-T2×Dense2D-T8×Dense2D-TGMM（K=1）GMM（ K=1 ）GMM（ K=5 ）GMM（K=5）1.771.611.763.3730.6231.2931.6132.300.92140.92680.93170.9402表5：4个视频重新标度的消融研究。所有模块均采用INN架构，以便与IRN进行公平比较。*表示模型在Vimeo90K上重新训练。首先，Auto-Enc基线显示出比IRN和我们的方法更差的这证明了对丢失的信息进行显式建模是重要的。IRN不如SelfC-小型模型，尽管IRN利用了8倍重的主干。我们还尝试通过将其主干从Dense 2D替换为Dense2D-T来为IRN配备令人惊讶的是，所得到的模型IRN-T的性能下降了0.26dB。原因是IRN依赖于复杂的非线性变换将丢失信息的真实分布变换为正态分布，而Dense2D-T的变换能力较弱（缺失0.73M参数）。对于我们的方法，我们从由SelfC-basic描述的最简单的模型开始，其中主干仅由空间卷积组成，并且STP-Net仅输出简单的高斯分布。该模型的性能与IRN相当，但少了2个参数。这证明了所提出的自适应分布建模方案的有效性和优越性。然后介绍了一个改进的模型SelfC-basicT.通过将基本块由Dense 2D改为Dense2D-T，增强了模型的时态建模能力。这导致0.67dB的改善，同时降低了PA。这证明了Dense 2D-T模块在视频任务中的有效性此外，我们将GMM模型的混合数增加到5。所得到的SelfC-小模型仅用1.76M参数就以大幅度优于所有基线。我们的模型也是可扩展的更大的骨干网络。将骨干网扩大4倍，性能进一步提高0.69dB。4.7. 可视化结果虽然先前的定量结果验证了所提出的自适应建模方案在几个任务上的优越性，但有趣的是研究我们的模型输出的中间分量，特别是 STP-Net 预测的高频（HF）分量的分布。注意，分布是高斯分布的混合。并且包括多个通道，我们绘制fh的两个样本从p（fh xl）中随机选择一个通道用于可视化。从频率分析仪输出的fh被采用作为地面实况样本。如图在图6中，我们首先看到，与双三次相比，通过我们的方法缩减的LR视频xl被调制成用于更容易地重构HF分量的一些强制信息。此外，采样的HF分量可以在关键结构方面准确地恢复其地面实况，即建筑物的窗户，同时保持一定程度的随机性。这与我们的学习目标是一致的。5. 结论我们已经提出了一个视频缩放框架来学习一对缩放和缩放操作。大量的实验表明，我们的方法可以优于以前的方法有很大的利润率，而少得多的参数和计算成本。此外，学习的运营商促进视频压缩和有效的动作识别的任务显着。鸣谢本工作得到国家自然科学基金资助（61831015，61527804和U1908210）。4499引用[1] Ultra视频组测试

下载后可阅读完整内容，剩余1页未读，立即下载