Fast-Vid2Vid:加速视频到视频合成的高效模型

173 浏览量更新于2023-12-01 收藏 3.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文Fast-Vid 2 Vid：用于视频到视频合成龙卓1，王广聪2，李世凯3，吴伟1， 3，刘紫薇21上海人工智能实验室2南洋理工大学3商汤科技研究zhuolong@pjlab.org.cn{guangcong.wang，ziwei.liu} @ntu.edu.sgwuwenyan0503@gmail.comlishikai@sensetime.comSegmentation2City输入Vid2VidMAC：1254G FPS：4.27快-Vid2VidMAC：151G（8.3×） FPS：24.77（5.8×）素描2面部姿势2身体输入Vid2VidMAC：2066G FPS：2.77MAC：1769G FPS：3.01快-Vid2VidMAC：282G（8.1×） FPS：16.81（6.1×）MAC：191G（9.3×） FPS：21.39（7.1×）图1：Fast-Vid2Vid. 我们提出的Fast-Vid 2 Vid加速了视频到视频的合成，并且与原始的vid 2 vid模型相比更有效地生成照片级逼真的视频。在标准基准测试中，Fast-Vid 2 Vid达到16.81-24.77 FPS，并在Sketch 2Face，Segmentation 2City和Pose 2Body任务中节省8.1-9.3倍的计算成本。抽象的。视频到视频合成（Vid2Vid）已经取得了显着的效果，从一系列的语义地图生成照片般逼真的视频。然而，这种流水线具有高计算成本和长推理延迟，这在很大程度上取决于两个基本因素：1）网络结构参数; 2）顺序数据流。最近，基于图像的生成模型的参数已经被显著地⋆通讯作者arXiv：2207.05049v1 [cs.CV] 2022年7+v：mala2255获取更多论文×2升。Zhuo et al.通过更高效的网络架构进行压缩然而，现有的方法主要集中在瘦身网络架构，忽略了顺序数据流的大小此外，由于缺乏时间相干性，基于图像的压缩不足以用于视频任务的压缩。在本文中，我们提出了一个时空压缩框架，Fast-Vid 2 Vid，它侧重于生成模型的数据方面。它首次尝试在时间维度上减少计算资源并加速推理。具体来说，我们在空间上压缩输入数据流，并减少时间冗余。在提出时空知识蒸馏后，我们的模型可以使用低分辨率的数据流合成关键帧。最后，Fast-Vid2 Vid通过具有轻微延迟的运动补偿插入中间帧在标准基准测试中，Fast-Vid 2 Vid实现了约20 FPS的实时性能，并在单个V100 GPU上节省了约8倍的计算成本代码和模型是公开的4.关键词：视频到视频合成，GAN压缩1引言视频到视频合成（vid2vid）[44]的目标是在给定一系列语义图作为输入的情况下合成照片级逼真的视频。从该任务中衍生出广泛的应用，例如面部对话视频生成（Sketch2Face）[44，43]，驾驶视频生成（Segmentation2City）[44，43]和人体姿势转换生成（Pose2Body）[5，27，53]。随着生成对抗网络（GAN）[15]的发展，vid2vid模型[44，43]在视频质量方面取得了重大进展然而，这些方法需要大规模的计算资源来产生结果，并且它们在计算上是禁止的并且对环境不友好。例如，标准vid 2 vid [44]消耗2066个G MAC来生成每个帧，比ResNet-50多500个 [18]。最近的研究表明，许多识别压缩方法已成功扩展到基于图像的GAN压缩方法[1，7，11，26，31，29]。我们是否可以直接使用这些现有的基于图像的GAN压缩方法来实现有前途的vid2vid压缩模型？在文献中，基于图像的GAN压缩方法可以大致分为三类，包括知识蒸馏 [1 ， 7 ， 26 ， 31 ， 2] ，网络修剪 [31 ， 42] 和神经架构搜索（NAS）[29，14，11，13，30]。他们专注于通过削减原始网络的网络结构参数来获得紧凑的然而，输入数据，另一个显著影响深度神经网络推理速度的因素，已经被现有的GAN压缩方法所忽略此外，由于它们是基于图像的合成任务，它们不考虑隐藏的冗余时间信息4项目页面：https://fast-vid2vid.github.io/代码和型号：https://github.com/fast-vid2vid/fast-vid2vid+v：mala2255获取更多论文快速Vid2Vid 3在视频的相邻帧中。因此，直接将基于图像的压缩模型应用于vid2vid合成很难达到预期的效果。在这项工作中，我们的目标是压缩输入数据流，同时保持精心设计的网络参数，并生成逼真的结果vid2vid合成。此外，本文还对vid2vid模型进行了初步的尝试，通过去除时间冗余来加速vid2vid模型。vid2vid压缩面临三个关键挑战。首先，典型的vid 2 vid模型[44]由几个编码器-解码器组成，以捕获空间和时间特征。由于这些编码器和解码器之间的复杂连接，很难从这种复杂的结构中减少参数。其次，压缩输入数据流并实现GAN生成的良好性能是一个挑战，因为GAN的感知场比图像识别更不稳定。第三，在时间上将知识从教师模型转移到学生模型对于与空间知识蒸馏对齐是具有挑战性的，因为时间知识隐含地隐藏在相邻帧内并且比空间知识更难以捕获为了解决上述问题，在本文中，我们提出了一种新的时空压缩框架的vid 2 vid合成，命名为Fast-Vid 2 Vid。如图2所示，我们通过运动感知推理（MAI）仅压缩输入数据流，而不破坏原始Vid2Vid模型的精心设计和复杂的网络参数，从而减少了计算资源，这解决了挑战1。对于挑战2和3，我们提出了一种时空知识蒸馏方法（STKD），该方法使用压缩的输入数据将空间和时间知识从原始模型转移到学生网络。特别是，受空间分辨率感知的知识蒸馏方法[10]的激励，该方法将知识从大尺寸图像转移到小尺寸图像以进行图像识别，我们的目标是将知识从大尺寸合成视频转移到小尺寸合成视频，以使GAN足够鲁棒，从而在输入数据被压缩时获得有希望的视觉性能。我们首先通过将低分辨率序列作为输入但生成全分辨率序列来训练空间低需求生成器。我们执行空间知识蒸馏（Spatial KD）并将空间知识从原始生成器转移到空间低需求生成器以获得高分辨率帧信息。此外，我们训练的部分时间生成器均匀采样视频帧序列作为真实数据。我们执行时间感知知识蒸馏（Temporal KD），并通过引入两个损失，即，局部时态知识蒸馏损失和全局时态知识蒸馏损失。这种设计旨在捕捉时间维度中的隐含知识。总之，据我们所知，我们进行了第一次尝试，以解决数据方面的VID2VID压缩问题。在单个V100 GPU上，Fast-Vid 2 Vid在Sketch2Face上实现18.56 FPS（6.1倍加速），计算成本降低8.1倍，在Sketch2Face上实现24.77 FPS（5.8倍加速），+v：mala2255获取更多论文××4升。Zhuo et al.Segmentation2City上的计算成本为21.39 FPS（7.1加速），Pose2Body上的计算成本减少了9.3。本文的主要贡献可归纳为两个方面：– 我们提出了Fast-Vid 2 Vid，一种在空间和时间维度上的顺序数据流压缩方法，大大加速了vid 2 vid模型。– 我们介绍了一种空间KD方法，将知识从教师模型输入的高分辨率数据转移到学生模型输入的低分辨率数据，以学习高分辨率信息。– 我们提出了一个时间KD方法提取知识从一个全职教师模型的兼职学生模型。进一步提出了一种新的全局时间知识提取损失来捕捉时间序列的相关性。2相关工作视频到视频合成视频到视频合成（Vid2vid）是一种计算机视觉任务，它使用相应的语义序列生成照片般逼真的序列。基于高分辨率的基于图像的合成[45]，Wang等人。 [44]通过引入时间相干性开发了标准的vid2vid合成模型。少镜头vid2vid模型[43]进一步扩展了vid2vid模型的少镜头版本，该模型仅使用较少的样本来实现良好的性能。最近，vid2vid已成功扩展到广泛的视频生成任务，包括视频超分辨率[37，8，48]，视频修复[54，49]，图像到视频合成[38，39]和人体姿势到身体合成[5，12，53，27]。这些方法大多利用时间信息来提高生成视频的性能。然而，他们并不关注vid2vid合成压缩，而是更好的视觉性能。模型压缩。模型压缩旨在减少深度神经网络的多余参数以加速推理。在计算机视觉任务中，许多模型修剪方法[17，28，24，32，19，52，42]极大地削减了神经网络的权重，并显着加快了推理时间。胡等人[25]减少了具有低激活的不必要通道。卷积层的小输入权重[19，28]或输出权重[20GAN压缩已经被[51]证明，它比普通的CNN压缩要困难得多。由于GAN的复杂结构，提出了一种内容感知方法[31]，使用显著区域来识别GAN修剪的特定冗余。Wang等人 [42]使用一次性方案通过NAS减少了冗余权重。值得注意的是，上述方法集中于简化网络结构，而忽略了输入信息的量。此外，这些方法没有考虑基于视频的GAN压缩的基本时间相干性，并且因此实现vid2vid模型的次优结果。因此，需要去除vid2vid模型中的时间冗余。知识蒸馏。知识蒸馏的目的是使学生网络模仿教师. Hinton等人 [22]提出了一个有效的框架，+v：mala2255获取更多论文∗∗香草推断{X}{Y}压缩STKD{Y}**{X}**HHHHW全尺寸输入教授输出埃尔奥W压缩的输入相同参数{Y}*W学生输出运动感知推理{X}'关键帧{K}h选择运动补偿HHW低分辨率的输入W关键帧预测{Yk*|k∈ K}（W全尺寸预测PGPGFG快速Vid2Vid 5图2：我们的Fast-Vid 2 Vid的管道它保持与原始生成器相同的参数量我们执行时空知识蒸馏（STKD）将知识从全职教师生成器（FG）转移在STKD之后，Fast-Vid 2 Vid只推断低分辨率语义序列的关键帧，并通过运动补偿对中间帧进行插值分类中的模型蒸馏。知识蒸馏已被广泛用于识别模型[6，7，33，34，50]。最近，许多基于响应的知识蒸馏方法[1，7，11，2]被提出用于基于图像的GAN压缩。例如，Jin et al. [26]从[ 29 ]中开发了蒸馏技术，并使用全局内核对齐模块来获得更多潜在的信息。 Liu等人 [31]利用一个突出的面具来指导知识蒸馏过程的基础上的规范。这些方法仅解决基于图像的知识提取，因此仅利用空间知识，并且它们不考虑运动。它不能充分利用时间知识进行vid2vid压缩。与空间感知的知识提取不同，我们将空间信息和时间信息都考虑到知识提取中，从而为vid2vid模型压缩量身定制。最近，Feng等人 [10]提出了一种分辨率感知的知识蒸馏方法，该方法忽略了网络参数并压缩了图像识别的输入信息。在我们的工作中，我们首先介绍了这种输入数据压缩方法的GAN综合。3Fast-Vid2Vid3.1GAN压缩深度神经网络（DNN）的函数可以写为f（X）=W X，其中W表示网络的参数，表示DNN的操作，X表示输入数据。显然，计算成本的两个基本因素是参数和输入数据。现有的GAN压缩方法[1，7，11，26，31，29]旨在通过减少网络结构的参数来降低计算成本。然而，用于特定任务的GAN的网络结构是精心设计的，+v：mala2255获取更多论文00{ }∈{ }∈0（2d）26升。Zhuo et al.如果任意切割网络参数，则视觉效果较差。降低计算成本的另一种方法是压缩输入数据。在这项工作中，我们寻求压缩输入数据，而不是精心设计的网络的参数。据我们所知，很少有文献致力于为GAN压缩压缩数据。3.2Fast-Vid 2 Vid概述典型的Vid2vid框架[44]采用一系列语义映射XT RT×H×W，并预测出一个真实感视频序列Y TRT×H×W. H和W表示每个框架的高度和重量。vid2vid模型（全职教师生成器）使用全尺寸顺序输入数据流，一帧接一帧地合成视频序列的连续过程。考虑到图像合成和时间相干性，vid 2 vid模型通常包含多个编码器-解码器来捕获时空线索，这在计算上是禁止的，甚至远离移动设备的应用。在本文中，我们提出了一个快速Vid2Vid压缩框架，输入数据压缩方法，以减少计算资源的vid2vid框架工作在空间和时间维度。图2示出了所提出的方法的概述。Fast-Vid 2 Vid首先用分解的卷积块[23]替换原始vid 2 vid生成器[44]的resBlock，以获得与[29]相似的现代网络架构。在知识提取过程中，我们使用压缩数据训练学生生成器，并使用我们提出的时空知识提取方法（STKD）从教师生成器中提取知识。STKD包括空间知识提取（SpatialKD）和时间知识提取（TemporalKD），实现空间分辨率压缩和时间序列数据压缩。在STKD之后，与运动补偿合作的部分时间生成器通过运动感知推理（MAI）合成全尺寸序列。3.3Vid2vid的空间分辨率压缩为了减少空间输入数据，一种直接的方法[10]是使用低分辨率语义映射作为输入序列来预测低分辨率结果然而，在我们的初步实验中，由于失真算法缺乏高频信息并丢失了许多重要的纹理，因此直接的方法会导致严重的伪影。因此，我们对vid2vid合成进行了自适应更改。我们用普通卷积层替换下采样层对于公式化，修改后的生成器采用低分辨率语义序列{X}′T ∈RT×h×w作为输入，其中h×w=1H×W，d表示修改的下采样层的数量。d设定为1。通过这种方式，我们获得了空间上低需求的发电机。+v：mala2255获取更多论文不SKD不不不不不0{X}不不H{Y}老师输出W全尺寸输入调整大小{X}“的相同参数0LSKD不HSG不W低分辨率的输入{Y}'学生输出（方程式(1)）的方FG快速Vid2Vid 7图3：提出的空间知识蒸馏（空间KD）。空间低需求生成器被馈送有低分辨率语义图的序列并且输出全分辨率结果。空间低需求生成器的结果用于空间知识蒸馏。接下来，空间低需求生成器需要从全职教师生成器学习高频表示本文提出了一种空间知识提取方法（Spatial KD）来对教师网络中的高频知识进行具体而言，如图3所示，空间KD缩小了低分辨率域和高分辨率域之间的裕度，以提高学生网络的性能。空间KD隐含地将空间知识从教师网络转移到学生网络。特别地，空间KD应用知识蒸馏损失来模仿教师网络的视觉特征，并且损失函数L_SKD可以被写为：L=1<$[MSE（Y，Y′）+Lt=0（Y，Y′）]，（1）其中t表示当前时间戳，T是序列的总时间戳，LSKD表示空间知识蒸馏损失，Y是教师网络的输出序列，Y'是空间低需求生成器的预测序列。MSE表示两帧之间的均方误差。Lper表示感知损失[44]。3.4Vid2vid的时序数据压缩每个视频序列由密集的视频帧组成，这给计算设备带来了巨大的负担如何有效地合成密集的帧序列的语义映射是一个困难的轻量级vid2vid模型的重要问题。在第3.3节中，我们得到了一个空间低需求生成器。为了减轻为每个视频生成密集帧的负担，我们在稀疏视频序列上重新训练空间低需求生成器，稀疏视频序列是从密集视频序列中均匀采样的。在每次训练迭代中随机选择采样间隔。原始的vid2vid生成器被视为全职教师每+v：mala2255获取更多论文k-p ----{X}11p−1p8升。Zhuo et al.KD(5)）的方式图4.时间感知知识蒸馏（Temporal-Aware Knowledge Distillation，TemporalKD）全职生成器和兼职生成器使用先前帧和语义图来合成当前帧全职教师生成器将全分辨率语义图作为输入并生成完整的序列，而兼职学生生成器仅将几个低分辨率语义图作为输入并以随机间隔生成生成器和重新训练的空间低需求生成器被视为兼职学生生成器。为了提取全职教师生成器到兼职学生生成器的时态知识，我们提出了一个低成本的cal时态知识提取方法和全局时态知识提取方法。四、全职教师生成器和兼职学生生成器都采用先前的p-1个合成帧{Y}和p个语义映射{X}作为输入并生成下一帧。先前帧用于捕获序列的时间相干性并生成更相干的视频帧。专职教师生成者的生成过程是连续生成。更一般地，全职教师生成器的每个生成迭代可以用公式表示如下：Yk=fFG（{X}k，Yk−1），（2）k-p其中，Yk表示全职教师生成器的预测的当前生成帧 fFG表示全职教师生成器的生成函数。kk−p 表示语义映射的p+1个帧，Yk-1表示先前的k-pp生成帧。与全职教师发生器的均匀采样间隔为1不同，兼职学生发生器的均匀采样间隔为g，其中1g

下载后可阅读完整内容，剩余1页未读，立即下载