稀疏运动控制视频生成

130 浏览量更新于2023-10-14 收藏 1.13MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

14749点击移动：用稀疏运动控制视频生成PierfrancescoArdino1，2，MarcoDeNadai2，BrunoLepri2，ElisaRicci1，2，Ste´ phaneLathuilie`re31特伦托大学2布鲁诺·凯斯勒基金会3LTCI，Te´le´ comP aris，Institut Polytechnique deP aris摘要本文介绍了点击移动（C2M），一种新的视频生成框架，用户可以通过鼠标点击指定场景中关键对象的简单对象轨迹来控制合成视频的运动。我们的模型接收一个ini-帧、其对应的分割图和对用户提供的输入进行编码的稀疏运动矢量。它输出从给定帧开始并且具有与用户输入一致的运动的似然视频序列。值得注意的是，我们提出的深度架构包括一个图形卷积网络（GCN），它对场景中所有对象的运动进行建模。tic的方式，并有效地结合稀疏的用户运动信息和图像特征。实验结果表明，C2M优于现有的方法在两个公开的，licly可用的数据集，从而证明了我们的GCN框架的有效性，在建模对象的相互作用。源代码可在https：//github.com/PierfrancescoArdino/C2M网站。1. 介绍近年来，在生成高维数据（如图像[6，8，24]或视频[36，40]）方面取得了一些突破。然而，大多数实际和商业应用需要在用户提供的输入上控制生成的视觉例如，在图像管理中，照片编辑软件[1]应用深度学习模型来允许用户更改图像的部分[27，31，48]。关于视频，已经考虑了控制所生成的序列的几种可能的方式。例如，框架的生成可以基于简单的分类属性[13]，短句[22]或声音[35]。最近一个有趣的研究方向包括试图调节提供运动信息作为输入的视频生成过程的工作[33，34，36，43]。这些方法允许生成移动面部的视频图1. 点击移动（C2M）的视频生成过程的图示：1）用户选择场景中的对象并指定它们的移动。2）我们的网络通过GCN对所有对象之间的相互作用进行建模，3）预测它们的位移。4）网络产生逼真且时间一致的视频。[43] 人的轮廓，一般来说，任意对象[33，34，36]。然而，这些作品主要处理描绘单个对象的视频。当场景中存在多个对象时，动画化图像和生成视频确实是极其具有挑战性的，因为没有简单的方式来解开与每个对象相关联的信息并容易地建模和控制其移动。本文介绍了点击移动（C2M），第一种方法，允许用户通过调节特定对象的运动，通过鼠标点击在复杂的场景中生成视频。图图1示出了C2M的视频生成过程用户只需要在场景中选择几个对象我们提出的框架接收作为输入的初始帧与其分割图和合成的视频序列描绘的对象的运动是一致的用户输入。所提出的深度架构包括三个主要模块：（i）从第一帧和相关联的分割图中提取特征表示的外观编码器，（ii）从第二帧和相关联的分割图中提取特征表示的运动编码器。14750根据用户输入和图像特征预测运动信息的模块，以及（iii）输出合成帧序列的生成模块。在具有多个对象的复杂场景中，建模交互对于生成连贯的视频至关重要。为了这个目标，我们建议采用一个图形神经网络（GCN），它模型对象的相互作用和推断的合理位移的视频中的所有对象，同时尊重用户实验结果表明，我们的方法优于以前的视频生成方法在两个公开可用的数据集，并证明了有效性的拟议的GCN框架在复杂场景中的对象交互建模。我们的工作受到从初始帧和相关联的分割图生成视频的先前文献的启发[28，32]。从这些工作中，我们继承了一个两阶段的过程，其中我们首先估计初始帧和所有生成的帧之间的光流，随后根据估计的光流细化通过扭曲初始帧获得的图像。然而，我们的框架改善了这些以前的作品，因为它允许用户的可能性，直接控制视频生成过程中，简单的鼠标点击。类似于Hao等人的工作。[12]，我们提出通过稀疏运动输入来控制对象移动。然而，由于GCN，我们的方法可以处理具有多个对象的场景，而[12]不能。此外，[12]中的方法没有明确考虑对象的概念，因为它不使用任何实例分割信息，并且不对多个帧之间的时间关系进行建模。相反，我们在多个帧和语义空间中工作，因此用户可以直观地选择感兴趣的对象并以时间一致的方式移动它。语义信息的使用是由图像处理领域的最新发现所激发的，其中已经表明语义图在复杂场景中是有益的[2，20]。捐款. 总的来说，我们工作的主要贡献如下：• 我们提出了点击移动（C2M），一种新的方法，视频生成的复杂场景，允许用户通过选择场景中的对象，并通过鼠标点击指定其最终位置的互动。• 我们介绍了一种新的深度架构，利用初始视频帧及其相关的分割图来计算运动表示，使生成的帧序列。我们的深度网络采用了一种新的GCN，它对对象之间的交互进行建模，以推断场景中所有对象的运动。• 通过广泛的实验评估，我们证明了所提出的方法在视频质量指标方面优于其竞争对手[28，32并且可以合成其中对象运动跟随用户输入的视频。2. 相关作品用户控制的视频生成。随着深度视频合成的最新进展，研究人员专注于设计在生成过程中包括用户输入的新方法。可以通过不同的手段来控制视频生成。例如，MoCoGAN [36]将视频分解为运动和内容潜在空间。因此，可以通过从另一视频“复制”动作或通过改变个人的身份来控制视频Chan等人[3]提出按照“照我做”的动作转移策略生成舞蹈视频：为另一视频的每一帧估计身体姿态，并将其传送以控制所生成的视频中的人的姿态。Wiles等人。 [43]通过可以从视频或姿势信息中提取的驱动矢量来 Siarohin等人 [33，34]提出了一种适合于任意对象的方法，并在不需要特定先验知识的情况下学习运动表示。这种方法可以用于各种类型的视频，从人体到机器人。关于视听方法，可以从初始图像和输入音频剪辑生成讲话头部视频[4，43，50]。在本文中，我们提出了一个新的框架，涉及到用户的生成过程。然而，虽然先前的工作主要集中在生成描绘单个对象（例如，对象）的视频。面部或人体），我们解决了复杂场景的视频合成的更具挑战性的任务，其中多个对象必须一致地移动，同时考虑用户输入。未来帧预测。我们在这项工作中解决的问题是密切相关的未来帧预测，其目的是生成一个视频序列给定其初始帧。早期的工作制定了一个确定性的预测任务的问题[9，26，39]。然而，由于固有的运动不确定性，该公式不能在大多数真实世界视频上工作。因此，最近的方法采用对抗[18]或变分[11，19，36]公式，可以模拟随机性。几项工作集中在架构设计上，并提出估计光流[10，18，21，23]以通过扭曲前一帧来生成未来帧其他作品研究长期预测的解决方案[14，29，38，47]。类似地，Li et al. [21]提出了一种多步网络，首先生成光流，然后将其转换回RGB空间以生成新的视频。相反，Zhang et al. [49]提出采用将运动信息映射到潜在空间光流编码器。在测试时，可以对不同的随机运动矢量进行采样以生成具有不同运动的视频。当涉及多个对象的复杂环境为14751M∈∈nJnΣf=MD∈n例如，Wu et al. [44]一起使用视频帧、光流、实例图和语义信息来将背景与动态对象分离，从而预测它们的轨迹。类似地，Haoet al.[12]显示，向其模型提供稀疏运动轨迹有助于生成具有更高质量的视频。然而，与我们的方法相反，他们的方法没有利用实例分割，也没有对对象交互进行建模。最近，Pan等人。 [28]和Sheng等人。 [32]已经提出从分割信息中获益以改进视频生成。视频从单个帧和对应的分割图生成。这两种方法都基于两阶段程序。第一阶段旨在估计初始帧和每个生成的帧之间的光流。在第二阶段中，根据光流对初始帧进行扭曲，并通过编码器-解码器网络进行细化。受这些工作的启发，我们的方法采用了一个类似的变分自动编码器框架，增强了光流和遮挡监督。然而，我们包括一个新的图形卷积网络（GCN），模型对象interrac- tions，并考虑到稀疏的运动矢量提供的vided由用户。3. 单击以移动框架我们的目标是从它的初始帧X0RHXWX3和一组用户提供的二维矢量，指定场景中的关键对象的运动生成一个视频。在测试时，我们假设我们也有初始帧的实例分割图。我们的系统是在由T帧组成的视频数据集上训练的，每个帧都有相应的实例分割图。正如我们稍后将看到的，在实践中，实例分割是使用预先训练的模型获得的。考虑一组C类，我们假设在时间t在帧XtRH×W×3中检测到N个对象。实例分段经由分段a来表示实例分割的重心在第一帧和最后一帧之间的部分所提出的框架是由三个主要模块，如图所示。二、首先，外观编码负责对初始帧进行该模块接收初始帧X0、分割S0和实例图I0的级联作为输入，同时其经由编码器EA的使用输出特征图Za。第二，运动编码，根据用户提供的运动矢量和图像特征来预测视频运动。该模块包括新颖的图形卷积网络（GCN），其通过组合对象运动矢量in和图像特征za来推断场景中所有对象的运动。该运动模块在第2节中描述。3.2而我们的GCN的具体细节在第3.2节中给出。第3.1条最后，生成模块负责将编码的外观和预测的运动相结合以生成输出视频的每一帧。3.1. 基于GCN的我们的GCN的目的是推断的运动场景中的所有对象，通过结合由用户提供的运动矢量和图像特征Za。本节首先描述我们引入来对运动向量建模的特定消息传递算法。然后，我们展示了我们的GCN是如何嵌入到一个变分自动编码器（VAE）框架，允许采样可能的对象运动，尊重用户使用GCN处理用户控制。我们建议使用一个图形来模拟场景中的对象之间的相互作用。每个节点对应于在X0中检测到的N个对象中的一个。图是将所有对象彼此完全连接而获得的。让我们介绍以下符号：fn是第n个对象的特征向量，并且经由区域平均池化从zn中提取。dnR2是第n个物体的估计重心位移。最后，un∈ {0，1}是一个二进制值，它指定是否类标号映射St∈{0，1}H×W×C，一类标号映射Ct∈对象运动已经由用户提供（un=1），或者如果它应该被推断（u = 0）。{1，…，C}H×W和实例映射It∈ {1，…，N}H×W它为每个像素指定实例索引在测试时间，用户通过绘制对应于X。中的对象的重心与时间T处的对象的期望位置之间的位移的2D箭头来提供场景中的M个①的人。值得注意的是，用户在标准GCN [45]中，逐层传播规则指定如何根据前一次迭代f（k-1）中相邻节点的特征计算节点n迭代k时的特征f（k）：可以自由地为所需的多个对象提供运动矢量。因此，运动矢量由列表M={（δm，im），1≤m≤M}表示，其中δm∈ R2（k）nj∈N（n）1√Dnjθf（k−1）（一）包含对象的重心位移，站立指数在训练时，通过对每个视频中的对象进行随机采样并估计它们对应的δm来获得列表，δ m被定义为位移。其中N（n）表示节点n的邻居，θ是并且nj是归一化因子，其等于到节点n和j的度的和。在我们的上下文中，我们需要修改这个更新规则，以考虑到14752⊕nNMnΣnDNJFnnnnDNJDn无无无无无无无nM运动编码GCN+D外观编码生成模块培训编码器解码器FC测试FC解码器GCN图2.我们的网络由三个模块组成，即（i）外观编码，（ii）运动编码和（iii）生成模块。外观编码的重点是从X学习视觉外观.运动编码对对象之间的交互进行建模，预测它们的位移，对运动进行编码，并为生成模块生成光流和遮挡掩模，该生成模块专注于生成时间一致且逼真的视频。在右边，我们展示了我们的GCN模块来建模对象的交互。每个节点的对象运动是已知的或未知的。此外，我们提出了两种不同的传播规则的节点特征fn和运动矢量dn。我们建议根据联合国制定这些规则。如果un=1，则节点对应于具有由用户控制的运动的对象，并且我们仅更新特征：f （ k ）=f （ k−1 ）+Σ√1θ（f （ k−1 ）d （ k−1 ））（2）在下一节中，我们将详细介绍如何将GCN嵌入到VAE框架中，以便对可能的对象运动进行采样。运动采样的总体架构。我们的GCN被嵌入到一个VAE框架组成的编码器和解码器网络。在训练时，我们使用一个编码器和一个解码器，而在测试时只使用解码器时间，如图所示2-对。请注意，功能j∈N（n）d（k）= d（k−1）。（三）fn条件编码器和解码器两者。的目标编码器网络不映射每个这里，θf表示可训练参数，并且是连接操作。该公式允许通过节点传播特征信息，同时对于具有已知运动的节点保持对象运动恒定。注意，在（2）中，我们选择残差更新，因为来自相邻节点的消息被添加到当前值f（k−1）. 我们的初步结果表明：（1）更新规则节点到潜在空间Zn。该编码器使用GCN实现，该GCN采用第3.1节中描述的传播规则，并接收每个节点的输入fndn对于每个节点，在最后一次消息传播更新之后，潜在变量zn由f（k）假设zn服从单位高斯分布（zn（0，1））。解码器网络接收随机采样的潜在变量作为输入n结果是所有的节点都有完全相同的特征。相反，残差更新有助于对象收敛到更好的特征。实际上，这种残余更新可以被看作是跳过连接，类似于resnet archi的连接结构，允许渐变信息通过对于具有未知运动的节点（即， un = 0），并被训练以重建输入运动d，n。解码器用具有相同传播规则的另一个GCN来实现，并且具有输入f（0）= d（0），其中f（0）= f并且：GCN更新并减轻消失梯度问题。（0）FC(zn)ifun=0如果un=0，则节点对应于具有un-n的对象。已知运动，我们更新特征和运动。矢量功能更新与（2）和（3）dn=1（im=1=n）δm如果使用（五）=1时。运动矢量被更新如下：d（k）=d（k−1）+Σ√1θ（f（k−1）d（k−1））（4）j∈N（n）其中1表示指示符函数，并且FC（. ）表示a将采样的潜在变量Zn投影到Dn的空间的全连接层（即，R2）。直观地说，和在（5）中迭代M中的所有对象以选择相应的其中θd表示运动的可训练参数响应由用户提供的运动矢量。估计这种新颖的传播规则允许聚合包含在相邻节点中的信息，以细化具有未知运动的节点的运动估计。在测试时，不使用GCN编码器。根据我们的单位高斯先验分布，对具有未知运动的每个对象以及-14753联系我们NΣFC不不不不不不不不fb1f fbf发送给解码器。解码器输出场景中每个对象的2D运动。3.2. 运动编码该模块负责预测初始帧X0和必须生成的每个帧之间的光流和遮挡图。为此，对于每个时间步长t，我们计算二进制张量Bt0，1H×W，其指定场景中对象的位置。在时间t=0处，从实例分割图10计算对象位置图B0：其中B0[i，j]= Σ1（I0[i，j]= n）.（六）根据由运动模块预测的光流映射。然后，我们乘以扭曲的特征图的遮挡估计器预测的遮挡图，以diminish的影响，对应于所包含的部分的功能。最后，将掩蔽的特征图馈送到后续网络以输出所生成的视频。该网络由几个残差块组成，后面是两个上采样卷积块。目标函数。我们的GCN框架采用VAE框架的evidence下界。它由关于预测的运动矢量的重构项和zn的条件分布与其单位高斯先验之间的 Kullback-Leibler 散度（KL）组成N对于t >0，Btn不能用前一个等式来估计-1LV AE=N;n=0-n1-DKL（zn N（0，I）），（7）因为在测试时It是未知的相反，我们骗-为每个物体建立一个简单刚体模型，并得到B检验其中dn是GCN预测的位移。通过根据对象运动dt扭曲B0。在训练时，根据分割图估计dt而在测试时，我们使用dt，这是位移我们的GCN预测最后，该对象位置张量经由编码器ES被映射到潜在张量zs。注意，输出视频不能经由初始帧和每个对象的运动被完全编码，这是因为存在初始帧和每个对象的运动。存在其他可变性来源，例如前后一致性。与[31]类似，我们确保了前向和后向光流之间的周期一致性。更确切地说，对于每个未被遮挡的像素位置p，我们最小化相应的光流之间的L1L（F，F）=Σ ΣO（p）|F（p）−F（p+F（p））|i=1p新对象或更改对象大小。因此，我们介绍-+Ob（p）|Fb（p）− Ff（p + Fb（p））|1导出潜在运动变量zm，其编码不能由zs和za描述的所有运动信息。我们t t t不（八）在训练时间采用自动编码器策略，利用编码器Em从完整视频序列估计zm。更确切地说，EM接收所有视频帧的级联、实例分割图S0和I0以及每个帧的光流在测试时间，根据先验知识对潜在运动码z_m进行采样。分布（即，zmN（0，I））。最后，我们将潜在变量za、zs和zm提供给同一解码器，该解码器输出双向光流和遮挡图。更确切地说，解码器在分别由Ff和Fb平滑度。在[32]之后，我们采用平滑损失其惩罚光流图中不对应于图像X0中的高梯度值的高梯度值（更多细节参见[32]）。监控流。为了提高在我们的多对象设置中生成的视频的质量，我们利用预先训练的FlowNet2 [15]网络进行光流和遮挡估计。FlowNet 2提供了高品质的光- tical流图，我们使用作为我们的运动解码器网络使用标准的L1损失的监督。运动编码不确定性。允许zmtt，运动编码器EM的输出被映射响应遮挡图Of和Ob。注意，后向光流和遮挡图然后被提供给生成模块，而前向光流和遮挡图仅用于损耗计算。3.3. 生成模块和培训目标我们采用受[34]启发的生成模块。在应用于初始帧X0的两个下采样卷积块之后，我们获得特征图。我们对每一帧独立地进行生成和扭曲特征通过KL散度转换为单位高斯分布Lm=−DKL（zm N（0，I））（9）生成模块。生成模块使用最先进的视频生成损失进行训练。在[16，25，41]之后，我们采用了用最小二乘损失训练的PatchGAN鉴别器对于生成器，我们应用结构相似性损失[42]，感知损失[17]，特征匹配损失[41]和标准像素级重建L1损失。114754×个×个4. 实验数据集。我们用两个公开可用的数据集，即Cityscapes和KITTI 360来评估我们的模型。• Cityscapes[7]提供每秒17帧（FPS）的欧洲城市场景视频。出于性能原因，我们将所有图像的分辨率调整为256 128。该数据集包含2975个用于训练的视频序列和500个用于测试的视频序列。由于Cityscapes不提供视频序列的实例和语义分割，因此我们使用[5]来生成它们。• KITTI 360[46]在德国郊区提供了11 FPS的丰富注释视频。我们将所有图像调整为192 64分辨率。我们评估的数据集包含6941个训练视频和423个测试序列。我们汇总了细分类别，以匹配19类城市景观。基线。我们比较与国家的最先进的模型，在复杂的情况下，即盛等视频生成。 [32]，其可以从起始帧及其相关联的语义分割图生成高质量视频。由于Sheng等人。 [32]无法生成控制对象位置的视频，因此我们通过将对象位置张量Bt包含到原始模型的外观编码器中来对其进行修改。我们称这个模型为盛 *。为了公平的比较，我们还测试我们的方法与盛等人的方法的变体。，简称S. Sheng*，其中我们添加了我们的监督流损耗，其使用预训练网络的监督来改善光流预测。我们注意到Sheng等人。 [32]是Pan等人的扩展。[28]并且这两个作品对应于相同的方法。因此，Pan等人 [28]不包括在我们的比较中。Hao等人也是值得的。[12]不包括在基线中，因为它专注于图像生成，并且没有显式地建模语义空间。因此，将Hao等人与我们的方法在视频中的时间一致性和对象位移上进行比较是不公平的。设置. 我们设计了三个测试设置来广泛地评估我们的提议。• Oracle（O）.对于每个视频，我们选择一个必须移动的随机对象，我们向网络提供第一帧和最后一帧之间的地面真实位移，并让模型生成视频。该设置评估网络容量以受益于给定的稀疏运动信息。• 自定义.对于每个输入视频，我们选择一个必须移动的随机对象，我们向网络馈送位移λ=1。5（即，d’n=Adn），并且让模型生成视频。此设置评估网络在不同于地面实况的稀疏运动输入上调节视频的能力。然后，我们还实验了一个激烈的情况下，所有的对象移动后，自定义。在该实验中，提供所有未来位置作为输入。在该实验中，GCN可以被旁路，因为对于每个对象，un=1。该实验不同于地面实况和自定义，其中我们的GCN必须推断用户未提供的所有对象的合理未来位置。在我们所有的实验中，我们从所提供的初始帧开始生成5个未来帧。评估指标。• FVD。我们采用Fre´ chet视频距离（FVD）度量[37]来评估生成帧的视频质量和时间一致性。我们计算地面真实测试视频和生成的视频之间的FVD。FVD越低越好。• NDE。我们通过将归一化位移误差（NDE）计算为由用户指定的坐标与对象在生成的视频中结束的坐标之间的欧几里得距离来测量生成的视频与用户提供的运动的依从性，然后将该欧几里得距离计算为地面实况开始坐标和结束坐标的归一化欧几里得距离通过YOLOv3 [ 30 ]检测所有对象我们丢弃了由于视频的分辨率而无法在地面实况视频中检测到的对象，或者因为对象太小而无法被YOLOv3正确检测到。NDE越低越好。• 由于存在伪影、遮挡和低质量图像，生成的视频中的对象位置可能难以跟踪。因此，我们在这里报告YOLOv3检测器在生成的视频中的准确度（Acc）。准确度越高越好。型号FVD↓NDE↓Acc↑答：我方建议288 1.01 0.84B：㈧不含GCN 369 1.42 0.70C：（A）w/o Obj.互动375 1.38 0.76D：（A）w/o Sup.301 1.13 0.84表1. Cityscapes的消融研究结果4.1. 消融研究我们对Cityscapes进行了消融研究，以评估模型各个组件的影响。我们通过移除运动估计模块并直接使用出现编码器中的用户控制对象Bt表1-B示出了移除运动估计器导致所有三个度量的下降。在没有GCN的情况下，网络无法推断场景中对象的位置，并且无法移动对象。视频质量也会下降（FVD 369 vs FVD 289）。14755设置模型Cityscapes KITTI 3604.2. 与最新技术水平的定量比较。我们将我们的方法与Sheng等[32]的方法及其改进的Sheng* 和S. Sheng*.据我们所知，Sheng等人[32]模型的方法是在复杂环境中生成视频的最相似的工作，也利用了帧的语义空间。选项卡. 图2示出了所有模型的定量评价。我们首先在Oracle设置中比较我们的建议，其中一个随机对象n的位移dn是从地面实况帧计算的。从NDE和Acc中，我们观察到我们的方法始终优于最先进的方法，使用户能够在两个数据集中更精确地移动对象（参见Tab.2-Oracle re-表2. Oracle和Custom设置中的定量比较。N是用户控制对象的数量。N= 1随机选择一个对象t+ 1t + 3t + 5图3. 在Cityscapes数据集的自定义设置中使用地面实况参考进行定性比较。移动对象在t= 0时的位置以红色突出显示。放大查看详细信息。然后，我们测试的GCN的版本，不建模对象之间的相互作用。为此，我们移除GCN的节点之间的所有边，从而将每个对象视为独立的。选项卡. 图1-C示出，虽然对象被正确地移动（NDE和Acc类似于A），但是视频质量相当差。在补充材料中，我们定性地表明，网络不能一致地移动其他对象。最后，我们还测试了网络没有流量监督（即。选项卡. 1-D）。正如预期的那样，NDE和FVD的性能尽管如此，使用FVD测量的图像质量的质量仍然高于当我们不对对象交互进行建模时（即：选项卡. 1-C）。结果）。特别是，Sheng等人 [32]的NDE在Cityscapes和KITTI 360中分别降低了47%和53%。关于视频质量，它评估了时间一致性和图像质量，我们显着提高了Cityscapes中的最先进性能（FVD降低了22。79%来自[32]）在KITTI 360中，我们比Sheng等人 [32]稍差。我们假设这一结果是由KITTI 360的低帧速率引起的，其奖励Sheng等人。 [32]通过仅对自我运动进行建模而忽略其他对象通过Sheng*结果，我们注意到添加信息以移动场景中的对象有助于通过NDE的只有通过额外的监督（即S. Sheng*），FVD部分降低。然而，我们的模型在移动场景中的对象方面要好得多，同时具有比Sheng* 和S更好的视频质量。Sheng *.选项卡. 2-自定义还显示自定义实验，其中di乘以λ=1。5从地面真实位移。再次，我们观察到，我们的建议提供了更好的控制对象的运动相比，国家的最先进的方法，我们的方法将对象移动到与地面实况不同的位置，表明运动编码模块正确地遵循用户输入，推断丢失的对象并以时间一致的方式组成它们。我们还进行了实验，我们要求模型移动所有对象（即N个对象）。Tab的最后几行2表明，我们的建议取得了最好的结果，即使在这个最后，我们注意到，我们的方法没有监督光流（表。1-D）优于表1中比较的现有2在视频质量和对象控制方面这个结果证实了我们的方法的性能不是由于我们使用的监督光流，而是我们的架构。[32个]GTλ =1。5（N）FVD↓无损检测↓加计↑FVD↓无损检测↓加计↑圣[32]3732.110.684433.920.68Oracle盛 *4982.120.585073.660.66（一） S. 盛 *4931.780.575273.790.33我们2881.010.844631.830.75圣[32]3731.530.664433.980.62自定义盛 *4981.610.575063.270.60（一） S. 盛 *4931.410.595273.340.30我们3030.660.884702.060.81圣[32]3731.480.734432.930.48自定义盛 *4981.470.675063.190.49（全部）S. 盛 *4931.380.605272.710.24我们3210.960.864641.580.72λ=114756t+ 1t + 3t + 5t + 1t + 3t + 5图4. 在Cityscapes数据集[7]上预测帧t+ 1，t+ 3和t+ 5的结果，参考地面实况。在前三列中，我们将信号灯附近的行人移动到左侧。在最后三列中，我们移动汽车穿过街道。移动对象在t= 0时的位置以红色突出显示。放大查看详细信息。定性比较。我们现在报告测试模型的定性比较。图4显示了两组实验的结果，其中我们为网络提供了两个不同的初始帧。在第一组图像中，我们希望将行人向左移动，该行人在地面实况中处于用红色边界框突出显示的位置。所有三条基线都无法移动行人。Sheng等人。 [32]只将自我车辆稍微向右移动，将行人留在同一位置，同时移动整个场景。Sheng* 和S. Sheng* 将自我车辆向前移动，但无法移动行人，行人在所有帧中完全保持在同一位置。相反，C2M正确并逐渐移动到行人的左侧，这超出了红色边界框。在图1B的最后三列中的第二组图像中。4，我们的目标是移动一辆车，在地面的真相是在位置突出显示为红色。Sheng等人 [32]只能在汽车保持在相同的起始位置时向前移动自我运动其他两个基线稍微移动轿厢，但不移动到用户指定的期望位置然而，我们的提议将汽车显著地向左移动，这部分地从边界框中出去，而在视频的自我运动中变化很少。最后图图3示出了我们的模型如何能够以不同的位移修改货车将其移动到地面实况位置（λ=1）和自定义坐标（λ=1. （五）。如在先前的实验中所见，基线在将白色货车向左移动时失败。相反，它延伸了货车的后部与此相反，其中λ=1且λ=1。图5货车从具有不同水平移位的绑定框出发，描绘了我们的网络可以正确地将货车的位置改变到用户指定的位置。5. 结论在这项工作中，我们介绍了点击移动，视频生成的框架，允许用户选择场景中的关键对象和控制他们的运动，通过指定他们的位置在最后一个视频帧。在测试时，我们的方法接收初始帧和相应的实例分割图，以生成从所提供的帧开始的视频，并尊重由用户指定的对象运动场景中的对象通常不是彼此独立的。因此，我们引入了一个新的GCN框架，采用特定的消息传递规则来建模对象交互，同时考虑用户输入。实验上，我们证明了我们的方法优于国家的最先进的方法，建议的GCN架构允许更好的运动控制。作为未来的作品，我们计划扩展我们的方法，允许生成可变长度的视频。6. 致谢E. R.感谢欧盟项目PROTECTOR的财政支持：保护礼拜场所。这项工作是在FBK和特伦托大学之间的视觉和学习联合实验室S. 盛 *[32]第三十二话GT我们14757引用[1] Photoshop：现在是世界上最先进的创意AI应用程序。https://tinyurl.com/yzg97uaq网站。2021-02-21. 一个[2] Pierfrancesco Ardino ， Yahui Liu ， Elisa Ricci ， BrunoLepri，and Marco De Nadai.面向复杂城市场景处理的语义引导修复网络。在ICPR，2021。二个[3] Caroline Chan ， Shiry Ginosar ， Tinghui Zhou ， andAlexei A Efros.大家跳舞吧在ICCV，第5933-5942页二个[4] Lele Chen ， Ross K Maddox ， Zhiyao Duan ， andChenliang Xu.具有动态像素丢失的分层跨模态说话人脸生成。在CVPR中，第7832-7841页，2019年。2[5] Bowen Cheng，Maxwell D Collins，Yukun Zhu，TingLiu，Thomas S Huang，Hartwig Adam，and Liang-ChiehChen. Panoptic-deeplab：用于自下而上全景分割的简单、强大且快速的基线。在CVPR中，第12475- 12485页六个[6] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.Stargan v2：多领域的多样化图像合成。在CVPR，2020年。一个[7] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，第3213-3223页，2016年。六、八[8] Haoye Dong ， Xiaodan Liang ， Yixuan Zhang ， XujieZhang，Xiaohui Shen，Zhenyu Xie，Bowen Wu，andJian Yin.具有对抗性解析学习的时尚编辑在CVPR中，第8120一个[9] 切尔西·芬恩伊恩·古德费罗和谢尔盖·莱文。通过视频预测进行物理交互的无监督学习。 In D. 李， M 。Sugiyama，U.勒克斯堡岛Guyon和R.Garnett，编辑，神经信息处理系统进展，2016。二个[10] 切尔西·芬恩伊恩·古德费罗和谢尔盖·莱文。通过视频预测进行物理交互的无监督学习。arXiv预印本arXiv：1605.07157，2016。二个[11] Jean-Yves Franceschi ， Edouard Delasalles ， MickaelChen，Sylvain Lamprier，and P.加里纳利随机潜在残差视频预测。ArXiv，abs/2002.09219，2020。二个[12] 郝泽坤，黄勋，和Serge Belongie。具有稀疏轨迹的可控视频生成。在CVPR中，第7854-7863页，2018年。二、三、六[13] Jiawei He ， Andreas Lehrmann ， Joseph Marino ， GregMori，and Leonid Sigal.使用整体属性控制的概率视频生成在ECCV，第452-467页，2018年。一个[14] 何永汉、赵传元、彭文孝、金国伦。Sme-net：通过强化学习进行参数视频预测的稀疏运动估计。在ICCV，第10462-10470页，2019年。二个[15] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.Flownet2.0：深度网络光流估计的演变在CVPR中，第2462-2470页五个[16] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR中，第1125-1134页，2017年。五个[17] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。参见ECCV，第694-711页。施普林格，2016年。五个[18] Manoj Kumar 、 Mohammad Babaeizadeh 、 DumitruErhan、Chelsea Finn、Sergey Levine、Laurent Dinh和Durk Kingma。Videoflow：一个基于条件流的随机视频生成模型。在ICLR，2020年。二个[19] 亚历克斯·X 放大图片作者： Lee ， Richard Zhang ，Frederik Ebert，P. Abbeel、Chelsea Finn和S.莱文随机对抗视频预测。ArXiv，abs/1804.01523，2018。二个[20] 李东勋，刘思飞，顾金伟，刘明宇，杨明轩，和简·考茨对象实例的上下文感知合成和放置。arXiv预印本arXiv：1812.02350，2018。二个[21] Yijun Li，Chen Fang，Jimei Yang，Zhaowen Wang，Xin Lu，and Ming-Hsuan Yang.基于流的静态图像时空视频预测在ECCV，第600二个[22] Yitong Li，Martin Min，Dinghan Shen，David Carlson，and Lawrence Carin.从文本生成视频。在AAAI，第32卷，2018年。一个[23] Xiaodan Liang，Lisa Lee，Wei Dai，and Eric P Xing.用于未来流嵌入式视频预测的双运动gan。在ICCV，第1744-1752页，2017年。二个[24] Yahui Liu ， Enver Sangineto ， Yajing Chen ， LinchaoBao，Haoxian Zhang，Nicu Sebe，Bruno Lepri，WeiWang，and Marco De Nadai.平滑无监督图像到图像翻译的未纠缠潜在样式空间。在CVPR，第10785-10794页，2021年6月。一个[25] Xudong Mao ， Qing Li ， Haoran Xie ， Raymond YKLau，Zhen Wang，and Stephen Paul Smolley.最小二乘生成对抗网络。在ICCV，第2794-2802页，2017年。五个[26] Michael Mathieu，Camille Couprie，and Yann LeCun.超越均方误差的深度多尺度视频预测。arXiv预印本arXiv：1511.05440，2015。二个[27] Kamyar Nazeri ， Eric Ng ， Tony Joseph ， Faisal ZQureshi，and Mehran Ebrahimi.边缘连接：具有对抗性边缘学习的生成式图像修复。arXiv预印本arXiv：1901.00212，2019。一个[28] Junting Pan，Chengyu Wang，Xu Jia，Jing Shao，LuSheng，Junjie Y

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

稀疏运动控制视频生成

行业分类-设备装置-基于部分稀疏约束非负矩阵分解的视频运动特征提取方法.zip

用随机数生成稀疏矩阵，并生成三元组

matlab压缩感知模型及稀疏信号的生成

C语言生成随机稀疏矩阵

输入行列生成稀疏矩阵

matlab如何随机生成稀疏矩阵

matlab视频低秩稀疏分解

稀疏矩阵的稀疏度怎么控制

matlab生成稀疏一矩阵

若要求一个稀疏图G的最小生成树，最好用 算法来求解。

视频稀疏transformer

用R语言写一个生成负二项稀疏数据的代码

用R语言写一个生成利用二元泊松数据的负二项稀疏数据的代码

python生成随机稀疏对称矩阵并存入Excle表格

编写一段代码随机生成一个10*10的稀疏矩阵，通过稀疏矩阵的快速转置算法进行转置

稀疏贝叶斯与稀疏重构

focuss稀疏恢复 matlab

稀疏信号重构matlab代码

matlab 稀疏表示法图像融合

yolo稀疏训练时稀疏因子如何确定

最新资源

若要求一个稀疏图G的最小生成树，最好用算法来求解。