没有合适的资源?快使用搜索试试~ 我知道了~
1vid2vidseg2vid基于单语义标签映射的潘俊婷1,4,王成宇1,徐佳2,邵晶1,路胜3,4,严俊杰1,王晓刚1,4商汤研究1,华为诺亚方舟实验室2,北京航空航天大学香港中文大学-商汤科技联合实验室4摘要本文提出了视频生成的新任务条件是一个单一的语义标签地图,它提供了一个很好的平衡之间的灵活性和质量的生成过程。不同于典型的端到端方法,即在单个步骤中对场景内容和动态进行建模,我们提出将这个困难的任务分解为两个子问题。由于当前的图像生成方法在细节方面比视频生成做得更好,因此我们通过仅生成第一帧来合成大尺寸的高质量内容。然后,我们根据其语义的场景动画,以获得时间上连贯的视频,给我们带来了很好的我们采用cVAE预测光流作为一个有益的中间步骤,以生成一个视频序列的条件下,初始单帧。语义标签映射被集成到流预测模块中,以实现图像到视频生成过程中的主要改进。在Cityscapes数据集上的大量实验表明,我 们 的 方 法 优 于 所 有 竞 争 方 法 。 源 代 码 将 在https://github.com/junting/seg2vid上发布。1. 介绍一个典型的视觉场景由前景物体和背景组成在动态场景中,背景的运动是由摄像机的运动决定的,而摄像机的运动与前景物体的运动无关。场景理解是计算机视觉发展的重要组成部分,它包括对前景物体和背景的理解以及它们的变化除了使用识别模型之外,场景理解还可以通过生成方法来完成[34]。在这项工作中,我们专注于使用生成模型来理解我们的视觉世界。在图像生成方面已经有了很大的进展,以解决静态场景建模。研究人员已经提出了仅从噪声[10]或从预噪声生成图像的吕生为通讯作者。图1:与现有生成任务的比较。从上到下:图像到图像的转换,视频到视频,以及我们的图像到视频合成。我们的方法只需要一个语义标签地图作为输入,并合成一个序列的照片般逼真的视频帧。定义的条件,如属性,文本和姿势[41,20]。在最近的工作中,人们还注意到以配对[12]或非配对数据[42]的语义信息为条件的图像条件图像生成方法提供了一种处理现有图像的方法,并具有作为数据增强策略以辅助其他计算机视觉任务的潜在价值虽然图像生成任务仅对静态场景进行建模,但对于视频预测,还必须研究时间动态。通过从历史运动模式中学习来训练模型还有另一种工作线的视频合成没有任何历史帧。与图像生成的研究类似,一些工作研究了无条件视频生成。也就是说,通过使用生成对抗网络来学习时空潜在空间与视频剪辑之间的映射,直接从噪声中生成视频剪辑[31,25]。另一组研究人员致力于视频到视频翻译[37],其中根据对齐的语义表示序列生成帧序列3733pix2pix3734语义标签映射第一起始帧第二帧序列实验结果表明,在引入语义表示的情况下,该模型能更好地学习动态对象的运动,特别是对于包含多类对象的复杂场景我们用光流来模拟运动一旦预测了流,它们就被直接应用于扭曲第一帧以合成未来的帧。最后,增加一个受[21]的启发,我们进一步改进了图2:我们的两步生成网络概述。在第一阶段,我们从一个语义标签映射生成起始帧。在第二阶段,我们使用我们的流预测网络将初始帧转换为视频序列。在这项工作中,我们研究了视频生成的设置类似于视频到视频的工作[37],除了它仅以单帧的语义标签映射为条件COM-到以前的作品视频生成,我们的设置不仅提供了对生成过程的控制,但也允许结果的高度可变性。在语义标签映射上进行条件化生成有助于避免产生不期望的结果(例如.在人行道上行驶的汽车),这经常发生在无条件发电中。此外,我们可以生成以不同速度或不同方向移动的汽车,这在视频到视频设置中是不可能的。解决这个新任务的一个直观想法是训练一个端到端的条件生成模型。然而,将这样的模型应用于由不同对象和背景组成的数据集并不容易,即,不同场景中的不同对象具有不同的运动。实际上,训练一个端到端模型来同时对这些对象和场景的外观和运动进行建模是非常困难的。因此,如图所示2、我们采取分而治之的策略,旨在以渐进的方式对外观和在第一阶段中,我们的目标是将语义标签映射转换为一个框架,使得场景的外观是合成的,这属于图像到图像的翻译范畴。在翻译过程中,该模型只关注于生成具有合理内容的高质量图像在下一阶段中,基于所生成的帧来预测场景的未来运动。具体来说,一个条件VAE是用来模拟未来运动的不确定性。与现有的视频预测任务不同,在现有的视频预测任务中,可以从历史帧中估计运动信息,在我们的设置中,我们只有一个语义标签图和一个生成的帧可用。我们认为,这是重要的,tant的模型,以利用第一帧的语义意义时,预测运动。例如,建筑物和行人具有非常独特的运动。我们将语义标签图和生成的帧作为输入,并将它们送入运动预测模型。实证使用双向流和几何一致性的流预测和未来帧生成的性能实验结果证明了该方法在视频生成中的有效性我们的贡献如下。1. 我们介绍了一个单一的语义标签地图上的条件视频生成的新任务,允许灵活性和质量之间的良好平衡相比,现有的视频生成方法。2. 这个困难的任务被分成两个子问题,图像生成之后是图像到序列生成,这样每个阶段可以专门处理一个问题。3. 在只有一个起始帧的情况下,我们充分利用语义分类先验进行运动预测。它有助于预测更准确的光流,从而产生更好的未来帧。2. 相关工作图像生成有许多关于图像生成的工作,一般可以分为两类,无条件生成和条件生成。在无条件生成中,一些工作扩展了GAN[10] 或VAE [16]从噪声映射到真实数据分布。自回归架构在每个像素的基础上对图像进行建模[32,22]。在第二类中,条件模型生成给定类别,文本描述,场景图或图像的图像[20,2,41,15,26]。特别是对于图像翻译任务,研究人员研究如何从语义表示(如语义标签映射(配对和未配对))中生成有意义的图像([12,42,38,3,26])。然而,在图像生成任务中,场景的真实感建模没有考虑它们的运动信息。视频生成与图像生成类似,视频生成也可分为两类:concept 和 无条件的为 的 前 类别,VideoGAN [34]在假设背景是静止的情况下明确地将场景该模型仅限于简单的情况,并且由于摄像机的移动而无法处理具有移动背景的场景TGAN [25]首先生成一个潜变量序列,然后合成一个帧序列Zimg2imgimg2视频3735流译码器光流(Bw/Fw几何一致性语义标签映射zm视频序列翘曲zI0语义起始帧标签映射跳过遮挡遮罩连接(Bw/Fw)a) 运动编码器b)视频解码器后处理网络视频序列图3:所提出的图像到视频生成网络的总体架构。它由两部分组成:a)运动编码器和b)视频解码器。对于任何一对双向流预测,一致性检查仅在非遮挡区域中计算。基于这些潜在变量。MoCoGAN [31]还尝试将随机向量序列映射到帧序列。然而,他们的框架将视频分解为内容子空间和运动子空间,使视频生成过程更可控。对于条件视频生成,它仍然处于早期阶段。最近的一项工作是vid2vid [37],其中作者旨在转换语义表示的序列,例如。语义标签映射和草图映射到视频帧序列。我们的工作属于有条件视频生成的范畴,但与vid2vid不同,我们的方法只需要一个语义标签图作为输入,这使得生成过程更加自由。视频预测一些工作以确定性的方式对未来的运动进行建模。在[23,29,33]中,未来预测在潜在空间中进行,并且未来帧的表示这些模型被直接训练以优化预测帧和地面实况帧之间的重建损失,诸如然而,当它们计算同一起始帧的所有可能的未来结果的平均值时,它们倾向于收敛到模糊的结果。在[19,13,8]中,使用光流或滤波器来预测未来运动,其中将估计和然后相应的空间变换应用于历史帧以产生未来帧。结果是尖锐的,但缺乏多样性。一组研究人员[39,36,7,1]引入了用于视频预测的条件变分自编码器,以模拟未来运动的不确定性,从而使结果既清晰又多样。类似于我们的工作,沃克等人。[35] Li et al.[18]尝试从静态图像预测多个未来帧。在训练阶段,他们在地面上人类注释的或计算的真实光流,作为预测这种流的监督,并将给定帧变换为未来帧。与Walker et al.[35] Liet al.[18],我们以无监督的方式学习光流,即,而不采取任何预先计算的流量作为监督。3. 语义标签映射到视频生成生成视频序列V={I0,I1,...,从单个语义标签图S转换多个标签图I T }允许将多个标签图转换成视频的更大灵活性,但也更具挑战性。在这项工作中,我们建议将这样一个困难的任务分为两个相对容易的子问题 , 并 分 别 解 决 每 个 问 题 , 即 , i ) 图 像 到 图 像(I2I):基于条件GAN的图像生成模型[38],将给定的语义标签映射S映射到起始帧ii)图像到视频(I2 V):图像-序列生成网络,其产生帧序列V={I=0 ,I=1 ,., I.I.I.T},基于所生成的起始帧I.I.0和潜在变量z。在这个阶段,我们有一个专门化相应任务的模型,整体表现良好。3.1. 图像到图像(I2I)图像到图像翻译的目的是学习源域中的图像到目标域中的对应图像的 在现有的方法[12,42,38,3]中,我们采用最先进的图像翻译模型pix2pixHD [38]来从语义标签映射生成图像。它包括一个由粗到精的架构,以逐步产生高质量的图像,3736不X细节,同时保持全局一致性。请注意,翻译阶段不限于此方法和其他图像其中,F是流预测模块,其由运动编码器和流解码器组成,如图1所示。翻译方法可以替代pix2pixHD。图3. W f={Wf,.,Wf},其中Wf =(uf,vf)是1吨从I0到I t的前向光流和W b={Wb,.,Wb},1T3.2. 图像转视频(I2V)关于WB =(u b,v b)是后向光流。Of={of,., of}和Ob={ob,.,ob}是多帧在本节中,我们将介绍如何将cVAE用于图像1T1T序列生成条件上的初始帧从Sec.第3.1条它由两个子模块组成,即,流预测和从流生成视频帧。图3示出了所提出的图像到视频模型的网络结构和组件条件VAE -与根据多个帧进行的未来预测相比,其中可以基于过去的序列来估计未来的运动,根据单个帧预 测的 运动 可 以更 加多 样 化。 我们 采用 条 件VAE(cVAE)模型[39]作为主干来捕获以静态图像为条件的多个可能的未来运动。所提出的cVAE由编码器和解码器组成。编码器Q(z|..I T}转换为潜在变量z,该潜在变量z携带关于以第一帧I 0为条件的运动分布的信息。为了实现这样的映射,潜在变量z由两部分组成,一部分从包括I0和V两者的整个序列投影,另一部分从包括I 0和V两者的整个序列投影。前后遮挡图。我们定义一个像素值当帧之间没有对应时所有的光流和遮挡图都由我们的图像到流模块联合预测请注意,双向和遮挡贴图都是在没有任何预先计算的流作为监督的情况下学习的。视频帧生成-利用预测的光流,我们可以通过扭曲初始帧来直接生成未来的帧。然而,仅通过变形获得的生成帧具有固有的缺陷,因为对象可能在一个帧中不可见,但会出现在另一个帧中。为了填补由遮挡或物体进入或离开场景造成的漏洞,我们建议在帧扭曲后添加一个后处理网络。它将扭曲帧及其对应的遮挡掩模Ob作为输入,并生成细化帧。我们模型的最终输出定义如下:I=P(ob(x)·I0(x+Wb(x),(2)其它仅来自初始帧I0。解码器P(V |z,I0)tt然后基于采样的z和I0重建序列并输出V0。在训练期间,编码器Q(z|V,I0)学习匹配标准正态分布N(0,I)。当运行推理时,cVAE将从给定的起始帧I0和从N(0,I)采样的潜在变量z生成视频序列,而不需要运动编码器。其中P是后处理网络,x表示帧中位置的坐标。损失函数-我们的损失函数包含每像素重建和不确定性建模。对于每像素重建,我们计算前向和后向方向上的损失,公式为流预测-我们首先使用一个图像编码器来转换-ΣTLr(Wf,Wb,V)=Σ of(x)|I0(x)−It(x+Wf(x))|1将起始帧形成为潜在向量zI0作为TTT的一部分潜在变量z。整个序列被发送到另一个+o b(x)|I(x)−I(x +Wb(x))|、序列编码器计算zm,这构成了另tt0t1(三)z的一部分用于不确定性建模。zl0和zm被合并为一个向量z,该向量被馈送到解码器以计算未来的光流对于运动生成,我们预测双向流,即。从初始帧到未来帧的前向流和从未来帧到初始帧的反向流。计算循环流允许我们执行前向-后向一致性检查。对于出现在两个帧(A和B)中的区域,可以从A到B和从B到A两者捕获两个帧之间的对应关系。我们计算一个遮挡掩模来忽略生成的帧中被遮挡或缺失的区域,以便仅对未被遮挡的区域进行一致性检查其中T是生成的序列的长度。我们只计算非遮挡区域的重建,以避免学习不正确的变形。相邻像素通常属于同一对象,因此它们往往具有相似的位移。因此,类似于以前的工作[40,30],我们还添加了一个平滑约束,以鼓励局部邻域中的流相似。Lfs(W f,W b)=|Wu f|1个以上|孟加拉国 b|1(4)我们计算非遮挡区域的前向-后向一致性损失:地区将所有这些放在一起,cVAE是光流以及遮挡掩模,ΣTLfc(Wf,Wb)=Σ of(x)|Wf(x)−Wb(x+Wf(x))|1向前和向后方向,定义为:t t t t t ttx+o b(x)|Wb(x)− Wf(x + Wb(x))|1、Wf,Wb,Of,Ob=F(I0),(1)t tt不(五)3737为了训练图像修复网络,我们应用了L1损失和感知损失[14],这对图像生成很有用因此,我们的数据丢失可以用公式表示为上述各项的加权和。Ldata(V,V)=λr Lr+λfs Lfs+λfc Lfc背景语义标签映射帧序列背景序列编码器+Ll1(V,V)+Ll1(φ(V),φ(V))+λ p|1 − O b|1+ λ p|1 − Of|1、(六)前景语义标签映射帧序列ZBG其中φ是VGG-19 [27],从中我们从前16层提取和收集特征。我们在λ p = 0的遮挡贴图上添加一个惩罚。1,以避免所有像素都被遮挡的平凡解决方案(当像素变得前景运动编码器ZFG在下一帧中被遮挡 权重设置为:λ r=λ fs=λ fc=λ l1=1和β=0。1.一、为了对运动不确定性进行建模,我们结合KL发散损失,使得Q(z|X)匹配N(0,I)。cVAE的训练损失是与KL发散损失相结合的数据损失L cVAE(V,V)= L data+βDkl(pφ(z|(五)||p(z))。(七)3.3. 基于语义标签映射的流量预测与以多个帧为条件的视频预测不同,从静态帧生成视频不能访问历史运动信息。为了推断静态帧中对象的未来运动,模型需要理解该对象的语义类别及其与其他对象和背景的交互例如,汽车将停止时,交通灯是红色和移动时,为了促进整个帧的未来运动估计,我们将描述整个场景的语义信息的语义标签映射到前面小节中讨论的流预测模块中。我们探讨了两种方式集成的语义标签图的流量预测。 在第一种方法中,我们将语义标签映射扩展为几个热图,在对应于语义类别的位置上填充1,在其他位置填充0。 这些热图与生成的起始帧连接并馈送到cVAE模型以用于未来的帧合成。在另一种方法中,我们进一步将热图分成两组,即,前景热图和背景热图,如图所示4.第一章每组热图被馈送到单独的序列编码器以得到潜在向量zFG和zBG。然后将它们与zI0成为流解码器的输入第4节、实验实验结果表明,结合语义标记映射有助于计算更精确的流,从而提高视频生成性能。4. 实验在本节中,我们将展示数据集并描述有关实现的详细信息。我们评估我们的方法图4:语义序列编码器。每个序列编码器只关注于学习前景或背景运动。与几种定性和定量指标的基线方法进行比较。我们还进行消融研究,以确认使用语义标签地图的视频生成的有效性。4.1. 数据集和评估指标数据集我们在Cityscapes数据集上进行了实验,同时我们在许多其他数据集上提供了定性Cityscapes[6]由在街道上行驶的汽车记录的城市场景视频它包含2,975个训练、500个验证和1,525个测试视频序列,每个序列包含30帧。地面实况语义分割掩码仅适用于每个视频的第20帧。我们使用DeepLabV3[5]来计算所有帧的语义分割图,用于训练和测试。我们使用训练集中的所有视频来训练模型UCF101[28]数据集包含101个动作类的13,220个KTH Action数据集[17]由600个视频组成,这些视频是人们执行六个动作之一(步行,慢跑,跑步,拳击,挥手,拍手)。KITTI[9]类似于Cityscpes,是从穿越街道的汽车上记录下来的。评估我们在本节中提供定量和定性评估结果。对于定性评估,我们进行了人类主观研究,以评估我们的方法以及基线方法。我们为每种方法随机生成100个视频序列,将每个生成的视频与另一种随机选择的方法的结果配对。参与者被要求从每对视频中选择最真实的视频。我们在10名参与者对每对视频进行评估后计算人类偏好评分。Fre'chetInceptionDistance(FID)[11]测量两组图像之间的它被证明与人类对视觉质量的判断密切相关,3738MoCoGAN FG vid2vid我们的 FID8.77 3.69 4.863.52表1:输入是单个语义标签映射的视频生成方法的比较通 常 用 于 评 估 GAN 样 本 的 质 量 。 FID 是 通 过 计 算Inception网络的两个特征表示之间的Fre'chet距离来计算的与[37]类似,我们使用视频初始网络[4]来提取时空特征表示。4.2. 实现细节我们的方法采用单个语义标签映射S,图5:从静态图像进行视频预测的不同方法之间的比较上 一 篇 : Ground Truth 右 上 角 : FG 。 左 下 角 :MoCoGAN。右下角:img2vid(我们的)。我们的方法保持了视觉质量,而其他方法迅速下降。在单个步骤中预测T= 8帧我们调整所有帧的大小,128×128并使用DeepLabV3 [5]提取语义分割图进行训练。我们不使用任何流图作为训练的基础事实在cVAE中,运动编码器构建在用最大池化层截取的2D卷积层的堆栈潜在向量z具有维度1024,896用于前景运动,128用于背景运动。对于流编码器,我们使用三个块,每个块由3D卷积层组成,并使用双线性上采样层截取,该层在空间和时间维度上逐渐恢复输入分辨率对于后处理网络,我们采用[24]中的U-Net架构。4.3. 消融研究我们在Cityscapes数据集上进行了大量的实验,以分析语义标签图和光流对运动预测的贡献。我们已经表明,光流是可靠的运动表示,以传达帧之间的运动和更好的视觉质量。图9示出了没有光流的模型产生模糊帧。相比之下,我们的基于流的解决方案保留了更好的细节,即使在快速移动的对象,并产生更少的文物。我们还比较了没有语义标签映射的模型生成的帧序列和两种集成方法。如图10中,结合语义标记图的模型能够同时捕获前景对象运动和背景运动,而没有结合语义标记图的模型不能估计独立的前景对象运动。通过进一步将语义标签图分为背景和前景,它可以捕获更多的红色矩形标记的结构细节。正如预期的那样,语义信息在从单个帧预测时生成对象运动中起着重要作用。我们通过将语义类分为基于背景和前景的两组MoCoGAN FG OursFID 7.06 2.861.80表2:采用单个起始帧作为输入的视频预测方法的比较。4.4. 基线我们将我们的网络与在Cityscapes数据集上训练的五种最先进的基线方法进行了比较。MoCoGAN[31]是一个无条件的视频生成模型。在这里,我们还比较了MoCoGAN的条件设置,给定初始帧x0作为输入。FlowGrounded(FG)[18]是一个来自静态图像的视频预测模型。我们比较我们的图像到视频阶段与此方法的视频生成和视频预测任务。Vid2Vid[37],vid2vid的目标是将语义表示序列映射到视频帧序列,其中未来的运动在语义分割序列中近似给定我们评估vid2vid,看看我们的方法是否可以与这个“上限”相媲美4.5. 结果在表1中,我们报告了Cityscapes数据集的结果在性能方面,FID越在表1中,我们表明,与所有竞争方法相比,我们的方法具有最低的FID请注意,这里的结果与Wang等人报告的结果略有[38]因为由于GPU内存限制,我们只评估分辨率为1024×512的8帧序列我们在验证集上总共生成了500个短序列我们还提供了视频预测的结果时,只有开始帧。如表2所示,我们的方法在从视频预测中优于所有其他最先进的方法。3739t = 3 t = 7 t = 3 t = 7图6:与其他竞争基线的比较。请注意,vid2vid使用一系列语义标签映射,而其他方法只接受一个作为输入。请放大以获得最佳视图。t=0t=5 t=11t=5 t=11 t=5 t=11t=1 t=5图8:从在cityscapes数据集上训练的模型生成的KITTI样本。我们的MoCoGAN FlowGrounded图7:与UCF-101数据集和KTH人类数据集的其他竞争基线的比较。请放大查看详细信息。静态图像定性结果图6将我们生成的结果与其他方法进行了比较。MoCoGAN在建模视频序列(运动和外观)方面的能力有限FG无法合成场景的细节,例如:背景建筑的窗户完全不见了增加模糊度。我们的方法在序列的持续时间内保持场景的语义结构,并且包含比前两种方法更精细的细节。该方法对目标的未来运动进行了合理的估计,并产生了时间相干的与地面真值序列相比,我们的模型可以生成语义正确的样本,但具有不同的属性,例如,地面实况序列中的白色汽车在我们的结果中显示为银色汽车。对于vid2vid,其中输入是语义标签映射的序列,示出了具有很大细节的真实图像,但是在保持跨帧的时间一致性方面受到限制,例如,t=3时的银色车vid2vid我们FGMoCoGANGT3740t = 1 t = 5(一)(b)第(1)款图9:我们方法的消融研究左上:GT。右上:无分割标签图和流。左下角右下角:我们的完整模型我们的方法保持更好的视觉质量。人类偏好评分seg 2 vid(我们的)/MoCoGAN1.0/0.0seg 2 vid(我们的)/FG0.78/0.22seg 2 vid(我们的)/vid 2 vid 0.37 /0.63(c)第(1)款表3:关于视频生成方法的用户研究。人类偏好评分seg 2 vid(我们的)/MoCoGAN1.0/0.0seg 2 vid(我们的)/FG0.82/0.18表4:视频预测方法的用户研究。在t=7时变为黑色,而我们的方法保持相同的颜色。为了进一步证明我们的方法在预测一般运动上的有效性如图7.我们的方法很好地保留了人体结构,并合成了复杂的非线性运动,如滑雪,拉小提琴和步行。我们在Cityscapes上训练了模型,并在KITTI的样本上进行了测试,以显示该方法的泛化能力,如图所示。8.用户研究如表所示3也表明,我们的方法是最受欢迎的,除了vid2vid。除了合成数据的结果,我们还报告了视频预测任务的结果。如图5.我们的方法可以很好地预测背景运动,同时捕捉到左侧汽车的运动。我们的方法很好地保留了场景的细节和结构,而其他方法则遭受严重的变形。表4显示,参与者发现我们的方法更现实。5. 结论在这项工作中,我们介绍了新的视频生成任务的条件下,只有一个单一的语义标签地图,并提出了一种新的方法,这个任务。与其端到端地学习这一代人,这是非常具有挑战性的,(d)其他事项图10:我们比较了使用语义标签映射进行流和帧预测的三种不同变体。(a)地面实况,(b)无语义标签图,(c)具有语义标签图,(d)具有用于背景和前景对象的单独的语义标签图采用分而治之的策略,以渐进的方式对外观和运动进行建模,以获得高质量的结果。我们证明,引入语义信息带来了很大的改善时,预测从静态内容的运动。与其他基线相比,令人印象深刻的性能表明所提出的视频生成方法的有效性鸣谢。这项工作得到商汤科技集团有限公司的部分支持,部分由香港研究资助局的通用研究基金资助,资助额为CUHK14202217,CUHK14203118,香港中文大学14205615中大14207814 中大14213616中大14208417,中大14239816。我们还要感谢周宇聪的技术支持。3741引用[1] M.巴巴伊扎德角Finn,D.埃尔汉河H.坎贝尔和S. 莱 文 随 机 变 分 视 频 预 测 。 arXiv 预 印 本 arXiv :1710.11252,2017。3[2] G. Balakrishnan , A.Zhao , 中 国 粘 蝇 A. 诉 Dalca ,F.Durand和J.肠标签。合成人类在看不见的姿势的图像。arXiv预印本arXiv:1804.07739,2018。2[3] K. Bousmalis,N.Silberman,D.Dohan,D.Erhan和D.克-伊什南。无监督像素级域适应与生成对抗网络。在IEEE计算机视觉和模式识别会议(CVPR),第1卷,第7页,2017年。二、三[4] J. Carreira和A.齐瑟曼。你好,动作识别?新模型和动力 学数 据集 。在 IEEE计 算机 视觉 和模 式 识别 会议(CVPR),2017年7月。6[5] L- C. Chen,Y.Zhu,G.帕潘德里欧F.Schroff和H.Adam.一种用于序列图像分割的带可分离卷积的编码器-解码器。在ECCV,2018。五、六[6] M.科德茨,M。奥姆兰,S。拉莫斯,T.雷费尔德,M。恩茨韦勒R.贝南森,美国弗兰克,S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集。IEEE计算机视觉与模式识别会议(CVPR),2016年。5[7] E. Denton和R.费格斯。具有学习先验的随机视频生成。arXiv预印本arXiv:1802.07687,2018。3[8] C. 芬恩岛Goodfellow和S.莱文通过视频预测进行物理交互的无监督神经信息处理系统的进展,第64-72页,2016年3[9] A. Geiger,P. Lenz,C. Stiller和R.乌塔松视觉与机器人技 术 的 结 合 : Kitti 数 据 集 。 International Journal ofRobotics Research(IJRR),2013年。5[10] I. Goodfellow,J.普热-阿巴迪米尔扎湾,澳-地Xu,L.Warde-Farley,S.奥扎尔A. Courville和Y.本吉奥。生成性对抗网。神经信息处理系统的进展,第2672-2680页,2014年。一、二[11] M. Heusel,H. Ramsauer,T.翁特希纳湾Nessler和S. Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展,第6626-6637页,2017年。5[12] P. Isola,J.Y. Zhu,T.Zhou和A.A. 埃夫罗斯使用条件对抗网络的图像到图像翻译。arXiv预印本,2017年。一、二、三[13] X.贾湾,加-地De Brabandere,T. Tuytelaars和L. V.Gool动态过滤网络。神经信息处理系统的进展,第667-675页,2016年3[14] J. Johnson,A. Alahi和L.飞飞实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议,第694-711页。施普林格,2016年。5[15] J. Johnson,A. Gupta和L. 飞飞从场景图生成图像在CVPR,2018年。2[16] D. P.Kingma和M.威林自动编码变分贝叶斯。arXiv预印本arXiv:1312.6114,2013。2[17] I.拉普捷夫湾Caputo等人认识人类行为:局部SVM方法。空,第32-36页。IEEE,2004年。53742[18] Y. Li,C. Fang,J. Yang,Z. Wang,X. Lu和M. H.杨基 于 流 的 静 态 图 像 时 空 视 频 预 测 。 arXiv 预 印 本arXiv:1807.09755,2018。三、六[19] Z.洛湾,巴西-地Peng,D.- A. Huang,黄背天蛾A.Alahi和L.飞飞视频长期运动动态的无监督学习。arXiv预印本arXiv:1701.01821,2,2017。3[20] L. 妈,X。贾湾,加-地孙湾Schiele,T.Tuytelaars和L.范古尔姿势引导人物图像生成。神经信息处理系统进展,第406-416页,2017年。一、二[21] S. Meister,J.Hur和S.罗斯Unflow:具有双向普查损失的光流 的无监督 arXiv预印本arXiv:1711.07837 ,2017。2[22] A. v. d.奥德湾Kalchbrenner和K. Kavukcuoglu像素递归神经网络。arXiv预印本arXiv:1601.06759,2016。2[23] M. Ranzato 、 A. Szlam , J. Bruna , M. 马 蒂 厄 河Collobert和S.乔普拉 视频(语言)建模:基线用于 自 然 视 频 的 生 成 模 型 。 arXiv 预 印 本 arXiv :1412.6604,2014。3[24] O. 龙内贝格山口Fischer和T.布洛克斯U-网:用于生物医学图像分割的卷积网络。在医学图像计算和计算机辅助干预国际会议上,第234-241页。施普林格,2015年。6[25] M. Saito,E. Matsumoto和S.斋藤具有奇异值裁剪的时间 生 成 对 抗 网 。 在 IEEE 国 际 计 算 机 视 觉 会 议(ICCV),第2卷,第5页,2017年。一、二[26] A. 什里瓦斯塔瓦T.菲斯特岛Tuzel,J.苏斯金德Wang和R. 韦伯通过对抗训练从模拟和无监督图像中学习在CVPR,第2卷,第5页,2017年。2[27] K. Simonyan和A.齐瑟曼。用于大规模图像识别的非常深的卷积网络。CoRR,abs/1409.1556,2014。5[28] K. Soomro、A. R. Zamir和M. Shah. Ucf101:来自野外视频的101个人类动作类的数据集。arXiv预印本arXiv:1212.0402,2012。5[29] N. Srivastava、E. Mansimov和R.萨拉赫丁诺夫使用lstms的视频表示的非监督学习。国际机器学习会议,第843- 852页,2015年。3[30] W. Trobin,T. Pock,D. Cremers和H.比肖夫无偏二阶先 验 , 用 于 高 精 度 运 动 估 计 。 在 Joint PatternRecognition Symposium,第396Springer,2008. 4[31] S. Tulyakov,M. Y. Liu,X. Yang和J.考茨Mocogan:分 解 运 动 和 内 容 以 生 成 视 频 arXiv 预 印 本 arXiv :1707.04993,2017。一、三、六[32] B. Uria,M.- A. 好吧,K。 去吧,我。 Murra y和H. 拉罗谢尔神经自回归分布估计。The Journal of MachineLearning Research,17(1):7184-7220,2016。2[33] R. Villegas,J.Yang,S.洪,X.Lin和H.李你分解自然视 频 序 列 预 测 的 运 动 和 内 容 arXiv 预 印 本 arXiv :1706.08033,2017。3[34] C. Vondrick,H. Pirsiavash和A.托拉尔巴生成具有场景动态的视频。神经信息处理系统的进展,第613-621页,2016年。一、二3743[35] J. Walker,C.多尔施A. Gupta,和M。赫伯特不确定的未来:使用变分自动编码器从静态图像进行预测。欧洲计算机视觉,第835-851页。施普林格,2016年。3[36] J. Walker,K. Marino,A. Gupta,和M。赫伯特姿势知道:通过生成姿势未来进行视频预测在计算机视觉(ICCV),2017年IEEE国际会议上,第3352-3361页IEEE,2017年。3[37] T.- C.王兆国Y.刘杰- Y. Zhu,G. Liu,中国粘蝇A. Tao,J. Kautz,and B.卡坦扎罗视频到视频合成。arXiv预印本arXiv:1808.06601,2018。一、二、三、六[38] T.- C.王兆国Y.刘杰- Y. Zhu,中国茶青冈A. Tao,J. Kautz和B. 卡坦扎罗基于条件gans的高分辨率图像合成与二、三、六[39] T. 薛,J.Wu,K.Bouman和B.弗里曼。视觉动态:通过交叉卷积网络进行概率未来帧合成。神经信息处理系统的进展,第91-99页,2016年。三、四[40] C. Zhang,Z.利河,巴西-地蔡氏H. Chao和Y.瑞在二阶光滑度先验下尽可能刚性的立体声。欧洲计算机视觉会议,第112-126页。Springer,2014. 4[41] H. Zhang,T. Xu,H. Li,S. Zhang,X. Huang,X. Wang和D. Metaxas Stackgan:使用堆叠生成对抗网络的文本到照片逼真图像arXiv预印本,2017年。一、二[42] J. - Y. Zhu,T.帕克山口Isola和A.A. 埃夫罗斯使用循环一致对抗网络的不成对arXiv预印本,2017年。一、二、三
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功