视频中的视频插入问题

105 浏览量更新于2023-10-19 收藏 1.3MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1将视频插入视频Donghoon Lee1，2Tomas Pfister2Ming-Hsuan Yang2，31首尔国立大学电子与计算机工程与ASRI2Google Cloud AI3电气工程和计算机科学，加州大学默塞德分校摘要在本文中，我们介绍了一个新的问题，操纵一个给定的视频插入其他视频。我们的主要任务是，给定一个对象视频和一个场景视频，在场景视频中的用户指定的位置插入对象视频，使得到的视频看起来逼真。我们的目标是处理不同的对象运动和复杂的背景，而无需昂贵的分割注释。由于很难为这个问题收集训练对，我们合成大小的假训练对，可以在用未配对的真实数据训练神经网络时提供有用的所提出的网络架构可以将真实和虚假对作为输入，并在对抗学习方案中执行监督和为了合成逼真的视频，网络根据当前输入和先前的帧渲染每一在这个框架内，我们观察到，在生成当前帧的同时将噪声注入到先前帧中可以稳定训练。我们在对象跟踪和人员重新识别基准数据集中对真实世界的视频进行实验实验结果表明，该算法能够合成长序列的真实感视频与给定的对象视频插入。1. 介绍图像中的对象插入旨在将新对象插入到给定场景中，使得被操纵的场景看起来逼真。近年来，人们对这个问题越来越感兴趣，因为它可以应用于许多视觉任务，包括但不限于用于对象检测的训练数据增强[19]，交互式图像编辑[10]和操纵语义布局[14]。然而，在其潜在应用和现实世界应用之间仍然存在显著差距，因为现有方法集中于修改单个图像，同时需要仔细预处理的输入，例如，没有背景的分割对象[16]，或者从随机矢量生成对象，这使得难以控制对象直接[10，14，19]。在本文中，我们介绍了一个新的问题，插入到其他视频现有的视频。更具体地，如图1所示，用户可以选择感兴趣的对象的视频，例如，步行的行人，并将其放置在其它视频中的期望位置，例如，监控场景然后，一个算法组成的对象无缝，而它在场景视频中移动。注意，与以前的方法不同[10，14，19]，我们不假设输入视频具有昂贵的分割注释。这不仅允许用户更直接和直观地编辑视频，而且还为众多应用打开了大门，从用于对象跟踪的训练数据增强、视频人物重新识别和视频对象分割，到用于虚拟现实或电影的视频内容生成。我们提出的问题作为一个视频到视频合成任务，其中包含感兴趣的对象的合成视频应该遵循场景视频中现有对象的分布。这属于无监督的视频到视频转换问题，因为我们通常没有成对的数据，即。我们在不同视频中想要插入的位置处没有观察到相同对象的完全相同的运动。然而，没有任何监督，我们面临着挑战性的问题，如处理不同的背景，闭塞，照明条件和对象大小。现有的方法仅限于解决当存在多个运动目标和复杂背景时的这种问题。例如，依赖于对象分割方法的算法的性能将受到分割算法的精度的限制，对象分割方法通常不能在复杂场景中准确地裁剪前景对象。为了解决这个问题，我们首先解决图像域中的相关问题.我们研究如何将给定的对象图像插入到来自不同视频的其它帧中。为了缓解未配对数据的问题，我们提出了一种简单而有效的方法来合成假数据，可以为对象插入提供这种使用假数据的监督方法的关键思想是，在训练网络时，假数据被仔细渲染以紧密匹配1006110062图1：给定两个视频，我们的算法旨在将一个视频中的对象插入到另一个视频中。红色箭头指向插入的对象最初存在于视频A中。我们把这个问题看作是一个视频到视频的合成任务。该算法不依赖于任何外部领域的知识，如语义分割掩模或身体姿势。真实数据的分布，使得来自受监督的伪数据的反向传播的梯度信号可以帮助用无监督的真实数据训练网络。在这项工作中，通过混合每个视频中的对象图像和随机背景补丁来生成假数据然后，网络学习如何从混合数据中重建对象。由于重建误差提供了强大的监督信号，因此这种方法有助于使用未配对的真实数据的生成对抗框架[9]的学习过程。在推理过程中，一个新的对象被混合到场景视频的目标位置，然后馈送到训练好的为了将上述算法扩展到视频，我们讨论如何利用合成帧的历史来获得时间上一致的视频。我们观察到，如果我们简单地将先前帧的历史作为新的输入源添加到在图像上训练的对象插入网络中，网络将很容易崩溃，因为它只依赖于（干净的）先前帧，而不是（混合的）当前帧。为了避免这个陷阱，我们使用了去噪自动编码器[31]的想法：在合成当前帧之前，将随机噪声注入到先前的帧中。它迫使网络学习前一帧和当前输入之间的语义，而不是盲目地复制和粘贴前一帧的大部分我们进行了大量的实验，强基线方法，以评估所提出的算法的有效性，Rithm在真实世界的数据。实验结果表明，该算法可以插入具有挑战性的对象，如。在杂乱的背景下移动行人，进入其他视频。为了定量评价，我们进行了三个实验。首先，我们测量最先进的对象检测器[22]对插入对象的召回率。它根据周围的上下文来判断插入对象的整体外观。其次，给定最先进的分割算法[4]，我们测量插入对象的像素级精确度和召回率。第三，我们进行了一个人的主观研究，评估的现实主义的嵌入对象。本文的主要贡献概括如下：• 我们介绍了一个重要的和具有挑战性的问题，拓宽了域的对象插入从图像到视频。• 我们提出了一种新的方法来合成监督的假训练对，可以帮助深度神经网络学习在没有监督的真实对的情况下插入对象。• 我们开发了一个新的条件GAN模型，以促进无监督的真实和有监督的假训练对的联合训练。• 我们证明，该算法可以合成的基础上具有挑战性的现实世界的输入视频的真实视频。100632. 相关工作将对象插入图像。给定一对对象图像和场景图像，ST-GAN方法[16]学习以场景为条件的对象的扭曲。基于变形，对象被变换到新的位置而不改变其外观。由于它专注于几何现实主义，他们使用仔细分割的对象作为输入。其他方法旨在通过渲染对象的外观来插入对象。在[10]中，给定边界框的位置和大小，将目标类别中的对象插入到场景它首先预测对象在语义空间中的形状，之后从预测的语义标签图和输入图像生成输出图像。在[19]中提出了一种类似的方法，而不使用语义标签映射。行人的边界框被随机噪声替换，然后根据周围环境填充新的行人。为了学习新对象的位置和形状，[5]中的方法使用图像修补算法从场景中移除现有对象。然后，训练网络来恢复现有对象。这种方法的结果很大程度上依赖于运行脚本是否采用图像修补算法的性能，例如。而不产生噪声像素。这个问题在[14]中通过学习以语义标签映射为条件的对象的位置和形状的联合分布来缓解。该方法旨在通过学习将单元边界框变形为场景的各种仿射变换来找到边界框的合理位置和大小。然后，根据预测的位置及其周围环境合成不同形状的对象。与现有的方法相比，我们的算法允许用户指定插入对象的外观及其位置。此外，我们的算法不需要分割图进行训练或测试。条件视频合成。未来帧预测任务以先前帧为条件来合成图像内容[18，7，32，6，15，29，30]。由于预测过程中的未来不确定性和累积误差，它通常只能生成短视频序列。另一方面，我们通过将一个视频插入其他视频来合成长视频序列。视频的内容可以被转移到其他视频以合成新的视频。在[3]中，给定一个人的源视频，该方法将一个人该方法使用检测到的身体姿势来估计对象运动，并训练网络以呈现以姿势为经过训练的网络渲染一个新的视频，就好像目标对象跟随源视频的运动一样。[1]中的方法不是完全遵循相同的运动，而是传输源视频的抽象内容，而目标视频的风格是预先确定的。送达一个循环的时空约束，提出了解决任务的无监督的方式。它将源帧转换为目标域并预测下一帧。然后，将预测帧转换回源域。这一工作也形成了一个循环回路，可以提高视频质量。视频中的动态内容/纹理也可以用于条件视频合成。在[28]中，通过学习双流网络来捕获视频中的动态纹理，例如水流或火焰然后，该工作将输入图像动画化为具有逼真动态运动的视频。视频的艺术风格被转移以编辑目标视频，同时保留其内容[11，25]。对于更通用的视频到视频转换，[33]中的在训练过程中，网络将成对的数据作为输入，例如，语义标签映射的序列和对应的RGB图像序列。该网络被约束以在输出视频中保留输入序列的内容3. 该算法在这项工作中，我们考虑的问题，用户选择的对象在视频A，并希望将其插入在视频B中的所需位置。我们假设每个视频在每个帧都有边界框和对象ID的注释从A中所选对象的边界框，我们获得由裁剪图像组成的视频uA目标是将uA转换为vA，使得转换后的视频在插入B时是真实的。我们首先解决这个问题3.1. 在图像中插入图像设uA表示将被插入到B中的用户定义区域rB中的uA中的帧。我们训练一个生成器网络GI，它将uA和rB作为输入来呈现输出vA。请注意，这与现有的图像到图像翻译任务[12，13，17，35，36]不同，因为它们旨在保留输入图像的内容，同时将其更改为不同的属性或样式，例如，语义图被转换成具有相同语义布局的RGB图像。相比之下，我们需要将两个不同的图像转换为一个图像，同时学习每个图像中的哪部分内容应该被保留。一个具有挑战性的问题是我们没有训练元组（uA，rB，vA）。为了解决这个问题，我们首先将问题转换为条件图像修复任务。更具体地说，我们通过使用逐像素乘法与固定的二进制掩码m混合来破坏rB，即，uArB=uAm/2 +rB（1−m/2），如图2所示。然后10064一图2：将对象插入图像的算法的主要步骤。给定视频A和B，我们从每个视频中裁剪对象和背景，并合成混合图像uArB、uBrA和uBrB。通过学习如何从uB<$rA和uB<$rB重构uB，我们可以引导网络将uA插入到rB的中心。除了来自伪对的重建损失之外，我们还有如（6）中所述的附加目标函数。是一个条件对抗损失，使重建图像清晰和现实1。第二、LR（GI）=+，（二）(a)uA（b）rB（c）⑴+⑵（d）⑵+⑶（e）（6）图3：使用不同目标函数的对象插入结果。输入为uA和rB。生成器学习映射GI：（uA<$rB）→vA以合成现实的vA。为此，生成器学习如何渲染对象，同时基于周围非混合背景的上下文是重构uB的内容损失。我们使用图3（c）中的假对训练网络来展示真实对的结果。虽然有些部分是模糊的，但插入对象的整体形状和外观会保留下来。此外，A中的大部分背景像素都被移除并被rB取代，这表明假对为网络提供了有意义的信号，以插入看不见的对象。因此，我们希望网络可以很好地训练真实和虚假对。我们更新对抗性损失以考虑真实对，如下所示：LA（GI，DI）= Lfake（GI，DI）地区这种配方的主要优点是，很容易合成类似于一+E（uA，rB）[log（1 − DI（GI（uA<$rB），uA<$rB））].（三）（uArB，vA）.在本文中，我们提出了两种类型的假对（uB<$rA，uB）和（uB<$rB，uB）来学习对象插入。背后的直觉是，这些对包含两个独立的生成器在推理期间必须执行的任务：基于上下文绘制一致的背景，并恢复与r B重叠的对象区域。我们设计了两个目标函数的假对使用 GI 和一个图像的pseudoDI。第一、然而，如图3（d）所示，当我们使用（2）和（3）天真地训练网络时，合成的结果变得不稳定。我们把这归因于假对和真对的不同分布。尽管它们的相似分布使得网络可以推广到看不见的图像，但当网络实际使用两种类型的配对进行学习时，它能够区分它们，从而限制了泛化。我们通过使网络更难区分这些对来解决这个问题在部分-Lfake（GI，DI）=E（u，rA）[logDI（uB，uBrA）]我们不确定输入是否相同，+E（u，r）[logDI（uB，uB<$rB）]假的还是真的为此，我们加上BB+E[log（1 −D（G（u（r），u（见附件）]（一）一个用于区分输入类型的EIDDE（uB，rA）I IBB10065AB A+E（uB，rB）[log（1−DI（GI（uB<$rB），uB<$rB））]，1We表示E（·），E（·）对记法单纯性y∈pdata（·）.10066一B一A A AB图4：视频插入网络GV的网络结构。作为一个说明性的例子，我们展示了层数为四的情况网络获取先前的帧（vt-N，. . . ，vt-1）和混合图像utrt作为输入来渲染vt。每个正方形表示网络中的一个层虚线指示共享权重，并且彼此相邻的层表示信道级联。基于其嵌入向量，如下所示：两大修改。首先，当渲染当前帧时，我们也会查找以前的帧。其次，我们在目标函数中添加一个新的项来合成时间一致的视频。令GV表示学习映射GV：（uA<$rB）→vA2的视频生成器。一个简单的映射是对每个帧应用GI 然而，由于帧的映射独立于相邻帧，因此所得到的序列在时间上变得不一致。因此，我们让GV另外查找N个先前帧，同时从混合输入中合成每个帧。这种马尔可夫假设对于生成长序列视频很有用[33]。图4示出了所提出的U-net [24]风格的编码器-解码器网络架构。如果网络在没有蓝色层的情况下运行，这些层对应于前一帧的特征图，那么它与第3.1节中的GI相同。网络使用一个共享的编码器对所有先前的帧进行然后，将特征图与表示每个帧的重要性的标量权重wn我们使用N=2和w1=w2=0。五是做好这项工作的实验。为了学习GV，我们使用以下目标函数计算生成的序列的误差信号：L（GV，DI，DV，DE）=LA（GV，DI）+ LA（GV，DV）LA（GI，DE）=E（uB，rA）[logDE（euBrA）]+LA（GV），DE）+LR（GV）（七））的情况下，+E（uB，rB）[logDE（euB<$rB）]（四）+E（uA，rB）[log（1−DE（euArB））]，其中DV是视频流。第一个条件是--类似于（5），当我们选择一个随机帧，其中ex表示来自具有输入x的G1中的编码器的嵌入向量。编码器被训练成通过将假对和真对嵌入到同一空间中来欺骗识别器。该嵌入向量被馈送到鉴别器作为条件输入。我们将向量平铺成相同大小的生成的序列来计算损失;该术语关注所选帧的真实性。第二项评估呈现的序列如下：LA（GV，DV）=E（uB，rA）[logDV（uB，euB<$rA）]+E（uB，rB）[logDV（uB，euB<$rB）]输入图像并将它们连接到输入通道。+E（uB，rA）[log（1−DV（GV（uB<$rA），euB<$rA））]（八）目标函数LA（GI，DI）修改如下：+E（uB，rB）[log（1−DV（GV（uB<$rB），euB阿布尔湾））]LA（GI，DI）=E（uB，rA）[logDI（uB，euB<$rA）]+E（uB，rB）[logDI（uB，euB<$rB）]+E（uB，rA）[log（1−DI（GI（uB<$rA），euB<$rA））]+E（uB，rB）[log（1−DI（GI（uB<$rB），euB<$rB））]（五）+E（uA，rB）[log（1 − DV（GV（uA<$rB），euA<$rB））].第三和第四项的定义分别类似于（4）和（2）。此外，在训练网络时，我们观察到，+E[log（1 −D（G（ub）、e））]。预测帧VT很大程度上依赖于前几帧（uA，rB）I IABuArB一而不是当前输入。主要原因是最后，对象插入的总体目标函数当前输入被混合ut损坏布雷尔特10067一这在图像域上，公式化如下：L（GI，DI，DE）= L A（GI，DI）+L A（GI，DE）+LR（GI）。（六）图3（e）显示了使用（6）中的损失函数插入的对象是尖锐和真实的。3.2. 在视频中插入视频在本节中，我们将讨论如何将对象插入模型从图像扩展到视频。为此，我们使这让处理起来更加困难所以与其在学习恢复当前帧的过程中，网络逐渐忽略当前输入，更多地依赖于前一当生成长视频时，这是一个关键问题，因为来自前一帧的误差会累积。结果，所生成的序列在多个帧之后包含严重的伪影。为了解决这个问题，我们降低2我们将（uA<$rB）表示为混合输入（（u1<$r B））的序列r1，. . . ，（uT<$rT）），其中T是帧的数量。B A B10068一一BCYC在渲染当前帧之前，也可以使用随机噪声。通过阻断这种容易作弊的路线，网络必须学习两者之间的语义关系以下目标函数：Lbase（G，D）=Eu [logD（uB）]+E[logD（G（u（九）（2004年））]。而不是依赖于一方。它使网络在训练中保持稳定。4. 实验结果我们在多目标跟踪或人员重新识别数据库（如DukeMTMC [23] ， TownCenter [2] 和 UA-DETRAC[34]）上评估了我们的方法，以显示我们的算法在现实世界示例中的适用性。这些数据集记录了具有挑战性的场景，（uA，rB）A B在这种情况下，生成器容易崩溃，因为它不被引导以保留输入对象的内容，如图5（e）所示。为了缓解这个问题，我们添加了一个客观的功能，检查生成的图像中的内容，例如。逐像素重建损失或感知损失[8]，如图5（f）和图5（g）所示。目标函数定义如下：Lbase（G，D）=Lbase（G，D）+uAm−vAm，（10）汽车自然行驶。我们将20%的数据作为一个测试集，并在测试集上呈现实验结果。额外像素基本知觉一（G，D）=Lbase（G，D）结果，包括示例生成的视频和用户研究，第二章（十一）已列入补充材料。+C H W<$φl（uAm）−φl（vAm）<$2，LlLl实作详细数据。对于所有实验，网络架构、参数和初始化与DCGAN类似[21]。我们使用转置卷积层，64作为生成器和卷积器的滤波器基数批量大小设置为1，使用实例规范化而不是批量规范化。输入视频的大小调整为1024×2048像素。Wecropu（·），r（·），并将大小调整为256×128像素。然后我们在256×128像素的面片上渲染一个对象。它被转换成512×256像素的图像或视频进行可视化。对于每次迭代，我们在A中随机选择一个位置，新对象，因为我们希望覆盖用户的各种位置和基线模型和定性评价。由于本文所介绍的问题是一个新的问题，我们设计了强基线的性能评估。其中φl是 VGG19 网络[27]的第l个激活图，形状为Cl×Hl×Wl。我们使用VGG19网络的relu2 2和relu3 3层的激活图，该网络在ImageNet数据集[26]上进行了预训练，以计算知觉丧失这些方法的主要局限性在于，网络被训练为在uA中保留对象周围的所有像素。结果，大量不期望的背景像素出现在vA中。最终的基线模型使用循环一致性损失[35]，该损失已用于使用未配对的训练数据训练网络。对于循环损失，我们学习了两个映射函数G：（uA，rB）→vA和F：（uB，rA）→vB.通过考虑条件输入，目标函数定义为：Lbase（G，F，DA，DB）=LA（G，DB）+LA（F，DA）+E（uA，rB）[<$F（G（uA，rB），uA（1−m））−uA<$1]对于图像中的对象插入，我们提出了六个基线模型。首先，我们应用最先进的语义分割算法[4]来分割视频A中的感兴趣对象区域，例如，DukeMTMC中的行人+E（uB，rA）[<$G（F（uB，rA），uB（1−m））−uB<$1]+ E（uA，rB）[<$G（uA，rB）（1−m）−rB（1−m）<$1]+E（uB，rA）[<$F（uB，rA）（1−m）−rA（1−m）<$1]，（十二）数据集。然后，如图5（c）所示，使用预测的分割掩模将对象像素复制到视频B中的区域。然而，由于复杂的背景和铰接的人体姿势，预测的分割掩模是不准确的。因此，对象的某些部分丢失，并且来自视频A的不期望的背景像素被包括在合成帧中。此外，插入像素的亮度与视频B中的周围像素不匹配。第二，我们将Poisson混合[20]方法应用于预测对象掩码，如图5（d）所示。虽然物体的边界变得更加平滑，但混合后的图像仍然含有伪影。此外，结果取决于分割算法的性能。第三，我们设计了四种基于GAN的方法。一种简单的方法侧重于合成现实的例子，L10069其中DA和DB是每个视频的鉴别器，LA（G，DB）和LA（F，DA）是典型的对抗性损失.最后两项的加入是为了迫使网络在给定的rA或rB处插入一个对象。虽然配方虽然它具有学习不成对映射的潜力，但它仍然不能引导网络在翻译图像时保留相同的对象，如图5（h）所示。此外，我们观察到，这使得网络在训练过程中不稳定。相比之下，所提出的算法插入具有尖锐形状的对象，并呈现噪声较少的背景像素，如图5（i）所示。对于视频对象插入，我们考虑两个基线模型。首先，在不使用非连续帧的情况下合成帧。由于模型仅处理当前帧作为输入，因此整个视频可能包含闪烁或不一致的内容。第二，生成视频，而不需要10070(a)uA（b）rB（c）[4]（d）[4]+[20]（e）（9）（f）（10）（g）（11）（h）（12）（i）我们的（6）图5：给定输入uA和rB的不同基线模型的对象插入结果。表1：在DukeMTMC数据库中调用最先进的物体探测器[22]B1：Adobe Premiere混合表2：DukeMTMC数据集上的对象插入评分B1：AdobePremiere混合模式。模式B2：基于分段的合成[4]。方法B1 B2（9）（10）（11）我们的召回将噪声注入到先前的帧中。在这种情况下，由于每帧中的小误差在帧上累积，合成图像可能有噪声。图6显示了视频对象插入结果与基线比较.我们使用商业视频编辑软件（Adobe Premier CC Pro）的自动混合模式作为一个基线。其他基线使用DeepLabv3+[4]沿帧复制和粘贴预测片段。实验结果表明，该算法比其他基线方法合成出的视频具有更好的真实感。此外，如图7所示，我们的算法能够跨数据库和不同对象（如汽车）插入视频。定量评价。为了量化插入对象的真实性，通常使用对象检测器来定位插入对象[14，19，5]。前提是，探测器可能只定位插入良好的对象，因为状态现有技术的方法考虑了对象及其周围环境。我们使用YOLOv3检测器[22]来确定它是否可以正确检测插入的对象。我们固定检测阈值，并通过计算插入对象和检测到的边界框之间的交集（IoU）来测量检测器的表1显示了使用五次不同迭代训练的网络的平均召回率。在每个实验中，我们随机抽取1000张图片。实验结果表明，该算法平均查全率最高此外，我们意外地发现了这个实验的一个有趣的角落案例。虽然（9）以如图5（e）所示的类似模式生成非现实图像，但该方法曾经达到最高的召回值。它揭示了评估的一个局限性-方法B1（九）（十）（十一）我们精度0.320.610.700.760.85召回0.280.260.470.610.7210071图6：在DukeMTMC数据集上插入行人视频。点击图片播放视频。图7：交叉数据集行人插入（从DukeMTMC数据集到TownCenter数据集）和UA-DETRAC数据集上的汽车视频插入的结果使用检测器对合成图像进行检测，即，如果经训练的检测器错误地返回对非真实假图像的肯定检测结果，则很可能相同模式中的其它非真实图像也将被检测为肯定样本。虽然检测结果给出了插入对象的真实性（或至少可检测性）的概念，但它并不指示对象插入的像素级精度，即，输入中的对象像素是否保留在输出中为此，我们引入了一个新的指标的基础上像素级的精度和召回对象插入。给定语义分割算法，令A表示输入对象图像的二进制分割掩码。也让s是二进制掩码，其中当vA（i，j）更接近uA（i，j）时，s（i，j）=1比rB（i，j）。因此，s代表输入的像素位置对象设置。然后，我们定义精确度P，召回率R，对象插入评分（OIS）如下：其中n是逐元素乘法，|S|是s中的非零区域的面积，并且OIS使用F1得分来定义。我们根据随机生成通过DeepLabv3+ [4]方法获得一千个样本和分割掩码表2表明，所提出的算法实现了最高的OIS对其他基线算法。我们还注意到基于（9）的基线模型的OIS是最低的。为了显示潜在的应用数据扩充，我们训练的检测器使用合成的对象，我们的算法。我们使用在ImageNet上初始化的YOLOv3在DukeMTMC数据集上检测行人。为了训练和评估，我们从数据集中的摄像机5的视频此外，通过插入摄像机中的行人，1.它将mAP从53.1%提高到68.3%。5. 结论在本文中，我们介绍了一个新问题的算法：通过插入其他视频来操纵给定的视频。这是一项具有挑战性的任务，因为它本质上是无监督（unpaired）问题。与现有的ap-proaches，我们提出了一种算法，转换成一个成对的问题，通过合成假训练对和相应的损失函数。我们在真实世界的视频上进行了实验，并证明了所提出的算法能够渲染长的逼真的视频与给定的对象视频插入。作为未来的工作，使插入的对象与新视频交互是有趣的，路径导航或遮挡处理。P=|sAs|，R=|sAs|，OIS=2PR、（十三）|s||sA|P+R10072引用[1] Aayush Bansal 、 Shugao Ma 、 Deva Ramanan 和 YaserSheikh。Recycle-GAN：无监督视频重定向。2018年欧洲计算机视觉会议。3[2] 本·本福德和伊恩·里德实时监控视频中的稳定多目标跟踪。IEEE计算机视觉与模式识别会议，2011年。6[3] Caroline Chan ， Shiry Ginosar ， Tinghui Zhou ， andAlexei A Efros. 大家跳舞吧 arXiv 预印本 arXiv ：1808.07371，2018。3[4] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。2018年欧洲计算机视觉会议。二、六、七、八[5] 简瑞婷，周嘉荣，陈定杰，陈焕宗。探测不存在的行人。IEEEInternational Conference on Computer Vision，2017。三、七[6] 艾米丽·丹顿和维格内什·比罗德卡无监督学习- ing从视频中分离表示。在神经信息处理系统，2017年。3[7] 切尔西·芬恩伊恩·古德费罗和谢尔盖·莱文。通过视频预测进行物理交互的无监督学习。在神经信息处理系统，2016年。3[8] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议上，2016。6[9] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统，2014年。2[10] Seunghoon Hong，Xinchen Yan，Thomas Huang，andHonglak Lee.通过结构化表示学习分层语义图像操纵。在神经信息处理系统，2018年。第1、3条[11] Haozhi Huang ， Hao Wang ， Wenhan Luo ， Lin Ma ，Wenhao Jiang，Xiaolong Zhu，Zhifeng Li，and Wei Liu.视频的实时神经风格传输IEEE计算机视觉和模式识别会议，2017年。3[12] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。2018年欧洲计算机视觉会议。3[13] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。2017年在IEEE计算机视觉和模式识别会议上发表。3[14] Donghoon Lee，Sifei Liu，Jinwei Gu，Ming-Yu Liu，Ming-Hsuan Yang，and Jan Kautz.对象实例的上下文感知合成和放置。在神经信息处理系统，2018年。一、三、七[15] Xiaodan Liang，Lisa Lee，Wei Dai，and Eric P Xing.用于未来流嵌入式视频预测的双运动 gan 。IEEEInternational Conference on Computer Vision ，2017。3[16] Chen-Hsuan Lin ， Ersin Yumer ， Oliver Wang ， EliShechtman ， andSimonLucey.ST-GAN ：空间Transformer生成10073用于图像合成的对抗网络。在IEEE计算机视觉和模式识别会议上，2018年。第1、3条[17] Ming-Yu Liu，Thomas Breuel，and Jan Kautz.无监督图像到图像翻译网络。在神经信息处理系统，2017年。3[18] Michael Mathieu，Camille Couprie，and Yann LeCun.超越均方误差的深度多尺度视频预测2016年国际学习表征会议。3[19] 欧阳曦、余成、江一凡、李春良和潘周。行人-合成-GAN：生成真实场景及其他场景中的行人数据. arXiv预印本arXiv：1804.02047，2018。一、三、七[20] 帕特里克·佩雷斯、米歇尔·冈内特和安德烈·W·布莱克。泊松图像编辑。ACM Transactions on Graphics，22（3）：313- 318，2003年。六、七[21] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉深度卷积生成对抗网络的无监督表示学习。arXiv预印本arXiv：1511.06434，2015。6[22] 约瑟夫·雷德蒙和阿里·法哈迪Yolov3：一个渐进的改进。arXiv预印本arXiv：1804.02767，2018。二、七[23] Ergys Ristani ， Francesco Solera ， Roger Zou ， RitaCucchiara，and Carlo Tomasi.多目标、多相机跟踪的性能测量和数据集。在2016年欧洲计算机视觉研讨会6[24] Olaf Ronneberger ， Philipp Fischer ， and ThomasBrox.U-网：用于生物医学图像分割的卷积网络医学图像计算和计算机辅助干预国际会议，2015年。5[25] Manuel Ruder、Alexey Dosovitskiy和Thomas Brox。视频和球形图像的艺术风格转移。国际计算机视觉杂志，第1-21页，2018年。3[26] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein ， et al. 图像网大规模视觉识别挑战。International Journal of Computer Vision，115（3）：211-252，2015. 6[27] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。在2015年国际学习代表会议上。6[28] 放大图片作者：Marcus A. Brubaker和Konstanti- nos G.德尔帕尼斯用于动态纹理合成的双流卷积网络在IEEE计算机视觉和模式识别会议上，2018。3[29] Ruben Villegas，Jimei Yang，Seunhoon Hang，XunyuLin，and Honglak Lee.用于自然视频序列预测的分解运动和内容。在2017年国际学习代表会议上。3[30] Ruben Villegas，Jimei Yang，Yuliang Zou，SeunghoonHang，Xunyu Lin，and Honglak Lee.学习通过分层预测生成长期未来在2017年的机器学习国际3[31] Pascal Vincent ， Hugo Larochelle ， Yoshua Bengio ，Pierre-Antoine Manzagol.提取和合成鲁棒10074具有去噪自动编码器的功能。在2008年的机器学习国际会议上。2[32] Jacob Walker ， Carl Doersch ， Abhinav Gupta ， andMartial Hebert.不确定的未来：使用变分自动编码器从静态图像进行预测。2016年欧洲计算机视觉会议。3[33] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，GuilinLiu，Andrew Tao，Jan Kautz，and Bryan Catanzaro.视频到视频合成。神经信息处理系统，2018。三、五[34] Longyin Wen ， Dawei Du ，Zhaowei Cai， Zhen Lei ，Ming-Ching Chang ， Honggang Qi ， Jongwoo Lim ，Ming-Hsuan Yang，and Siwei Lyu. UA-DETRAC：多目标检测和跟踪的新基准和协议。arXiv预印本arXiv：1511.04136，2015。6[35] Jun-Yan Zhu ， Taesung Park ， Phillip Isola ， Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。在2017年IEEE计算机视觉国际会议上。三、六[36] Jun-Yan Zhu、Richard Zhang、Deepak Pathak、TrevorDarrell、Alexei A Efros、Oliver Wang和Eli Shechtman。向多模态图像到图像翻译。在神经信息处理系统，2017年。3

下载后可阅读完整内容，剩余1页未读，立即下载