双分支变换合成网络用于视频运动重定向

173 浏览量更新于2023-10-15 收藏 1.85MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

112基于联合变换和合成的倪浩淼1刘一浩2SharonX.黄1袁雪21宾夕法尼亚州立大学，大学公园，美国2约翰霍普金斯大学，巴尔的摩，MD，美国{hfn5052，suh972}@ psu.edu{yliu236，yuanxue}@ jhu.edu图1：视频运动重定向的示例，其中来自驾驶视频（第2和第3行中的第1列）的运动被传输到主题视频（第1行）中的主题RegionMM[41]生成的面部视频和EDN[4]生成的舞蹈视频显示在每个块的第2列第2和第3行。由我们提出的TS-Net生成的视频位于每个块的第3列，第2和第3行（用蓝色框突出显示）。摘要本文提出了一种新的双分支变换合成网络（TS-Net），用于视频运动重定向。给定一个主题视频和一个驾驶视频，TS-Net可以产生一个新的合理的视频与主题视频的主题外观和驾驶视频的运动模式TS-Net由一个基于warp的转换分支和一个无warp的合成分支组成双分支的新颖设计结合了基于变形网格的变换和无扭曲生成的优点，以更好地保持身份和对合成视频中的遮挡的鲁棒性在变换分支中还引入了掩码相似度模块，以减少计算开销。在人脸和舞蹈数据集上的实验结果表明，TS-Net在视频运动重定向方面的性能优于几种最先进的模型及其单分支变体。我们的代码可以在https://github.com/nihaomiao/WACV23_TSNet上找到。1. 介绍运动重定向旨在将运动从驾驶视频转移到目标视频，同时保持目标视频的主体身份。由于其在特效、虚拟/增强现实和视频编辑等方面的实际应用，它已经成为一个重要的课题。图像域中的运动重定向已经被广泛探索，并且在许多任务中已经显示出令人信服的结果，例如人物图像生成[1，27，32，37，41]，以及面部表情生成[5，21，34，55]。通常被公式化为引导视频合成任务，视频之间的运动重定向已知比图像之间的运动重定向更具挑战性，因为必须学习要传输的运动的时间动态[6]。此外，合成逼真的视频，特别是人体运动视频，比生成高质量图像更具挑战性，因为人类感知对不自然的时间变化敏感，并且人体运动通常是高度清晰的[52，54]。本文主要研究不同人之间的视频运动重定向问题412413受试者（图①的人。给定一个主题视频和一个驾驶视频，我们的目标是合成一个新的似是而非的视频与相同的身份的人从主题视频和相同的运动的人在驾驶视频。最近的作品在视频运动重定向[2，4，6，9，14，18，46，47，49，50，52，54]已经显示出令人印象深刻的进展。为了捕获视频帧之间的时间关系，现有技术[6，49，50]通过运动流扭曲主题帧来生成帧，运动流通常由专门设计的扭曲场估计器（例如FlowNet）提取[8]或第一阶近似[39]。虽然基于扭曲的系统通常可以很好地保留主体身份，但是传统的基于流的扭曲可能会受到遮挡和大运动的影响，这是由于其需要学习具有帧之间的点对点对应关系的扭曲场[15]。其他方法[2，4，12，20，52，54]利用具有条件GAN风格结构的无翘曲（直接）合成[16，30，48]。为了减轻直接合成的挑战，他们通常采用特征分解/分解[52] 或者遵循现有技术的生成器体系结构[31，48]以在输入、编码器和解码器网络之间添加各种连接。与基于扭曲的生成不同，直接合成不限于仅使用来自参考图像的像素，并且因此更容易为看不见的/被遮挡的对象合成新的像素。然而，这种灵活性也可能导致身份泄露[12]，即。识别所生成的视频中的变化。考虑到基于变形的合成可以更好地保持身份，而无变形的生成有助于产生新的像素，本文提出了一种新的视频运动重定向框架，称为变换合成网络，或简称TS-Net，结合两者的优点。TS-Net具有由转换分支和合成分支组成的双分支结构。这两个分支中的网络架构本质上是不同的，因此通过这两个分支进行学习可以被视为一种特殊的多视图学习案例[51]。与使用专门设计的光流估计器[38，39，41]和受[26]启发的流行的基于扭曲的方法不同，我们提出的变换分支通过使用驱动掩模特征和主题图像特征之间的空间相似性矩阵对规则网格进行加权来计算变形流。相似度的计算考虑了多个对应关系;因此它可以更好地缓解咬合并处理大的运动。我们还设计了一个掩码感知的相似性，以避免比较特征图中的所有点对，从而比传统的相似性计算方法更有效。在我们的合成分支中，我们使用全卷积融合网络。两个分支的特征被连接并馈送到解码器网络以生成逼真的视频帧。实验在SEC。4显示了这种简单的级联策略的有效性。仅仅基于稀疏的驾驶视频的2D掩模，我们提出的TS-Net可以一致地实现面部和舞蹈视频的最先进的结果，成功地建模头发和衣服的细节及其运动。与其他最先进的方法相比，TS-Net还可以处理大的运动并更好地保持身份，如图所示。1.一、我们的贡献总结如下：1. 提出了一种新的双分支视频运动重定向网络TS-Net，通过变换和合成的联合学习来生成保持身份和时间相干的视频。2. 我们利用一个简单而有效的方法来估计变形网格的基础上的相似性矩阵。采用掩模感知相似性来进一步减少计算开销。3. 在面部运动和身体运动重定向任务上的综合实验表明，TS-Net仅使用稀疏的2D掩码就可以达到最先进的结果2. 相关工作引导图像生成。对于有条件的图像生成，许多作品都集中在特定条件引导的生成任务上，例如姿势引导的人物图像合成[1，27，32，36，40，43]和有条件的面部表情。pression generation [5，12，34]. 姿势引导的人物图像生成可以基于该人物的被摄体图像和来自驾驶图像的新姿势来生成任意姿势的人物图像。Ma等人[27]提出了一种两阶段的由粗到细的姿态引导人物生成网络（PG2），其利用姿态集成和图像细化来生成高质量的人物图像。有条件的面部表情生成的目的是生成一个再现的脸，它表现出相同的表情作为驱动的脸图像，同时保持身份的主体图像。Chen等人[5]提出了一个两阶段的框架PuppeteerGAN，它首先通过草图网络执行表达式重定向，然后通过着色网络执行外观转换。虽然这些工作已经显示出有希望的结果，但它们仅限于特定的对象类别（面部或人体）。最近的几项工作[37，38，41，55]已经提出了在各个领域中的通用引导图像生成大部分的作品[38，39，41，44]将运动流应用于图像动画，因为它可以模拟物理动力学。Siarohin等人[39]提出了一种通用的自监督一阶运动模型，用于估计密集运动流，以使用学习的关键点和局部仿射变换来动画任意对象在[41]中，作者进一步改进了他们的网络，通过无监督区域检测对对象运动进行建模尽管建立在类似的运动流上，但在[39，41]中没有采用复杂的建模，414XEE--YX {}E {}YX¨∥·∥¨主题图像编码器配置转换分支机构K$K21网格取样$2$1ℰ��&Decode rΩ）*+concat��′驱动掩模编码器Mask $kFusionNet（斯堪S2伊1concat��埃克综合分支机构掩码感知相似性图2：TS-Net生成器在target视频中生成一帧x帧的图示TS-Net中的变换分支通过特征空间中的相似性矩阵对规则网格进行加权来生成变形流，具有较好的简单性和高效性。视频运动重定向。与基于图像的生成不同，视频运动重定向由于在时间维度上的附加相干性要求而更具挑战性。大多数现有文献集中在特定领域，如人体姿势运动重定向[4，52]或面部表情重定向[9，12，20，49，50，54]，但当应用于多个领域时，它们可能缺乏通用性相比之下，我们提出的TS-Net可以很好地工作在人脸和人体视频。使用现成的检测器来提取驱动运动掩模，例如3D掩模[9，12，20]，2D密集掩模[46，47]或2D稀疏掩模[4，54]，在当前的视频运动重定位方法中也很流行。由于2D稀疏掩模的简单性，我们提出的TS-Net还利用Dlib[22]和OpenPose[3]提取的关键点来合成3D人脸/身体的视频。为了有效地学习表示和保留输入信息，最近的方法基于具有U-Net结构和AdaIN模块的最先进的生成器[12，20，46，54]，特征解缠/分解[49，52]或专门设计的运动流估计器[6，46，50]。相反，我们提出的TS-Net使用更强大和通用的GAN生成器[19]作为骨干来共同学习转换和合成。一些以前的作品[46，47]也执行视频运动重定向，3. 方法3.1. 模型架构给定一个序列=x1，x2，. . .，xK对于K个主题帧，其对应的掩码序列=y1，y2，. . .，y，K和来自驱动视频的掩模帧z，TS-Net生成器可以产生具有来自z的主题和来自z的掩模的新视频帧x。通过应用现成的预先训练的2D稀疏关键点检测器来生成掩码，即，，Dlib[22]用于面部地标检测，OpenPose[3]用于姿势关键点估计。如图所示。TS-网络生成器由两个分支组成：变换分支Γtra和合成分支Γsyn，用于分别使用基于扭曲的变换和直接合成来生成新的视频帧。在训练过程中，我们将K个主题帧及其掩码连接起来，并将它们馈送到图像编码器EQUIimg以提取主题嵌入特征=e1，e2，. . .，e K.掩模编码器Rimsk将输入驱动掩模z编码为驱动嵌入特征f。为了减少矩阵乘法的计算成本，TS-Net在低分辨率特征空间中操作，其中的和f的空间大小仅为输入帧的1/82 然后我们输入和f到变换分支Γtra和合成分支Γsyn，如下所示。转型科。在Γ tra内部，我们使用空间采样网格实现基于扭曲的变换[17]。我们首先计算驱动嵌入特征f和第k个主题特征ek之间的余弦相似性矩阵Sk，结合了基于扭曲和无扭曲的生成。然而，在这方面，ekp·fq（一）它们的翘曲流总是应用于前一代，Skpq=ekp2、q=2这可能会导致同步帧的积累，论文神器我们提出的TS-Net在特征空间中计算驱动掩码和真实主题图像之间的扭曲流，以避免这个问题。其中S kpq 是位置q处的fq与映射f，并且，e kp在映射e k中的位置p处，并且2指示L2范数。假设特征f和e k的大小为m×m，则矩阵S k的大小将为m2×m2，即415--ELLLLpVΣΣKZXGkp=Σ、）12K12K12GDKM四分之一的m。因此，采用低分辨率的特征图是重要的，以减轻计算开销。我们进一步降低计算成本，通过设计一种新的掩模感知的相似性计算方法，如图所示。3.第三章。给定一个驱动掩码z和一个主题掩码y，我们首先根据掩码中的最大和最小关键点坐标生成它们对应的边界框bz和by。直觉上，边界框bz内的大部分像素不会被扭曲到by外的区域，因此我们可以跳过像素驾驶面罩驾驶BboxBronze重塑规则网格=相似性矩阵变形网格��这两个地区。基于该观察，我们将bz和by下采样为与特征图f和e相同的空间大小，然后仅计算其内部/外部边界框区域的点之间的亲和度值。对于输入的主题特征，我们现在有K个相似矩阵S= S1，S2，. . . 、S K. 然后，我们使用相似性矩阵Sk对规则网格G进行加权，并获得第k个采样网格G′k，如下所示：图3：我们提出的掩模感知相似性计算的说明其中GAN是对抗性损失[10]，VGG表示基于VGG网络的感知损失[19][42]，FM是特征匹配损失[48]，TRA是变换分支的这里α、β和λ是平衡的。好吧。exp（τSkpq）·GqQkpq（二）ing因素，x是生成的框架，xt是被包装的主题frame，x是ground truth real frame。其中G′k是采样网格G′k的坐标p，G q是规则网格G的坐标q，τ是控制亲和度值之间的相对差的系数。这导致K个采样网格G′={G′，G′，. . . ，G′}. 通过将采样网格G′应用于主题特征E，我们获得K个扭曲特征Vt ={v t，v t，. . . ，v t}。最终我们现在介绍详细的损失条款。对抗损失LGAN由极大极小优化定义[10]：minmaxEx[logD（x）]+Ex<$[log g（1− D（x<$））]。（四）鉴别器D被设计为将真实视频帧x与合成视频帧x区分开然后，通过对Kfea进行平均来生成warped特征v<$t掩模帧z。感知损失LVGG被定义为：在T。综合处。内部Γsyn，我们将第k个N1W||F（x）− F（x）||1、（五）使嵌入特征ek与驱动掩模特征f相关联，并将它们馈送到融合网络Λ，该融合网络Λ由一系列全卷积层组成，用于创建第k个合成的无扭曲特征图Vs。在E中处理K个特征图将生成K个合成特征图Vs ={v s，v s，. . . ，v s}。然后取K的平均值i=1i其中N是VGG特征提取网络中的层数，F（i）表示第i层的输出，其中 VGG 网络 [42] 的 Wi 个元素在ImageNet [7]上预训练。特征匹配损失LFM被定义为：以产生最终的合成特征v′s。Σ1Σ||D（i）（x）− D（i）（x）||Σ，（6）分支的组合。我们将两个分支的特征v<$t和v<$s连接起来，并采用解码器网络decoder来合成最终输出x<$s。我们还尝试将v′t和v′s与[46，47]中基于注意力的抠图函数结合起来，但我们发现这种策略无法产生更好的结果，如后面的Sec.4.3. 更多的架构细节在Sec. 四点二。3.2. 训练和推理我们使用自我监督的训练方式具体地，输入驱动掩模序列和主题图像序列来自同一主题视频的不同片段。因此，我们将主题视频中的帧作为基础事实。生成一帧的总损失计算为l=LGAN（x≠，x）+αLVGG（x≠，x）+βLFM（x≠，x）+λLTRA（x≠t，x），被摄体图像受试者掩码主题Bbox内框外框相似性相似性=重塑（i）（i）（三）exp（τSΣ416不LZXL LLLUii=1其中，D（i）表示我们提出的WMD的具有Ui个元素的第i层。变换支路损耗LTRA计算为：LTRA=||x− x||第1条，第（7）项其中，通过使用变形网格G′对主体帧进行分块包裹来计算x t。对于K个输入主题帧，我们计算每个帧的TRA，然后将它们相加。在（3）中，前三个损失项（GAN、VGG和FM）通常用于当前视频生成模型[48，47]。我们展示了将TRA引入到我们的模型的训练中的重要性。四点三。推理。给定主题视频和驱动视频的掩码序列，我们从主题视频中随机选择K帧来合成新的帧xk。1417×主题驱动V2 V FS-V2 V/EDNFOMMRegionMMTS-Net（我们的）图4：面部和舞蹈视频数据集上最先进方法（V2 V[47]，FS-V2 V[46]， EDN[4]， FOMM[39]和RegionMM[41]）的定性比较。上面两行是自我重建的结果，下面两行是交叉身份转移的结果。请注意，FS-V2 V用于面部视频，EDN用于舞蹈视频。4. 实验4.1. 数据集和指标数据集。我们在人脸视频和舞蹈视频上进行实验。对于人脸视频，我们使用FaceForensics[35]数据集中的真实视频，其中包含来自不同记者的1，004个新闻简报我们随机选择150个视频进行训练，150个视频进行测试。由于原始视频很长，我们从每个视频中随机选择了30个连续帧的短片段，并在我们的实验中使用所选择的短视频。为了从视频中提取掩码序列，我们首先应用面部对齐算法[22]来定位每帧中的68个面部标志。然后将稀疏的面部界标连接以创建面部掩模。对于舞蹈视频，在[46，47]之后，我们从Youtube1下载了舞蹈视频。我们随机选择了100个视频进行训练，85个视频进行测试，并从每个视频中随机抽取了30个连续的帧，每个帧只包含一个人。我们通过OpenPose [3]提取人类姿势作为面具。保留脸部和手部关键点，以便更好地重定运动目标。指标. 在[38，39]之后，我们基于两个测试设置（自重构和交叉身份）1视频链接可在[46]的项目网站上获得。我们从视频所有者那里获得了使用视频的许可。转移对于每个设置，我们合成100个视频，其中每个帧的大小为256 256。对于自重构，我们将同一主题的视频分割成两个不重叠的片段，并使用一个片段作为主题视频，另一个片段作为驾驶视频。在这种情况下，驾驶视频也可以作为地面实况。与[9]类似，我们计算自重建结果和驾驶视频之间的归一化平均L2距离和学习感知图像块相似性（LPIPS）[56]对于在现实世界应用中更实用的跨身份传输，由于缺乏基础事实，我们进行用户研究，将我们的模型与最先进的方法进行比较。人类评估者被示出由n个不同模型生成的n个视频的集合，然后被要求基于感知相似性和真实性将每个集合中的视频从1（最佳）到n（最差）进行排名。将为被认为具有可比质量的视频4.2. 执行模型实现。我们提出的TS-Net中的编码器θ和解码器Θ是通用的，并且可以具有各种骨干网络，例如pix2 pix [16]和SPADE [31]。我们采用[19]中的架构，因为它很简单。为418V××××数据集方法L2↓LPIPS↓V2V[47]0.03560.1123FS-V2V[46]0.04220.1064FOMM[39]0.04430.1184脸RegionMM[41]0.01480.0532TS-Net（K=1）0.02750.0731TS-Net（K=3）0.02710.0683TS-Net（K=5）0.02700.0673V2V[47]0.08950.2622EDN[4]0.04710.1718FOMM[39]0.15170.3081舞蹈RegionMM[41]0.19450.4081TS-Net（K=1）0.04330.1586TS-Net（K=3）0.04210.1543TS-Net（K=5）0.04230.1541表1：在面部和舞蹈数据集上的自重建设置下与最先进的方法的比较。K是生成中使用的主题帧的数量。在编码器上，我们使用三个步幅的网络，2个卷积和9个残差块[13]。对于WISHMSK，我们使用三个步幅-2卷积，而没有额外的残差块，因为掩码包含的信息较少。因此，嵌入特征图的空间大小仅为输入图像的1/82为了编码位置相关信息以更好地合成，我们将坐标卷积[25]应用于输入。对于解码器Θdec，我们采用4个残差块，随后是三个上采样和卷积层。对于融合网络Λ，我们使用一个残差块和一个11卷积[24]来生成无扭曲特征图s。TS-Net中采用了实例规范化[45]。对于判别器D，我们使用70 70PatchGAN[16，48，57]，其旨在对70 70重叠的补丁是真实的还是虚假的进行分类。为了稳定训练，我们使用LSGAN[28] 对抗性的损失在训练TS-Net时，我们将批量大小设置为20个视频，并使用Adam优化器[23]训练模型600个epoch，其中（β1，β2）=（0. 5，0。999）。学习率在前275个epoch中固定为2 × 10-4在（3）中，平衡参数α、β和λ都被设置为10。（2）中的系数τ被设置为100。数据增强，如颜色抖动和翻转也适用。超参数是通过多次实验来选择的当在人脸视频数据集上训练我们的模型时，我们采用图像梯度差损失[29] 作为额外的平滑度约束以消除所生成的视频中的微小伪像。当在舞蹈视频数据集上训练我们的模型时，类似于[4，46，47]，我们引入了一个额外的人脸识别器来合成更好的人脸细节。为了在不同的主题中归一化掩码，驾驶视频的掩码与主题视频的掩码对齐，方法与[4，46]中使用的方法类似。基线。对于人脸视频数据集，我们选择了四种最先进的视频合成或图像动画模型，vid 2 vid（V2 V）[47]，few-shot vid 2 vid（FS-V2 V）[46]，FOMM[39]，图5：在跨身份设置下对不同方法进行排名的用户研究领带是允许的。上面的图表是面部视频，下面的是舞蹈视频。T-Net主题驱动TS-NetS-net图6：在面部数据集上的交叉身份转移设置下的消融研究。[41]《易经》中的“道”，是指“道”。对于舞蹈视频数据集，我们将TS-Net与V2 V，FOMM，RegionMM和EverybodyDance Now（EDN）进行了比较[4]。FS-V2V不包含在舞蹈视频中，因为它需要DensePose [11]作为额外输入。我们尽可能遵循方法原始实现中的默认设置。原始的V2V和EDN使用单个视频进行训练，并在同一视频上进行测试为了公平比较，我们使用所有可用的训练视频训练V2V和EDN。4.3. 结果分析与最先进方法的比较。表1示出了在自重构设置下我们的模型与最先进的方法的定量比较。即使只使用一个419主题帧（K= 1），TS-Net也可以实现与最先进的方法相当或更好的性能。[41]第四十一话420LLLLLLXZLLL主题驱动D eformati ongri d′Warpedimagege“t��表2：在人脸数据集上自重建设置下的消融研究。输入被摄体帧的数量固定为3（K= 3）。帐篷（例如，，红框标记的区域），而无翘曲S-图7：TRA的消融研究。上面一行是没有使用TRA的T-Net，下面一行是使用TRA的.TRA清楚地学习更合理的变形网格，并改善变形结果。在自重构设置下，它在人脸视频的度量中实现了最佳性能，但在所有其他任务上（即，舞蹈视频和跨身份转移设置）。原因可能是RegionMM依赖于无监督训练的区域检测网络，其可能不够鲁棒以处理各种任务中的大运动或细粒度细节。在图4中，可以观察到V2V [47]遭受颜色/形状失真，FS-V2 V [46]错过了一些细节（例如，第一行中睁开的眼睛），EDN无法保留一些细节，例如脸部或衣服，FOMM [39]难以正确捕获头部/身体姿势，RegionMM [41]生成具有一些模糊区域和不真实外观细节的图像。（类似的结果也可以在图中观察到。①的人。相比之下，TS-Net可以更好地处理大的运动和保存身份。表1还证实了在TS-Net中使用多个主题帧来收集各种外观信息的有效性，其中大多数指标随着主题帧数量的增加而得到改善。对于跨身份转移设置，我们进行了用户研究，比较模型与人类的感知。如图5、TS-Net最受用户青睐，尤其是舞蹈视频。消融研究。为了分析TS-Net中每个模块的有效性，我们对人脸视频数据集进行了消融研究。输入主题帧的数量固定为3（K= 3），以简化模型训练和测试。表2显示了自重建设置下消融研究的定量比较结果。我们首先训练和测试了两个单分支模型，T-Net（Γtra）和S-Net（Γsyn），它们分别只使用转换分支或合成分支。从表1和表2所示的结果中，可以观察到，当与其他最先进的方法结合时，即使是单个分支也可以实现有希望的性能。然而，如图6、基于曲速的T-Net无法生成看不见的控制，网络没有能力保护身份。结果表明，单一的T-Net或S-Net可以实现有效的表示学习，两个分支的结合可以互补，取得更满意的结果。我们还比较了表2中使用和不使用TRA、T-Net和[T-Net w/o TRA]训练的转换分支，从中可以观察到删除TRA会降低性能。如图如图7所示，TRA的缺乏导致变形网格G′的意义较低，并导致不良的波形图像x′t。我们还评估了以前的视频运动重定向方法[18，46，47]所采用的一些常见技术的有效性，例如将交叉身份转移添加到训练处理[TS-Net w/ cross]或使用matting函数来组合不同类型的特征[TS-Net w/ matting]。为了实现交叉身份训练，我们从不同的视频中选择输入掩码序列因此，地面实况帧不可用于训练。在这种情况下，我们仅使用对抗性损失GAN进行训练，其中，GAND被设计为将合成帧x与任意真实视频帧x区分开。对于抠图功能，我们设计了一个具有与融合网络Λ类似架构的额外注意力网络，以生成用于梳理v <$t和v<$s的抠图掩码。然而，如表2所示，这两个模块都没有更有效，这表明TS-Net的简单设计已经实现了足够的表示学习。综合和综合能力。5. 限制对于大多数情况下，我们提出的TS-Net可以通过仅采用2D稀疏掩模来生成真实的视频（见图1）。8、补。视频）。然而，它仍然受到一些限制。首先，TS-Net的输入掩码由现成的检测器生成。探测器的错误探测可能导致不一致的运动或不正确的外观。如图9、最上面一行的合成脸有张着的嘴，中间一行的生成人显示缺少的手。其次，TS-Net有时很难合成高频细节。人们可以观察到一些方法L2↓LPIPS↓T-Net0.02760.0698T-Net不带LTRAS-net0.02870.02850.07250.0726TS-Net w/cross0.02760.0696TS-Net带垫0.02810.0696TS-Net0.02710.0683421图8：使用我们提出的TS-Net生成的面部视频（顶部块）和舞蹈视频（底部块）的示例。对于每个块，TS-Net将新视频（第3行）与主题视频（第1行）的外观和驾驶视频（第2行）的运动进行合成。被摄体图像受试者掩码驱动图像驾驶面罩输出图9：TS-Net的一些失败案例。使用[4，46]中的归一化方法对齐驱动掩码以匹配主题掩码。图中最后一行方格呢裙中的纹理伪影。9.第九条。未来的工作可以集中在改进关键点检测系统和生成更逼真的高频纹理。潜在的负面社会影响。视频运动重定向可能被用于不道德的目的[53]，例如。为假新闻制作名人视频我们将限制我们的方法和模型的使用仅用于研究目的。我们还计划研究假视频检测技术[33]这将有效地检测像我们提出的方法生成的假视频。6. 结论在本文中，我们提出了TS-Net共同学习的变换和合成的视频运动传输。综合实验表明，TS-Net可以实现国家的最先进的性能在人脸和舞蹈视频仅使用2D稀疏面具。在未来，我们计划在运动重定向中使用不同类型的掩码和多模态信息（例如音频或文本）来研究TS-Net。422引用[1] Guha Balakrishnan，Amy Zhao，Adrian V Dalca，FredoDu- rand，and John Guttag. 合成人类的图像以看不见的姿势。在IEEE计算机视觉和模式识别会议论文集，第8340- 8348页[2] Aayush Bansal 、 Shugao Ma 、 Deva Ramanan 和 YaserSheikh。再生甘：无监督视频重定向。在欧洲计算机视觉会议（ECCV）的会议记录中，第119-135页[3] 曹哲、吉内斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分亲和场的实时多人2d姿态估计。IEEE Transactions on Pattern Analysis and MachineIntelligence，43（1）：172[4] Caroline Chan ， Shiry Ginosar ， Tinghui Zhou ， andAlexei A Efros.大家跳舞吧在IEEE/CVF计算机视觉国际会议论文集，第5933-5942页[5] 陈卓，王超越，博远，陶大成。傀儡师：具有语义感知外观变换的任意肖像动画。在IEEE/CVF计算机视觉和模式识别会议论文集，第13518-13527页[6] MengyuChu，YouXie，JonasMayer，LauraLeal-Taixe' ，and Nils Thuerey.经由自我监督学习时间相干性以用于基于 gan 的视频产生。 ACM Transactions on Graphics（TOG），39（4）：75[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[8] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。在IEEE计算机视觉国际会议的论文集，第2758-2766页[9] Guy Gafni ， Justus Thies ， Michael Zollhofer ， andMatthias Nießner.用于单目4d面部化身重建的动态神经辐射场。在IEEE/CVF计算机视觉和模式识别会议论文集，第8649-8658页[10] Ian J Goodfellow，Jean Pouget-Abadie，Mehdi Mirza，Bing Xu ， David Warde-Farley ， Sherjil Ozair ， AaronCourville，and Yoshua Bengio.生成对抗网络。arXiv预印本arXiv：1406.2661，2014。[11] Rı z aAlpGuüler，N a taliaN ev er ov a，andIasonasKokkinos. 密度：野外密集的人体姿势估计。在IEEE计算机视觉和模式识别会议论文集，第7297-7306页[12] Sungjoo Ha ， Martin Kersner ， Beomsu Kim ， SeokjunSeo，and Dongyoung Kim.提线木偶：少镜头的面部再现，保持看不见的目标的身份。在AAAI人工智能会议论文集，第34卷，第10893-10900页[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[14] 洪发庭，张龙浩，李申，徐丹。深度感知的生成对抗网络用于说话头部视频生成。在IEEE/CVF计算机视觉和模式识别会议论文集，第3397[15] Yuan-Ting Hu ， Jia-Bin Huang ， and Alexander GSchwing. Videomatch：基于匹配的视频对象分割。在欧洲计算机视觉会议（ECCV）的会议记录中，第54-70页[16] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集，第1125-1134页[17] Max Jaderberg，Karen Simonyan，Andrew Zisserman，等.空间Transformer网络。神经信息处理系统的进展，2015年28日。[18] Subin Jeon ， Seonghyeon Nam ， Seean-Wug Oh ， andSeon Joo Kim.通过姿态关注视频重组实现任意对象的跨身份运动转移。欧洲计算机视觉会议，第292-308页。Springer，2020年。[19] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694-711页。施普林格，2016年。[20] Hyeongwoo Kim 、 Pablo Garrido 、 Ayush Tewari 、Weipeng Xu、JustusThies、MatthiasNiessne r、Pa t rickPe´rez 、 Chris-tianRichardt 、 MichaelZollhoüfer 和ChristianTheobalt。深度视频肖像。ACM Transactions onGraphics（TOG），37（4）：1[21] Junho Kim，Minjae Kim，Hyeonwoo Kang和KwangheeLee。U-gat-it：具有自适应层实例归一化的无监督生成注意力网络，用于图像到图像的翻译。arXiv预印本arXiv：1907.10830，2019。[22] 戴维斯·E·金 Dlib-ml：一个机器学习工具包。机器学习研究杂志，10：1755[23] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[24] Min Lin，Qiang Chen，and Shuicheng Yan.网络中的网络。arXiv预印本arXiv：1312.4400，2013。[25] Rosanne Liu 、 Joel Lehman 、 Piero Molino 、 FelipePetroski Such 、 Eric Frank 、 Alex Sergeev 和 JasonYosinski。卷积神经网络和coordconv解决方案的有趣失败。arXiv预印本arXiv：1807.03247，2018。[26] Yihao Liu，Lianrui Zuo，Shuo Han，Jerry L Prince，andAaron Carass.用于学习可变形医学图像配准的坐标转换器。arXiv预印本arXiv：2203.03626，2022。[27] 马丽倩、徐佳、孙倩茹、Bernt Schiele、Tinne Tuyte-laars和Luc Van Gool。姿势引导的人物图像生成。arXiv预印本arXiv：1705.09368，2017。423[28] Xudong Mao ， Qing Li ， Haoran Xie ， Raymond YKLau，Zhen Wang，and Stephen Paul Smolley.最小二乘生成对抗网络。在IEEE国际计算机视觉会议论文集，第2794-2802页[29] Michael Mathieu，Camille Couprie，and Yann LeCun.超越均方误差的深度多尺度视频预测。arXiv预印本arXiv：1511.05440，2015。[30] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。[31] Taesung Park ， Ming-Yu Liu ， Ting-Chun Wang ， Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。在IEEE/CVF计算机视觉和模式识别会议论文集，第2337-2346页[32] Albert Pumarola 、 Antonio Agudo 、 Alberto Sanfeliu 和Francesc Moreno-Noguer。任意姿态的无监督人物图像合成。在IEEE计算机视觉和模式识别会议论文集，第8620[33] Ashifur Rahman、Md Mazharul Islam、Mohasina JannatMoon 、 TaheraTasnim 、 NipoSiddique 、 MdShahiduzzaman和Samsuddin Ahmed。基于深度学习的深度虚假视频创建和检测方法的定性调查。Aust. J. Eng.Innov. Technol，4（1）：13 -26，2022年。[34] Yurui Ren，Ge Li，Yuanqi Chen，Thomas H Li，andShan Liu. Pirenderer：通过语义神经渲染的可控肖像图像生成。在IEEE/CVF计算机视觉国际会议论文集，第13759[35] AndreasR¨ ssler， Da videCozzolino ， LuisaVerdoliv a ，Chris-tianRiess ， JustusThies ， andMatthiasNießner.FaceForen- sics：大规模视频数据集用于人脸伪造检测。arXiv，2018年。[36] Kripasindhu Sarkar ， Dushyant Mehta ， Weipeng Xu ，Vladislav Golyanik，and Christian Theobalt.从一张图像中重新绘制出人类的在欧洲计算机视觉会议上，第596Springe

下载后可阅读完整内容，剩余1页未读，立即下载