没有合适的资源?快使用搜索试试~ 我知道了~
3647基于扰动面具的Yoav Shalev Lior Wolf特拉维夫大学布拉瓦特尼克计算机科学学院网址:yoavshalev@mail.tau.ac.il,wolf@cs.tau.ac.il摘要我们提出了一种新的方法,图像动画的源图像的驱动视频,都描绘了相同类型的对象。我们不假设存在的姿势模型,我们的方法是能够动画任意对象,而不需要对象的结构的知识。然而,驾驶视频和源图像两者仅在测试时间期间被看到。我们的方法是基于一个共享的掩模生成器,它将前景对象从其背景中分离出来,并捕获对象为了控制输出帧的身份的来源,我们采用扰动来中断驾驶员掩码上的不需要的身份信息。然后,掩码细化模块用源的身份替换驱动程序的身份。以源图像为条件,然后由渲染真实图像的多尺度生成器对变换的掩模进行解码,其中源帧的内容由驾驶视频中的姿势动画化。由于缺乏完全监督的数据,我们训练的任务是从源图像所在的同一视频中重建帧。我们的方法被证明大大优于国家的最先进的方法多 tiple 基 准 。我 们 的 代 码 和 样 本 是 可 用 的在https://github.com/itsyoavshalev/Image-Animation-with-扰动面具。1. 介绍近年来,基于驾驶视频重新激活静止图像的能力已经得到了广泛的研究[12,15,20]。所开发的方法在保持源身份(如从源帧中提取的)和复制驾驶员帧的运动模式方面此外,最近的方法也表现出良好的泛化不可见的身份,是相对强大的,并有较少的文物比旧的这些方法可以相对容易地开箱即用,导致它们在各种视觉效果中被采用。有趣的是,一些最引人注目的结果是用无模型方法获得,即,例如,不依赖于提取后模型[10,11,16,17,22,25]。这表明这种方法可以令人信服地从运动中分离出形状和身份[7,13]。然而,这些方法仍有几个方面需要改进。首先,生成的视频带有明显的伪影。第二,源图像的一些身份丢失并且被来自驾驶视频的身份元素替换。第三,生成的视频的动画并不总是与驾驶员视频中的运动匹配。在这里,我们提出了一种方法,是更好的运动精度,身份和背景保护,以及生成的视频质量方面的实验工作。我们的方法依赖于基于掩码的表示的驱动姿势和显式调节的源前地面掩模。源掩码和驱动程序掩码由同一网络提取。驱动程序掩码经过替换掩码中的身份信息的附加阶段。对口罩的依赖有很多好处。首先,它消除了驾驶视频中的许多身份线索其次,它显式地对源图像中需要重新放置的区域进行建模。第三,它对源和驱动程序都是通用的,因此在适当的增强下,允许仅在源视频上进行训练第四,它捕获对象的姿势和形状的详细描述有趣的是,与以前的许多方法不同,我们不依赖GAN [9]从不同输入的组合中生成正确的输出。相反,我们采用编码器-解码器,其中身份被操纵,以引导网络采用来自每个输入的信息总而言之,我们的贡献包括:(i)一种图像动画方法,generalizes到相同类型的看不见的身份,并且能够比以前的工作更好地动画任意对象;(ii)在掩模上创新地使用扰动,以中断驱动程序的身份,然后由掩模细化模块替换为源的身份;(iii)对几种不同的应用程序进行全面评估,这表明对当前图像动画的最新技术水平有相当大的改进。3648××2. 相关工作关于图像动画的许多工作依赖于关于动画对象的先验信息,其形式为对象结构的显式建模,例如,一些方法使用面部标志使源图像动画化[27,28],而[15]开发了人类姿势引导的图像生成器。然而,在许多应用中,显式模型不可用。我们的方法是无模型的,能够动画任意对象。在图像到图像转换领域有许多无模型的贡献,其中一个域的图像被映射到另一个域的模拟图像[11]使用条件GAN学习两个域之间的映射[22]开发了一种多尺度GAN,可以从语义标签地图生成[10]将两个域的图像编码到共享内容空间和域特定样式空间中。一个域的内容代码与另一个域的样式代码相结合,然后使用特定于域的解码器生成图像对于这类方法,模型不能推广到其他看不见的领域的同一类别,而不重新训练。相比之下,对于给定类型的模型(例如人脸),我们的方法只训练一次,并且能够推广到相同类型的不可见域(例如,源和驱动人脸可以是任何身份)。与我们的方法更相关的是一种方法,该方法假设每个视频的参考帧,并学习将像素从源帧映射到其参考帧的密集运动场,以及从参考帧到驾驶员帧的另一个映射[16]提取用于驱动的地标和任意对象的源图像,并从关键点位移生成运动热图。然后处理热图和源图像以生成最终预测。后续工作[17]提取了一阶运动表示,由稀疏关键点和局部仿射变换组成,相对于参考帧。然后处理运动表示以生成从驱动程序帧到源帧的密集运动场,这种方法和我们的方法一样,不使用GAN。主要的区别是,我们的方法不假设一个参考系,而不是关键点,我们生成的对象面具,这是更多的信息有关的姿态和形状,我们的扰动和面具细化模块的创新使用其他方法,包括[7,13],学习形状和外观的基于部分的非纠缠表示,并尝试确保外观和形状的局部变化保持局部,并且不影响整体表示。另一方面,我们的方法不假设预定义的部件数量,并且通过使用扰动和掩模细化模块,它能够更好地去除驱动程序标识并注入源的标识。当源视频可用时,通过利用源视频的丰富外观和姿态信息,视频到视频转换方法[4,12这样的方法学习两个域之间的映射,并且能够生成逼真的结果,其中源视频由驾驶员视频动画化。这些方法在训练时需要大量的源帧,并且对于每个目标对象需要长的训练过程。相比之下,我们的模型能够动画一个单一的源图像,这是在训练过程中看不见的,并采用驾驶视频与另一个小说的人。3. 方法该方法由四个编码器-解码器网络组成:掩码生成器m、掩码细化网络r以及低分辨率和高分辨率帧生成器h和h。网络将源帧s和驱动帧d变换成所生成的高分辨率帧f,其中f包含源帧s的前景和背景,使得s中的前景对象的姿态被修改以匹配驱动帧d的姿态。这是为每个驱动帧单独完成的,并在测试时通过以下过程执行,如图所示一曰:ms=m(s)(1)md=m(d)(2)mdp=P检验(md)(3)mdr=r(D(s),ms,mdp)(4)c=m(D(s),ms,mdr)(5)f=h(s,U(ms),U(mdr),c),(6)其中 大写 粗体 符号 表示 未经 训练 的运 算, 包括 D(U),它是使用双线性插值实现的缩小(放大)运算符,其将分辨率256 × 256的图像变换为分辨率64 ×64的图像(反之亦然)。首先,使用掩码生成器m生成ms和md。接下来,通过将小于阈值ρ的像素设置为零,将身份扰动算子P测试应用于驾驶员考虑到典型的面罩,例如,眼睛、嘴和头发区域中的像素具有低强度。通过应用P测试去除这些像素,导致更通用的面部,中断驾驶员对于每个驱动程序接下来,细化网络r用于生成扰动的掩码m_dp的缺失数据,并将驾驶员的身份替换它使用源最后,生成的帧正在合成在一个分层的过程中,其中粗(低分辨率)3649(a) 掩码生成器m(b)掩码精化网络r(c)低分辨率发生器(d)高分辨率发生器(h)图1.我们的方法在测试时的概述。(a)使用掩模生成器m来生成源极掩模ms和驱动掩模md。(b)身份扰动算子P测试然后被应用于驾驶员(c)细化的掩模m_dr、源的掩模m_s和按比例缩小的源的图像D(s)被馈送到生成器m_r中,生成器m_(d)将按比例放大的细化掩码U(m_dr)、源图像s、初始预测c和按比例放大的源帧C首先使用SNR生成,然后由网络H细化。这两个生成器(m,h)都利用掩模m,s来关注源帧s中的前景和背景对象,并推断需要生成的被遮挡区域。细化的驱动程序因此,需要在驱动框架中对前方地面物体的姿态进行编码.然而,这必须以不改变驾驶员身份的方式完成。例如,当基于人B的驾驶员视频使人A复活时,应当给出B的姿势,同时丢弃B的体形信息。否则,所生成的帧可以具有源的前景的外观因此,扰动算子P测试被设计为中断与驾驶员和帧。因此,所提出的身份替换阶段不修改驾驶员3.1. 培训使用来自同一视频的驱动帧和源帧进行训练。原因是,对于我们使用的监督损失项类型,需要一个真实的目标框架主要的挑战是保持模型足够健壮,以便在测试时接受来自另一个视频的驱动帧d训练流水线从测试时间稍微修改,其中将增强A应用于驱动帧d,并且发生更精细的扰动P训练。此外,由于源帧和驱动帧具有相同的身份,如图2所示,生成器m和h都使用驱动器的掩码m_d,而不是使用仅用于训练细化的细化掩码m_dr。3650−·∈(a) 低分辨率发生器(b)高分辨率发生器h图2.低分辨率和高分辨率发生器在列车时间。代替如在测试时间中那样获得驱动程序网络r:md=m(A(d))(7)mdp=P列车(md)(8)mdr=r(D(s),ms,mdp)(9)c=(D(s),ms,md)(10)f=h(s,U(ms),U(md),c),(11)使用交叉验证选择所有超参数值,包括这些常数,并在所有基准的所有实验中固定。损失项使用两个损失项对模型进行端到端训练:掩码细化损失和感知重构损失。在训练时,源帧和驱动帧具有相同的身份,掩码细化网络r的作用是恢复丢失的数据,其中增强A是缩放的颜色变换,输入的亮度、对比度和饱和度由从[0. 九,一。1],并通过从[ 0]中提取的随机值来移动其色调。1,0。1]中。这种增强的目标是鼓励生成的掩码对于输入的外观是不变的Ptrain按顺序执行以下两个步骤:将图像垂直(水平)分成六个部分,并通过从[0. 75,1。25]。接下来,它通过从[0]中提取的随机值垂直(水平)缩放整个输出。75,1。25]。(ii)类似于P测试,将小于阈值ρ的像素设置为零,我们将阈值ρ设置为每个掩模的中值像素值。该操作的目标是通过修改其掩码的比例来中断驾驶员的身份,例如,在面部中,它修改眼睛之间的距离,这导致身份扰动,同时保持一般姿势。阈值化操作消除低强度像素(例如,边界像素)。由操作员P列车移除。因此,我们最小化L1驾驶员掩码m d及其细化掩码m dr的损失L掩码(d)=L1(mdr,md)。(十二)对于生成器k和h的图像重建损失,遵循[17]并基于[21]的实现,我们使用VGG-19模型的预训练权重来最小化感知损失对于两个图像a和b,使用预先训练的VGG模型的第j层的重建损失项被写为:(1)AA|Nj(a)−Nj(b)|)(13)其中AVG是平均算子,并且Nj()是使用预训练的VGG模型的第j层提取的特征对于粗略和精细预测c和f以及驱动帧d,我们计算以下多分辨率的重建损失:L重构=LVGG(cs,ds)j+L VGG(fs,ds)j身体的各个部分,以及头发、眼睛和嘴巴区域),这是j是司机身份的重要组成部分在没有Ptrain的所列操作的情况 下 , 我 们 经 历 了 掩 码 细 化 模 块 r 忽 略 参 考 掩 码(ms)和帧(s)的现象,即应用Ptrain鼓励掩码细化网络r投影与源的身份相关联的元素,这对于生成部分是至关重要的哪里输入图像As具有 一 决议s[2562,1282,642].我们使用VGG-19模型的第一、第三和第五ReLU层。请注意,虽然VGG是为2242的分辨率设计的,但第一层是卷积的,可以用于任意输入尺度。综合损失由L给出=λ1L掩模+对于权重参数λ1=100和λ2=10,3651Σ ΣLL×为了避免网络m的不希望的自适应,掩码的反向传播仅更新掩码细化网络r的权重。当反向传播re构造损失的第二部分SJVG G(fs,ds)j,只有生成元h被更新。Adam优化器的学习率为2 10−4,β值为0。5和0。9 .第九条。批量为16。在[17]之后,我们在epoch60和 90 衰 减 学 习 率 , 在 NVIDIA Titan RTX 上 运 行100epoch掩码细化网络r在我们完成第一个训练时期之后开始训练,此时掩码生成器m的输出开始有意义。该网络的体系结构在软材料中给出,其中还包含源代码。4. 实验使用三个不同的数据集进行训练和评估,这些数据集包含不同对象的短视频。Tai-Chi-HD是一个包含人们做太极练习的视频的数据集。在[17]之后,YouTube上有3,141个太极视频被下载。这些视频被裁剪并调整大小为2562的分辨率,同时保留纵横比。有3,016个培训视频和125个测试视频。VoxCeleb是由[14]介绍的由说话面孔的短视频组成的视听数据集。VoxCeleb1是使用的集合,作为预处理,提取面部的边界框并将其大小调整为2562,同时保留纵横比。它包含18,556个培训视频和485个测试视频。BAIR数据集包含Sawyer机器人臂与ob-baby交互的视频[8]。它包含42,880个训练视频和128个测试视频,每个视频由30帧组成,分辨率为2562。我们无法获得UvA-NEMO数据集[6],这是在一些早期的贡献中使用的我们借用并显著扩展了[17]的评估过程。我们的方法进行了评估,定量和定性的视频重建和图像动画的任务,其中的源和驱动视频是不同的身份。此外,尽管是无模型的,我们比较了基于模型的方法在少数拍摄学习的情况下。在这种情况下,我们的方法,不像基线方法,不采用任何少数拍摄样本。多个指标用于评估:L1是生成的视频和地面实况视频之间的L1距离。平均关键点距离(AKD)测量生成的视频和地面实况视频的关键点之间的平均距离。对于太极HD,我们使用[3]的人体姿态估计器,对于VoxCeleb,我们使用[2]的面部标志检测器。缺失关键点率(MKR)测量在地面实况视频中成功检测到但在生成的视频中缺失的关键点的百分比。[3]的人类姿态估计器为每个关键点输出一个指示符,指示它是否被成功检测到。利用这个指标,我们认为-当 然 太 极 HD 数 据 集 的 MKR 平 均 欧 几 里 得 距 离(AED)测量地面实况和生成的视频的表示之间的某些嵌入空间中的平均欧几里得距离。在[17]之后,我们采用[16]的特征嵌入。结构相似性(SSIM)[24]:对于VoxCeleb,我们比较了地面实况驱动帧和生成图像 的 结 构 相 似 性 。 余 弦 相 似 性 ( CSIM ) : 对 于VoxCeleb,我们通过比较面部识别网络生成的嵌入向量的余弦相似性来测量生成的和地面真实源面部的身份相似性[5]。分类(CLS):对于太极HD,我们使用Detectron 2框架[26]对生成的帧进行分类,并测量分类为一个人的帧的数量。具体来说,我们使用X101-FPNCOCO实例分割模型。交集超过联合(IOU):对于太极HD,我们计算生成的和驾驶视频的分段的IOU。使用与我们使用的模型相同的模型生成分割用于分类。面部表情相似性(FES):对于VoxCeleb,我们使用FER分类器(https://github.com/justinshenk/fer)测量生成的和驱动帧的面部表情相似性,其支持七种不同的情绪。4.1. 视频重构视频重构基准遵循训练过程,因为源帧和目标帧来自同一视频。为了评估,测试视频的第一帧被用作源帧,并且同一视频的其余帧被用作驱动帧。目标是重建测试视频的所有帧,除了第一帧。将L1、AKD、MKR和AED与最先进的无模型方法进行比较,包括[25]的X2Face、[16]的MonkeyNet和[17]建议的方法,我们将其称为FOMM。结果报告在表1中。1.一、显然,我们的方法优于每个数据集和所有指标的基线,除了VoxCeleb数据集上的AKD测量,其中准确度降低了2。百分之七。最显著的改进是太极HD数据集,这是最具挑战性的数据集,因为它由高度非刚体的各种运动组成。为了验证基线的改进不是由于其较小的瓶颈大小,我 们 在 所 有 三 个 数 据 集 上 重 新 训 练 了 FOMM 和MonkeyNet,使用更宽的瓶颈,并评估了视频重建任务。我们使用365个关键点用于FOMM,相当于2190个浮点数,使用440个关键点用于Mon- keyNet,相当于2200个浮点数。如表1所示。2、没有看到任何改善。接 下 来 , 我 们 遵 循 [28] 并 将 SSIM 和 CSIM 与X2Face,Pix2PixHD [23]和FSAL方法[28]进行比较。3652Tai-Chi-HD VoxCeleb BAIR方法L1AKDMKRAEDL1 AKDAEDL1X2Face 0.080 17.6540.1090.272 0.078 7.6870.4050.065明尼苏达州0.07710.7980.0590.228 0.049 1.8780.1990.034FOMM0.0360.179 0.0431.2940.1400.027我们0.047 4.2390.0150.147 0.0341.3290.1300.021表1.视频重建结果。MN=猴网。Tai-Chi-HD VoxCeleb BAIR方法L1AKDMKRAEDL1AKD AED L1MNFOMM 0.068 8.5610.0430.196 0.050 1.5250.165 0.028我们0.047 4.2390.0150.147 0.034 1.3290.130 0.021表2.视频重建使用一个更广泛的瓶颈基线。MN=MonkeyNet方法#FTSSIM↑CSIM↑X2Face1/8/320.68/0.73/0.750.16/0.17/0.18P2PHD1/8/320.56/0.64/0.700.09/0.12/0.16FSAL1/8/320.67/0.71/0.740.15/0.17/0.19我们00.800.70表3.VoxCeleb的少量学习结果与基线不同,我们不执行身份微调。#FT=用于微调的帧数。P2PHD=Pix2PixHD。基线是在少数镜头学习设置中进行评估的,其中模型在一组大小为#FT的集合上进行微调,该集合由在初始元学习步骤中未看到的人的帧组成。在微调步骤之后,评估是在由同一个人的看不见的帧组成的保留集上进行的。对VoxCeleb进行评价,结果报告在表中。3 .第三章。可以看出,我们的方法推广得更好,并优于SSIM中的基线,在CSIM中甚至更好。这特别表明了该方法(ii)X2Face和FSAL是专门为面部设计的而我们的方法是无模型的和通用的。4.2. 图像动画图像动画的任务是使用驾驶视频动画化源源和驱动输入中的对象及其背景可以具有不同的身份和外观。在实验中,源视频的第一帧用于编码外观,而驱动视频的所有帧生成视频,其中源帧的内容由驱动视频动画化。为了评估生成的视频和驾驶视频之间的对齐,我们测量了Tai-Chi-HD数据集的AKD,MKR和IOU,以及VoxCeleb数据集的FES和CSIM。AKD、MKR和IOU与Vox无关-Tai-Chi-HD VoxCeleb方法AKD ↓MKR↓CLS↑欠条↑FES↑X2Face 22.799 0.140 0.8700.55828.0%猴子网17.308 0.104 0.8520.63438.2%10.044 0.9570.86448.4%我们的7.809 0.020 0.994 0.875 52.2%表4.图像动画的定量评价名人数据集,因为完美匹配可能表明身份丢失。原因是不同人的面部关键点和分割具有不同的比率,因此不能进行比较。太极HD数据集的情况并非如此,其中相机远离个人,并且不同身份的身体比例几乎相同。测量Tai-Chi-HD数据集的CLS提供了差异化,而对于VoxCeleb,我们的方法和FOMM几乎都是100%准确的,我们提出的改进可以忽略不计。由于Sawyer机器人手臂缺乏预先训练的分类器和关键点检测器,Bair数据集无法获得测量结果。对于以下实验,从每个数据集的测试集中随机选择100对具有不同身份的定量动画结果见表1。4、在Tab 五、可以看出,我们的方法对所有指标都有很大的优势。消融模型见第4.2节中的CSIM分析。为了评估源帧和驱动帧之间不同级别的姿态变化的鲁棒性根据源帧和驱动帧的AKD值,我们将测试集分为三个子集,第一个子集包含了最低值的帧,以此类推,并与目前最有竞争力的FOMM方法进行了比较,结果见表1。六、可以看出,我们的方法更好地保留了驾驶员与 基 线 方 法 比 较 的 样 本 结 果 如 图 3 所 示 。 对 于VoxCeleb,我们的方法更好地保留了源的身份,并且生成的帧的面部表情与驱动程序的面部表情更兼容对于太极HD数据集,基线方法倾向于为第四个生成的帧生成不可行的姿势,而我们没有。与FOMM不同,我们很好地维护了环境元素,比如生成的框架右上角的棍子。对于BAIR数据集,由我们的方法生成的图像请注意,这些样本是为了与[16]的样本相匹配而选择的,而不是由我们选择的。消融主要的挑战是将驾驶员面具上的身份替换我们分两步来做:(i)通过应用P检验中断驾驶员3653型号X2Face MN FOMM没有pert没有ref没有id低分辨率OursOpenFace [1]0.512 0.544 0.6200.625 0.487 0.522 0.6320.642[19]第十九话 0.528 0.580 0.6460.648 0.515 0.5460.658[18]第十八话 0.827 0.9530.917 0.756 0.7860.9480.963s msd md民主党mdr表5.VoxCeleb的CSIM,包括消融模型。cfFOMM no pertno ref no ids msd mdmdpmdrcfFOMM no pertno ref no ids msd mdmdpmdrcfFOMM no pertno ref no id图4.我们的方法产生的中间结果。将生成的帧f与FOMM和消融模型进行比较。从左到右:源帧s、源掩模ms、驱动帧d、驱动掩模md、扰动的驱动掩模mdp、细化的驱动掩模mdr、低分辨率预测c、高分辨率预测f、FOMM的 结 果 和消 融 : no pe rt 丢 弃 P 测 试 , no re f 省 略 掩 模 细 化 r ,并 且no id 省 略两 者 。图3.三个数据集上的示例动画结果。我们使用与FOMM评估相同的样本。网络R用于用源的身份替换驾驶员的身份。为了评估P测试和r的作用,我们评估了三个部分方法:no pert,noref和no id,其中第一个,第二个或两个步骤分别被删除。我们的流水线生成的消融和中间结果如图4所示。可以看出,所生成的掩模ms和md非常准确地捕获对象把线人将生成的帧f与FOMM的帧进行比较,我们注意到对于太极HD数据集,使用我们的方法生成的身体的姿势与驾驶员的姿势更加兼容,其中FOMM的模型生成扭曲的身体。对于VoxCeleb,使用我们的方法,源的身份得到了更好的保留,因为它还显示了一小部分牙齿,就像驱动程序一样。对于BAIR数据集,与FOMM不同,我们的方法能够修补被遮挡的表面,包括生成帧右侧的白色和蓝色项目。检查所生成的烧蚀模型的帧表明,这两个步骤,身份扰动和掩模细化,是至关重要的。由no pert和no id生成的帧具有驾驶员身份的显著痕迹这对于VoxCeleb尤其明显,在前额区域上没有pert,并且一般外观没有id。类似地,对于Tai-Chi-HD,由no ref生成的帧包含来自驾驶员环境的轨迹,并且对于其他数据集,它生成失真的接下来,我们评价了以下消融模型。 没有颜色增强,其中颜色增强在训练时被消除。 h更新l,其中高分辨率生成器h保持更新低分辨率生成器k的权重。 h更新m,其中高分辨率生成器h保持更新司机Vox-名人来源X2FaceMkeyNFOMM我们司机泰-池源X2FaceMkeyNFOMM我们司机Bair源X2FaceMkeyNFOMM我们VoxCelebBair太极-HD3654CFCF后前7.809\ 6.431\ 7.433\ 8.909 0.020\ 0.017\ 0.020\ 0.025表6.太极HD的AKD和MKRFES为VoxCeleb。所有报告均为完整\第1\第2\第3集。方法L1 AKD AED无颜色8月0.045 1.863 0.159H更新m 0.041 1.829 0.161H更新l 0.039 1.412 0.142全法0.034 1.329 0.130表7.VoxCeleb重建任务的消融分析掩码生成器M的权重。在VoxCeleb数据集上训练消融模型,并在视频重建任务上进行评价。结果见表。7 .第一次会议。可以看出,使用颜色增强并限制高分辨率生成器h的任务以添加精细细节,有助于模型更快地收敛。接下来,我们使用源帧和生成帧之间的CSIM来分析所建议的用于身份保留的模块的重要性。结果见表。五、 可以看出,去除细化步骤(no ref,no id)显著降低CSIM分数,并且应用P测试帮助r更好地注入源的身份。还可以看出,低分辨率导致较低的CSIM分数,这验证了h.图5我们给出了一个例子,说明了f相对于c的视觉改进。两个例子中的环境和左边例子中的人的脸在f中要尖锐得多。此外,我们还展示了一个例子,其中生成的面具很好地反映了主体是否面向后方。为了进一步定性评估我们的方法并将其与现有工作进行比较,我们向志愿者提供了源图像,驾驶视频和四个随机排序生成的视频,每个基线方法一个要求他们(i)选择源图像的最逼真动画,以及(ii)选择与驾驶员视频具有最高保真度的视频。对于每个n=25的participants,我们重复实验三次,每次使用不同的数据集和随机测试样本。结果见Tab。8,与定量结果高度一致,并表明我们的方法生成的视频的质量和动画,包含较少的图5.(左)f比c尖锐。(右)后面罩。数据集X2FaceMN FOMM no pert no ref no id Ours太极 (0%,0%)(4%,4%)(16%,8%)(2%,2%)(0%,0%)(0%,0%)(78%,86%)VoxCeleb(0%,0%)(6%,4%)(10%,10%)(12%,10%)(0%,0%)(0%,0%)(72%,76%)BAIR(0%,4%)(6%,6%)(14%,8%)(20%,16%)(0%,0%)(0%,0%)(60%,66%)表8.为每种方法(包括消融)选择的最佳视频的比率(质量、运动保真度)。MN=猴网。更好地与驾驶员视频同步此外,可以看出,细化网络r是 质 量 和 运 动 的 最 重 要 模 块 , 并 且 在 太 极 HD 和VoxCeleb中更需要扰动算子P测试局限性虽然优于基线,但对于姿势和形状的极端变化存在人为因素和身份损失。另外,由于扰动算子将小于阈值ρ的掩模其他故障情况是生成的掩码上的模糊,例如,对于太极HD,当双手重叠时,生成器可能难以理解哪一个在顶部。这种局限性也存在于基线方法,包括关键点方法。作为一种视频生成方法,应考虑将生成的输出用于有害的方式。例如,所生成的讲话头部的视频可以用作用于操纵语音内容的系统的一部分。 我们希望,以开放的方式研究这些方法将能够通过更好的检测方法和提高认识来减轻这些风险。5. 结论提出了一种新的有条件的帧动画恢复方法。它利用了一种掩蔽机制来对姿态信息进行编码。我们的方法是能够有效地提取源和驾驶面具,同时准确地捕捉形状和前景/背景分离,并恢复一个身份无关的姿态表示的司机。我们的结果优于现有的基准相当大的利润率的艺术状态。致谢该项目已获得欧洲研究委员会(ERC)在欧盟地平线2020研究和创新计划下的资助第一作者的贡献是特拉维夫大学博士论文研究方法AKD↓MKR↓FES↑FOMM我们10.218\ 8.629\ 9.958\12.3640.044\ 0.042\ 0.042\0.04948.4%\ 48.9%\ 50.7%\ 45.6%52.2%\ 54.3%\ 53%\ 49.3%3655引用[1] Brandon Amos , Bartosz Ludwiczuk , and MahadevSatya- narayanan. Openface:一个带有移动应用程序的通用人脸识别库。技术报告,CMU-CS-16-118,CMU计算机科学学院,2016年。7[2] Adrian Bulat和Georgios Tzimiropoulos我们离解决2D 3D人脸对齐问题还有多远?(and 230,000个3D面部标志的数据集)。arXiv电子印刷品,第arXiv:1703.07332页,2017年3月。5[3] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分仿射场的实时多人2D位姿估计。arXiv电子印刷品,第arXiv页:1611.08050,11月。2016年。5[4] Caroline Chan , Shiry Ginosar , Tinghui Zhou , andAlexei A.埃夫罗斯现在大家跳舞。arXiv电子印刷品,第arXiv:1808.07371页,2018年8月。2[5] 邓健康,贾国,薛念南,Stefanos Zafeiriou。Arcface:用于深度人脸识别的附加角度余量损失。在IEEE计算机视觉和模式识别会议论文集,第4690- 4699页,2019年。5[6] HamdiDibekli ogZaglu,AlbertAliSalah,andTheoG ev ers.你真的在自发的微笑与假装的享受的微笑。欧洲计算机视觉会议,第525-538页。Springer,2012. 5[7] 艾塞古尔·邓达尔,凯文·施,阿尼梅什·加格,罗伯特·波特托夫,安德鲁·陶,布莱恩·卡坦扎罗。来自图像和视频的姿势,外观和背景的无监督的Dis-纠缠。arXiv电子印刷品,第arXiv:2001.09518页,2020年1月。 一、二[8] 作者:Frederik Ebert Chelsea Finn Alex X. Lee和SergeyLevine。具有时间跳跃连接的自监督视觉规划arXiv电子版,第arXiv:1710.05268页,2017年10月。5[9] Ian Goodfellow , Yoshua Bengio , Aaron Courville ,Yoshua Bengio. 深度学习,第1卷。麻省理工学院出版社,2016.1[10] Xun Huang , Ming-Yu Liu , Serge Belongie , and JanKautz.多模态无监督图像到图像翻译。arXiv电子印刷品,第arXiv:1804.04732页,2018年4月。一、二[11] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei A.埃夫罗斯图像到图像的翻译与条件广告网络。arXiv电子版,第arXiv:1611.07004页,2016年11月。一、二[12] Hyeongwoo Kim 、 Pablo Garrido 、 Ayush Tewari 、Weipeng Xu、JustusThies、MatthiasNiessne r、Pa t rickPe´rez 、 Chris-tianRichardt 、 MichaelZollhoüfer 和ChristianTheobalt。深度视频肖像。ACM Transactions onGraphics(TOG),37(4):1-14,2018。一、二[13] Dominik Lorenz,Leonard Bereska,Timo Milbich,andBjorn Ommer.对象形状和外观的无监督的基于部分的解开。在IEEE计算机视觉和模式识别会议论文集,第10955-10964页一、二[14] A.纳格拉尼Chung和A.齐瑟曼。Voxceleb:大规模说话人识别数据集。InInter- Speech,2017. 5[15] Yurui Ren ,Xiaoming Yu,Junming Chen,Thomas HLi,and Ge Li.用于人物图像生成的深度图像空间变换。在IEEE/CVF计算机视觉和模式识别会议论文集,第7690- 7699页,2020年。一、二[16] Aliaksandr Siarohin , Stephane Lathuiliere , SergeyTulyakov,Elisa Ricci,and Nicu Sebe. 通过深度运动转移对任意对象进行动画处理。在IEEE/CVF计算机视觉和模式识别会议(CVPR)上,2019年6月。一、二、五、六[17] Alia ksandrSiarohin , Ste´ phaneLathuilie` re , Ser geyTulyakov,Elisa Ricci,and Nicu Sebe.图像动画的一阶运动模型神经信息处理系统的进展,第7137-7147页,2019年。一、二、四、五[18] Yi Sun,Xiaogang Wang,and Xiaoou Tang.通过联合识别-验证进行深度学习的人脸表示。arXiv电子印刷品,第arXiv:1406.4773页,2014年6月。7[19] Yaniv Taigman 、 Ming Yang 、 Marc'Aurelio Ranzato 和Lior Wolf。Deepface:缩小与人脸验证中人类水平性能的差距。 2014年IEEE计算机视觉和模式识别会议,第1701- 1708页,2014年。7[20] Ting-Chun Wang,Ming-Yu Liu,Andrew Tao,GuilinLiu,Jan Kautz,and Bryan Catanzaro.少镜头视频到视频合成。神经信息处理系统进展(NeurIPS),2019年。1[21] Ting-Chun Wang,Ming-Yu Liu,Jun-Yan Zhu,GuilinLiu,Andrew Tao,Jan Kautz,and Bryan Catanzaro.视频 到 视 频 合 成 。 arXiv 电 子 印 刷 品 , 第 arXiv :1808.06601页,2018年8月。4[22] Ting-Chun Wang,Ming-Yu Liu,Jun-Yan Zhu,AndrewTao,Jan Kautz,and Bryan Catanzaro.用条件gans实现高分辨率图像在IEEE计算机视觉和模式识别会议论文集,2018。一、二[23] Ting-Chun Wang,Ming-Yu Liu,Jun-Yan Zhu,AndrewTao,Jan Kautz,and Bryan Catanzaro.用条件gans实现高分辨率图像在IEEE计算机视觉和模式识别会议论文集,第8798-8807页,2018年。5[24] 周旺,Alan C Bovik,Hamid R Sheikh,Eero P Simon-celli,等。图像质量评估:从错误可见性到结构相似性。IEEE图像处理学报,13(4):600-612,2004。5[25] Olivia Wiles , A. 索 菲 娅 · 科 普 克 和 安 德 鲁 · 齐 瑟 曼X2Face:一个通过使用图像、音频和姿势代码来控制面 部 生 成 的 网 络 。 arXiv 电 子 印 刷 品 , 第 arXiv :1807.10550页,2018年7月。一、二、五[26] Yuxin Wu,Alexander Kirillov,Francisco Massa,Wan-Yen Lo , and Ross Girshick. 探 测 器 2 。 https ://github.com/facebookresearch/detectron2,2019. 5[27] Egor Zakharov 、 Aleksei Ivakhnenko 、 AliaksandraShysheya和Victor Lempitsky。快速双层神经合成一次真实头像。arXiv电子印刷品,第arXiv:2008.10174页,2020年8月。2[28] Egor Zakharov、Aliaksandra Shysheya、Egor Burkov和Victor Lempitsky。现实神经说话头模型的少镜头对抗学习。在Proceedings of the IEEE3656国际计算机视觉会议,第9459- 9468页,2019年。二、五
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功