没有合适的资源?快使用搜索试试~ 我知道了~
基于潜在姿态描述子的神经头重演系统
1基于潜在姿态描述子的Egor Burkov1,2Igor Pasechnik1Artur Grigorev1Victor Lempitsky1,21莫斯科三星人工智能中心2斯科尔科沃科技学院摘要我们提出了一个神经头重演系统,这是由一个潜在的姿态表示驱动,并能够预测前景分割旁边的RGB图像。潜在的姿态表示作为整个重演系统的一部分被学习,并且学习过程仅基于图像重建损失。我们表明,尽管它很简单,但有一个足够大和多样化的训练数据集,这种学习成功地从身份分解。然后,所得到的系统可以再现驾驶人员的模拟,并且此外,可以执行跨人员重演。此外,我们表明,学习的描述符是有用的其他姿势相关的任务,如关键点预测和姿势为基础的检索。1. 介绍近年来,头部视频重现在质量和鲁棒性方面取得了巨大进步。目前最先进的系统[33,22,37,30,39,42,10,36, 35]展示令人信服的几乎逼真的“说话的头”重演。最新的技术能够通过使用深度神经生成网络来实现这一点,即使目标人物的单个图像可用[30,42,10,36,35]在这项工作中,我们在两个重要方面改进了现有的神经一次性头部重演系统首先,相当直接地,我们用预测前景分割的能力来增强最先进的重演系统[42这种预测对于各种场景是需要的,例如远程呈现,其中原始背景到新环境的转移可能是不期望的。更重要的是,我们提出了一个新的姿势1表示神经头重演。姿态的再现对场景再现的质量起着关键作用。大多数系统,包括[33,22,37,42,10,36],都是基于关键点(地标)表示的。这种表示法的主要优点是1在这里和下面,我们所说的货架然而,面部标志有几个缺点。首先,学习地标检测器需要过多的注释工作,并且-10的注释地标集错过了姿势的一些重要方面。例如,许多地标注释不包括瞳孔,并且因此,重现将不具有对注视的完全控制。其次,许多标志没有解剖学基础,并且它们的注释是模糊的并且容易出错,特别是当它们被遮挡时。在实践中,注释的这种模糊性通常转化为关键点检测的暂时不稳定性,其进而转化为重现结果。最后,作为一种表示,地标是个人特定的,因为它们包含大量关于姿势无关的头部几何的信息这对于头部重现可能是非常不期望的,例如,如果想要驱动具有不同头部几何形状的目标人物的标志性照片或绘画。诸如[29,4,5]的人类视频的大型未标记数据集的出现允许以无监督的方式学习潜在的该方法首先在[39,38]中进行了探索,其中学习了潜在姿态描述符,使得可以从学习的描述符推断不同帧之间的密集流。在这项工作中,我们提出了一种替代基于变形的方法[39,38]。我们的方法通过在大量视频集合上对视频帧施加一组反射损失来学习低维个人不可知姿态描述符以及中维个人特定重要的是,当评估重建损失时,我们分割出背景,使得背景杂波及其跨帧的变化不影响学习的描述符。我们展示了一个简单的学习框架,该框架基于从同一视频中采样多个随机帧,并与大尺寸的视频数据集配对,可以学习两个描述符的提取器,这些描述符非常适合重演任务,包括跨人重演。特别是,我们表明,我们基于新的潜在姿势表示的重演比FAb-Net [38]和1378613787图1:成为蒙娜丽莎。我们的系统可以使用任意人作为姿势驱动器(顶行)来生成任意说话头部(如蒙娜丽莎)的逼真重演。尽管在无监督的环境中学习,该方法可以成功地分解姿势和身份,从而保留再现的人的身份。使用X2Face [39]姿势描述符此外,我们分析了学习潜在的姿态描述符的质量,如地标预测和基于姿态的检索等任务。2. 相关工作面部/头部再现是一个活跃的研究领域。在这里,我们区分作品中的变化和增强是本地化的脸(脸重演),例如[33,30],以及更雄心勃勃的方法,其对包括衣服,颈部,上衣(头部重现)的重要部分的扩展区域进行建模,例如[22、37、42]。姿态表示是再现系统的一个重要方面。如上所述,大多数作品使用地标驱动绿化[33,22,37,42,10,36]。另一种方法是使用面部动作单元(AU)[9],就像面部重现[30]和头部重现[35]一样检测动作单元仍然需要手动注释和监督学习。X2Face系统[39]使用学习到可预测扭曲场的潜在向量。更经典的方法是在3D变形模型(3DMM)框架[ 1 ]中建模面部/头部姿势,或者在2D中使用类似的方法(例如,一个活跃的外观模型)[6]。尽管如此,学习3DMM和拟合学习的3DMM几乎总是涉及检测地标,因此继承了许多地标缺陷。或者,需要3D扫描的数据集来构建用于3DMM框架中的姿态/身份解纠缠的模型。最近的几项工作研究了如何以无监督的方式学习地标[44,19]。虽然一般来说非常有前途,但无监督关键点仍然像有监督关键点一样包含个人特定的信息,因此通常不适合跨人重演。这同样适用于密集的高维描述符,例如DensePose身体描述符[14]和密集的仅面部描述符[15,34]。最后,编解码器化身[26]根据重建损失学习特定于人的潜在姿态描述符和提取器。但是该传送没有考虑这种描述符从一个人到另一个人的传播。最近和平行的工作[32]已经证明,至少在没有强烈的头部旋转的情况下,可以使用无监督关键点的相对我们的方法与[32]的全面比较留待将来的工作。除了头/脸重现,还有大量关于学习分离表征的工作。使用视频数据集学习任意类别对象的潜在姿势或形状描述符的一些代表性作品包括[8,40]。 一些方法(例如[24])旨在使用对抗性[ 12 ]和循环一致性[ 45,17 ]损失来学习内容风格解纠缠(可能大致对应于形状纹理解纠缠)。或者,可以通过将因子化分布直接拟合到数据来获得解纠缠[23])。3. 方法我们的系统修改和扩展Zakharov等人的重演模型。[42]。首先,增加了预测分段的能力。第二,系统学习基于潜在姿势向量而不是关键点来执行重演。下面,我们提供我们的系统的细节(如图2所示)。3.1. 训练管道与[42]一样,我们在视频序列的VoxCeleb2数据集[4]上学习。每个序列都包含一个说话的人,并通过运行人脸检测器从原始序列中获得,裁剪得到的人脸并将其缩放为固定大小(在我们的情况下为256×256)。此外,与[42]的情况一样,有一个13788������+1⊙������+1������+1���1,������身份源(增强姿态源������⊙������������重建图2:在元学习的每个步骤中,我们的系统从一个人的视频中采样一组帧。帧由两个编码器处理。较大的身份编码器应用于视频的几个帧,而较小的姿态嵌入器应用于保持帧。将获得的嵌入传递到生成器网络,其目标是重建最后一个(保留)帧。由于姿态编码器的容量是有限的,并且由于其输入与其他帧w.r.t.由于身份(由于数据增强),系统学习通过身份编码器提取所有姿态无关信息,并使用较小的编码器仅捕获姿态相关信息,从而实现姿态-身份解纠缠。我们的变化以类似的方式影响这两个阶段,我们在下面的讨论中关注元学习步骤。在元学习的每一集,我们考虑一个单一的视频序列。然后,我们获取K +1个随机帧I1,. . .,IK+1,以及SK+1-IK +1的前景分割图,我们使用现成的语义分割网络预先计算。前K个图像I1,. - 是的- 是的,I,K然后被馈送到相对高容量的卷积网络F中,我们称之为身份编码器。 它类似于[42]中的嵌入器网络,除了它不接受关键点作为输入。对于每个图像I i,单位编码器输出d i维向量x i=F(I i),我们称之为Ii的单位嵌入. 身份嵌入预期包含关于人的姿势无关信息(包括照明、服装等)。 给定K个框架,我们通过取x1,..的平均值得到一个单位向量x ′。xK.剩余图像IK+1(姿态源)首先经历随机姿态增强变换A,这在下面描述。然后,A(IK+1)通过一个容量低得多的网络,我们称之为姿态编码器,并表示为G。 姿态编码器输出dp维姿态嵌入y K+1= G(A(I K+1)),我们希望其是与人无关的姿态描述符。上面提到的变换A对于位姿-身份解纠缠是重要的。它保持人的姿态完整,但可能改变其身份。也就是说,它在水平和垂直轴上独立地随机缩放图像,并随机应用内容保持操作。例如模糊、锐化、对比度更改或JPEG压缩。我们称之为姿态增强,因为它应用于姿态源,并且它可以被视为数据增强的一种形式姿态和身份嵌入被传递到生成器网络,该生成器网络试图尽可能准确地重建图像IK+1虽然[42]使用栅格化的关键点(火柴人图像)将姿势传递到他们的生成器网络中,但我们完全依赖AdaIN [16]机制将姿势和身份嵌入传递到生成器。更具体地说,我们的上采样生成器从一个大小为512×4×4的恒定可学习张量开始,并输出两个张量:大 小 为 3 × 256 × 256 的 IG( x<$ , yK+1 ) 和 大 小 为 1 × 256 × 256 的 SG(x<$,yK+1),它试图分别与图像的前景部分I K+1及其分割掩码S K+1相匹配。这是通过简单地预测最终层中的4 × 256 × 256张量来实现的。AdaIN块在每个卷积之后插入 AdaIN系数是通过采用级联的姿势和身份嵌入并将该( di+ dp )维向量传递通过具有StyleGAN [20]精神中的可学习参数的MLP来产生的。We期望IG(x<$,yK+1)⊙SG(x<$,yK+1)和SG(x′,yK+1)分别尽可能接近IK+1<$S K+1和S K+1。 我们通过几个损失函数来实现这一点。在骰子系数损失的帮助下匹配分割图[27]。另一方面,背景被涂黑的头部图像使用与[42]中相同的损失组合也就是说,���×������身份编码器是说身份嵌入MLPAdain构成编码器发生器构成嵌入地面实况内容损失,对抗性损失骰子系数损失13789内容损失基于为ImageNet分类训练的VGG-19模型和为人脸识别训练的VGGFace模型的ConvNet激活匹配。此外,IGSG和IK+1SK+1通过投影矩阵(与[42]的区别在于我们再次不向其提供栅格化的关键点)来计算将图像推向现实的对抗性损失,矩阵特征匹配损失和嵌入匹配项。重现和微调。一旦模型被元学习,它就可以用来适应元学习过程中看不见的新身份。因此,给定一个新人的一个或多个图像,可以通过将这些图像传递通过身份编码器并对结果进行元素平均来表示他们的身份向量x ′。然后,通过插入从同一个人或不同的人的图像中提取的姿势向量y,我们可以通过计算图像IG(x<$,y)及其背景掩码SG(x<$,y)来重现这个人。为了进一步减少身份差距,我们遵循[42]并使用与[ 42 ]相同的损失集加上骰子系数损失来微调模型(即,MLP,生成器的权重),将提供的一组新人图像及其分割视为地面真实。估计的身份嵌入x'为在调整过程中保持固定(包括在优化中),在我们的实验中,mization没有导致任何差异,因为嵌入x'中的参数数量比MLP和生成器网络中的参数数量小得多姿态嵌入网络G在微调期间也保持固定。3.2. 姿态与身份我们的关键发现是,当应用于人X时,如上所述训练的重演模型可以在从同一人X的图像中提取姿势向量y=G(I)时成功地再现图像I中的人的模仿。更令人惊讶的是,当从不同的人Y的图像中提取姿势向量时,模型还可以重新产生模仿。在这种情况下,这个不同的人的身份流失被保持在最低限度,即所得到的图像仍然看起来像人X.最初,我们预计这种姿态和身份的解开不应该发生,并且某种形式的对抗训练[12]或循环一致性[45,17]将是必要的,以确保解开。 事实证明,在(i)姿态提取器网络G的容量足够低的情况下,(ii)应用姿态增强,以及(iii)背景分割出来,解纠缠自动发生,并且我们的实验具有额外的损失项,例如,[8]没有进一步改善。显然,通过上述三种技术,模型更喜欢提取所有使用更高容量的身份提取器网络从身份源帧中提取个人特定的细节在下面的第4节中,我们评估了这种作为“惊喜”的解纠缠效应,并表明,它确实比在其它相关方法的情况下更强(即,更好地支持跨人重演,身份出血更少)。在补充材料中,我们还进行消融研究,以调查姿态编码器容量、姿态增强、分割和潜在姿态向量维度dp如何影响我们的再现系统保留姿态和身份的能力。3.3. 实现细节我们的训练数据集是来自VoxCeleb2的YouTube视频的集合[4]。大约有10万个视频,大约有6,000人。我们从每个视频中每25帧中采样1帧,总共留下大约700万张训练图像。在每张图像中,我们首先使用S3 FD检测器[43]捕获其边界框,然后通过放大较小的边使该框正方形,将框的边增长80%,保持中心,最后将裁剪后人类分割是通过Graphonomy模型获得的[11]。如在[42]中,我们设置K=8,因此使用从视频的八个随机帧中提取的身份向量,以便基于其姿态描述符重建第九个。在我们的最佳模型中,姿态编码器具有Mo-bileNetV2 架 构 [31] , 身 份 编 码 器 是 ResNeXt-50 ( 32× 4d )[41]。两者都没有调整,所以它们包括批量归一化[18]。姿态和身份嵌入大小dp和di分别为256和512。没有归一化或正则化应用于嵌入。将它们转换为AdaIN参数的模块是一个具有谱归一化和一个768个神经元的隐藏层的ReLU感知器。我 们 的 生 成 器 基 于 [42] 的 生 成 器 , 但 没 有 don-wsampling块,因为所有输入都委托给AdaIN,AdaIN位于每个卷积之后。更准确地说,一个512×4×4的可学习常数张量由2个常数分辨率残差块变换,然后是6个上采样残差块。我们从第四个上采样块开始将通道数量减半,以便最终分辨率(256×256)的张量具有64个通道。该张量通过AdaIN层,ReLU,1×1卷积和tanh,成为4通道图像。与[42]不同,我们不使用自我注意力。谱归一化[28]在生成器、卷积器和MLP中随处可见。代替交替的生成器和更新,在从所有损失项进行梯度累积之后,对所有网络执行单个权重更新。我们用一个训练了120万次迭代的模型13790小批量的8个样本分布在两个NVIDIA P40 GPU上,总共需要大约两周的时间。4. 结果我们的定量评估评估了使用辅助任务的姿态描述符的相对定性地,我们展示了在同一个人和跨人场景中重演的例子,以及在学习的姿势空间中的插值结果。在实验材料中的烧蚀研究显示了我们方法的不同组分的效果。4.1. 比较方法下面,我们将我们的结果与以下方法和系统的结果进行比较。我们考虑以下基于不同监督程度的姿势描述符:• 我们的了256维潜在姿势描述符在我们的系统中学习。• X2Face 在X2Face重演系统中学习的128维驾驶矢量[39]。• FAb-Net。我们还评估了256维的FAb-Net描述符[38]作为姿态表示。这些与我们的相关之处在于 ,虽 然不 是 个人 不可 知 论, 但它 们 也是 从VoxCeleb2视频集合中以无监督的方式学习的• 3DMM 我们考虑最先进的3DMM系统[3]。该系统使用深度网络提取分解的刚性姿势、面部表情和形状描述符。姿态描述符是通过将刚性姿态旋转(表示为四元数)和面部表情参数(29个系数)联系起来获得的。我们的描述符从VoxCeleb2数据集学习。X2Face表1:在Multi-PIE数据集上使用不同姿态描述符的基于姿态(表情)的检索结果的准确性。更多详细信息请参见文本。我们的建筑没有变化。我们训练身份编码器,生成器以X2Face潜在姿势向量和我们的身份嵌入为条件,以及投影映射。• FAb-Net+. 与X2 Face+相同,但使用冻结的FAb-Net代替我们的姿势编码器。• 3DMM+。与X2 Face+相同,但使用冻结的Exp-Net [3]代替我们的姿势编码器,并禁用姿势增强。姿势描述符是从ExpNet的输出构造,如上所述。我们还通过在VoxCeleb2训练集上计算的每个元素的平均值和标准差对这些35维描述符进行归一化。• 快 原始的几个镜头的说话的头系统,[42]由光栅化关键点驱动。• FSTH+。我们对[42]的系统进行了重新训练,进行了几项更改,使其与我们的系统和其他基线更具可比性。原始关键点坐标使用AdaIN机制(就像我们的系统一样)放入生成器中。生成器预测图像旁边的分割。我们也使用相同的作物,这与[42]不同。4.2. 描述符求值描述符在较小的VoxCeleb 1数据集上训练[29],FAb-Net从两者中学习。3DMM描述符是最受监督的,因为3DMM是从3D扫描中学习的,并且需要地标检测器(这又是在监督设置中学习的)。此外,我们考虑以下基于这些姿势描述符的头部• 我们的了我们的完整系统如第3节所述。• X2Face X2Face系统[39]基于本地描述器和基于变形的重演。• X2Face+。在这个变体中,我们使用冻结的预训练X2Face为了了解学习的姿势描述器在匹配相同姿势中的不同 人 方 面 的 效 果 如 何 , 我 们 使 用Multi-PIE 数 据 集[13],该数据集不用于训练任何一个描述符,但具有用于各种姿势的人的六个情感类注释。 我们将数据集限制为近正面和半侧面相机方向(即08 0,13 0,14 0,05 1,05 0,04 1,19 0),留下177,280张图片。 每个摄像机方向组,我们从中随机选择一个查询图像,并使用描述符的余弦相似性从同一组中提取最接近的N个图像如果返回具有相同情感标签的人,我们认为匹配是正确的。我们对每组重复这个过程100次。在表1中,我们显示了前10名、前20名、前50名和前100名列表中正确匹配的总体比例。 对于3DMM前N个查询的准确性(%)描述符N=10N=20N=50N=100FAb-Net45.740.836.635.73DMM47.345.641.941.1X2Face61.055.751.849.4我们75.763.857.854.113791JJJJ0.05000.04750.04500.04250.04004.3. 重演表演定量评价。 我们比较了上述七个重演系统在跨人设置中的性能。要做到这一点,我们随机选择30人从测试分裂的VoxCeleb 2和学习说话的头模型- els T1,。- 是的- 是的第30章为了他们 每个模型Tk是从视频Ik的32个随机帧创建的。- 是的- 是的 ,I k. 所有型号,除了1 320.03750.03500.03250.03000.25 0.30 0.35 0.40 0.45标识保留错误TX2 Face微调到这32帧600优化-步骤。使用这些模型,我们计算每个系统的两个度量,身份误差IT和姿态重建误差PT。身份误差IT估计结果说话的头部与模型被学习的原始人k为此,我们使用ArcFace[7]人脸识别网络R,它输出身份描述,tors(向量)。 我们计算平均参考偏差,图3:从以下方面对重演系统的评价:scriptorrk13232j=1来自微调数据集的R(Ik)我知道。. .,I k,并使用余弦相似度(Csim)来比较它们表示驾驶员姿势和保持ref-132的能力一致性(箭头指向改进)。详情见正文描述符,我们只考虑29个人脸表情系数,忽略了刚性姿态信息,因为它与它与从跨人重演中获得的描述符-结果。跨人重演是通过驾驶Tk与所有其他29人。Toobtain the final er- ror, we average (one minus) similaritiesover all 30 people in the test set. 从形式上讲,情绪在这个比较中,可以观察到,我们的姿势嵌入的潜在空间更好地与重新组合在一起IT=130·29·32Σ30Σ30Σ32Σk=1i =1j =1.1−csimR.ΣTk(Ii)ΣΣ,rk.I k其他面部表情的情感类别Sion描述符,因为我们的结果对于前10名和前20名指标要好得多,而对于前50名和前100名指标,我们的结果与X2Face相似,并且比其他指标更好。我们相信FAb-Net至于3DMM,它需要不同的潜在表达载体,另一方面,姿势重建误差PT由于地标集只能直接比较同一个人,我们将测试数据集限制为自我重演对,即。我们只开T K和I K 因为T k已经从I k上学到了。- 是的-是的 ,我k,我们用-1 32把不同的形状(人)变成相同的面部表情-来自同一视频的其它32个保留帧Ik,. . .,我k33 64因此,表达式系数可以不同的人表现出不同的面部表情很容易吻合以避免过度拟合。 我们使用了一个现成的2D面部地标预测算法[2]L,以获得驾驶员Ik和重演结果Tk(Ik)中的地标。J J关键点预测关键点回归不在我们的目标应用程序中,因为关键点包含特定于个人的信息。然而,这是一个受欢迎的任务,无监督姿态描述符在在我们的例子中,测量d个地标(l1,l2)有多接近陆地-标记L2近似参考界标L1是平均的,通过眼间距离标准化的对应界标之间的年龄距离。和前面一样,我们计算所有驾驶员的d,并对所有30人进行平均:过去,所以我们也在MAFL [25]测试集上的标准基准上运行我们的方法。为了预测关键点,我们使用一个ReLU MLP,其中一个隐藏层大小为768,PT=130 ·32Σ30 Σ64. - 是的d地标L克兰湖.ΣΣT k(I k)。在我们的情况下,我们使用姿势和身份嵌入作为输入。使用标准归一化的眼间距离,我们得到的距离误差为2.63。这小于FAb-Net获得的3.44的误差,尽管落后于该任务的最新技术水平[19](2.54)。k=1j =33图3中的图为比较模型评估了这两个指标一个完美的系统T有IT=PT=0,即越靠近左下角越好。在这些方面,我们的完整模型严格优于所有系统位姿重建误差不=我X2脸公司简介FSTHFAb-Net+我们3DMM+X2Face+13792图4:通过在姿态描述符空间中的球形轨迹上的两个姿态向量之间的插值来再现。我们的系统成功地创建了视觉上流畅和身份保护的重演。除了FSTH+之外,FSTH+在一个度量中稍好,但在另一个度量中差得多,并且受益于外部关键点检测器。定性比较。图5给出了上述重演系统的定性比较。很明显,由光栅化地标驱动的FSTH在很大程度上它的修改版本FSTH+做了更好的工作,在矢量化的关键点周围具有更多的代表性;然而,仍然存在可见的“身份流失”(例如,比较第1列和第2列中的头部宽度)和突出面部表情的错误,例如闭眼。基于扭曲的方法X2Face已经在轻微旋转上失败了。两种类似的方法,X2 Face+和FAb-Net+,都提供了强基线,尽管有一些身份不匹配的迹象,例如,第7列中的眼镜痕迹和第5列中从姿势驱动器渗入的长发。重要的是要注意,尽管来自这些方法的姿势描述符不是个人不可知的,但我们仍然在训练期间应用姿势增强。在下面的消融研究中,我们证明了当我们在这两种方法中去除姿势增强时,跨人重演性能急剧3DMM+方法具有可解释参数的非常紧密的瓶颈,并且因此其同一性间隙非常小。然而,显然是出于同样的原因,它并不擅长渲染正确的微妙面部表情。我们的整个系统能够准确地表示姿势驾驶员此外,我们还在图4中示出了通过在我们的系统的姿态空间中插值的重演,其展示了平滑的姿态变化。时间平滑度。补充视频展示了我们的描述符创建时间平滑重现的能力,而无需对所提取的姿势进行任何时间平滑(前提是边界框检测的结果在时间上是平滑的)。 在与此同时,我们已经发现,实现时间上平滑的重现与关键点驱动的系统(FSTH,FSTH+)需要大量的关键点平滑。5. 讨论我们已经提出并评估了一个神经头reen-numerals,使用潜在的姿态描述符,并能够实现逼真的重演。与使用关键点作为姿态描述符的前代系统[42]不同,我们的系统使用姿态描述符,而没有纯粹基于重建损失的显式监督。唯一薄弱的监督形式来自分割掩码。我们学习的头部姿势描述符在基于姿势的检索任务以及跨人重演方面优于以前的无监督描述符。我们的主要,也许是令人惊讶的,发现是,在我们的计划中的姿态提取网络的有限容量是足够的姿态/身份解开。同时,可能发生的是,适当使用循环和/或对抗性损失可以更好地改善解缠。也许是因为网络容量的限制,我们的姿态描述符和重演系统存在问题13793FSTH公司简介X2FaceX2Face+FAb-Net+3DMM+我们图5:VoxCeleb2测试集上几个系统的跨人重演比较。左上角的图像是32个身份源帧之一。顶行中的其他图像是姿势驱动器。我们的方法更好地保留了目标人的身份,并成功地从司机的人转移模仿。捕捉一些微妙的模仿,特别是注视方向(尽管它仍然比完全缺乏注视表示的关键点描述符做得更好)。另一个明显的研究途径是学习姿态描述符和以半监督的方式管理整个系统。13794引用[1] V. Blanz,T. Vetter等人一种用于三维人脸合成的变形模型。在Proc. SIGGRAPH,第99卷,第187-194页,1999中。2[2] A. Bulat和G.齐米罗普洛斯我们离解决二维和三维人脸对齐问题还有多远(and 230,000个3D面部界标的数据集)。在Proc. ICCV,第10211、6[3] F.- J. Chang,A.T. 特兰,T.哈斯纳岛马西河Nevatia,以及G.梅迪奥尼Expnet:无地标,深度,3D面部表情。Inproc. FG,第122-129页。IEEE,2018年。5[4] J. S. Chung,A.Nagrani和A.齐瑟曼。Voxceleb2:深度说话人识别。在INTERSPEECH,2018年。一、二、四[5] J. S. Chung,A. Senior、O. Vinyals和A.齐瑟曼。在野外读 唇 语 句 子 。 在 Proc. CVPR , 第 3444- 3453 页 中 。IEEE,2017年。1[6] T. F. Cootes,G.J. Edwards和C.J. Taylor. 活跃的模特。T-PAMI,(6):681-685,2001年。2[7] J. Deng,J. Guo,X. Niannan和S. Zafeiriou. Arcface:用于深度人脸识别的额外角度边缘损失 在procCVPR,2019年。6[8] E. L.丹顿和V。比罗德卡从视频中分离表示的无监督学习。在Proc. NeurIPS,第4414-4423页,2017年。二、四[9] P. Ekman面部动作编码系统。1977. 2[10] C.傅,Y。Hu,X. Wu,G.王,英-地Zhang和R.他外高逼真度的面部操作与极端的姿势和表情。arXiv预印本arXiv:1903.12003,2019. 一、二[11] K.贡,Y. Gao、X. Liang,X.沈,M。Wang和L.是林书Graphonomy:通过图迁移学习的通用人类解析。在CVPR,2019年。4[12] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利,S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在Proc.NIPS,2014中。二、四[13] R.格罗斯岛Matthews,J. Cohn,T. Kanade和S.贝克多派IEEE International Conference on Automatic Face andGestureRecognition ( 英 语 : IEEEInternationalConference on Automatic Face and Gesture Recognition)IEEE计算机学会,2008年9月。5[14] R. A. Guüler,N. 我也是。 好的 DensePose:在野外进行密集的人体姿势估计 在proc CVPR,2018年6月。2[15] R. A. Guéler,G. Trigeor gis,E. 安东纳科斯山口斯内普S. Zafeiriou和我。Kokkinos DenseReg:完全卷积的密集形状回归。在CVPR,第2卷,第5页,2017年。2[16] X. Huang和S.贝隆吉具有自适应实例规范化的实时任意样式传输。InProc. ICCV,2017. 3[17] X. 黄文Y. Liu,S.Belongie和J.考茨多模态无监督图像到图像翻译。Proc. ECCV,2018。二、四[18] S. Ioffe和C.赛格迪批次标准化:通过减少内部协变量偏移来加速深度网络训练。在Proc. ICML,ICML'15,第448-456页,2015中。4[19] T. Jakab,A.古普塔H. Bilen和A.维达尔迪通过条件图像生成对目标地标进行无监督学习在Proc. NeurIPS,第4016-4027页,2018年。二、六13795[20] T. Karras,S. Laine和T.艾拉一个基于样式的生成器架构,用于生成对抗网络。 在procCVPR,2019年6月。3[21] V. Kazemi和J.苏利文用回归树的集合进行一毫秒人脸对齐。Proc. CVPR,第1867-1874页,2014年。1[22] H. Kim,P.Garrido,A.Tewari,W.徐,J.Thies,M.尼斯纳P. 佩雷斯角里查德,M。 Zollh oüfer和C. 希奥博尔特深度视频肖像。在Proc. SIGGRAPH,2018年。一、二[23] H. Kim和A.嗯通过因子分解来解开。在procICML,第2654-2663页,2018年。2[24] M. Liu,X. Huang,黄背天蛾A. Mallya,T. Karras,T. Aila,J. Lehti-nen,和J.考茨少量无监督图像到图像翻译。InProc. ICCV,2019. 2[25] Z. Liu,P. Luo,X. Wang和X.唐在野外深度学习人脸属性。InProc. ICCV,December 2015. 6[26] S.隆巴迪,J. Saragih,T. Simon和Y.酋长用于面部渲染的深层外观模型。ACM Transactions on Graphics(TOG),37(4):68,2018。2[27] F.米列塔里N. Navab和S.- A.艾哈迈迪V-net:用于体积医学图像分割的全卷积神经网络第565-571页,2016年10月。3[28] T. 宫城,T.卡塔奥卡,M。Koyama和Y.吉田生成对抗网络的谱归一化。在2018年国际学习代表会议上。4[29] A. Nagrani,J. S. Chung和A.齐瑟曼。Voxceleb:大规模说话人识别数据集。在国际米兰-Speech,2017. 一、五[30] A. Pumarola,A. Agudo,A. M.马丁内斯A. Sanfeliu,以及F.莫雷诺诺格尔Ganimation:从单个图像中获得解剖感知面部动画。在Proc. ECCV,第818- 833页,2018年。一、二[31] M. Sandler,A. Howard,M. Zhu,中国茶青冈A.Zhmoginov和L.- C.尘Mobilenetv2:反演残差和线性瓶颈。在Proc. CVPR,2018年6月。4[32]A. Siarohin,S. Lathuili e`re,S. Tulyakov,E. 里奇和N. Sebe 图像动画的一阶运动模型。在Proc. NeurIPS,第7135-7145页,2019年。2[33] S. Suwajanakorn,S. M.塞茨和我克梅尔马赫-施利泽曼 。 合 成 奥 巴 马 : 从 音 频 学 习 嘴 唇 同 步 ACMTransactions on Graphics(TOG),36(4):95,2017。一、二[34] J. Thewlis,S. Albanie,H. Bilen和A.维达尔迪通过描述符向量交换的地标的无监督学习。InProc. ICCV,2019. 2[35] S. Tripathy,J. Kannala和E.拉图Icface:使用gans进行 可 解 释 和 可 控 制 的 面 部 重 现 。 CoRR ,abs/1904.01909,2019。一、二[36] T. Wang,M.Liu,中国粘蝇A.Tao,G.刘,J.Kautz和B. 卡 坦 扎 罗 少 镜 头 视 频 到 视 频 合 成 。 CoRR ,abs/1910.12713,2019。一、二[37] T.- C.王兆国Y. 刘杰- Y. Zhu,G. Liu ,中国粘蝇A.Tao,J. Kautz和B.卡坦扎罗视频到视频合成。Proc.NeurIPS,2018。一、二[38] O. Wiles,A. Koepke和A.齐瑟曼。从视频中嵌入面部属性的自监督学习在Proc. BMVC,2018。一、五13796[39] O. Wiles,A. Sophia Koepke和A.齐瑟曼。X2face:一个使用图像、音频和姿势代码控制人脸生成的在Proc.ECCV,2018年9月。一、二、五[40] F. Xiao,H.Liu和Y.J. 李你从这里的身份,从那里的姿势:自我监督的解开和使用未标记的视频对象的生成在Proc. ICCV,2019年10月。2[41] S. 谢河,巴西-地格希克山口美元ZTu和K.他外深度神经网络的聚合残差变换。在procCVPR,2017年7月。4[42] E. Zakharov,A. Shysheya、E. Burkov和V. Lempitsky现实神经说话头模型的少镜头对抗学习在Proc. ICCV,2019年10月。一、二、三、四、五、七[43] S. Zhang,X. Zhu,Z. Lei,H. Shi,X. Wang和S. Z.李S3fd:单次拍摄尺度不变的人脸检测器。 在procICCV,2017年10月。4[44] Y. Zhang, Y. Guo,Y. Jin,Y. Luo,Z.他,和H。李你无监督地发现作为结构表征的物体界标在Proc. CVPR,第2694-2703页,2018年。2[45] J. - Y. Zhu,T.帕克山口Isola和A.A. 埃夫罗斯使用循环一致对抗网络的不成对InProc. ICCV,2017. 二、四
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功