没有合适的资源?快使用搜索试试~ 我知道了~
1DeepFaceFlow:野外密集3D面部运动估计Mohammad Rami Koujan1,4,Anastasios Rissos1,3,4,Stefanos Zafeiriou2,41英国埃克塞特大学工程、数学和物理科学学院2英国伦敦帝国理工学院计算机系3希腊研究和技术基金会计算机科学研究所(FORTH-ICS),希腊4FaceSoft.io,英国摘要仅从单目RGB图像对中捕获密集的3D面部运动是一个具有高度挑战性的问题,具有许多应用,从面部表情识别到面部再现。在这项工作中,我们提出了DeepFaceFlow,这是一个强大,快速,高精度的框架,用于对单目图像之间的3D非刚性面部流进行密集估计。我们的DeepFace-Flow框架在两个非常大规模的面部视频数据集上进行了训练和测试,其中一个是我们自己的收集和注释,并借助遮挡感知和基于3D的损失函数。我们进行了全面的实验,探索我们的方法的不同方面,并证明其对最先进的流和3D重建方法的性能改进。此外,我们将我们的框架融入到全头部最先进的面部视频合成方法中,并展示了我们的方法在更好地表示和捕获面部动态方面的能力,从而产生高度逼真的面部视频合成。给定已注册的图像对,我们的框架生成的3D流图在1060fps。1. 介绍光流估计是一项具有挑战性的计算机视觉任务,自Horn和Schunck的开创性工作以来,该任务已成为主要目标[16]。解决这一问题所需的努力量在很大程度上是由该领域的潜在应用所证明的,例如。3D面部识别[11,23,36]、自动驾驶[19]、动作和表情识别[30,21]、人体运动和头部姿势估计[1,41]以及视频到视频转换[37,22]。光流跟踪2D图像平面中连续图像之间的像素,场景流,其3D对应物,旨在估计场景点在3维空间中的不同时间步长处的3D运动场。因此,场景流结合了两个挑战:1)3D形状重建,以及2)密集运动估计。现场流程评估图1.我们提出了一个框架,一对单目人脸图像之间的高保真三维流估计。从左到右:1和2)RGB图像的输入对,3)用从第一图像到第二图像的3D运动矢量渲染的第一图像的估计的3D面部形状,4)基于(3)中的估计的3D流的(1)的变形的3D形状,5)(1)中的每个像素的颜色编码的3D流图。颜色编码见补充资料。mation,这可以追溯到vedula等人的工作。[34],是一个高度不适定的问题,由于深度模糊性和孔径问题,以及遮挡和照明和姿态的变化等。这是非常典型的野外图像。为了解决所有这些挑战,文献中的大多数方法使用立体或RGB-D图像,并对重建表面和估计运动场的平滑度[2,27,39,33]或运动的刚性[35]实施先验。在这项工作中,我们试图从野生的单目图像对中估计人脸的3D运动场,见图1。1.一、我们的方法中的输出是相同的与场景流方法一样,但根本区别在于我们使用简单的RGB图像而不是立体对或RGB-D图像作为输入。此外,我们的方法是为人脸而不是任意场景量身定制的。对于我们正在解决的问题,我们使用术语“3D人脸流量估计”。我们设计的框架提供了准确的流量估计在3D世界,而不是2D图像空间。我们专注于人脸及其动态建模,因为它在无数应用中处于中心地位,例如,面部表情识别、头部运动和姿态估计、3D密集面部重建、全头部再现等。人类面部运动主要来自两个来源:1)由于头部姿势变化引起的刚性运动,以及2)由在讲话期间引起的面部表情和嘴部运动引起的非刚性运动。的依赖66186619仅在单目和野外图像上捕获一般对象的3D运动使得该问题更具挑战性。通过注入我们关于这个对象的先验知识,以及构建和利用大规模的注释数据集,可以减轻这些障碍。我们在这项工作中的贡献可以总结如下:• 据我们所知,不存在任何使用一对简单RGB图像作为输入来估计可变形场景的3D场景流的方法。所提出的方法是第一个解决这个问题,这是通过专注于人脸场景。• 收集和注释大规模的人脸视频数据集(超过12000个),我们称之为Face3DVid。在我们提出的基于模型的公式的帮助下,每个视频都用每帧注释:1)68个面部标志,2)密集的3D面部形状网格,3)相机参数,4)密集的3D流图。该数据集将公开提供(项目//github.com/mrkoujan/DeepFaceFlow)上提供。• 一个强大、快速、基于深度学习的端到端框架,用于仅从一对单眼野生RGB图像中进行3D人脸流的密集高质量估计。• 我们在定量和定性两方面证明了我们估计的3D流在全头部重现实验中的实用性,以及4D面部重建(见补充材料)。我们遵循的方法从收集和标注大规模的面部视频数据集开始,详细信息请参见第3我们在整个框架的训练过程中使用了如此丰富的动态数据集,并使用这个野外视频数据集初始化学习过程。与其他场景流方法不同,我们的框架只需要一对单目RGB图像,并且可以分 解 为 两 个 主 要 部 分 : 1 ) 形 状 初 始 化 网 络(3DMeshReg),旨在密集地回归第一帧中的面部的3D 几 何 形 状 , 以 及 2 ) 被 称 为 DeepFaceFlowNet(DFFNet)的全卷积网络,其接受一对RGB帧以及由3DMeshReg提供的第一(参考)帧的投影3D面部形状初始化,并且在输出处产生密集3D流图。2. 相关工作在文献中最密切相关的工作解决了光流和场景流估计的问题。传统上,解决这些问题的最流行的方法之一Horn和Schunck [16]的工作开创了光流的变分工作,在那里他们制定了一个具有亮度恒定性和空间平滑性的届后来,提出了大量具有各种改进的变分方法[7,26,38,3,31]。所有这些方法都涉及处理复杂的优化,使它们在计算上非常密集。能够估计光流的端到端和基于CNN的可训练框架的最初尝试之一是由Dosovitskiy等人进行的。[10 ]第10段。尽管他们报告的结果仍然落后于最先进的经典方法,但他们的工作显示了CNN在这项任务中的光明前景,值得进一步研究[28]的作者进行了与[10]类似结果的另一次尝试。他们的框架称为SpyNet,将经典的空间金字塔公式与深度学习相结合,以粗到精的方法进行大运动估计。作为后续方法,Ilg et al.[18]后来在堆叠管道FlowNet2中使用了[ 10 ]中提出的两种结构,用于估计光流的粗尺度和细尺度细节,在Sintel基准上具有非常有竞争力的性能。最近,[32]的作者提出了一种紧凑而快速的CNN模型,称为PWC-Net,它利用金字塔处理,扭曲和成本量。他们报告了多个基准测试的最佳结果,即:MPI Sintel final pass和KITTI 2015。大多数基于深度学习的方法依赖于合成数据集以监督的方式训练其网络,在真实的野外图像上测试时留下了挑战性的差距。与光流法不同,场景流法的基本目标是从立体或RGB-D图像中估计场景点的三维运动矢量Vdedula等人首次尝试将光流扩展到3D。[34]。他们的工作假设场景的结构和对应关系都是已知的。大多数场景流估计的早期尝试依赖于一系列立体图像来解决这个问题。随着深度相机的越来越流行,越来越多的管道利用RGB-D数据作为立体图像的替代方案。所有这些方法都遵循经典的场景流估计方法,而不使用任何深度学习技术或大数据集。[24]的作者领导了第一次使用深度学习特征来估计来自大数据集的光流、视差和场景流Golyanik等人的方法。[13]从一系列单目图像中估计3D流,在非刚性变形和3D姿态中具有足够的多样性,因为该方法严重依赖于NRSfM。缺乏这种多样性,这是常见的类型,在野生视频,我们处理,可能会导致退化的解决方案。相反,我们的方法只需要一对单目图像作为输入。 仅使用单眼图像,Brickwedde et al.[6]以动态街道场景为目标,但对场景对象施加了很强的刚性假设,使其不适用于facial视频。与其他最先进的方法相反我们依靠最少的信息来解决高度不适定的如果只给一对monoc-66201 231 23i对于常规的RGB图像,我们的新框架能够以每秒1060帧的速率鲁棒地快速准确地估计它们之间的3D流。3. 数据集收集和注释考虑到来自一对单目图像的非刚性3D面部运动估计的高度不适定性质,训练数据集的大小和可变性非常关键[18,10]。出于这个原因,我们基于一个大规模的训练数据集(Face3DVid),我们通过收集数万个面部视频,对它们进行密集的3D人脸重建,然后估计3D流图的有效伪地面真实值来构建。一些视频修剪步骤以省略自动估计失败的情况。我们的最终训练集由我们的视频集合中幸存下来的视频修剪 步 骤 组 成 : 9750 个 视 频 ( 占 初 始 数 据 集 的81.25%),1600个不同的身份,大约1250万帧。 有关更多详细信息和示例可视化,请参阅补充材料。3.3.创建3D流注释给定来自我们的数据集中的视频的一对图像I1和I2,以及它们对应的3D形状S1、S2和姿态参数R1、t3d1、R2、t3d2,该对的3D流图被创建如下:F(x,y)=fc2·(R2[S2(tj),S2(tj),S2(tj)]b+t3d2)1 2 33.1. 3D人脸重建视频首先,我们使用(x,y)∈M−ftj∈{T|tj从I 1中的pi x el(x,y)可见}c1·(R1[S1(tj),S1(tj),S1(tj)]b+t3d1(二))的情况下,3DMM和身份和表达变化的加性组合。这类似于最近的几种方法,例如。[40、9、23、12]。更详细地,令x=[x1,y1,z1,., x N,y N,z N]T∈ R3N是由N个3D顶点组成的任何3D面部形状的矢量化形式。我们认为x可以表示为:x(i,e)=x<$+U i+Ue(1)tj∈{T|tj从I 1中的pi x el(x,y)可见}其中M是I1中的前景像素的集合,S ∈ R3×N是存储I1的N个顶点3D形状的列方向x-y-z坐标的矩阵,R ∈ R3×3是旋转矩阵,t3d∈ R3是3D平移,fc1和fc2分别是第一和第二图像的正交相机的尺度,t j=[t j,t j,t j](t j∈ {1,.,N})是id exp.从图像I1中的像素(x,y)检测到的其中,x′是总体平均形状矢量r,Uid∈R3N×ni我们的基于硬件的渲染器,T是组成S的网格的所有三角形的集合,b∈R3是重心是具有ni=157个主成分(ni<$3N),Uexp∈R3N×ne是具有位于图像I上的投影三角形tj内的像素(x,y)的坐标ne=28个主成分(ne<$3N),i∈Rni,e∈Rne 分别是身份和表达参数,活泼地该模型的身份部分来源于大规模人脸模型(LSFM)[4],表情部分来源于Zafeiriou等人的工作。[40]。为了在成千上万的视频上创建有效的伪地面实况,我们需要执行高效且准确的3D人脸重建为此,我们选择将所采用的3DMM模型拟合在以下序列上:每个视频的面部标志由于这个过程只在训练期间完成,我们不受在线性能需求的限制。因此,与[9]类似,我们采用了一种批处理方法,该方法同时考虑来自所有视频帧的信息这是一个能量最小化,以适应组合的身份和表达的3DMM模型上的面部标志,从所有帧的输入视频同时。更多细节见补充材料。3.2. 大规模视频数据集的应用为了创建我们的大规模训练数据集,我们从12,000个RGB视频的集合开始,总共有1900万帧和2,500个唯一身份。我们应用第二节中概述的3D人脸重建方法3.1、与1 .一、等式2中的所有背景像素是在训练过程中,被掩盖的损失从等式2中明显的是,我们不关心第二帧中的可见顶点,并且仅在3D中跟踪在图像11中可见的那些顶点以产生3D流动矢量。另外,利用该流表示,3D流图(F(x,y))的x-y坐标单独直接表示图像空间中的2D光流分量。4. 拟议框架我们的总体设计框架如图2所示。我们期望两个RGB图像I1、I2∈RW×H×3作为输入,并且在输出处产生对从I 1到I 2的每像素3D光流进行编码的图像F∈RW×H×3。所设计的框架分为两个主要阶段:1)3DMeshReg:参考帧I的3D形状初始化和编码,2)DeepFaceFlowNet(DFFNet):3D面流预测。整个框架都经过训练以监督的方式,利用收集和注释的数据集,参见第3.2节,并在将来自该数据集中的每个视频的扫描序列注册到我们的3D模板之后,在4DFAB数据集[8]上进行微调在使用[14]提取的68个标记的帮助下,输入帧被注册到大小为224×224的2D模板中,并被馈送到我们的框架中。6621我J1 23图2.提出了用于3D面部流量估计的DeepFaceFlow管道。第一阶段(左):3DMeshReg用作第一帧中3D面部形状的初始化。该估计在下一步骤中被光栅化并编码在RGB图像中,称为投影归一化坐标码(PNCC),其存储每个对应的可见3D点的x-y-z坐标。给定这对图像以及PNCC,第二阶段(右)使用深度全卷积网络(DeepFaceFlowNet)估计3D流。4.1. 3D形状初始化和编码为了鲁棒地估计一对图像之间的每像素3D流,我们提供了DFFNet网络,第4.2节,不仅具有I1I2,而且还具有另一个图像,网格S通过逐顶点3D坐标估计。我们使用我们收集的数据集(Face3DVid)和4DFAB [8] 3D扫描以监督的方式训练这个网络。我们用公式表示由两项组成的损失函数:存储投影归一化坐标码(PNCC)参考系11的估计的3D形状,即宽×高 ×L(Φ)=1ΣNN||2个以上||2+1个月O||二、||2. ( 四)PNCC E∈R3 .第三章。 我们考虑的PNCCi=1j=1基本上是对归一化的x、y和z进行基于相机的视角,从I1中的每个对应像素可见的面部顶点的坐标包含这些图像允许CNN更好地将I1中的每个RGB值与3D空间中的相应点相关联,从而为网络提供更好的初始化上述等式中的第一项惩罚每个顶点3D坐标与对应的地面实况顶点(si=[x,y,z]T)的偏差,而第二项确保估计网格和地面实况网格中的顶点之间的相似的边长ej是定义网格中的边j的顶点v1和v2之间的Δ2并建立参考3D网格j j这有助于在训练过程中3D空间中的扭曲等式3示出了如何计算参考帧I1的PNCC图像。PNCC(x,y)=V(S,c)=P(R[S(tj),S(tj),S(tj)]b+t3d),J J原始地面实况3D模板不是估计单独的摄像机参数c,其在渲染器的输入处是需要的,我们假设缩放正交投影(SOP)作为摄像机模型,并且训练网络以通过将帧i的每个顶点的x-y-z坐标乘以fi来直接回归缩放的3D网格。(x,y)∈Mt∈{T|不从(x,y)可见}(三)C4.2. 面流预测其中V(.,- 是的是呈现S的归一化版本的函数,c∈R7是相机参数,即,旋转角、平移和缩放(R,t3d,fc),P是一个3×3对角矩阵,其主对角元素为(fc,fc,fc).给定I1、I2和PNCC图像,3D流估计问题是映射F:{I1,I2,PNCC} ∈ RW×H×9→FW×H×3。 使用第3节 和 4DFAB [8] 数 据 集 中 详 细 说 明 的 带 注 释 的Face3DVid,我们训练了一个完整的卷积。WHD与P的乘法将具有fC的所构成的3D面部缩放为在图像空间坐标中的第一个,然后将其与渲染图像大小的宽度和高度以及从我们的注释的3D形状的整个数据集计算的最大z值D归一化这导致具有RGB通道的图像存储对应渲染的3D形状的归一化([0,1])x-y-z坐标等式3中的其余参数在第3.3节中详述,并在等式2中使用。3DMesh注册在等式3中讨论的PNCC图像生成仍然缺乏对I1的3D面部形状S的估计。我们通过训练深度CNN来处理这个问题,传统的编码器-解码器CNN结构(F),被称为Deep-FaceFlowNet(DFFNet),其获取三个图像,即:I1、I2和PNCC,并从I1至I2中的每个前景像素产生3D流估计作为W × H × 3图像。所设计的网络遵循具有跳过连接的通用U-Net架构[29],并且特别 受 到 FlowNetC [10] 的 启 发 , 参 见 图 3 。 与FlowNetC不同,我们扩展了网络以考虑输入端的PNCC图像,并修改了结构以考虑3D 流量估计任务,而不是2D光流。我们提出以下两项损失函数:ΣLL(λ)=w||F GT−F()|| +α|| I −W(F,PN CC;I)||二(五)称为3DMeshReg,旨在回归密集的3DiiiF12Fi=16622图3.我们设计的DFFNet的架构,用于估计一对RGB图像之间的3D流。第一项在Eq。(5)是端点误差,其对应于光流法的标准误差测量的3D扩展。计算Frobenius范数(||. ||F)error between the estimated 3D flow F (Ψ) and the groundtruth F GT, with Ψ representing the network learnableweights.实际上,由于在我们的DFFNet的解码器部分,每个分数步长卷积操作,又名。反卷积产生不同分辨率下的流的估计,我们将该多分辨率3D流与FGT的下采样版本进行比较,直到阶段L处的全分辨率,并且使用Frobenius范数误差的加权和作为惩罚项。第二项在方程。(5)是光致一致性误差,它假设每个点的颜色不从I1变为I2。 在翘曲函数W(.,. )的情况。该函数使用估计的流量F和在结果投影的3D形状的顶点处的样本I2来扭曲在PNCC图像内部编码的I1方程5中的扭曲函数是通过可微层实现的,该可微层通过我们的3D流检测遮挡,并在我们的DFFNet的输出级以可微方式对第二幅图像进行采样(向后扭曲)。尺度α用于训练时的术语平衡。5. 实验在本节中,我们将我们的框架与光流和3D人脸重建中的最新方法进行比较。我们在NVIDIA DGX1机器上运行了所有实验5.1. 数据集虽然收集的Face3DVid数据集具有在描绘在其上的人的丰富的设置和视点在视频捕获的各种场景中,数据集用伪地面实况3D形状注释,而不是真正的3D扫描。因此,仅依赖于该数据集来训练我们的框架可能导致模仿基于3DMM的估计的性能,我们希望理想地初始化该估计,然后离开该估计。因此,我们在4DFAB数据集上微调我们的框架[8]。 4DFAB数据集是动态高分辨率3D人脸的大规模数据库,受试者通过相应的每帧3D扫描显示自发和姿势的面部表情。如果每对之间的每像素平均3D流= 1,则我们在从每个视频采样的连续帧总共约3 M个图像对(1600名受试者)形成Face 3DVid数据集,500 K个来自4DFAB(175名受试者)用于训练/测试目的。在训练的第一阶段,我们将Face 3DVid分为训练/验证与测试(80%vs20%同样,在微调期间,4DFAB数据集被分为训练/验证与测试(80%vs20%)5.2. 架构和培训详情我们的管道由两个网络组成(见图1)。2):a) 3DMeshReg:该 网络 的目标是接受输入图像(I1∈ R224×224×3)并回归描述受试者面部几何形状的每个顶点(x,y,z)坐标。为此目的选择并训练了ResNet50 [15]网络架构,将输出全连接(fc)层替换为卷积层(3 × 3,512),然后将线性fc层替换为卷积1。5k×3个神经元。 该网络最初在Face3DVid数据集上与框架的其余部分分开训练,然后在4DFAB数据集上进行微调[8]。在训练过程中使用Adam优化器[20],学习率为0.0001,β1= 0。9,β2= 0。999,批量32。6623我们FlowNetC,FlowNetS FlowNet-SD LiteFlowNetFlowNet2109876543210.110- 50 5 10 15 20 25 30 3540历元(FlowNetS FlowNetC)。为了利用ITWMM和DNSfM-3DMM估计三维流,我们首先通过每次将单个帧传递给ITWMM方法并将整个视频传递给DNSfM-3DMM(因为它是基于视频的方法)来生成每个测试视频的每帧密集3D网格。然后,按照我们在3.3中讨论的注释程序,获得每对测试图像的3D流值由于我们比较的基于深度学习的方法图4.在训练我们的网络和其他用于3D流估计的最先进方法时使用的学习率的训练时间表。所有方法的前20个epoch在Face3DVid数据集上运行,接下来的20个epoch在4DFAB上运行。Face3DVid和4DFAB上的每个训练时期由18个组成。75·104和3 .第三章。分别为13·104次迭代,每次迭代的批量大小为16。b) DFFNet:图3显示了这个网络的结构。受FlowNetC[10]的启发,该网络具有类似的九个卷积层。前三层使用大小为5×5的内核,其余层使用大小为3×3的内核。在发生的情况下,以2的步幅进行下采样,并使用ReLU层实现非线性。我们扩展了这个架构在输入级的一个分支专用于处理PNCC图像。在PNCC分支结束时生成的特征图与I 1和I 2的特征图之间的相关结果连接。对于相关层,我们遵循[10]建议的实现,并且我们保持该层的相同参数在解码器部分,从最精细的级别直到全分辨率来估计流。在训练时,我们使用16的批量大小和Adam优化算法[20],其中[ 20 ]中推荐的默认参数(β1= 0)。9和β2= 0。999)。图4展示了我们在训练和微调时期的预定学习率。我们还在等式5中设置wi=1和α=10,并将输入图像归一化到范围[0,1]。在测试时,我们的整个框架只需要大约17 ms(6 ms( 3DMehsReg ) +6 ms ( 光 栅 化 PNCC 生 成 ) +5 ms(DFFNet))来生成3D密集流图,给定一对注册的图像。5.3. 三维流量估计在本节中,我们定量评估我们的方法在估计3D流的能力。由于没有其他方法从简单的RGB图像的3D场景流更详细地,我们使用两种3D重建方法(ITWMM[5]和DNSfM-3DMM [23]),以及在重新训练它们之后的四种光流方法,它们都专门用于3D流估计的任务。四种光流方法包括表2中对我们的数据集(LiteNetFlowNet 2)以及两个附加基线的最佳性能方法在本节中,提出了作为2D流估计器,我们修改了一些滤波器在其原始架构中的大小,使得它们的输出流是存储流的x-y-z坐标的3通道图像,并利用图4中报告的学习速率表在我们的3D面部流数据集上训练它们。FlowNet2是一个非常深入的架构(大约160M参数),由堆叠的网络组成。正如[18]中所建议的,我们没有一次性训练这个网络,而是按顺序训练。更具体地说 , 我 们 将 数 据 集 上 单 独 训 练 的 各 个 网 络(FlowNetS,FlowNetC和FlowNetSD [18])融合在一起,并对整个堆栈架构进行了微调,请参见4学习率计划。请查阅补充资料,了解我们在这里比较的每个流网络中确切修改的内容表1显示了在Face3DVid和4DFAB数据集上通过每种方法生成的面部AEPE结果。我们提出的架构及其变体(“我们的深度”)报告了两个数据集上的最低(最佳)AEPE数字。图5显示了由所述方法产生的一些颜色编码的3D流结果。方法见表1。为了对3D流进行颜色编码,我们将x-y-z估计的流坐标从笛卡尔坐标转换为球面坐标,并将其归一化,以便它们表示HSV着色系统的坐标,更多细节可参见补充材料。值得注意的是,我们比较的3D面部重建方法无法像我们的方法那样准确地跟踪3D流它们的结果在模型空间中是不光滑这可以归因于这样的事实,即这样的方法比3D时间流更关注来自相机的视角的重构另一方面,我们在本节中训练的其他深度架构无法以相同的精度捕获完整的面部运动,脸颊和脸颊周围的流动更多。5.4. 二维流量估计该实验的目的是通过仅保留在x和y方向上的输出处产生的位移而忽略z方向上的位移来探测我们的框架在估计一对面部图像之间的2D光学面部流方面的性能。我们将本节中的比较分为两部分。首先,我们评估-学习率6624图5.来自Face3DVid和4DFAB数据集的随机测试对的颜色编码3D流量估计。从左到右:对输入RGB图像,地面实况,我们的,我们的深度,比较方法。有关颜色编码,请参见Supp. 材料图6.彩色编码的2D流量估计。这些是来自Face3DVid和4DFAB数据集的测试分割及其2D流量估计的随机样本。每行的前两列显示输入的RGB图像对有关颜色编码,请参见Supp.材料表1.在4DFAB和Face3DVid数据集的测试分割上,将我们获得的3D人脸流结果与最先进的方法进行比较。比较指标为标准平均终点误差(AEPE)方法4DFAB(↓)Face3DVid(↓)ITWMM [5]3.434.1[23]第二十三话2.83.9[第10话]2.253.7[第10话]1.952.425[18]第十八话1.892.4[第17话]1.52.2我们的深度1.61.971我们1.31.77评估我们的方法对一般的2D流的方法,使用他们的最佳表现训练模型提供的原始作者的每一个。其次,我们在我们训练框架的相同数据集上从头开始训练相同的架构,即Face 3DVid和4DFAB的训练分割,使用1 e-4的学习率,每10个epoch下降5次。我们保持与每篇论文以最小化由光一致性和数据项组成的掩蔽损失。掩蔽损失是在前景(面部)掩模的帮助下计算的,该掩模用于提供有我们利用的数据集的每个参考图像表2显示了通过我们提出的方法相对于Face3DVid和4DFAB数据集的测试分割上的其他最先进的光流预测方法获得的面部平均终点误差(AEPE)度量从表2中可以看出,我们提出的方法总是在两个采用的数据集上实现最小(最佳)正如预期的那样,当在我们的数据集上训练其他方法用于面部2D流量估计的特定任务时,AEPE值会降低。然而,我们的方法仍然产生较低的错误,并在此任务上与方法进行比较。我们网络的“我们的深度”变体是两个数据集上性能第二好的方法。该变体以与我们原始框架非常相似的方式进行训练,但为DFFNet提供I1,I2和PNCC图像的z坐标(最后一个通道),而忽略x和y(前两个通道)。图6展示了所报告6625表2.我们获得的2D流结果与4DFAB和Face3DVid数据集测试分割的最先进方法之间的比较比较指标是标准的平均终点误差 ( AEPE ) 。 ‘original models’ refers to trained mod- elsprovided by the authros of each, and ‘trained from scratch’indicates that the same architectures were trained on the trainingsets在表2中,以及我们的。有关编码流量值所遵循的颜色编码的更多信息,请参阅补充材料5.5. 视频到视频合成与3D流我们进一步研究了我们提出的框架在捕捉人类面部3D运动的功能,并成功地将其应用于全头部重现应用程序。为此,我们使用最近提出的方法[37],其本质上是一种通用的视频到视频合成方法,将源(调节)视频映射到照片般逼真的输出视频。[37]的作者以对抗的方式训练他们的框架,并在FlowNet2[18]估计的2D流的帮助下在训练时间期间学习在这个实验中,我们替换了[37]通过我们提出的方法,并帮助生成器和视频解码器学习由我们的3D面部流表示的时间面部动态。我们首先进行自我重演测试,如[37]中所做,其中我们将每个视频分为训练/测试分割(前三分之二与后三分之一),并报告假测试帧和真实测试帧之间的平均每像素RGB误差表3显示了我们为每个训练单独模型的4个不同视频表3的第二行和第三行之间的唯一区别是流量估计方法,其他一切(结构,损失函数,条件等)。都是一样的从表3中可以看出,我们的3D流程更好地揭示了训练对象的面部时间动态,并支持视频合成生成器捕获这些时间特性,从而导致较低的误差。在第二个实验中,我们进行了一个完整的头部重现测试,以充分转移头部姿势和表情从源人到目标之一。图7显示了使用我们的3D流和FlowNet2的2D流合成的帧。图7.使用[37]结合FlowNet2(第二行)或我们的3D流方法(最后一行)的全头部重现。仔细观察图7,我们的3D流导致具有高度准确的头部姿势,面部表情以及时间动态的更具照片真实感的视频合成,而使用FlowNet2生成的操纵帧未能表现出相同的保真度。关于这个实验的更多细节在补充材料中。表3.使用FlowNet2在4个视频(每个具有1K测试帧)上的自再现设置下获得的平均RGB距离[18]或我们的面部三维流动与王等人的方法[37]第三十七届视频1234[37]第37话7.59.58.79.2[37][37]第三十七话:6.37.97.57.76. 结论和未来工作在这项工作中,我们提出了一种新的和快速的框架密集估计三维流的人脸只有一对单目RGB图像。该框架 在 野 外 面 部 视 频 的 非 常 大 规 模 的 数 据 集(Face3DVid)上进行训练,并在具有地面真实3D扫描的4D面部表情数据库(4DFAB [8])我们进行了广泛的实验评估,表明所提出的方法:a)从单目图像对产生2D和3D面部流的高度准确的估计,并且成功地捕获面部的复杂的非刚性运动,以及b)在估计2D和3D面部流两者方面优于许多现有技术的方法,即使在相同的设置和数据下训练其他方法时。我们还揭示了我们的工作在全头部面部操作应用程序中的巨大潜力,该应用程序利用我们的面部流来产生高度忠诚和照片般逼真的假面部动态,与真实的面部动态无法区分。确认Stefanos Zafeiriou 感谢EPSRC Fellowship DEFORM(EP/S 010203/1)方法原始模型从零开始4DFAB Face3DVid4DFAB Face3DVid[第10话]5.14251.956 2.6[第28话]1.31 31.042 1.5[第10话]1.212 2.61.061 1.498[25]第二十五话1.65531.055 1.45[第17话]1.16 2.61.018 1.268PWC-Net[32]1.159 2.6251.035 1.371[18]第十八话1.15 2.61871.063 1.352我们的深度0.99 1.1760.99 1.176我们0.941 1.0960.941 1.0966626引用[1] Thiemo Alldieck , Marc Kassubeck , Bastian Wandt ,Bodo Rosenhahn和Marcus Magnor。基于光流的单目视频三维人体运动估计。在German模式识别会议上,第347Springer,2017. 1[2] Tali Basha,Yael Moses,Nahum Kiryati。多视图场景流估计:一种视图中心变分方法。国际计算机视觉杂志,101(1):61[3] Michael J Black和Paul Anandan。多个运动的鲁棒估计:参数和分段光滑流场。计算机视觉与图像理解,63(1):752[4] James Booth 、 Anastasios Roussos 、 Allan Ponniah 、David Dunaway和Stefanos Zafeiriou。大规模三维变形模型。国际计算机视觉杂志,126(2- 4):233-254,2018。3[5] JamesBooth , AnastasiosRupesos , EvangelosVerveras,EpameinondasAntonakos,StylianosPloumpis,Yannis Panagakis,and Stefanos Zafeiriou.图像和视频中“野外”人脸的3D重建。IEEE transactions onpattern analysis and machine intelligence,40(11):2638- 2652,2018。六、七[6] Fabian Brickwedde,Steffen Abraham和Rudolf Mester。Mono-sf:多视图几何满足单视图深度,用于动态交通场景的单目场景流量估计。在IEEE计算机视觉国际会议论文集,第2780-2790页,2019年。2[7] ThomasBrox , Andre 'sBruhn , NilsPapenberg ,andJoachimWeickert.基于翘曲理论的高精度光流估计。欧洲计算机视觉会议,第25-36页。Springer,2004. 2[8] Shiyang Cheng,Irene Kotsia,Maja Pantic,and StefanosZafeiriou. 4dfab:用于面部表情分析和生物识别应用的大规模4D数据库在IEEE计算机视觉和模式识别会议论文集,第5117-5126页,2018年。三、四、五、八[9] JiankangDeng , AnastasiosRupensos , GrigoriosChrysos,Evangelos Ververas,Irene Kotsia,Jie Shen,and Stefanos Zafeiriou. 多姿态2d和3d面部标志定位和跟踪的menpo基准。国际计算机视觉杂志,第1-26页,2018年。3[10] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet:使用卷积网络学习光流。在IEEE计算机视觉国际会议的论文集,第2758-2766页,2015年。二三四六七八[11] Ravi Garg,Anastasios Roussos,and Lourdes Agapito.非刚性表面的密集变分重构。在Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,第1272-1279页,2013年。1[12] Baris Gecer,Stylianos Ploumpis,Irene Kotsia,and Ste-fanos Zafeiriou. Ganfit:生成对抗网络拟合-用 于 高 保 真 度 3D 人 脸 重 建 。 arXiv 预 印 本 arXiv :1902.05978,2019。3[13] Vladislav Golyanik,Aman S Mathur和Didier Stricker。Nrsfm-flow:从单目图像序列中恢复非刚性场景流。在BMVC,2016年。2[14] Jia Guo , Jikang Deng , Niannan Xue , and StefanosZafeiriou.具有双变压器的堆叠密集u型网络,用于稳健的面部对齐。在英国机器视觉会议(BMVC)中,第87.1BMVA Press,September 2019. 3[15] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。5[16] Berthold KP Horn和Brian G Schunck。确定光学流量。Artificial intelligence,17(1-3):185-203,1981. 一、二[17] Tak-Wai Hui,Xiaoou Tang,and Chen Change Loy. Lite-flownet:用于光流估计的轻量级卷积神经网络。在IEEE计算机视觉和模式识别会议论文集,第8981- 8989页七、八[18] Eddy Ilg , Nikolaus Mayer , Tonmoy Saikia , MargretKeuper,Alexey D
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功