多视图3D人脸变形模型回归

187 浏览量更新于2023-10-18 收藏 1.57MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

959MVF-Net：多视图3D人脸变形模型回归Fanzi Wu2 <$ Linchao Bao1陈雅静3Yongen Ling1宋一兵1SongnanLi2王毅颜2，4刘伟11腾讯人工智能实验室2香港中文大学3上海交通大学4电子科技大学摘要我们解决的问题，从一组面部图像在多个视图中恢复的三维几何形状虽然最近的研究已经显示了令人印象深刻的进展，在3D变形模型（3DMM）的面部重建，设置大多限于一个单一的视图。在单视图设置中存在固有的缺点：缺乏可靠的在本文中，我们探讨了基于3DMM的形状恢复在不同的设置，其中一组多视图的面部图像作为输入。提出了一种利用端到端可训练卷积神经网络（CNN）从多视图输入回归3DMM参数的新方法多视图的几何约束被纳入到网络中，通过利用一种新的自监督视图对齐损失在不同视图之间建立密集的对应关系。视图对准损失的主要成分是可微分的密集光流估计器，其可以反向传播输入视图与来自另一输入视图的合成渲染之间的对准误差，该合成渲染通过要被引入的3D形状被投影到目标视图。通过最小化视图对准损失，可以恢复更好的3D形状，使得从一个视图到另一个视图的合成投影可以更好地与观察到的图像对准大量的实验表明，该方法优于其他3DMM方法。1. 介绍从 2D 图像重建 3D 面部形状对于许多虚拟现实（VR）和增强现实（AR）应用是必不可少的。为了获得面部动画和编辑等后续步骤所需的完全装配的3D网格，在重建中通常采用3D变形模型（3DMM）[2]来提供3D面部模型的参数表示。虽然常规方法通过合成分析优化来恢复给定面部图像的3DMM参数[3，25]，*同等缴款。电子邮件：{wufanzi 412，linchaobao} @ gmail.com[2]这项工作是在Fanzi Wu在腾讯AI Lab实习时完成图1.视图对齐丢失的图示。经由最佳底层3D模型从视图A到B的渲染投影应当与在视图B处观察到的图像最佳地对准。最近的工作已经证明了使用卷积神经网络（CNN）回归3DMM参数的有效性[40，35，32，17，12，29，28]。尽管在该主题中取得了显著的进展，但是从单个视图恢复3DMM参数具有固有的缺点：缺乏可靠的3D约束会导致无法分辨的模糊，例如，仅从正面看，很难分辨脸部的鼻子和颧骨的高度。从2D图像重建更忠实的3D形状的一种更好的方法在这种情况下，可以采用运动恢复结构（SfM）和多视图立体（MVS）算法[9]来重建初始3D模型，然后可以使用来自初始模型[2]的3D几何约束来执行3DMM拟合然而，分开的两个步骤容易出错：SfM/MVS步骤不能利用来自3DMM的强人脸先验，因此其结果通常相当嘈杂，这进一步导致错误的3DMM拟合。另一种方法是通过合成分析优化 [25] 直接从多视图图像拟合3DMM参数，但它需要复杂的非线性优化，在实践中可能难以解决。在本文中，我们提出了一种新的方法，该方法采用端到端的可训练CNN来回归多视图设置中的3DMM参数。灵感来自于测光发髻-960Dle调整方法[6]用于多视图3D重建中的相机姿态和3D形状估计，我们的方法也基于以下假设：底层最佳3D模型应该最好地解释不同视图中的观察图像。也就是说，每个观察到的图像和由该视图的底层3D模型引起的渲染图像之间的光度重投影误差应该被最小化（如图1B所示）。①的人。为了将这个约束结合到我们的CNN中，我们使用预测的3D模型和相机姿势从输入视图中采样纹理，然后将纹理化的3D模型渲染到另一个视图中，以计算渲染图像和目标视图中观察到的图像之间的损失。除了两个图像之间的直接光度损失之外，我们提出了一种新的视图对齐损失，该视图对齐损失利用可微分的稠密光流估计器来反向传播对齐误差，以避免在训练期间陷入局部极小值所有上述程序都是不同的，整个网络是端到端可训练的。据我们所知，这是第一个提出端到端可训练网络来利用3DMM和多视图几何约束的工作我们进行了广泛的实验，以显示所提出的方法的有效性2. 相关工作在本节中，我们简要总结了与我们的方法最相关的工作。请参阅最近的调查[41]以了解更详细的审查。2.1. 可变形3D人脸模型（3DMM）Blanz和Vetter [2]引入了3D变形模型，使用一组形状和纹理基础的线性组合来表示纹理化的3D面部，该模型来自真实3D面部扫描的集合。该模型后来被FaceWarehouse扩展为包括面部表情[5]。在本文中，我们专注于恢复人脸的基本3D形状，因此我们只对形状和表情的3DMM参数回归感兴趣。我们认为，可以用更先进的纹理合成技术[26]代替3DMM纹理表示来获得3D网格的更逼真的纹理。2.2. 基于单视图3DMM的重建用于单视图3DMM拟合的常规方法大多基于合成分析优化[3，25，10，34，38，39]，通过约束数据相似性，如像素颜色，面部标志，边缘等，观察到的图像和由3DMM诱导的合成图像之间的优化通常对初始条件和参数敏感，因此在实践中是脆弱的。这导致了最近对深度神经网络的基于回归的方法的兴趣。Zhu等人。 [40]提出了一种级联CNN来回归和逐步细化3DMM参数，使用通过使用拟合3DMM参数生成的超级视觉数据进行训练。传统的方法，然后通过他们提出的面部轮廓技术来增强。后来，Tran等人[35]提出，更深的网络和3DMM池在面部识别上可以获得更有区别的结果。然而，这两种方法都需要通过基于优化的3DMM拟合技术获得的监督。Dou等人[8]提出使用真实3D扫描以及具有3D顶点距离损失的合成渲染面部图像来训练回归网络Richardson等人[23]表明，3DMM回归网络可以只使用合成渲染的人脸图像进行训练，后来Kim等人。[17]提出了一种自举算法，使合成训练数据分布与实际数据相匹配。最近，Tewariet al.[32] Genovaet al. [12]通过仅使用未标记的图像训练3DMM回归网络，分别具有自监督光度损失和面部识别损失，展示了令人印象深刻的结果为了对超过3DMM表示能力的详细面部几何形状进行建模，最近的一些研究提出补充额外的几何表示，例如除了3DMM表示之外的位移图[24，36]或参数校正[33]其他一些工作使用体积表示[15]或非规则网格[27]代替参数表示。这些类型的代表性超出了本文的范围。2.3. 基于多视图3DMM的重建在多视图设置中，基于3DMM的重建的直接解决方案[14]是首先执行透射多视图3D重建[9]，然后使用重建的3D模型作为约束来拟合3DMM。然而，分开的两个步骤容易出错：SfM/MVS步骤不能利用来自3DMM的强人脸先验，因此其结果通常相当嘈杂，这进一步导致错误的3DMM拟合。 Dou等人[7]最近提出使用深度卷积神经网络（CNN）和递归神经网络（RNN）来解决这个问题。他们使用RNN融合CNN的身份相关特征，以产生更多的识别重建，但在他们的方法中没有利用请注意，在多图像设置[22]中还有一些其他基于3DMM的方法，但在这些工作中，每个输入图像都是单独处理的，这与我们的多视图设置不同。3. 方法3.1. 概述我们采用端到端的可训练CNN来从不同视图中的同一个人的多个面部图像中回归3DMM参数为了像传统的多视图3D重建方法[9]那样建立多视图几何约束，现在我们假设在相同的照明条件下同时拍摄面部图像。稍后，我们将说明我们的方法能够961ConcatenateFC-ReLU-FC不可培训FC1Xid、Xexp输入构成共享权重共享权重渲染B→A姿势B纹理采样输入B共享权重共享权重渲染B→C姿势C输入CVGGFC2可微渲染可微渲染照片丢失对齐损失对齐损失照片丢失图2.拟议模式概述。来处理具有照明变化的输入。为了简单起见，我们采用三视图设置来描述我们的方法。请注意，它可以很容易地推广到其他数量的输入视图。图2示出了在三个输入视图的情况下我们提出的模型的概述。我们通过共享权重CNN从每个输入图像中学习特征，然后将这些特征连接在一起，以回归该人的一组3DMM参数。随后，我们从每个输入视图的各个特征中回归每个输入视图的姿态参数（第二节）。3.3）。其中s是平均3D面模型的向量格式，Eid和Eexp分别是BFM2009 [19]的恒等基和FaceWarehouse [5]的表达式基，xid和xexp是对应的199维恒等向量和29维表达式向量。为了将3D模型投影到2D图像平面上，我们采用弱透视投影模型给定一个3D点v，其2D投影可以用一组相机来计算。姿态参数P如下利用姿态参数和3DMM参数，我们能够通过从图像中采样纹理来从每个输入图像渲染纹理3D面部模型第3.4段）。注意Pr（v，P）=ΣΣf0 00f0·R·v+t，（2）在三视图设置中，将有三个纹理化的3D人脸模型，具有相同的基础3D形状但具有不同的纹理。在获得不同视图的渲染3D人脸模型后，我们将它们中的每一个投影到与纹理采样的视图不同的视图3.5）。例如，我们将具有从视图A处的图像采样的纹理的3D模型投影到视图B。然后，我们可以计算投影图像与目标视图处的输入图像之间的损失。我们将在第二节中详细介绍所采用的损失。三点六请注意，渲染层是非参数但可区分的，就像以前的自监督方法[32，12]一样，因此可以将gra-random反向传播到可训练层。3.2. 模型在这项工作中回归的3DMM参数包括身份和表达参数，如[40]。3D人脸模型s可以表示为s=<$s+Eidxid+Eexpxexp，（1）其中f是缩放因子，R是旋转矩阵，t是2D平移[tx，ty]T。由于旋转矩阵R可以被最小化地参数化为三个欧拉角α、β、γ，因此要回归的姿态总共包含6个参数，其读作P ={f，α，β，γ，tx，ty}。3.3. 参数回归我们将三视图输入图像表示为IA、IB和IC。我们假设IB是从正面视图拍摄的图像，IA和IC分别从左视图和右视图拍摄。注意，我们不需要从精确的已知视角拍摄图像。每个输入图像都通过几个卷积层发送（在我们的实现中借鉴了VGG-Face [30]）并汇集到512维特征向量。然后，一组pose pa-参数P={f，α，β，γ，tx，ty}通过两个全连接层对每个视图进行回归将三个512维特征向量连接在一起以回归228维3DMM参数X={xid，xexp}（对于199维，962标识和29用于表达式）使用另外两个完全连接层。注意，对于每组输入，我们回归一个X和三个姿态参数PA、PB和PC。用于提取三个视图的特征和回归姿态参数的网络具有共享的权重。3.4. 纹理采样利用预测的3DMM参数X以及已知的恒等基Eid和表达式基Eexp，我们可以使用Eq.（一）.三个不同的- ent纹理地图可以通过采样纹理从每个图像单独使用自己的姿态参数预测的网络。对于3D模型的每个顶点v，我们应用等式（2）将顶点投影到图像平面，并使用空间 TransformerNetworks [16]中采用的可微分采样方案对于网格上三角形内的三维点，我们利用重心插值从其周围的顶点获取其纹理颜色。注意，由于纹理采样方案不处理遮挡，因此针对每个图像中的遮挡区域采样的纹理是错误的。我们使用可见性遮罩来处理这个问题，这将在第2节中详细介绍。三点五假设现在我们在这一步中获得了三个不同纹理的3D模型。3.5. 渲染投影和可见性遮罩纹理化的3D模型可以通过[12]中介绍的可微分渲染层投影到任意视图以渲染2D图像。例如，给定具有从图像IA采样的纹理的3D模型，我们可以使用姿势参数PB将其渲染到IB的视图，我们记为IA→B。形式上，对于网格上的任何3D点v，曲面（包括三角形内的点），其渲染图像中的投影像素可以计算为IA→B[Pr（v，PB）] =IA[Pr（v，PA）]，（3）其中我们使用[·]来表示图像中的像素选择实际上，渲染是通过在目标图像平面上进行光栅化来实现的，也就是说，将目标图像中的任意像素表示为u，则Eq.（3）可以写成IA→B[u]=IA[Pr（Pr−1（u，X，PB），PA）]，（4）其中我们使用Pr−1（·）表示从2D点到3D空间的反投影注意，由于反投影本质上是3D空间中的射线，因此我们需要面部模型的3D表面，其可以由3DMM参数X诱导，以便将反向投影射线定位到3D点。因此(a)（b）（c）（d）图3.渲染图像的可见性遮罩：（a）IA→B;（b）IC→B;（c）IB→A;（d）IB→C。使用鼻尖和眉毛上的3D标志（白点）排除暗区域。(a) 初始掩码（b）过滤后（c）裁剪后图4。对观察图像的掩模处理。初始掩码本质上是纹理采样区域。然后，使用联合边缘保持滤波与图像作为指导进行滤波。通过使用眉毛上的2D检测到的界标（白点）排除遮挡区域来获得最终掩模（c）其中M表示未被遮挡的面部区域中的像素集合。我们将使用这个假设来设计我们的自我监督损失。第3.6.2条。到目前为止，我们讨论的是不考虑遮挡的渲染投影。为了排除被遮挡的面部区域，我们采用可见性掩模来获得M。请注意，方程式（5）是理想情况下，其中能见度掩模对于渲染图像和观察图像都是相同的。在实践中，由于3DMM和姿态参数不完善，我们需要为渲染图像和观察图像使用不同的遮罩，以增强光度一致性（参见第2节）。详情见3.6.2）。对于渲染图像，我们简单地通过使用与2D面部标志对应的3D顶点（3D顶点与68点2D面部标志之间的对应关系由[40]提供）排除可能在其他视图中被遮挡的区域来提取视觉掩模。图3示出了用于所有三个视图的可见性掩模的示例。对于所观察到的真实图像，我们使用纹理采样区域获得初始掩模。然后，在输入真实图像作为指导的情况下，对初始掩模执行联合边缘保持滤波[11最后，使用2D检测到的地标排除在其他视图中可能被遮挡的区域，类似于渲染图像的掩模处理（见图11）。4）.注意，对于正面观察图像，当分别从左侧和右侧观看时，存在两个不同的可见性掩模。我们将像素的集合表示为相应的反投影算子Pr−1（·）在above-e方程中（一）（C）除了摄像机姿态PB之外，还将X. 理想情况下，作为M B的响应面具和MB。使用最佳的底层3D模型和相机姿势，观察到的图像IB应该与未被遮挡的面部区域中的再现图像IA→BIA→B（X，P，P）[u]<$IB[u]，对于u∈ M，（5）3.6. 损失与培训为了获得良好的初始化并避免陷入局部最小值，我们首先使用300 W-LP数据集上的监督标签对CNN进行预训练[40]，其中地面-B A963B2BB通过传统的3DMM拟合算法获得真实3DMM和姿态参数，并通过面部轮廓增强生成多视图图像。在预训练收敛之后，我们然后对Multi-PIE数据集[13]执行自监督训练，其中多视图面部图像在受控的室内设置中拍摄。训练损失将在下一节中详细说明。3.6.1监督预训练在有监督的预训练中，提供了地面实况地标、3DMM和姿态参数。在数据集300 W-LP中，对于每个真实面部图像，生成若干合成渲染视图。在训练阶段，我们为每个人随机选择一组多视图图像，其中包含左视图，前视图和右视图。我们使用地面实况地标，3DMM和姿态参数作为监督，以及3DMM参数的正则化。监督训练损失是Lsup=λ1L landmark+λ2L pose+λ3L 3DMM+λ4L reg，（6）其中Llandmark是与[32]类似的地标对准损失，Lpose和L3DMM是预测和地面实况之间的L2损失，Lreg是也与[32]类似的3DMM参数的正则化损失。权重λ1、2、3、4是控制损耗之间的权衡的超参数。3.6.2自我监督训练在自监督训练阶段，我们加强观察图像和合成渲染图像之间的光度一致性，以纳入多视图几何约束。从等式（5）导出了光度损失Σ输入渲染图像前向流后向流图5.观察图像和渲染图像之间的光流为了加强IB和IA→B之间的光度一致性，我们计算对准损失为L align（IB，IA→B）=|F（IB，IA→B）|+的|F（IA→B，IB）|、（八）其中F（·）表示光流估计器r。注意，这里采用双向光流。此外，为了减少光流估计的干扰，错误的不感兴趣的地区，我们填补了该地区以外的可见性面具与纹理的流动可以很容易地估计（见图。5为例）。对于三视图设置，我们计算4对图像之间的光计量损失和对准损失：（IB，IA→B），（IB，IC→B），（IA，IB→A），和（IC，IB→C）。此外，为了增加训练的稳定性，我们还采用了在自我监督训练期间的地标损失L地标，其中地标经由来自[4]的最先进的地标检测器自动检测总而言之，自我监督的训练损失是Lself-sup=λ5L landmark+λ6L photo+λ7L align ，（9）其中光度损失Lphoto和对准损失Lalign从上述4对图像计算超参数λ5、λ6、λ7控制损耗之间的权衡。4. 实验Lphoto（IB，IA→B）=u∈M（A）<$MA→BIB[u]−IA→B[u]（七）在本节中，我们首先介绍数据集、评估指标和实施实验的细节（第二节）。4.1和4.2）。然后，我们将演示其中，M（A）和MA→B是针对IB（从左侧观察）和IA→B反射的可见度掩模中的像素集合。注意，这里我们使用M（A）和MA→B的并集，使得可以考虑未对准误差。不幸的是，我们发现仅使用光度损失在实践中可能导致不良的对准。其原因在于，面部区域内的像素彼此相似，使得容易发生误匹配。为了提高观测图像和渲染图像之间密集对应的可靠性，我们在训练中引入了额外的新对齐损失。我们采用一个可微的稠密光流估计器来计算观察图像和渲染图像之间的流量，然后使用所有像素处的流量幅度的平方和作为对准损失。由于密集光流估计器倾向于估计平滑的流场，因此可以在很大程度上抑制个体失配。例如以建议的方法与广泛的消融研究的有效性。四点三。最后，定量和定性比较国家的最先进的单视图3DMM为基础的方法。4.44.1. 数据集和指标训练数据集。1）我们的监督预训练是在300 W-LP数据集上进行的[40]，该数据集包含超过60，000张图像，这些图像来自3，837张人脸图像，通过使用人脸轮廓合成方法[40]改变姿势。地面实况地标，3DMM和姿态参数由数据集提供。我们使用提供的偏航角对来自300 W-LP数据集的前视图、左视图和右视图图像组成的三元组进行采样，这总共产生140 k个训练三元组。2)我们的自我监督训练是在Multi-PIE数据集上进行的[13]，该数据集包含使用15台相机在不同方向964粤ICP备15044888号L LL在各种光照条件下。我们以正面图像为锚点，随机选择侧面图像（左或右），得到50k个训练三元组和5k个测试三元组，其中测试分裂中的受试者不出现在训练分裂中。注意，图像是在前视图、左视图还是右视图中可以由所提供的相机ID来确定。评价数据集。1）我们主要对MICC Florence数据集[1]进行定量和定性评估，该数据集由53个具有中性表情的人的身份组成，并提供地面真实3D扫描每个人分别包含“室内合作”、“室内”和“室外”三个视频为了实验本文中提出的多视图设置，我们人为地为每个人选择一组多视图帧，使得他/她的表情在不同视图中是一致的。由于难以选择这样的帧集合，在“室外”视频中，我们仅对“室内-合作”和“室内”视频进行评估。2)进一步对Color FERET数据集[20，21]和MIT-CBCL人脸识别数据库[37]进行定性评估，其中多视图人脸图像可用。评估指标。在对MICC数据集的定量评估中，我们遵循[12]的评估指标，我们的自我监督损失INC IND地标照片对准器平均标准品平均标准品v1 0.297 1.252 0.285电话：+86-21 - 5555555传真：+86-21 - 55555555电话：021 - 8888888传真：021 - 8888888表1.我们的方法在MICC数据集上的平均误差。版本：v1表示有监督的预训练模型; v2-v4用于具有不同损失的自监督训练模型。输入v1 v2 v3 v4其计算预测3D模型和地面实况3D扫描之间的点到平面L2误差。在这里，我们放弃了ID 2和27的受试者，因为他们的地面实况3D扫描有缺陷，并且在其他工作中也被排除在外[32，12]。4.2. 实现细节我们使用PWCNet [31]作为自监督训练步骤中请注意，在我们的训练过程中，PWCNet的权重是固定的。我们根据面部标志的边界框（地面实况或用[4]检测）裁剪输入图像并调整大小是224×224。为了增加训练数据，我们将输入大小为0〜 0.05的随机移位添加到边界框。我们采用亚当[18]作为优化器。批量大小已设置PTZ-室内11室内-C14错误：1.04错误：1.31误差：0.95错误：1.184错误：0.91错误：1.15错误：0.82错误：1.02到12.监督预训练在300 W-LP上进行训练，10个时期，学习率为1 e-5，自监督训练在Multi-PIE上训练10个时期，学习率为1 e-6。用于平衡损失的默认权重设置为λ1= 0。1，λ2= 10，λ3= 1，λ4=1，λ5= 1，λ6= 10，λ7= 0。1.一、我们为不同的损失项设置不同的权重，使它们的数量在一个相似的尺度上。权重λ1和λ7被设置为相对较小的值，因为它们表示像素距离。权重λ2和λ6被设置为较大的值作为姿态参数，并且输入图像的像素值被归一化为[0，1]。4.3. 消融研究我们在MICC数据集上进行了一系列实验，以证明我们方法中每个组件的有效性。表1显示了我们模型不同版本的平均误差。从结果中，我们观察到，与监督预训练模型（v1）一致，自图6. MICC数据集上消融研究的可视化示例。特写镜头中颜色的含义如下。红色：从3D到2D的投影区域超过观察到的面部边界。绿色：投影面积小于面部面积。黄色：投影和面部区域之间的重叠。仅具有光度损失（v2）的监督训练模型对于“室内协作”图像将平均误差减小了0.026结合光度损失和对准损失（v4）给出最佳结果，误差减少0.046和0.024。图6显示了消融研究的两个可视示例。从特写镜头中，我们可以清楚地观察到从v1到v4的性能改进。具体来说，以底部人的右侧视图为例，我们可以观察到-965输入我们Tran17外务省热那亚181.026±0.879 1.65±1.1991.525±1.199 2.012±1.4171.12±0.953 1.95±1.6231.244±0.99 1.777±1.471.333±1.038 1.65±1.199 1.525±1.199 2.012±1.417图7. MICC数据集上的错误映射比较示例。方法INC IND一致的照明不一致的照明图8.不同视图间光照条件不一致的实验。第一行：输入。第二行：仅在光度损失下获得的结果。第三行：在光度量损失和对准损失两者的情况下获得的结果输入面部的面部轮廓是平坦的，而在来自V1的结果中，它看起来有点丰满，并且在来自V4的结果中，它变得更加平坦。通过检查3D模型与面部轮廓的对齐，可以在其他示例中发现相同的趋势。我们进一步在不同的照明条件下进行研究，以证明拟议的路线损失在处理照明变化方面的有效性。图8示出了示例。在这个例子中，当光- 如果在三个视图（左）中是一致的，则仅用光度损失训练的模型与用光度损失和对准损失训练的模型表现得几乎一样但是，当照明是不一致的意见，从只有光度损失得到的结果是远远不如从两个损失。对准损失对照明变化鲁棒的原因是由于光流估计器，其已经被训练来处理表2.MICC数据集的平均误差比较输入图像的照明变化。4.4. 与现有技术方法的我们首先将我们在MICC数据集上的结果与最先进的单视图3DMM重建方法进行比较。为了评估每个人的三视图评估三元组上的单视图方法，我们首先使用它们的模型来预测每个输入图像的3D模型然后采用三种第一种方法是计算每个3D模型的点-面误差，然后对误差进行平均。第二种方法是对三个预测的3D模型进行平均，然后计算合并的3D模型与地面实况模型之间的点到平面误差（表2中显示为第三种方法是计算三个预测3D模型的加权平均值，如[22]，然后计算点到面误差（如表所是说STD是说STDTran等人[35]第三十五届1.443 0.292 1.471 0.290Tran等人+ pool1.397 0.290 1.381 0.322Tran等人+[22]1.382 0.272 1.430 0.306美国外交部[32]1.405 0.306 1.306 0.261MoFA +合并液1.370 0.321 1.286 0.266MOFA +[22]1.363 0.326 1.293 0.276Genova等人[12个] 1.405 0.339 1.271 0.293Genova等人+ pool 1.372 0.353 1.260 0.310Genova等人+[22] 1.360 0.346 1.246 0.302966输入我们Tran17外务省热那亚18图9.与其他方法进行视觉比较的示例更多的例子在补充材料中室内合作输入我们的MoFA输入我们的MoFA1 11 21 31 41受试者IDPTZ-室内图11.在不同面部表情中与MoFA进行视觉比较的示例。我们的方法可以产生更精确的形状和表达式。更多的例子在补充材料中。1 11 21 31 41受试者ID图10.MICC数据集中每例受试者的详细比较2作为表2显示了比较的平均误差。所提出的方法优于所有的单视图方法在这两种设置。图10显示了数据集中每个受试者的详细数值比较图中给出了详细误差图比较的几个例子。7 .第一次会议。我们进一步使用来自其他数据集的图像进行了一些视觉比较，例如Color FERET数据集[20，21]和MIT-CBCL人脸识别数据库[37]，其中多视图面部图像可用。图9示出了在中性表达中与单视图方法的视觉比较的几个示例。图11显示了在不同面部表情中与MoFA进行视觉比较的几个示例。我们的方法优于单一的-在这些比较中可以观察到视图方法。5. 结论在本文中，我们提出了一种新的方法，用端到端的可训练CNN从多视图面部图像中回归3DMM参数。与基于单视图3DMM的CNN不同，我们的方法明确地将多视图几何约束作为不同视图之间的光度损失和对齐损失，并通过预测的3D模型渲染投影。通过可微分稠密光流估计器计算对准损耗，该估计器使得流误差能够反向传播到待预测的3DMM参数。通过大量的实验验证了该方法的有效性我们的研究基本上探索了使用深度学习的基于模型的多视图重建，我们相信这将激发更多未来的研究。Genova 18+合并液MoFA+合并液Tran17+合并液我们的Genova 18+合并液MoFA+合并液Tran17+合并液我们的点-面误差点-面误差967Ⓧ引用[1] Andrew D.Bagdanov ， Alberto Del Bimbo ， and IacopoMasi.佛罗伦萨2D/3D混合人脸数据集。在2011年ACM关于人类手势和行为理解的联合研讨会的会议记录中，J-HGBU 11，第7980页，纽约，美国纽约，2011年。ACM。6[2] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型见SIGGRAPH，第187ACM，1999年。一、二[3] Volker Blanz和Thomas Vetter。基于三维形变模型拟合的人脸识别 IEEE Transactions on pattern analysis andmachine intelligence，25（9）：1063-1074，2003. 一、二[4] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远？(and 230，000个3D面部标志的数据集在ICCV，第1卷，第4页，2017年。五、六[5] 曹晨、翁彦林、周顺、童一英、周坤。Facewarehouse：用于视觉计算的三维面部表情数据库。 IEEE Transactions on Visualization and ComputerGraphics，20（3）：413-425，2014。二、三[6] 我是艾尔·德朗和马克·波列夫。用于密集多视图3d建模的光度束调整。在CVPR，第1486-1493页，2014年。2[7] Pengfei Dou和Ioannis A Kakadiaris。基于深度递归神经网络的多视角三维人脸重建。图像和视觉计算，80：80-91，2018。2[8] Pengfei Dou，Shishir K Shah，and Ioannis A Kakadiaris.基于深度神经网络的端到端三维人脸重建。在CVPR中，第21-26页，2017年。2[9] YasutakaFuruk aw a，CarlosHern a´ ndez，etal. 多视图[17] Hyeong wooKim、Mi chaelZoll höfer、AyushTewari、JustusThies、Christian Richardt和Christian Theobalt。反向面网：深度单眼逆人脸渲染。在CVPR中，第4625-4634页，2018年。一、二[18] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[19] Pascal Paysan、Reinhard Knothe、Brian Amberg、SamiRomdhani和Thomas Vetter。一种用于姿态和光照不变人脸识别的三维人脸模型。在AVSS中，第296-301页。IEEE，2009年。3[20] P Jones-Phillips，Hyeonjoon Moon，Syed A Rizvi，andPatrick J Rauss.人脸识别算法的费雷特评价方法。IEEETransactionsonPatternAnalysisandMachineIntelligence，22（10）：1090-1104，2000. 六、八[21] P乔纳森·菲利普斯，哈里·韦克斯勒，杰弗里·黄，帕特里克·J·劳斯。人脸辨识演算法之费雷特资料库与评估图像与视觉计算，16（5）：295-306，1998. 六、八[22] Marcel Piotraschke和Volker Blanz使用质量测量从多个图像自动重建3d人脸在CVPR，第3418-3427页，2016年。二七八[23] Elad Richardson Matan Sela和Ron Kimmel通过从合成数据学习的3D 人脸重建。在3DV 中，第460-469 页。IEEE，2016. 2[24] Elad Richardson 、 Matan Sela 、 Roy Or-El 和 RonKimmel。从单个图像学习详细的面部重建在CVPR中，第5553-5562页。IEEE，2017年。2[25] Sami Romdhani和Thomas Vetter利用像素强度、边缘、镜面高光、纹理约束和先验估计三维形状和纹理。在CVPR，第2卷，第986-993页中。IEEE，2005年。一、二立体声：教程。基础与趋势RGraphics and Vision，9（1-2）：1-148，2015。一、二计算机[26] Shunsuke Saito，Lingyu Wei，Liwen Hu，KokiNagano，and Hao Li.基于深度的真实感人脸纹理推断[10] Pablo Garrido ， Levi Valgaerts ， Chenglei Wu ， andChristian Theobalt.从单目视频重建详细的动态人脸几何。ACM事务处理图表，32（6）：158-1，2013. 2[11] Eduardo SL Gastal和Manuel M Oliveira。用于边缘感知图像和视频处理的域变换。在ACM Trans.Graph，第30卷，第69页。ACM，2011年。4[12] Kyle Genova、Forrester Cole、Aaron Maschinot、AaronSarna、Daniel Vlasic和William T Freeman。三维变形模型回归的无监督训练在CVPR中，第8377-8386页一二三四六七[13] Ralph Gross 、 Iain Matthews 、 Jeffrey Cohn 、 TakeoKanade 和 Simon Baker 。多派 Image and VisionComputing，28（5）：807-813，2010. 5[14] Alexandru Eugen Ichim ， Sofien Bouaziz ， and MarkPauly.从手持视频输入创建动态3d化身。ACM Trans. Graph，34（4）：45，2015. 2[15] Aaron S Jackson，Adrian Bulat，Vasileios Argyriou，andGeorgios Tzimiropoulos.通过直接体积cnn回归从单幅图像重建大姿态三维人脸。见ICCV，第1031-1039页。IEEE，2017年。2[16] Max Jaderberg，Karen Simonyan，Andrew Zisserman，等.空间Transformer网络。参见NIPS，第2017-2025页，2015年。4968神经网络。在CVPR，第3卷，2017年。2[27] Matan Sela Elad Richardson和Ron Kimmel使用图像到图像转换的无限制面部几何结构重建见ICCV，第1585-1594页。IEEE，2017年。2[28] Yantao Shen ， Hongsheng Li ， Tong Xiao ， ShuaiYi，Dapeng Chen，and Xiaogang Wang.深度群体混洗随机游走用于人的重新识别。在IEEE计算机视觉和模式识别会议论文集，第2265-2274页1[29] Yantao Shen ， Hongsheng Li ， Shuai Yi ， DapengChen，and Xiaogang Wang.基于深度相似性引导图神经网络的人物再识别。在欧洲计算机视觉会议（ECCV）的会议记录中，第486-504页，2018年。1[30] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2015年，国际会议。3[31] 孙德清、杨晓东、刘明宇和Jan Kautz。Pwc-net：使用金字塔、扭曲和成本体积的光流的Cnns。在CVPR中，第8934-8943页，2018年。6[32] AyushTewari ， MichaelZollhofer， Hyeongw ooKim ，PabloGarrido ， FlorianBernard ， PatrickPe'rez 和ChristianTheobalt。Mofa：基于模型的深度卷积人脸自动编码器，用于无监督单目重建。在ICCV，第2卷，第5页，2017年。一、二、三、五、六、七969[33] Ayush Tewari，Michael Zollhfer，Pablo Garrido，FlorianBernard，Hyeongwoo Kim，Patrick Prez，and ChristianTheobalt. 250hz以上单目重建的自我监督多层次人脸模型学习。在CVPR，2018年6月。2[34] Justus Thies ， Michael Zollhofer ， Marc Stamminger ，Chris- tian Theobalt，and Matthias Nießner. Face2face：实时人脸捕捉和rgb视频重现。CVPR，第2387-2395页，2016年2[35] AnhTuanTran ， TalHassner ， IacopoMasi ， andGe´rardMedioni.使用深度神经网络回归稳健且有区别的3d可变形模型。见CVPR，第1493-1502页。IEEE，2017年。一、二、七[36] Anh

下载后可阅读完整内容，剩余1页未读，立即下载