基于卷积网格自动编码器的3D面部生成模型

173 浏览量更新于2023-10-13 收藏 1.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

使用卷积网格自动编码器生成3D面Anurag Ranjan，Timo Bolkart，Soubhik Sanyal，and Michael J. 黑色德国马克斯·普朗克智能系统{aranjan，tbolkart，ssanyal，black} @ tuebingen.mpg.de抽象。人脸的学习3D表示对于计算机视觉问题是有用的，例如从图像的3D人脸跟踪和重建，以及图形应用，例如角色生成和动画。传统模型使用线性子空间或高阶张量泛化来学习人脸的潜在表示。由于这种线性，它们不能捕捉极端的变形和非线性的表达。为了解决这个问题，我们引入了一个通用的模型，学习一个非线性表示的脸使用频谱卷积的网格表面。我们引入网格采样操作，使分层网格表示，捕获模型内的多个尺度的形状和表达的非线性变化在变分设置中，我们的模型从多变量高斯分布中采样不同的真实3D人脸。我们的训练数据由12个不同主题捕获的20，466个极端表情网格组成。尽管训练数据有限，但我们的训练模型优于最先进的人脸模型，重建误差降低50%，同时使用的参数减少75%我们表明，用我们的模型替换现有的最先进的人脸模型的表达空间，实现了较低的重建误差。我们的数据、模型和代码可在www.example.com上获得http://coma.is.tue.mpg.de/。1介绍人脸的形状是高度可变的，因为它受到诸如年龄、性别、种族等许多因素的影响并且随着表情显著变形现有技术的3D面部表示大多使用线性变换[41，28，42]或高阶张量概括[46，12，14]。这些3D人脸模型具有若干应用，包括人脸识别[40]、生成和动画化人脸[28]以及单眼3D人脸重建[44]。由于这些模型是线性的，因此它们不捕获由于极端面部表情引起的非线性变形。这些表情对于捕捉3D面部的真实感至关重要。同时，卷积神经网络（CNN）已经成为用于生成图像[22，35]、音频[34]等的丰富模型。其成功的原因之一归因于CNN的多尺度分层结构，其允许它们学习平移不变的局部特征。最近的工作已经探索了用于3D表示的体积卷积[8]但是，体积运算需要大量内存，并且仅限于低分辨率2放大图片作者：Anurag Ranjan，Timo Bolkart，SoubhikSanyal，Michael J.黑色3D体积。对3D网格上的卷积进行建模可以是存储器高效的并且允许处理高分辨率3D结构。然而，CNN在具有基于网格的结构化数据的欧几里得域中大多是成功的，并且CNN到网格的推广并不是微不足道的。将CNN扩展到图形结构和网格最近才引起了人们的极大关注[11，17，10]。CNN中的诸如最大池化和上采样之类的高级操作尚未适应于网格。此外，由于当前3D数据集的大小有限，因此在3D面部数据上训练CNN具有挑战性。现有的大规模数据集[14，16，50，49，38]不包含高分辨率的极端面部表情。为了解决这些问题，我们引入了一个卷积网格自动编码器（CoMA）与新的网格采样操作，保持在不同尺度的神经网络的网格特征的拓扑结构。我们遵循Defferrard等人的工作[17]关于使用快速切比雪夫滤波器来推广图上的卷积我们进行频谱分解的网格和应用卷积- lutions直接在频率空间。这使得卷积存储器高效且可行地处理高分辨率网格。我们结合卷积和采样操作，以卷积网格自动编码器的形式构建我们的模型。我们表明，CoMA比最先进的人脸模型在捕捉高度非线性的极端面部表情与更少的模型参数执行得更好在我们的模型中使用更少的参数使它更紧凑，更容易训练。参数的减少归因于可以在网格表面上共享的局部不变卷积滤波器。我们通过在多相机主动立体系统中捕获20，466个具有极端面部表情的高分辨率网格来解决数据限制的问题。我们的数据集涵盖了12个主题，执行12种不同的表达。表情被选择为复杂和不对称的，面部组织中具有显著的总之，我们的工作介绍了一种表示模型的网格表面上的变化，使用分层多尺度的方法，可以推广到其他3D网格处理应用。我们的主要贡献是：1）我们介绍了卷积网格自动编码器，其由网格下采样和网格上采样层组成，具有在网格表面上定义的快速局部卷积滤波器;2）我们表明我们的模型准确地表示3D人脸在低维潜在空间中，比在诸如[41，28，1，7，47]的现有技术面部模型中使用的PCA模型表现好50%; 3）我们的自动编码器使用的参数比线性PCA模型少75%，同时在重建误差方面更准确; 4）我们表明，用CoMA替换现有技术面部模型FLAME [28]的表达空间提高了其重建精度; 5）我们表明，我们的模型可以在变分设置中使用，以从已知的高斯分布中采样面部网格的多样性; 6）我们提供了来自12个不同主题的20，466帧复杂3D头部网格，用于一系列极端面部表情以及我们的代码和训练模型用于研究目的。使用卷积网格自动编码器32相关工作面表示。Blanz和Vetter [2]介绍了变形模型;基于主成分分析（PCA）的3D人脸的第一个通用表示，我们还建议读者参考Brunton et al.[13]全面概述了3D人脸表示。迄今为止，巴塞尔面部模型（BFM）[36]，即可变形模型的公开可用变体是中性表情中最广泛使用的3D人脸形状表示。Booth等人[3]最近提出了另一种线性中性表情3D人脸模型，该模型是从更多样化主题的近10，000张人脸扫描中学习的。用线性空间或其高阶一般化来表示面部表情仍然是现有技术。线性表达式基向量使用PCA [1，7，28，41，47]计算，或者使用线性融合变形（例如，[42，27，6]）。Yang等人。[47]使用多个PCA模型，每个表达一个，Amberg等人。[1]将中性形状PCA模型与来自中性形状的表达残差的PCA模型相在Face2Face框架中使用了具有额外反照率模型的类似模型[43]。最近发表的FLAME模型[28]还对头部旋转和具有线性混合蒙皮的偏航运动进行了建模，并获得了最先进的结果。Vlasic 等人 [46] 引入多线性模型，即，将 PCA 的高阶推广到modeleXpressive3D面。当然，我是说，我的朋友。[18]提供一种具有基于CNN的编码器和作为解码器的多线性模型的自动编码器。与我们的网格自动编码器相反，他们的编码器对深度图像进行操作，而不是直接对网格进行操作。对于所有这些方法，模型参数全局地影响形状;即，每个参数影响面网格的所有顶点然而，我们的卷积网格自动编码器由于卷积的分层多尺度性质与下采样和上采样相结合而对局部变化进行为了捕捉局部面部细节，Neumann等人[33]和Ferrari et al.[19]使用稀疏线性模型。Brunton等人[12]通过在小波系数上计算局部多线性模型来使用分层多尺度方法。Brunton et al.[12]也使用了分层多尺度表示，他们的方法不使用整个域的共享参数。注意，由于面部特征的局部性，在局部低维空间[12]中采样是困难的;局部面部特征的组合不太可能形成合理的全局面部形状。我们工作的一个目标是通过对潜在空间进行采样来生成新的人脸网格，因此我们设计了使用单个低维潜在空间的自动编码器。Jackson等人[25]在基于CNN的框架中使用体积人脸表示。与现有的人脸表示方法相比，我们的网格autoencoder使用卷积层来表示具有显着较少参数的人脸。由于它完全在网格空间上定义，因此我们没有影响用于表示3D模型的体积卷积方法的存储器约束。4放大图片作者：Anurag Ranjan，Timo Bolkart，SoubhikSanyal，Michael J.黑色卷积网络。Bronstein等人[10]全面概述了CNN在非欧几里德域上的推广，包括网格和图形。Masci等人[31]通过使用测地极坐标对每个点周围的表面进行局部参数化来定义第一网格卷积，并在所得到的角仓上定义卷积在后续工作中，Boscaini et al.[5]使用各向异性热核参数化每个点周围的局部固有补丁Monti等人[32]引入D维伪坐标，其利用权重函数定义对于权重函数的特定选择，该方法类似于[31]和[5]的固有网格卷积。相比之下，蒙蒂埃尔al。[32]使用具有可训练均值向量和协方差矩阵的高斯核作为权重函数。Verma等人[45]在图上呈现动态滤波，其中滤波器权重取决于输入。这项工作并不侧重于减少图形或网格的维数。Yi等人[48]还提出了一种用于标记节点的谱CNN辛哈等人[39] Maron et al. [30]将网格表面嵌入到平面图像中以应用常规CNN。辛哈等人使用一个强大的球面参数化投影到一个八面体，然后切割和展开，形成一个正方形的图像表面。Maron等人[30]引入从网格表面到平坦环面的保角映射。Litani等人[29]使用图形卷积来完成形状。尽管上述方法给出了网格上卷积的一般化，但是它们不使用将网格减少到低维空间的结构。我们提出的自动编码器通过将网格卷积与高效的网格下采样和网格上采样算子相结合来有效地处理这些问题。Bruna等人[11]通过利用图拉普拉斯算子和傅立叶基的连接，提出了CNN在图上的第一次推广（更多细节见第3节）。这导致谱滤波器，其推广图卷积。Boscaini等人[4]使用加窗傅立叶变换来扩展此以在频率空间中定位。Henaff等人[24]以布鲁纳等人的工作为基础。通过增加一个过程来估计图的结构。为了降低谱图卷积的计算复杂度，Defferrard et al.[17]通过截断切比雪夫多项式来近似谱滤波器，这避免了显式计算拉普拉斯特征向量，并为图引入了有效的池化算子。Kipf和Welling [26]仅使用一阶切比雪夫多项式简化了这一点。然而，这些图CNN不直接应用于3D网格。CoMA使用截断切比雪夫多项式[17]作为网格卷积。此外，我们定义了网格下采样和上采样层，以获得一个完整的网格自动编码器结构，以表示高度复杂的3D人脸，获得最先进的3D人脸建模的结果。使用卷积网格自动编码器5ΣΣΣ3网格操作员我们将3D面部网格定义为顶点和边的集合，F=（V，A），其中|= n个顶点，V ∈ Rn × 3。|= n vertices that lie in 3D Euclidean space,V ∈ Rn×3. 稀疏邻接矩阵A ∈ {0，1}n×n表示边连接，其中Aij= 1表示连接顶点i和j的边，否则Aij= 0。非规范化图拉普拉斯算子[15]定义为L = D − A，其中对角矩阵D表示V中每个顶点的度为Dii= j Aij。拉普拉斯算子通过傅立叶基U∈Rn×n（因为L是实对称矩阵）对角化为L = UΛUT，其中U = [u0，u1，.，un-1]是L的正交特征向量，且Λ =diag（[λ0，λ1，...，λn−1]）∈Rn×n是一个对角矩阵，其特征值为实非负。然后将网格顶点x∈Rn×3的图形傅里叶变换[15]定义为xω=UTx，并且将逆傅里叶变换定义为x=Uxω。3.1快速谱卷积在傅立叶空间中，卷积算子可以定义为Hadamard乘积，x∈y=U（（UTx）∈（UTy））.这在大量顶点的情况下在计算上是昂贵的，因为U不是稀疏的。该问题通过使用递归切比雪夫多项式[17，23]用具有核gθ的滤波器gθ被参数化为K阶切比雪夫多项式，由下式给出K−1gθ（L）=θkTk（L~），（1）k=0当L~=2L/λmax−In是空间Laplacian时，参数θ∈RK是切比雪夫系数的向量，Tk∈ Rn×n是k阶切比雪夫多项式，可以递归计算为Tk（x）= 2 xTk−1（x）−Tk−2（x），其中T0= 1，T1= x。光谱卷积可以定义为[17]F在yj=gθi=1i、j（L）xi∈Rn，（2）其中yj计算y∈Rn×Fout的第j个特征。输入x∈Rn×Fin有Fin特征。输入面网格具有对应于其3D顶点位置的Fin= 3个特征每个卷积层具有切比雪夫系数的Fin×Fout向量，θi，j∈RK，作为可训练参数。3.2网格采样为了同时捕获全局和局部上下文，我们寻求网格的层次多尺度表示。这允许卷积核捕获网络的浅层中的局部上下文和更深层中的全局上下文。为了解决这个表示问题，我们引入网格6放大图片作者：Anurag Ranjan，Timo Bolkart，SoubhikSanyal，Michael J.黑色˜˜图1.一、网格采样操作：通过移除使二次误差最小化的红色顶点来对网格特征（a）进行下采样[20]。我们存储红色顶点的重心坐标w.r.t.下采样网格（b）。然后可以使用卷积运算来变换下采样的网格以获得变换的网格（c）。然后在重心位置（d）处添加收缩顶点。采样算子，其定义神经网络中的网格特征的下采样和上采样。具有n个顶点的网格特征可以使用n×F张量来表示，其中F是每个顶点的维数。3D网格用F= 3表示。然而，对网格应用卷积可能会导致具有不同维度的特征。网格采样操作在每一层定义一个新的拓扑结构，并保持邻域顶点的上下文。我们现在描述我们的采样方法，概述如图1所示。我们使用变换矩阵Qd∈ {0， 1}n×m对具有m个顶点的网格执行网络内下采样，并且使用Qu∈Rm×n（其中m > n）执行上采样。通过迭代地收缩顶点对来获得下采样，所述顶点对使用二次矩阵[20]来维持表面误差近似。在图1（a）中，红色顶点在下采样操作期间收缩。下采样后的（蓝色）顶点是原始网格顶点VdV的子集。每个权重Qd（p，q）∈ {0， 1}表示在下采样期间第q个顶点是被保留，Qd（p，q）= 1，还是被丢弃，其中Qd（p，q）= 0，由于无损下采样和上采样对于一般表面是不可行的，因此在下采样期间构建上采样矩阵下采样期间保留的顶点（蓝色）进行卷积变换，见图1（c）。这些（蓝色）顶点在上采样Qu（q，p）= l期间被保留当且仅当Qd（p，q）= l时。使用重心坐标将在下采样期间丢弃的顶点vq∈ V（红色顶点）（其中Qd（p，q）= 0 p）映射到下采样的网格表面。如图1（b）-1（d）所示，这是通过将vq投影到下采样网格中的最接近的三角形（i，j，k）（由vp表示）中，并且计算重心坐标vp= wivi+ wjvj+ wkvk，使得vi，vj，vk∈Vd并且wi+ wj+ wk= 1来完成的。然后在Qu中将权重更新为Qu（q，i）=wi，Qu（q，j）=wi，以及Qu（q，k）=wi，k，以及Qu（q，l）= 0。使用稀疏矩阵乘法获得具有顶点Vu的上采样网格，Vu=QuVd。使用卷积网格自动编码器7图二.卷积网格自动编码器：红色和蓝色箭头分别指示下采样和上采样层。4网格自动编码器网络架构。我们的自动编码器由编码器和解码器组成。编码器的结构如表1所示。编码器由4个Chebyshev卷积滤波器组成，其中K=6个Chebyshev多项式。每个卷积之后都是有偏的ReLU [21]。下采样层在卷积层之间交织。每个下采样层将网格顶点的数量减少约4倍。编码器在最后使用全连接层将人脸网格从Rn×3转换为8维特征向量解码器的结构如表2所示。解码器类似地由一个全连接层组成，该层从R8转换潜向量到R20×32，可以进一步上采样以重建网格。在解码器的完整采样层之后，具有完整上采样层的4个卷积层每个卷积之后都是类似于编码器网络的有偏ReLU。每个上采样层将顶点数增加约4倍。图2显示了我们的网格自动编码器的完整结构。培训详情。我们训练了300个epoch的自动编码器，学习率为8 e-3，每个epoch的学习率衰减为0.99我们使用动量为0.9的随机梯度下降来优化预测网格之间的L1损失表1. 编码器架构解码器架构层输入大小输出大小层输入大小输出大小卷积5023 ×35023 ×16完全连接820 ×32下采样5023 ×161256 ×16上采样20 ×3279 ×32卷积1256 ×161256 ×16卷积79 ×3279 ×32下采样1256 ×16314 ×16上采样79 ×32314 ×32卷积314 ×16314 ×16卷积314 ×32314 ×16下采样314 ×1679 ×16上采样314 ×161256 ×16卷积79 ×1679 ×32卷积1256 ×161256 ×16下采样79 ×3220 ×32上采样1256 ×165023 ×16完全连接20 ×328卷积5023 ×165023 ×38放大图片作者：Anurag Ranjan，Timo Bolkart，SoubhikSanyal，Michael J.黑色图3.第三章。从平均面周围的网格自动编码器的潜在空间采样沿着3个不同分量j= 0顶点和地面真实样本。我们使用5e-4的权重衰减对网络的权重使用L1正则化。卷积使用K= 6的切比雪夫滤波。5实验在本节中，我们评估了CoMA在极端面部表情数据集上的有效性。我们证明了CoMA允许通过从第5.2节中的潜在空间中采样来合成新的表达面，包括添加变分损失的效果。接下来，我们将CoMA与广泛使用的PCA表示进行比较，以重建富有表现力的3D人脸。为此，我们在第5.3节中评估了重建与训练数据相似的数据的能力（插值实验），以及重建训练期间未看到的表达式的能力（外推实验）。最后，在第5.4节中，我们通过用我们的自动编码器替换最先进的人脸模型FLAME [28]5.1面部表情数据集我们的数据集包括12类极端的表达，从12个不同的主题。这些表达是复杂和不对称的。在我们的数据集中的表情序列是使用卷积网格自动编码器9见图4。使用具有变分损失（底部）和不具有- out（顶部）的高斯噪声进行采样。在w_kld= 0的情况下，潜在表示可能不具有高斯分布。因此，顶部的样品不是多样的。向上、嘴向下、嘴极端、嘴中间、嘴侧和嘴向上。我们在补充材料中显示了来自数据集的样本和每个捕获序列的帧数。数据是用多相机主动立体系统（3dMD LLC，Atlanta）以60fps捕获的，该系统具有六个立体相机对、五个散斑投影仪和六个彩色相机。我们的数据集包含20，466个3D网格，每个网格约有120，000个顶点。使用顺序网格配准方法[28]对数据进行预处理，以将数据维度减少到5023个顶点。5.2对潜在空间进行设E为编码器，D为解码器。我们首先在潜在空间中从我们的测试集中编码人脸网格以获得特征z=E （F）。然后，我们改变该atentvect的每个分量，或者为z〜i=zi+。我们使用所述解码器来将所述平面电视转换为平面电视结构，其中F~=D（z~）。在图3中，我们示出了从潜在空间采样的人脸网格的多样性在这里，我们沿着不同的维度将潜在向量扩展或收缩0.3 suchth，z=（1+0）。3j）zi，其中rej是tep。在Figure3中，j∈[−4，4]，平均面F显示在行的中间补充材料中显示了更多示例变分卷积网格自动编码器。虽然3D人脸可以从我们的卷积网格自动编码器中采样，但潜在空间的分布是未知的。因此，采样需要在该空间中编码网格为了约束潜在空间的分布，我们在我们的模型上添加了变分损失设E是编码器，D是解码器，并且z是面F的潜在表示。我们把损失降到最低，L= ||F − D （ z ） ||1+ wkldKL （ N （ 0 ， 1 ） ||Q （ z| F ））、（3）10放大图片作者：Anurag Ranjan，Timo Bolkart，SoubhikSanyal，Michael J.黑色(a)（b）第（1）款图五.内插（a）和外插（b）实验其中w_kld= 0。001加权KL散度损失。第一项使L1重构误差最小化，第二项在潜在向量Q（z）的分布上强制具有零均值的单位高斯先验N（0， 1）这强制潜在空间成为多变量高斯。在图4中，我们通过在[−3 σ，3 σ ]内的该空间上从高斯分布中采样人脸来显示可视化，其中σ = 1，是高斯先验的方差。我们通过设置wkld= 0来比较可视化。我们观察到，wkld= 0不对P（z）强制任何高斯先验，并且因此用来自该分布的高斯噪声进行采样导致面网格中的有限多样性我们在补充材料中展示了更多的5.3与PCA空间的几种人脸模型使用PCA空间来表示身份和表情变化[41，28，1，7，47]。我们进行插值和外推实验来评估我们的性能。我们使用Scikit-learn [37]来计算PCA系数。我们始终使用8维潜在空间来使用PCA模型和Mesh Autoencoder对人脸网格进行编码。插值实验。为了评估自动编码器的插值能力，我们以9：1的比例将数据集分为训练样本和测试样本测试样本通过在序列中均匀随机地挑选长度为10的连续帧来获得我们训练CoMA 300个epoch，并在测试集上对其我们使用欧氏距离与PCA方法进行比较具有标准偏差的平均误差和中值误差示于表3中以用于比较。我们观察到，我们的重建误差比PCA低50%。同时，如表3所示，CoMA中的参数数量比PCA模型少约75%。对图6中的定性结果的视觉检查表明，我们的重建更真实，并且在以下方面是有效的：使用卷积网格自动编码器11见图6。与PCA比较：插值实验的定性结果捕捉极端的面部表情我们还在图5a中示出了累积误差的直方图我们观察到，我们的网格自动编码器（CoMA）在1 mm的欧氏误差内有大约72.6%的顶点，而PCA模型的这一比例为47.3%。外推实验。为了衡量我们的模型的泛化，我们将CoMA的性能与PCA模型和FLAME [28]进行了比较。为了比较，我们在我们的数据集上训练FLAME的表达模型。FLAME重建获得的潜在向量大小为16，8个组件，每个用于编码身份和表达。使用PCA模型和Mesh自动编码器编码的潜在向量的大小为8。为了评估我们的模型的泛化能力，我们重建了我们的模型完全看不见的表达式。我们进行了12个不同的实验进行评估。对于每个实验，我们通过从数据集的所有受试者中完全排除一个表达集来分割我们的数据集。我们在排除的表达式上测试网格自动编码器我们使用欧氏距离（平均值，标准差，中位数）将我们的模型与PCA和FLAME的性能进行我们执行12折交叉验证，每一12放大图片作者：Anurag Ranjan，Timo Bolkart，SoubhikSanyal，Michael J.黑色表3.与PCA比较：插值实验。误差单位为毫米平均误差中位误差#参数PCA1.639 ±1.6381.101120,552网格自动编码器0.845 ±0.9940.49633,856表4.与PCA比较：外推实验。误差单位为毫米。序列网格自动编码器平均误差中位数PCA平均误差中位数火焰[28]平均误差中位数光着牙齿1.376±1.536 0.856 1.957±1.8881.3352.002±1.4561.606脸颊1.288±1.501 0.794 1.854±1.9061.1792.011±1.4681.609眉1.053±1.088 0.706 1.609±1.5351.0901.862±1.3421.516high笑1.205±1.252 0.772 1.841±1.8311.2461960 ± 13701.625唇后1.193±1.476 0.708 1.842±1.9471.1982.047±1.4851.639唇1.081±1.192 0.656 1.788±1.7641.2161.983±1.4271.616嘴朝下1.050±1.183 0.654 1.618±1.5941.1052.029±1.4541.651口端1.336±1.820 0.738 2.011±2.4051.2242.028±1.4641.613口中部1.017±1.192 0.610 1.697±1.7151.1332.043±1.4961.620张着嘴0.961±1.127 0.583 1.612±1.7281.0601.894±1.4221.544口侧1.264±1.611 0.730 1.894±2.2741.1322.090±1.5101.659嘴角上扬1.097±1.212 0.683 1.710±1.6801.1592.067±1.4851.680表达式如表4所示。在表4中，我们还表明我们的模型在所有表达序列上的表现优于PCA和FLAME [28]我们在图7中示出了定性结果。我们在图5b中示出了累积欧几里得误差直方图。对于1 mm的精度，MeshAutoencoder捕获63.8%的顶点，而PCA模型捕获45%。5.4焱渊FLAME [28]是用于面部表示的最新模型，其将用于头部和下颌运动的线性混合皮肤与线性PCA空间相结合以表示身份和表情形状变化。为了改善FLAME的重建误差，我们用我们的自动编码器替换了FLAME的PCA表达空间我们通过改变用于编码的潜在向量的大小来比较DeepFLAME与FLAME的性能。头部旋转的因素进行比较，因为他们是很好的线性blendskinning在FLAME建模，我们只考虑表达空间。重建精度的测量使用欧几里德距离度量。我们在表5中显示了比较DeepFLAME的中值重建对于所有选择的潜在空间维度都较低，而平均重建误差对于多达12个潜在变量都较低。这表明DeepFLAME提供了更紧凑的面部表示;即，用更少的潜在变量捕获更多的形状变化使用卷积网格自动编码器13见图7。与PCA比较：外推实验的定性结果5.5讨论CoMA的重点是为重建应用建模面部形状Laplace-Beltrami算子（LBo）描述了内在的表面几何形状，并且在等距表面变形下是不变的。LBo的这种等距不变性对于形状匹配和配准是有益的。由于面部表情的变化接近等距变形[9，第13.3节]，因此将LBo应用于表情面部将导致大多数表情相关形状变化的丢失与LBo相比，CoMA使用的图拉普拉斯算子不是等距不变的。虽然我们评估的CoMA面形状，它适用于任何类别的对象。然而，与现有的统计模型类似，它要求所有网格在密集的顶点对应;即所有网格需要共享相同的拓扑。未来的研究方向是直接从原始数据中学习3D人脸表示。3D面部扫描或2D图像，无需顶点对应。14放大图片作者：Anurag Ranjan，Timo Bolkart，SoubhikSanyal，Michael J.黑色表5. FLAME和DeepFLAME的比较。DeepFLAME是用CoMA代替FLAME的表达模型所有误差均以毫米为单位。焱渊火焰[28]#dim ofz平均误差中位数平均误差中位数20.610±0.8510.3170.668±0.876 0.37140.509±0.7460.2350.589±0.803 0.30560.464±0.7110.1960.525±0.743 0.25280.432±0.6810.1690.477±0.691 0.217100.421±0.6640.1620.439±0.655 0.193120.388±0.6300.1390.403±0.604 0.172140.371±0.6050.1280.371±0.5670.152160.372±0.6110.1250.351±0.5430.139与其他基于深度学习的模型一样，CoMA的性能可以通过更多的训练数据进一步提高。现有数量然而，3D人脸数据非常有限。数据稀缺性特别限制了我们的表达模型在更高潜在空间维度（>12，参见表5）上优于现有模型。我们预测在更大的数据集上具有更高的质量，并计划在未来对更多的数据进行CoMA由于CoMA是一种端到端的训练模型，它也可以与一些现有的图像卷积网络相结合，从2D图像中回归3D人脸形状我们将在今后的工作中探讨这一点。6结论我们介绍了CoMA，一种新的表示不同形状和表达的3D人脸我们将CoMA设计为分层的多尺度表示，以捕获多个尺度的全局和局部形状和表达变化。为此，我们引入了新的采样操作，并将其与自动编码器网络中的快速图形卷积相结合。在网格表面上共享的局部不变滤波器显著减少了网络中的滤波器参数的数量，并且非线性激活函数捕获极端的面部表情。我们在极端3D面部表情的数据集上评估了CoMA，我们将与训练模型一起公开用于研究目的我们发现，CoMA在3D人脸重建应用中显着优于最先进的模型，同时使用75%的模型参数。在插值实验中，CoMA比线性PCA模型的性能高出50%，并且在完全看不见的面部表情上更好地泛化我们进一步证明，在变分设置的CoMA允许我们通过采样的潜在空间来合成新的表情。A cknowldgemmentWethankT. 我的意思是，我的意思是，M'arquezforordataaquisition;H. Feng用于呈现附图; S.Wuhrer关于网格卷积的建议;以及G. Pavlakos，D.Paschalidou和S.帮我们修改论文。使用卷积网格自动编码器15引用1. Amberg，B.，诺特河Vetter，T.：表情不变的三维人脸识别与变形模型。在：自动面部手势识别国际会议上. pp. 第一2. Blanz，V.，Vetter，T.：用于合成3D面的可变形模型。In：SIG-GRAPH. pp.1873. 布斯J Roussos，A.，Ponniah，A. Dunaway，D. Zafeiriou，S.：大型3D模型InternatonalJournalofComputerVisonpp. 14. Boscaini，D.Masci，J.，Melzi，S.，Bronstein，M.M.，卡斯特拉尼大学，Vandergheynst，P.：使用局部谱卷积网络学习可变形形状的类特定描述符在：欧洲图形学研讨会几何处理。pp. 135. B oscaini、D. ，Masci，J.， Rodola`，E.， Bron stein，M. ：Learning具有与各向异性卷积神经网络相关的性能。在：神经信息处理系统的进展。pp. 31896. Bouaziz ， S. ，王玉， Pauly ， M. ：实时面部动画的在线建模 ACMTransactions on Graphics 32（4），40（2013）7. Breidt，M.， Bülthoff，H. H、 Curio、C. ：通过3D面部运动的图像来实现机器视觉。在：自动面部和手势识别国际会议和工作站。pp. 7138. Brock，A.，Lim，T.，Ritchie，J.M.，Weston，N.：使用卷积神经网络的生成和判别arXiv预印本arXiv：1608.04236（2016）9. 布朗斯坦，上午，Bronstein，M.M.，Kimmel，R.：非刚性形状的数值几何。05 The Dog of the Woman（2008）10. Bronstein，M.M.，Bruna，J.，LeCun，Y.，Szlam，A.，Vandergheynst，P.：几何深度学习：超越了欧几里得数据。Signal Processing Magazine34（4），1811. Bruna，J.，Zaremba，W.，Szlam，A.，LeCun，Y.：图上的谱网络和局部连通网络。CoRR abs/1312.6203（2013）12. Brunton，A. Bolkart，T.，Wuhrer，S.：多线性小波：一种统计形状，用于模拟人脸。In：E uropea nCo nfere nceo nCom u p uterViso n。pp. 29713. Brunton，A. Salazar，A. Bolkart，T.，Wuhrer，S.：回顾3D数据的统计形状空间，并对人脸进行比较分析。ComputerVisionandImageUnderstanding128，114. Cao，C.，Weng，Y.，Zhou，S.，唐，Y.，Zhou，K.：Facewarehouse：一个用于视觉计算的三维人脸表情数据库。 Transactions on VisualizationandComputerGraphics20（3），41315. Chung，F.R.K.：谱图论号92，美国数学学会。（一九九七年）16. Cosker，D.，Krumhuber，E.，Hilton，A.：FACS有效的三维动态动作单元数据库及其在三维动态可变形面部建模中的应用 In ： Interna-tionalConfere nceo nCom puterVisio n.pp. 229617. Defferrard，M.，Bresson，X.，Vandergheynst，P.：具有快速局部谱滤波的图上卷积神经网络在：神经信息处理系统的进展。pp. 384418. FernandezA.， V. 是啊S ，Boyer，E. ：用于3D F a c e Md e lL e a rn g的M uti linearAutoenc oder。 In：WinterConferenceonAp pl i catonsofComuterVison。pp. 2018年116放大图片作者：Anurag Ranjan，Timo Bolkart，SoubhikSanyal，Michael J.黑色19. Ferrari，C.，Lisanti，G.，Berretti，S.，Bimbo，A. D.：基于字典学习的3D形变模型构造及其在表情和姿势变化人脸识别中的应用在：在3D V中输入所有的元素。pp. 第50920. Garland，M.Heckbert，P.S.：使用二次误差度量的曲面简化第24届计算机图形学和交互式技术年会论文集。 pp. 209ACMPRS/AD Diso n-WesleyP u bl is hi ngCo.（一九九七年）21. Glorot，X.，Bordes，A.，Bengio，Y.：深度稀疏整流神经网络。第十四届人工智能与统计国际会议（2011年）22. 古德费洛岛Pouget-Abadie，J. Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A.Bengio，Y.：生成性对抗网。In：Advances inneural in Formalin ProocessSystems.pp. 267223. Hammond，D.K.，Vandergheynst，P.，Gribonval，R.：基于谱图论的图上的小波应用和计算谐波分析30（2）（2011）24. Henaff，M.，Bruna，J.，LeCun，Y.：图结构数据上的深度卷积网络CoRR abs/1506.05163（2015）25. Jackson，A.S. Bulat，A.，Argyriou，V. Tzimiropoulos，G.：通过直接体积CNN回归从单个图像进行大姿态3D人脸重建。国际计算机视觉会议（2017）26. 基普夫T.N. Welling，M.：基于图卷积网络的半监督分类。国际学习代表大会（2016）27. Li，H.，Weise，T.，Pauly，M.：基于示例的面部操纵29（4），32（2010）28. Li，T.，Bolkart，T.，布莱克，MJ Li，H.，Romero，J.：从4D扫描中学习面部形状和表情ACM Transactions on Graphics 36（6）（2017）29. Litany，O.，Bronstein，A.，Bronstein，M.，Makadia，A.：可变形的形状完成与图形卷积自动编码器。 arXiv 预印本 arXiv ： 1712.00268（2017）30. Maron，H. Galun，M.，Aigerman，N.特鲁普，M. Dym，N.，Yumer，E.，Kim，V.G.，Lipman，Y.：通过无缝复曲面覆盖的曲面上的卷积神经网络。ACMTransacti onsonGraphics36（4），71：131. Masci，J.，Boscaini，D.Bronstein，M.，Vandergheynst，P.：黎曼流形上的测地线卷积神经网络In：International Conference on ComputterVis ionWorks hops.pp. 3732. M 〇nti，F.， Boscaini、D. ，M asci，J

下载后可阅读完整内容，剩余1页未读，立即下载