三维几何数据的可变形模型：基于螺旋卷积网络的形状学习与生成

89 浏览量更新于2023-10-13 收藏 1.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7213神经3D可变形模型：用于3D形状表示学习和生成的螺旋卷积网络GiorgosBouritsas 1 Sergiy Bokhnyak*2 Stylianos Ploumpis1，3 MichaelBronstein1，2，4 Stefanos Zafeiriou1，3Imperial College London，UK1 Universita Svizzera Italiana，Switzerland2 FaceSoft.io3 Twitter41{g.bouritsas18，s.ploumpis，m.bronstein，s.zafeiriou}@ imperial.ac.uk2bokhns@usi.ch摘要三维几何数据的生成模型出现在三维计算机视觉和图形学的许多重要应用中。在本文中，我们专注于共享一个共同的拓扑结构，如人脸和人体的三维可变形形状。可变形模型及其变体，尽管其线性公式化，但已广泛用于形状表示，而最近提出的大多数非线性方法诉诸于中间表示，诸如3D体素网格或2D视图。在这项工作中，我们引入了一种新的图形卷积算子，直接作用于3D网格，明确建模固定的基础图形的归纳偏差。这是通过螺旋算子对图的顶点执行一致的局部排序来实现的，从而打破了图神经网络的所有先前工作所采用的置换不变性。我们的算子来自具有理想属性（各向异性、拓扑感知、轻量级、易于优化）的构造，并且通过将其用作传统深度生成架构的构建块，与线性变形模型和其他图卷积算子相比，我们在各种3D形状数据集上展示了最先进的结果。1. 介绍深度学习在计算机视觉和图像分析、语音识别和自然语言处理方面的成功将卷积神经网络（CNN）等复杂架构推广到具有非欧几里得结构的数据（例如，流形和图）在伞式术语几何深度学习下是已知的[10]。在处理3D数据的应用程序中，几何深度学习的关键挑战是类似于以下操作的内在操作的有意义的定义：*同等贡献网格或点云上的卷积和池化直接在网格或点云数据上工作的众多优点之一是，可以将形状变换（刚性和非刚性）的不变性构建到架构中，因此允许使用显著更简单的模型和更少的训练数据。到目前为止，几何深度学习领域的研究主要集中在分析任务上，包括形状分类和分割[35，37]，局部描述符学习，对应和检索[31，9，27]。另一方面，在表示学习和生成几何数据（形状合成）方面的进展有限。当处理有限的标记训练数据时，获得网格和点云的描述性和紧凑的表示对于诸如分类和3D重建的下游任务是必不可少的此外，几何数据合成在诸如3D打印、计算机图形和动画、虚拟现实和游戏设计的应用中是关键的此外，考虑到获取高质量3D数据的高成本和时间，几何生成模型可以用作生成几何ML算法的训练数据的廉价替代方案在这个方向上的大多数先前方法依赖于3D形状的中间表示，例如点云[1]，体素[44]或到平坦域的映射[32，4]，而不是直接的表面表示，例如网格。尽管这些技术取得了成功，但它们要么遭受高计算复杂性（例如，体素）或缺乏数据表示的平滑性（例如，点云），而通常需要预处理和后处理步骤以便获得输出表面模型。在[25，38，43，22]中，仅在最近才探索了直接在网格上学习，分别用于形状完成、非线性面部变形模型构建和来自单个图像的在本文中，我们提出了一种新的表示学习和生成框架固定拓扑网格。为此，我们制定了一个基于排序的图卷积-7214图1：Neural3DMM架构图神经网络是一种新的置换不变算子，与图神经网络文献中的置换不变算子不同特别地，类似于图像卷积，对于网格上的每个顶点，我们对其邻居执行显式排序，允许邻居和可学习局部滤波器的参数之间的该命令是通过螺旋扫描获得的，如[24]中所提出的，因此操作器的名称为螺旋卷积。通过这种方式，我们获得各向异性滤波器，而不牺牲计算复杂性，同时我们明确编码的固定图连接。该算子可以潜在地推广到接受隐式局部排序的其他域，例如任意网格拓扑和点云，而它在本质上等同于传统的网格卷积。通过这种等价性，可以很容易地为网格制定常见的CNN实践，例如扩张卷积。我们使用螺旋卷积作为分层固有网格自动编码器的基本构建块，我们将其称为神经3D变形模型。我们在几个流行的数据集上定量评估了我们的方法：具有不同表情（COMA [38]）和身份（Mein3D [7]）的人脸以及具有形状和姿势变化（DFAUST [6]）的人体。我们的模型实现了最先进的重建结果，优于广泛使用的线性3D变形模型[5]和COMA自动编码器[38]，以及其他图形卷积算子，包括螺旋算子的初始公式[24]。我们还定性地评估我们的框架，在自动编码器的潜在空间中显示2. 相关工作任意形状的生成模型：也许用于生成任意形状的最常见的方法是作用于3D体素的体积CNN[45，36，28]。例如，已经提出了来自图像的体素回归[19]，去噪自动编码器[40]和体素GAN [44]体积方法的主要缺点是其固有的高计算复杂性，并且它们产生粗糙和冗余的表示。点云是一种简单而轻量级的替代体度量表示最近越来越受欢迎。已经提出了几种方法来使用PointNet [35] architec进行固定大小点云的表示学习[1]是的。在[46]中，可以通过2D网格变形来合成任意大小的点云。尽管它们的紧凑性，点云是不受欢迎的逼真和高质量的3D几何生成由于其缺乏一个底层的平滑结构。也已经提出了基于图像的方法，例如多视图[3]和平坦域映射，例如UV映射[32，4]，但是它们对计算要求很高，需要预处理和后处理步骤，并且通常产生不期望的伪影。还值得一提的是最近引入的基于隐式表面的方法[29，13，33]，其可以产生准确的结果，尽管具有推理缓慢的缺点（3D空间的密集采样，然后是行进立方体）。可变形模型：在可变形形状（例如脸、身体、手等）的情况下，其中固定拓扑可以通过建立与TEM的密集对应来尽管如此，最流行的方法仍然是简单的统计模型。对于人脸，基线是基于PCA的3D变形模型（3DMM）[5]。大规模面部模型（LSFM）[7]被提出用于面部识别并公开提供，[12，23]被提出用于面部表情，而对于整个头部，大规模模型在[34]中提出。对于BodyHand，最知名的模型是基于蒙皮顶点的模型SMPL[26][39 ][ 39][ 39 ] SMPL和MANO是非线性的，需要（a）联合定位和（b）解决特殊的优化问题，以便将新的形状投影到模型的空间在本文中，我们采取了不同的方法，介绍了一个新的家庭可微变形模型，它可以应用于各种对象，具有强（即）。身体）和较弱（即，面）关节。我们的方法具有更好的代表性，也不需要任何额外的监督。几何深度学习是一组最近的方法，试图将神经网络推广到非欧几里得领域，如图形和流形[10]。如此的冰毒- ODS在几何处理和计算机图形学[27，9]、计算化学[16，18]和网络科学[21，31]中取得了有希望的结果。已经提出了多种方法来构建类似卷积的操作，包括谱方法[11，15，21，47]，基于局部制图的方法[27，9，31，17，24]和软注意力方法[41，42]。最后，已经提出了图或网格粗化技术[15，48]，相当于图像池。721512|R|13. 螺旋卷积网络3.1. 螺旋卷积对于下面的讨论，我们假设给定一个流形，离散为三角形网格 M = （ V ， E ， F ），其中 V={1，. . . ，n}，E和F分别表示顶点、边和面的集合。此外，令f：V-R，表示顶点特征的函数在图或流形上开发卷积类算子的关键挑战之一是缺乏可以与每个点相关联的全局坐标系统。第一个内在网格卷积架构，如GCNN [27] ，ACNN [9] 或MoNet[31]，通过在网格的每个顶点x周围构建局部坐标系u（x，y）克服了这个问题，其中一组局部加权函数w1，. . . ，w_L被应用于聚集来自邻域N（x）的顶点y的信息。这允许定义在图像中使用窗口过滤：以高计算复杂性和参数计数为代价，并且可能难以优化。此外，专门为网格设计的基于片算子的方法需要手工制作和预先计算局部坐标系。为此，在本文中，我们进行了关键观察，以克服上述方法的缺点：当处理固定拓扑网格时，不存在全局排序和对图形拓扑不敏感的问题是不相关的。特别地，可以对顶点进行局部排序并保持顺序固定。然后，图卷积可以定义如下：ΣL（f <$g）x= g<$f（x<$）.（二）=1其中，{x1，. . . 表示以固定方式排序的顶点X的邻居。这里，与贴片算子类似，每个贴片算子是单个相邻顶点。在欧几里德设置中，顺序只是一个补丁中像素的光栅在网格上，我们选择一个简单的，（f g）x=ΣΣLg=1Σy∈N（x）f（x，y）（1）使用受[24]启发的螺旋轨迹进行直观排序。设x∈ V是网格顶点，Rd（x）是d-环，I.E. 一个有序的顶点集，其最短（图）路径到x正好是d跳长;Rd（x）表示其中y∈N（x）w（u（x，y））f（y）是Jd-环（通常，R0（x）=x）.我们定义螺旋补丁tal），f类似于图像中的像素强度，g是滤波器权重缺乏全局坐标系的问题等价于缺乏顶点的规范排序，并且基于补丁算子的方法也可以被解释为注意力机制，如[41]和[42]中所述。特别是，没有秩序不允许1运算符作为有序序列S（x）={x，R1（x），R1（x），. . . ，Rhh}，（3）其中h表示补丁半径，类似于经典CNN中的核的大小。那么，螺旋卷积是：在相邻特征f（y）和滤波器权重g之间构造在欧几里德设置中，这样的算子沸腾（fg）x=ΣL=1gf.ΣS（x）.（四）下至经典卷积，因为可以经由全局坐标系获得排序。除了缺乏全局坐标系之外，当在网格上工作时，基于分块算子的方法的另一动机是需要对连续表面的网格化不敏感，即。理想情况下，每个补丁操作符应该独立于底层图形拓扑。的唯一性的排序是通过固定两个de-自由度：环的方向和第一顶点R1（x）。螺旋的其余顶点是归纳排序的。方向是通过顺时针或逆时针移动来选择的，而第一个顶点（参考点）的选择是基于形状的底层几何结构，以确保该方法的鲁棒性。特别地，我们在模板形状上固定一个参考顶点x0，并选择每个螺旋的初始点在到x0的最短测地线路径的方向上，即，R1（x）= arg mindM（x0，y），（5）1y∈R1（x）图2：网格和图像补丁上的螺旋排序然而，所有属于这个家族的方法，7216其中dM是网格M上的两个顶点之间的测地线距离。为了允许固定大小的螺旋，我们选择固定长度L作为超参数，然后根据螺旋的大小，对每个螺旋进行截断或零填充。与Limet al. [24]：作者随机选择每个螺旋的起始点，用于每个网格样本，每个顶点和训练期间的每个时期。这7217由于不同网格中的对应顶点将不经历相同的变换（如在图像卷积中），因此选择阻止我们明确地编码固定的连通性。此外，每次对新螺旋进行采样时，单个顶点也会经历因此，为了使网络获得对不同螺旋样本的鲁棒性，它不可避免地必须变得对邻域的不同旋转不变，因此它具有降低的容量。为此，我们强调需要在不同的网格一致的排序。此外，在[24]中，作者通过递归网络对螺旋上的顶点进行建模，该网络具有较高的计算复杂性，难以优化，并且没有利用3D形状的固定属性（局部统计在不同的补丁中重复），这是由我们的螺旋内核处理的。与光谱滤波器的比较：在[15，21]中开发的用于图形的谱卷积运算器和在[38]中用于网格自动编码器的谱卷积运算器遭受以下事实：固有各向同性。这是一个副作用，当一个人，在缺乏规范排序，需要设计具有少量参数的置换不变算子。特别地，光谱滤波器依赖于拉普拉斯算子，其执行相邻顶点的加权平均：图3：ChebNet与螺旋卷积螺旋形最后，我们在这里认为，我们的运营商可以应用到其他领域，如点云，其中可以强制执行的数据点的排序。3.2. 神经3D变形模型设F =[f0|f1|...， fN]，fi∈ Rd m是从分布D采样的密集对应的一组网格上定义的所有信号的矩阵，其中d是网格上的信号的维数（顶点位置、纹理等）。m是顶点数线性3D变形模型[5]通过做出高斯性假设，将任意实例y∈ D表示为F的协方差矩阵（f）x=Σy：（x，y）∈Ewxy.Σf（y）−f（x），（6）Σky≈f¯+我√（8）第一次见面其中wxy表示边权重。一次多项式r，具有可学习系数θ0，. . . ，θr然后应用于∆。然后，图卷积相当于对拉普拉斯特征值进行滤波，p（λ）= Φp（Λ）Φλ。等效：Σr（f*g）=p（∆）f= θ∆f，（7）=0虽然在一般图中是必要的邪恶，但网格上的谱滤波器是相当弱的，因为它们是局部旋转不变的。另一方面，螺旋卷积滤波器利用了这样一个事实，即在网格上，人们可以对邻居进行正则排序。因此，它们通过构造是各向异性的，并且如将在实验部分4中所示，它们通过仅使用一跳邻域来表达，与[38]中使用的大感受野相反。在图3中，我们从[38]（左）和h= 1（右）的螺旋卷积滤波器的架构中可视化了所选拉普拉斯多项式滤波器的脉冲响应（以前额上的顶点为中心）。最后，螺旋卷积与图像卷积允许使用计算机视觉社区中长期研究的实践。例如，可以使用小块，从而导致参数少和计算快。此外，扩张卷积[49]也可以通过简单地对螺旋算子进行子采样来适应螺旋算子。其中，f¯是平均形状，vi是第i个主成分，di是相应的特征值，αi是线性权重系数。考虑到其线性公式，代表性3DMM的功率受特征向量的跨度约束，而其参数相对于所使用的特征分量的数量线性地缩放，导致高分辨率网格的大参数化。相比之下，在本文中，我们使用螺旋卷积作为构建块来构建完全可微的非线性Mor- phable模型。本质上，神经3D变形模型是一个深度卷积网格自动编码器，它学习形状的几何表示。架构的图示可以在图1中找到。利用具有螺旋卷积滤波器的图的连通性，我们允许每个形状的局部处理，而模型的分层性质允许在多个尺度中学习。通过这种方式，我们可以学习语义上有意义的表示，并大大减少参数的数量此外，我们绕过了对数据分布进行假设的需要与传统的卷积自动编码器类似，我们分别针对编码器和解码器使用具有小接收域的一系列卷积层，然后进行池化和解池化，其中每次都获得网格的抽取或上采样版本，并且7218现有顶点的特征被聚集或外推。我们遵循[38]计算上采样后添加的顶点的特征，即。通过用重心坐标加权附近顶点的插值。通过最小化输入和预测输出之间的L13.3. 螺旋卷积GAN为了提高高分辨率网格的合成，从而增加了细节，我们扩展了我们的框架与分布匹配计划。特别是，我们提出了一个具有梯度惩罚的网格Wasserstein GAN [2]来执行Lipschitz约束[20]，该约束经过训练以最小化网格的实际分布与生成器网络产生的网格分布生成器和鉴别器的架构分别具有与Neural3DMM的解码器和编码器相同的结构。通过这个框架，我们获得了自动编码器固有的两个附加属性：高频细节和从潜在空间采样的直接方式。4. 评价在本节中，我们展示了我们提出的方法在各种形状数据集上的有效性我们进行了一系列的消融研究，以便通过使用相同的自动编码器架构将我们的算子与其他图神经网络进行首先，我们证明了与ChebNet（spec- tral）相比，螺旋卷积固有的更高容量此外，我们讨论了我们的方法相比，软注意力为基础的图神经网络，如补丁算子为基础的优势。最后，我们通过将我们的方法与[24]中提出的方法的不同变体进行此外，我们定量地表明，我们的方法可以产生比线性3DMM和COMA更好的表示，同时保持一个小的参数计数，并经常允许一个更紧凑的潜在表示。此外，我们继续通过向量空间算法生成新的例子，最后，我们评估我们内在的GAN，它的能力，以产生高分辨率的现实例子。对于所有的情况，我们选择从平均形状的归一化变形作为网格上的信号，即。对于每一个顶点，我们减去它的平均位置，然后除以标准差。以这种方式，我们鼓励信号平稳性，从而促进优化。该代码可在https://github.com/gbouritsas/neural3DMM上获得。4.1. 数据集昏迷来自Ranjanet al的面部表情数据集。[38]，由20K+3D扫描（5023个顶点）组成，独特的身份表演十二种极端的面部表情。我们使用与[38]中相同的数据分割。DFAUST 。来自 Bogoet al. [6] ，由 10个独特身份的40K+3D扫描（6890个顶点）组成，这些身份执行诸如腿部和手臂抬起、跳跃等动作。我们将数据随机分为5000，500验证和34，5K+训练的测试集。MeIn3D。Booth等人的3D大规模面部身份数据集。[8]，由超过10，000个不同的身份扫描组成，具有28K个顶点，覆盖了广泛的性别、种族和年龄。对于随后的实验，MeIn3D数据集在人口统计学约束内随机分割成9K训练网格和1K测试网格，以确保性别、种族和年龄差异。对于第4.3节和第4.4节的定量实验，使用的评估指标是泛化，其测量模型从与训练时相同的分布表示新形状的能力。更具体地，我们评估输入及其重建中的对应顶点之间的3D空间中的每个样本和每个顶点的平均欧氏距离（以毫米为单位）。4.2. 实现细节我们将h跳和w个滤波器的螺旋卷积表示为SC（h，w），将DS（p）和US（p）分别表示为因子p的下采样和上采样，将FC（d）表示为全连接层，将l表示为最后一个下采样层之后的顶点数量用于COMA 和DFAUST数据集的简单Neural3DMM如下：Enc：SC（1， 16）→DS（4）→SC（1， 16）→DS（4）→SC（1，16）→DS（4）→ SC（1，32）→DS（4）→ FC（ d）12月：FC（1.32）→US（4）→SC（1.32）→US（4）→SC（1，16）→美国（4） →SC（1，16）→美国（4）→SC（1，3）对于Mein 3D，由于高顶点数，我们修改了简单Neural 3DMM的COMA架构，分别在编码器和解码器中添加了额外的卷积和额外的下采样/上采样层（编码器滤波器大小：【8，16，16，32，32】，解码器：编码器的反射镜）。较大的Neural3DMM遵循上述架构，但具有增加的参数空间。对于COMA，编码器的卷积滤波器具有大小[64，64，64，128]，并且对于Mein3D，大小为[8，16，32，64，128]，而解码器是编码器的镜像。对于DFAUST，大小为[16，32，64，128]和[128，64，32，32，16]，并且对于第一和第二跳使用h= 2跳和扩张比r= 2的扩张卷积。最后两层的编码器和解码器分别。我们观察到，通过在最后添加额外的卷积（大小等于输入要素的大小（三）加快培训。我们所有的激活功能都是ELU[14]。我们的学习率是10−3，衰减为0。99后，每个时代，我们的重量衰减是7219图4：我们的Neural3DMM相对于基线的定量评估，包括泛化和参数数量5×10−5。所有模型都被训练了300个时期。图5：螺旋滤波器与ChebNet（光谱）滤波器4.3. 消融研究4.3.1各向同性卷积与各向异性卷积出于本实验的目的，我们使用了[38]作者部署的架构。在我们的情况下，参数的数量稍大，这是由于影响螺旋大小的直接邻居的范围从7到10，而[38]中使用的多项式高达拉普拉斯算子的6次幂。对于这两个数据集，如图5中清楚地示出的，根据在第3.1节中进行的分析，基于螺旋卷积的自动编码器对于每个潜在维度始终优于谱自动编码器。此外，增加潜在维度，我们的模型的性能以比其对应模型更高的速率增加。请注意，参数的数量会按比例变化与潜在大小增长的方式相同，但是螺旋模型更好地利用了添加的参数，特别是在维度16、32、64和128处。特别是在COMA数据集上，光谱模型似乎在64和128之间变平，而螺旋仍然明显下降。4.3.2螺旋与基于注意力的卷积在这个实验中，我们将我们的方法与某些最先进的基于软注意力的图神经网络进行比较：MoNet：[ 31 ]的基于块算子的模型，其中注意力权重是在伪坐标空间1上定义的高斯核的可学习参数，FeastNet [42]和GraphAttention [41]，其中注意力权重是输入特征的可学习函数。在表1中，我们提供了COMA数据集的结果，使用简单的Neural3DMM架构，潜在大小为16。我们选择注意力头部（[31]中的高斯核）的数量为9（等于我们方法中螺旋的大小，为了公平比较）或25（如[31]中所示）。以显示过度参数化的影响）。当涉及到类似数量的参数时，我们的方法管理优于其同行，而与过度参数化的软注意力网络相比，它要么优于它们，要么实现略差的性能。这表明螺旋算子可以更有效地利用可用的可学习参数，因此是基于注意力的方法的轻量级替代方案，而不会牺牲性能。此外，其公式允许快速计算;在表1中，我们以ms为单位测量每个网格的推理时间（在GeForce RTX 2080 TiGPU上）。4.3.3与Lim等人的比较[24日]为了展示当排序不一致时操作员的行为，我们在四种场景下进行实验：[ 24 ]的原始公式，其中1这里我们显示当选择伪坐标为局部笛卡尔坐标时获得的最佳结果。7220GATFeastNet莫奈我们内核925925925-误差0,7620,7320,7500,6230,7080,5830,635params50K101K49K98K48K95K48K时间12,7715,379,049,6610,5510,968,18表1：螺旋与软注意算子对于每个网格和每个时期（rand网格时期），每个螺旋随机定向;在每个时期（rand时期），在所有网格上随机选择相同的定向;对于每个网格选择不同的定向，但是在时期上保持它们固定（rand网格）;以及固定排序（Ours）。我们比较了基于LSTM的方法，[24]和我们的线性投影公式（等式（2））。实验设置和架构与前一节相同与[24]相比，所提出的方法实现了超过28%的性能改进，这证实了通过相同变换传递对应点的好处。操作随机网格历元随机网格兰德纪元固定排序LSTM0.888 [24]0.8800,9960.792是林书项目0.8290.8250.9510.635（我们的）表2：排序一致性4.4. 神经3D变形模型图 6 ： PCA （第二）， COMA （第三）和我们的Neural3DMM（底部）产生的重建的每顶点欧几里得误差的颜色编码第一行是地面实况。4.4.1定量结果在本节中，我们比较了用于潜在空间的不同维度的以下方法：PCA，3D Mor-phable模型[5]，COMA，基于ChebNet的网格自动编码器，Neural3DMM（小），我们的螺旋卷积自动编码器，与COMA，Neural3DMM（我们的），我们提出的Neural3DMM框架相同的架构，其中我们用更大的参数空间增强了我们的模型4.2）。基于PCA解释的方差（解释的方差约为总方差的85%、95%和99%）选择潜在大小。从图4中的图表可以看出，我们的Neu-ral 3DMM在测试的对于COMA和DFAUST数据集，所有分层内在架构在小潜在大小下的性能都优于PCA。这可能归因于这样的事实，即所使用的局部滤波器允许有效地重建形状的较小块，例如手臂和腿（对于DFAUST情况），而PCA尝试更全局的重建，因此其误差在整个形状上均匀分布。这在图6中很好地示出，其中我们比较了来自测试集（潜在大小16）的样本的示例性重建。可以清楚地看到，PCA优先考虑身体形状而不是姿势，从而导致身体部位处于错误的位置（例如，参见最左侧列上的女性的右腿相反，COMA将顶点放置在近似正确的位置，但很难恢复形状的细节，导致各种假象和变形;另一方面，我们的模型似乎平衡了这两个困难的任务，从而得到保持姿势和形状的高质量重建。与[38]相比，这里再次明显的是，我们的基于螺旋的自动编码器具有增加的容量，这与增加的参数空间一起，使得我们的更大的Neural3DMM在泛化和压缩方面以相当大的裕度优于其他方法。尽管事实上，对于更高的维度，PCA可以解释超过99%的总方差，从而使其成为一个难以击败的基线，但我们的更大模型仍然能够超越它。这里的主要优点是我们使用的参数数量少得多。这在MeIn3D数据集的比较中清楚地看到，其中大的顶点计数使得非局部方法如PCA不切实际。这里有必要指出，较大的潜在空间大小对于自动编码器来说不一定是期望的，因为它们可能导致下游任务的语义上有意义和有区别的表示。4.4.2定性结果在这里，我们通过测试模型在其潜在空间中执行线性代数的能力来评估模型的表示能力。插值图7：我们从测试集中选择两个足够不同的样本x1和x2，将它们编码为7221潜在表示Z1和Z2，然后通过对连接它们的线进行采样来产生中间编码，即，z=az1+（1−a）z2，其中a∈（0，1）。图7：表达式和恒等式外推图8：类似地，我们解码驻留在由z1和z2定义的线上但在相应线段之外的潜在表示，即， e.z=a<$z1+ （ 1−a ） <$z2 ，其中 a ∈ （ −∞ ， 0 ）<$（1，+∞）。我们选择z1作为COMA的中性表达式和DFAUST的中性姿态，以展示形状上的特定特征的夸张。图8：外推。左：中性表情/姿势形状类比图9：我们选择三个网格A，B，C，并构造一个D，使其满足A：B：：C：D，使用潜在空间中的线性代数，如[30]：e（B）−e（A）=e（D）−e（C）（e（*）编码），然后求解e（D）并解码。我们把一个特定的字符-使用我们数据集中的网格进行特征分析。图9：MeIn3D和DFAUST4.5. GAN评估在图10中，我们从经过训练的生成器的潜在分布中采样了几张脸。请注意，它们看起来很真实，并且根据数据集，在种族，性别和年龄方面，跨越了人脸的真实分布的很大一部分与最流行的面部合成方法相似，I.E.在3DMM中，我们的模型学习在面部结构上产生精细的细节，使得它们难以与真实的3D扫描区分开，而3DMM虽然产生平滑的表面，但经常使得很容易区分真实和人工产生的样本之间的差异。我们引导读者到补充材料，以与从3DMM的潜在空间中提取的样本进行比较图10：从我们固有的3D GAN5. 结论在本文中，我们介绍了一种表示学习和生成框架固定拓扑3D可变形形状，通过使用网格卷积算子，螺旋卷积，有效地编码的固定拓扑的归纳偏差。我们展示了该算子的固有代表性，以及其降低的计算复杂性，与以前的工作相比，图卷积算子，并表明我们的网格自动编码器实现了最先进的结果，在网格重建。最后，我们提出了我们的模型的生成能力，通过向量空间算法，以及通过合成新的fac- cial身份。关于未来的工作，我们计划将我们的框架扩展到任意拓扑的一般图形和3D形状，以及其他具有隐式排序原语（如点云）能力的域6. 确认本研究得到了 ERC Consolidator Grant No. 724228（LEMAN），谷歌研究学院奖和皇家学会沃尔夫森研究奖。G. Bouritsas是由伦敦帝国理工学院计算机系博士奖学金资助的。博士Zafeiriou感谢Google Faculty奖和EPSRC Fellowship Deform（EP/S 010203/1）的支持S. Ploumpis由EPSRC项目（EP/N 007743/1）FACER 2VM支持7222引用[1] Panos Achlioptas，Olga Diamanti，Ioannis Mitliagkas，and Leonidas Guibas.三维点云的学习表示与生成模型国际机器学习会议，2018年。一、二[2] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein生成对抗网络在2017年第34届机器学习国际会议（ICML）上5[3] Amir Arsalan Soltani，Haibin Huang，Jiajun Wu，TejasD Kulkarni，and Joshua B Tenenbaum.利用深度生成网络通过建模多视图深度图和轮廓来合成3d在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。2[4] Heli Ben-Hamu 、 Haggai Maron 、 Itay Kezurer 、 GalAvineri 和 Yaron Lipman 。多图生成式曲面造型。SIGGRAPH Asia 2018 技术论文，第 215 页。 ACM ，2018。一、二[5] Volker Blanz，Thomas Vetter，et al.三维人脸合成的可变形模型。SIGGRAPH，1999年。二四七[6] Federica Bogo，Javier Romero，Gerard Pons-Moll，andMichael J.黑色. 动态浮士德：登记人体运动。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。二、五[7] James Booth 、 Anastasios Roussos 、 Allan Ponniah 、David Dunaway和Stefanos Zafeiriou。大规模三维变形模型。国际计算机视觉杂志（IJCV），2018年。2[8] James Booth、Anastasios Roussos、Stefanos Zafeiriou、Allan Ponniah和David Dunaway。从10，000张面孔中学习的3D变形模型IEEE计算机视觉和模式识别会议论文集（CVPR），2016。5[9] Da videBoscaini ， JonathanMasci ， EmanueleRodola` ，andMichael Bronstein.用各向异性卷积神经网络学习形状对应关系。神经信息处理系统进展（NIPS），2016年。一、二、三[10] Michael M Bronstein，Joan Bruna，Yann LeCun，ArthurSzlam，and Pierre Vandergheynst.几何深度学习：超越欧几里得数据。IEEE Signal Processing Magazine，34（4）：18-42，2017。一、二[11] Joan Bruna ， Wojciech Zaremba ， Arthur Szlam ， andYann Le- Cun.图上的谱网络和局部连通网络。国际学习表征会议（ International Conference on LearningRepresentations，ICLR），2014。2[12] 曹晨、翁彦林、周顺、童一英、周坤。Facewarehouse：用于视觉计算的三维面部表情数据库。 IEEE Transactions on Visualization and ComputerGraphics，2014。2[13] 陈志勤和张浩。学习生成式形状建模的隐式字段。CVPR，2019年。2[14] Djork-Arne 'Clevert ， Thomas Unterthiner ， and SeppHochre- iter.通过指数线性单元（elus）进行快速准确的深度网络学习。CoRR，2015年。5[15] Michae¨lDefferrard，XavierBresson，andPierreVandergheynst.具有快速局部谱滤波的图上卷积神经网络。神经信息处理系统进展，2016。二、四[16] DavidKDuvenaud 、 DougalMaclaurin 、 JorgeIparraguirre 、 Raf aelBombarell 、 Timoth yHirzel 、 Ala´nAspuru-Guzik和Ryan P Adams。用于学习分子指纹的图上卷积网络神经信息处理系统（NIPS）进展，2015年。2[17] Matthias Fey，Jan Eric Lenssen，Frank Weichert，Hein-richMüller. Splinecnn：使用连续b样条核的快速几何深度学习在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。2[18] Justin Gilmer、Samuel S Schoenholz、Patrick F Riley、Oriol Vinyals和George E Dahl。量子化学的神经信息传递。在2017年第34届机器学习国际会议（ICML）上2[19] Rohit Girdhar，David F Fouhey，Mikel Rodriguez，andAb-hinav Gupta.学习对象的可预测和生成矢量表示欧洲计算机视觉会议。施普林格，2016年。2[20] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。神经信息处理系统进展（NIPS），2017年。5[21] 托马斯·N Kipf和Max Welling。使用图卷积网络的半监督分类。国际学习表征会议（ICLR），2017年。二、四[22] Nikos Kolotouros Georgios Pavlakos和Kostas Dani- ilidis卷积网格回归用于单幅图像的人体形状重建。在CVPR，2019年。1[23] 李天野、蒂莫·博尔卡特、迈克尔。J.布莱克、郝莉、哈维尔·罗梅罗。从4D扫描中学习面部形状和表情的模型。美国计算机学会图形学报，（Proc. SIGGRAPHAsia），2017. 2[24] Isaak Lim，Alexander Dielen，Marcel Campen，and LeifKobbelt.非结构化三维网格上内在对应学习的一种简单方法。欧洲计算机视觉研讨会会议论文集（ EC-EC2010）CVW），2018年。二三四五六七[25] 或者 Litany ， Alex Bronstein ， Michael Bronstein 和Ameesh Makadia。可变形形状完成与图形卷积自动编码器。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第1886-1895页1[26] Matthew Loper、 Naureen Mahmood 、Javier Romero 、Gerard Pons-Moll和Michael J.黑色. SMPL：一个多人皮肤线性模型。ACM Trans. Graphics（Proc.SIGGRAPH Asia），34（6）：248：1-248：16，Oct.2015. 2[27] Jonathan Masci、Davide Boscaini、Michael Bronstein和Pierre Vandergheynst。测地线卷积神经网络-工作在黎曼流形上。在 IEEE 计算机视觉研讨会国际会议（ICCVW）的会议录中，第37-45页一、二、三[28] Daniel Maturana和Sebastian Scherer。Voxnet：用于实时对象识别的3D卷积神经网络72232015年IEEE，2015年。2[29] Lars Mescheder，Michael Oechsle，Michael Niemeyer，Se- bastian Nowozin ， and Andreas Geiger.Occupancynetworks ： Learning3dreconstructioninfunctionspace.CVPR，2019年。2[30] Tomas Mikolov 、 Ilya Sutskever 、 Kai Chen 、 Greg SCorrado和Jeff Dean。单词和短语的分布式表示及其组合性。神经信息处理系统进展（NIPS）2013. 8[31] Federico Monti ， Davide Boscaini ， Jonathan Masci ，Emanuele Rodola ， Jan Svoboda ， and Michael MBronstein.使用混合模型cnns对图和流

下载后可阅读完整内容，剩余1页未读，立即下载