三维形状变分自动编码器潜在解纠

201 浏览量更新于2023-10-25 收藏 1.57MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

18730IJIJIJIJ基于小批量特征交换的三维形状变分自动编码器潜在解纠缠Simone Foti Bongjin Koo Danail Stoyanov伦敦克拉克森大学学院s.foti@ cs.ucl.ac.uk图1.拟定方法的示意图描述左：选择任意标识特征，并通过在不同的3D形状之间交换特征来创建一小批顶点（Xij）。颜色代表身份。请注意，来自同一标识的特征具有相同的颜色。中心：3D-VAE（{E，G}）在其潜在表示zij =（zf|zc），其随后被解码进入X′ij。在这种情况下，f对应于鼻子。因此，虽然zf控制鼻子的形状，但zc控制其余部分的形状。脸上右：所有不同网格特征的视觉表示，我们试图获得一个解开的潜在表示。摘要在人脸和身体的3D生成模型中学习一个解开的，可解释的和结构化的潜在表示仍然是一个开放的问题。当需要对身份特征进行控制时，这个问题尤其严重在本文中，我们提出了一种直观而有效的自我监督的方法来训练一个三维形状变分自动编码器（VAE），鼓励解开潜在的身份特征表示。通过跨不同形状交换任意特征来管理小批量生成允许定义利用潜在表示中的已知差异和相似性的损失函数。在三维网格上进行的实验结果表明，现有的潜在解纠缠方法不能解决人脸和身体的身份特征。我们提出的该方法适当地简化了这些特征的生成，同时保持了良好的表示和重建能力。我们的代码和预训练模型可在github.com/simofoti/3DVAE-SwapDisentangled上获得。1. 介绍3D人脸和身体的生成是一项复杂的任务，具有多种潜在的应用，从电影和游戏制作到增强和虚拟现实，以及医疗保健应用。目前，生成过程要么由高技能的艺术家手动执行，要么涉及半自动化化身设计工具。尽管这些工具大大简化了设计过程，但由于底层生成模型的内在约束，它们通常在灵活性方面受到限制。18731els [17].Blendshapes [28 ， 31 ， 38] ， 3D morphablemod-ELS [5，25，33]，自动编码器[3，8，16，35]，和生成广告。对抗网络[1，7，15，24]是目前最常用的事实上，生成系数（或潜在变量）不仅缺乏任何语义意义，而且还会在输出形状中产生全局变化。为此，我们集中在3D形状创建的问题，通过强制解除纠缠之间的生成系数集控制的身份的字符。在[4，18，19]之后，我们将解纠缠的潜在表示定义为一个潜在单位的变化仅影响一个变异因子，而对其他因子的变化保持不变在人工智能社区[10，13，18，19，22]中，已经广泛研究了暴露其语义含义的数据的更多可解释和结构化的潜在表示，但这仍然是一个开放的问题，特别是对于3D形状的生成模型[3]。鉴于其卓越的表示能力、减少的参数数量和稳定的训练过程，我们决定将研究重点放在基于深度学习的生成模型上，特别是变分自编码器（VAE）上在该领域中，最近的工作试图解决3D形状的潜在解纠缠问题，并管理对身份和表达（或姿势）的解耦控制[1，3，8]，但他们仍然无法正确解纠缠身份特征。在家具的3D形状的生成方面已经取得了一些成功[29，43]，但是数据的结构可变性需要具有用于不同家具部件的多个编码器和解码器的复杂相比之下，我们的方法依赖于一个单一的VAE，它是通过管理小批量生成过程和额外的损失来训练的。我们的方法背后的直觉是，如果我们交换特征（例如鼻子，耳朵，腿，手臂等），以受控方式在输入数据上（图1，左），我们不仅先验地知道小批量中的哪些形状具有（不具有）相同的特征，而且我们还知道哪些形状是（不是）从相同的面部（身体）创建的。这些形状之间的差异和相似之处应该在潜在的表示中被捕获。因此，假设潜在变量的不同子集对应于不同的特征，我们可以划分潜在空间，并利用输入批次的结构来鼓励更分离、更可解释和更结构化的表示。为了构建能够生成3D网格的模型，我们定义了VAE架构扩展[16]。这种最先进的模型被证明是快速的，能够更好地捕捉3D网格的非线性表示尽管如此，网络的选择是任意的，我们希望我们的方法也适用于其他网络配置和运营商。尽管我们认为网格是我们的主要数据结构，但值得注意的是，通过提供不同特征的语义分割，我们的方法适用于基于体素或点云的生成模型。我们认为，所提出的方法的通用性在当前的几何深度学习领域中特别重要，其中3D卷积和池化算子的定义仍然是一个悬而未决的问题。概而言之，我们方法的主要贡献为：（i）基于特征交换的新的mini-mesh过程的定义，（ii）能够利用每个mini-batch内的形状差异和相似性的新颖损失函数的引入，以及（iii）能够从更可解释和结构化的潜在表示生成3D网格的3D-VAE的随后创建。2. 相关工作在本节中，我们首先讨论了现有的面部和身体的3D生成模型的工作，然后是基于自动编码器的生成模型的潜在解纠缠的最新方法。生成模型Blendshape由艺术家手动创建的模型在两个或多个手动选择的形状之间线性插入局部特征。这些模型是常见的消费级化身设计工具，被几个视频游戏引擎采用。尽管它们保证了对局部特征生成的控制，但它们是非常大的模型，通常只使用少数对象构建，并且只能提供非常有限的灵活性和表现力[17]。克服这些限制的广泛方法是依赖于线性统计3D可变形模型（3DMM）。这些模型基于3D形状群体的身份空间，并且通常通过在整个数据集上应用主成分分析（PCA）来构建。它们总是建立在这样的假设下，即形状在彼此之间注册，并且在密集的点对应中。这允许生成有意义的和形态上逼真的形状作为训练数据的线性该技术由[5]开创，并被许多研究人员进一步开发和采用[12]。有趣的是，[17]将面部划分为不同的局部块，并为每个区域训练PCA模型，以控制不同面部特征的生成然后通过约束优化实现新面孔的生成最近，[32，33]将多个3DMM组合以创建第一个组合的大规模全头部变形模型。特别是，通用头部模型（UHM）[33]将大规模面部模型（LSFM）[6]与LYHM头部模型[9]相结合，LSFM [ 6 ]是通过10，000名在[32]中，通过结合详细的耳朵模型，眼睛模型，18732和眼睛区域模型，以及嘴、牙齿、舌头和口腔内部的基本模型。在SEC中进一步详细说明4，鉴于UHM的高度多样性，我们决定在[33]中的头部上训练我们的人脸模型。基于PCA的模型和Blendshapes经常结合使用。例如，SMPL [28]从每个性别大约2000STAR [31]也使用了相同的方法，不仅创建了比[28]更逼真的姿势变形，而且还增加了10，000次额外扫描，以提高模型的泛化能力。鉴于其相对于其他最先进的方法具有更好的泛化能力，我们在STAR生成的形状上训练了我们的身体模型。最近，几何深度学习社区的进步允许在3D数据（如网格和点云）上有效地定义卷积[35]是基于图形卷积神经网络的3D人脸网格的第一个AE。该模型使用比最先进的基于PCA的模型少得多的参数来构建，并且显示出更低的重建误差以及对未见过的面部的更好的generalisation。随后引入了其他基于AE的架构，这些架构在不同的数据集上利用不同的卷积算子[3，8，26，44，46]。尽管这些模型具有出色的性能，但我们决定采用[16]的基础架构，该架构通过基于扩张螺旋卷积（即螺旋++卷积）定义更直观的卷积算子，进一步改进了以前的方法。另一种工作考虑生成对抗网络（GAN）而不是自动编码器。在[7]中提出了第一个在3D网格上操作的GAN，它允许将身份与表达生成因子分开。其他方法通常将3D形状映射到图像域，然后使用传统的2D卷积训练对抗网络[1，15，24]。GAN模型通常能够生成比自动编码器更详细和逼真的3D形状，但代价是更不稳定和难以训练。如前所述，在SEC。1中，除了艺术创建的融合变形模型和[17]之外，这里描述的其他方法都不允许在生成过程中控制局部变化，因为它们的生成系数缺乏任何语义意义，不容易解释并且不能正确地解开。自动编码器潜在解纠缠用于生成3D形状的潜在解纠缠主要与身份和姿态生成因子的解纠缠有关。[3]创建了一个两级架构，将点云AE与VAE相结合，其中潜在的通过依赖于多个几何损失和解纠缠惩罚来成功地划分空间。[8]通过训练点云VAE，同时控制潜在空间构建中产生的失真量，实现了类似的结果如第第一，这些方法无法解开控制不同主体身份的生成因素等方法另一方面，AS [29，43]能够控制家具网格的不同部分，但是它们需要具有控制不同部分的多个编码器和解码器的尽管在模型制定中必须考虑零件层次结构，但与面和实体不同，在生成家具时，不同零件之间的不连续性不是声发射潜在解纠缠的研究通常集中在只有原始观测而没有任何生成因素的监督的情况下，并且通常在图像上进行[18]提出了一个简单的修改VAE [21]。通过增加Kullback-Leibler（KL）发散的权重随后的工作，如[19，23]，试图克服这一限制。DIP-VAE [23]利用了一个额外的正则化项，该正则化项对观察数据的近似后验进行了预期。因子VAE [19]鼓励潜在分布是阶乘的，因此通过使用潜在分布并通过在VAE损失函数中添加总相关项来独立于维度在[22]中提出了一种有趣的方法来鼓励潜变量表示然而，这种方法需要使用已知属性创建的合成数据集，这些属性可以在训练期间使用以实现解纠缠。最近，[13]提出了一种VAE，其中目标函数被分层分解，以控制变量组之间以及同一组中单个变量的统计独立性损失的递归公式为任何必须被解开的变量引入了附加项，并且仅在变化因子是不相关标量变量的情况下才起作用，这一要求阻碍了模型在现实世界场景中的适用性。最后，Guided-VAE [10]在其无监督设置中利用了二级解码器，该二级解码器学习一组PCA基，用于在简单的几何形状上引导训练。然而，作为基于PCA的次级解码器，潜在变量遭受PCA模型的相同问题。在上述用于潜在解缠结的方法中，DIP-VAE [23]和因子VAE [19]也在野生移植中显示出良好的解缠结性能。18733ZL∈∈L|||∈EF|L|LNZ X → Z|{}XZ→ X|1Nx′-xn<$2是以下各项之间′1Σ1ΣaAab. 请注意，顶点通过子图2.不同特征和不同主题的特征交换示例。年龄数据集，同时只需要对VAE制剂。为此，我们实施了DIP-取消合并层。还有三个全连接层：其中两个是E的最后一层，预测变分分布的均值和对角协方差，另一个是G的第一层，并将z返回到可以通过网格卷积处理的低维网格在训练过程中，以下损失被最小化：LVAE=LR+αLL+βLKL（1）其中α和β是加权常数。LR为VAE和一个因子VAE操作的网格和比较他们对我们的方法。3. 方法所提出的方法（图1）允许我们为自监督3D生成模型获得更多可解释和结构化的潜在表示。这是通过训练一个网格卷积变分自动编码器来实现的（Sec.3.1）与小批量控制的功能交换过程和潜在的一致性损失（第3.1节）。3.2）。输入（xnX）和相应的输出（xnX′=G（E（X））=G（z））个顶点。这种重建损失促使VAE的输出尽可能接近其输入。KL=KL[q（z X）p（z）]是Kull-back-Leibler（KL）散度，其将变分散度推向先验分布p（z），先验分布p（z）被定义为标准球形高斯分布。最后，L是基于均匀拉普拉斯算子的平滑项[30]在输出顶点上计算为：NL=<$δ<$ ，其中δ=x′−x′n3.1. 网格变分自动编码器LNn2n=1|Nn|e ne∈Nn流形三角形网格定义为M={X，E，F}，其中X∈RN×3是其顶点嵌入，E∈Nε×2是定义其拓扑的边连通度，FNΓ×3是它的三角形面。假设网格在整个数据集中共享相同的拓扑，并且是恒定的，并且网格仅在他们的地位，他们的地位。其中δn是第n个输出顶点的拉普拉斯算子，并且n是其基数为n的相邻顶点的集合。L通过依赖于矩阵op来有效地计算，erators 具体地，我们具有v e=[δ1，…，δN]T=LX′，其中L=I−D−1A是具有随机行走正规化的拉普拉斯算子，A∈NN×N是邻接矩阵，D∈RN×N是对角阶矩阵，对准、缩放并具有逐点对应的时间序列。由于传统的卷积算子与网格的非欧几里德性质不兼容，因此我们使用[16]中定义的简单而有效的方法构建生成模型因此，卷积算子被定义为预先计算的扩张螺旋序列上的可学习函数[16]。池化和非池化运算符被定义为稀疏矩阵乘法与预先计算的变换，这些变换是通过二次采样过程获得的[16，35]（参见补充材料）。我们的3D-VAE构建为编码器-解码器对（图1，中心），其中解码器用作生成模型，并被称为生成器。根据这个约定，我们将我们的体系结构定义为一对非线性函数E，G。设为顶点嵌入域和潜在分布域，我们有E：定义为一个变分分布q（z X），它近似于难以处理的模型后验分布，G：由似然p（X z）描述。在整个整个网络中，每个螺旋++卷积层都遵循-由ELU激活功能降低。然而，在E中，卷积与池化层交织，在G中，牵引训练集的每个顶点的平均值，并将结果除以训练集的每个顶点的标准偏差，因此等式中的损失1是在归一化顶点上计算的此外，所有损失项在小批量中均减少，平均减少。3.2. 小批量特征交换和潜在一致性损失我们的目标是获得一个生成模型，其中对应于特定网格特征的顶点由一组预定义的潜变量控制。因此，我们首先在网格模板上定义F个任意网格特征（图1，右）。特征通过对网格顶点着色来手动定义。由于顶点具有逐点对应性（Sec. 3.1），特征可以很容易地识别数据集中的每个其他网格，而无需手动分割它们。这允许我们通过替换与所选特征相对应的顶点来将特征从一个网格交换到另一个网格2）。特征交换是我们方法的核心，它允许我们策划小批量生成，以便正确地塑造和约束每个特征的潜在表示Nn=1n2Daa=18734IJΣf2fC2cIJ√IJFIJIJSP平方2IJω=1IJIJIJIJIJω=1IJ√√̸L∈联系我们√图3.随机样本和顶点距离显示遍历三个随机选择的潜变量的效果（请参阅补充材料以观察所有潜变量的效果）。网格每个大小为B的小批量可以被认为是一个大小为B×B的平方矩阵，其中每个元素Xij我们在列和潜在的差异之间加强潜在的相似性通过评估：zf−zf2+η1≤是不同网格的顶点嵌入因为它可以QS2zf−zfB}，其中p=q。这从图1（左）可以看出，当从数据集中加载该矩阵的对角线上的元素时，通过交换特征在线创建剩余的元素。每次创建一个小批次时，都会随机选择并交换一个特征。因此，矩阵的每一行都包含相同的网格具有不同的特征，而每列都包含Xij中的元素跨列具有相同的网格特征，而跨行具有不同的网格特征。反之亦然，当考虑zc时，它控制当前minibatch的所有其他网格特征，我们强制相似性行和差异列。通过计算：zc−zc2+η2≤zc−zc2，使用相同的特征保留不同的网格。有趣的是，特性交换的幼稚实现导致s，p，q ∈{1，.，sp sq2B}与pps qs2Q. 因此，我们定义我们的在大多数输入网格中可见的表面不连续性（图2），但由于方程2中的拉普拉斯正则化器，重建网格中不存在不连续性。1.一、潜在一致性损失为：CIBBLc=γmax0，zf-z−z-zf2+η1+很明显，当一个小批量被编码时，我们得到了一个批量化的潜伏期。正如我们可以看到的图。1个（中心），每个我们有一个对应的zij<$E（Xij），它均匀地s，p，q=1p=q+最大值100，100cps qs2- z−zsp sq2-zc2+η2在潜在变量的F个子集中分裂，每个网格特征一个（zij={zω}F）。请注意，即使每一个潜在的sp sq2ps qs2（二）子集zω具有相同数量的变量，不均匀分裂其中γ=B1B−B 是一个批量归一化项，也是可以接受的。每次通过交换特征f创建小批时，我们可以定义zij=（zf|zc）。zf是考虑在计算时C.合并等式1、Eq。2、说：R是加权系数，我们可以将总损失公式化为：控制功能的潜在变量在当前小批量。 zc是控制一切L=LVAE+κLc=LR+αLL+βLKL+κLc（3）否则，且定义为zc=zωFz. 启发由于三重损失和[37]，并且由于我们精心策划的迷你模型，我们可以通过要求来加强不同Xij的潜在表示中的4. 实验数据集我们的主要目标是训练一个生成模型，该模型能够从一组匹配zω在潜在空间中有距离的对特征分解的潜在变量。对于我们的实验该距离比不匹配对的距离小一个余量η。我们遍历小批量潜在矩阵的对角线，并比较行上的所有元素，将对角元素zss与包含z ss的列中的对角元素z ss（zss∈√18735{1，...，B}）。当考虑zf时我们需要在中性表达式中包含尽可能多的主题的数据集。然而，用于面部、身体或动物的3D形状的大多数开源数据集仅包含以不同表情或姿势捕获的有限数量的主体（例如，MPI-Dyna [34]，SMPL [28]，18736IJ联系我们≥图4.在不同的网格特征中遍历每个潜在变量的效果。对于每个潜在变量（隐变量），我们表示在将潜在变量从其最小值遍历到其最大值之后计算的每个特征的平均距离对于每个潜在变量，我们期望单个特征的平均距离较高，而所有其他特征的平均距离较低。[39]，[35]，[47]，等。为此因此，我们依赖于两个线性模型，这两个模型是使用大量受试者建立的，并且是出于非商业科学研究目的而发布的：UHM [33]和STAR [31]（第31节）。2）。从这些模型中，我们随机生成10000个网格，并创建一个面部数据集和一个身体数据集。我们将90%的数据用于训练，5%用于验证，5%用于测试。所有网络都在PyTorch中实现，并使用ADAM优化器[20]训练了40个epoch，固定学习率为lr=1e−4，mini-batch大小B=16（请注意，特征交换仅适用于我们的方法）。螺旋卷积1的螺旋长度为9，螺旋扩张为1。E的最后一个卷积层和G的第一个卷积层有64个特征，而其他所有的32个。在二次采样期间用于创建上采样和下采样变换矩阵的采样因子被设置为4。由于这两个数据集具有显著不同的顶点数量（N面=71，928，N体=6，890），因此在面上操作的网络具有4个卷积层，在E和G中均与采样算子交织，而网络1SpiralNet++的实现获得了MIT许可证。只有三个人做过手术出于同样的原因，潜在的大小是不同的：60个变量的面孔和33个身体。考虑到人脸模板被分割成12个区域，身体模板被分割成11个区域，每个zω有5个人脸变量和3个身体变量。拉普拉斯正则化器的权重被设置为α=1，而潜在一致性权重w为κ=0。对于面，κ = 5;对于体，κ=1。将η1和η2设定为 η1=η2=0 。 5 、两个数据集在单个 NvidiaQuadro P5000 上进行面部训练，在Nvidia GeForceGTX 1050Ti上进行身体训练。我们在25个GPU天内运行了大约120个实验与其他方法的比较我们将我们的方法与其他基于编码器-解码器对的自监督方法进行了比较。为了进行公平的比较，所有方法都共享相同的底层架构，我们将其称为VAE，并已在第2节中详细介绍第3.1条与当前文献[14，26，35，44]一致，我们发现网格VAE中KL发散的权重系数（β）小于图像。事实上，对于β1，VAE无法重建数据。因此，我们报告的结果，VAE与β1e−2，1e−4. 值得注意的是，网格和图像之间的差异不允许使用文献中使用的相同标准定义β-VAE（β> 1）[18]。我们也比较18737−表1.我们的模型和其他国家的最先进的自我监督潜在的解开方法之间的定量比较。所有方法都是在相同的人脸数据集上训练的平均值和最大记录值是指测试集上的平均和最大平均每顶点数值以毫米计算。多样性的计算详见第2节。4.第一章用于评估发电能力的所有其他指标均在[42]中介绍。Rec. （↓）Rec.（↓）（↑）CD EMD我们使用DIP-VAE-I、DIP-VAE-II和因子VAE的方法据我们所知，这是第一次尝试在网格域中使用它们。因此，对于两个DIP-V AE，我们设置β=1e−4，并遵循原始实现[23]中采用的参数调谐策略，调谐λd和λ od。本文报道了DIP-VAE-I（λ d=100，λod=10）和DIP-VAE-II（λ d= 10，λ od= 10）的解缠性能。因子VAE以1e−6的学习率和总相关权重γ = 0进行训练。二十五我们首先评估在人脸数据集上训练的不同模型的质量，包括重建误差，生成样本的多样性， Jensen-Shannon Divergence （ JSD） [2]， Coverage （COV ）[2] ， Minimum matching distance （ MMD ） [2] 和 1-nearest neighbor accuracy（1- NNA）[42]（Tab.1）。平均和最大重建误差的计算相对于平均每顶点误差在整个测试集。多样性计算为模型随机生成的网格对之间的平均每顶点距离的平均值其他度量通过利用2048个随机选择的顶点对上的倒角（CD）和地球移动器（EMD）距离来计算。注意，由于1-NNA的原始公式预期分数收敛到50%，因此在表1中，1我们报告原始分数和50%目标值之间的绝对从Tab。1我们观察到，虽然大多数潜在的解缠方法我们还注意到，虽然大多数模型具有相似的多样性，但因子VAE能够生成更多样化的数据。虽然这个属性似乎是可取的，观察一些随机生成的样本（图3），我们认为，采样的脸是不太现实主义。用于评估不同模型的生成能力的其他度量表明，我们的方法与其他方法具有可比性，从而证明我们的最小化过程和潜在的一致性损失不会对生成能力产生负面影响。潜在解缠的评估先前的工作评估了标记数据可用的数据集或生成因子可用作标记的定制图像数据集上的潜在解缠。这样的数据集[18，19，23]的例子是几何形状的二元图像（例如圆形，矩形等）。其中形状变形参数是已知的，或者是用受控的照相机和照明位置再现的图像。尽管我们的两个数据集都是从现有模型生成的，但这些模型缺乏对生成因素的控制，因此无法计算Z-Diff [18]，SAP [23]和Factor [19]得分等传统指标。此外，目前存在的几个无监督的解纠缠度量[45]不适合我们的评估，因为[27]是为评估风格和内容信息的解纠缠量身定制的，而[11] 用于模型和超参数选择，因此需要多次计算上昂贵的超参数扫描。因此，我们决定评估在遍历每个潜在变量时对生成的网格造成的影响我们生成两个对应于每个潜在变量的网格：一个是将一个潜在变量设置为最小值（3），所有剩余的潜在变量设置为它们的平均值（0），另一个是将最小值替换为最大值（+3）。两个形状之间的每顶点欧几里得距离表示扰动单个潜在变量的影响。这些效果可以通过观察顶点颜色与距离成比例的网格来定性评估（图3和图5D）。可替代地，对应于每个特征的距离（图1，右侧和图5A）可以被平均并且随后如图4和图5C中所示被绘制。这种表示清楚地强调了扰动每个潜在变量如何影响不同的特征。虽然大多数方法似乎很难解释，大多数纠缠，我们的方法显示了一个显着更结构化，可解释性和解开潜在的表示比其他方法。有趣的是，在β=1e−2的VAE中，我们观察到ve一个极化的区域，其中只有方法平均值最大多样性JSD（↓）MMD（↓）COV（%，↑）CDEMD1-NNA（%，↓）CD EMDVAE（β=1e−2）1 .一、471 .一、99五、431 .一、551 .一、660的情况。4362. 9963岁67 7 .第一次会议。257 .第一次会议。50VAE（β=1e−4）0的情况。610的情况。744.第一章234.第一章891 .一、530的情况。38六十五4966岁。331 .一、170的情况。1718738∈◦ ◦∈2∥ ◦ −∥图5.我们的方法在尸体上的结果。 A：用所提出的方法在人体网格上训练随机生成的样本。 B：所有不同的身体特征的视觉表征，我们试图获得一个解开的潜在表征。C：每个潜在变量在不同身体特征上的潜在变量遍历的影响。D：顶点距离，显示遍历五个潜在变量的影响（参见所有潜在变量的补充材料）。潜变量的子集控制所生成的形状。然而，这些变量也控制相同的特征，因此未实现解缠结。由于极化状态发生在β-VAE [36]中，因此我们可以将该VAE视为在网格上运行的β直接操作类似于[17]，我们的方法支持直接操作生成的3D网格。因此，用户能够选择一个或多个顶点，指定其新的所需位置，我们的方法自动生成一个新的网格局部变形，以满足用户编辑。这是通过一个小的优化过程，在潜在的代表性。我们使用ADAM优化器进行50次迭代，并使用固定的学习率 lr=0。1.一、给定SX′ =SG（z）R×3从当前生成的网格中手动选择的顶点子集，以及它们的期望位置YR×3，其中表示所选顶点的数量，我们选择-最小值zfSG（z）Y2。注意，对zf的优化保证了操作的局部性（图11）。6，IIa），并通过将梯度COM设置为零来实现在ZC上。这是可能的，我们的方法和它的改进潜在的解纠缠。对整个潜在表示的优化将导致可见的全局变化（图 1 ）。 6 ， IIb ），从而使不可能的直接manipulation。5. 结论我们提出了一种新的方法来学习一个更disentangled，可解释的，和结构化的潜在表示的三维VAE。这是通过使用特征交换和引入附加的潜在一致性损失来策展小型搜索过程来实现的。即使我们的方法是能够解开预定义的子集的潜在变量，我们不保证正交性和解开每个子集内的变量。尽管如此，我们可以增加子集的数量，以实现对图6.直接操作生成的网格。(I)用户选择任意数量的顶点（蓝色）及其新的所需位置（红色），然后我们的方法生成一个适合所需位置的局部编辑网格。结果报告优化只有zf（IIa）和优化整个z（IIb）。生成的模型。我们工作的主要限制是对训练数据的假设。一致的缩放和对齐以及密集点对应和固定的网格拓扑对于3D面部（和身体）的生成模型是常见的，并且对于有效的特征交换是有用的。然而，如果实现不同的架构并且每个3D形状的语义分割是可用的，则可以放松该假设对于原始数据，获得良好的语义分割并不容易，但可以使用[40，41]等方法。作为未来的工作，我们的目标是引入和正确地解开表达式（或姿势），同时保留优越的潜在解开身份的功能，使我们的方法成为可能。致谢这项工作得到了 Wellcome Trust/EPSRC 的支持[203145 Z/16/Z]。本出版物中表达的观点是作者的观点，不一定是维康信托基金的观点。18739引用[1] 维多利亚·弗恩·阿南德斯·阿布雷·埃瓦亚、阿德南·布克海马、斯特法尼·乌勒和埃德蒙·博耶。一种基于对抗训练的解耦三维人脸模型。在IEEE/CVF计算机视觉国际会议论文集，第9419-9428页，2019年。二、三[2] Panos Achlioptas，Olga Diamanti，Ioannis Mitliagkas，and Leonidas Guibas.三维点云的学习表示与生成模型。国际机器学习会议，第40-49页。PMLR，2018。7[3] Tristan Aumentado-Armstrong，Stavros Tsogkas，AllanJepson和Sven Dickinson。生成潜在形状模型的几何解纠缠。在IEEE/CVF计算机视觉国际会议论文集，第8181-8190页，2019年。二、三[4] Yoshua Bengio Aaron Courville和Pascal Vincent表征学习：回顾与新视角 . IEEE Transactions on PatternAnalysis and Machine Intelligence ， 35 （ 8 ）： 1798-1828，2013. 2[5] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型。在 Proceedings of the 26th annual conference onComputer graphics and interactive techniques，pages 187-194，1999中。2[6] James Booth、Anastasios Roussos、Stefanos Zafeiriou、Allan Ponniah和David Dunaway。从10，000张面孔中学习的3D变形模型在IEEE计算机视觉和模式识别会议论文集，第5543- 5552页，2016年。2[7] Shiyang Cheng ， Michael Bronstein ， Yuxiang Zhou ，Irene Kotsia ， Maja Pantic ， and Stefanos Zafeiriou.Meshgan：面部的非线性3D变形模型。arXiv预印本arXiv：1903.10384，2019。二、三[8] Luca Cosmo ， Antonio Norelli ， Oshri Halimi ， RonKimmel，and Emanuele Rodola. Limp：学习具有度量保留先验的潜在形状表示。 arXiv 预印本 arXiv ：2003.12283，2，2020。二、三[9] 戴航，尼克·皮尔斯，威廉·史密斯，克里斯蒂安·邓肯.颅面形状和纹理的统计建模。国际计算机视觉杂志，128（2）：547-571，2020。2[10] Zheng Ding，Yifan Xu，Weijian Xu，Gaurav Parmar，Yang Yang，Max Welling，and Zhuowen Tu.用于解纠缠学习的引导变分自动编码器在IEEE/CVF计算机视觉和模式识别会议论文集，第7920-7929页二、三[11] Sunny Duan 、Loic Matthey、Andre Saraiva 、 NicholasWatters、Christopher P Burgess、Alexander Lerchner和Irina Higgins。变分解缠表示学习的无监督模型选择。arXiv预印本arXiv：1905.12614，2019。7[12] Bernhard Egger ， William AP Smith ， Ayush Tewari ，Stefanie Wuhrer ， Michael Zollhoefer ， Thabo Beeler ，Florian Bernard ， Timo Bolkart ， Adam Kortylewski ，Sami Romdhani，et al. 3d morphable face models-past，present ， and future.ACM Transactions on Graphics（TOG），39（5）：1-38，2020。2[13] Babak Esmaeili ， Hao Wu ， Sarthak Jain ， AlicanBozkurt ， Narayanaswamy Siddharth ， Brooks Paige ，Dana H Brooks，Jennifer Dy 和Jan-Willem Meent结构化的无纠缠的表示。第22届人工智能和统计，第2525PMLR，2019年。二、三[14] Simone Foti 、 Bongjin Koo 、 Thomas Dowrick 、 JoaoRamal- hinho、Moustafa Allam、Brian Davidson、DanailStoyanov和Matthew J Clarkson。术中肝脏表面完成与图形卷积重建。在医学成像中安全使用机器学习的不确定性，以及生物医学图像分析中的图形，第198Springer，2020年。6[15] Baris Gecer ， Alexandros Lattas ， Stylianos Ploumpis ，Jiankang Deng ， Athanasios Papaioannou ， StylianosMoschoglou，and Stefanos Zafeiriou.利用干支生成对抗网络合成耦合三维人脸模型。欧洲计算机视觉会议，第415-433页。Springer，2020年。二、三[16] Shunwang Gong ， Lei Chen ， Michael Bronstein ， andStefanos Zafeiriou.Spiralnet++：一个快速高效的网格卷积算子。在IEEE/CVF计算机视觉研讨会国际会议论文集，第0-0页，2019年。二、三、四[17] Aurel Gruber ， Marco Fratarcangeli ， Gaspard Zoss ，Roman Cattaneo，Thabo Beeler，Markus Gross和DerekBradley。使用解剖学建模范例的数字面部交互式雕刻。在计算机图形论坛，第39卷，第93-102页。Wiley在线图书馆，2020年。二、三、八[18] Irina Higgins 、 Loic Matthey 、 Arka Pal 、 ChristopherBurgess 、 Xavier Glorot 、 Matthew Botvinick 、 ShakirMohamed和Alexander Lerchner。beta-vae：使用受约束的变分框架学习基本视觉概念。2016年国际学习表征会议。二三六七[19] Hyunjik Kim和Andriy Mnih。通过因子分解法解开。国际机器学习会议，第2649-2658页。PMLR，2018。二、三、七[20] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[21] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。3[22] Tejas D Kulkarni，Will Whitney，Pushmeet Kohli，andJoshua B Tenenbaum.深度卷积逆图形网络。arXiv预印本arXiv：1503.03167，2015年。二、三[23] 阿布舍克·库马尔，普拉萨纳·萨提格里，还有阿维纳什·巴尔·阿克里希南。从未标记观测解纠缠潜在概念的变分推断。arXiv预印本arXiv：1711.00848，2017。三、七[24] Ruilong Li ， Karl Bladin ， Yajie Zhao ， ChinmayChinara ， Owen Ingraham ， Pengda Xiang ， XingleiRen，Pratusha Prasad，Bipin Kishore，Jun Xing，et al.Learning forma- tion of physically-based face attributes.在IEEE/CVF计算机视觉和模式识别会议论文集，第3410-3419页，2020年。二、三[25] Tianye Li，Timo Bolkart，Michael J Black，Hao Li，and Javier Romero.从4d扫描中学习面部形状和表情的模型。ACM事务处理图表，36（6）：194-1，2017. 218740[26] 或者 Litany ， Alex Bronstein ， Michael Bronstein 和Ameesh Makadia。可变形形状完成与图形卷积自动编码器。在IEEE计算机视觉和模式识别会议论文集，第1886-1895页，2018年。三、六[27] 小刘，Spyridon Thermos，Gabriele Valvano，AgisilaosChartsias，Alison O'Neil和Sotirios A Tsaftaris。暴露内容风格分解的偏见的方法 arXiv 预印本 arX

下载后可阅读完整内容，剩余1页未读，立即下载