从单个“野外”图像中重建3D人类舌头

144 浏览量更新于2023-10-25 收藏 23.81MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Recently, 3D face reconstruction from single “in-the-wild” images has been a very active topic in Computer Vi-sion with applications ranging from realistic 3D avatar cre-ation to image imputation and face recognition [12, 14, 22,37, 39, 44]. Nevertheless, despite the improvement in thequality of the 3D reconstructions, all of these methods donot accommodate any statistical variations in the oral cav-ity let alone a tongue template mesh. As a result, the oralregion is completely disregarded from the final result.Being able to reconstruct the tongue expression has mul-tiple advantages in various applications. First of all, thegenerated avatars would be more realistic and would be able27710从单个“野外”图像中重建3D人类舌头0Stylianos Ploumpis 1, 2 * Stylianos Moschoglou 1, 2 * Vasileios Triantafyllou 20Stefanos Zafeiriou 1, 201英国伦敦帝国理工学院 2华为技术有限公司01 {s.ploumpis,s.moschoglou,s.zafeiriou}@imperial.ac.uk 2 {vasilios.triantafyllou}@huawei.com0图1.我们提出了一个能够准确从单个图像中推导出3D舌头形状的框架。可以从图像域中估计出舌头表面的高精度3D点云和完整的头部拓扑以及舌头表情。正如我们所展示的，我们的框架能够在逆境的“野外”条件下捕捉到舌头的形状。0摘要0从单个图像中进行3D人脸重建是计算机视觉领域引起了越来越多的兴趣的任务，特别是由于其在许多应用中的广泛使用，如逼真的3D头像创建、姿势不变的人脸识别和人脸幻觉。自从90年代末引入3D可塑模型以来，我们目睹了一系列旨在特别解决这个任务的研究的爆炸。然而，尽管由于深度学习的进步，从单个图像中的3D人脸重建的细节水平不断增加，但是文献中所有的3D人脸模型仍然缺少舌头等细微且高度可变形的面部组件，尽管这些组件对于3D头像表示的真实性非常重要。在这项工作中，我们首次提出了一种据我们所知，能够准确重建3D人脸和舌头的端到端可训练流程。此外，我们通过引入专门用于3D舌头表面生成的新型GAN方法，使得我们的流程能够在“野外”图像中具有鲁棒性。最后，我们向社区公开了第一个多样化的舌头数据集，包含1800个原始扫描的700个个体，涵盖了不同的性别、年龄和种族背景。正如我们在一系列定量和定性实验中所展示的，我们的模型证明了其在逆境的“野外”条件下具有鲁棒性，并能够真实地捕捉到3D舌头结构。0* 作者贡献相同。01. 简介0* 项目网址: www.github.com/steliosploumpis/tongueto mimic many more facial expressions. Moreover, speechanimation tasks would be improved as the inclusion of theoral cavity plays a significant role. Finally, face recognitionapplications could be enhanced as more extreme poses andexpressions would be modeled.However, as we already pointed out, all of the currentstate-of-the-art (SOTA) methods [14, 39, 44] do not con-tain the tongue component in their implementations. Thisis because of two reasons: a) there is no publicly availabletongue dataset, and b) it is very challenging to carry out3D reconstruction of the face together with the tongue in“in-the-wild” conditions, because of the highly deformablenature of the human tongue.To tackle the absence of tongue data, we collected alarge and diverse dataset of textured 3D tongue point-clouds(more info about the data in Section 3). Having capturedthe data, we created a pipeline which is comprised of thefollowing parts: a) a tongue point-cloud autoencoder (AE)which is used to derive useful 3D features of our raw col-lected 3D data, b) a tongue image encoder optimized basedon the aforementioned 3D features, c) a shape decoderwhich translates the encoder outputs to the parameter spaceof the Universal Head Model (UHM) [33]. We should notethat the UHM in our case is further rigged/modified so that itcan model various tongue shapes/expressions, as explainedin Section 3. We begin by training the AE in step a) and thenwe train steps b-c) in an end-to-end fashion so that the out-put tongue expression of the UHM model is as close as pos-sible to the corresponding ground-truth 3D tongue point-cloud of the 2D tongue image.Since there is a lack of ground-truth 3D tongue data cor-responding to “in-the-wild” 2D tongue images, the pipelinewe described so far is only trained using our collected datawhich were captured under controlled conditions. This re-sults in sub-optimal performance in “in-the-wild” condi-tions. To remedy this, we developed a novel conditionalGAN framework that is able to generate accurate 3D tonguepoint-clouds based on the image encoder outputs (step b) ofthe pipeline). Having created new image/point-cloud pairsof “in-the-wild” tongue data, we re-train the pipeline usingalso these new data. As we show in Section 4, this additionsubstantially improves the quality of the tongue reconstruc-tions. To summarize, the contributions of our work are thefollowing:27720•我们发布了一个包含1800个原始舌头扫描的数据集，涵盖了大约700个受试者，这是第一个如此多样化的舌头数据集，对社区非常有用。0•我们提出了一个完整的流程，以端到端的方式进行训练，能够从单张图像中重建出3D人脸和舌头。0•为了使这个流程对“野外”图像具有鲁棒性，我们引入了一种新颖的GAN框架，能够从“野外”图像中准确重建出具有不断增加细节级别的3D舌头。02. 相关工作0单视图下的人类面部/头部的3D重建无疑是计算机视觉中一项非常有价值的任务。然而，由于基本深度模糊和问题的不适定性，它给研究界带来了许多挑战。为了限制问题的模糊性，许多统计参数模型已经被引入到人脸/头部的不同部分中[2, 5, 26,34]。由于多年来对面部分析的兴趣不断增加，研究界主要关注于人脸重建。自从在[2]中引入了面部3D可塑模型（3DMMs）以来，已经发表了大量的科学论文，专注于面部形状和外貌的重建[3, 4, 14,22]。直到最近，随着3D扫描数据的出现，研究兴趣才转向人头的其他重要部分。近年来已经引入了一些头部模型，但没有任何统计颅颜相关性[26,36]。人类头部的第一个颅颜3DMM是在[10]中引入的，后来在无约束单张图像的3D头部重建设置中进行了扩展和利用[34]。最近的一些工作尝试将人类头部的颅骨结构与面部拓扑[27,28]对齐，以获得在给定颅骨形状的情况下可能的面部形状分布。随着3D人类耳朵建模的引入，人脸/头部的细节开始出现[46]。耳朵是人类头部的关键结构，对生物识别和个人整体外貌有重要贡献。耳朵模型的两个最重要的例子是在[9,47]中引入的，但没有一个将其与面部/头部融合以创建完整的外貌。此外，为了克服“怪异谷”问题，一些方法尝试对人眼和面部眼区域的独立变化/运动进行建模[1,42]。由于眼部区域周围的数据量有限，且此任务需要极高的细节水平，这些努力具有挑战性。朝着口腔方向发展，牙齿建模在[40,43]中被引入，通过精心设计的优化方案从2D图像中恢复了牙齿的3D结构。直到最近，一些方法[25,33]尝试将人类头部的所有上述属性（眼睛、耳朵、牙齿和口腔内部）结合起来，以建立一个在形状和纹理方面完整的模型。27730图2.基于平均UHM模板的我们合成数据库的随机3D舌头表情。这些表情经过绑定和手工雕刻，以在舌头表面和整体口腔周围引入更多的变化。0准确地表示人类头部。虽然这些模型包括口腔拓扑，但没有一个处理舌头的动态，这对于语音动画和头像表现的整体真实性非常重要。为此，在这项工作中，我们旨在通过向研究界发布一个多样化的3D舌头数据集，扩展这些方法，并为实现逼真的人类外貌铺平道路。我们还提出了从单张图像准确重建3D人类舌头的第一个框架。03. 3D人类舌头重建0在本节中，我们介绍完整的舌头重建流程。我们首先描述了我们收集的2D/3D舌头数据集和我们基于UHM[33]模板的手动装配的舌头数据集。我们进一步提供了有关点云AE、图像编码器、形状解码器和用于优化舌头重建流程的整体损失函数的详细信息。此外，我们提出了一种新颖的条件GAN方法，能够准确重建“野外”舌头图像的3D舌头点云。最后，我们解释了如何使用GAN生成的点云来重新训练流程，以在“野外”条件下获得更好的结果。03.1. 舌头数据集0TongueDB：第一个3D舌头数据集。正如第1节中提到的，我们收集了一个包含纹理3D舌头扫描的大型数据集。我们的点云数据库TongueDB包含约1800个3D舌头扫描，这些扫描是在伦敦科学博物馆的特别展览期间捕获的。被试被指示进行一系列的舌头表情（例如，舌头向左和向右伸出，舌头向中间伸出，舌头向中间伸出圆形，舌头向中间伸出极度张开的嘴巴，舌头向左和向右内收等）。图6显示了一些示例图像。用于此任务的捕获设备是3dMD4相机结构光立体系统，可生成高质量的密集网格。我们总共记录了700个不同的被试者，并提供了关于他们的元数据，包括他们的性别（42％男性，58％女性），年龄和种族（82％白人，9％亚洲人，3％黑人和6％其他）。0为了进行3D舌头和面部重建，我们需要使用面部/头部模型。然而，目前所有使用的面部/头部模型[10, 26,36]的一个主要缺点是它们缺少舌头组件。这是因为在固定模板中非刚性地捕捉口腔的3D拓扑结构是一项具有挑战性的任务。这些挑战包括：a）舌头的高度可变性，b）口腔区域的非凸性，c）牙齿的反射纹理。为了缓解这个问题，我们构建了一个由3D艺术家装配的合成3D头部和舌头数据集。艺术家使用一部分原始舌头扫描作为手动雕刻的指南，追踪原始扫描的3D细节。为了追踪3D细节，我们精选了一些原始扫描，以代表TongueDB中存在的大部分形状变化。对于我们的中性网格模板¯T，我们使用UHM[33]的平均模板，因为它提供了与整个头部统计结构一致的人类口腔的所有必要组件。结果是75个不同的装配舌头表情。为了进一步增加我们的合成数据集，我们在最接近的表情网格之间进行三线性插值，生成了总共n_s =720个舌头表情。图2显示了一些示例合成表情。对插值网格应用标准PCA，得到正交基矩阵Ut∈R3N×nt（其中N是网格顶点数，nt =110是保留的成分数）。PCA是在整个头部顶点集上执行的，而不仅仅是在口腔上执行。这样，后续将舌头表情从平均头部转移到具有不同面部特征的头部更加高效。03.2. 方法0舌头点云AE。为了根据2D图像准确重建舌头的3D形式，我们的图像编码器需要根据能够捕捉所有所需的3D点云信息的有意义的目标标签进行引导。这些标签表示为y∈R256，通过自动编码我们的数据集（即原始3D舌头扫描）的原始点云来学习。为此，我们利用自组织映射框架进行分层特征提取。chrome-extension://pebppomjfocnoigkeepgbmcifnnlndla/index.html1/1x1y1z1ychrome-extension://pebppomjfocnoigkeepgbmcifnnlndla/index.html1/1chrome-extension://pebppomjfocnoigkeepgbmcifnnlndla/index.html1/1pt20draw.iochrome-extension://pebppomjfocnoigkeepgbmcifnnlndla/index.html1/127/06/2020draw.iochrome-extension://pebppomjfocnoigkeepgbmcifnnlndla/index.html1/127/06/2020draw.iochrome-extension://pebppomjfocnoigkeepgbmcifnnlndla/index.html1/111�k=0N−1�i=0max�0, dik�(1)dik = r2 − qi1 − xk2 − qi2 − yk2 − qi3 − zk227740渲染的输入图像00 draw.io0˜y0回归的舌头0表情0z n嵌入网络0ResNet-500� total = λ 1 � CD + λ 2 � n + λ 3 � l + λ 4 � e + λ 5 � c + λ 6 � y0PCA0形状解码器MLP0U t027/06/2020 draw.io0y0舌头点云0自动编码器0� y = ∥ y - ˜ y ∥ 20地面实况点云0图3. 我们的舌头重建框架示意图。首先，我们单独训练点云AE以获得有意义的3D特征（y），然后我们使用多种不同的损失训练图像编码器/形状解码器，如第3节所述。0tion[24]。舌头图像编码器的任务是产生与AE的目标3D特征y接近的特征。为了使编码器对各种摄像机角度或光照鲁棒，我们采用了一个渲染框架，其中我们利用纹理原始扫描（第3.1节的TongueDB）。我们使用预计算的辐射传输技术使用球谐函数高效表示全局光散射来渲染我们的1,8K纹理网格。此外，我们使用15多个不同的室内场景，结合随机光源位置和网格方向，围绕所有3D轴，产生了大约100K个图像。作为编码器，我们使用了在ImageNet[11]上预训练的ResNet-50[17]模型，并在我们的数据集上进行了微调。特别地，我们修改了网络的最后一层，输出一个与地面实况向量y维度相似的向量˜y∈R256。形状解码器。为了将编码器˜y标签解码为有意义的舌头形状，我们使用了合成的PCA模型Ut，该模型是基于装配舌头表情数据集。为此，在生成˜y标签后，我们利用一个标准的多层感知器（MLP），它作为回归方案，将其转换为合成PCA舌头模型的潜在参数pt∈R110。PCA模型的统计特性有助于在训练过程中约束最终结果，并确保有意义的变形位于我们的装配/修改的UHM模型的频谱内。管道训练。在训练过程中，我们首先单独训练点云AE，然后以端到端的方式训练图像编码器和形状解码器的管道。为了优化管道，我们应用了总共6个损失，每个损失都对最终结果的质量有所贡献。前2个损失是在预测的舌头表情和装配/修改的UHM模型之间计算的。0对应输入图像的地面实况舌头点云。与[41]类似，我们采用Chamfer损失[13] LCD来优化生成模板点的位置，以及法线损失Ln来修正网格的方向。为了计算准确的Chamfer损失，我们只利用围绕口腔的小区域，该区域是根据地面实况点云定义的。此外，我们计算预测网格与PCA模型的平均形状之间的Laplacian正则化Ll损失，以防止顶点过于自由地移动到平均位置之外，并限制生成的形状平滑。还引入了边长损失Le，惩罚任何飞出的顶点（异常值）。最后，我们采用碰撞损失Lc，防止舌头的点穿过口腔表面，该损失是根据UHM模板的12个口腔标记点周围的每个碰撞误差的总和计算的（如补充材料中所示）：0L c = 10L c 的计算是每个碰撞点 q i = { q i 1 , q i 2 , q i 3 }到以地标坐标 x k , y k , z k 为中心、半径为 r = 1.5 cm的球体 k的距离之和。最后，在我们的流程的中间步骤中，我们对预测的 ˜ y 编码特征施加最终的L2损失 Ly，将其约束为尽可能接近对应自动编码点云的地面真实特征 y。这个损失非常重要，因为：a）这样的 ˜ y特征包含丰富的3D信息，对纹理/光照变化不变；b）我们的“野外”实验基于一个依赖这些丰富3D特征的生成点云框架。最终的损失函数 L total 如下所示：…(I)I1I2L1GGL9G…L1DL2DL8Dtotal = λ1CD + λ2n + λ3l + λ4e + λ5c + λ6yrelevant methods [6,31,35], b) it is a non-watertight surface(i.e., it contains holes) so we cannot also use any implicitfunction approximations methods [29, 32, 38] or volumet-ric approaches [19,20,45]. Therefore, having excluded theaforementioned categories, we decided to use GANs [15]for the 3D tongue surface generations.In order to generate accurate point-clouds that corre-spond to certain tongue images, our GAN, dubbed asTongueGAN, needs to be guided by meaningful labelswhich can capture all the desired 3D surface information.These labels are provided by the trained point-cloud AE asdescribed in Section 3. Since the generation is driven bylabels, TongueGAN is a conditional one [30]. In particu-lar, given a label denoted as y and a random Gaussian noisez ∈ R128, the generator G produces a novel point-cloudpoint G (z, y) ∈ R3, which we denote as ˜xt, that belongsto the tongue surface represented by the label y. On theother hand, the discriminator D receives as inputs the labely, a real point-cloud point xt (which belongs to the tonguerepresented by the label y) and the generator output ˜xt andtries to discriminate the fake (i.e., generated) from the realpoint. In the mathematical parlance, this is described as:27750TongueGAN架构0生成器（G）0y0z0z � � (0, I )0c0噪声MLP0标签MLP0o o0注入MLP层0主MLP层（ L G ）0生成的0表面点 x y z0判别器（D）0˜ xt x0y0c0点MLP0标签MLP0xyz0主MLP层（ L D ）0真/假0输出层0图4. 符号 c 表示沿通道维度进行逐行连接。符号 o 表示逐元素（即Hadamard）乘积。生成器的输入是高斯噪声样本 z和对应于特定舌头的标签 y，我们希望从中采样一个3D点。判别器的输入对是一个对应于特定舌头的标签 y和一个属于上述舌头点云的真实3D点 x t，而 G ( z , y ) = ˜ x t 是属于这个舌头的生成点。0稍后介绍的张力基于一个基于生成点云框架的方法，该方法依赖于这些丰富的3D特征。最终的损失函数 L total如下所示：0(2) 其中 λ 1 ，...，λ 6是训练超参数。在推断过程中，编码器网络以单个舌头图像作为输入，并预测一个3D嵌入˜y，然后通过两个潜在空间之间的MLP将其转换为合成表情模型的相应 p t 参数。最后，我们将这些 p t参数应用于装配头部模型的PCA模型，以得到具有舌头表情的最终网格。方法的概述可见图3。03.3. 用于“野外”重建的TongueGAN0尽管第3.2节中介绍的流程在我们收集的数据测试集中对舌头姿势提供了良好的估计，但在“野外”图像（图9）中表现不佳。这种行为是预期的，因为我们收集的数据是在受控条件下捕获的，并且编码器的训练仅使用了不完全模拟“野外”条件的渲染图像进行。为了使我们的方法在“野外”图像中也具有鲁棒性，我们需要进一步使用这些数据训练流程。然而，对于从网络上收集的“野外”图像，我们没有它们对应的3D舌头点云。因此，要在流程中使用“野外”数据，我们首先需要有一种方法能够学习我们收集的3D舌头数据的分布并具有良好的泛化能力。生成新的3D舌头的方法很棘手。这是因为人类舌头具有几个独特的特性：a）它是一个高度可变形的物体，因此我们无法将我们收集的数据注册到参考模板并应用0LD = Ex[t][logD(xt,y)] - E˜x[t][logD(˜xt,y)], LG =E˜x[t][logD(˜xt,y)] (3)0其中D试图最大化LD，而G试图最小化LG。请注意，我们不是为每个提供的噪声和标签对（z，y）生成整个点云，而是仅生成与标签y表示的表面对应的点。与文献中的其他方法相比，这具有几个优点：a）我们不需要在训练集中具有相同数量的点云，因此我们可以在原始点云上进行无需任何数据预处理的GAN训练，b）它是一个非封闭的表面（即，它包含孔），因此我们也不能使用任何隐式函数逼近方法或体积方法。因此，在排除了上述类别之后，我们决定使用GANs进行3D舌表面生成。为了生成与特定舌图像对应的准确点云，我们的GAN（称为TongueGAN）需要由能够捕捉所有所需3D表面信息的有意义的标签引导。这些标签由第3节中描述的训练过的点云AE提供。由于生成是由标签驱动的，TongueGAN是一个有条件的生成模型。具体而言，给定一个标签y和一个随机高斯噪声z∈R128，生成器G生成一个属于由标签y表示的舌表面的新的点云点G(z,y)∈R3，我们将其表示为˜xt。另一方面，鉴别器D接收标签y、一个真实的点云点xt（属于由标签y表示的舌）和生成器输出˜xt，并试图区分真实点和伪造点。在数学术语中，这被描述为：xt′ yxt y, σeI(4)27760a）b）c）0图5.对3.3.1节中解释的机制的视觉描述。a）原始舌网格以及一个绿色部分。b）属于舌表面并位于该部分上的3D点（绿色），浅绿色表示可以从中采样的接受区域。c）放大的区域。0固定点数，b）当生成与特定标签对应的点云时，我们可以根据需要生成任意数量的点，与文献中的其他方法相反，我们不受任何初始固定分辨率的限制。对于TongueGAN损失，我们选择了带有梯度惩罚的Wasserstein损失（WGANwithGP）[16]，因为它在训练过程中具有稳定性和良好的性能。就体系结构而言，我们将注意力转向最近提出的Π-Nets[7,8]，它们易于实现。具体而言，我们使用我们自己的Π-Nets的自定义修改来适应我们任务的需求。网络结构的图形表示如图4所示。03.3.1 GAN损失用于准确的表面逼近0尽管如实验中所示，我们自定义的Π-Nets修改以及WGAN-GP损失显著改进了点云GAN[23]，但点云表示仍有改进的空间（请参见表1）。我们主要将这归因于GAN中鉴别器的严格行为（即，在我们的情况下决定生成的点是否与目标点云的点完全匹配）。这种刚性，特别是在训练过程的早期阶段，对于生成器来说并不是很有帮助，因为生成器很难学习到点云的真实分布（即，所有生成的点都被鉴别器高度自信地丢弃为伪造）。为了解决这个问题，我们稍微放松了鉴别器，特别是在初始阶段，通过稍微修改馈送给它的真实点。为了实现这一点，我们不直接将与标签y对应的真实点xt直接馈送给鉴别器，而是馈送以下内容：0其中，N � x t | y , σ e � 是一个均值为 x t且（各向同性）方差为 σ e 的多变量正态分布。方差 σ e不依赖于标签 y ，只依赖于时期 e。通过使用（4），特别是在训练过程开始时，生成器可以更好地学习实际分布，因为当它稍微错过实际表面时，不会受到判别器的严厉惩罚（请参见附图5以便更好地理解）。正如实验中也可以看到的那样，这种添加可以产生更好的结果并进一步稳定训练。我们以相对较小的方差值开始训练，并在训练过程中线性减小，直到在最后几个时期基本上变为零。这在第4节中经过实证验证。03.3.2 重新训练流程0训练完成后，我们使用来自第3.2节的训练生成器和训练编码器。我们按照以下步骤创建“野外”2D/3D数据对：将“野外”2D图像输入编码器并获得标签 ˜ y 。然后使用标签 ˜y和生成器生成输入图像的3D点云。如图8所示，尽管TongueGAN仅在我们收集的数据上进行训练，但它能够在“野外”图像中很好地进行泛化，因此我们可以使用它创建2D/3D舌头对。我们将此过程应用于多个“野外”图像以创建多个数据对。最后，我们使用上述数据对重新训练第3.2节中的流程。04. 实验0在本节中，我们提供了有关训练的详细信息，并在控制条件和“野外”条件下概述了一系列定量和定性实验。在第3.2节中，用于标签 ˜ y 与PCA参数 p t之间回归的MLP具有结构（256, 128,110），中间层使用ReLU激活函数。平衡损失的超参数（2）的值为 λ 1 = 1.2，λ 2 = 1.6e-4，λ 3 = 0.4，λ 4 =0.2，λ 5 = 0.8和λ 6 =1.5。如第3.3节所述，对于TongueGAN，我们使用了WGAN with GP[16]的变体，其中包括注入机制[8]以及第3.3.1节中介绍的表面损失函数。具体来说，我们使用了一个9层生成器（G）和一个8层判别器（D），参数总数分别约为8×10^6和4×10^6。我们使用Adam优化器[21]进行TongueGAN的训练，其中β 1 = 0，β 2 =0.9。我们还使用批量大小为2048进行了总共10^6次迭代的训练。根据[18]中提出的思想，我们为D和G使用单独的学习率。a)b)c)d)TongueGAN1.62e-25.25e-5Tongue-Reg1.79e-21.10e-4PC-GAN1.82e-21.13e-4TongueGAN v11.97e-21.67e-4TongueGAN v22.24e-22.09e-427770图6.我们数据库中不同舌头表情的各种原始3D舌头扫描图像以及相应的2D渲染图像。0其中D和G的学习率分别为1e-4和1e-5。最后，我们从(4)中开始训练时，方差σ e为5e-3，并且每50×10^3步线性减小10%。更详细的网络结构请参阅补充材料。04.1. 在控制条件下的3D重建0在这组实验中，我们使用了TongueDB的90%进行训练，剩余部分用于测试。由于舌头作为一个表面的复杂性（如我们在第3.3节中详细解释的），我们决定使用GAN来进行舌头表面生成部分的训练。此外，使用GAN进行训练的另一个原因是它能够在测试期间很好地泛化到未见过的标签。据我们所知，唯一能够根据未见过的标签进行点云生成的方法是PointCloud GAN (PC-GAN)[23]。因此，在接下来的内容中，我们将与PC-GAN[23]以及TongueGAN的另外两个变体进行比较，即：a)TongueGANv1，与TongueGAN相同，唯一的区别是此版本中没有新的损失函数（第3.3.1节），以及b) TongueGANv2，这是典型的GAN结构，其中我们使用简单的串联而不是注入。最后，我们还报告了在重新训练流程（3.2）中重新训练后的形状模型的舌头表情的结果（称为Tongue-Reg）。为此，我们仅考虑围绕口腔区域的一个小区域，该区域由地面真实点云定义，以便推断出正确的误差。定量结果在表1中给出，定性结果在图7中呈现。对于定量结果，我们使用TongueDB的测试集，并根据无序3D数据常用的两种距离类型（Chamfer距离和EarthMover's距离）[13]来衡量误差。从所有比较中可以清楚地看出，TongueGAN在性能上大大优于其他方法。0图7. 对TongueDB测试集中的各种点云进行质量比较。a)输入图像In b) 真实点云，c) TongueGAN点云，最后d)point-cloud GAN[23]点云。可以看出，TongueGAN能够更准确地表示3D舌面。0表1.使用CD和EMD作为度量标准对比方法之间的定量比较。较低的值表示更好的性能。TongueGAN在所有设置中取得了最佳结果。0方法 EMD CD0而Tongue-Reg在其他方法中表现更好。04.2. “野外”条件下的3D重建0在本节中，我们尝试从“野外”图像中重建舌头的3D表面以及整个头部结构。在这组实验中，我们使用了TongueDB的所有数据进行训练。我们还将另外5K个“野外”舌头图像添加到我们的训练数据中，并使用TongueGAN创建它们的3D点云。使用所有这些数据，我们根据第3.3.2节重新训练了流程。由于我们没有地面实况点云数据来报告定量比较，所以结果仅为视觉结果。关于比较，我们应该注意到PointCloudGAN[23]无法在这些实验中使用，因为为了在条件设置下工作，它需要将实际的地面实况点云作为输入，而我们没有这样的数据。鉴于TongueGAN的变体（即TongueGANv1和TongueGAN v2）的性能比PointCloud GAN[23]差，我们在本节中仅呈现关于TongueGAN的结果。In this work, we presented the first pipeline which is ableto perform 3D head and tongue reconstruction from a singleimage. To achieve this, we collected the first diverse tonguedataset with various tongue shapes and positions which wemake publicly available to the research community. To alsomake this pipeline robust in “in-the-wild” images and tomitigate the absence of their corresponding ground-truth3D tongue data, we introduced the first GAN method thatis tailored for accurately reconstructing the 3D surface ofOurs after re-trainingGANFitOursUHMInput ImageTongue shape after re-trainingGANFitTongue shapeUHMInput Image27780图8.从“野外”图像中进行的带有舌头动画的3D头部重建。从左到右，我们展示了“野外”图像，然后是来自两个视点的点云生成，最后是带有口腔周围放大区域的3D头部重建。0由于我们的舌头回归方法基于UHM的平均模板网格，我们可以轻松地利用[33]中提出的流程将我们的方法扩展到特定的面部身份。我们首先将面部网格拟合到图像域中，以获取2D/3D标记点和主体的身份，然后根据UHM模型回归到完整的头部拓扑。在重建头部形状后，我们在预测的2D嘴部标记点周围裁剪图像。然后将这个裁剪后的图像输入到重新训练的流程中，并根据第3节中提到的方法得到平均头部形状和舌头表情。最后，我们将预测的舌头形状与相关身份合并，将预测的舌头表情视为单独的混合形状。图8中展

下载后可阅读完整内容，剩余1页未读，立即下载