合成数据在野外面部分析中的应用与突破

58 浏览量更新于2023-12-18 收藏 2.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3681假装直到你做到：仅使用合成数据进行野外面部分析埃罗尔·W·古德*T·巴尔特鲁的妻子 *查理·H·维特·塞巴斯蒂安·齐亚齐奥·托马斯·J·。现金男杰米·肖顿微软摘要我们证明了在野外单独使用合成数据进行与面部相关的计算机视觉是可能的长期以来，社区一直享受着将训练数据与图形合成的好处，但真实数据和合成数据之间的领域差距仍然是一个问题，特别是对于人脸。研究人员试图通过数据混合、领域自适应和领域对抗训练来弥合这一差距我们描述了如何将程序生成的参数化3D人脸模型与全面的手工制作资产库相我们训练机器学习系统来完成与面部相关的任务，如地标定位和面部解析，这表明合成数据既可以在准确性上与真实数据相匹配，也可以开辟新的方法，使手动标记成为不可能。1. 介绍当面对机器学习问题时，最困难的这在与人类相关的计算机视觉领域尤其困难，其中对模型公平性和就业道德的关注至关重要[31]。而不是收集和标记真实数据，这是缓慢的，昂贵的，并受到偏见，它可以更好地使用计算机图形合成训练数据[68]。使用合成数据，您可以保证完美的标签而没有注释噪音，生成丰富的标签，否则无法手工标记，并完全控制数据集中的变化和多样性。在计算机图形学中，如何使人信服是最困难的问题之一电影和视频游戏已经表明，现实的数字人类是可能的，但随着*表示平等缴款。https://microsoft.github.io/FaceSynthetics图1.我们以前所未有的真实感和多样性呈现人脸的训练图像。上面的第一个例子与3D几何形状和机器学习的附带标签一起显示艺术家的努力[22，26]。虽然因此，以前的工作都是通过简化来合成面部训练数据，结果远非现实。我们已经看到了尝试使用域适应来跨越域差距的努力的进展[60]，通过改进合成图像以看起来更真实，以及域对抗训练[13]，其中鼓励机器学习模型忽略合成和真实域之间的差异，但尝试提高合成数据本身质量的工作较少。合成真实的人脸数据被认为是如此困难，以至于我们遇到了这样一个假设，即合成数据不能完全取代真实数据来解决野外问题[60]。在本文中，我们证明了合成数据的机会比以前实现的要广泛得多，并且今天是可以实现的我们提出了一种获取人脸训练数据的新方法有了足够好的合成框架，3682模板脸+身份+表情+纹理+头发+衣服+环境图2.我们程序化地构建逼真且富有表现力的合成面孔。从我们的模板脸开始，我们随机化身份，选择随机表情，应用随机纹理，附加随机头发和衣服，并在随机环境中渲染脸部创建训练数据，可以用来解决现实世界中的问题，而无需使用任何真实数据。它需要相当多的专业知识和投资，以开发一个综合框架与最小的域差距。然而，一旦实现，就可以以最小的增量努力生成各种各样的训练数据让我们考虑一些例子;假设你花了时间用地标标记人脸图像。但是，您突然需要在每个图像中添加其他地标。重新标记和验证将花费很长时间，但使用synn- thetics，您可以重新生成干净且一致的标签，请稍等。或者，假设您正在为新相机开发计算机视觉算法，例如，移动电话中的红外人脸识别相机几乎没有硬件原型存在，这使得很难收集数据集。Synthetics允许您从模拟设备中渲染面部，以开发算法，甚至指导硬件设计本身。我们通过将参数化人脸模型与大量高质量艺术家创建的资产（包括纹理、头发和服装）相结合来合成人脸图像（见图2）。有了这些数据，我们训练了常见的面部相关任务的模型：面部解析和地标定位。我们的实验表明，使用单个通用合成数据集训练的模型可以与使用特定任务的真实数据集训练的模型一样准确，实现符合最新技术水平的结果。这为其他与面部相关的任务打开了大门，这些任务可以自信地使用合成数据而不是真实数据来解决。我们的贡献如下。首先，我们描述了如何合成现实和多样化的训练数据，在野外进行人脸分析，实现符合最新技术水平的结果。其次，我们提出了消融研究，验证所采取的步骤，以实现逼真。第三个是合成数据集本身，可以从我们的项目网页：https://microsoft.github.io/FaceSynthetics 获得。2. 相关工作多样的人脸数据集很难收集和标注。收集技术，如网络爬行构成重大的隐私和版权问题。手动注释-该操作容易出错，并且通常会导致标签不一致因此，研究界越来越多地考虑用合成数据来增强或取代真实数据。2.1. 合成人脸数据计算机视觉社区已经将合成数据用于许多任务，包括对象识别[23，44，51，73]，场景理解[12，25，47，50]，眼动跟踪[63，68]，手部跟踪[40，61]和全身分析[41，59，65]。然而，相对较少的以前的工作已经尝试使用计算机图形生成全脸合成，由于建模的人的头部的复杂性。一种常见的方法是使用3D变形模型（3DMM）[5]，因为这些可以为不同的面部提供一致的标签。以前的工作集中在面部的部分，如眼睛区域[62]或曲棍球面具[45，76]。Zeng等人[76]、Richardson等人[46]和Sela等人。[58]使用3DMM渲染训练数据以重建详细的面部几何形状。类似地，Wood et al.[69]绘制眼睛区域3DMM以进行凝视估计。然而，由于这些方法仅渲染面部的一部分，因此所得到的数据对于考虑整个面部的任务的使用有限。构建参数化模型具有挑战性，因此替代方案是直接渲染3D扫描[4，55，62，68]。 Jeni等人[24]渲染BU-4DFE数据集[74]以进行密集3D面部对齐，Kuhnke和Ostermann [30]渲染商用3D头部扫描以进行头部姿势估计。虽然这些方法通常是现实的，但它们受到扫描本身所表达的多样性的限制，并且无法为机器学习提供丰富的语义标签。操纵2D图像可以是使用3D图形流水线的替代方案。Zhu等人。[79]将3DMM拟合到面部图像，并将其扭曲以增强头部姿势。Noja- vanasghari等人[42]将手部图像合成到面部上以提高面部检测。这些方法只能对现有图像进行微小的调整，限制了它们的使用。2.2. 使用合成数据进行虽然它是常见的依赖于合成数据单独全身任务[54，59]，合成数据很少用于其3683∈∈∈∈T→∈J→∈T（β→，β→）j=T +βiSij+βiEijJkklk用于面部相关的机器学习。相反，它要么首先进行调整，使其看起来更像某个目标域，要么与真实数据一起用于预训练[76]或正则化模型[16，29]。其原因是域间隙学习域自适应修改合成图像，以更好地匹配真实图像的外观。Shrivastava等人。[60]使用对抗细化器网络来调整具有正则化的合成眼睛图像以保留注释。类似地，Bak等人。[3]使用具有用于保持身份的正则化项的Cycle-GAN[77]学习域自适应的一个限制是图像语义在自适应过程中变化的趋势[15]，因此需要正则化[3，40，60]。因此，这些技术不适用于细粒度的注释，例如每像素标签或精确的地标坐标。而不是适应数据，可以学习抵抗域之间差异的特征[13，57]。Wu等人[71]通过域分类器混合真实和合成数据，以学习用于文本检测的域不变特征，Saleh等人[56]利用观察结果，即形状受域间隙的影响小于场景语义分割的外观。在我们的工作中，我们不执行这些技术中的任何一种，而是通过生成高度真实的合成数据来最小化源处的域间隙。3. 合成人脸图像视觉效果（VFX）行业已经开发了许多技术来说服观众3D人脸是真实的，我们在我们的方法中建立了这些技术。然而，一个关键的区别是规模：虽然VFX可能用于少数演员，但我们需要数千个合成个体的多样化训练数据。为了解决这个问题，我们使用程序生成来随机创建和渲染新的3D人脸，而无需任何手动干预。我们首先对一个生成的3D人脸模型进行采样，该模型捕捉了人类群体的多样性然后，我们用大量的头发、衣服和配饰样本对每张脸进行随机所有集合都是独立采样的，以创建尽可能不同的合成个体。本节描述了我们构建的技术组件，以便能够以随机但合理的方式在3D表面上混合和匹配资产集合3.1. 3D脸部模型我们的生成3D人脸模型捕捉了人脸形状在人群中的变化，以及面部表情的变化。这是一个基于混合变形的面部装备类似于以前的工作[17，34]，并包括N=7，667的网格图3.从我们的生成模型中采样的3D人脸，展示了我们的模型如何捕捉人类人口的多样性300200100020304050607080年龄（岁）图4.在我们的扫描收集中，自我报告的年龄和种族的直方图我们的收藏涵盖了不同的年龄和种族。顶点和7，414个多边形，以及K=4个关节：头部、颈部和两只眼睛。面网格顶点位置由网格生成函数M（β→，θ→，β→）定义：R|β→| ×|ψ→| ×|θ→|→RN×3，其中参数为β→R|β→|foridentity，R|ψ→|对于e表达式，θ→RK×3表示s k的平方。姿态参数θ→是表示为欧拉角的局部旋转。M被定义为M（β→，θ→，θ→）=L（T（β→，θ→），θ→，J（β→）;W）其中L（X，θ→，J;W）是一个标准的线性混合蒙皮（LBS）函数[33]，它通过局部关节旋转θ →围绕关节位置J ∈ R K × 3旋转顶点位置X ∈ RN ×3，每个顶点的权重W∈RK× N确定如何在网格上插值旋转。（β→，β→）：R|β→| ×|ψ→|RN×3在约束姿态下构造人脸网格，位移到模板网格TRN×3，其表示具有中性表情的平均面部：Jkkk kg iv en线性恒等基S∈R|β→| ×N×3与表示基E R|ψ→|×N×3。注意在这个定义和下面的定义中使用了爱因斯坦求和符号. 最终y，（β→）：R|β→|RK×3将模板接缝位置JRK×3移动到ac-身份变化的计数J（β→）j=J+W jβi我们从M=511个具有中性表达的个体的高质量3D扫描中学习身份基础S每个扫描女性男性女性男性3684∈--原清洁图5.我们手动我们使用由此产生的干净扫描来构建我们的生成几何模型和纹理库。图6.来自我们的数据驱动表达式库和手动动画序列的示例，在我们的模板面上可视化。w被清理（见图5），并使用商业软件[52]注册到T的拓扑结构，从而得到训练数据集VRM×3N。然后，我们联合拟合恒等基S和参数[β→1，. . . ，β→M]到V。为了生成一个新的面部形状，我们拟合一个多元正态分布，拟合身份参数，并从中取样（见图3）。如在计算机动画中常见的，表达基础E和蒙皮权重W都是由艺术家创作的，并且在学习S时保持固定。3.2. 表达我们将随机表情应用于每个面部，以便我们的下游机器学习模型对面部运动具有鲁棒性我们使用两种面部表情来源。我们的首要源代码是一个包含27，000个表达式参数的库通过将3D面部模型拟合到具有注释的面部标志的2D图像的语料库来构建。然而，由于注释的界标是稀疏的，因此不可能单独从这些界标恢复所有类型的表情，例如脸颊吹气。因此，我们还从手动动画序列中对表情进行了采样，该序列旨在通过以现实但极端的方式练习面部来填补我们表情库图6显示了我们的表达式集合中的示例除了面部表情之外，我们还在采样的表情之上分层随机的眼睛注视方向，并使用程序逻辑来相应地设置眼睑。3.3. 纹理即使在非常近的距离观看，合成人脸也应该看起来很逼真，例如通过头戴式设备中的眼睛跟踪摄像头。为此，我们收集了200组高分辨率（8192×8192 px）纹理图7.我们对3D人脸模型应用了粗位移和中位移，以确保即使在近距离观察时，人脸看起来也很逼真。图8.我们的头发库包含各种各样的头皮头发，眉毛和胡子。在组装3D人脸时，我们随机选择发型和外观我们的面部扫描结果对于每一次扫描，我们提取一个皮肤颜色的纹理和两个位移图（参见图7）。粗略的位移图编码扫描几何形状，这不是由我们的顶点级身份模型的稀疏性质捕获的。中尺度位移贴图近似皮肤毛孔级别的细节，并通过高通滤波的皮肤纹理，假设暗像素对应于皮肤的轻微凹陷的部分。与以前的工作不同[45，76]，我们没有建立纹理的生成模型，因为这样的模型很难忠实地产生高频细节，如皱纹和毛孔。相反，我们只需从每次扫描中选取一组相应的平移和位移纹理。这些纹理被组合在一个基于物理的皮肤材料中，该材料具有次表面散射[9]。最后，我们可以选择应用化妆效果来模拟眼影，眼线和睫毛膏。3.4. 头发与其他用纹理或粗糙几何形状近似头发的工作相反[17，55]，我们将头发表示为单独的3D股，整个头发包括超过100，000股。在头发束级别建模头发使我们能够捕捉逼真的多路径照明效果。如图8所示，我们的头发库包括512种头皮发型、162种眉毛、142种胡须和42组睫毛。每个资产都是由一个专门从事数字头发创作的新郎艺术家创作的在渲染时，我们随机组合头皮、眉毛、胡须和睫毛梳。我们使用一个基于物理的程序头发着色器来AC-人脸模型+粗糙显示+中位分散3685×图11.我们随机生成并渲染的合成人脸示例，用作训练数据。图9.每一张脸都穿着从我们的数字衣柜中随机组装的服装图10.我们使用HDRI来照亮面部。同一张脸在不同的照明下看起来会有很大的不同。精确地模拟头发的复杂材料特性[8]。这个着色器允许我们使用黑色素[38]和灰色参数来控制头发的颜色，甚至可以让我们为不太常见的发型染色或漂白头发。3.5. 服装面部图像通常包括某人的穿着，所以我们用3D服装来打扮我们的脸。我们的数字衣橱包含30套上身服装，这些服装是使用服装设计和模拟软件手动创建的。如图9所示，这些服装包括正式、休闲和运动服装。除了上身的衣服，我们还戴着头饰（36件）、面罩（7件）和眼镜（11件），包括头盔、头巾、面罩和眼镜。所有的服装项目都是在一个无衣的身体网格上创作的，无论是男性还是女性的身体比例[37]都是放松的。我们用一种非刚性的基于笼的变形技术[2]使服装变形，这样它们就能紧贴在不同形状的脸上。眼镜是用骨架装配的，并使用逆运动学来摆姿势，这样太阳穴和鼻梁就放在脸上相应的部位上。3.6. 渲染我们使用Cycles渲染人脸图像，Cycles是一个真实感光线跟踪渲染器[6].我们在头部周围随机放置一个摄像头焦距和景深是不同的，以模拟不同的相机和镜头。我们采用基于图像的照明[11]，图12.我们还为机器学习合成标签。以上是图1所示之外的其他标签类型。动态范围图像（HDRI）来照亮面部并提供背景（参见图10）。对于每张图像，我们从包含一系列不同环境的448个 HDRI集合中随机挑选[75]。请参见图11，其中显示了使用我们的框架渲染的人脸示例。除了渲染彩色图像外，我们还生成了地面真值标签（参见图12）。虽然我们在第4节中的实验主要集中在界标和分割注释上，但synthetics使我们能够轻松创建各种丰富而准确的标签，从而实现新的面部相关任务（见第4.5）。4. 人脸分析我们在两个常见的人脸分析任务上评估我们的合成数据：人脸解析和地标定位。我们表明，在我们的合成数据上训练的模型表现出了与最新技术水平相竞争的性能。请注意，使用我们的模型进行的所有评估都是跨数据集的-4.1. 培训方法我们为地标定位和人脸解析渲染了一个单一的训练数据集，包括100，000张图像，512 512分辨率。使用150个NVIDIA M60 GPU进行渲染需要48小时。在训练过程中，我们执行数据增强，包括旋转、透视扭曲、模糊、亮度和对比度调制、添加噪声以及转换为灰度。这样的增强对于合成图像尤其重要，否则合成图像没有缺陷（参见子章节4.4）。虽然其中一些可以在渲染时完成，但我们在训练时执行它们，以便随机反照率法线深度掩模UVs顶点3686××Input Trained with + label Trained withGround（LaPa）synth.数据自适应真实数据图13.我们训练了一个人脸解析网络（仅使用合成数据），然后是一个标签自适应网络，以解决合成标签和人类注释标签之间的系统差异。将不同的增强应用于相同的训练图像。我们用PyTorch实现了神经网络[43]，并用Adam优化器训练它们[28]。4.2. 面部解析面部解析为图像中的每个像素分配类别标签，例如皮肤，眼睛，嘴巴或鼻子。我们在两个人脸解析数据集上评估了我们的合成训练数据：He- len[32]是文献中最知名的基准。它包含2，000张训练图像，230张验证图像和100张测试图像，每张图像有11个类。由于原始数据集中的标签错误，我们使用Helen* [35]，这是一个流行的数据集校正版本，其特征是校正的训练标签，但为了公平比较，测试标签未被修改LaPa[36]是一个最近发布的数据集，它使用与Helen相同的标签，但具有更多的图像，并展示了更具挑战性的表情，姿势和遮挡。它包含18，176张训练图像，2，000张验证图像和2，000张测试图像。正如常见的[35，36]，我们使用提供的2D着陆标记在处理前对齐面。我们缩放和裁剪每个图像，使地标集中在512 512px的感兴趣区域。在预测之后，我们撤销此转换以根据原始标签注释计算结果，而不进行任何调整或裁剪。方法将人脸分析看作是图像到图像的翻译。给定包含C类的输入彩色图像x，我们希望预测具有与地面实况标签图像匹配的相同空间维度的C通道标签图像y. y中的像素是用真类的索引进行独热编码的。为此，我们使用UNet [49]和ResNet-18编码器[21，72]。我们仅使用合成数据训练该网络，最大限度地减少预测图像和地面真实标签图像之间的二进制交叉熵（BCE）损失请注意，我们选择的架构或损失函数并不新颖，这是一种很好理解的方法。标签自适应。合成标签和人类注释标签之间必然存在微小的系统差异。例如，鼻子和脸部其他部位之间的界限到底在哪里？评价图14.使用合成数据（有和没有标签适应）和真实数据训练的网络的人脸解析结果。标签适应性解决了合成标签和真实标签之间的系统差异，例如鼻类的形状或毛发的粒度。我们的合成数据，而不需要仔细调整我们的合成标签生成过程为特定的真实数据集，我们使用标签适应。标签自适应将我们的人脸解析网络（仅使用合成数据进行训练）预测的标签转换为更接近真实数据集中分布的标签（见图13）。我们将标签自适应视为另一个图像到图像的翻译任务，并使用带有ResNet18编码器的UNet[72]。为了确保这个阶段不能“作弊”，它只在预测标签y和地面真实标签y对上它完全独立于面部解析网络进行训练，并且从未看到任何真实图像。结果与现有技术的比较见表1和2，一些预测实例见图14。虽然用我们的通用合成数据训练的网络并没有超过最先进的水平，但值得注意的是，它们实现了与以前在特定任务数据上训练的数据集内工作相似的结果对比真实数据。我们还在每个真实数据集的训练部分上训练了一个网络，以将我们的训练方法与我们的合成数据分开，在表1和表2中显示为可以看出，单独使用合成数据进行训练产生的结果与使用真实数据进行训练的结果相当。4.3. 地标定位地标定位在2D中找到感兴趣我们在300W[53]数据集上评估了我们的方法，该数据集分为公共（554张图像），隐藏（135张图像）和私有（600张图像）子集。方法我们训练了一个具有均方误差损失的ResNet34[21]，以直接预测每张图像的68个2D地标坐标。我们使用所提供的边界框从每个图像中提取256 256像素的感兴趣区域。私有集没有边界框，因此我们使用了紧凑的裁剪面部解析标签自适应Synth.预测真实预测自适应图像标签图像标签标签BCE损失仅使用合成数据进行训练权重固定BCE损失GT标签的培训仅标记图像GT标签3687表1.与Helen数据集上的最新技术水平进行比较，使用F1评分。通常，头发和其他细粒度类别的分数被省略，以帮助与以前的工作进行比较。总得分是通过合并鼻子、眉毛、眼睛和嘴巴类别来计算的。使用我们的合成数据进行训练，可以达到与最先进的水平一致的结果，并使用真实数据进行训练。方法皮肤鼻子上唇内口下唇眉头眼睛嘴整体Guo等人[19]AAAI93.894.175.883.783.180.487.192.490.5Wei等人[67]TIP95.695.280.086.786.482.689.093.691.6Lin等人[35]第35话94.595.679.686.789.883.189.695.092.4Liu等人[36]第三十六话94.995.883.789.191.483.589.896.193.1Te等人[64]第64话94.696.183.689.891.090.284.995.593.2我们的（真实）95.194.781.687.088.981.587.694.891.6我们的（合成）95.194.582.389.189.983.587.395.192.0表2.使用F1评分与LaPa的最新技术水平进行比较。对于眼睛和眉毛，L和R是左和右。对于唇，U、I和L是上、内和下。使用我们的合成数据进行训练，可以达到与最先进的水平一致的结果，并使用真实数据进行训练。方法皮肤毛发L眼R眼U唇I口L唇鼻L眉R眉平均值Liu等人[36个]AAAI'2097.296.388.1 88.084.487.685.795.587.787.689.8Te等人[六十四]ECCV'2097.396.289.5 90.088.190.089.097.186.587.091.1我们的（真实）97.586.991.4 91.587.389.889.496.989.389.390.9我们的（合成）97.185.790.6 90.185.988.888.496.788.688.590.1表3.地标定位结果的共同，具有挑战性的，和私人子集的300W。在任何情况下，越低越好注意0.5 FR速率转换为3张图像，而0.17对应于1张图像。图15.标签调整之前（顶部）和之后（底部）的预测主要的区别是将下颌线从3D投影改为2D投影，以跟随图像中的面部轮廓。图16.使用真实数据（上图）和合成数据（下图）训练的网络的预测。请注意，合成数据网络如何更好地跨表情、照明、姿势和遮挡进行生成。周围的地标。使用双层感知器进行标签自适应，以解决合成和真实标志标签之间的系统差异（图15）。这个网络在训练过程中从不接触任何真实图像。结果作为评价指标，我们使用：用途：标准化平均误差（NME）[53]-通过眼间外眼距离标准化; 和低于 10% 误差阈值的失败率（F R10%）。关于与300 W最新技术水平的比较，请参见表3数据集。很明显，用我们的合成数据训练的网络可以检测到地标，其准确性与用真实数据训练的最新方法相当。方法共同NME挑战性NME私人法国10%[20]第二十话CVPR'17--3.67实验室[70]CVPR'182.985.190.83AWING [66]ICCV'192.724.520.33ODN [78]CVPR'193.566.67-[48]第四十八话3.196.87-3FabRec [7]CVPR'203.365.740.17我们的（真实）3.375.771.17我们的（合成）3.094.860.50消融研究无扩增4.257.874.00外观增强3.936.801.83没有头发和衣服3.365.372.17没有衣服3.205.091.00无标签自适应（合成）5.618.434.673688与真实数据的比较我们将我们的训练方法（包括数据增强和标签自适应）应用于300W数据集的训练和验证部分，以更直接地表3清楚地表明，使用合成数据进行训练可以获得更好的结果，即使与在真实数据上训练并在数据集内进行评估的模型相比也是如此4.4. 消融研究我们研究了合成数据集大小对地标准确性的影响。图17显示，在100，000张图像开始达到稳定水平之前，随着训练图像数量的增加，标志定位得到改善36893.43.2300W普通5.45.25.0300W散热器4.84.64.4300W专用4510 104510 104 510 10训练图像数量（对数标尺）图17.随着我们使用越来越多的合成训练数据，地标定位精度得到提高。图18.很容易生成用于眼动跟踪的合成训练数据（左），它可以很好地推广到真实世界的图像（右）。我们研究了在合成数据上训练模型时数据增强我们通过以下方式训练模型1)无增强; 2）仅外观增强（例如颜色偏移、亮度和对比度）; 3）完全增强，改变外观和几何形状（例如旋转和扭曲）。表3显示了增强的重要性，没有增强，合成数据的表现不会超过真实数据。表3还显示了在评估基于合成数据训练的模型时标签自适应的重要性-使用标签自适应来提高标签一致性，减少错误。将标签自适应添加到在真实数据上训练的模型中，性能变化很小，这表明它并没有使已经一致的数据集内标签受益。如果我们除去衣服和头发，地标精度降低（表3）。这验证了我们的头发库和数字衣柜的重要性，提高了我们的数据的真实性其他消融研究分析渲染质量的影响，以及姿势、表情和身份的变化，请参阅补充材料。4.5. 其他示例除了上面的定量结果，本节定性地演示了我们如何使用我们的合成人脸框架解决其他眼动跟踪可以是虚拟或增强现实设备的关键功能，但真实的训练数据可能难以获取[14]。由于我们的脸看起来很逼真的特写镜头，我们很容易设置一个合成眼动跟踪相机，并渲染各种训练图像，以及地面实况。图18示出了用于这种相机的示例合成训练数据以及语义分割的结果。密集的地标。在4.3小节中，我们给出了68个面部标志的定位结果。如果我们想预测十倍于此的地标呢？人类不可能一致地注释这么多地标图19.通过合成数据，我们可以轻松地训练模型，准确地预测十倍于平常的地标。以下是300W数据集上的一些密集地标预测示例。而且正确然而，我们的方法可以让我们很容易地生成准确的密集地标标签。图19显示了修改地标网络以回归679个坐标而不是68个坐标，并使用合成数据对其进行训练4.6. 讨论我们已经证明，对于两个常见的任务：面部解析和地标定位，在训练期间不使用单个真实图像的情况下，可以实现与现有技术水平相当的结果这一点很重要，因为它为许多其他与面部相关的任务打开了大门，这些任务可以使用合成数据代替真实数据来解决。局限性依然存在。由于我们的参数化人脸模型只包括头部和颈部，我们无法模拟低领口的服装。我们不包括依赖于表达式的仿射效应，因此在某些表达式中，真实性受到影响。由于我们独立地对模型的各个部分进行采样，我们有时会得到不寻常（但并非不可能）的组合，例如有胡子的女性面孔我们计划在未来的工作中解决这些限制。真实感绘制的计算量很大，因此必须考虑环境代价。为了生成本文中使用的数据集，我们的GPU集群使用了大约3，000kWh的电力，大约相当于1.37公吨二氧化碳，其中100%由我们的云计算提供商抵消这种影响通过云计算提供商的持续进步来减轻，以实现碳负排放并使用可再生能源[1，18，39]。此外，还需要考虑财务成本。假设M60 GPU每小时1美元（云提供商的平均价格），渲染10万张图像的成本为7,200美元虽然这看起来很昂贵，但实际的数据收集成本可能要高得多，特别是如果我们考虑注释的话。鸣谢我们感谢Pedro Urbina、Jon Hanzelka、RodneyBrunet 和 Panagiotis Giannakopoulos 的艺术贡献; 感谢Virginia Estellers和Matthew Johnson对面部模型的贡献。标准化平均误差3690引用[1] 亚马逊亚马逊气候承诺。网址：//www.aboutamazon.com/planet/climate-pledge，2021年。8[2] G. R.安德森，M。J. Aftosmis和M.奈米克用于气动外形设计的离散几何参数化变形。飞机杂志，2012年。5[3] S. Bak，P. Carr和J. - F.拉隆德通过合成的域自适应用于无监督的人重新识别。在ECCV，2018年。3[4] T. Baltru sP. Robinson和L. P. Moren cy. 用于刚性和非刚性面部跟踪的3D约束在CVPR，2012年。2[5] 诉Blanz和T.维特一种用于合成3d人脸的可变形模型第26届计算机图形和交互技术，第187- 194页，1999年2[6] Blender Foundation. 循环渲染器。网址： //www.cycles-renderer.org/，2021年。5[7] B. Browatzki和C.墙鸦3FabRec：通过重建快速少镜头人脸对齐。在CVPR，2020年。7[8] M. J. - Y.蒋湾比特利角Tappan和B.伯利一种实用可控的毛发模型，用于生产路径跟踪。在计算机图形论坛，2016年。5[9] P. H.克里斯滕森有效次表面散射的近似反射率剖面。在SIGGRAPH会谈，2015年。4[10] CLO虚拟时装公司出色的设计师。http：//www.marvelousdesigner.com/，2021年。5[11] 德贝维克基于图像的照明。在SIGGRAPH课程，2006年。5[12] A. Gaidon，Q.Wang，Y.Cabon和E.维格VirtualWorlds作为多对象跟踪分析的在CVPR，2016年。2[13] Y. Ganin，E.乌斯季诺娃Ajakan山口Germain，H.拉罗谢尔，F. Laviolette，M. Marchand和V. Lempitsky。神经网络的领域对抗训练。JMLR，2016. 1、3[14] S. J. Garbin，Y.申岛许茨河Cavin，G.休斯和S. S.塔拉希OpenEDS：Open Eye数据集。arXiv预印本arXiv：1905.03702，2019。8[15] S. J. Garbin，M.Kowalski，M.Johnson和J.Shotton 合成渲染人脸图像的高分辨率零激发域自适应。在ECCV，2020年。3[16] B.盖策湾Bhattarai，J. Kittler和T.- K. Kim.半监督对抗学习从三维变形模型生成新身份的真实感人脸图像在ECCV，2018年。3[17] T. Gerig，A. Forste r，C. Blume r，B. Egge r，M. 卢伊提，S. Sc hönborn和T. 韦特河可变形的面模型-一个开放的框架。自动人脸和手势识别，2017年。三，四[18] Google. Google Cloud 可持续性 https ： //cloud.google.com/sustainability/，2021年。8[19] T. Guo，Y. Kim，H. Zhang，L.钱湾，澳-地Yoo，J.Xu，D.邹，J. - J.Han和C.阿财用于面部解析的残差编码器解码器网络和自适应先验。在AAAI，2018年。7[20] R. A.Guéle r，G.Trigeor gis，E. 安东纳科斯山口斯内普，S. Zafeiriou和我。科基诺。DenseReg：Fully Convolu-tional Dense Shape Regression In-the-Wild，2017。7[21] K. 他，X。Zhang，S.Ren和J.太阳用于图像识别的深度残差在CVPR，2016年。6[22] D.亨德勒湖莫泽河Battulwar，D.科拉尔，P.克莱默，R. 米勒河，巴西-地Cloudsdale和D.罗伯复仇者联盟：捕捉灭霸在SIGGRAPH会谈，2018年。1[23] T. Hoda n.，V. 维内特河Gal，E. Shal ev，J. Hanzelka，T. Connell，P. Urbina，S. N. Sinha和B.冈特用于物体实例检测的真实感图像合成。在2019年IEEE图像处理国际会议（ICIP）上，第66-70页IEEE，2019年。2[24] L. A. Jeni，J.F. Cohn和T.卡纳德实时从2D视频中进行密集的3D人脸对齐在2015年第11届IEEE国际会议和自动人脸和手势识别（FG）研讨会上2[25] A. 卡尔，A. Prakash，M. Y. Liu，E. Cameracci，J. 袁，M. Rusiniak，D. Acuna，A. Torralba和S.菲德勒Meta-Sim：学习生成合成数据集。在ICCV，2019年。二、三[26] B. Karis，T. Antoniades，S. Caulkin和V. Mastilovic。数字人类：穿越ue4中的神秘谷。游戏开发者大会，2016年。1[27] T.卡拉斯，S。莱恩，M。Aittala、J. Hellsten、J. Lehtinen和T. 艾拉分析并改进了Style-100的图像质量乾在CVPR，2020年。1[28] D. P. Kingma和J. Ba. Adam：一种随机优化方法。arXiv预印本arXiv：1412.6980，2014年。6[29] M. Kowalski，S. J. Garbin，V. Estellers，T. 巴尔特鲁的心脏病，M.约翰逊和J. Shotton。配置：可控神经人脸图像生成。在ECCV，2020年。3[30] F. Kuhnke和J.奥斯特曼使用合成图像和连续标签空间的部分对抗域自适应进行深度头部姿态估计在CVPR，2019年。2[31] K. Kaürkkaüinen和J. 乔Fairface：平衡种族、性别和年龄的Face属性数据集在WACV，2021年。1[32] V. Le，J. Brandt，Z.林湖，澳-地Bourdev和T. S.煌交互式面部特征定位。在ECCV，2012年。6[33] J. P.刘易斯，M. Cordner和N.十方姿态空间变形：形状插值和子驱动变形的统一方法。SIGGRAPH，2000年。3[34] T. Li，T. Bolkart，M. J. Black，H. Li和J. Romero。从4D扫描中学习面部形状和表情的模型SIGGRAPH Asia，2017. 3[35] J. Lin，H.Yang，杨氏D.Chen，M.Zeng，F.Wen和L.元使用RoI Tanh-Warping进行面部解析。在CVPR，2019年。六、七[36] Y. Liu，H. Shi，H.沈，Y.是的，X。Wang和T.美.一个新的人脸分析数据集和边界注意语义分割。在AAAI，2020年。六、七[37] M. Loper，N.Mahmood，J.罗梅罗湾Pons-Moll和M.J·布莱克。SMPL：一个多人皮肤线性模型。SIG-GRAPH Asia，2015. 5[38] I. Lozano，J. Saunier，S. Panhard和G.卢苏安通过视觉尺度和仪器测量评估人类头发颜色的多样性。一项全球性的调查。国际化妆品科学杂志，39：101-107，2017。5[39] Microsoft.微软将在2030年实现负碳https：//blogs.microsoft.com/blog/2020/01/16/3691微软将在2030年前成为碳负排放，36922021. 8[40] F. 穆勒角，澳-地Bernard，O.Sotnychenko，D.梅塔，S。斯里达，D. Casas和C.希奥博尔特GANerated Hands可从单目RGB进行实时3D手部跟踪在CVPR，2018年。二、三[41] H.宁，W. Xu，Y. Gong和T.煌基于视觉词判别学习的三维人体姿态估计。在CVPR，2003年。2[42] B. Nojavanasghari，T.Baltrus spanaitis、C.E. 休斯和L.P.Mooney。Hand2face：自动合成和识别手在脸上的遮挡。在ACII，2017年。2[43] A. 帕斯克，S. 恶心，F. 马萨，A. Lerer，J.Bradbury，G.查南T.基林角Lin，N.吉梅尔申湖，澳-地Antiga等人PyTorch：一个命令式的高性能深度学习库。NeurIPS，2019年。6[44] W. Qiu ，秋水仙 F. Zhong ， Y. 中国云南省，云南省Zhang，S.乔，Z.肖氏T.S.金姆，Y. Wang和A.尤伊尔。Unrealcv：计算机视觉的虚拟世界.ACM多媒体开源软件大赛，2017年。2[45] E. Richardson，M

下载后可阅读完整内容，剩余1页未读，立即下载