不同类型的输入数据对人脸模型精度的影响

49 浏览量更新于2023-10-25 收藏 1.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

18985输入数据类型对最终人脸模型精度的影响有多大罗嘉豪1法希姆·哈桑·汗1森一诚2阿基拉·德席尔瓦1埃里克·桑多瓦尔·鲁埃兹加1刘明昊1亚历克斯·庞1詹姆斯·戴维斯11加州大学圣克鲁兹分校;2加州大学圣地亚哥分校{jluo53，davisje} @ ucsc.edu摘要人脸模型在图像处理等领域有着广泛的应用。创建3D人脸模型的输入数据范围从精确的激光扫描到简单的2D RGB照片。这些输入数据类型通常是有缺陷的，要么是由于缺少区域，要么是因为它们约束不足。因此，重建方法包括嵌入式先验编码的有效域的脸。系统设计者必须选择输入数据源，然后选择重建方法以获得可用的3D面部。如果某个特定的应用领域要求精度X，那么哪种输入数据是合适的？输入数据是否需要是3D的，还是2D数据就足够了？本文采取了一个步骤来回答这些问题，使用合成数据。地面实况数据集用于分析可从2D地标、3D地标、低质量3D、高质量3D、纹理颜色、法线、密集2D图像数据以及当面部区域缺失时获得的准确度。由于数据是合成的，因此可以在有测量误差和无测量误差的情况下进行分析。然后将这种理想化的合成分析与从2D照片构建3D面部的几种方法的真实结果进行比较实验结果表明，当只有2D原始输入数据存在时，准确性受到严重限制。1. 介绍三维人脸模型用于各种应用领域，包括生物识别[10]，3D化身[54]，社交媒体过滤器和照片编辑[46]。所有这些应用程序都受益于高精度的3D模型，但所需的准确度在逼真渲染的电影和带有卡通耳朵的有趣移动应用程序之间存在用于创建3D人脸模型的输入数据具有广泛的变化，从0.1 mm精确的激光扫描到简单的2D RGB照片。原始数据通常不能直接使用，无论是由于扫描网格中的孔，还是由于2D数据不足以确定3D。常见的解决方案是应用模型来约束或清理原始数据。该模型可以采取多种形式，例如，它可以是应用于参数空间的分布的显式先验，或者由特定的神经网络架构和训练的节点权重暗示在任何一种情况下，目标都是最好地使用有限的输入数据来预测有效且完整的3D人脸。系统设计者必须选择输入数据源，然后选择模型和拟合方法以获得可用的3D人脸。绝大多数研究都集中在改进原始数据的新型传感器设计，或者新的重构方法和先验模型上，这些方法和模型可以更好地从约束不足的数据中生成人脸。相反，本文试图回答系统设计者的问题--如果我的应用领域要求精度X，我的输入数据需要有多好？我必须从3D数据开始，还是可以从照片开始并预测足够好如果我的用户戴着眼镜，而我的数据缺少眼睛，我可以根据对面部其他部分的观察来预测吗？如果有口罩挡住嘴部怎么办？这将花费我多少准确性？为了深入了解这类问题，我们从现有的地面实况数据集开始，使用现有的先验模型，然后评估从不同原始数据类型获得的准确性。我们的输入数据来自一个公开的数据集，该数据集具有100个对应的3D面部扫描，以及相同受试者的多视图2D图像[47]。这使我们能够比较原始输入数据为2D特征点、2D照片、低质量3D、3D特征点、部分缺失数据的高质量3D以及完整的高质量3D时的最终3D精度。我们的初步分析利用了“综合”实验。这允许在有噪声和无噪声的情况下进行广泛的分析。通过移除数据以模拟仅地标、或仅低分辨率3D、或缺失眼睛的测量，直接从地面实况构建输入数据这些实验测试先验模型是否可以预测面部未观察部分的准确结果我们检查合成结果一般进行“真正的”实验，18986几个已发布的方法在这种非常有限的输入数据类型上的行为有数百篇论文提出了从简单插值到现代深度学习的先验模型。重建的准确性必然与先前选择的模型有关，今年我们并不试图提供一个指示的绝对精度可获得的，而是提供了一个COM，从不同的原始输入时，误差幅度。对于我们的实验，我们选择了一个可变形的人脸模型，因为它是最广泛使用的模型之一，它已经存在了20年[9]，存在调查[18]，并且它与动画中的行业标准blendshape模型有一些数学相似性[27]。该模型是一个简单的线性系统，通过寻找训练集的主成分，并将数据拟合为这些成分的线性和来构建。由于这可能是最简单的可能模型（线性），许多研究人员都很好地理解了它，因此我们希望可以轻松解释我们的结果。本文的贡献是一个仔细的3D面部重建精度分析时，从输入数据的不同程度的完整性。2. 相关工作3D形状扫描：获取3D几何形状不限于面部，具有悠久的历史，并且存在许多调查[7，12]。方法范围从激光扫描[1]到阴影形状[51]。现代消费级3D传感器包括主动立体声（Intel RealSense）[25]，飞行时间（PMD，Kinect.v2 ） [26] 和结构光（ Kinect.v1 ， iPhoneX ）[52]。在某种程度上，这些方法采用形状上的先验，它通常限于平滑度，连续性和其他局部表面约束。高质量的面部捕获通常使用这些相同的3D采集方法，但是具有提供比消费者设备更高准确度的专用捕获机架[6，41]。本研究中使用的数据是使用具有68个摄像机的多视图立体系统采集的[47]。可变形面部模型：标签可变形面部模型在Blanz和Vetter的开创性论文[ 9 ]中得到推广在过去的二十年中提出的变化太多了，无法详尽无遗地列出，我们建议读者阅读一份出色的调查[18]。大多数模型包括身份和表达的变化，这些因素被相加[9]，多重[39]或非线性[28，29，37]组合。一些方法对形状变形进行全局编码[9]，[35]，有些与肌肉或其他物理模型相结合[23]。在本文中，我们使用最简单的变体作为我们的合成实验中的先验。Blendshapes：电影和游戏工作室中使用的动画工具通常将面部变形表示为Blendshapes或变形目标[21，34，36]。这些是相似的变形模型在使用线性基础来表示形状。然而，代替主成分的正交基，融合变形使用语义上有意义的示例面部表情的非正交基[27]。其他面部重建先验：已经使用了其他基础3D单个模板网格可用作先验并变形以匹配2D图像中的特征[31]。卷积网络已直接用于网格[30]。当完全没有3D模型可用时，可以使用图像集合来训练深度神经网络，以作为3D重建的先验[4，20，33，43，45]。Zollh Oüfer等提供了一个survey文章讨论其中的许多[55]。3D数据集：有各种各样的3D人脸数据集可用。有些只包含动画序列中的几个个体[14]，有些只包含单个姿势中的大量个体[16]。一些包含颜色和纹理信息[15]，而另一些则不包含[50]。我们选择了一个来自高精度扫描的数据集，其中包含数百个个体。精度比较：大多数3D人脸重建论文提供了重建精度的证据，并且与使用相同数据类型的先前重建方法进行比较是常见的。对不同模型进行了比较分析[11]。然而，没有现有的工作量化的错误作为源数据类型的函数，本文的目标。3. 综合数据分析3.1. 方法输入数据的选择影响最终的3D重建精度。从包含完整3D人脸的测试数据开始，我们删除了部分数据以模拟常见的捕获条件。对于每个条件，我们预测一个完整的3D人脸，并评估重建顶点对已知地面真相的准确性我们利用了这样一个事实，即我们的测试数据是已知的对应关系。在实际应用中，重建算法需要找到模型的最佳拟合参数，并找到捕获的数据点与模型数据点之间的对应关系。建立对应关系本身就是一个困难的过程[2]。在这些实验中，我们假设完美的对应关系，以允许由于有限的输入数据的重建误差的评价。数据集：我们的训练和测试数据来自766人的高分辨率面部扫描，并由189872.0 mm0.0 mm第421话MAE（mm）0.651.730.801.831.180.130.10M90（毫米）1.484.031.562.391.830.300.25地标地标密集低分辨率失踪失踪仅正常仅纹理Landmark3D +密集二维Landmark3D+纹理Landmark3D+正常密集二维+纹理密集二维+生理双视图密集二维全3D地面实况0.591.500.861.401.050.150.12MAE（mm）1.333.341.733.022.280.350.30M90（毫米）图1.使用各种源数据类型时的重建误差比较数值结果是测试数据集的平均值，报告了平均绝对误差（MAE）和拒绝10%离群值（M90）后的还示出了具有对应的彩色误差图、MAE和M90的一个特定示例面。先验模型足够强大，任何源数据类型都可以生成合理的面，即使面的部分完全缺失。Dramless减少的输入数据类型（如Landmarks）会导致过度平滑的网格，并产生高误差。2D数据的性能明显低于3D，即使3D数据的分辨率较低二维数据的两个视点的性能比一个视点好得多，并提供出色的精度。由于我们最感兴趣的是从有限的数据中比较预测的形状，因此我们仅在适用时计算缺失数据的误差。MAE（mm）M90（毫米）2.524.432.044.021.452.940.230.610.901.720.601.081.733.693.668.31平均脸#421平均2D3D2D3D眼睛嘴3.132.571.450.310.890.681.773.705.715.423.370.841.791.383.247.0918988˜−∗∗˜数据集创建者的精度为0.3mm [47]。数据以对应的方式提供，这意味着数据处于共享的3D网格拓扑中。所有面都有相同的顶点数（26，317）和相同的三角剖分。因此，每个3D面fi可以被表示为包含顶点位置的单个向量，即fi= [x1，y1，z1，. x n，y n，z n]T.当使用额外的数据如纹理时，我们将颜色值附加到f i。我们将这个数据集随机分为677张训练脸和89张测试脸。先验：在我们的合成分析中，人脸的先验是一个可变形模型。我们有意选择最简单的变化，并只简要介绍它，因为它被广泛理解[9]。可变形模型创建为面的线性组合我们从每个面中减去平均面fM，以产生仅对平均值的变化进行编码的向量，fi=f i f M. 所有的面孔，包括男性和女性-男性，被分解为单个矩阵F_（？）=[f_（？）1，f_（？）2. f19677]。我们对F进行主成分分析（PCA），找出主成分C.一个新的面，fx=Cw，可以是作为这些组件的线性组合创建，其中w=[w1，w2，.是前i个分量的相对权重。要保留的组分的数量通过实验确定。新观察到的面部可以近似地表示为最小二乘拟合，使用伪在C的相反情况下，w=C− 1fx。常常会有思念--ing或附加的数据在矢量fx，例如，因为只有一些3D点可用，或者附加了诸如纹理的数据。在这些情况下，正确权重w的优化仍然可以作为对所有确实存在的数据的最小二乘拟合来获得。利用C和w可获得全3D面部的预测。输入数据类型：我们考虑的数据类型匹配的选项practi- cally在真实系统中可用。全3D：我们假设3D扫描仪返回完整的头部扫描，没有丢失的数据。我们将所有3D数据拟合到模型中误差是由于模型本身有限的代表性能力。这是给定特定先验模型的最小可实现误差。缺少眼睛，缺少嘴巴：一个常见的场景是用户戴着眼镜/口罩。这导致眼睛/嘴附近的数据缺失。我们删除这些数据点，以了解模型如何从面部其他部分的背景中预测这些信息低分辨率3D：消费类设备内置的3D摄像头的分辨率比我们的数据集低得多为了评估这种低分辨率数据是否足以预测高精度的人脸，我们随机选择了800个数据点，并使用这种低分辨率模型来预测一个完整的人脸。地标-2D、地标-3D：在许多公开的方法中的数据被限制为从其中提取面部地标的图像。在3D情况下，这些数据可能来自非常有限的3D相机。在2D的情况下，我们fac- tor出相机的观点，假设正面的图像。我们只保留68个地标的2D投影，丢弃深度。纹理、密集2D、正常：在2D RGB图像的情况如果一个模型被用来从摄像机的角度渲染一个合成的脸，那么在模型顶点和像素信息之间就有一个隐含的对应关系。每个点的信息包括纹理颜色和像素本身的2D位置。如果我们考虑光度立体和阴影恢复形状方法，那么表面法线也可以使用。许多公开的方法假设密集的2D颜色和位置数据足以找到正确的模型参数。我们将这些数据源分开，以更好地了解它们对恢复面部形状的贡献。对于纹理，我们只使用对于Dense2D，我们将所有顶点投影到正面平面，并仅保留图像中包含的信息，即位置的2D分量。对于法线，我们仅保留每个顶点处的方向。Dense 2D-Two-Views：我们包括一个特殊的数据类型，用于模拟两个图像，我们将其编码为来自两个视点的2D位置数据。原则上，这隐含地编码3D信息，尽管在文献中“两个图像”通常被认为是与真实3D数据分开的数据类型。组合：上述基本数据源可以用于任何可能的组合。我们选择了几个组合报告的文件文本，并包括更多的补充材料。3.2. 无噪声误差计算每个评估的输入数据条件，在测试数据集中的所有89个面孔为了关注与数据类型选择相关的误差，我们排除了其他噪声源，假设没有测量噪声并且数据和模型点之间的对应关系良好。图1显示了我们的测试数据集的一个示例人脸以及整个数据集的聚合误差度量。补充材料中提供了更多的面示例。我们报告预测点的平均绝对误差（MAE）以及通过使用第90百分位值而不是绝对最大值（M90）来考虑离群值后的最大误差。我们从质疑整个实验的有效性开始。简单的线性模型是否具有足够的代表性？请注意，当满18989图2.累积误差分布，显示误差小于给定阈值的重建顶点的比例。每条实线表示从一种类型的原始输入数据的重建。虚线是不同数据类型的组合。请注意，非常稀疏的数据（如2D和3D地标）无法进行准确的预测。最高精度来自3D数据，包括在Two-View Dense 2D中编码的隐式3D数据。3D数据可用于拟合，M90误差为0.3mm，与数据本身的报告精度相匹配。虽然毫无疑问，更复杂的模型，如CoMA和FLAME更好[28，30]，但这表明我们的简单模型能够准确地表示人脸，因此足以进行此分析。接下来，我们考虑闭塞区域。习惯于高度控制的数据采集的3D然而，当面部的大区域被遮挡时，例如眼睛或嘴巴，该模型在预测这些区域方面做得令人惊讶地好，具有正确的视觉外观和最大误差保持在2毫米以下。在观察到的区域中，重建接近完美，因此我们仅报告预测顶点上的错误数。请注意，在颜色编码的错误映射中，可以看到没有数据的重建区域3D扫描专家通常认为消费级3D不足以实现高质量扫描。然而，低分辨率3D数据类型仅包含800个数据点，预测精度高，误差小于1mm。接下来，我们转向单个2D图像中存在的数据。根据每年发表的介绍从单张图像预测3D人脸的新方法的论文数量[19，20，22，32，33，44，49，53]，许多研究人员认为这些数据已经足够了。不幸的是，在我们的分析中，单个图像中可用的数据类型都不能很好地完成工作。Dense2D包含数千个位置数据点，但M90误差超过3mm，法线也类似。单独使用纹理是一个可怕的预测3D形状的误差超过6毫米，这表明纹理最好用作一种用于建立模型和图像之间对应关系的工具，而不是作为形状的直接预测器。这些数据的组合（如Dense2D+Texture和Dense2D+Normal）效果更好，这表明使用图像中的所有信息很重要该分析表明，如果您有任何其他选择，则单个2D图像一些已发表的方法包括使用非常稀疏的数据，如2D和3D地标[5，17，24，28，40，48]。在我们的实验中，单独使用这些数据源会产生非常差的精度，M90误差超过5mm。数据太有限，无法约束对正确面部参数的搜索。有趣的是，3D Landmarks与Dense2D结合使用时，可提供1.3mm（M90）的精度，是单独使用数据源的两倍多。我们假设来自2D图像的密集数据包含脸部形状的细节，但是单独使用而没有深度信息如果这是真的，那么即使3D地标中可用的少量3D点也足以约束整个低频面部形状，从而在组合时产生良好的结果这是有趣的，因为这意味着虽然单个图像鉴于2D图像信息作为一种数据类型的性能较差如果我们认为这是一个立体视觉重建，那么这应该相当于3D数据，并提供非常高的准确性，但如果我们认为这只是第二个图像输入到深度学习模型，那么许多前一篇论文发现只有边际影响的准确性。在我们的结果中，线性模型能够解开两组2D信息之间的关系，并提供0.35mm M90误差的精度，几乎与具有完整的3D信息一样好。这意味着给予单个图像重建算法访问第二图像原则上应该产生实质上更好的结果。由于第二个图像通常很容易获得，这似乎是一个18990为未来的探索开辟了广阔的道路。关于图1，最后要注意的一点与错误号本身无关。所有渲染的面在视觉上看起来几乎相同。只有在土地标记的情况下，作者才能区分地面真实情况。一方面，这是个好消息。如果目标是生成一个看起来正确的3D人脸，那么几乎任何输入数据加上一个非常简单的模型就足够了。另一方面，渲染模型可能是已发表论文中最常见的评估指标，但这些结果表明，目视检查是判断真实3D精度的一种糟糕方法，因为这些视觉上相同的结果具有M90误差，范围超过一个量级，从仅0.3mm到超过5mm。我们设计了一项用户研究来测试这一观察结果，我们要求Mechanical Turk用户选择八个面部重建中最接近比较的一个。儿子地面真相图像。一个选项的误差非常低<其余7例误差较大（>1.0mm MAE）。我们收集了100个试验（10个不同的面孔，每个面孔有10个不同的用户）。当用户在页面上的三个重新洗牌的位置上呈现相同的面部选项时，他们能够始终做出正确选择的概率只有3%观众确实发现很难单独从渲染的图像来判断准确性。相比之下，当呈现彩色编码的错误图时，用户在99%的时间内正确识别了低错误模型。任何单一的误差指标，如MAE或M90，都只能说明问题的一部分我们还评估了中位数、MSE、其他几个离群值比率和真实最大值。我们选择MAE和M90作为上述分析中最具代表性的。图2显示了每个数据类型作为累积分布函数的错误，这提供了一个更完整的画面。在0.9处穿过图的水平线与上面报告的M90误差度量相同。然而，这个图也可以从另一个方向阅读。假设一个应用程序要求误差小于2mm。我们可以看到，只有32%的来自2D地标的点在这个公差范围内，而95%的来自低分辨率3D的点在这个公差范围内。跨数据类型评估错误是一个挑战。在所有情况下使用完全相同的模型是大多数先验模型都包含需要调优的阈值和超参数，并且公平的比较需要针对每个场景进行调优。重要的是，我们希望使用一个允许最大面部形状变化的模型，而不会过度拟合可用数据。有多种方法来约束可变性，包括模型参数的允许分布的先验。在可变形模型的情况下，高度正则化更高维度的特征向量迫使这些分量中的低可变性限制了模型的表达范围，从而限制了过拟合的趋势。为了尽可能公平地进行比较，我们从600个特征值开始图3.为了评估我们的分析在存在噪声时是否具有普遍性，我们绘制了输入添加了1mm高斯噪声时的累积误差分布，显示了小于给定阈值误差的重建顶点的比例。数据集之间的总体关系与无噪声分析中的相同。每种情况下的中位误差都有所增加，但增加的噪声小于1 mm向量，然后使用每个输入数据类型检查过拟合。我们减少了表达的模型时，需要彻底搜索的最佳数量的特征向量，最大限度地减少MAE错误。3.3. 噪声分析我们的分析的一个可能的限制是，真实数据被损坏与噪声引起的图像传感器，失败的地标检测器，和不正确的对应关系。在我们的初步分析中，我们故意删除了这些因素，以了解最佳条件下的数据类型为了研究噪声的影响，在本节中，我们将这些源一起处理，并将高斯随机噪声添加到每个图3显示了存在高斯噪声时的累积分布图其他选择的噪音分布和幅度报告，港口的补充材料。我们只包括主要的数据类型，而不是组合，并省略了纹理和法线，因为它不可能直接比较颜色和方向噪声与位置噪声。请注意，数据集之间的整体关系与无噪声情况类似。误差有所增加，但当存在噪声时，综合分析的结论似乎具有一般性。3.4. 对结构性错误的测量中的实际误差通常被构造成与高斯分布相反的形式.调查可能的影响18991±对于结构化偏差，我们考虑双视图密集2D的情况在初步分析中，我们假设两个视点之间的摄像机校准的完美知识。一个公平的批评是，与我们的分析不同，真正的方法必须同时估计相机视点和脸部形状。因此，我们引入了一个结构性错误的错误估计相机的观点。图4示出了在估计相机视点时作为角度误差的函数的MAE。尽管MAE确实随着视点估计误差而增加，但请注意，灵敏度相对较低。在10度的视点估计误差的相对大的范围因此，在这种情况下，当存在结构性错误时，初级无噪声分析的结论似乎图4.使用双视图Dense2D数据进行重建，在假设的相机视点中具有不同的误差量。不正确的摄像机视点会增加重建误差，但即使摄像机视点存在10度角误差，重建MAE仍低于0.75 mm。图5.对输入数据的更改，即使是在单个数据类型中也很重要。我们展示了使用单视图Dense2D位置数据重建形状时视角对重建MAE的影响。正面为0度，而纵断面图为90度。注意，当以45度角而不是以0度正面观看面部时，误差显著降低。3.5. 数据类型内变化本文的主要分析研究了输入数据类型的变化对准确性的影响。然而，即使在一个单一的数据类型中，看似简单的更改也会影响准确性。例如，考虑从2D图像中获得的Dense2D数据。观看的角度重要吗？我们旋转训练和测试数据来模拟不同的视角，并为每个角度训练线性模型。使用匹配的Dense2D测试数据，总是与正确的视角完美对应，我们重建了3D人脸。 MAE随视角变化的曲线图见图5。请注意，误差受视角的影响很大，当以45度角查看面部时，误差最小。正面（1.45 mm）和45度（1.2 mm）之间的误差变化为20%。这是一个显著的准确性变化，特别是考虑到许多引入新模型的论文报告比以前的工作提高了5-10%输入数据的选择显然以非明显和微妙的方式起作用，因此仔细调查输入数据的属性值得研究。3.6. 现代方法现代人脸重建方法比简单的线性模型复杂得多。我们的综合分析表明，高质量的重建是不可能的，只使用二维数据。然而，有可能我们的分析没有推广，现代计算机视觉模型表现得更好。为了研究这种可能性，我们尝试了九种现有的方法[3，4，6，20，22，32，42，44，49]。每个都提供了来自我们测试数据集的示例照片和地面真实3D。我们推导出一个三维网格在每种情况下使用作者提供的代码没有修改。使用迭代最近点（ICP）算法[8]缩放3D网格并与地面实况对齐为了计算误差，地面实况网格中的每个顶点被假定为与重建网格测试的方法往往会产生一个不完整的脸，由于在一个单一的图像中的可见性，和人脸的覆盖范围是不一致的。因此，我们通过手动裁剪地面真实网格以匹配每个特定的重建示例，将误差计算限制在我们选择了五个最近的方法，需要一个单一的2D图像作为输入，和三个最近的方法，允许三个图像作为输入。我们还测试了双视图被动立体，因为双视图Dense2D在我们的分析中产生了出色的结果，并且因为多视图立体是高精度面部扫描仪中使用的方法[6]。所有方法都可以访问高分辨率图像作为输入，尽管出于效率原因，一些方法使用下采样数据。因此，所提供的比较并不完全公平。多视图方法包括18992图6.当在真实的2D照片上使用公开的方法重建3D面部时，单视图2D方法具有低精度。多视图2D方法可以访问隐式3D信息，并且性能更好。Stereo不使用任何面部先验，但明确重建3D并显示最高精度。添加第二个视点的这种改进是显著的。例如，如果需要2mm的精度，单视图方法提供的数据在此公差范围内的比例不到60%这些实际数据的实验支持了我们对合成数据初步分析的结论。Stereo只能访问图像，而不能访问相机信息。图6提供了每个测试的累积误差曲线。我们有意避免使用预-cise论文引用，因为我们希望重点放在输入的数据类型上，而不是具体的模型。我们选择的所有论文都受到高度重视，包括CVPR最佳论文奖和NoW挑战赛的多个高排名方法。我们要提醒大家，不要无意中假设特定方法的性能很差，因为我们没有完美地调整模型参数，而且我们的ICP对齐没有尽可能仔细地调整。相反，我们希望关注跨方法的聚合观察，以及不同数据类型的相对性能。仅能访问2D信息的单视图方法多视图方法执行得更好，大概是因为它们可以访问在多个视图中隐式编码的3D信息。两视图立体重建显式估计相机姿态，使用多视图信息来计算3D，并且表现良好。Stereo的累积误差曲线显示，大多数数据点的误差低于1 mm，90%的数据点在地面真实值的2 mm范围内。整体趋势与我们使用简单线性模型的合成结果相匹配，并且似乎表明本文中的结果可以推广到现代模型以及真实图像条件。4. 讨论这项工作源于一家运输3D人脸扫描产品的公司的查询。作为学术研究人员，我们面临的问题是：不幸的是，该公司当你问一个设计3D相机的人这个问题时，他们会说“不！你必须有一个3D相机的高精度”。相反，当你向从事机器学习的人提出这个问题时，他们会说：“最近有很多论文只使用2D图像就得到了很好的结果。不再需要3D摄像头。这两种观点都是部分正确的，而且我们之前没有找到严格比较输入数据类型的工作，所以我们进行了这项研究。本文提供的证据表明，给定一个经过良好训练的先验模型，几乎任何输入数据都足以恢复视觉上看起来正确的3D人脸。这包括填充传感器未观察到的缺失数据。对于只需要看起来正确的应用程序，2D输入数据很可能就足够了。然而，2D输入数据，即使是密集的2D数据，似乎不足以用于高精度3D使用的应用，如测量面部的当这是应用程序需要时，似乎需要3D输入数据。我们的实验结果表明，3D原始数据比2D数据包含更多的信息，这本身并不令人惊讶，而且其他研究人员也注意到了2D图像的几何局限性[5，18，32]。然而，这项研究提供了一个数值比较，在许多输入数据库，这是以前不存在的。作为这种分析如何影响研究选择的一个例子，许多研究人员正在积极地从2D RGB照片中研究3D人脸。本文中的分析表明，当目标是精度时，增加输入数据以包括低分辨率3D，或包括两个图像视点而不是一个，可能会导致显著的精度增益。由于许多现代手机都包含低分辨率的3D传感器和双摄像头，这似乎是一个很有前途的途径，以增加研究的关注。当然，这项研究也有局限性。数据、模型、误差度量和现有方法有许多可能的变化。我们不太可能碰巧选择了读者的首选组合，我们希望后续论文能解决更多的可能性。此外，许多已发表的论文试图处理面部表情，这是一个在本研究中完全忽略的因素。本文提供了一个仔细的评估，而不同的输入数据类型的相对三维面部重建精度。我们希望这项工作既能激发对各种输入数据类型优点的额外研究，也能鼓励研究人员像考虑模型选择一样仔细考虑数据选择。18993引用[1] Gerald J. Agin和Thomas O.宾福德曲面物体的计算机描述。IEEE Computer Architecture Letters，25（04），1976. 2[2] Dragomir Anguelov 、 Praveen Srinivasan 、 Hoi-CheungPang、Daphne Koller、Sebastian Thrun和James Davis。非刚性曲面无监督配准的相关对应算法。神经信息处理系统的进展，17，2005。2[3] 白子谦，崔兆鹏，刘晓明，谭平。通过网络内优化实现可操纵的3d人脸重建IEEE/CVF计算机视觉和模式识别会议，2021年。7[4] 白子谦，崔兆鹏，贾马尔·艾哈迈德·拉希姆，刘晓明，谭平.深层面部非刚性多视图立体。在IEEE/CVF计算机视觉和模式识别会议论文集，第5850- 5860页，2020年。二、七[5] Anil Bas和William A. P.史密斯。2D几何信息到底告诉我们3D人脸形状的什么？在国际计算机视觉杂志，2019年。五、八[6] Thabo Beeler ， Bernd Bickel ， Paul Beardsley ， BobSumner，and Markus Gross.高品质的单镜头捕捉的fa-cial几何。ACM SIGGRAPH 2010论文，第12010. 二、七[7] 保罗·贝斯尔主动光学距离成像传感器。机器视觉的进展，第1-63页。Springer，1989年。2[8] Paul J. Besl和Neil D.麦凯三维形状配准方法。在Sensorfusion IV ： control paradigms and data structures ，第1611卷，第586-606页中。国际光学与光子学学会，1992年。7[9] Volker Blanz和Thomas Vetter。用于合成3D面的可变形模型ACM SIGGRAPH，1999年。二、四[10] Volker Blanz和Thomas Vetter。基于拟合三维变形模型的人脸识别IEEE Transactions on Pattern Analysis andMachine Intelligence，25（9），2003。1[11] Alan Brunton ， Augusto Salazar ， Timo Bolkart ， andStefanie Wuhrer.回顾3D数据的统计形状空间，并对人脸进行比较分析计算机视觉和图像理解，128：1-17，2014。2[12] 放大图片作者：Fang Chen，Gordon M.布朗和宋穆民光学法三维面形测量综述。光学工程，39（1），2000年。2[13] 蒂莫西·F Cootes，Gareth J. Edwards，and Christopher J.Taylor.活动外观模型。欧洲计算机视觉会议，第484-498页。Springer，1998年。2[14] Darren Cosker Eva Krumhuber和Adrian HiltonFACS有效的三维动态动作单元数据库及其在三维动态可变形面部建模中的应用。在 IEEE 国际计算机视觉会议（ICCV），2011年。2[15] Daniel Cudeiro ， Timo Bolkart ， Cassidy Laidlaw ，Anurag Ranjan，and Michael J.黑色.捕捉、学习和合成3D说话风格。IEEE/CVF计算机视觉和模式识别会议论文集，2019年。2[16] Hang Dai ， Nick Pears ， William AP Smith 和 ChristianDuncan。颅面形状的3D可变形模型和纹理变化IEEE/CVF国际计算机视觉会议（ICCV），2017年。2[17] Jiankang Deng，Shiyang Cheng，Niannan Xue，YuxiangZhou，and Stefanos Zafeiriou. UV-gan：对抗面部uv图完成用于姿势不变人脸识别。在IEEE计算机视觉和模式识别会议上，202018年。5[18] 放大图片作者：William A. P. Smith，Ayush Tewari，Ste- fanie Wuhrer，Michael Zollhoefer，Thabo Beeler，Florian Bernard ， Timo Bolkart ， Adam Kortylewski ，Sami Romdhani，Christian Theobalt，Volker Blanz，andThomas Vetter.3D变形人脸模型：过去，现在和未来。ACM Transactions on Graphics ， 39 （ 5 ）： 157 ： 1-157：38，2020年6月。二、八[19] Yao Feng，Haiwen Feng，Michael J. Black，and TimoBolkart.从野外图像中学习可动画化的详细3d人脸模型。在ACM Transactions on Graph- ics（TOG），2021年。5[20] Yao Feng，Fan Wu，Xiaohu Shao，Yafeng Wang，andXi Zhou. 联合三维人脸重建和密集对齐与位置映射回归网络。在欧洲计算机视觉会议（ECCV）的会议中，第534二、五、七[21] 芭芭拉·弗卢奇格《阿凡达》和《本杰明·巴顿》中的计算机生成角色。数码和电影由B从德语翻译而来。Letzler，1，2011. 2[22] Jianzhu Guo，Xiangyu Zhu，Yang Yang，Fan Yang，Zhen Lei，and Stan Z.李面向快速、准确、稳定的3D密集人脸对齐。在欧洲计算机视觉会议上，2021年。五、七[23] Ale xandru-EugenIchim ， PetrKadlec ek ， Ladisla vKavan，and Mark Pauly.Phace：基于物理的人脸建模和动画。ACM Trans. on Graphics（TOG），36（4），2017.2[24] Luo Jiang，Juyong Zhang，Baolin Deng，Hao Li，andLigang Liu.利用单幅图像的几何细节进行三维人脸重建。在IEEE Transactions on Image Processing，2018。5[25] Leonid Keselman，John Iselin Woodfill，Anders Grunnet-Jepsen，and Achintya Bhowmik.英特尔实感立体深度相机。IEEE计算机视觉和模式识别研讨集，2017年。2[26] 罗伯特·兰格和彼得·塞茨固态飞行时间测距照相机。IEEE Journal of Quantum Electronics，37（3），2001. 2[27] John P. Lewis ， Ken Anjyo ， Taehyun Rhee ， MengjieZhang，Frederic H. Pighin和Zhigang Deng。Blendshape面部模型的实践与理论Eurographics （最新技术报告），1（8）：2，2014。2[28] Tianye Li，Timo Bolkart，Michael J. Black，Hao Li，and Javier Romero.从4D扫描中学习面部形状和表情的模型。ACM事务处理图表，36（6），2017. 二、五[29] MarcelLuithi， ThomasGerig ， ChristophJud ，andThomasVetter.高斯过程变形模型。IEEE transactionson pattern analysis and machine intelligence，40（8）：1860-1873，2017。218994[30] Anurag Ranjan ， Timo Bolkart ， Soubhik Sanyal ， andMichael J Black.使用卷积网格自动编码器生成3D面。在欧洲计算机视觉会议论文中，第704-720页二、五[31] Joseph Roth，Yiying Tong，and Xiaoming Liu.无约束三维人脸重建。在IEEE/CVF计算机视觉和模式识别会议（CVPR），2015年。2[32] Soubhik Sanyal ， Timo Bolkart ， Haiwen Feng ， andMichael Black. 学习在没有 3D 监督的情况下从图像IEEEConf. 计算机视觉与模式识别（CVPR）2019年6月。五七八[33] Matan Sela Elad Richardson和Ron Kimmel使用图像到图像转换的无限制面部几何结构重建在IEEE计算机视觉国际会议论文集，第1576-1585页，2017年。二、五[34] 格雷格·辛格双塔：与咕噜面对面动画世界网，2003年1月。2[35] J. 拉斐尔·特纳，费尔南多·德拉托瑞，伊恩·马修斯。基于交互区域的线性3D人脸模型。在ACM SIG中-GRAPH 2011论文，第1-10页。2011. 2[36] 假滴答 Autodesk Maya 2011 ：全面指南。 Pe

下载后可阅读完整内容，剩余1页未读，立即下载