面部反射场建模及重建方法

137 浏览量更新于2024-01-22 收藏 2.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4791神经元面部反射场Mallikarjun B R1Ayush Tewari1Tae-Hyun Oh2TimWeyrich3 Bernd Bickel4Hans-Peter Seidel1HanspeterPfister5MohamedElgharib1Christian Theobalt1马克斯·普朗克信息学研究所，萨尔信息学校区2POSTECH3伦敦大学学院4IST奥地利5哈佛大学6麻省理工学院CSAIL图1.给定一个单目图像，我们的方法可以合成一次一光（OLAT）重新照明图像，使用任何环境贴图重新照明面部（插图），并将光线从另一个图像（顶部）传输到输入（底部）。我们可以对视图相关效果进行建模，从而可以在任何头部姿势下生成结果。摘要面部的反射场描述了负责复杂照明效果的反射特性，包括漫反射、镜面反射、相互反射和自阴影。大多数现有的方法估计从单目图像的面部反射率假设面部是漫反射的，很少有方法添加镜面反射分量。这仍然遗漏了反射率的重要感知方面，例如高阶全局照明效果和自阴影。我们提出了一个新的神经表示的面部反射率，我们可以估计所有组件的反射率负责从单目图像的最终外观。我们的神经表示不是使用参数模型单独对反射率的每个分量进行建模，而是允许我们在几何变形不变的空间中生成基本的面部集合，由输入光方向、视点和面部几何参数化。我们学习从单目图像重建人脸的反射场，这可以用来在任何光线条件下从任何视点渲染人脸。我们的方法是在一个灯光舞台数据集上训练的，该数据集捕捉了300个人，在8个场景中有150个光照条件观点。我们表明，我们的方法优于现有的单目反射重建方法，由于更好地捕捉物理效应，如子表面散射，镜面反射，自阴影和其他高阶效应。1. 介绍单眼面部重建（即，3D面部几何形状、反射率和照明的密集重建）在视觉效果、远程呈现、肖像重新照明、面部再现和虚拟环境中的交互中它一直是一个活跃的研究领域，在重建的各个方面都取得了巨大进展，包括几何和反射率[7]。我们的重点是人脸反射率的反映，它捕捉了人脸和场景照明之间的相互作用，在感知中起着非常在文献中，一类方法[10，37，40]将面近似为朗伯曲面。他们中的许多人使用合成分析优化来估计面部几何形状，球面谐波照明和漫反射率;后者是真实面部反射率的明显简化。这种代表-4792再现不能捕获面部反射中的重要镜面反射和次表面效应，这妨碍了真正的真实感再现。虽然一些方法[31，2]使用环境光遮挡和预先计算的辐射转移来在逆渲染框架中对阴影进行建模，但它们仍然假设面部的简单反射特性，这限制了照片真实感。另一类方法[42，22]使用机器学习方法从图像重建漫射和镜面反射面。虽然更完整，但仍然忽略了反射率的重要组成部分，例如自阴影和其他高阶视图相关效果和子表面效果。我们提出了第一个单目人脸重建算法，估计一个完整的面部反射场，代表- ING两个视图方向和光方向相关的反射特性，从一个单一的人脸图像。我们训练了一个CNN，它从单个图像中推断出面部反射场，并将其表示为在归一化空间中显示照明面部的基本图像集。图像，从而反射场，参数化的光的方向，rection，视图方向和面对的几何形状。这类似于用于获取反射场的基于图像的技术所使用的表示[6，25，33，8]。然而，与我们的工作的关键区别在于，它们仅捕获依赖于光的效果，而不是依赖于视图的效果;它们只能重新照亮给定的输入相机视图。Debevecet al.[6]可以从不同的视点渲染人脸，这样做需要假设人脸的BRDF模型，并忽略反射率中的自阴影等效果。我们的方法通过估计全反射场（包括视相关效应）进一步显着我们可以改变图像中的光源和视点。我们通过从单目图像联合估计3D人脸几何形状，并在模板人脸网格的UV空间[4]中表示基础图像来做到这一点这也提供了其他优点，例如在训练数据空间之外的泛化。我们的方法是在一个灯光舞台数据集上训练的，该数据集一次捕捉300个人，从8个视点用150个点光源照明虽然数据集中的所有人脸都是嘴巴闭合的中性表情，但我们的方法仍然可以推广到具有一般面部表情的真实图像，因为训练是在归一化的表情不变UV空间中完成的。总之，我们做出了以下贡献：• 一种估计神经面反射场的单目方法。我们表明，神经反射场，直接从真实数据学习，可以模拟复杂的真实现象，不像常用的参数反射模型。• 在灯光舞台数据集上训练后，泛化到野外图像。这种推广是通过明确使用一个典型的空间不变量的美德头部姿势，身份和表情，即，UV空间，以及使用自然环境地图合成的数据进行训练2. 相关工作关于面部反射率捕获的文献是大量的，方法从需要多视图多照明图像作为输入[25，6，13]到可以从单个图像重建反射率的方法。我们集中讨论单目方法。基于分析的综合多种方法通过求解最小化估计与输入图像之间的差异的合成分析优化问题来重建面部反射率。由于这是一个约束不足的问题，因此方法通常进行简化假设，例如皮肤具有朗伯反射[37，12，40，39，28]。这使得它们能够使用粗糙的球谐照明来表示照明[27]。其他一些方法使用Phong反射假设[3，23]，也可以对镜面反射进行建模。使用球谐函数的镜面反射也已被探索[2，32]。这些表示法不对表面下散射和自阴影等效果进行建模，这些效果对于表示真实的面外观非常重要。一些方法使用预先计算的辐射传递[31]或环境遮挡[2]对阴影进行然而，由于朗伯或简单的镜面假设，最终的输出缺乏照片真实感。有关这些方法的更多详细信息，请参阅最近的调查[7监督学习另一类方法是基于监督学习，其中训练数据是明确定义的，从具有受控照明圆顶的灯光舞台捕获。在测试时，该方法可以从单目图像中重建出丰富的反射率。这里的常见表示法是将反射率分为漫反射和镜面反射[42，22，24]。Lattas等人[22]使用单独的网络估计镜面反射和法线，使用漫反射和形状法线作为输入。然而，其他复杂的效果，如自阴影和视图相关的互反射不能被捕获。一个计算昂贵的路径跟踪的步骤是执行模拟阴影在测试时。重新照明重新照明方法仅捕获反射场的光依赖性分量，而不考虑视角依赖性这使得问题变得更容易，并且有几种方法可以捕获复杂的真实世界效果。大多数方法都是在Light-stage数据集上训练的Sun等. [33]提出了一种用于操纵输入图像的照明的编码器-解码器体系结构。 Nestmeyer等人[26]训练模型以将输入图像解耦为基于物理的漫射分量，其中诸如镜面反射和阴影的非漫射分量被建模为4793我残留物与这些方法不同，Zhouet al. [45]在单目数据上训练，其中监督是合成生成的。因此，与在光阶段数据集上训练的请参考最近的调查[35]了解有关重新照明方法的更多详细信息。如前所述，这些方法不能捕获反射场的视图相关分量。3.2.反射场表示法我们的反射率场是一个函数R（G，ωv，ωl），它描述了几何形状为G的人脸在观察方向ωv下的反射率，并由输入点光照射源方向ωl，其中ωv和ωl是单位范数向量。我们使用3DMor来表示面部几何形状phable模型[3]，其中包括一个身份模型M∈另一方面，我们的方法可以重建从单目图像的全反射场，因此，R3N×mi 和一个表达模型Mexp∈R3N×meID得双曲余切值.降低了对灯光和视点的控制。我们不对面部的反射特性做任何假设，因此可以捕获所有效果，包括次表面散射，镜面反射和自阴影。3. 方法我们的方法将人脸的野外图像、目标点光源方向和目标视点作为输入网络的输出是由点光从所需方向照亮的面部的网格在测试时，我们可以渲染- der从任何角度和任何环境地图下的重建面几何投影环境地图上密集采样点光的基础上。3.1. 数据集我们的数据驱动方法学习预测面部反射场，这是面部几何形状的函数N是顶点数。 Mid和Mexp的向量与其相应的标准差成比例，如[37]。这种表示非常适合单眼重建 [37 ， 34 ， 38] 。网格顶点由 v 表示，|v|=3N。最终的几何体定义为v（α，β;Mi d，Mex p）=v<$+Mi dα+Mex pβ.我们使用[3]中的平均网格v′;α∈Rmi和β∈Rme是恒等式和表达式参数。在单目重建中，不可能将头部的影响和相机姿势。我们通过假设摄像机具有固定的外函数和内函数来消除这种模糊性，并且仅将头部姿态ωh∈SO（3）建模为变量。虽然反射率不依赖于全局平移，但我们需要它来将面部渲染在图像中的正确位置。对于任意顶点vi∈R3，我们可以计算相机空间坐标vc=ωhvi+t，其中t∈R3是全局翻译. 完整的几何体可以表示为vc∈R3N，其中vc，ni∈{0，···，N−1}k ∈r.光源和相机姿势。我们在一个ic上训练我们的模型由350个身份的HDR图像组成的光阶段数据集[41]，由分布在半球上的面部前面的8个相机捕获（见图2-b）。灯光舞台还包含150个点光源，均匀地放置在围绕脸部的球体上。每个人和每个相机拍摄150张图像，每个光源每次打开一个灯（所谓的OLAT图像）。每个受试者都是闭着眼睛和嘴巴的中性表情。为了模拟在自然光照下看起来像野外图像的数据，我们使用HDR环境贴图重新照亮光场数据。特别地，我们使用约205个Laval户外[14]和约2233个Laval室内HDR [9]图像的组合，如[33]中所做的那样我们的训练数据集包括1000个relit图像，每个图像有300个身份。对于每个重新照明图像，我们从随机相机视图中随机选择OLAT作为目标图像。我们使用10个身份的图像进行验证，其余40个身份进行测试。我们的反射场表示在归一化的UV空间中操作面部几何形状。这使得我们的方法可以推广到任意的面部表情，尽管所有的训练数据都显示出中性的面部表情。请注意，即使在输入图像中只有UV空间中的部分区域可见，由于多视图监督，我们仍然可以从不同的视点计算结果。反射场可以表示为R（v，ωl）。我们将此函数的输出表示为归一化UV参数化空间中的512×512RGB图像，该空间由我们定义-使用用于表示v的模板网格，见图2。2-嗜这使我们能够很容易地概括到不同身份和表达的野外图像此外，它允许我们使用基于图像的2D CNN架构，例如，U-Net架构[29]，因为跳过连接所需的像素对应关系是有效的，与目标头部姿势无关。3.3. 网络架构我们的框架由两个神经网络组成，几何网络和反射网络，如图2-a所示。在训练过程中，每个样本由两个图像组成，源（Is）和目标（It）。Is是由自然环境图照亮的图像，并且Is是在150种不同的OLAT照明条件之一下处于相同或不同姿势的同一个人的图像。几何网络将源和目标面部图像作为输入，并重建3D面部几何，表示为3DMM的姿势，身份和表情参数。给定相机空间坐标中的源图像的重构的面部几何形状，如稍后解释的可微分渲染器产生源纹理映射Ts∈R512×512. 我们的目标是4794图2.（a）我们的方法通过用不同的头部姿势和点源照明重建输入图像来学习全脸反射场（参见预测的在推理时，这允许我们通过线性组合不同的OLAT预测来合成任何环境地图的结果。我们的解决方案是制定在一个规范化的UV空间，并通过一个可微渲染器的几个损失函数最小化。几何网络处理源图像和目标图像。在推断时，通过基于期望姿态旋转源法线贴图来计算目标法线贴图（b）我们的解决方案是用灯光舞台数据集训练的，该数据集包括150个照明条件（i），8个相机视图（ii）和350个主题（iii）。我们使用300名受试者进行训练，10名用于验证，其余用于测试。UV空间中的OLAT图像，从具有方向ωl和头部姿势ωh的光源照亮。根据源和目标Im的相机空间几何形状Vc和Vc3D面网格，类似于Laine等人。[21 ]第20段。我们使用z缓冲算法估计可见三角形。纹理映射用于计算颜色值。Interpola-S t年龄，我们还计算源和目标表面法线映射Nc∈R512×512和Nc∈R512×512。反射率（在网格和纹理贴图上）使用重心坐标可微分渲染器提供了S t网络将Ts、Nc、ωl和Nc作为输入，如通过我们的nor反向传播梯度的方法S t图2-a，并以正常模式输出目标扩展图T_t。化UV空间，即，每个像素对应于语义上明确定义的结构，例如眼角或鼻子。该网络生成一个OLAT纹理作为输出，使用目标几何体和姿势渲染该纹理以计算最后的渲染图像我不知道。在测试时，我们密集地基因r-根据目标环境贴图，对每个照明方向的OLAT图像进行扫描，并将其线性组合以重新照亮新图像。几何网络基于AlexNet [20，37]，而反射网络基于U-Net架构[30]。U-Net由8个上下卷积层组成，具有跳跃连接和空间维度的内核。3×3。接下来是5个卷积层，步幅为1，它获取输出特征，以及tar。获取法线贴图作为输入（见图2-a）。请注意，目标照明被馈送到U-Net瓶颈。我们的可微分渲染器从一个malized表示，从而允许我们的损失函数在图像空间中定义（第二节）。3.4）我们的可微分渲染器被实现为数据并行的自定义TensorFlow层。3.4. 损失函数我们实施了几个损失函数，使学习的面部反射场。我们的方法同时学习估计几何形状和头部姿势：L（Is，It，ωl，θn）=λ lLl（Is，It，θn）+λrLr（Is，It，θn）+λ pLp（Is，It，ωl，θn）+ λ fLf（Is，It，ωl，θn）.（一）这里，θn是几何和反射网络的可训练网络参数，Ll是地标对齐项，Lr是几何正则化项，Lp是光度对齐项，Lf是深度特征对齐项。4795S不Ssns 2ttnt 22标志丢失该丢失为3D几何重建任务提供了强几何线索：Ll（Is，It，θn）=<$L（vc（I，θ））−L<$2+表1.我们的方法的反射率重建误差，根据L（vc（I，θ））−L<$2.（二）相同和不同的头部姿势。我们使用66个从源图像和目标图像自动检测的地标[5]，Ls和Lt作为地面实况。重建的标志，L（vc）和L（vc）为预测后者而学习的特征编码了必要的信息：S t通过将注释的地标投影在Σ¨ˆ¨2使用固定的摄像机参数将网格划分到图像平面轮廓标志无法固定，因为它们在LL（Is，It，ωl，θn）=f∈F <$S f（T t（P））−S f（T t（I t，θn））<$2.（七）网格，因此我们将这些地标计算为来自估计的2D地标的最近网格顶点[36]。几何正则化我们使用在单眼几何重建中使用的常见正则化器[11Σ训练我们使用Adadelta优化器[ 43 ]使用大小为1的mini-batch最小化训练数据集中所有样本的损失函数，学习率为0。05，以获得网络权重θn。我们在Tensorflow中实现了我们的方法[1]。我们设λ α=0。4，λβ=L（I，I，θ）=λ<$α（I，θ）2+0的情况。002，λ=25，λ=5，λ=1和λ=1。提高RS不ni={s，t}α我我n2l p r fλ β<$β i（I i，θn）<$2.（3）这种损失确保了最终的几何形状是合理的。光度损失这种损失确保了最终的重新发光，年龄接近地面真相：Lp（Is，It，ωl，θn）=<$Mt（P）<$（It（P）−It）<$1，（4）其中，n是逐元素乘法运算符。如前所述，最终渲染的图像I是参数化的使用源纹理贴图Ts，法线贴图Nc和Nc，以及光方向ωl。因此，P=（Ts（Is，θn），Nc（Is，θn），Nc（It，θn），ωl）我们只计算一般化的几何重建，我们还包括来自FFHQ的单眼图像[18]在我们的训练中。在这种情况下，FFHQ仅用于几何损失Ll和Lr。总体而言，我们的批次中有20%来自FFHQ，其余来自光台数据。反射网络只接受过灯光舞台图像的训练3.5. 重光照我们的网络是在具有离散的150个光方向的光场数据上训练的。然而，在这方面，它允许我们在测试时连续地对光的方向进行采样，见第二节。3.2.由于光传输是加性的，因此在任意环境贴图下的最终图像可以写为S tN−1在掩蔽的内部面区域Mt（ωh（It））中的损失，com-使用render。我们的UV空间因此，反射场通过使用可微分光栅化的最终渲染图像是间接的。已知特征损失101损失会过度平滑细节[15]。为了保留输出中的高频细节，我们引入了具有两个术语的深度特征损失[16L f（Is，I t，ωl，θn）= L I（Is，I t，ωl，θn）+L L（Is，I t，ωl，θn）.（五）为了提取特征并计算LI，我们使用层VGG网络的F={conv 1 2，conv 2 2，conv 33}Si-MSE（标准品）dev.）相同姿势0.00070（σ=0.00059）4796¨Stftt2l=0λlIt（Ts，Nc，Nc，ωl）. 利用符号的正确使用，是光源的数量，它决定了环境贴图的分辨率。较大的N值允许以计算效率为代价以高分辨率表示照明，因为我们需要一个用于网络工作的一个重要环节就是计算每一个我不知道的东西。权重λl∈R3是在对应于光方向ωl的像素处的环境图的颜色值。光线估计我们还可以从野外图像中估计环境地图。给定我们的反射场，我们可以如下优化最终重建：Vf在ImageNet上预训练[16]以约束输出te x-N−1λmax= arg min¨2λM<$I<$ （ω）−M<$I <$，（8）真实的地图和图像如下：¨{λ}l=0l t tlt t¨2LI（Is，It，ωl，θn）=在那里我是野外图像，{λ}={λ|i ∈- 是的是吗？Vf（Mt（P）<$It（P））−Vf∈F¨ˆ（M（P）I）？2¨2Σ{0，···，N−1}}。我们使用最小值来最小化这个项-广场。为了得到更详细的重建，我们使用特征损失进一步优化光，+<$Vf（Tt（P））−Vf（Tt（It，θn））<$2.（六）argminV（T（T（I））2，其中T是{λ}ftlftt2t我们使用VGG特征的另一个特征损失训练网络Sf以从图像预测光方向[25]。镜面反射取决于光的方向，因此从输入图像It计算的纹理图。我们使用Adadelta解算器[43]将该项最小化，并使用方程的解。8作为初始化。4797图3.输入图像（左）和渲染在不同的点光源和不同的头部姿势。我们的结果类似于具有精确阴影的地面实况。输入取自光台数据集，其中地面实况可用。图4.输入图像（左）及其具有相同姿态（第2和第3）和不同姿态（第4和第5）的ORAT。类似地，我们使用具有相同姿态（第6和第7）和不同姿态（第8和第9）的随机环境图（右下插图）重新照亮输入图像。场景照明在每一列中都是相同的，允许我们观察视图相关的效果。例如，请参见第4列中鼻子上的主要镜面反射斑点的变化。4. 结果我们对来自CelebA-HQ [17]的野外图像以及我们的受控光级数据进行了实验，并提供了地面实况。由于我们训练数据中的所有图像都包含闭眼表情，因此我们无法学习睁开眼睛的反射率;因此，我们从结果中删除了该区域。对于定量评估，我们使用尺度不变均方误差（Si-MSE）[45]和面部相异性度量（Face dis.）。通过使用面部识别工具[19]测量地面实况和预测图像的特征之间的欧几里得距离来获得面部相异性4.1. 定性结果我们进行了几个实验，定性地评估我们的方法。图3示出了来自光级测试数据的结果（身份不包括在训练中），以及相应的地面实况。我们可以合成具有不同头部姿势的不同OLAT，非常类似于地面实况。我们可以捕捉到强烈的阴影、镜面反射和次表面散射效果。图4另外示出了具有不同增强图的自然图像上的重新照明结果在这里，我们添加了许多光源的结果。我们的方法可以将结果与光-与姿态相关的照明效果，如在不同姿态的面部的结果中可以看到图5我们将我们的重建与Smith等人的单眼重建方法进行了比较。[32]，Schneideret al. [31]和Tewariet al. [37 ]第37段。这些方法还估计场景照度。Tewari等人假设人脸是漫反射的，Smithet al.添加一个镜面反射组件，而施耐德等人。使用预先计算的辐射转移模型阴影与dif- fuse表面的假设。我们训练Tewari等人的方法。[37]在我们的训练数据上。因此，它可以被认为是反射率模型被约束为漫反射的基线结果。Smith等[32] Schneideret al. [31]是综合分析法。我们的方法显然产生了更真实的重建，更好地捕捉镜面反射，次表面散射和阴影。与Smithet al.特别显示了我们表示的优点，因为他们的模型也是在光舞台数据集上训练的。图6示出了根据另一参考图像计算目标环境图的进一步的重新照明结果。结果表明，我们的反射率是很好地摆脱照明，即使在强方向性的彩色照明。我们的结果优于国家的最先进的反射率的质量以及捕获的场景照明的质量所有人都来了-4798图5.将我们的面部重建与Smith等人的方法进行比较。[32]，Schneideret al. [31]和Tewariet al. [37 ]第37段。我们的方法更好地捕捉镜面反射，子表面散射，硬阴影和整体产生更逼真的结果。图6.2个不同图像之间的光传输结果每一行显示用从另一行估计的光重新照亮输入图像的结果我们的方法重新照亮图像并编辑其头部姿势，同时保持其身份和面部完整性。宠物方法使用球谐光反射，其不能处理高频光条件，高频光条件经常导致强烈的阴影。我们还将OLAT灯光投射到球谐空间，并对重新照明的结果进行了比较我们在补充文件中提供了这些结果。诸如[42，22]的方法不估计场景照明。这使得难以客观地与这些方法进行比较，特别是因为每种方法假设不同的坐标系，使得难以在相同照明下可视化结果。与Yamaguchi等人的定性比较请参见补充资料。[42 ]第42段。最后，即使我们用150个光源训练我们的方法，我们也可以合成任意连续光位置的OLAT图像请参阅补充视频的结果。4.2. 定量评价我们通过大量的实验定量地评估我们的方法表1总结了我们对测试集的子集（40个身份，8个姿态）的光级数据的OLAT反射率重建结果。输入的图像是使用160幅自然环境地图合成的3.1.总共3900个输入图像用与输入中相同的目标姿态重构，并且8100个图像用不同的目标姿态重构。表1显示，虽然我们的方法对于用相同姿势合成的结果产生较低的尺度不变MSE（Si-MSE），但是错误仅随着不同姿势而略微增加。打--表2比较了我们在野外图像上的单眼重建与不同方法的单眼重建[32，37，31]。我们使用来自CelebA-HQ [44]的1774张图像作为测试集，并报告了Si-MSE [45]和面部身份差异（Face dis.）[19 ]第10段。虽然Si-MSE只考虑图像之间的像素级相似性，但Face dis.使用面部识别网络来计算面部身份嵌入之间的距离。Schneider等人的方法的公开可获得的实现。[31]不能用非中性表情重建图像因此，我们不与他们比较CelebA-HQ。我们的方法显着优于前的方法，如由较低的Si-MSE误差和面dis. metrics报告。我们还评估了质量的反射率下的在这里，我们从光场数据中拍摄了同一个人在不同姿势和不同自然光条件下的两张图像。我们重建两幅图像的反射率，然后在评估重建误差之前交换它们。该评估测试了不同姿势和光照条件下的反射质量。我们也以同样的方式与其他方法进行比较[32，31，37]表2显示，我们的方法在测试集中的2022张图像上优于这些方法。由于我们的数据集只包含中性表情的图像，我们还与Schneider等人进行了比较。4.3. 消融研究我们评估我们的方法的不同组成部分，使用- ING几个烧蚀研究。4799表2.重建和反射传递误差（在Si-MSE和Face dis中，标准dev. σ），并与Smith等的方法进行了比较。[32]，Schneideret al.[31]和Tewariet al.[37 ]第37段。对来自CelebA-HQ [44]的1774张图像进行重建评估，并对来自我们测试集的2022张图像进行反射转移评估。图7.从我们的反射学习中删除源和目标表面法线会导致模糊的结果和较弱的镜面反射。无法线（标准dev.）w/ normals（std.dev.）相同姿势0.0011（σ=0.0009）0.0007（σ=0.0005不同位姿0.0012（σ=0.0011）0.0008（σ=0.0008）表3.在相同和不同的输入头姿态下，我们的方法的反射率重建误差。从我们的网络设计中删除法线映射（源和目标）显然会降低性能。只有平均脸（标准）dev.）所有（std。dev.）硅-MSE0.011（σ=0.005）0.004（σ=0.002）面对现实吧0.550（σ=0.073）0.550（σ=0.080）表4.我们的方法的反射率重建误差（在Si- MSE和面分布与标准。dev. σ）有面和无面几何学。与学习面几何体（最后一列）相反，当仅使用平均面网格（中间列）时，性能会降低表面法线我们评估了在网络中提供表面法线作为输入为此，我们训练了一个模型，而没有提供源和目标表面法线作为反射网络的输入。在这种情况下，网络将无法访问面部几何形状和头部姿势。表3总结了该实验的结果。在这里，我们评估OLAT反射率重建的光阶段的数据，在测试集的一个子集（40 identi- ties，8姿态）。输入图像使用160个不同的自然环境地图进行合成总共3900个输入图像用与输入中相同的目标姿态重构，8100个图像用不同的目标姿态重构。这在这里，神经网络只预测头部姿势，而不预测身份和表情几何参数。我们使用来自CelebA-HQ [44]的130张图像作为测试集，并在表4中报告了Si-MSE和FaceDis.。不学习面部几何形状并且使用固定的平均网格代替地导致在Si-MSE方面的性能的明显降级。5. 结论与讨论提出了一种单目反射率场重建方法。我们的结果不受任何参数反射模型的限制，并且可以捕捉复杂的真实现象，如镜面反射，次表面散射和自遮蔽。虽然我们首次展示了允许从单目图像中估计反射场的结果，但我们的方法仍然存在一些局限性。如前所述，我们无法估计睁开眼睛的反射率，因为训练数据集不包括此类图像。然而，我们的方法成功地推广到野生图像的可见区域，即使是不同的表达。由于几何重建，我们的方法一般限于面部区域随着更完整的单目几何重建的进展，包括头发和身体，我们的方法应该能够估计更完整的反射场。虽然我们的方法可以重建反射率的所有方面，但仍然可以重建诸如镜面反射和强阴影边界是表1中使用的相同测试数据。我们报告Si-MSE渲染相同和不同的输入姿势。结果表明，删除法线贴图会显著降低结果，表明几何和姿态信息对于任务很重要。这种性能的降低也在图中直观地7其中删除曲面法线有点模糊，见图3。这可能是由于不准确-单目几何估计中的镜头，导致训练期间估计和地面实况之间的不对准。尽管如此，我们相信，我们的方法采取了重要的一步学习和渲染的全反射场的脸。导致模糊的结果和弱镜面反射。精确几何形状的影响为了评估精确几何形状在我们的解决方案中的重要性，我们训练了一个只使用平均模板面网格的网络。地理-致谢：我们感谢Tarun Yenamandra和Duarte David帮助我们进行比较。这项工作得到了ERC Consolidator Grant 4DReply（770784）的支持。我们也感谢InterDigital的支持。我们Smith等[32个]Schneider等人[三十一]Tewari等人[37个]重建（Si-MSE）0.0060（σ=0.0027）0.0155（σ=0.0124）--×--0.0073（σ=0.0037）转移（Si-MSE）0.0026（σ=0.0015）0.0195（σ=0.0124）0.0364（σ=0.0219）0.0147（σ=0.0069）4800引用[1] Mart 'ın Abadi，Ashish Agarwal，Paul Barham，EugeneBrevdo，Zhifeng Chen，Craig Citro，Greg S. Corrado，Andy Davis ， Jeffrey Dean ， Matthieu Devin ， SanjayGhemawat ， Ian Goodfellow ， Andrew Harp ， GeoffreyIrving ， MichaelIs-ard ， Yangqing Jia ， RafalJozefowicz，Lukasz Kaiser，Man-junathKudlur，JoshLevenber g，DanMane'，RajatMong a，Sherry Moore，DerekMurray，Chris Olah，Mike Schuster，Jonathe Shlens，Benoit Steiner ， Ilya Sutskever ， Kunal Tal- war ， PaulTucker ， Vincent Vanhoucke ， Vijay Vasudevan ， Fer-nandaVie'gas，OriolVin yals，PeteWarden，MartinWatten-berg，Martin Wicke，Yuan Yu，and Xiaoqiang Zheng.张量流：异构系统上的大规模机器学习，2015年。软件可从tensorflow.org获得。[2] 奥斯瓦尔德·阿尔德里安和威廉·AP·史密斯在多云的日子里反向渲染InProc. ECCV，2012.[3] 沃尔克·布兰斯和托马斯·维特。一种用于合成3d人脸的可变形模型在Proc. SIGGRAPH，1999年。[4] Mario Botsch，Leif Kobbelt，Mark Pauly，Pierre Alliez和BrunoL e'v y。聚丙烯网布加工。 CRCPress，2010.[5] 阿德里安·布拉特和乔治斯·齐米罗普洛斯。我们离解决2d和3d人脸对齐问题还有多远？（和230，000个3D面部界标的数据集）。InProc. ICCV，2017.[6] Paul Debevec 、 Tim Hawkins 、 Chris Tchou 、 Haarm-Pieter Duiker、Westley Sarokin和Mark Sagar。获取人脸的反射场。第27届计算机图形学和交互技术年会论文集，2000年。[7] 放大图片作者：William A. P. Smith，Ayush Tewari，Ste- fanie Wuhrer，Michael Zollhoefer，Thabo Beeler，Florian Bernard ， Timo Bolkart ， Adam Kortylewski ，Sami Romdhani，Christian Theobalt，Volker Blanz，andThomas Vetter.3D变形人脸模型[8] 格雷厄姆·费弗基于余弦波瓣的梯度照明照片的再照明。InProc. SIGGRAPH. 2009年[9] Marc-Andre'Gardner ， KalyanSunkavalli ， ErsinYumer，Xi-aohuiShen，EmilianoGambaretto，ChristianGag ne'和Jean-Fran c.Lalonde。学习从单个图像预测室内照明SIGGRAPH Asia，2017.[10] 巴勃罗·加里多、米夏尔·佐勒赫·奥菲尔、丹·卡萨斯、LeviVal-gabalet、基兰·瓦拉纳西、帕特里克·佩雷斯和克里斯蒂安·西奥博尔特。从单目视讯重建个人化三维人脸模型。SIGGRAPH，2016.[11] 巴勃罗·加里多，Mi chaelZollh oüfer，丹·卡萨斯，LeviVal-gaerts，KiranVaranasi，帕特里克·佩雷斯，和克里斯蒂安·西奥博尔特从单目视频重建个性化的3D人脸模型。ACM Transactions on Graphics，2016。[12] 巴勃罗·加里多，迈克尔·佐尔·霍费尔，吴成磊，德里克·布拉德雷，帕特里克·佩雷斯，塔博·比尔，和克里斯蒂安·西奥博尔特基于单目视频的唇部三维矫正重建。ACM事务处理图表，2016年。[13] AbhijeetGhosh，GrahamFyffe，BoromTunwattanapong ， Jay Busch ， Xueming Yu ， and PaulDebevec.使用偏振球面梯度照明的多视图人脸ACM Trans.on Graphics（Proc. SIGGRAPH 2011），2011.4801[14] 雅尼克·霍尔德-杰弗罗伊，阿沙亚·阿塔瓦莱，让-弗朗·弗朗索瓦·拉隆德。用于单图像室外照明估计的深度sky建模在Proc. CVPR，2019年。[15] Phillip Isola ， Jun-Yan Zhu ， Tinghui Zhou ， andAlexei A Efros.使用条件对抗网络进行图像到图像的翻译。在Proc. CVPR，2017年。[16] 贾斯汀·约翰逊亚历山大·阿拉希和李飞飞。实时风格转换和超分辨率的感知损失。在Proc. ECCV，2016年。[17] Tero Karras，Timo Aila，Samuli Laine，and JaakkoLehtinen.逐步增长的甘斯，以提高质量，稳定性和变化。arXiv预印本arXiv：1710.10196，2017。[18] Tero Karras Samuli Laine和Timo Aila一种用于生成对抗网络的基于风格的生成器体系结构在Proc.CVPR，2019年。[19] 戴维斯E.王Dlib-ml：一个机器学习工具包。Journalof Machine Learning Research，10：1755[20] Alex Krizhevsky，Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络进行ImageNet分类。2012年，在NIPS[21] Samuli Laine ， Janne Hellsten ， Tero Karras ，Yeongho Seol，Jaakko Lehtinen，and Timo Aila.用于高性能微分渲染的模块化图元。ACM Transactionson Graphics，39（6），2020。[22] Alexandros Lattas 、 Stylianos Moschoglou 、 BarisGecer、Stylianos Ploumpis、Vasileios Triantafyllou、Abhijeet Ghosh和Stefanos Zafeiriou。Avatarme：真实渲染的3d面部重建“在野外”。在Proc. CVPR，2020中。[23] Guannan Li ， Chenglei Wu ， Carsten Stoll ， YebinLiu ，Kiran Varanasi，Qionghai Dai，and ChristianTheobalt.在一般不受控制的照明条件下捕捉可再现的人类表演。InComputer Graphics Forum （Proc.Euro- graphics），2013.[24] R. Li ，K.Bladin，Y.Zhao，C.奇纳拉岛Ingraham，P.湘、X. Ren，P. Prasad，B. Kishore，J. Xing，and H.李学习基于物理的面部属性的形成。在Proc. CVPR，2020中。[25] Abhimitra Meka、Christian Haene、Rohit Pandey、Michael Zollhoefer、Sean Fanello、Graham Fyffe、Adarsh Kowdle 、 Xueming Yu 、 Jay Busch 、 JasonDourgarian 、 Peter Denny 、 Sofien Bouaziz 、 PeterLincoln 、 Matt Whalen 、 Geoff Harvey 、 JonathanTaylor、Shahram Izadi、Andrea Tagliasacchi、PaulDebevec 、 Christian Theobalt 、 Julien Valen

下载后可阅读完整内容，剩余1页未读，立即下载