野外3D物体解构

39 浏览量更新于2023-10-25 收藏 16.38MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1184900在野外解构3D物体0Felix Wimbauer 1 , 2 Shangzhe Wu 2 Christian Rupprecht 201 慕尼黑工业大学，2 牛津大学0wimbauer@in.tum.de { szwu, chrisr } @robots.ox.ac.uk0单张图像和粗糙形状新光照0训练推理0解构0反照率法线漫反射镜面反射漫反射镜面反射渲染渲染0图1.从野外图像中解构3D物体。左：我们的方法在具有粗糙形状估计的无约束图像上进行训练，这些估计可以使用现成的方法或经典的运动结构获得。右：我们的方法将图像解构为精确的形状、材料（漫反射反照率、镜面反射率、镜面反射强度）和光照（方向、强度）。然后可以根据我们的照明模型重新渲染和重新照明图像。该模型可以推广到训练类别之外的对象（例如停车计费器）。0摘要0随着对增强和虚拟现实（XR）应用的关注不断增加，需要能够将图像中的物体提取出来并转化为适用于各种相关3D任务的表示形式的算法。由于在现实世界中收集和注释无限种类的对象的数据是不可行的，因此无法仅依赖于监督学习。我们提出了一种弱监督方法，能够将单个物体的图像分解为形状（深度和法线）、材料（反照率、反射率和光泽度）和全局光照参数。对于训练，该方法仅依赖于训练对象的粗糙初始形状估计，以引导学习过程。这种形状监督可以来自预训练的深度网络或更通用的传统运动结构流水线。在我们的实验中，我们展示了该方法可以成功地将2D图像解构为分解的3D表示，并且可以推广到未见过的物体类别。由于野外评估由于缺乏真实数据而困难，我们还引入了一个逼真的合成测试集，以进行定量评估。请访问我们的项目页面：https://github.com/Brummi/derender3d01. 引言0人类可以从单个2D图像中轻松推断出物体的底层3D属性，例如3D形状、表面材料及其照明属性。从单个图像中推断出“物体内在属性”一直是计算机视觉中的一个长期目标，通常被称为“逆渲染”或“解构”，因为它颠倒了计算机图形学中众所周知的渲染步骤，该步骤从类似的一组对象和材料描述符生成图像。0将图像解构为其物理组成部分不仅在一般图像理解中起着重要作用，而且对于许多应用程序，如增强/虚拟现实（XR）和视觉效果（VFX）也是关键。在这些应用中，解构的3D表示可以通过启用后处理步骤（如重新照明或更改纹理或材料属性）来增加逼真度，从而进一步模糊这些环境中真实和合成对象之间的界限。0随着XR从研究和商业应用向消费设备的发展，解构方法应该能够适用于野外的各种图像，以便广泛采用这些技术。虽然图像解构文献的历史很长[13,14]，但最近的基于学习的方法越来越受关注。Supervised Inverse Rendering. Next, we will focus oninverse rendering methods that recover shape, material andillumination from images. Classical Shape-from-Shadingapproaches assume Lambertian surface properties [13, 14].Photometric Stereo techniques [1,12] recover shape, BRDFmaterial and lighting by solving an optimization problem,given multiple images of a scene captured under variouslighting conditions and/or from multiple viewpoints. Thishas been extended with learning-based approaches [3, 4,2184910以往的研究已经在特定类别上展示了这种能力，比如人像[38]和合成的ShapeNet物体[49]，通过在合成数据上进行训练，通常是使用合成模型或复杂的光线捕捉系统获得的真实数据。然而，对于“野外”中的一般物体来说，获取大规模的真实材料和光照注释要困难得多，几乎是不可行的。在合成数据上训练的模型通常缺乏足够的真实性，导致在真实图像上的转移效果不佳。在真实数据上训练的模型通常只关注单一类别（例如人脸或鸟类[11, 17, 24, 25,55]），无法推广到新的类别。另一方面，最近引起兴趣的另一类研究旨在以无监督或弱监督的方式学习3D物体，而不依赖于显式的3D真实数据[17, 19, 25, 36,55]。尽管在重建简单物体的3D形状方面已经展示了令人印象深刻的结果，但其中很少有方法考虑到还原镜面表面材料，因为这会给模型引入更多的歧义。此外，它们通常只限于单一类别。在本文中，我们探讨了在野外图像中学习非Lambertian内在分解的问题，而不依赖于显式的真实注释。具体而言，我们介绍了一种利用无监督方法获得的粗糙3D形状重建，并学习预测细化形状以及将材料进一步分解为反照率和镜面成分的方法，给定一组单视图图像。该方法的核心是通过图像形成过程从其各个组成部分渲染图像。然后，模型通过重建目标学习分解图像。由于这种表述具有高度的歧义性，模型依赖于几个附加线索来实现有意义的分解学习。我们使用粗糙的初始形状估计来引导训练。这个估计可以来自各种来源。对于像Co3D[40]这样的数据集，其中有多视图信息可用，我们依赖于传统的运动结构流水线（例如COLMAP[44]）。对于像人脸这样的特定类别，可以使用现有的专门的无监督方法来获得粗糙的初始形状估计。我们提出了一种简单的方法，使用粗糙的形状、输入图像和简单的光照模型来估计初始材料和光照属性。然后，我们可以通过使用粗糙估计作为初始监督信号来促进学习，这避免了许多只满足重建目标的退化解。最后，为了进一步提高分解的质量，我们引入了第三个目标，其中图像使用随机化的光照参数进行渲染，并且鉴别器有助于确保逼真的重建。虽然在训练过程中我们需要（伪）监督粗糙形状，但最终模型可以直接分解。0我们展示了我们的模型能够产生准确和令人信服的图像分解，改进了现有技术水平，甚至在训练时没有考虑的对象类别上具有泛化能力。在我们的实验中，我们展示了该模型可以在来自不同数据集的各种对象上工作。然而，由于这是第一个处理“野外”反渲染的方法，目前还没有合适的基准来定量评估分解的质量。因此，我们还引入了一个合成基准数据集，使用来自多个视点的10个对象的照片逼真渲染。每个图像都与像素级的材料属性和照明信息相关联，这使我们能够直接评估分解。新的数据集、代码和训练模型将与本文一起发布。02. 相关工作0本研究研究了学习对“野外”一般对象的图像进行反渲染的问题，这涉及计算机视觉和计算机图形学的几个领域的交叉。在本节中，我们首先讨论了内在图像分解和多图像逆渲染的相关工作，以及直接监督和最近的无监督方法。0内在图像分解。内在图像分解是一项经典任务，其主要目标是将图像分解为反射图像和阴影图像，即将真实表面颜色与光照效果分离。由于这是一个高度不适定的任务，传统方法通常依赖于额外的启发式和先验知识。经典的Retinex算法[23]假设图像强度的微小变化是由阴影引起的，而突变则揭示了真实的反射。在过去几十年中，还探索了许多其他先验知识，例如对反射率的全局稀疏约束[10,41,46,47]，以及对假设为兰伯特表面的阴影的显式几何约束[2,21]。最近，研究人员还研究了基于学习的方法，通过在合成数据[16,33]或多光照图像[27,31]上进行训练。在这项工作中，我们借鉴了这一领域的思想，以约束反射率提取，但旨在将图像分解为明确的材料、形状和照明因素，而不是单个阴影图，因为这样可以进行重新照明和重新渲染。Dref∥(1)3184920在推理中，大多数方法仍然需要多个图像，但有些方法已经从多个视角学习了先验知识，可以用于单个图像的推理。然而，为了训练或推理而捕捉具有受控照明的多个图像具有挑战性，并且难以应用于“野外”对象，这是本文的主要目标。反渲染任务也可以通过直接监督进行学习，通常使用合成数据，如ShapeNet[7]，物体[6,8,9,32,49]，合成面部/身体[15,22,45]，近似平面表面[28]，室内场景[26]或其他合成物体[16,29,43]。然而，生成捕捉真实世界复杂性水平的大规模逼真合成数据具有挑战性，因此这些方法如何推广到真实图像仍然是一个问题。由于反渲染和重新照明对于面部和人物特别有用，已经使用光线舞台设置收集了用于真实面部的重新照明数据集[37,38,51,52]。然而，这种方法对于一般对象来说是不可行的。0无监督逆渲染。最近，对于逆渲染任务的无监督或弱监督方法越来越受到关注。一些工作尝试从仅有的单视图图像集合中学习物体类别的3D形状，例如面部和鸟类[11，17，25，55，58]，使用弱监督，如2D关键点，掩膜，类别模板形状或对称性等假设。这些工作大多集中在形状学习上，并没有专门处理材料和光照分解，或者假设一个简单的Lambertian着色模型。Wu等人[54]恢复了形状、光泽材料和环境光照，但仅关注于单一特定类型的物体-花瓶，并假设具有旋转对称性。与所有这些方法不同，本文旨在从野外图像中恢复一般物体的镜面材料和照明，并在训练过程中仅使用粗略的几何估计，这些估计可以从现有方法中获得。03. 方法0在本节中，我们将描述我们方法的模型和训练方案。图2显示了分解、训练过程和损失的概述。03.1. 渲染-图像形成模型0我们方法的关键是对图像形成过程进行建模，即从内在组成部分渲染图像。我们的方法通过从输入图像Iin∈[0，1]3×H×W中提取内在组成部分来反演这个过程-去渲染图像。虽然渲染过程通常是确定性的，但它是满射的。这意味着由于图像形成过程的高度复杂性，逆过程是困难的。0是模棱两可的，许多不同的内在材料组合会映射到相同的图像。我们通过三种方式处理高度模棱两可的逆渲染步骤。首先，我们对物体的材料做出合理的假设，从而大大简化了渲染过程。其次，我们在渲染过程中保留足够的灵活性，使得模型可以学习克服第一步中使用的近似方法。最后，我们使用传统方法或现有的对象特定解决方案来进行粗略形状监督，以引导学习过程并避免退化解。形状。由于物体的形状对其着色有很大影响，我们将直接将这两个组件联系起来。为了计算每个像素的着色，我们需要一个每个像素的法线图N∈[−1，1]3×H×W。给定一张图像，直接用神经网络预测法线图是有问题的，因为没有遵循全局形状的动机。因此，我们从深度图D ∈[dmin，dmax]H×W计算法线图ND。然而，细微的几何细节（例如划痕或小浮雕）对法线有很大影响，但对全局形状影响较小。因此，我们预测深度图D（并计算相应的法线图ND）和图像的细化法线图Nref，并将它们组合起来：0N = ND + Nref0光线和材料。使用非常表达力的光照模型可以捕捉到逼真渲染的高度复杂效果。然而，我们发现这样的模型会给逆任务的学习增加相当大的困难，除非有进一步的监督。因此，为了模拟光照，我们依赖于Phong光照模型[39]，它考虑环境光、漫反射光和镜面光成分。此外，我们做出以下假设。我们在训练过程中可以观察到，来自一个主要光源（例如太阳）的阴影对模型来说是一个非常重要的线索。此外，多个光源会引入更多的模糊性，可能会损害预测几何的正确性。因此，我们将光模拟为单一定向光源和全局环境光，两者都发出完全白光。它由环境和定向强度samb，sdir∈[0，1]以及光方向l∈SO(3)参数化。对于这两个项，我们使用一个组合的每像素反照率图A∈[0，1]3×H×W。光泽度是一种非常复杂的光照效果，因此很难从单个图像中提取出来。为了使复杂度可控，我们使用全局的光泽度值α∈[0，αmax]和全局的光泽度强度aspec∈[0，1]来表示整个物体。总结起来，我们将光照表示为L=(samb，sdi�，l)，将内在材料属性表示为(A，α，aspec)。通过以下渲染方程，我们通过形状、材料和光照获得图像ˆI，其中u∈Ω=&)), (2)arg minLc4184930光照0材质0形状0粗糙几何，反射率和光照损失0L1点积L1 MSE MSE0漫反射阴影0镜面阴影0图像形成模型 - 冯氏光照0重构损失0SSIM+ L10GAN损失0原始光照0随机光照0?0形状材质光照 &0 随机光照0图2.模型架构。多个网络将输入图像I分解为形状（深度D和法线N），材质（反射率A，光泽度α和镜面强度aspec）和光照（环境和方向强度samb，sdir和光照方向l）。为了允许复杂的光照效果，我们还引入了一个镜面光照细化步骤。训练结合了三种不同的损失项：1.使用粗略估计进行分解的损失，2. 重构损失，和3. 鉴别器损失用于随机重新照明的图像。0{ 1 , . . . , H } × { 1 , . . . , W } 代表像素位置。0ˆ I u = τ ( s amb A u � 环境项0+ s dir ( N T u lA u � 漫反射项0+ a spec � N T u v � α � �� 镜面项0其中τ(Iu) = I1/γu，γ =2.2表示通过伽马函数近似的色调映射，这通常用于确保更均匀的亮度分布。03.2. 反渲染0我们的网络架构由多个子网络组成，用于预测输入图像的不同形状、材质和光照属性。根据这些预测，我们可以使用上述图像形成模型重构图像。然而，如前所述，由于渲染函数中存在大量的歧义，仅仅使用简单的重构目标（例如∥I−ˆI∥22）是不足以学习有意义的分解的。为了克服这个挑战，我们提出了一个训练方案，其中包括两个额外的目标，用于规范学习问题并防止退化解。作为训练数据，我们使用一组无约束的图像及其关联的粗略几何估计。我们使用粗略几何来生成进一步的内在分量的粗略估计，这些估计在辅助损失项中使用。这些粗略约束强制模型在全局层面上预测出一个语义正确的解缠结。提取粗略光照和反射率。由于仅粗糙的形状（深度图Dc及其法线图Nc）本身不足以约束分解，我们还通过两个优化步骤从几何信息中计算粗略的光照和反射率估计。由于我们只需要粗略估计的内在分量，我们可以简化假设，即每像素的粗略亮度B ∈ [0, 1] H × W（在0输入图像的HSV颜色空间与环境和漫反射光照的组合成比例，并且丢弃镜面光照效果。这意味着反射率图具有恒定的亮度。给定光照信息，我们可以从粗糙的几何形状中获得相关的阴影图。因此，我们优化粗糙光照参数Lc = (samb,c,sdir,c, lc)，使得聚合的阴影图与输入图像的亮度相对应。0u ∈ Ω0� 2 Bu − (samb,c + sdir,c NTc,u lc) � 2(3)02以避免颜色饱和效果，因此对B添加了一个缩放因子2。这里，Nc是粗略法线图。通过这个光照估计，可以通过反转着色方程得到初始反射率估计˜Ac：0˜Ac,u = Iu � samb,c + sdir,cNTc,u lc�-1 (4)0然而，由于几何形状的粗糙度和未建模的镜面效应，仅使用这个公式的估计结果会包含许多伪影。为了对估计的˜Ac进行正则化，我们使用另一个优化步骤进行细化。类似于内在图像分解文献中使用的约束[48,56]，我们对反照率进行总变差正则化(TV)，同时保留图像梯度(即边缘)的数据项：0arg min Ac ∥ δxAc - δx˜Ac ∥ 2 + ∥ δyAc -δy˜Ac ∥ 2 +0λTV(∥ δxAc ∥ 1 + ∥ δyAc ∥ 1) .(5)0我们使用δx和δy表示图像梯度的计算，例如可以通过将Sobel算子应用于图像来获得。我们通过操作得到Lc和Ac。(6)5184940分别使用梯度下降优化方程(3)和方程(5)，每个图像的计算时间不到一秒，可以预先计算(见图3)。学习去渲染。我们使用三个不同的神经网络从输入图像Iin预测内在分量。一个形状网络Φshape预测深度图D，Du∈[dmin,dmax]和法线细化图Nref，预测后进行归一化，并使用方程(1)获得最终的法线图N。一个反照率网络Φalbedo预测反照率图A，Au∈[0,1]，一个光照网络Φlight预测光照参数samb，sdir∈[0,1]，以及光泽度α∈[0,αmax]和镜面强度aspec∈[aspecmin,aspecmax]。我们使用对分解和渲染图像的互补损失进行模型训练。这使得网络能够遵循全局准确的分量，同时实现更详细的重建。损失是使用(预先计算的)粗糙形状、反照率和光照信息作为伪监督进行计算的。0L c = 0u ∈ Ω λD∥Du - Dc,u∥1 -λNNTuNc,u +0λ A ∥ A u - A c,u ∥ 1 + λ L ∥ L - L c ∥ 2 20此外，还有两个关于渲染图像的损失。首先，我们应用重建损失来训练模型捕捉分解中的所有局部细节。具体来说，这个损失项是由每像素的L1损失和基于块的结构相似性得分SSIM(I, ˆI) [53]的组合计算得到的。0L rec = 10| Ω|0u ∈ Ω ∥Iu - ˆIu∥1+ 10� 1 - SSIM(I, ˆI) � (7)0重建损失提供了很强的训练信号，但通常仍然存在一些模糊性，即在给定固定光照条件下，某些细节可以由材质(独立于光照)或形状分量(依赖于光照)来建模。只有当我们在新的光照条件L'(主要受方向l'影响)下渲染图像时，这种错误才会变得明显。为了确保我们实现了一个语义上正确的分解，我们还引入了对抗性公式。具体来说，我们在每次前向传递中渲染两个图像：一个使用预测的光照条件渲染的图像，表示为ˆI，也用于重建损失项；一个使用随机采样的光照条件渲染的图像，表示为ˆI'。然后我们训练一个鉴别器网络Φdisc∈R来评分，判断一张图像是使用原始光照条件渲染的还是重新照明的。我们使用LSGAN[35]中的鉴别器进行判别。在训练Φdisc时，使用重建图像ˆI而不是原始图像Iin作为正样本的优势是网络无法利用图像形成模型的伪迹作为提示。0关于图像是否重新照明的问题，真实和伪造的例子都来自同一流程。重新照明图像的损失项计算如下：L gan = (1 - Φdisc(ˆI'))^2。然后我们可以使用整个模型进行端到端的训练。0L = Lc + λrecLrec + λganLgan, (8)0学习将图像解构为其内在组成部分。改进。将镜面反射模型简化为两个标量可以实现稳定的训练，但当物体的材料特性差异较大时，这可能有限。为了缓解这个问题，类似于我们允许法线通过细化图偏离基础形状，我们从输出图像中预测每个像素的镜面反射细化图Ispecref(ˆI)。然后，我们将Ispecref与镜面反射项相乘，并重新组合图像。04. 实验0我们进行了大量实验来评估我们的方法及其各个组成部分。04.1. 数据集和度量标准0我们使用三个不同的数据集来涵盖各种对象：人脸、野外常见物体的集合以及具有地面真实注释的新的合成和照片逼真的测试集。请参阅补充材料获取所有细节。CelebA-HQ[18]是一个大规模的人脸数据集，包含30k张名人的高分辨率肖像图片。我们大致裁剪出脸部区域，并使用CelebA数据集的相应的训练/验证/测试划分。为了获得粗略的初始几何估计Dc，我们使用[55]在降低的分辨率64×64上。Co3D[40]是一个包含近19,000个视频的集合，捕捉了50个MS-COCO[30]类别的物体，其中包括每帧的深度、相机姿态数据和重建的稀疏点云。首先，我们使用点云库[42]从点云中计算表面法线。得到的深度和法线图非常稀疏（见图3）。我们选择了一部分类别，并获得了23895个训练图像和2817个测试图像。COSy（Common ObjectsSynthetic）是一个我们创建的测试集，用于定量评估图像分解方法。这是必要的，因为目前没有一个数据集将逼真的图像与精确的图像分解基准结合起来。我们手动选择了10个可自由获取的逼真3D场景，用于Blender3D建模软件，并为每个场景定义了4个不同的相机视角。除了渲染图像，我们还保存了漫反射反照率图、法线图和前景掩码。我们仅将这个包含40张图像的数据集用于测试。01 https://blender.org6184950掩码0图3.粗略反照率优化。在训练中，我们从输入图像Iin和粗略形状估计Nc计算粗略反照率估计Ac。我们首先通过假设Lambertian着色模型并对其进行反演来近似光照。随后，我们应用平滑优化来去除伪影。0训练后处理。对于每个图像，我们从粗略的深度估计中计算法线图，并优化光照和反照率的近似（见图3）。我们为CelebA-HQ数据集训练一个模型，为Co3D数据集训练一个模型。两个模型的所有超参数都相同（见补充材料），只有在Co3D上的λ L =0，因为几何形状非常稀疏，光照估计通常不够准确，会阻碍训练的收敛。度量标准。由于其他方法使用不同的图像形成模型，从而获得不同的阴影表示，因此无法直接比较阴影图。这限制了我们只能对法线图和反照率图进行定量评估。除了常见的L1、L2和SSIM误差度量之外，我们还使用平均角度偏差（DIA）（N, ˆN）= 1/|Ω| ∑0u ∈ Ω cos − 10尺度不变误差SIE(A, ˆA) = 1/|Ω| ∑0u ∈ Ω ∥Au0对于反照率而言，它只能估计到一个常数比例因子。在这里，µ A 是整个图像的平均反照率，µ A = 1/|Ω| ∑u∈ΩA(u)。04.2.结果0定性评估。为了展示我们方法的能力，我们首先在各种样本上进行评估，如图4所示。无论类别和背景如何，我们都能获得全局正确的结果，具有非常高的保真度。关键是，即使COSy数据集的对象类别不是训练类别的一部分，我们观察到相同级别的细节。这证明了我们方法对新对象和类别的泛化能力。除了分解结果，我们还展示了我们的方法在改变光照时产生逼真的图像和阴影图。此外，我们在图5中将我们的结果与最先进的固有图像分解方法[2,29,43,49]进行了比较。所有方法都能够预测出合理的反照率图，捕捉到主要的颜色成分。然而，[2,29,43]的反照率图仍然包含颜色梯度。0法线 N 反照率 A0模型MSE ↓ DIA ↓ SIE ↓ SSIM ↑0SIRFS [2] 0.331 52.994 0.113 0.724 ShapeNet-Intr. [49] N/AN/A 0.114 0.726 SISaSVBRDF [29] 0.288 42.801 0.112 0.752Neur. Rel. [43] 0.228 41.603 0.093 0.7230我们的方法 0.173 37.807 0.075 0.7600表1.与现有技术的比较。我们在COSy数据集上对以前的方法进行了改进。[29]和[43]是使用闪光照片进行训练的。0法线 N 反照率 A 镜面 I spec0模型MSE ↓ DIA ↓ SIE ↓ SSIM ↑ MSE ↓ L1 ↓0无反照率 0.162 36.5 0.088 0.750 0.124 0.077 无形状 0.506 68.70.079 0.757 0.108 0.058 无GAN 0.169 37.2 0.075 0.762 0.123 0.0730我们的方法 0.173 37.8 0.075 0.760 0.112 0.0590表2.消融。当我们关闭模型的某些组件时，在COSy数据集上的结果。具体来说，我们将相应损失项的λ=0系数设置为0，然后进行完整的训练。0边缘和角落的材质和光照效果。[49]能够消除屋顶的几乎所有镜面成分，但会引入伪影，例如在屋顶顶部。我们的方法成功地消除了阴影效果，不含伪影。对于法线预测，[2]无法捕捉到物体的形状和细节。虽然[29]和[43]预测出了看似详细的法线图，但仔细观察发现它们不是物理上有根据的（例如，窗户上的法线向上）。我们的法线图既详细又符合全局形状。最后，我们的阴影图是从法线图和其他材质属性计算得出的。这就是为什么它们同样详细且基于物理属性的原因。漫反射和镜面效果被正确捕捉到。[49]预测的漫反射阴影图非常详细，但没有捕捉到光照方向。0定量评估。由于CelebA-HQ和Co3D都没有明确的、密集的真实地面事实，我们在我们新引入的COSy数据集上应用Co3D模型进行定量评估。我们与表1中显示的最先进的图像分解方法[2,29,43,49]进行比较。在所有指标中，我们在法线和反照率提取方面都取得了最佳准确性。事实上，我们的方法（像其他方法一样）没有在这个测试集上进行训练，突出了它的强大的泛化能力。0单图像重照。为了展示去渲染的有用性，我们在CelebA-HQ数据集上进行了重照。图6显示了我们的方法与最先进的人脸重照方法[63]和[15]的比较。作为一个结果，CelebA-HQCo3DCOSy7184960图4.定性结果。我们在CelebA-HQ和Co3D两个数据集上训练了一个模型，并展示了来自测试集的相应分解结果。为了突出其泛化能力，我们还将Co3D模型应用于我们的合成测试集COSy的样本。每一行包含输入图像Iin，预测的反照率A和法线N，漫反射阴影图Idiff，镜面阴影图Ispec和重建图像ˆI。此外，我们还展示了在新的光照条件下的阴影图（I'diff，I'spec）和重建图像ˆI'。我们的模型在形状和材质重建方面具有高度的细节和令人信服的重照结果。0由于底层显式图像形成模型的结果，我们的方法产生了视觉上正确的重新照明结果，其颜色比[63]更准确，比[15]更少的伪影。这表明我们的方法不仅在内在图像分解方面表现出色，而且可以与专门设计用于特定子任务的方法竞争。04.3. 消融研究和分析0我们还进行了几项消融研究和对各个模型组件影响的进一步分析。0损失组件。我们方法的核心是三种损失的组合：对不同内在组件的粗略损失、重构损失和鉴别器损失。我们关闭每个组件，然后在COSy上评估得到的模型，如表2所示。0当关闭反照率和形状损失（λA = 0和λD = λN =0）时，相应组件的预测结果明显变差。鉴别器损失对反照率和法线准确性的质量没有太大影响，但它稳定了镜面着色图的准确性。8184970SIRFS0单图像形状和SVBRDF0神经0重新照明0ShapeNet内部特性0我们0输入反照率/0反射法线（漫反射）着色0镜面反射/粗糙度0图5. 与最先进方法的定性比较。我们展示了与SIRFS[2]、单图像形状和SVBRDF [29]、神经重新照明[43]和ShapeNet内部特性 [49]相比，更优秀的图像分解结果。0我们0DPR0带阴影的重新照明0掩码0没有环境光的我们0我们0DPR0带阴影的重新照明0掩码0没有环境光的我们0图6.与人脸重新照明方法的定性比较。我们使用我们的模型对CelebA-HQ测试集中的图像进行重新照明，并与最先进的人脸重新照明方法进行比较。我们的方法显示出更好的颜色准确性和更强的鲁棒性。0几何和反照率改进。图3比较了训练期间的粗略输入和训练模型的预测结果（测试集示例）。这是为了验证反照率和法线图预测相对于它们的初始粗略估计实现了更高的细节和完整性。0粗略预测0图7.粗略估计与预测对比。我们比较了训练过程中使用的粗略形状和反照率估计与最终模型的预测结果，并显示了显著的改进。请注意，测试时不可用粗略估计。0无镜面细化与有镜面细化无镜面细化与有镜面细化0图8.镜面细化。镜面细化网络改善了底层材料复杂性难以用光照模型明确描述的区域。0初始的粗略对应物是用于监督训练过程的结果，这是重建和GAN损失以及显式图像形成模型的结果。0镜面细化。图8展示了两个重新照明的肖像图像上的镜面细化。对于整个图像共享镜面参数的假设，有时会导致复杂区域出现镜面伪影，这在重新照明过程中尤为重要。该网络有效地消除了头发周围和眼睛周围的伪影，产生了更加逼真的输出。05. 结论0我们提出了一种可以将野外物体图像分解为其内在组成部分形状、材料和光照的方法。我们提出的学习流程不依赖于合成数据集，只在训练过程中使用稀疏几何估计，这可以通过现成的无监督方法获得。通过一系列消融研究，我们证明了我们方法的不同组成部分的重要性，特别是粗略损失的重要性。所提出的方法在所有内在组成部分上都实现了高精度，无论是在内部还是在外部分布的图像上，我们在新引入的合成图像分解测试集上进行了测量，希望它能成为野外图像去渲染的新基准。0致谢：Shangzhe Wu受Meta Research的支持。ChristianRupprecht受英国创新署（项目71653）的支持，该署代表英国研究和创新（UKRI）和牛津大学工程科学系。9184980参考文献0[1] Neil Alldrin, Todd Zickler和David Kriegman. Photo-metric stereo with non-parametric and spatially-varying re-�ectance. CVPR, 2008. 20[2] Jonathan T. Barron和Jitendra Malik. Shape, Illumination,and Re�ectance from Shading. IEEE TPAMI, 2015. 2, 6, 80[3] Sai Bi, Zexiang Xu, Kalyan Sunkavalli, Miloˇs Haˇsan, Yan-nick Hold-Geoffroy, David Kriegman和Ravi Ramamoor- thi.Deep re�ectance volumes: Relightable reconstructions frommulti-view photometric images. ECCV, 2020. 20[4] Sai Bi, Zexiang Xu, Kalyan Sunkavalli, DavidKriegman和Ravi Ramamoorthi. Deep 3D Capture: Geometryand Re�ectance from Sparse Multi-View Images. CVPR, 2020.20[5] Mark Boss, Raphael Braun, Varun Jampani, Jonathan T.Bar- ron, Ce Liu和Hendrik P.A. Lensch. Nerd: Neural re-�ectance decomposition from image collections. ICCV, 2021.30[6] Mark Boss, Varun Jampani, Kihwan Kim, Hendrik P.A.Lensch和Jan Kautz. Two-shot Spatially-varying BRDF andShape Estimation. CVPR, 2020. 2, 30[7] Angel X. Chang, Thomas Funkhouser, Leonidas Guibas,Pat Hanrahan, Qixing Huang, Zimo Li, Silvio Savarese, Mano-lis Savva, Shuran Song, Hao Su, Jianxiong Xiao, Li Yi和FisherYu. Shapenet: An information-rich 3d model reposi- tory.arXiv preprint arXiv:1512.03012, 2015. 30[8] Wenzheng Chen, Huan Ling, Jun Gao, Edward Smith,Jaakko Lehtinen, Alec Jacobson和Sanja Fidler. Learning topredict 3d objects with an interpolation-based differentiablerenderer. NeurIPS, 2019. 30[9] Wenzheng Chen, Joey Litalien, Jun Gao, Zian Wang,Clement Fuji Tsang, Sameh Khamis, Or Litany和Sanja Fidler.Dib-r++: Learning to predict lighting and material with ahybrid differentiable renderer. NeurIPS, 2021. 30[10] Elena Garces, Adolfo Munoz, JorgeLopez-Moreno和Diego Gutierrez. Intrinsic images byclustering. Computer Graphics Forum, 2012, 1415–1424. 20[11] Shubham Goel, Angjoo Kanazawa和Jitendra Malik. Shapeand viewpoint without keypoints. ECCV, 2020. 2, 30[12] Dan B Goldman, Brian Curless, Aaron Hertzmann和StevenM Seitz. Shape and Spatially-Varying BRDFs fromPhotometric Stereo. IEEE TPAMI, 2009. 20[13] Berthold KP Horn. Obtaining Shape from ShadingInformation. The Psychology of Computer Vision, 1975. 1, 20[14] Berthold K. P. Horn和Michael J. Brooks. Shape fromShading. MIT Press, Massachusetts, 1989. 1, 20[15] Andrew Hou, Ze Zhang, Michel Sarkis, Ning Bi, YiyingTong和Xiaoming Liu. Towards high �delity face relight- ingwith realistic shadows. CVPR, 2021. 3, 6, 70[16] Michael Janner, Jiajun Wu, Tejas Kulkarni, Ilker Yildirim,and Joshua B Tenenbaum.自监督内在图像分解。在NeurIPS，2017年。2，30[17] Angjoo Kanazawa, Shubham Tulsiani, Alexei A. Efros, andJitendra Malik.从图像集合中学习特定类别的网格重建。在ECCV，2018年。2，30[18] Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen.渐进增长的GANs以提高质量、稳定性和变化性。在ICLR，2018年。50[19] Nilesh Kulkarni, Abhinav Gupta, and Shubham Tulsiani.通过几何循环一致性进行规范表面映射。在CVPR，页码2202-2211，2019年。20[20] Tejas D Kulkarni, William F Whitney, Pushmeet Kohli, andJosh Tenenbaum. 深度卷积逆图形网络。在NeurIPS，2015年。30[21] Pierre-Yves Laffont, Adrien Bousseau, Sylvain Paris,Fr´edo Durand, and George Drettakis.来自照片集合的一致内在图像。ACM TOG，2012年。20[22] Manuel Lagunas, Xin Sun, Jimei Yang, Ruben Villegas,Jiaming Zhang, Zhixin Shu

下载后可阅读完整内容，剩余1页未读，立即下载