基于物理的室内全景图像逆绘制方法PhyIR

10 浏览量更新于2023-10-26 收藏 1.68MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12713PhyIR：基于物理的室内全景图像逆绘制李震1王玲莉1黄翔1潘慈慧1，*杨佳琪2，*1瑞泽2西北工业大学yodlee@mail.nwpu.edu.cn，{wanglingli008，huangxiang003，pancihui001}@ ke.com，jqyang@nwpu.edu.cn摘要复杂材质如光泽、金属、镜面等的逆绘制是该领域长期存在的一个不适由于BRDF的简化和光照表示方法的不合理，以往的方法不能很好地解决这一问题.在本文中，我们提出了PhyIR，一个神经逆渲染- 该方法具有更完整的SVBRDF表示和基于物理的网络内渲染层，可以处理复杂的材料并通过重新渲染逼真和详细的镜面反射来合并物理我们的框架估计几何，材料和空间相干（SC）照明从一个单一的室内全景。由于缺乏完整的SVBRDF和全球面光探头的全景数据集，我们引入了一个艺术家设计的为了确保SV光的相干性-（b）第（1）款（d）其他事项（f）第（1）款123（一）（c）第（1）款（e）（g）⃝1⃝2（h）⃝3图1.给定LDR全景（a），我们估计几何形状（b-c）、SV照明和SVBRDF，包括基色（d）、粗糙度（e）和金属度（f）。我们基于物理的可微分渲染器可以在复杂材料上产生详细的镜面反射率（g）基于这样的物理约束，我们的预测有资格产生具有真实光的虚拟对象插入（h）ing，提出了一种新的SC损失。对合成数据和真实数据的大量实验表明，该方法在定量上优于现有技术，影响，例如，在2001年由不可见光源引起高光橱柜上的镜面反射率为100%。和定性地，并且能够为诸如动态虚拟对象插入之类的许多应用1. 介绍逆向绘制是计算机视觉和计算机图形学中的一个基本而又具有挑战性的任务。该任务旨在从单个图像中恢复几何，材料和照明这些特性在混合现实中的场景编辑和虚拟对象插入等新兴应用中起着至关重要的作用。所有这些应用都需要物理上合理的现实主义。然而，重建场景的物理精确属性是非常困难的，因为逆绘制是一个不适定问题。它包含复杂的几何形状，不同类型的材料和变化的局部照明，这将导致复杂的照明效果。*共同通讯作者。项目页面位于https://lzleejean.git- hub.io/PhyIR影响，例如，光泽和镜面材料上的镜面反射、相互反射和投射阴影。在物理上解决这个任务有三个主要挑战1)复杂的材料很难建模。大多数现有方法假设所有表面都是朗伯型[2，21，27，30，34-一些方法以非物理方式处理镜面反射，例如神经残差渲染器[39]，附加镜面着色[48]和phong 参数[17]。尽管一些方法使用相对物理的BRDF表示[7，29，31，52]，但复杂的材料，例如，光泽、金属和镜面材料，由于BRDF有限，此外，由于重新渲染器是建立在这样一个有限的BRDF，物理约束不能很好地结合。2)局部照明的变化是难以表现的。室内场景的照明由于遮挡和非均匀光分布而空间变化（SV），并且由于相干变化性而空间相干（SC）。大多数方法都无法确保一致性-12714ence [16，29，36，41，55，56]，这导致动态对象插入的虽然基于投影的方法[27]和均匀体积照明表示[43，46]用于缓解此问题，但由于不可微分或内存消耗，它们不容易并入基于物理的框架中。3)缺乏包含全面标签的高质量数据集。从真实世界的图像中收集地面实况（GT）标签此外，有些属性很难测量。同时，最近使用的合成数据集[28，54]缺乏必要的属性，例如，HDR照明和基本材料; Open Rooms [32]提出的数据集包括InvIndoor [29]和半球照明中使用的SVBRDF。出于这些考虑，我们提出了PhyIR，这是一个端到端的神经逆渲染框架，具有更完整的SVBRDF表示和基于物理的网络内渲染层，如图1所示。我们从以下角度应对上述三大挑战1)我们提出了一个更物理的逆绘制模型，没有朗伯假设。它可以很好地处理光泽、金属甚至镜面材料的光谱反射率;它提供了基于物理的约束，这可以显著地帮助组件的优化2）提出了一种新的SC损失来保证相邻SV光探针的一致性，这为整个场景的每像素照明提供了一个整体约束，以避免突变。3) 经过努力，我们生成了一个大规模的真实感全景数据集，具有高质量的深度，正常，每像素照明和全面的SVBRDF，即基色，粗糙度和金属度。由于基于物理的渲染，我们的艺术家设计的数据集和真实世界的数据之间的差异较小（如第二节所述）。第3.1节）。总之，我们的方法的主要贡献如下：1. 一个基于物理的逆向渲染框架，可以处理复杂的材质，包括金属和镜面材质。2. 空间相干损失，以保证相邻每像素照明的空间一致性。3. 一个大规模的真实感室内全景数据集，具有高质量的深度，正常，SVBRDF和每像素的空间变化照明。2. 相关工作反向渲染。Barrow和Tenenbaum [4]首先引入了内在图像分解的概念，它将图像分解为反射率和阴影。随后提出了更巴伦和马-lik [3]提出了一种基于优化的方法来分解形状、朗伯反射率和单一照明。他们在[2]中估计了以RGBD作为输入的SV照明随着深度学习的巨大进步，研究人员开始使用神经网络来解决这个问题。詹纳和al. [21]通过自监督学习将阴影分解为特定于对象的图像的照明和法线;Sf- SNet [40]解决了人脸对象的逆渲染。接下来，一些方法解决室内场景[6，13，26，30]，但它们也仅关注漫反射。NIR [39]提出了一种神经渲染器来生成残留外观，例如，突出显示，但这种神经渲染器是不可解释且非物理的 ;[48] 分解镜面着色另外 ;Georgouliset al. [17]从镜面反射对象估计Phong参数这些模型不够结实.Li等[31]估计更多的物理材料称为microfacet BRDF从特定的对象。InvIndoor [29]是与我们最相似的工作，他们将[31]中提出的模型扩展到室内场景。然而，由于BRDF有限，他们的方法不能处理金属材料。此外，InvIndoor [29]中基于物理的网络内渲染层无法产生详细的镜面反射。在我们的工作中，我们利用更全面的BRDF和改进的基于物理的网络内渲染层来产生复杂材料上的详细镜面反射，例如光泽材料，金属材料甚至镜面材料。照明估计。大多数现有的照明估计工作[14，15，19，20，27，47，50，51]仅预测单个照明（总是在图像的中心），而忽略SV照明。它会在图像的不同位置产生意想不到的相同结果，特别是对于室内场景。最近的作品通过估计密集的甚至每像素的照明来探索SV照明[16，29，41，55]这些方法利用GT局部照明技术，可以捕捉局部位置的所有可见光，因此能够很好地预测未观测到的光源。然而，由于单独的预测，它们不能保证相邻照明的这种不一致的照明将产生动态虚拟对象插入的闪烁结果。Srinivasan等人[43]提出了一种体积方法，通过创建均匀的体积网格来确保相邻照明的相干性，但是由于HDR的缺失，此外，基于投影或基于扭曲的方法[14，27，41]有助于忽略SV照明的然而，它需要场景深度作为输入，这在现实世界中不容易捕获。我们的工作可以确保当地照明的空间一致性。我们通过为每像素照明表示设计空间相干损失来解决这个问题。它可以限制相邻局部光探针的可变性数据集。数据集是基于学习的方法的基础。12715(a)GMNetD(b)LNet单像素光照NB输入IR物理渲染器(c)渲染器漫反射镜面反射M精炼底色细化粗糙度(d)GSNet图2.我们基于物理的逆向渲染架构概述。该框架包括四个模块（a-d）。给定LDR全景I，几何和材料估计模块（a）首先预测粗略几何（D，N）和SVBRDF（B，R，M）。SC照明估计模块（b）利用基于物理的网络内渲染模块（c）来预测物理上正确的每像素照明。最后，可训练引导器滤波器模块（d）细化预测的BRDF。当前在现实世界中捕获的数据集包括场景数据集[1，9，11]和照明数据集[8，10，15，16，19]。然而，这些场景数据集没有必要的材料和照明;这些照明数据集缺乏必要的几何形状和材料。虚拟数据集由于受控渲染而发挥更大的作用。一个广泛使用的虚拟场景数据集是SUNC [42]，许多方法[16，30，39，53]基于该数据集生成特定的训练数据。不幸的是，这些数据集具有不切实际的材料（Lambertian或Phong）和照明配置[29]。雪上加霜的是，由于版权问题，这些数据集现在不可用。后来，一些虚拟场景数据集[28，54]用于逆渲染[27，43，46]，这些数据集缺乏HDR照明和全面的材料。Li等[32]使用HDR照明和微面材质生成了室内场景的数据集，但由于廉价的资产，渲染数据和真实世界数据之间的差异仍然存在我们为室内场景构建了一个大规模的照片级全景数据集，该数据集是基于专业布局设计和数万个高质量模型在虚幻引擎4 [12]中生成的我们的数据集是完全全景的，因此它可以用于透视图像和全向图像任务。此外，我们还从现实世界中捕获了全景HDR照明数据集，以评估空间相干照明。3. 方法我们的基于物理的逆绘制方法旨在从单个室内全景图中重新覆盖几何形状、复杂的SVBRDF和SC照明。为了解决这个具有挑战性的问题，我们设计了一个单独的深度模型与基于物理的约束。该框架由四个模块组成，即几何和材料估计模块、SC光照估计模块、基于物理的网络内渲染模块和可训练引导滤波器模块。如图2所示，几何和材料估计网络首先从输入图像预测粗略的几何形状和BRDF。然后，将所有这些预测和输入图像馈送到SC照明估计网络中以预测每像素照度。第三个模块提供了最重要的物理限制。最后，快速可训练引导器滤波器模块细化BRDF以使其更平滑。3.1. FutureHouse合成数据集捕捉基本的BRDF和现实世界场景的照明几乎是不可能的。IIW [5]是从真实世界场景中捕获的，但只有成对反射率比较的稀疏标签可用。否则，捕获的图像不是全向的。因此，没有替代方法来渲染合成数据集。最具影响力的合成数据集命名为12716M∇2n表1.以前的数据集和我们提出的FutureHouse之间的比较。我们的高质量数据集包含全面的注释。布局类型CAD模型几何注释材料注释照明注释光源注释全景[第28话]艺术家设计的艺术家设计的✓弥漫性着色’✓[54]第五十四话艺术家设计的艺术家设计的✓弥漫性着色’✓开放式客房[32]自动生成扫描✓微面元每像素HDR envmap✓’未来之家艺术家设计的艺术家设计的✓微面元每像素HDR envmap✓✓SUNG [42]包含45，622栋房屋，404，058间客房和2644件独特物品。虽然渲染质量并不理想，但许多方法[16，30，39，53]使用改进的渲染方法生成训练数据然而，这些方法采用朗伯假设，不适合复杂材料。InvIndoor [29]表示具有物理激励的微面BRDF模型[24]的材料。这种表示可以处理现实世界中的常见材料。不幸的是，由于版权问题，这些基于SUNG的数据集现在不可用。最近，Liet al. [32]通过模型扫描和材质映射生成了室内场景的大规模数据集。然而，由于廉价的资产和有限的计算预算，渲染数据和真实世界数据之间的差异仍然存在。在这项工作中，我们提出了一个新的大规模photorealist- tic全景数据集命名为FutureHouse，它具有以下特点。1)它包含超过70，000个高质量模型，具有高分辨率网格和物理材料。所有模型都以真实世界的标准进行测量。2）精选场景布局由100多位优秀艺术家精心设计所有选定的布局都用于真实世界的显示. 3)它包含来自1，752个房屋规模场景的28，579个良好全景视图。因此，它可以用于透视图像任务以及全向图像任务。4)更多的物质表现。大多数材料都是用微面BRDF建模方法来表示的其余的，都是用特殊的阴影模式来表示的3.2. 网络与损耗如图2所示，我们的网络由四个模块组成，即几何和材料估计模块、SC照明估计模块、基于物理的可训练渲染模块和可训练引导滤波器模块。每个子模块的详细信息如下所示。几何形状和材料估计。的几何形状和材料估计模块旨在从单个LDR全景（I）预测基色（B）、粗糙度（R）、金属度（M）、法线（N）和深度（D）的粗略结果。为了解决这个多任务问题，我们使用基于ResNet [18]和Unet [38]的多分支编码器-解码器架构。编码器是RetNet-18，解码器由五个卷积层和四个跳过连接组成。所有五个分支解码器具有相同的结构，除了输出层。我们使用圆形填充（CirP）[45]来从图像中提取3D空间特征。GMNet可以被建模为Eq. 一曰：N，D，B，R，M=GMNet（I）。（一）我们使用L2损失作为基色和粗糙度.对于金属度估计，标准L2损失由于值的不平衡而使训练不稳定.因此，我们提出了一个重新加权L2损失，以防止陷入局部极小预测零。我们将损失定义为：L=<$M−M<$$>2×（2−1<$M<$（m）），（2）ELS，例如，布料和传动材料。5)高渲染质量。得益于商业渲染引擎，虚幻引擎4 [12]和强大的深度学习超级采样（DLSS）[33]，我们的渲染具有更少的噪音。特性比较如表1所示，更多比较和示例可参见补充资料。我们的SVBRDF表示法包括基色和金属度，能够产生非单色的镜面反射。其中M是GT金属性，M是预测金属性，m是被分类为金属的像素的索引。对于深度，我们使用流行的BerHu损失[25]作为目标。对于正常，我们将余弦损失定义为Eq。第三章：LN=1−N TN1。（三）因为基色、粗糙度、法线、金属度是分段平滑的，所以我们还为它们添加了梯度损失梯度损失为：我们的数据将极大地帮助多个主题的研究，如逆渲染（以及其子任务，例如，深度和法线估计、材料估计、本征图像分解和照明估计）和机器人。其中X是GT基色、粗糙度、正常度和金属度的梯度。GM的最终训练损失函数Net是：FutureHouse数据集将在作品发布后发布。LGM=βA LA+βR LR+βM LM+ β D L D+β R L R+ β g L g.（五）12717∈∈N⊙2N∇RfrLi（ωi）（ωi·n）dωi我KK∫·SC照明估计。SV照明对于在场景的不同位置生成不同的虚拟对象插入结果是必不可少的在以前的方法[16，29，36，55]中使用的近似表示不能模拟整体建模金属材料，即使在复杂的材料上也可以物理地重新呈现真实的反射率我们将物理渲染函数定义为：在低频和高频上都能精确地测量全景环境。一方面，得益于I=fdH+ Li（ωi）（ωi·n）dωi（九）360°的输入，我们可以使用源HDR环境图作为我们的照明表示，以避免由有限的视野（LFOV）输入引起的模糊预测。另一方面，准确的光探针表示是适合我们提出的SC损失。我们的SC照明网络采用LDR全景IR3×H×W，作为输入的预测几何形状和材料（N，B+fs Li（ωi）（ωi n）dωi，H+其中，H+表示半球;Li表示照明;ωi表示光方向;n表示法线;fd表示漫射BRDF，并且fs表示镜面BRDF。详细公式见补充材料。为了-∈R3×H×W，D，R，M∈R1×H×W）。该架构是提供详细的镜面反射，甚至完美的反射类似于InvIndoor [29]，一个基于UNet的网络。它预测每像素光探针LR3×（H×h）×（W×w）。LNet可以被建模为Eq. 第六章：在镜面材料上，以及基于图像的照明的辐射积分，我们根据以下公式计算具有重要性采样的Monte Carlo数值积分[24]：L（l）（l·n）的最小值H+由于HDR光探测器的高分辨率，Nk=1p（lk，v）动态范围L L = 0。5×（1−SSIM（LlogMmask ，LlogMmask ）），（7）其中，M_mask是除了光源和透射对象之外的对象区域的掩模，L_log是对数尺度照明并且是逐元素乘积。先前的方法[16，29，55]中的每像素照明没有考虑相邻照明的相干性，因此这些方法在虚拟对象插入中产生空间闪烁结果。与使用半球形光表示的InvIndoor[29]不同，我们使用全球面光表示。这种表示允许我们在相邻的光探针上添加SC约束我们提出了一种新的SC损失来对预测的光探针施加与3D位置相关的约束：其中fr=fd+fs，p是概率密度函数，v表示视图方向。我们使用N = 512作为漫反射分量，使用N = 256作为镜面反射分量。我们采用重要抽样方法，方差，它允许我们根据已知的表面BRDF只覆盖重要的提出的基于物理的网络内渲染模块将被纳入LNet的训练通过重新渲染损失来添加物理约束：Lrender=I−I2.（11）因此，LNet的最终损失为：LLNet=βLL+βSCLSC+βrenderLrender。（十二）LSC 01- 02 - 2013张国荣（|Warp（L）−L|eα快速可训练引导滤波器。由于基色、粗糙度和法线的分段平滑，其中Warp是投影算子;D是预测深度的梯度exp函数根据深度梯度重新加权相邻光探头我们在模型中使用α=-5.0Warp算子与Gardner等人提出的方法类似。[15]，它通过投影和采样从源全景图计算任何3D位置的全景图。我们的算子是可分的，因此它可以很容易地集成到训练LNet中。基于物理的网内渲染模块。众所周知，重绘制模块是必不可少的，以纠正所有的预测在逆绘制。然而，先前的方法[27，29，39，46，55]不能以物理上有意义的方式校正分量，从而导致不合理的预测。因此，我们提出了一个更具物理可扩展性的网络内渲染模块与微面BRDF方法已被提出[27，29，55]，以完善它们。受[49]的启发，我们使用名为GSNet的引导滤波器在半分辨率分量上训练CNN，并对学习参数进行上采样以过滤源分辨率分量。因此，我们的可训练引导求解器可以有效地训练4. 实验在本节中，我们从不同的子任务（包括材料估计、光照估计和几何估计）验证了所提出的细化模块、SC损失和基于物理的渲染模块的有效性。实验部署在几个基准数据集与合成和真实的，以及比较国家的最先进的。具体来说，由于类似的SVBRDF表示和每像素照明表示，我们在所有三个子任务中与InvIn- door [29]进行比较;我们L= LNe t（I，N，D，B，R，M）。（六）∫、（10）12718†×表2.在FutureHouse上对基色、正常值、粗糙度、金属度和重新渲染的图像进行定量比较。BRDF和重新渲染图像的MSE度量，normal的平均角度误差。由于LRG360 [27]的细化过程非常耗时，因此LRG360 [27]的结果是通过他们找到的粗插值计算的。基色正常粗糙度金属度重新渲染[29]第二十九话0.109363岁73○0.0868N.A.0.0108LRG360 [27]0.0968†11个国家。40○N.A.N.A.-我们0.009010.26○0.01870.01130.0061表3.LRG360 [27]和我们的方法之间的材料和几何形状的定量比较，基于LRG360[27]提供的测试数据。MSE度量（10−2）用于正态分布，平均角误差用于正态分布。LRG360 [27]我们粗细化粗细化反照率5.5742.6002.2602.165正常十六岁5○N.A.十五岁1○十五岁2○表4.材料估算和正常估算的消融研究。BRDF的MSE度量（×10−2）。基色正常粗糙度金属度基线0.95510.20○2.0371.147+CirP0.94010.12○1.9341.119+CirP+关节0.92610.17○1.9281.133+CirP+GSNet0.90210.26○1.872N.A.还在材料估计和几何估计中与全景固有图像分解方法LRG 360 [27]进行比较;考虑一些全景方法[22，44，57]用于在深度估计1中进行比较。4.1. 材料估算我们在我们看不见的FutureHouse测试集和LRG360[27]提供的测试数据上比较了两种方法[27，29]由于InvIndoor [29]采用单个透视图像作为输入，因此我们仅计算四个全景水平图以进行公平比较，遵循LRG360[27]。如表2所示，InvIndoor [29]由于在其LFOV输入中缺乏整个全景的全局特征，因此具有较大的法线平均角度误差。凭借全景输入和深度输入，LRG360 [27]图3.未来住宅材料估算的定性比较.预测相对准确的法线贴图。然而，由于有限的BRDF表示，只有朗伯BRDF，因此无法准确地估计基色。由于材料的物理和完整表示，我们的方法显着优于LRG360[27]。如图3所示，我们的方法预测高质量和全面的组件。1我们试图与几种逆渲染方法[43，46，55]进行比较，但在电子邮件查询后未能收到可用的结果。LRG360 [27]提出的试验数据的定量结果如表3所示。我们的方法在重复估计和正常估计任务中都优于LRG360 [27]。如图4所示，我们的方法即使在分布外（OOD）数据上也能产生更详细的预测。LRG360 [27]中提出的测试时间优化生成了更平滑的预测，但我们发现它带回了一些照明效果，例如，图4中凳子上的高亮显示和地板上的阴影。[29]第二十九话 LRG360[27][29]第二十九话我们GTGT我们我们GT粗糙度金属度输入基色12719输入反照率精化反照率法线图4. LRG360提供的真实数据的定性比较[27]。虽然LRG360与深度作为输入，我们的方法预测更详细的几何形状。此外，我们在表2中评估了在FutureHouse上使用In-vIndoor [29]的重新渲染误差。我们的方法显著优于InvIndoor [29]。如图5所示，我们的方法可以重新渲染复杂的照明效果，而 InvIndoor [29] 由于有限的SVBRDF表示和不合适的采样而丢失了这些细节。验证了CirP、全流水线联合训练和精化模块的有效性，GSNet，在表4中。联合训练提高了所有具有物理限制的组件的整体性能。深度与联合训练的表现可以在补充中找到。4.2. 光照估计由于缺乏具有空间相干局部照明的全景数据，我们捕获了具有高分辨率（8K）空间相干照明的真实全景数据集。在下文中，我们使用该数据集与InvIndoor [29]进行定量和定性比较空间相干照明数据集：所有的照片都是由带有六个鱼眼镜头的Insta360 pro 2相机拍摄的。对于HDR信息，通过合并七次曝光（快门速度从1秒到1秒）表5. In-vIndoor [29]和我们在空间相干照明数据集上的方法之间的定量比较（重新照明误差）。弥漫性哑光银镜条MaeRMSEMaeRMSEMaeRMSE[29]第二十九话0.09750.11530.14400.18070.24070.2869我们0.06450.07890.08580.11900.11170.1449表6.评估供应链损失、重新供应损失和关于未来之家SSIM↑重新渲染误差（MSE）↓LL0.61500.0583LL+LSC0.61690.0714LL+LSC+L渲染0.61240.0060LL+LSC+L渲染+接头0.61690.0061照明的细节。球体的详细参数见补充资料。定性结果如图6所示。与InvIndoor [29]相比，我们的方法可以估计更一致的照明。我们在表6中消除了SC损失、重新渲染损失和联合训练。结果表明，我们的SC损失提供了有意义的3D相干性约束，所提出的重新渲染损失确保了我们的预测照明在物理上是正确的，并且联合训练实现了最佳的整体性能。4.3. 深度和法线估计我们在广泛使用的全景数据集3D60上进行了这个实验[23，57]。它由两个真实数据集和一个合成数据集组成，即，[9]、2D 3D-S [1]和SUNC [42]。我们比较了3D60数据集上最近的全景深度估计[22，44，57]结果示于表7中。虽然我们的模型不如Universe [22]，但我们的参数不到它的一半竞争性能表明，我们提出的方法是能够有效地估计准确的ge-8000 2秒）与f2.0光圈。我们首先捕获中心HDR全景作为输入。对于每个输入，我们在这个中心全景图上选择几个局部位置来放置相机。特别是，有一个位置可以放置一个摄像头来捕获SC照明（补充资料中有更多详细信息）。对于每个场景，我们通过指南针固定相机方向，以确保所有局部光探头与中心输入对齐。总共捕获了包括7个室内场景和72个局部高分辨率HDR光探头的真实全景数据集照明估计的度量是由预测的或GT光探针渲染的虚拟球体的重新照明误差结果见表5。每种方法都使用不同的材质渲染三个球体，包括纯漫反射、无光银和镜面银。扩散球的重照误差测量了预测照明的动态范围，反射镜的重照误差测量了反射镜的反射镜反射镜的反射镜的反射镜反射镜的反射镜几何学，这在现实的混合现实应用中是有帮助的。更重要的是，我们将之前的全景逆渲染方法LRG360 [27]与FutureHouse 上的正常估计进行了比较，LRG360 [27]和3D60提供了测试数据。如表2和表3所示，我们的方法在没有深度作为输入的情况下实现了最先进的性能，而LRG360 [27]需要RGBD作为输入。在表8中，我们的方法也显著优于LRG 360 [27]（w/ pred深度）。LRG360 [27]的性能在很大程度上取决于深度的质量。然而，高质量的深度并不总是可用的。我们在3D60上预测的平均角误差与FutureHouse和LRG360提供的测试数据相似[27]，这表明我们的模型具有良好的泛化能力。LRG360 [27]我们LRG360 [27]我们12720输入重新渲染镜面反射重新渲染镜面反射[29]第二十九话图5.重新渲染图像的定性比较。该方法采用更加物理化的SVBRDF模型和基于物理的可微分渲染器，再现了真实的光照效果，尤其是复杂材质上的非单色镜面反射，光滑的墙壁和金属水壶。表7.3D60数据集上深度的定量比较[23，57]。根据标准指标评估的性能如下所示OminiDepth [57]、Biorean [44]和Universe [22]的结果取自Universe [22]。Mae绝对相对值RMSERMSElogδ1↑δ2↑δ3↑[57]第五十七话-0.07020.29110.07250.95740.99330.9979[第44话]0.11430.06150.24400.04280.96990.99270.9969免费WiFi [22]0.09960.04660.19680.03150.98350.99650.9987Ours（w/finetune）0.12360.05750.23670.03820.96560.99380.9982[29]第二十九话⃝2⃝1图6.在捕获的SC照明数据集上虚拟对象插入的定性比较我们的方法产生更一致的结果，而InvIndoor [29]产生闪烁的结果。表8.LRG360 [27]和我们的方法在3D60数据集[23，57]上的正常定量比较平均角误差LRG360 [27]（带预测深度）28岁017○LRG360 [27]（带GT深度）6.957○Ours（w/o finetune）12个。353○5. 结论在本文中，我们提出了一个基于物理的逆渲染框架，恢复几何，材质和SV照明从一个单一的全景。我们更完整的SVBRDF表示可以处理复杂的材料，如光泽，金属，甚至镜面材料，这些材料在以前的方法中被忽略了通过我们的基于物理的网络内渲染模块渲染复杂材料上的详细非单色镜面反射实验结果验证了我们的模型优于以前的作品，材料、照明和几何估计。在未来的工作中，我们考虑将这种基于物理的架构扩展到其他照明表示。确认我们感谢李正勤、饶同、吴艳的积极讨论。本工作得到国家自然科学基金项目（No.62002295）和陕西省重点研究发展计划（No.2021KWZ-03）的部分资助。引用[1] Iro Armeni ， Sasha Sax ， Amir R Zamir ， and SilvioSavarese.用于室内场景理解的联合2d-3d语义数据。arXiv预印本arXiv：1702.01105，2017。三、七[2] Jonathan T Barron和Jitendra Malik。来自单个rgb-d图像的内在场景特性在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition中，第17-24页一、二[3] 乔纳森·T.巴伦和吉坦德拉·马利克形状、照明和着色的反射率 IEEE Transactions on Pattern Analysis andMachine Intelligence，37（8）：16702[4] H. G.巴罗和J.M.特南鲍姆从图像中恢复固有场景特征以.Hanson和E.Ris-man，编辑，计算机视觉系统，第3-26页。中国科学院出版社，1978年. 2[5] Sean Bell，Kavita Bala，Noah Snavely.在野外的内在图像。 ACM Trans. on Graphics （ SIGGRAPH ）， 33（4），2014. 312721[6] Sai Bi、Nima Khademi Kalantari和Ravi Ramamoorthi。用于内在分解的深度混合实数和合成训练。在WenzelJakob 和 ToshiyaHachisuka 编辑的 EurographicsSymposiumonRendering-ExperimentalIdeasImplementations中。欧洲图形协会，2018年。2[7] Mark Boss，Varun Jampani，Kihwan Kim，Hendrik P.A.Lensch和Jan Kautz。两次空间变化的brdf和形状估计。IEEE计算机视觉和模式识别会议（CVPR），2020。1[8] 丹·A Calian，Jean-Franc.Lalonde，PauloGotardo，TomasSimon，Iain Matthews，and Kenny Mitchell.从面部到室外光探头。计算机图形论坛，2018年。3[9] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport 3d：从室内环境中的rgb- d数据中学习。2017年3D视觉国际会议（3DV）。三、七[10] Dachuan Cheng ， Jian Shi ， Yanyun Chen ， XiaomingDeng，and Xiaopeng Zhang.利用前后摄像机的成对照片学习场景照明. 计算机图形论坛，2018年。3[11] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Nießner.Scannet：室内场景的丰富注释3D重建。在proc 计算机视觉与模式识别（CVPR）IEEE，2017年。3[12] Epic Games.虚幻引擎。三、四[13] Qingnan Fan ， Jiaolong Yang ， Gang Hua ， BaoquanChen，and David Wipf.重新审视深层内在图像分解。2018. 2[14] 马克-安德烈·加德纳、扬尼克·霍尔德·杰弗里、卡利安·桑克·阿里、基督·加格·恩·埃和让-弗朗索瓦·拉隆德。深度参数化室内照明估计。在IEEE计算机视觉国际会议论文集，第7175-7183页，2019年。2[15] Marc-Andre'Gardner ， KalyanSunkavalli ， ErsinYumer，Xi-aohuiShen，EmilianoGambaretto，ChristianGagn e'，andJean-Fran c. 学习从单个图像预测室内照明 ACM Transactions on Graphics （ SIGGRAPHAsia），9（4），2017。二三五[16] Mathieu Garon ， Kalyan Sunkavalli ， Sunil Hadap ，Nathan Carr，and Jean-Francois Lalonde.快速空间变化的室内照明估计。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月一、二、三、四、五[17] S. Georgoulis，K.Rematas，T.Ritschel，E.Gavves，M.弗里茨L. Van Gool和T. Tuytelaars使用深度学习实现单一材质镜面物体的反射率和自然光照。IEEE Transactions onPattern Analysis and Machine Intelligence，40（8 ）：1932-1947，2018年8月。一、二[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2016年6月。4[19] Yannick Hold-Geoffroy、Akshaya Athawale和Jean-Fran coisLalonde。用于单图像户外照明估计的深度SK Y建模在IEEE计算机视觉和模式识别会议论文集，第6927-6935页二、三[20] Yannick Hold-Geoffroy 、 Kalyan Sunkavalli 、 SunilHadap、EmilianoGambaretto和Jean-Fran c oisLalonde 。深度室外照明估计。在IEEE计算机视觉和模式识别会议论文集，第7312-7321页，2017年。2[21] Michael Janner ， Jiajun Wu ， Tejas Kulkarni ， IlkerYildirim，and Joshua B Tenenbaum.自监督本征图像分解。在神经信息处理系统的进展，2017年。一、二[22] 姜华烈，盛哲，朱思宇，董子龙，黄锐。Unifuse：用于360mm全景深度估计的单向融合。IEEE Robotics andAutomation Letters，2021。六七八[23] AntonisKarakottas ， NikolaosZioulis ， StamatisSamaras ， Dimitrios Ataloglou ， Vasileios Gkitsas ，Dimitrios Zarpalas，and Petros Daras.360曲面回归，具有超球面损失。在3D视觉国际会议上，2019年9月。七、八[24] Brian Karis和Epic Games虚幻引擎4，2013中的真实着色。四、五[25] Iro Laina、Christian Rupprecht、Vasileios Belagiannis、Federico Tombari和Nassir Navab。使用全卷积残差网络进行更深的深度预测。在3D Vision（3DV），2016年第四届国际会议上，第239IEEE，2016. 4[26] 路易斯·莱特里，肯尼斯·范霍伊，吕克·范古尔。使用光照变化图像序列的非监督深度单图像本征分解。计算机图形论坛（太平洋图形会议记录），37（10），2018年10月。2[27] Junxuan Li，Hongdong Li，and Yasuyuki Matsushita.来自360°全景立体的照明、反射率和几何估计。在IEEE计算机视觉和模式识别会议论文集，2021年。一二三五六七八[28] Wenbin Li ， Sajad Saeedi ， John McCormac ， RonaldClark ， Dimos Tzoumanikas ， Qing Ye ， YuzhongHuang，Rui Tang，and Stefan Leut

下载后可阅读完整内容，剩余1页未读，立即下载