三维空间变化照明的学习方法

141 浏览量更新于2023-10-13 收藏 2.69MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

12538球体插入利用三维空间变化光照学习室内逆绘制王子安1，2，3JonahPhilion1，2，3Sanja Fidler1，2，3 Jan Kautz1NVIDIA1多伦多大学2Vector Institute3{zianw，jphilion，sfidler，jkautz}@nvidia.com摘要在这项工作中，我们解决的问题，联合估计反照率，法线，深度和3D空间变化的照明从一个单一的图像。大多数现有方法将任务表述为图像到图像的转换，忽略了场景的3D然而，室内场景包含复杂的3D光传输，其中2D表示是不够的。在本文中，我们提出了一个统一的，基于学习的逆渲染框架，制定三维空间变化的照明。受经典体绘制技术的启发，我们提出了一种新的体球高斯表示的照明，参数化的三维场景表面上的体素网格的出射辐射我们设计了一个基于物理的可微分渲染器，利用我们的3D照明表示，并制定了节能的图像形成过程，使联合训练的所有内在属性与重新渲染的约束。我们的模型确保物理上正确的预测，并避免需要地面实况HDR照明，这是不容易访问的。实验表明，我们的方法优于以前的作品定量和定性，并能够产生逼真的结果，如虚拟对象插入，即使是高度镜面反射的对象的AR应用1. 介绍逆渲染的任务最初由Barrow和Tenenbaum [3]在1978年提出，旨在通过从单个图像估计反射率、形状和照明来反转渲染过程估计这些固有属性使得增强现实和混合现实中的下游应用成为可能，例如将3D对象逼真地插入到给定的2D图像中。反向渲染也有助于语义场景分析，如对象分割[5]。仅给定观察到的像素值，消除反射率、几何形状及其与照明的复杂相互作用的模糊性的问题是具有挑战性且不适定的。经典的基于优化的方法利用手工制作的先验来约束问题的不适定性质然而，这些先验并不总是适用于复杂的现实世界的图像，并可能导致伪影。在AR应用中通常遇到的室内场景被认为是特别具有挑战性的，因为(a)输入图像（b）反照率（c）法线（d）深度(e)照明（f）镜面反射/漫射/透明（g）镜面反射对象插入图1：从单个图像，我们的模型联合估计反照率，法线，深度和HDR照明体积。我们的方法的关键是推断连续的HDR3D空间变化的照明，这是至关重要的，在生产高品质的虚拟对象插入逼真的投射阴影和角高频细节。到室内发生的复杂的3D光传输在这项工作中，我们解决了场景级逆向渲染的问题，特别关注于产生具有高频细节的高动态范围（HDR）3D空间变化照明，如图所示。1.一、估计HDR和3D空间变化照明对于真实感虚拟对象插入是关键的; HDR实现逼真的投射阴影，并且3D空间变化的照明实现高频细节。我们使用由我们的模型推断的HDR照明来插入高度镜面反射的对象并产生逼真的投射阴影和高频细节，这在以前的作品中是不可能的[11，22，33，38]。现有的基于学习的方法通常利用强大的2D CNN，并将逆渲染问题表述为图像到图像的转换。照明通常用球面波瓣表示，如球面谐波和球面高斯[2，41]，以及环境贴图[10，33]，忽略了空间变化的效果。最近的工作试图预测2D空间变化的球形叶[11，22]，但仍然缺乏一个自由度（深度）和角度高频效应方面的妥协。因此，场景照明的2D表示对于许多下游应用而言性能不足在本文中，我们提出了一个整体逆绘制框架，联合估计反射率，形状和三维12539空间变化的照明，通过用3D照明表示以端到端可训练的方式制定完整的渲染过程。我们提出了一种新的体球高斯照明表示，这是一个场景表面的体素表示。每个体素中的球面高斯参数控制光源的发射方向和锐度，其捕获视图相关效果并且可以处理强定向照明。由于HDR照明的地面实况不容易获得，我们设计了基于光线跟踪的可微分渲染器，其利用我们的照明表示并公式化节能图像形成过程。我们使用渲染器通过强制执行重新渲染约束来联合训练所有内在属性，确保预测在物理上是正确的。据我们所知，我们的方法是第一个从单个图像中估计完整的连续光场函数的方法，包括HDR和高频空间和角度细节，尽管仅用LDR图像进行训练。我们的实验表明，我们的方法优于现有的国家的最先进的逆渲染和照明估计方法。我们证明，我们的方法学习产生复杂的照明效果的真实世界的室内场景和更好地消除歧义的内在属性。我们的照明表示实现了逼真的投射阴影和角度高频细节，因此能够为AR应用产生明显更逼真的对象插入结果，这在以前是不可能的，最重要的是包括插入高度镜面反射的对象。2. 相关工作反向渲染。逆绘制的任务可以追溯到 Barrow 和Tenenbaum [4]，其目标是联合估计场景的内在属性，即反射率、形状和照明。经典的方法通常处理逆渲染的子任务，例如固有图像分解[3，8，13，18，44]和从阴影中恢复形状[32，43]。这些方法主要定义了手工制作的先验的场景的内容，并制定了一个图像能量最小化问题的任务最近，SIRFS [2]提出了一个统计推断框架，联合估计的内在属性。然而，这些方法依赖于对真实场景并不总是正确的假设，从而在应用于真实世界图像时导致伪影。执行测试时优化的需要也增加了计算负担，将这些方法限制在离线应用程序中。最近的工作利用2D CNN从稀疏的人类反射率注释[6]、校准的多视图和多照明数据[24，41]以及最常见的带有密集地面实况标签的合成数据[7，22，23，25，33]中学习数据驱动的在这些工作中，[7，25]限于单个对象输入，并且不解决复杂的光传输。NIR [33]和Li等人[22]大多数类似于我们的工作，并解决一般的室内场景。两者都将任务表述为图像到图像的翻译，并在合成数据集上进行训练。NIR采用环境图来表示照明，并引入不可解释的神经渲染器来考虑空间变化的照明效果。Li等预测每个像素位置的球面高斯照明，以获得2D空间变化的照明，但它仍然缺乏一个自由度，并牺牲每个像素位置的角频率。在我们的工作中，我们解决了一个更具挑战性的任务，估计3D照明在一个整体的逆渲染框架，并学习解开复杂的照明效果与基于物理的表示。光照估计是逆向渲染的一个子任务。大多数现有的作品解决了简化的问题设置，忽略了空间变化的效果，如户外场景[16，17，42]和对象[7，25，40]。关于室内照明估计的先前工作探索了照明表示，诸如环境地图[10，20，33]、每像素球形照明表示[10，20，33]、环境地图[10，20，33]、环境地图[10，20，33波瓣[11，22，45]和光源参数[9]。然而，这些方法要么不考虑空间变化的影响，要么不保留高频细节。最近的作品探索3D空间变化照明 [37， 38]。 Neu- ralIllumination [37]在给定每个查询的3D位置的情况下预测具有2D CNN的环境图，但其遭受空间不稳定性。Lighthouse [38]从视图合成的角度解决了这个问题，并确认了3D照明表示的必要性。然而，它不添加HDR信息，并且不能保证修补的照明在物理上是正确的。在这项工作中，我们利用整体逆渲染框架来实现物理上正确的HDR照明预测，由此我们仅在Lighthouse中的LDR地面实况数据上进行训练。神经场景表示。高效的3D表示是一个快速的研究领域，例如体素[27，35]，点云[1，29]和隐式函数[28，30，36，39]。DeepVoxels [35]和NeuralVolumes [27]使用神经网络来预测场景的体素表示，其中每个体素网格分别包含神经特征或RGBα值。Zhou等[46]建议使用多平面图像，这是相机平截头体的体素化表示当与体绘制相结合时，这些作品能够预测3D属性，但只需要2D监督。最近的方法也显示了神经隐式函数[28，30，36]的有希望的结果，其将场景表示为连续的体积函数并使用神经网络进行近似。我们提出的体积球形高斯模型从3D场景表示中汲取灵感，并通过视图相关效果增强RGBα表示，以更好地处理定向照明。3. 照明表示为了反转渲染过程，我们需要一个灵活的，结构化的表示三维空间变化的照明。12540照明全局功能照明（b）照明联合预测ResNetN图像L，L一软HDR到LDR(c)可区分重渲染重渲染图像误差2R∈∈∈∈××Y∈D~ ∈RH×W和全局特征向量~fL∈RC，即Σ(a) 直接预测（d）反照率/法线/深度联合重新预测正常反照深度图2：模型概述。我们的模型由4个子模块（ a-d ）组成。直接预测模块（a）将单个图像作为输入，并联合预测固有属性的初始猜测。照明联合预测模块（b）消耗初始预测并且预测3D照明体积。在可微分重新渲染模块（c）通过光线跟踪重新渲染输入图像的情况下，联合重新预测模块（d）最终联合地细化初始预测。理想地，光场的模型应当捕获由于空间位置和视角两者的变化而引起的辐射变化先前的工作[11，22]表示具有在可见表面处入射的辐射的照明，使得直接扩展到3D难以处理。为了解决这个问题，我们建议使用体积球面高斯（VSG）来表示从整个场景中出射的表面辐射，包括可见表面和FoV之外的表面然后可以使用标准体绘制技术来绘制任何空间位置和视角处的照明VSG是场景的基于体素的表示。我们给每个体素分配一个不透明度α∈[0，1]，以及一组球面高斯参数c∈R3，μ∈R3，σ∈R+使得在视角v∈R3处的辐射率被定义为：G （ v;c ， µ ， σ ） =ce− （ 1−v·µ ） /σ（1）直观地说，每个体素都是一个光源，其中c表示HDRRGB强度，μ是波瓣轴，1/σ2表示锐度。对于大小为XY Z的体素网格，VSG将照明表示为8通道张量L R8×X×Y ×Z。为了计算VSGL中具有方向lR3的点PR3的入射辐射率，我们沿着射线选择N个等距然后，我们使用alpha合成计算辐射率（p，l，L）R3为了从单个图像中提取三维场景和三维VSG照明，我们将流水线分成四个子模块，其中有三个神经网络模块和一个可微分渲染模块。总体架构如图所示。二、首先，直接预测模块作出的内在属性的初始预测，并从输入图像中提取一个全球性的联合预测模块将这些属性提升到3D中，并联合预测照明体积。然后，可区分重新渲染模块使用当前预测的内在和光照来重新渲染输入图像最后，联合重预测模块以当前预测和重渲染误差为条件，并联合细化初始预测。我们描述了每个子模块的结构在第二节。4.1节中介绍我们的培训计划。四点二。4.1. 模型设计直接预测模块。直接预测模块的目的是在给定单个图像作为输入的情况下对亮度、法线、深度和对照明信息进行编码的全局特征进行初始预测。直接预测模块的主干是多分支ResNet [14]hDP，其消耗单个线路。对RGB图像I∈R3×H×W进行了预处理，k−1A~∈R3×H×W，表面法线N~∈R3×H×W，深度k=1i =1其中ck、µk、σk和αk 通过索引到由下游照明联合预测模块用作照明体积L。其中α通道指示体素，我们还可以用等式（1）渲染“深度”。2通过用体素深度值替换球面高斯。与最近使用RGBα体积渲染外观[30，38]，VSG照明表示还控制光源的发射方向和锐度注意，对于σ1，我们的VSG简化为RGBα表示。4. 方法我们的单眼逆渲染模型联合估计反照率，法线，深度和3D立体球面高斯照明表示。共同预测内在属性-A~，N~，D~，~fL=hD P（I;ΘD P）。（三）照明联合预测模块。不像反照率，正常，和深度，我们的照明表示定义在第二节。3是挥发性的：LR8×X×Y×Z。我们的照明解码网络如图所示。3，下面描述我们从两个不同的来源提取特征来预测照明量。第一源是全局特征向量~fL。我们使用MLP解码器和GFD来将全局特征映射到场景全局特征体中。设（x，y，z）为给定体素的中心坐标。对应体素处的特征被计算为：zg= hGF D（x，y，z，~fL）。NR（p，l，L）=（1 −αi）αkG（−l; ck，µk，σk）. （二）12541πpπⓈ1−τ−˜˜NΣp∈∈⊗--x−τ.ImagAlbe假设A~p和N~p是在pi x el p中预测的反照率和正常值。我们按照朗伯模型渲染LDR RGB值规范DEPI~p=.l∈<${l}KA~pR（p，l，L）max（l·N~，0）∆ΩΣ（六）图3：照明联合预测模块的架构。我们融合了未投影的可见FoV信息（顶部）和全局场景信息（底部），并用3D UNet处理它们。输出是“体积球形高斯”照明。式中，是元素乘积，1是能量守恒比，∆Ω是差分立体角。这里，是将HDR照明强度值裁剪为[0， 1]内的LDR值的函数为了使这个过程可微，我们使用指数函数的软限幅：与可以实现类似功能的3D转置卷积序列相比，该MLP模块更灵活，并且可以自然地扩展到多视图输入。有关更多实施细节，请参阅附录。（x）=xifx≤τ1−（1−τ）e−ifx>τ我们使用τ = 0。9在我们的模型中（七）照明体积的特征的其他来源是可见FoV内的属性，包括输入图像I、预测反照率A~、法线N~ 和反射率N~。深度D~。我们取消投影此可见FoV信息转换为可见表面照明体积，并使用3D UNet对其进行处理。给定相机本征函数，令（up，vp）是体素的中心点到具有深度dp的输入图像上的投影，令D~ p，N~p，A~p是由像素（up，vp）处的hDP预测的深度、法线和反照率，并且令Ip是该像素处的输入图像的RGB值。对于每个体素，我们将其联合重预测模块。反射率、形状和照明在整个再现过程中是固有相关的。为了细化反照率、法线和深度，我们使用全卷积网络，该网络将初始预测A~、N~ 、D~ 、重新渲染误差E~= I ~、D~、D ~、D ~、E ~=I ~作为输入。I~，以及输入图像I。为了结合预测的照明L（），我们还将阴影S（）和阴影的雅可比矩阵（Jacobian）连接起来，阴影S（）指示颜色变化如何相对于法线S~，它指示法线的更改如何影响输出着色。在每个像素p处，S~和S~具有由以下解析公式给出的值Nz=kI，kN，kA（4）l p p p-（dp−D~p）22σ2S~p=ΣR（p，l，L¨）max（l·N~p，0）∆Ω其中k=ed是深度的高斯距离l∈{l}K（八）在体素和相应的像素之间，σd是一个超参数，其长度单位设置为0。十五米直观地，因子k使针对的局部特征归零。S~N~p =l∈{l}K1l·N~>0 R（p，l，L）l∆Ω远离2D表面流形的体素，如由来自hDP的深度输出所确定的。我们融合了全局特征zgRC×Xg×Yg×Zg和可见光FoVzlR9×X×Y×Z 的局部特征，并通过一个 3DCNNhJP进行处理：其中是外积。请注意，着色所需的大部分计算都可以在Lambertian渲染过程中缓存，六、全卷积网络预测更新的反照率A、法线N和深度DL=h（z，z;Θ），L∈R8×X×Y×Z（5）A，N，D=h（I，E~，A~，N~，D~，S~，S~）。（九）JPg lJPJRN~其中，L是包含HDR强度的输出VSG。可区分的重新渲染模块。反向渲染中的监督和归纳偏差的有价值的来源来自以下事实：如果预测的几何形状和反射率被重新渲染。我们使用朗伯反射模型进行重新渲染。F或每个pixel，令p=（xp，yp，D_p）是具有预测深度D_ p 的pixel p的3D位置。为了计算每个像素处的照明，我们使用斐波那契晶格在上半球上选择K个等角照明方向lK[12]。为对于每个照明方向l，我们查询照明体积，并使用等式（1）计算沿着射线R（p，l，L（））的辐射率。二、e可见表面特征体做als连接物…日照明照明全局功能体素位置全局特征3D UNet解码器场景全局特征量可见表面照明体积Up3DUp3DUp3D下载3D下载3D下载3D逆投影12542--关于我们4.2. 培训我们用地面实况I、A、N、D、Inv、PnvN在合成数据上训练我们的模型，其中A、N、D表示反照率、法线、深度，并且Inv、PnvN是来自N个新视图的LDR全景图像和相机姿势通过体积照明表示，我们不仅消除了对过去作品[22，26]中使用的密集渲染的球形波瓣照明GT的需要，而且还提高了角频率。培训的损失来自两个方面：（1）直接监督，其直接强制与合成地面实况的一致性，以及（2）重新渲染损失，其促使重新渲染的图像恢复输入图像。1254322∈22L.ΣL−psic2ΣDp·Dp直接监控反射率和形状。我们使用L2损失作为反照率。由于反照率通常是分段恒定的，我们还惩罚了反照率的梯度，其中地面实况是局部恒定的。我们定义重新渲染损失。我们使用预测的反照率、归一化和光照来重建图像I，并使其与原始输入图像I保持一致。具体来说，我们计算朗伯重渲染图像中的L反照率为||A−A||2+λ 当地||∇AˆⓈM 当地||1（十）在Eq中定义的保守形式6，并且使用L2损耗作为重新渲染损耗||I−I||二、其中，MlocalRH×W是表示地面真实反照率中反照率恒定的区域的掩模。对于法线，网络输出被归一化，我们使用L1角度误差作为监督：重新渲染损失鼓励联合推理反射率、几何形状和照明，并且可以用于对现实世界图像的自我监督训练，如在先前的作品[33]中所讨论的。在我们的公式中，重新渲染损失L正常=||cos −1N（N·|N |）的方式||1 .一、（十一）通过强制执行模型学习物理正确的照明和恢复因为深度是高动态范围，所以我们遵循[22]并使用对数编码的L2损失。我们还使用尺度不变的L2损失来鼓励由于深度的固有尺度模糊性而导致的相对一致性：L深度=||log（D+1）−log（D+1）||2HDR信息。这种好处来自于配方节能图像形成过程。任何物理上不正确的照明预测，诸如LDR预测或均匀照明，将导致重新渲染的图像中的错误。由方程式14号，我们只监督低辐射灯-+λs i||D−csiD ||2二（十二）与LDR图像对比有了互补的重新渲染损失，我们的模型自动学习恢复其中c =argmin||D−c ||2=ΣpDp·Dp是为每个图像实时计算的比例因子。直接监督照明。回想一下，在强度裁剪之后，LDR图像中的像素值反映沿着对应相机射线因此，我们可以使用LDR全景图像的光度损失Inv来监督预测照明的LDR部分。对于每个像素p，我们使用相机姿态Pnv和相机姿态Pnv。本征函数，以计算在方向r上从相机中心c开始的对应相机射线。为了使用预测的照明体积来渲染n〇v_v_w_n_v，p，计算HDR辐射率，其中等式2中定义的软限幅函数转换为LDR第七章：Inv，p=R（c，r，L）（13）我们使用L2损失来强制该渲染的noveviewlv与地面实况一致为了鼓励真实的细节，我们还使用对抗性损失Ladv和鉴别器D。L光=Lnv+λ advL adv（14）为||Inv−Inv||2−λad vD（I<$nv）鉴别器D的损耗为LD=max（0，1−D（Inv））+max（0，1+D（Inv））.（十五）照明的另一监督源是与可见FoV的一致性，即图像I和深度D。我们将可见光定义为I、D和渲染的透视RGB图像之间的L2损失，以及使用等式（1）的照明体积的深度（α二、由于曲面在场景中是稀疏的，我们还鼓励照明体积的α通道为0或1，正则化损失reg=αlog（α）。训练信号是完全可微分的并且反向传播以监督预测的VSG照明参数。12544HDR照明，即使仅使用LDR图像进行训练。培训计划。我们的模型是端到端可训练的。我们采用渐进式训练方案，以确保模型组件按预期运行我们首先预训练我们的直接预测模块的反照率，这是因为我们的照明联合预测模块（图1）。3）取决于这些属性，预训练这些分支可以确保它们产生合理的值。然后利用多任务损失联合训练直接预测模块和光照L=λAL反照率+λNL法线+λDL深度+λLL光照+λ visible L visible + λ reg L reg + λ rerender L rerender。（十六）在前两个子模块训练完成后，我们冻结它们的权重，并训练联合重预测模块以进行深度，法线和深度。最后，我们端到端地联合微调所有三个模块，在联合预测A、N、D、L和中间输出A、N、D上都有多任务损失。5. 实验我们比较了我们的方法与以前的方法定性和定量，并验证了我们的统一逆绘制框架的有效性我们还比较了以前的方法对照明估计和展示应用程序的虚拟对象插入，展示了我们的方法5.1. 实验设置实施详情。初始化的可见表面体积和预测的VSG照明的分辨率为1283。尽管使用1283体积，但我们的模型比包含六个3D UNet子网的Lighthouse [38批量大小为1时，我们的模型消耗7.5G12545方法反照率硅均方误差正常角度误差深度硅均方误差SIRFS [2]0的情况。0453五十六75◦-NIR [33]0的情况。018820块35◦-我们的（不含JR）0的情况。019019号。09◦0的情况。217方法峰值信噪比（dB）NIR [33]灯塔[38]我们的（仅L反照率、L法线、L深度、L光照）+L可见+L注册+L返回我们的（不含SG）十五岁39十七岁29十六岁43十七岁06十七岁33十七岁37十六岁94方法WHDRSIRFS [2]31岁4NIR [33]十八岁5我们的（不含JR）十八岁7表1：InteriorNet数据集上的反照率、法线和深度评估表2：InteriorNet数据集上的照明的评估。*指示使用立体声对作为输入。表3：IIW数据集上的反照率评估方法法向角误差深度si-MSENIR [33]23岁94◦0的情况。3216我们的（不含JR）23岁89◦0的情况。3196我们二十二岁95◦0的情况。2827表4：NYUv2数据集上的法线和深度的评估。重新渲染MSE（× 10−2）InteriorNet [21][31]第三十一话NIR（env.地图[33]二、364.第一章02NIR [33]0的情况。99二、61我们的（不含重新渲染损失）二、18五、26我们的（不含SG）1 .一、41二、72我们0的情况。89二、33我们的（带实际调整）0的情况。921 .一、98表5：重新渲染误差的定量结果GPU内存相比，灯塔的15 G在训练- ING。对于可微分重新渲染模块，我们对每像素K=50条射线和每射线N=128个点进行采样。对于每个像素，我们共享其8个相邻像素的射线以得到K’=450个射线/像素。考虑并行性来实现重新渲染。在训练期间，重新渲染的分辨率为60x80。直接预测、光照联合预测、可微分重渲染和联合重预测模块的推理时间分别为20ms、130ms、140ms、12ms，在TITAN V GPU上计时。培训数据。我们在InteriorNet数据集[21]上训练我们的模型，该数据集包含各种室内场景中相机序列的真实渲染。每个相机序列包含具有反照率、法线和深度地面实况的1000个渲染的LDR透视图像我们使用LDR透视图像作为输入，并用成对的GT来监督反照率和几何形状。为了监督照明，我们对在透视输入图像中可见的位置处渲染的相邻全景图像进行采样。这使得环境地图位于我们感兴趣的区域，即在镜头前我们遵循[38]中我们使用90%（1472）的场景来训练我们的模型，并保留10%（162）用于评估。在评估真实世界数据时，我们还对IIW数据集[6]的反照率和NYUv2数据集[31]的深度和法线进行了微调我们还从互联网上收集了120个室内LDR灯具，并在这些灯具上联合培训照明。更多详情见附录。评价我们在InteriorNet [21]和真实世界数据集IIW [6]和NYUv2 [31]上评估了反照率、法线和深度预测。对于定量比较，由于尺度模糊性，我们对反照率和深度使用我们使用法线的平均角度误差和照明的PSNR我们报告重新渲染图像和输入图像之间的重新渲染MSE，这表明预测是否物理正确。最有效的照明评估是通过定性结果。我们通过可视化对象插入结果和在给定位置的预测环境图与以前的作品进行比较。基线。我们将我们的方法与最先进的NIR [33]和经典的基于优化的方法SIRFS [2]进行定量比较。在所有的实验设置中，我们在相同的数据上重新训练NIR，即。InteriorNet，以确保公平的比较。Li等[22]需要密集的每像素照明监督，并且不能在相同的数据源上训练，因此我们提供了关于照明预测的定性比较。对于照明估计，我们还与当前最先进的方法Lighthouse [38]进行了比较，该方法使用立体图像对作为输入，而不是单目图像。5.2. 反照率和形状对InteriorNet的评价。我们与基线方法进行比较，并在InteriorNet上消融我们的模型选择。如表1所示，SIRFS的性能举例说明了基于优化的方法对复杂场景的图像的限制我们的方法优于近红外光谱，表明我们的方法更好地消除了内在属性的歧义。我们也在改进我们的方法。来自直接预测模块的预测输出被示为“我们的（w/o JR）”。结果表明，联合重预测模块有助于提高性能的好处，联合推理的初始预测。通过比较“Ours”和“Ours（JR w/o照明）”，定量评估显示与照明相关的性质（等式10）。8）有助于提高整体性能。我们在图中提供了反照率、法线和深度的定性结果。4.第一章结果表明，联合重预测模块进一步消除了基于初始预测的内在属性的歧义，并产生更高质量的预测。对真实世界数据的评估。我们评估了IIW数据集[6]上的反照率预测，该数据集提供了稀疏的成对人类注释。我们使用官方的加权人类不一致率（WHDR）作为度量标准，该度量标准测量反照率预测与人类感知不一致时的误差，结果如表3所示。我们还在表4中评估了NYUv2数据集上的法线和深度预测。我们的方法优于基线，并验证了我们的联合重预测模块的有效性类似于先前的作品[22，33]，我们专注于整体的反诗渲染框架，而不是与状态竞争。12546输入图像GT反照率Ours（w/o JR）Ours GT Normal我们的（不含JR）我们的GT深度我们的（不含JR）我们的图4：预测反照率、法线和深度的定性结果。结果是GT，我们的模型没有联合重新预测（JR）模块和我们的完整模型。联合重预测实现联合推理，获得更清晰、更准确的结果。反照率法线重新渲染图像输入图像NIR [33]OursNIR [33]OursNIR（env.[33]第三十三话图5：预测反照率、法线和重新渲染图像的定性比较。我们完全基于物理的照明表示和可区分的渲染器可以更好地消除歧义，并以更少的伪影再现复杂的照明效果。具有专门设计的架构和其他数据源的现有技术的深度和法线估计方法[15，19]。重新渲染图像的评估我们在表5中比较了InteriorNet和NYUv2上的重新渲染误差与基线。NIR使用环境图作为照明表示，并采用不可解释的神经渲染器，称为残差外观渲染器（RAR），以考虑所有其他照明效果。我们的方法在有和没有神经渲染模块的情况下都优于NIR 我们还显示了图中重新渲染图像的定性结果。五、与NIR的环境地图重新渲染相比，我们可以处理3D空间变化的照明，并且可以重新渲染复杂的照明效果，而NIR将这些效果留给RAR模块。虽然解决了一个更具挑战性的任务，但我们完全基于物理的渲染过程优于RAR模块，后者可能很容易产生伪影并损害其他属性的性能，例如法线中的伪影我们在表5中消融了我们的设计选择。重新渲染的损失，强制不同属性的联合推理，是物理正确的预测的通过比较我们的体球高斯和RGBα体（我们的w/o SG），结果表明，球高斯体增加了模型容量，并导致更好的重渲染。我们还尝试在InteriorNet和120个真实世界的LDR全景图上进行联合训练。我们表明，当评估真实世界的NYUv2数据集，训练真实世界的LDREscheramas进一步提高了性能。5.3. 照明评价定量评价。我们在表2中评估了InteriorNet上的照明预测。我们的方法显著优于NIR [33]，因为我们的3D照明表示可以处理空间变化的照明。我们的方法也优于Lighthouse [38]，这是目前最先进的方法。照明估计方法。请注意，Lighthouse使用立体对作为输入，这提供了比单目图像更多的关于深度和可见表面的信息对于消融研究，实证结果表明，我们的损失设计是实现最佳性能的与RGBα体积相比，我们的体积球形高斯能够捕获视图相关的效果，并带来更好的性能。定性评价。我们定性地比较照明估计和虚拟对象插入结果与图1中的6在互联网上请注意，插入的光探针是高度镜面反射的。NIR使用单个低分辨率环境地图，其不能处理空间变化的效应，并且仅恢复低频照明，从而导致严重的伪影。Li等[22]采用2D空间变化的球面高斯，其可以产生空间变化的照明，但是局部照明仍然是低频球面波瓣，并且不能考虑角高频细节。这些方法不能插入高度镜面反射的物体。Lighthouse [38]使用体积RGBα照明表示，允许3D空间变化照明。但是Lighthouse中的照明体积是通过从LDR全景图进行体素修复来学习的，没有监督信号来使其物理正确，并且不能预测HDR照明。我们可以观察到Lighthouse我们的方法，与体积球形高斯照明，产生更逼真的细节，更视觉上令人愉悦的结果。我们的方法中的重新渲染损失使得能够进行联合推理，并确保模型由于能量约束而预测物理上正确的HDR输出我们的方法是唯一一个既保留角度细节，又预测HDR输出逼真的投射阴影。注意，通过我们的方法预测的投射阴影与12547图像LDR GT NIR [33] Liet al.[22]第38话我的世界图6：照明估计的定性比较。我们比较了一个纯粹的镜面球体的插入，并在每个示例的左下角显示了插入位置处的估计环境贴图。我们的方法产生两个角度的细节（env.地图）和逼真的投射阴影与HDR，优于所有竞争的方法。（* 表示使用立体声对作为输入。最佳观看放大。）的方式图像NIR [33] Liet al.[22]李（Li）等人[33][22]我们的图7：真实世界图像上的照明估计的定性比较。我们比较了左侧的纯镜面反射对象插入，以及右侧的主要是漫反射对象。顶行显示实体曲面上的插入，而底行显示三维中自由插入的对象我们的方法在镜面反射和漫反射设置中产生更逼真的结果，并且在空间上是一致的。（最好是放大看。）的方式图8：在真实世界图像上插入对象的定性结果。从左到右，我们插入一个兔子，水壶，手推车和扶手椅。场景中的其他视觉线索（顶部：灯;底部：办公桌）。我们比较与以前的作品在图中的真实世界的数据7 .第一次会议。在这里，我们不与灯塔比较，因为它需要立体图像与左侧的纯镜面反射球体相比，我们的方法保留了角度高频细节，并且显着更逼真。这些优点也适用于右侧的漫反射球体在底部行中，球体来自随机采样的3D位置。NIR [34]使用单个环境图，几乎无法捕获空间变化。Li等[22]使用2D照明表示，这不能产生空间一致的照明，也不能处理远离2D表面的位置，导致严重的伪影。我们的方法产生具有正确HDR强度的空间相干照明。我们还在图中示出了真实世界的对象插入结果。8.我们的方法很好地推广到现实世界的图像，并始终产生逼真的着色和阴影。更多结果见附录。6. 结论在本文中，我们提出了一个整体的单眼逆渲染框架，联合估计反照率，法线，深度和HDR光场。我们提出的体球高斯表示很好地处理空间和角的高频细节。通过基于物理的可微分渲染器，我们的方法能够学习和再现复杂的室内照明效果，并更好地消除图像固有的歧义。受益于具有重新渲染约束的联合训练，我们的模型可以预测物理上正确的HDR照明，尽管仅用LDR图像进行训练。我们的实验表明，我们的模型优于以前的工作标准的基准，并能够逼真地渲染虚拟对象的图像与现实的阴影和高频的细节，即使对象是高度镜面反射。我们相信，这些结果证明了我们的模型在AR应用中的巨大潜力12548引用[1] Kara-Ali Aliev，Dmitry Ulyanov，and Victor Lempitsky.基于点的神经图形。arXiv预印本arXiv：1906.08240，2（3）：4，2019。2[2] Jonathan T Barron和Jitendra Malik。形状、照明和着色的反射率。 IEEE transactions on pattern analysis andmachine intelligence，37（8）：1670-1687，2014。一、二、六[3] Harry Barrow，J Tenenbaum，A Hanson和E Riseman。恢复固有场景特征。Comput. 目视 Syst，2：3-26，1978.一、二[4] H. Barrow和J.M. 特南鲍姆从图像中恢复固有1978. 2[5] Anil S Baslamisli，Thomas T Groenestege，Partha Das，Hoang-An Le，Sezer Karaoglu，and Theo Gevers.内在图像和语义分割的联合在欧洲计算机视觉会议（ECCV）的Proceedings中，第286-302页，2018年。1[6] Sean Bell，Kavita Bala，Noah Snavely.在野外的内在图像ACM Transactions on Graphics（TOG），33（4）：159，2014。二、六[7] Mark Boss ， Varun Jampani ， Kihwan Kim ， HendrikLensch，and Jan Kautz.两次空间变化的brdf和形状估计。在IEEE/CVF计算机视觉和模式识别集，第39822[8] Adrien Bousseau，Sylvain Paris，and Frédo Durand.用户辅助的内在映像。 ACMTransactions on Graphics（TOG），第28卷，第130页。ACM，2009年。2[9] Marc-André Gardner 、 Yannick Hold-Geoffroy 、 KalyanSunkavalli、Christian Gagné和Jean-François Lalonde。深度参数化室内照明估计。在IEEE计算机视觉国际会议论文集，第7175-7183页，2019年。2[10] Marc-André Gardner，Kalyan Sunkavalli，Ersin Yumer，Xiao-hui Shen，Emiliano Gambaretto，Christian Gagné，and Jean-François Lalonde.学习从单个图像预测室内照明。arXiv预印本arXiv：1704.00090，2017。一、二[11] Mathieu Garon ， Kalyan Sunkavalli ， Sunil Hadap ，Nathan Carr，and Jean-François Lalonde.快速空间变化的室内照明估计。在IEEE计算机视觉和模式识别会议论文集，第6908- 6917页，2019年。一、二、三[12] 阿尔瓦罗·冈萨雷斯使用斐波那契和Mathematical Geo-sciences，42（1）：49-64，2010. 4[13] R. 格罗斯湾K. Johnson，E.H. Adelson和W.T. 弗里曼。内在图像算法的地面实况数据集和基线评估2009年IEEE第12届计算机视觉国际会议，第2335-2342页2[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 用于图像识别的深度残差学习。 CoRR ，abs/1512.03385，2015。3[15] Steven Hickson 、 Karthik Raveendran 、 Alireza Fathi 、Kevin Murphy和Irfan Essa。地板是平的：利用语义用于实时表面法线预测。在IEEE/CVF计算机视觉研讨会国际会议论文集，第0-0页，2019年。7[16] Yannick Hold-Geoffroy 、 Akshaya Athawale 和 Jean-François Lalonde。用于单图像室外照明估计的深空建模。在IEEE/CVF计算机视觉和模式识别会议论文集，第6927-6935页，2019年。2[17] Yannick Hold-Geoffroy

下载后可阅读完整内容，剩余1页未读，立即下载