全局-局部球面哈蒙-ics照明模型及其在图像分解中的应用

71 浏览量更新于2023-10-12 收藏 1.33MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7820GLoSH：用于本征图像分解的周浩1张翔宇2David W. 雅各布斯11马里兰大学，学院公园，MD，美国2NEC美国实验室1{hzhou，djacobs}@ cs.umd.edu2xiangyu@nec-labs.com(a)（b）（c）（d）（e）(f)（g）（h）（i）（j）图1：顶行：的结果[2]。 [2]将RGB-D图像作为输入并预测：（b）反射率，（c）阴影，（d）法线，(e)照明下一行：我们方法的结果它以RGB图像作为输入并预测：（g）反射率，（h）阴影，(i)（j）照明。红色框显示我们的算法正确地将投射阴影和高光归因于阴影而[2]错误地将它们归因于反射率。我们的照明（j）比[2]中的（e）更好地捕捉局部照明变化摘要传统的内在图像分解侧重于将图像分解为反射率和阴影，使表面法线和照明与阴影纠缠在一起。在这项工作中，我们提出了一个全局-局部球面哈蒙- ics（GLoSH）照明模型，以改善照明分量，并联合预测反射率和表面法线。全局SH模型的整体照明，而本地SH帐户照明的空间变化。此外，提出了一种新的非负照明约束，以鼓励估计的SH是物理上有意义的。为了无缝地反映GloSH模型，我们设计了一个由粗到细的网络结构。粗网络预测全局SH、反射率和法线，细网络预测它们的局部残差。由于缺乏反射率和光照的标签，我们将合成数据应用于模型预训练，并以自我监督的方式使用真实数据对模型进行微调。与仅针对法线或反射率和阴影的最先进方法相比，我们的方法恢复了所有分量，并在三个真实图像周浩目前在亚马逊AWS工作数据集，IIW，SAW和NYUv2。1. 介绍理解产生图像的物理世界是计算机视觉的核心问题[4]首次提出从图像中估计场景的固有特征，包括距离、方向、反射率和入射光。这是一个非常困难的逆问题，因为它是高度欠约束的。此外，我们缺乏问题的物理组成部分的模型早期的工作从研究单个物体的反射率，形状和照明开始[1，3]，因为单个物体的照明更容易建模，例如，通过使用一组低维球谐函数[5，31]。然而，自然场景的照明要复杂得多，这是由于场景中的阴影、相互反射和光源的存在引起的空间变化。因此，大多数处理场景的作品都将法线和光照集中在一起作为阴影，并试图恢复阴影，称为内在图像分解。7821在本文中，我们提出了一种新的表示照明的场景，这使我们能够解开照明和表面法线，同时也恢复反射。建模照明的一种方法是球面谐波（SH）[5，31]，它近似于具有9个低频分量的照明虽然这对于建模小对象的照明效果很好，例如面部[5，42，33]，但这种全局照明无法捕获复杂场景中的空间变化照明，如图2（e）所示然而，在每个像素中允许独立的照明会产生太多的自由度，并且会允许单独的照明变化来解释图像。为了克服这个问题，我们提出了一个全局-局部球谐函数（GLOSH）照明模型。我们的全局SH代表整个场景的整体照明。此外，由全局SH和局部残差SH之和产生的局部SH解释了照明的空间变化局部剩余SH的L2图2（c）显示了我们的GLoSH，图2（f）显示了重建的着色，这比仅使用全局SH更接近地面实况。如果照明在某些方向上是负的，则具有任意系数的球谐函数将以物理上不现实的方式表示照明。然而，强制非负SH照明不是微不足道的。现有的方法要么引入更多的参数来约束非负照明[5]，要么需要解决半定规划问题[36]，这难以直接与深度网络结合。在这项工作中，我们建议采样均匀分布在从预测SH生成的球体上的照明强度。然后在采样的照明上定义非负损失。我们的非负约束仅适用于全局SH，因为实际上由L2正则化的局部残差SH不太可能改变照明的符号。我们应用CNN来实现端到端的粗到精解决方案。训练深度CNN需要大量的数据和地面真实标签，并且标记反射和照明的图像非常困难。Intrinsic Images in theWild（IIW）[7]标记了来自像素对的反射率的相对暗度。Shading Annotations in the Wild（SAW）[22]标记恒定阴影区域、阴影边界和深度/法线不连续性。然而，这些数据集只提供稀疏的标签和有限数量的图像。受最近计算机视觉应用中合成数据的成功启发，我们建议使用合成的SUNC数据集[37]，其中可以很容易地确定地面真实然后，预训练的模型以自我监督的方式用真实数据进一步训练。综上所述，我们提出了一个GloSH光照模型，并应用一个由粗到细的CNN结构来预测GloSH(a)合成图像（b）全局SH（c）GLoSH(d)GT shading（e）shading w.r.t.（b）（f）阴影w.r.t.（c）第（1）款图2：全局SH建模（b）及其重建阴影（e）的可视化，与我们的GLoSH（c）及其重建阴影（f）进行比较。使用GloSH，显然我们的方法生成的阴影更接近地面真实。以及反射率和法线。使用真实数据的合成数据预训练和自我监督训练可以在三个真实场景数据集IIW、SAW和NYUv2上实现最先进的性能。我们工作的贡献如下。• 我们提出了一个具有全局和局部SH的GLoSH光照模型，以及一个新的非负约束来估计物理真实感光照。• 据我们所知，在单个RGB图像设置下，我们是第一个应用CNN来联合估计反射率，法线和光照的人。• 我们提出了一个由粗到细的网络，它与我们提出的全局-局部照明模型兼容。• 我们的方法在IIW反射率上取得了最好的结果，在SAW阴影上取得了第二好的结果，并且在NYUV2法线上取得了强竞争性的性能注意到现有技术的方法仅关注一个或两个组件，而我们的方法联合估计反射率、法线和照明。2. 相关工作固有图像特性。我们将文献分为两大类：基于单个对象和基于自然场景的方法。长期以来，研究人员一直在研究单个物体的固有图像特征的估计。例如，shapefrom shading [39，11]专注于恢复形状，假设照明和反射率已知。光度立体[38]假设已知照明，从多个图像中估计几何形状。光度立体[1]的最新进展可以估计几何和照明到浅浮雕变换[6]。[15，35，25]提出将单个对象图像分解为其反射率和阴影。[3]和[18]提出联合估计反射率，形状和照明从一个sin。7822逐像素添加渲染堆栈通道图3：我们从粗到细的网络结构。粗网格预测第一级反射率、光照和表面法线，其中后两者进一步形成阴影。精细网络将先前的叠加输出作为输入，并预测反射率、光照和表面法线的残差。通过将预测残差与第一级结果相加来恢复最终的反射率、光照和法线。角对象图像。由于更复杂的几何形状和照明，估计自然场景更加困难。最近的研究[32，12]表明，由于大规模训练数据和深度学习的成功一些先进的方法[9，19，2，34，7，8]提出了基于优化的方法来将图像分解为反射率和阴影，其中[9，19，2]要求深度已知。最近的工作[43，29，26，27，10，20，44，24，23，13]将深度卷积神经网络（CNN）应用于此任务，并实现了令人印象深刻的性能。[23]提出渲染真实的合成数据，然后用它来训练深度模型并适应真实数据集。我们的工作遵循类似的想法。然而，我们不仅估计反射率和阴影，而且进一步分解成正常和照明阴影。Barron和Malik [2]首先提出用RGB-D图像估计反射率、深度/法线和照明。他们在每个像素的照明模型作为一个线性组合的八套球谐函数。相比之下，我们联合估计反射率，表面法线和照明从一个单一的RGB图像没有深度，这是一个困难得多的问题。此外，我们提出了我们的全局-局部SH（GloSH）与粗到细的神经网络来表示每个像素的照明，这不仅占整体照明，但也局部照明变化。非负球谐函数在使用球面谐波照明时，一个挑战是如何强制照明为非负。[5]提出使用delta函数的非负线性组合来表示照明以解决该问题。该方法的一个缺点是，为了具有准确的表示，需要大量的delta函数。[36]证明了非负SH的Toeplitz矩阵是半正定的。他们提出解决半定规划（SDP）问题以强制非负照明。然而，SDP约束显然不容易与深度训练相结合。相比之下，我们通过在预测的照明球体上采样数百个点来制定非负照明损失，这在计算上是高效的，并且适合于网络训练顺利。3. 单个RGB图像本征图像分解假设图像I是反射率R和阴影S的乘积，即，I=RS，其中表示元素乘积。大多数研究集中在将图像I分解为R和S，其中几何体和照明仍然纠缠在阴影中。在我们的工作中，我们建议进一步分解阴影S到表面法线（即。几何）N和照明L。假设S=N（N，L），图像I可以表示为I=R（N，L），（1）这是一个渲染函数。我们的目标是估计R，N和L给出一个图像I。3.1. GLoSH照明建模虽然已经使用低维SH的单个全局集合来表示对象的照明，但是这将不能够捕获场景的复杂照明条件。另一方面，估计每个像素的SH容易陷入过度参数化。我们提出了一种基于神经网络的全局-局部球谐函数（GLoSH）模型，其中全局SH作为照明的低频设计了一个由粗到细的神经结构来精确地执行全局和局部光照建模。3.1.1全局和局部球谐函数在[5，31]之后，我们建议使用SH直到二阶，从而为每个颜色通道产生9记全局SH为Lc∈R9.从我们的粗级网络预测Lc如图2所示，仅基于全局SHLc，阴影远远不能令人满意，缺乏太多的空间变化。为了更好地模拟光照的空间变化，我们以精细的方式预测每个像素的局部残差SH。反射率反射率+输入粗网细网+R遮光S+！RR遮光S正常+正常78232R2级网络。我们的本地SH然后被公式化为全局SH。其中，ΦRf、ΦNf和ΦLf表示精细水平网络工作f f fSH与局部残留SH：Lf=Lc+δLf，（2）其中δLf表示由精细尺度网络预测的局部残差SH3.1.2SH的非负约束物理上真实的照明需要非负SH照明，以前的工作[3，2]没有适当考虑。为了加强非负SH照明，我们提出了一个简单而有效的SH约束根据[5]，给定SH系数Lc，方向（θ，φ）上的照明强度是Lc的函数，即，fL（Lc，θ，φ）. 一个非负光-ing表示fL（Lc，θ，φ）≥0，θ 0≤θ≤π，0≤φ≤2π.在此基础上，我们对函数的值进行统一在单位球面上的fL，并将所有采样值约束为非负。因此，非负损失函数被定义为分别用于反射率、正常和照明。细比例阴影由Sf=Nf，Lf计算。精细尺度网络结构可以循环地应用于更精细的尺度。我们的完整模型被定义为有三个尺度，可以预测反射率，法线和光照，分辨率为256×256。详情请参阅补充资料3.3. 培训监督这是很难获得密集准确的地面实况注释反射率，正常和照明。因此，我们利用渲染的合成数据进行监督预训练。然后，使用稀疏注释的真实数据（IIW [7]，SAW [22]和NYUv2 [28]）以自我监督的方式微调预训练的网络，即，应用所述预训练的模型以提供用于微调的伪地面实况标签。LLc=1ΣKKmin（0，fL（Lc，θi，φi））2，（3）3.3.1反射率i=1K=6414是从球体采样的方向的数量。我们将此非负约束应用于全局SH。我们进一步在局部残差SH上应用L2LLf=<$δLf<$2。（四）这种正则化惩罚了它们的L2范数，鼓励局部照明不要与全局照明变化太大我们的实验表明，方程3和方程4几乎总是导致局部SH的非负照明。3.2.从粗到细的网络结构为了精确匹配所提出的GLoSH照明模型，我们设计了一个由粗到细的网络结构，如图3所示。粗网络被定义为沙漏网络[30]。它以图像x∈R64×64×3作为输入，预测反射率Rc∈R64×64×3，正常Nc∈R64×64，在预训练阶段，我们直接应用地面真实反射率以完全监督的方式指导训练，其中应用L1损失，如等式7所示。LR1= R− R1+ R− R1。（七）R是预测的反射率，R是相应的地面实况。此外，类似于[23]，我们将超视觉添加到反射率的梯度中，以鼓励预测的反射率分段平滑。对于真实数据，对于反射率、法线或照明都没有密集的注释相反，IIW [7]提供稀疏有序反射率判断。给定一对反射率R1和R2，标签指示R1是否比R2暗（比R 2亮或等于R 2）（降级为J=1，J=-1和J=0），置信度得分为w。我们使用[29]中提出的WHDR铰链损耗作为损耗对于真实图像中的反射率：L（R，R，J）=和全球SHLc∈R9. ShadingSc∈R64×64×3 可以R1 2。Σ（八）由一个简单的渲染函数构造。木斧0，R1−1如果J= 1Sc=S（ Nc， Lc）（5）。 R. 21+δ+δ1−R1w最大 0，1+δ−R2如果J= 0用全卷积法R1−（1+δ−ε）国家结构。它需要x∈R128×128×3，上采样。R2ΣRc∈R128×128×3，Nc∈R128×128，Sc∈R 128×128×3作为长柄斧0，（1+δ+δ）−R1如果J= −1输入并预测残差图。恢复的本地-反射率、正常和局部SH为：我们设置δ = 0。12，且 n = 0。08在训练中，7824R=R+ΦRf（R，N，L），[29]第10段。注意上面的损失是不对称的，即，fcfC c cLRi（R1，R2，J）LR（R2，R1，−J）. 因此，我们调整N=N+ΦNf（R，N，L），（6）并将修改后的WHDR损耗定义为：fcfC c cL=L+ΦLf（R，N，L），fcfC c cLR2=LR（R1，R2，J）+LR（R2，R1，−J）（9）7825Sr=λSNLCRsRRRLFRN3.3.2正常Lcg=λcgLR1+λcgLS1+λcgLN+λcgLLc+λcgLLf，rsR sS sN LcLf合成数据的地面真值法线和Lss=λssLR1+λssLS1+λssLN+λssLLc+λssLLf真实数据（NYUv2）可用。对于其中r rRrS rN LcLF（十四）地面实况法线可用，我们将损失定义为LN=−NTN+N−N1（10）其中我们设置λcgCG CGsS LcCG =1，λcg=10，λss =λss= 5，λss=λss=1且λss=0。1 .一、我们的损失rS rNLfLc rR类似于方程7中的反射率正则化，我们进一步应用一阶导数平滑项来增强。定义在IIW、SAW和NYUv2是：鼓励常态成为分段连续的。Lo=λoLR2+λoLS2+λo中国（15）r rR rS rN3.3.3着色其中λoo=10，λo=1时。在[7]的启发下，我们-照明没有监督。非负性-介绍了L2正则化实现合理的颜色用于反射率。straint和L2正则化都是无监督损失。cR I应用渲染以从以下各项生成着色S=N（N，L）正常和照明，我们使用的阴影和Lr=1013CRc−13C第一章（16）在SEC中讨论的正常。3.3.2对照明进行间接监督。用于着色的监督信号类似于反射率的LS1=S−S1+S−S1（11）其中，S和S是预测的阴影及其基础事实。对于真实图像，SAW [22]提供了平滑阴影区域和阴影边界的注释。我们因此[23]在《古兰经》中，他们也有同样的遭遇。其中R和I是预测的反射率和输入图像，并且Rc和Ic，c∈ {R，G，B}表示R和I的颜色通道。重要的是，重建损失进一步-为了保证预测的反射率、法线和光照保持输入Lrc=Ii−RiSi2（17）我们在真实图像上微调网络的总体损失是：Lr= Lcg+ Lss+ Lo+ Lc+λrc Lrc（十八）LS2=λcsLconstant−shading+Lshadow（12）R rrR r r其中λcs=10，Lconstant−shading和Lshadow是[23]中定义的恒定阴影区域和阴影边界的损失。4. 实现细节合成数据的预训练：我们首先使用SUCG数据集训练我们的网络，并使用合成的地面真实法线，反射率和阴影。在合成数据上训练我们的网络的损失是Ls=λsRLR1+λsSLS 1+λsNLN+λLcLLc+λLfLLf（十三）其中LR1、LS1、LN、LLc和LLf是上述定义的反射、阴影、法向、全局和局部残余照明的损失，λsR、λsS、λsN、λLc和λLf是它们对应的权重。设λ sR=λsS=λ sN=λ Lc=1，λ Lf=0。二、我们的粗到细网络是使用Adam [21]优化器逐步训练ini-平均学习率0. 001和重量衰减0。对真实数据进行微调：由于缺乏来自真实数据集的注释，我们使用渲染的SUNC数据集作为监督，损失表示为Lcg。此外，我们应用我们在合成数据上训练的网络来预测重新实际图像的反射率、阴影和法线，并将结果用作伪监督（自监督），损失表示为Lss。=λ=λ=λ7826R其中λ rc=0。1.一、由粗到细的网络是按比例微调的。学习率为0的亚当优化器。0005和重量衰减0。00001用于微调。5. 实验在本节中，我们将介绍我们为预训练创建的合成数据集和公共真实数据集。然后，我们与Barron和Malik [2]进行比较，Barron和Malik首先提出从RGB-D图像预测反射率、法线和光照此外，我们比较国家的最先进的内在图像分解方法，以表明我们的方法的整体优势然后进行烧蚀研究，以证明我们提出的每个模块的贡献。5.1. 数据集合成数据集：我们利用SUNC数据集[40] 以生成合成数据。它包含 568 ， 793 个使用Mitsuba [17]渲染的图像及其相应的地面实况表面法线、深度、语义标签和对象边界。由于我们的任务还需要地面真实反射率和阴影，我们使用Mitsuba的多通道渲染器重新渲染了58，949我们进一步将这些图像分为51507张图像的训练集和7442张图像的验证集。我们不直接渲染图像，而是通过将所有材质设置为漫反射并将反射率设置为1来渲染阴影。则图像7827表2：NYUv2上的表面法线评估。平均值（平均值）Median（Med.）显示平均和中值角度误差，值越小越好。11个国家。25度22度5和30显示角度误差小于11的法线的百分比。25度22度5μ m和30μ m，数值越高越好。(a)（b）（c）（d）图4：（a）合成图像，（b）阴影图像，（c）和(d)是通过分别在没有和具有非负约束的情况下训练网络来预测的照明。表1：基于SUNC合成数据的SH照明评估。[二]《中国日报》GloSH SUNGGLoSH SUNG + realMSE0.0980.0380.032是I=RS。以这种方式渲染有两个主要优点：（1）生成的图像严格遵循本征图像分解的原则。 (2)像素值地面真实值着色的范围有界，这使得数据准备更容易。虽然渲染的图像不包含材料的非漫射效果，但我们的实验表明，这不会降低性能。公共真实数据集：我们使用 IIW [7]， SAW [22]和NYUv2 [28]作为训练和测试的真实数据。更具体地说，SAW是IIW和NYUv2的组合（IIW的3761幅图像和NYUv2的381幅图像具有地面真实法线）。我们使用的真实数据集与[23]相同，除了来自NYUv2的地面真实法线。我们严格遵循[23]中的train/val/test拆分策略5.2. 球面谐波照明评估定量比较[2]。我们与[2]进行比较，因为他们还提出了一个照明模型来联合预测自然场景的反射率，法线和照明。请注意，[2]使用RGB-D图像，这简化了问题。真实数据的照明很难获得。相反，我们通过从地面实况修复表面法线来评估SUNC合成数据的阴影，在此我们可以间接评估SH照明。我们计算每像素的均方误差（MSE）的重建着色w.r.t.地面真实值阴影，并在表1中显示结果。我们的方法比[2]显示出显著的优势，并且真实数据的自我监督提供了进一步的性能提升。我们还使用[23]提出的AP挑战度量在NYUv2数据集上评估[2达到90。38%的着色精度，而在相同的设置下，我们的方法达到了95。百分之四十三我们相信所有这些结果表明，所提出的方法可以预测比[2]更精确的照明。与[2]的定性比较。图5比较了他们的视觉结果与我们的。反射和阴影图像中的红色矩形表明[2]错误地将投射阴影分解为反射而不是阴影。我们认为他们的方法中SH基的数量有限，这使他们无法很好地模拟光照的空间变化，从而导致缺乏模拟投射阴影的能力。非负照明：[36]证明了如果SH的Toeplitz矩阵是半正定的，则SH表示非负光照。我们使用他们提出的方法来评估我们的非负约束的有效性。我们训练我们的粗尺度网络有和没有提出的非负约束，即，公式（3），然后在我们的合成SUNC数据的验证集上进行测试。在没有提出的非负约束的情况下，表示负照明的全局SH的百分比为13。百分之三十九。它急剧下降到1。09%，受此限制。图4可视化了具有和不具有非负约束的预测照明。在对真实数据进行微调之后，表示负照明的全局SH被减小到0%，并且仅存在一个包含负局部照明的图像。5.3. 本征图像分解在合成数据上训练的模型。我们使用IIW，SAW和NYUV2的合成数据来对于IIW上的反射率，我们使用[7]中提出的WHDR度量，该度量计算具有人类注释的预测反射率的加权误差。[23]提出的挑战平均精度（AP）用于评估预测的它计算恒定阴影区域和阴影边界的平均分类精度。表3（a）在IIW和SAW数据集上比较了我们训练的网络与[23]它表明，我们提出的方法与IIW上的[23]非常相似，并且比[23] 当在SUNC数据集上训练时，[23] 声称他们提供的数据集（表示为CGI）与SUNC相比，与真实数据的域差距较小。为了进行健全性检查，我们使用CGI训练我们的粗网络，并达到WHDR37。98，而我们在SUNC上训练的粗网络的WHDR是28。20块方法Avg.（）↓ Med.（）↓11个国家。25◦↑二十二岁5◦↑30◦↑[第四十届]27.9028.6321.2921.0526.7627.6852.2152.4263.7562.877828(a) 图像（b）反射率[2]（c）我们的反射率（d）阴影[2]（e）我们的阴影(f)地面实况正常（g）正常[2]（h）我们的正常（i）照明[2]（j）我们的照明图5：与[2]的比较红色矩形表示我们的方法可以正确地将投射阴影分解为阴影，[2]不能。由于篇幅所限，更多结果请参考补充资料。图像反射率[13]反射率[23]我们的反射率我们的正常shading of [13] shading of [23]我们的shading我们的全局SH我们的局部SH图6：与最先进的固有图像分解方法的比较。请注意，尽管[23]在阴影方面获得了最佳AP分数，但生成的阴影图像的对比度非常低。红色矩形显示[13]的阴影严重受到反射率出血问题的影响。由于篇幅所限，更多结果请参考补充资料我们没有看到使用CGI数据进行训练的优势，因此我们使用SUNC数据集训练我们的网络。根据真实数据微调模型。表3（b）将我们的方法与IIW和SAW的一些最新方法进行了比较。我们的方法在IIW上实现了最佳性能，在SAW上实现了第二好的性能。[13]证明，通过将引导滤波器纳入其网络的训练中，他们可以实现14的WHDR。5%，这是最先进的结果。通过将引导滤波器应用于我们的模型，如[ 29 ]所建议的，我们可以实现14。6%，与此结果相当。然而，IIW数据集1上[ 13 ]的阴影的挑战AP为85。百分之七十七。在相同的设置下，我们实现1图片由作者提供。九十七08%，改善幅度超过一成。除了反射率和阴影，表2显示，当在SUNC合成数据上进行训练并在NYUv2上进行评估时，我们的模型预测的法线与[40]实现了强烈的竞争结果。我们进一步用有限的真实数据（381张具有表面正常地面真实值的图像）微调了模型，并实现了25。57.平均角度误差，接近[40] 21。74度。目视比较。我们将预测的阴影可视化，[13]图6（c）。它表明[13]的阴影图像仍然保留反射的效果。虽然[23]在SAW上实现了最佳性能，但图6（e）显示其预测的阴影图像具有低对比度。也就是说，阴影图像的质量低。在比较的7829R表3：IIW上的反射率评估和SAW上的阴影评估对于WHDR，较低的值（↓）更好，对于AP，较高的值更好（↑）。IIW看到方法数据集WHDR（%）↓AP（%）↑一李[23]SUNG26.187.09提出SUNG26.892.40格罗斯[16]-26.985.26B 加塞斯[14][第四十一话]--24.823.892.3989.72[8]第八话-17.7-贝尔[7]-20.692.18周[43]IIW19.986.34[29日]IIW19.589.94风扇[13]IIW15.4-李[23]CGI +real15.596.57提出SUNC +real15.295.01表4：损耗的消融研究（无合成SUNC数据），以及根据IIW反射率、SAW阴影和NYUv2表面法线评价的粗到细尺度。IIW看到NYUv2方法WHDR（%）↓AP（%）↑平均误差（）↓不带SUNG，不带LssR不带LR2规模1规模1+规模2满17.8215.5015.3418.7016.6215.2088.5295.7991.8990.3594.9895.0135.1425.9325.9626.6825.5925.57方法，我们的方法实现了相对较好的视觉质量的反射率和阴影。总而言之，与在合成数据上训练并在真实数据上进行微调的最先进方法相比，我们的GloSH在估计反射率，法线，阴影和照明的任务中始终获得更好的我们相信这也表明了所提出的由粗到细的网络结构的有效性。5.4. 消融研究没有合成数据。合成数据对于所提出的方法是非常重要的。表4当仅使用真实数据训练我们的网络时， IIW 上的WHDR、SAW上的平均精度（AP）和NYUv2数据集上的平均误差。很明显，在没有合成数据的情况下，我们的网络在反射率、阴影和正常方面的性能相对于“完整”模型显示出显著的差距这是因为训练一个表现合理的网络反射率和阴影注释的稀疏性以及少量的真实图像使得训练变得棘手。没有虚假的监督。表47830在IIW和NYUv2上，除了SAW数据集上的AP之外，性能相对于“完整”模型有所下降。这表明，自我监督有助于为真实的未标记数据提供反射率和归一化的粗略指导。阴影的退化可能是由于合成数据和真实数据之间的照明之间的大的域间隙然而，当与图6中的[23]的着色相比时，我们看到即使监督较弱，我们的模型仍然可以预测更合理的着色。多个尺度的贡献。我们在表4中清楚地看到，“scale1+scale2”优于“scale1”，并且我们的“完整”模型进一步优于“scale1+scale2”。这表明，进一步增加一个更精细的规模模块确实有助于局部照明建模和提高整体性能。值得注意的是，通过进一步添加更精细的模块，因为从“scale1+scale2”到“full”的改进间隙小于“scale1”到“scale1+scale2”的改进间隙。在实践中，我们将完整模型定义为具有三个尺度，一个粗网和两个级联的细网，这在准确性和模型复杂性之间取得了很好的平衡。无对称损失。[29]（公式8）提出的WHDR铰链损耗不对称。当相同的点以不同的顺序使用时，这会导致通过使WHDR适应我们提出的对称WHDR（等式9），我们观察到IIW的改善为0。百分之十四模型复杂度：我们计算CGI [23]和我们的完整模型的模型参数。在CGI中有68，572，482个浮点数，而在我们的模型中只有14，665，594个在最先进的基于CNN的方法中，我们的方法以较小的模型大小实现了更好的性能。6. 结论在本文中，我们提出了估计反射率，正常和照明从一个单一的图像，这是一个非常困难的问题，一直没有得到很好的解决。提出了一种全局和局部SH模型来模拟自然场景的照明，该模型既考虑了整体照明又考虑了照明的空间变化。提出了一种新的非负约束，以迫使SH照明具有物理意义。一个合成的数据集被应用作为真实数据的在 SAW 、 IIW 和NYUV2数据集上的实验证明了该方法的有效性。7. 确认这项工作得到了DARPA MediFor计划的支持，合作协议FA87501620191，媒体取证的物理和语义完整性措施7831引用[1] Jens Ackermann和Michael Goesele。照相测量立体技术综述. 发现趋势。Comput. Graph.目视，9（3-4），2015. 一、二[2] Jonathan T Barron和Jitendra Malik。来自单个rgb-d图像的内在场景特性。CVPR，2013。一、三、四、五、六、七[3] Jonathan T Barron和Jitendra Malik。形状、照明和着色的反射率。TPAMI，2015。一、二、四[4] Harry G.作者声明：Jay M.特南鲍姆从图像中恢复场景的内在特征。计算机视觉系统，1978年。1[5] Ronen Basri和David W.雅各布斯朗伯反射率和线性子空间。TPAMI，25（2），2003. 一、二、三、四[6] 彼得·N作者：David J.Kriegman和Alan L.尤尔。浅浮雕的模糊性。IJCV，35（1），1999. 2[7] Sean Bell，Kavita Bala，Noah Snavely.在野外的内在图像。InSIGGRAPH，2014. 二三四五六八[8] 赛毕、韩晓光、益州余。一种用于边缘保持平滑和场景级本征分解的l1图像变换。ACM ToG，34（4），2015.三、八[9] Qifeng Chen和V.科尔顿。一个简单的模型，用于具有深度线索的内在图像分解。InICCV，2013. 3[10] Lechao Cheng，Chengyi Zhang，and Zicheng Liao.通过尺度空间分解的内在图像变换。在CVPR，2018年。3[11] Jean-Denis Durou Maurizio Falcone和Manuela Sagona。从阴影恢复形状的数值方法：新的调查与基准。CVIU，109（1），2008. 2[12] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签在ICCV，2015年。3[13] Qingnan Fan ， Jiaolong Yang ， Gang Hua ， BaoquanChen，and David Wipf.重新审视深层内在图像分解。在CVPR，2018年。三、七、八[14] 埃琳娜·加尔塞斯阿道夫·穆尼奥斯豪尔赫·洛佩斯·莫雷诺和迭戈·古铁雷斯通过聚类的内在图像。C o m p u t .Graph. Forum，31（4），2012. 8[15] Peter Vincent Gehler，Carsten Rother，Martin Kiefel，Lumin Zhang，andBernhardSch oélk opf. 在反射率上具有全局稀疏性先验的本征图像的重新编码NIPS，2011年。2[16] 罗杰 Grosse ， Micah K. 作者： Edward H. Adelson 和William T.弗里曼。固有图像算法的地面实况数据集和基线评估。ICCV，2009年。8[17] 温泽尔·雅各布Mitsubarenderer，2010.http://www.mitsuba- renderer.org. 5[18] 放大图片作者： Michael Janner ， Jiajun Wu ， TejasD.Kulkarni，Ilker Yildirim，and Josh Tenenbaum.自我监督的内在图像分解。在NIPS，2017年。2[19] Junho Jeon，Sunghyun Cho，Xin Tong，and SeungyongLee.使用结构纹理分离和表面法线的内在图像分解。2014年，在ECCV。3[20] Seungryong Kim，Kihong Park，Kwanghoon Sohn，andStephen Lin.通过联合卷积神经场从单个图像进行统一的深度预测和固有图像分解。在ECCV，2016年。3[21] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。见ICLR，2014年。5[22] Balazs Kovacs，Sean Bell，Noah Snavely和Kavita Bala。野外阴影注释。在CVPR，2017年。二、四、五、六[23] 李正奇和诺亚·斯内弗利。Cgintrinsics：通过基于物理的渲染实现更好的固有图像分解。在ECCV，2018。三四五六七八[24] 李正奇和诺亚·斯内弗利。从观察世界中学习内在的意象解构.在CVPR，2018年。3[25] Wei-Chiu Ma ， Hang Chu ， Bolei Zhou ， RaquelUrtasun，and Antonio Torralba.没有单个本征图像的单个图像本征分解。在ECCV，2018。2[26] Takuya Narihira，Michael Maire，and Stella X. Yu.直接内部函数：用卷积回归学习隐式阴影分解。在ICCV，2015年。3[27] Takuya Narihira，Michael Maire，and Stella X.Yu. 从人类对相对反射率的判断中学习亮度。CVPR，2015。3[28] Pushmeet Kohli Nathan Silberman，Derek Hoiem和RobFergus。室内分割和支持从rgbd图像推断。ECCV，2012年。四、六[29] Thomas Nestmeyer和Peter V Gehler。反射自适应滤波提高了固有的图像估计。在CVPR，2017年。三、四、七、八[30] Alejandro Newell，Kaiyu Yang，and Jia Deng.用于人体姿态估计的堆叠沙漏网络。在ECCV，2016年。4[31] Ravi Ramamoorthi和Pat Hanrahan。关于辐射率和辐照度之间的关系：从凸朗伯物体的图像确定照明，2001年。一、二、三[32] Ashutosh Saxena，Min Sun和Andrew Y. Ng. Make3d：从单个静态图像学习3D场景结构TPAMI，31（5），2009. 3[33] 放大图片作者： Soumyadip Sengupta ， AngjooKanazawa，Carlos D.Castillo和David W.雅各布斯学习野外人脸的形状、反射率在CVPR，2018年。2[34] 放大图片作者：Jonathan T.巴伦和特雷弗·达雷尔。从单个图像的场景内部和深度。在ICCV（研讨会），2015年。3[35] Jian Shi，Yue Dong，Hao Su，and Stella X. Yu.学习shapenet类别中的非朗伯对象内部函数。在CVPR，2017年。2[36] 作者：David W.雅各布斯非负照明和镜面反射物体识别。载于ICCV，2005年。二、三、六[37] Shuran Song、Fisher Yu、Andy Zeng、Angel X Chang、Mano-lis Savva和Thomas Funkhouser。语义场景完成从一个单一的深度图像。在CVPR，2017年。2[38] 罗伯特·J·伍德汉姆从多个图像确定表面取向的光度测定方法。《光学工程》，1980年，第19期。2[39] 放大图片作者：Zhang Ruo，Ping-Sing Tsai，James E.克里尔和穆巴拉克·沙阿从阴影恢复形状：一项调查。TPAMI，21（8），1999.2[40] Yinda Zhang ， Shuran Song ， Ersin Yumer ， ManolisSavva ， Joon-Young Lee ， Hailin Jin ， and ThomasFunkhouser.使用卷积神经网络进行室内场景理解的基于物理的渲染。在CVPR，2017年。五、六、七7832[41] Qi Zhao，Ping Tan，Qiang Dai，Li Shen，Enhua Wu，and Stephen Lin.具有非局部纹理约束的retinex的封闭解。TPAMI，34（7），2012. 8[42] Hao Zhou，Jin S

下载后可阅读完整内容，剩余1页未读，立即下载