没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文DeepPS2:使用两个不同照明的图像重新审视光度立体AshishTiwari1[0000− 0002− 4462− 6086]和ShanmuganathanRaman2[0000− 0003− 2718− 7891]1总理研究员2Jibaben Patel人工智能CVIG实验室主席,印度{ashish.tiwari,shanmuga} @ iitgn.ac.in抽象的。光度立体是利用物体在不同光照条件下拍摄的图像恢复三维表面法线的问题,是计算机视觉研究中的一个重要课题。尽管现有的传统和基于深度学习的方法取得了成功,但由于以下原因,其仍然具有挑战性:(i)需要三个或更多个不同照明的图像,(ii)无法对未知的一般反射进行建模,以及(iii)需要准确的3D地面真实表面法线和已知的照明信息用于训练。在这项工作中,我们试图解决一个不足的光度立体使用两个不同的照明图像,称为PS2问题的问题。 这是一个中间的情况下,一个单一的基于图像的重建方法,如形状从阴影(SfS)和传统的Photomet,Ric Stereo(PS),需要三张或更多的图像 。 我 们 提 出 了 一 个 基 于 逆 渲 染 的 深 度 学 习 框 架 , 称 为DeepPS2,它以完全自监督的方式联合执行表面法线,光照估计,图像重新照明,而无需地面实况数据。我们演示了如何结合图像重建图像重新照明增强了照明估计在自我监督设置。3关键词:光度立体,深度学习,逆渲染,图像重照明1介绍利用数字图像推断物体的三维形状是计算机视觉研究中的一项基本而具有挑战性的任务。它直接扩展到质量控制、虚拟/增强现实、医疗诊断、电子商务等。广泛使用的形状恢复的几何方法,如双目[20,41]或多视图立体[37,11,24,23,25]方法,需要来自不同视点的图像来三角测量3D点。然而,它们严重依赖于图像特征匹配技术的成功,并且无法恢复更精细的细节,例如3由SERB IMPRINT 2 Grant支持arXiv:2207.02025v2 [cs.CV] 2022年8月+v:mala2255获取更多论文≥∼−≥2A. Tiwari和S. 拉曼压痕、印记和划痕。用于3D形状重建的光度学方法使用来自单个图像的阴影线索-阴影形状(SfS)[14]或至少三个图像-光度立体(PS)[45]来恢复表面法线,并且已知可以更好地保留更精细的表面细节。瓶颈是什么 SfS问题是不适定的,这是由于不充分的凸/凹模糊性以及存在无限表面法线来解释每个像素处的强度的事实[32]。PS方法是已知的以处理这种模糊性,并通过使用三个或更多个不同照明的图像来提供限定每个像素处的强度的唯一表面法线。然而,适定的传统光度立体问题(如Woodhman[45]所介绍的)假设表面是纯朗伯的,这在现实世界中很少发生最近的几种方法[16,49,9,8,7,10]也已经解决了具有未知反射率特性的非朗伯表面的形状估计但是,它们需要更多的图像(50 100)作为输入。虽然有些方法只需要六张(甚至更少)图像[27],但我们的目标是在光度立体设置下仅使用两张图像,称为PS2问题。PS2的问题。这项工作的范围是解决光度立体的问题,在一个中间设置有两个图像(m=2)之间的SFS(m=1)和传统的PS(m 3)。它基本上可以被视为一个退化的情况下,缺乏有意义的信息,由于阴影在一个典型的三源光度立体设置[13]。PS2问题的另一个用例出现在非刚性物体的3D重建中[12]。当一个物体在三个光源下成像时,其中一个可能被物体遮挡,只有另外两个才能提供有意义的线索。因此,在这种情况下需要解决PS2问题此外,PS2的问题出现时,m3和光源是共面的。这种情况通常发生在场景被太阳照射时,因此也适用于室外PS [36,18]。解决PS2问题的限制光度立体的公式一般有两种--微分公式和非微分公式。几个正常字段可以提供PS2问题的解决方案。在任何一种设置下,补救措施都是在这些正常字段中执行穷举搜索,并顺利找到表征潜在形状的最佳字段。换句话说,任务是找到最能满足平滑约束的法向场[29]。PS的差分方法隐含地加强了这种平滑性。然而,它需要表面边界条件的显式知识[28],这是很少可用的或需要正则化[13],由于大量的参数调整,这通常是繁琐的。一些方法[28,33]已经提出了基于非微分公式的PS2问题的解决方法,将其重新转换为二进制标记问题。虽然这样的优化问题可以使用基于图割的算法来解决[5],但它们需要知道最小值。深度神经网络能提供解决方案吗? 由于它在解决一般PS问题方面的成功和适用性,我们打算使用深度神经网络来解决PS2问题。核心思想是使用深层神经网络-+v:mala2255获取更多论文≥DeepPS2 3致力于用复杂的双向反射分布函数(BRDF)对未知的一般表面进行建模。使用深度神经网络的光度立体问题已经在校准(已知照明)或未校准(未知照明)设置下得到解决。虽然这些方法中的大多数需要3D地面实况监督[16,49,9,8,7,10,26,40],但在以自我监督的方式解决PS方面取得了一些进展[19]。然而,这种自监督和未校准的方法仍然需要用于照明估计的地面实况监督。在这项工作中,我们引入了一个基于反向渲染的深度学习框架,称为DeepPS2,以解决PS2问题,并致力于开发一种完全未校准和自我监督的方法。其核心思想是利用来自两个不同照明图像的阴影线索来获得3D表面法线。DeepPS 2旨在使用3D表面法线和/或照明执行重复估计、照明估计、图像重新照明和图像重建,而无需任何监督虽然在现有的无监督/自监督方法中通常采用图像重建,但使用估计的光照来执行图像重新照明的适当设计考虑因素带来了关于所提出的框架的几个有趣的见解。贡献以下是这项工作的主要贡献。– 我们介绍了DeepPS2,这是一种未校准的基于深度学习的光度立体方法,可以在自我监督的设置中联合执行表面法线,光照和光照估计。所提出的框架的工作流程遵循逆渲染的原则。– 我们提出了一个自我监督的照明估计,通过光空间离散化和包括图像重新照明(使用估计照明)以及图像重建。– 我们建议明确的镜面反射模型,通过优化和估计照明。– 据我们所知,我们是第一个在深度学习环境中解决PS2问题的工作,以及在自我监督环境中为手头任务进行照明估计的工作。2相关工作本节回顾了关于PS2问题的文献以及最近一些基于深度学习的光度立体方法。PS2的问题 一些早期的作品在传统的非学习环境中解决了这个问题。Onn和Bruckstein[29]讨论了使用两个图像确定表面法线时的模糊性,并提出使用可积性约束来处理这种模糊性。Sato和Ikeuchi [36]使用他们的方法解决了太阳照射下的m 3图像问题,这在某种意义上解决了PS2问题[45]。后来,杨等人。[47]研究了这个问题,特别是凸对象。Kozera为PS2的微分公式提供了一个解析解[22]。自1995年以来(+v:mala2255获取更多论文∈凌晨4 Tiwari和S. 拉曼几年后),只有池田[15]解决了PS2的问题,基本上考虑了第二个图像作为辅助,以更好地解决SFS问题。最近,Queau et al. [33]使用基于图切割的优化方法解决了PS2问题。此外,室外PS的问题在几个作品中被重新探索[1,2]。虽然这些方法试图为PS问题提供数值解决方案[28,33],但我们打算使用深度神经网络的能力来解决它基于深度学习的方法。深度学习在计算机视觉的许多领域都取得了巨大进展,包括光度立体[49,9,7,10,16,35]。Santo等人。[35]是第一个提出基于深度学习的方法来获得每像素表面法线的人。然而,它们受到输入处预定义的像素顺序的限制。后来,Chen等人在他们的后续工作[9,7,10]中提出使用基于特征提取器和特征池的策略对空间信息进行建模,用于光度立体。此外,Yao et al.[48]和Wang等人。[43]提出提取并结合局部和全局特征,以更好地理解光度。然而,所有这些方法都需要地面实况表面法线进行监督,这通常是困难的获取。最近,Taniai Maehara[40]提出了一种自监督网络,使用一组图像直接输出表面法线并重建它们。然而,他们的方法需要已知的照明作为输入。 Kaya等人[19]扩展了他们的方法,以处理未校准设置中的相互反射和解决然而,照明估计仍然使用地面实况监督来执行。其他方法,如Lichy等人。[27]和Boss等人。[4]分别使用三个或更少和两个图像(一个有闪光灯,一个没有闪光灯)预测形状和材料。虽然LERPS[42]从单个图像推断照明和表面法线,但它需要多个图像(一次一个)进行训练。我们致力于一种未校准的光度立体方法,该方法仅使用两个不同照明的图像作为输入,同时估计照明,表面法线和反射率,所有这些都以自我监督的方式进行。3了解PS2:使用两个图像的光度立体在描述我们感兴趣解决的PS2问题之前,我们想回顾一下SfS [14]和传统PS问题[45]的一些关键特征。 我们假设正交相机在均匀定向照明下对表面进行成像,其中观看方向vIR3沿着z方向指向,并且图像平面平行于3D笛卡尔坐标系XY Z的XY平面。3.1从阴影恢复形状(SfS)考虑由双向反射分布函数(BRDF)ρ表征的各向异性非朗伯表面f。对于每个曲面点+v:mala2255获取更多论文ΣΣ≥ΣΣ≥DeepPS2 5(x,y),其特征在于表面法线n∈ IR3,并且在方向v ∈ IR3上照射光源,从方向v∈ IR3观察的表面的图像形成由等式1给出。I(x,y)=ρ(n,n,v)<$f,s(x,y)n(x,y)T<$+<$(1)在这里,f,s(x,y)指定附加阴影和投射阴影。如果(x,y)被阴影化,则它等于0,否则它等于1。该系统集成了全局照明和噪声效果。I(x,y)是相对于光源强度的归一化灰度级。显然,由于光线和光照是先验已知的,围绕光照方向的旋转锥中的表面法线n(x,y)构成方程1的无穷解集。因此,它成为一个不适定的问题,很难在局部求解。3.2光度立体(PS)克服SfS不适定性的最简单的解决方案是使m2从同一视点拍摄的物体的不同照明的图像。一般而言,对于多个光源,等式(1)中描述的公式1延伸到下面。Ij(x,y)=ρ(n,nj,v)<$f,s(x,y)n(x,y)T<$j+nj(2)这里,该等式特定于第j个光源。对于m3和朗伯曲面,方程2表示光度立体问题(传统的m= 3)。求解这样的系统是有利的,因为它是适定的,并且可以局部求解,不像SfS。3.3PS2的问题利用这样的非微分公式(如在等式2中),可以通过求解三个或更多个线性方程来获得三个未知数(nx,ny,nz)然而,这样的公式在以下两种情况下难以求解:(i)当光源共面时(秩亏公式)和(ii)当m= 2时。这些场景将我们引向PS2问题的公式化-具有两个图像的光度立体,如等式3所述。ρ(n,n1,v)<$f,s(x,y)<$n(x,y)T<$1<$+<$1=I1(x,y)ρ(n,n2,v)<$f,s(x,y)<$n(x,y)T<$2<$+<$2=I2(x,y)nx(x,y)2+ny(x,y)2+nz(x,y)2= 1(3)方程3的第三部分中的非线性可能给出非唯一解[17]。增加一个图像(在非共面光源配置下)可以直接解决这个问题。然而,当表面+v:mala2255获取更多论文·图像重建模块输入图像编码器反照率精化模块正常重建图像图像重新照明模块照明模块成品阴影反照率粗反照率照明特征提取器Relit图像逐行级联估计照明的位置编码早上6 Tiwari和S. 拉曼任意复杂的反射特性。此外,当未知的情况下,问题变得更加难以解决。为了解决PS2问题中存在的上述问题,我们引入了一个基于深度学习的框架,可以通过直接从图像中学习来解决这种模糊性。4方法在本节中,我们将介绍DeepPS2,这是PS2问题的基于深度学习的解决方案此外,我们描述了几个设计考虑因素,光空间采样和离散化,并分享训练策略。Fig. 1. 所提出的逆渲染框架,称为DeepPS2,用于形状,材料和照明估计。编码器-解码器的设计灵感来自沙漏网络[46]。为了视觉清晰,4.1网络架构设I1,I2∈IRC× H× W分别为对应于光照方向θ1和θ2这两个图像连同对象掩码M∈IR1 × H × W一起被馈送到编码器fenc以获得抽象特征图fenmg,如等式4所述。θenc=fenc([I1,I2,M];θenc)(4)这里,[ ]表示逐通道级联,θenc表示编码器的参数。表面法线和反照率估计。如等式5中所描述的,我们分别通过解码器fn dec和f a dec使用插值来获得对表面法线映射Nn的估计和对albedoAn的估计。N=fndec(θndec)A=fadec(θadec)(5)+v:mala2255获取更多论文DeepPS2 7这里,A=[A1,A2]表示两个图像I1和I2的全部情况。每个编码器-解码器组合4的设计受到沙漏网络的启发[46]。照明估计。 估计照明方向的一种简单方法可以是使用另一个完全连接的分支,并训练网络直接从投影回归到所需的照明。然而,完全连接的层需要大量的参数。此外,仅从图像特征直接获得精确的照明信息将是困难的,因为它将不具有下伏表面的结构和反射特性的明确知识。为了保持整个架构完全卷积,我们提出了一个照明模块(fill),通过使用估计的法线贴图和法线来预测期望的照明方向,如等式6所述。li=fill([N,Ai];θlem)(6)这里,i= 1, 2分别对应于两个图像I1和I2在这个阶段,一种直接的方法可以是使用估计的法线、法线和光照,以便通过图像渲染方程(参见方程11)重建原始图像。然而,不使用Lig hting估计s的估计的最大似然估计不能捕捉到表面(见图4)。此外,估计的照明距离理想的照明有点远。因此,现在的问题是-我们如何验证估计的反射和照明的准确性,特别是当没有地面实况监督时?当然,除了表面法线(参见广义浅浮雕(GBR)模糊度[3])之外,就图像渲染而言,阴影和照明是密切相关的。为了解决上述问题,我们提出了两个关键的解决方案:(i)图像重建前的预处理和(ii)使用估计光照的图像重新照明通过镜面反射模型进行反照率优化如前所述,估计的分辨率不能直接从图像特征表示空间特征。大多数现有的深度光度学立体方法已经通过最大化使用多个不同照明的图像隐式地处理镜面反射池化和全局-局部特征融合。然而,理解镜面反射本质上是表面上的反射是至关重要的,关于表面几何的信息可以帮助更好地建模这种镜面反射当我们只有一两张图像来模拟表面反射时,理解表面几何变得更加重要因此,我们选择显式地对这些镜面反射进行建模,并使用一些合理和现实的假设来改进最大值估计。我们假设镜面BRDF是各向同性的,并且只是半矢量h和表面上任何点处的表面法线n的函数,因为BRDF可以重新参数化为基于半矢量的函数[34]。在这样做时,我们可以省略与建模BRDF相关的菲涅耳反射系数和几何衰减。作者在[30,6]中发现,[4]详细的分层架构可以在我们的补充材料中找到+v:mala2255获取更多论文i(参考)i(参考)我我N,0)最大值(μi)早上8 Tiwari和S. 拉曼BRDF也可以简单地用两个参数θh=cos−1(nTh)和θd=cos−1(vTh)来建模。因此,我们使用估计的照明强度i来计算cos(θh)和cos(θd)以进一步细化照明强度。此外,我们使用位置编码模型的高频镜面的改进的反射。简而言之,我们根据等式7构造Li。Li=[pi,γ(pi)]pi=[nThi,vThi](7)这里,γ(η)=[sin(20πη),cos(20πη),.,sin(2 m−1πη),cos(2m−1πη)]。我们选择在我们的方法中,m=Futher,hi=li+v.||lˆi + v||根据这些观察,我们使用基于编码器-解码器的编码器-解码器来细化-通过将估计的配准Li、所有配准Ai、表面法线Ni 和底层图像作为其输入,来获得精细配准。等式8描述了信息流。A.=fa rm([Ii,Ni,Ai,Li,];θa rm)(8)图像重亮。通常,在该阶段,现有方法进一步进行以使用渲染方程并重建输入图像。 然而,照明要么是已知的,要么是用地面实况监督估计的。这使得稳定的训练和提供令人信服的结果。 然而,在我们的情况下,照明估计没有任何明确的监督,预计会产生学习不稳定性。因此,问题是,我们如何确保在没有任何地面实况监督的情况下,估计的照明接近期望的照明?作为对估计照明的真实性的额外检查,我们建议将它们用于图像重新照明任务。我们使用图像重新照明模块(frel)来使用估计的照明作为目标照明将一个图像重新照明成另一个图像,并测量重新照明图像的质量,如等式9所述。ˆ1(相对)=frel(I2,θrel)(9)这里,λ(λ1)是从期望的目标照明λ1提取 的照明 特征。重新照明图像的质量促使照明估计接近期望的照明估计。图像重建。在获得了表面法线、反射率和光照的估计值之后,我们最后使用它们来获得反射率图Ri,基于编码器-解码器的图像重构模块(frecon),如等式10所述。Ri=frecon([Ii,N,A,Ni];θrecon)(10)然后使用反射图像Ri来重建相关联的图像如等式11中所描述的。I=R联系我们(十一)我+v:mala2255获取更多论文∈∈ − −−在这里,乘法是指逐元素乘法。DeepPS2 9以这种方式,所提出的DeepPS2产生表面法线的估计和照明,以及重新照亮的目标照明下的图像,只使用两个图像作为输入,没有额外的地面实况监督。基于网络性能,我们证明了PS2问题可以利用深度学习框架的优势得到很好的解决。(a)(b)(c)第(1)款图二. (a)光空间离散化为K = 25个仓。δ= 180/ 2K是最大角偏差。(b)MAE随K. (c)早期热身4.2更多关于照明估计:光空间采样如前所述,估计光源方向的直观方法将是直接从图像回归它们然而,将这些值回归到确切的值是困难的,并且可能导致学习困难[7]。此外,在远距离光源假设下,在定位光源时指定光空间中的区域而不是确切方向更容易且更好。此外,这简化了数据采集期间的光源校准。因此,我们选择将照明估计公式化为分类问题。最近的一些方法采用了分类公式[7,10]和弱校准设置[27]进行照明和形状估计,并产生了良好的结果。在这项工作中,我们将光空间(上半球)离散成K= 25个仓(如图2(a)所示),即沿方位角方向θ[0°,180°]的5个仓,中心在[18°,54°,90°,126°,162°],以及沿仰角方向θ[90°,90°]的5个仓,中心在[72°,36分,0分,36分,7分2秒]。虽然每个ch仓沿每个方向的最大角度偏差为18 °(图2(a)),它们在数据采集期间提供相对简单的光源配置。 它们可以使用手持照明设备来实现。此外,在这种离散化光空间配置下的学习允许网络更好地容忍估计的照明和后续下游任务中的误差在训练过程中,网络必须在光空间中选择适当的bin,以从输入图像、估计的法线映射和投影中理解光源配置4.3网络训练我们使用标准的DiLiGenT基准数据集[38],其中10个物体在96个不同的光线方向下成像,具有复杂的非朗伯表面。+v:mala2255获取更多论文×L LL2Σ ΣΣ∥上午10 Tiwari和S. 拉曼我们在Pytorch[31]中使用Adam优化器[21]实现了DeepPS2,初始学习率为1 10−4,25个epoch,批量大小为32,使用NVIDIA RTX 5000 GPU。每5个epoch之后,学习率降低到一半。据观察,如果所考虑的对象具有相对简单的反射特性,即使是随机初始化的网络训练的图像重建损失可以导致良好的解决方案。然而,对于复杂场景,最好只在训练的早期阶段通过弱监督初始化权重来预热网络[40,19]。在我们的例子中,我们通过使用L1-loss(L1)、L2-loss(L2)和前2000次迭代的感知损失(perp)的弱监督来执行正常、非正常和照明估计的预热,如第4.4节所述。 对于弱监督,我们随机采样10个图像(最好,每个图像来自不同的照明箱),并根据等式12使用最小二乘公式[45]估 计 法 线 映射 。N′=L−1I(12)重要的是要注意,L中的照明方向来自离散化的灯光空间设置,其中我们将照明方向计算为指向所选箱中心由于我们有图像、法线映射N′和离散化的光照L,我们计算漫射阴影(nT′),镜面高光(n接近于θ的半角h且观察方向v=[0, 0, 1]T的区域)。一旦我们有了阴影(漫反射和镜面反射),我们就计算了反射率(A′),将它们用于weaksupvision,因为图像是反射率和阴影的乘积4.4损失函数在本节中,我们将描述用于训练整个框架的损失函数。等式13描述了用于图像重建和重新照明两者的L1-loss和感知损失LperpLT(X,X<$)=λ1L1(X,X<$)+λ2L2(X,X<$)+λperpLperp(X,X<$)(13)在这里,L1(X,X1L2(X,X2WH CLperp(X,X)=1分(X)西隧x=1y =1z =1x,y,z-(X) x,y,z1(十四)这里,是VGG-19[39]网络的输出,W,H,C分别是提取的特征的宽度,高度和深度λ1 = λ2 = 0。5且λperp= 1。0.+v:mala2255获取更多论文LDeepPS2 11监督不力。我们使用T和标准交叉熵损失分别为白细胞和照明提供弱监督(前2000次迭代)。然而,对于曲面法线,我们使用公式15。(十五)图3. 使用随机选择的输入图像对获得的表面法线映射5实验结果在本节中,我们展示了DeepPS2与几种基线方法的定性和定量比较。经典方法[33,28]已经为PS2中的潜在模糊性提供了数值解决方案。然而,DiLiGenT基准测试的代码和结果无法用于比较。此外,由于基于深度学习的方法显著优于传统的光度立体方法(即使在处理模糊方面),因此我们仅将我们的工作与最先进的基于深度学习的方法进行比较,例如UPS-FCN[9], SDPS-Net[7], IRPS[40],Kaya等人[19],Lichy et al. [27]和Boss et al. [4]的文件。 它们是经过仔细选择的,因为它们可以通过使用两张图像作为输入进行重新训练来进行修改,以与我们的问题设置保持一致,以便进行公平比较。正态估计的结果表1显示了所提出的框架与其他基于深度学习的方法的定量比较。所有的方法都是用两幅图像作为输入进行训练的,并报告了平均角误差(MAE)来量化表面法线估计。自从IRPS[40]被设计为拍摄两张图像(一张带有正面闪光),我们使用成对的图像对其进行评估从对应于θ= 0θ和θ= 90θ的仓中。从表1中,我们观察到所提出的DeepPS2获得了八个不同对象(除了POT1和BEAR)的最佳平均MAE值和最佳(或至少第二好)即使我们的框架在校准设置中表现最好,它也优于未校准设置下的其他此外,即使没有地面实况监督,我们的方法也优于其他监督(第1-6行)和自监督(第7-8行)方法。为了定性地欣赏结果,我们展示了READING,HARVEST,COW和POT2与自我监督基线[40,19]的视觉比较,以及基于两个图像的监督方法[4]。Lnorm(N,N′)=1MΣN−Nˆ ˆ′2p p2p18.9620.1120.8521.0325.3428.0927.1529.37Kaya等人Boss等人DeepPS2[19][4](Ours)前原诚司[41]&对象GT普通谷合&11.9711.5313.1213.7412.3712.5813.1314.07DeepPS2(我们[4]美国[19个]Kaya等人Boss等人GT正常谷合&&对象前原诚司[41]POT2牛收获阅读+v:mala2255获取更多论文重建的Relit图片图片阴影精化反照率粗反照率输入照明图像12 A. Tiwari和S. 拉曼见图4。HARVEST和READING对象上的反向渲染结果。在DiLiGenT基准图3. 有趣的是,DeepPS2在HARVEST和READING等对象上表现最好,这些对象具有复杂的阴影和空间变化材料的相互反射。表1. DiLiGenT基准[38]中每个对象随机选择的10个图像对的平均角度误差(MAE)。 绿色和黄色单元格分别表示性能最佳和第二佳的方法。图1-6和图7-8分别类型的方法对象→方法↓球猫POT1熊Pot2佛杯状阅读牛收获平均校准PS-FCN[9]6.4120.0419.6716.9521.1223.0424.8129.9317.2334.6821.38± 2.0519.56± 1.5820.14± 1.1722.6±1.0214.85± 0.9816.27± 1.01未校准UPS-FCN[9]9.7118.9717.8515.1218.6219.7722.1427.3614.8331.25校准SDPS-Net[7]7.9719.8818.1212.5118.2525.1226.3627.4715.2130.59未校准SDPS-Net[7]7.8121.7419.7313.2520.4727.8129.6631.1218.9434.14未校准Boss等人[4]美国7.7114.8110.178.0112.8915.9818.1821.5411.9627.36未校准Lichy等人[27日]7.4220.3411.879.9411.1218.7519.3821.5112.9329.52校准未校准前原诚司[40]Kaya等人[19个]7.036.9710.0211.628.7412.5813.8118.2517.5716.8515.9321.3121.8714.9714.8128.8928.7215.03± 0.9614.81± 0.899.5710.148.69校准DeepPS2(我们的)6.179.6210.358.8712.7814.7813.2918.3410.1325.1812.95± 0.64未校准DeepPS2(我们的)6.289.8710.739.6712.0914.5114.2219.9411.0826.0613.44± 0.67反照率估计的结果 图4.对用我们的方法得到的结果进行了定性评价。我们观察到,学习的阴影能够处理复杂的阴影和镜面高光,特别是在使用估计的光照进行细化之后。照明估计的结果。离散化照明的目标是消除网络对精确照明校准的依赖。因此,我们尝试使用弱校准的照明方向(例如,前、前右/左、顶部、右上/左、底部、右下/左等)来对照明进行SSIM:0.827SSIM:0.838SSIM:0.912SSIM:SSIM:SSIM:+v:mala2255获取更多论文DeepPS2 13意图建立网络可能不需要在所有时间精确校准。对照明方向的粗略和/或抽象理解应该有助于引导网络进行真实的形状估计。为了更好地评估照明模块的性能,我们在图4中的球体上可视化学习的照明。据观察,照明模块捕获光源的分布,这对于在后期阶段对细化的反射镜中的复杂镜面进行建模至关重要。图像重新照明和重建的结果 我们报告了广泛使用的结构相似性指数(SSIM)[44],以量化重建和重新照明图像的质量。然而,这些结果最好是视觉上欣赏。因此,我们使用图4来显示生成图像的质量。结果的质量表明,我们的逆渲染结果是足够稳定的现实重新照明和重建。5.1消融研究在本节中,我们将讨论DeepPS2在不同实验设置下的几种设计选择。消融1:如果我们不包括照明估计的框架?我们试图通过这种基于逆渲染的框架来理解在表面法线估计中明确地包括照明信息的效果。在表2中,比较实验ID 1和ID 2。2,我们观察到照明估计对于手头的任务至关重要。该实验符合经典的渲染方程,该方程需要照明方向来理解表面上的反射特性和阴影。此外,我们打算知道当使用实际照明(校准设置)时,虽然网络在校准设置下性能更好(见表1),误差差异不是很大(0. 49个单位)。这支持了我们的想法,使用较弱的校准表面正常的估计下,遥远的照明。表2. 各种设计选择的定量比较。LE:照明估计,AR:反照率细化,PE:位置编码,IR:图像重照明。实验ID 1-6包括预热ID乐ARPEIR球猫POT1熊Pot2佛杯状阅读牛收获平均1✗ ✗ ✗ ✗9.8736.5519.3912.4214.5213.1920.5758.9619.7555.5126.072✓✗ ✗ ✗9.3215.6216.4110.9615.7719.9318.3732.3416.1730.2618.513✓ ✓ ✗ ✗7.3715.6410.589.3714.7215.0618.123.7816.3127.1715.854✓✓✓✗6.8812.1611.139.7915.1114.8916.0720.4611.8527.2214.555✓✓✓✓6.289.8710.739.6712.0914.5114.2219.9411.0826.0613.446前光影像6.749.3810.139.0813.1814.5814.6317.8411.9824.8713.247无预热12.4325.0122.8215.4420.5725.7629.1652.1625.5344.4527.338完全监督5.148.9710.288.929.8912.7612.3818.529.8123.2211.98消融2:离散化光空间对正常估计的影响。图2(b)显示了不同数量的箱对在DiLiGenT基准上评估的MAE的影响。我们选择K=25箱作为+v:mala2255获取更多论文14 A. Tiwari和S. 拉曼在该点之后MAE平台的减少(大致)。 此外,光空间离散化不仅减少了计算开销,而且有助于网络更全面地理解照明动态。 这从表1中报告的MAE和图4中的精制橄榄油的质量中显而易见。 消融3:多点细化和图像重新照明是否有助于照明的建模?图4中的定性结果显示了改进的反射镜捕捉表面镜面反射的效果。 表2(ID 2和3)显示了通过包含Rendido细化模块而获得的性能改进。观察到显式镜面反射建模产生逼真的反射。通过使用位置编码进一步增强了性能(表2ID4)因为它帮助模块更好地捕获精细的PRANDO中的高频特性。最后,包含图像重新照明模块进一步降低了MAE(表2ID 5)。 由于重新照明模块仅由估计的照明驱动,因此重新照明有助于获得更好的表面法线通过更好的照明估计作为额外的任务。消融四:训练初期监管薄弱的网络预热效果如何?我们还考虑了在早期预热阶段监督不力的影响。表2(ID 5和ID 7)清楚地确定了预热的益处。图2(c)示出了有和没有预热的收敛。显然,早期预热提供了稳定和更快的收敛,因为图像中的异常值在弱监督期间的早期阶段被排除在外。消融5:如果输入处的一个图像的照明方向是已知的,该怎么办?我们评估一个有趣和实际的情况,其中两个输入图像之一是用并置的光源和相机捕获的,即,T=v=[0,0,1]T。由于照明方向是已知的,我们提供(辅助)监督照明模块,以获得更好的照明估计的其他图像。表2(ID 6)示出了在具有从正面照明箱采样的一个图像的图像对上获得的结果,即θ= 0 °,θ= 90 °。在此设置下,该方法的性能优于完全自我监督的版本,因为前光(闪光)图像提供了更好的理解镜面反射在复杂的表面上。最后,我们还展示了DeepPS2在完全监督设置下的性能(表2(ID 8)),以建立DeepPS2的上限。6结论在这项工作中,我们使用一个名为DeepPS2的自监督深度学习框架来解决PS2问题(具有两个图像的光度立体除了表面法线,所提出的方法还估计反射率和光照,并执行图像重新照明,所有这些都没有任何地面实况监督。有趣的是,我们证明了弱校准的光照足以让网络学习物体的基本形状。结合图像重建,图像重新照明有助于更好的照明估计。虽然其他未校准的方法使用地面实况监督来学习估计,+v:mala2255获取更多论文DeepPS2 15我们完全以自我监督的方式进行。据我们所知,我们是第一个在深度学习环境中使用两张图像来解决光度立体问题的人。+v:mala2255获取更多论文16章Tiwari和S. 拉曼引用1. Abrams,A.,霍利角,普利斯,R.:日射立体:根据太阳位置的形状。在:欧洲计算机视觉会议。pp. 357-370. 03 The Dog(2012)2. Ackermann,J.,Langguth,F.,Fuhrmann,S.,Goesele,M.:户外网络摄像头的测光立体声。2012年IEEE计算机视觉和模式识别会议。pp. 262-269.IEEE(2012年)3. Belhumeur,P.N.,克里格曼,D.J.,Yuille,A.L.:浅浮雕的模糊性。国际计算机视觉杂志35(1),334. 老大M Jampani,V.,金,K.,Lensch,H.,Kautz,J.:两次空间变化的brdf和形状估计。在:IEEE/CVF计算机视觉和模式识别会议论文集。pp.39825. Boykov,Y.,Veksler,O.,Zabih,R.:通过图割的快速近似能量最小化。IEEE Transactions on pattern analysis and machine intelligence23(11),12226. 伯利湾,工作室,W.D.A.:迪斯尼的物理阴影。In:ACM SIG-GRAPH. 2012年第一卷,第100页。1-7.第2012卷(2012)7. 陈,G.,汉,K.,施,B.,Matsushita,Y.,黄嘉琪:自校准深度光度立体网络。IEEE计算机视觉与模式识别会议论文集。pp. 87398. 陈,G.,汉,K.,施,B.,Matsushita,Y.,黄嘉琪:非朗伯曲面的深度 光 度 IEEE Transactions on Pattern Analysis and Machine Intelligence(2020)9. 陈,G.,汉,K.,黄嘉琪:Ps-fcn:一个灵活的学习框架,为pho- tometric立体。在:欧洲计算机视觉会议(ECCV)的会议记录。pp. 310. 陈,G.,Waechter,M.,施,B.,黄启坚,Matsushita,Y.:在深度未校准的光度立体中学到了什么?欧洲计算机视觉会议。pp. 745-762.施普林格(2020)11. Furukawa,Y.,Ponce,J.:精确、密集和强大的多视图立体视觉。IEEEtransactions on pattern analysis and machine intelligence32(8),136212. Her n'andez,C., Vogiatzis,G.,布罗斯特,G.J., Stenger,B., C polla,R.: 非刚性光度立体与彩色灯光。2007年:IEEE第11届计算机视觉国际会议。pp. 1-8. IEEE(2007年)13. Her n'andez,C., Vogiatzis,G., C polla,R.: 在三源照相立体声中出现的阴影。IEEE Transactions on Pattern Analysis and Machine Intelligence33(2),41914. Horn,B.K.:从阴影中获得形状:一种从一个视图中获得光滑不透明物体形状的方法(1970年)15. 池田,O.:一种鲁棒的基于两幅图像和控制的从阴影恢复形状算法的边界 条 件 。 收 录 于 : 2003 年 国 际 图 像 处 理 会 议 论 文 集 ( 目 录 号03CH37429)。第1卷,第I-405. IEEE(2003年)16. Ikehata,S.:Cnn-ps:用于一般非凸曲面的基于Cnn的光度立体。在:欧洲计算机视觉会议(ECCV)的会议记录。pp. 317. Ikeuchi,K.,Horn,B.K.:阴影和遮挡边界的数值形状。人工智能17(1-3),14118. Jung,J.,Lee,J.Y.,So Kweon,I.:一天室外光度立体通过天空光估计。IEEE计算机视觉与模式识别会议论文集。pp. 4521+v:mala2255获取更多
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功