没有合适的资源?快使用搜索试试~ 我知道了~
具有阴影处理的神经反射率用于形状恢复
162210具有阴影处理的神经反射率用于形状恢复0Junxuan Li 1 , 2 , Hongdong Li 10澳大利亚国立大学 1 Data61, CSIRO 20{ junxuan.li, hongdong.li } @anu.edu.au0摘要0本文旨在恢复具有未知、非兰伯特、可能空间变化的表面材料的场景形状。当物体的形状非常复杂且表面有阴影时,任务变得非常具有挑战性。为了克服这些挑战,我们提出了一种基于坐标的深度多层感知器(MLP)来对每个表面点的未知3D形状和未知反射率进行参数化。该网络能够利用表面上观察到的光度变化和阴影,并恢复表面形状和一般的非兰伯特反射率。我们明确预测投射的阴影,减轻这些阴影区域上的可能伪影,提高估计精度。我们的框架完全是自监督的,即不需要真实形状或BRDF。对真实世界图像的测试表明,我们的方法在性能上明显优于现有方法。由于MLP网络的规模较小,我们的方法比之前基于CNN的方法快一个数量级。01. 引言0从固定相机拍摄的多个光度图像中恢复非兰伯特物体的3D形状仍然是一项具有挑战性的任务。真实世界材料的多样性在表面上表现出各种各样的镜面反射,阻碍了传统的光度方法。此外,阴影通常出现在非凸物体上,遮挡了物体表面的一部分,阻碍了表面法线的估计。以前处理阴影的尝试通常依赖于相当严格的兰伯特假设。如果表面上同时出现镜面反射和阴影,问题变得更加复杂。随着深度学习的最新进展,许多计算机视觉问题取得了巨大的进步,光度3D重建也不例外。目前存在的深度学习方法通常以监督训练方式解决问题。图像的基本物理原理为...0信息没有得到充分利用。此外,深度学习方法的可解释性不足,无法利用物体外观和表面法线之间的相互作用。尽管存在各种带有增强策略的合成数据集,但在处理同时具有镜面反射和阴影的真实世界图像方面仍然存在挑战。在本文中,我们提出了一种无监督的神经网络方法来解决上述问题。我们的框架以与表面点对应的图像坐标作为输入,并直接输出该表面点的表面法线、反射参数(即漫反射反照率和镜面参数)以及深度。我们提出了一系列神经镜面基函数来考虑真实世界中不同类型的镜面反射。我们的神经基函数为表面反射提供了参数化,并通过拟合物体外观来获得准确的表面法线。此外,我们的框架通过跟踪估计的深度图来明确参数化阴影区域。然后,这些阴影区域被排除在计算之外,以避免可能的渲染伪影。遵循逆图形渲染的思想,我们使用估计的表面法线和神经反射率在不同的光照方向下重新渲染表面点的像素强度。我们的框架通过在推理过程中最小化重建图像与观察图像之间的差异来进行优化。因此,不需要任何真实数据或预训练。我们的方法在具有挑战性的DiLiGenT真实世界数据集上优于监督和自监督的最新方法。与其他自监督深度方法相比,我们的框架快十倍。02. 相关工作0传统方法:光度立体首先由Woodham[30]引入,它假设物体的表面是Lambertian并且是凸面的,以避免镜面效应和阴影。因此,这个问题可以通过最小二乘法以闭合形式解决。后来的研究逐渐放宽了上述严格的假设[12, 20, 21, 31, 32]。这些方法可以容忍=()+××162220观察图像 漫反射反照率 镜面效应 法线 阴影0神经基础镜面效应 神经基础阴影 深度 ( )0图1.我们提出了一个自监督框架,用于估计物体的表面法线、漫反射反照率、镜面效应和阴影。我们的方法学习了适应观察到的镜面反射的神经基础,并为法线估计提供了线索。我们还根据估计的深度明确地参数化了阴影,减轻了这些阴影上的伪影。0通过将物体上的镜面和阴影视为异常值,来处理非Lambertian效应的存在。然而,它们也可能擦除镜面反射带来的其他线索。监督方法:随着深度学习在计算机视觉领域的许多进展,基于学习的方法是最近在光度立体方面取得最佳性能的方法[6, 9, 11, 15, 16, 23, 29, 33,36]。Santo等人[23]提出了第一个基于网络的方法,通过按照预定义的顺序对观察到的像素进行逐像素估计法线。Chen等人[6,7]提出了一种特征提取和特征汇聚策略,以获取光度立体的空间信息。最近,更多的工作[29,33]利用局部和全局的光度线索来解决这个问题。这些基于学习的方法在训练阶段需要大量带有地面真实法线的数据。由于收集大规模真实世界数据集非常昂贵且不切实际,因此通常使用一些数据增强策略合成数据。自监督方法:与上述基于学习的方法相反,自监督方法不需要监督下的地面真实法线。相反,网络通过最小化重建图像与观察图像之间的差异来进行优化。Taniai等人[26]提出了一种自监督网络,该网络将整个图像集作为输入,直接输出表面法线,并旨在重建观察图像。Kaya等人[13]进一步扩展了他们的网络结构,以处理非标定光度立体中的互反射。他们两者都将镜面成分隐式编码为网络的特征,并未考虑渲染方程中的阴影。神经辐射场:最近,由NeRF[19]引入的神经辐射场在计算机视觉的许多重建任务中被广泛采用。许多工作也将神经辐射场扩展到恢复物体的形状和材料[2, 25, 34,35]。这些工作解决的是多视图重建问题。它们通常假设输入是从多个视点下以固定照明拍摄的物体图像。相反,我们在本文中关注的光度立体问题假设是从相同视点拍摄的多个图像,但具有不同的照明。0将神经辐射场扩展到恢复物体的形状和材料[2, 25, 34,35]。这些工作解决的是多视图重建问题。它们通常假设输入是从多个视点下以固定照明拍摄的物体图像。相反,我们在本文中关注的光度立体问题假设是从相同视点拍摄的多个图像,但具有不同的照明。03. 提出的方法0如图1所示,我们的框架旨在将表面分解为法线、漫反射反照率、镜面效应和阴影。我们通过学习一组神经镜面基础来建模镜面效应。我们的方法通过查询表面点的相对深度来估计深度。在下面的小节中,我们将详细介绍我们框架中每个模块的细节。03.1. 渲染方程0根据传统的校准光度立体问题,我们假设光源在图像上方向为l = [lx, ly,lz]T∈S2(三维单位向量空间)且光强度Li∈R+已知。相机处于正交位置,因此视角v = [0, 0,-1]T∈S2。为了简化起见,我们在以下公式中省略了光强度Li,通过将观测值(即图像Ii)除以相应的照明强度,I = Ii /Li。我们还假设表面之间没有互反射,因此点光源是唯一照亮目标物体的光源。给定来自方向l的光源照亮具有表面法线n∈S2的表面点的观测…256256256…256256256……256256256162230�1�2…��0�1�2…��0×0阴影因子0阴影渲染0重建图像0渲染方程0坐标0光线方向0深度0观察图像0图2.我们基于MLP的深度光度立体框架的四个模块:(a)神经镜面基础建模SΦ(见第3.2节)适合一组适合的BRDF基础到目标镜面;(b)表面建模MΘ(见第3.3节)根据图像坐标作为输入估计表面法线以及BRDF的参数;(c)ZΨ估计密集深度图,通过检查每个表面点处光源的可见性来实现阴影渲染(见第3.4节);以及(d)渲染方程(见第3.1节)。所有MLP都通过最小化重建图像和观察图像之间的重建误差以自监督方式进行优化。0我从方向v观察可以写成0I = sρ(l,v,n)max(l T n,0),(1)0其中s∈{0,1}是一个二进制变量,阴影时值为0,否则为1;ρ(l,v,n)表示表面点的BRDF,它是光线、视角和表面法线的函数;max(l T n,0)是阴影成分。03.2. 反射建模0兰伯特表面假设BRDF ρ(l,v,n)=ρd始终是一个正常数。这个不现实的假设不能解释那些具有高镜面效果的材料。对于光度立体测量,模拟BRDF的镜面部分并利用其信息是有益的。为了同时考虑漫反射和镜面效果,我们选择了一种更现实的表面反射模型,即微平面BRDF模型[27, 28],其中BRDF被分为漫反射和镜面成分0ρ(l,v,n)= ρd + ρs(l,v,n),(2)0神经镜面基础以前的基于深度学习的方法通过将图像上的镜面处理隐式处理0通过将它们作为特征输入到神经网络[13,26]中,或通过最大池化[6,7]进行处理,然而,作为核心的镜面效果是表面上的反射,通过使用物理反射约束的线索明确地模拟这些效果肯定会为光度立体问题带来好处。为了减轻拟合这样一个神经镜面BRDF的负担,我们需要引入一些合理和现实的假设。回想一下,BRDF可以转换为仅具有四个参数的半向量h的函数[22],我们假设我们的镜面BRDF是各向同性的,仅是半向量h和表面法线n的函数。该假设省略了菲涅尔反射系数和几何衰减,在接近 grazing angles时仅有有限的影响[3]。此外,观察到现实世界物体中许多表面点在材料上是相似的,如果不是相同的。我们进一步假设每个表面点的镜面BRDFρs(l,v,n)在镜面基础的原子的非负线性组合上。在先前的工作中,也使用了类似的方法来简化BRDF模型为不同基础的组合[10,17]。然后可以将镜面BRDF写为0ρs(l, v, n) = cTD(h, n), h = l + v0||l + v||, (3)(6)162240A B C D0A B0C0D0图3.对估计的svBRDF进行可视化。我们在物体“Harvest”上选择了四个不同的表面点,并在右侧展示了我们估计的BRDF球体。结果表明,我们的模型可以恢复金属和漫反射材料。我们放大观察到的图像并对BRDF球体进行归一化,以便更好地进行可视化。0其中h是光照和观察方向之间的半向量;D(h, n)=[b1, b2,..., bk]T是目标物体的底层镜面基础;[c1, c2, ...,ck]T:=c∈Rk+表示每个镜面基础的权重;k是不同基础的数量。我们假设c是一个逐元素非负的向量,表明表面反射由少量基础材料的正组合表示。我们使用MLP来通过参数化镜面基础。0D(h, n) = SΦ(h, n), (4)0网络SΦ(h, n)只接受h, n作为输入,以[ b1, b2, ..., bk]T的形式输出不同的镜面基础,如图2所示。Φ是可以在测试期间优化的权重。已经确定多种反射率图可以由少量基础函数的线性组合表示[8, 17,18]。在我们对真实数据集进行测试时,我们经验性地设置k=9。在图3中,我们使用我们对反射率和表面点的估计重新渲染了几个球体。如图3所示,我们的神经反射建模可以很好地逼近空间变化和非Lambertian材料。它可以恢复漫反射表面,并可靠地构建高峰和长尾的金属高光。03.3. 表面建模0我们通过MLPMΘ来模拟物体的表面法线、漫反射和神经基础系数。它以像素的图像坐标x=[x,y]T∈R2作为输入。输出是相应的表面法线n、漫反射反照率ρd和每个坐标x处基础的系数c。0n, ρd, c = MΘ(x), (5)0其中c表示可以用于重建第3.2节中的镜面分量ρs的系数;Θ是可以优化的该MLP的权重。我们使用类似的MLP架构和位置编码策略来构建我们的网络,与NeRF[19]相似。0输入坐标x中的嵌入。不同之处在于,虽然NeRF也将不同的观察方向作为输入,以模拟物体外观的视角相关效果,但我们的MΘ网络仅估计目标物体的“静态”属性。相反,我们通过神经反射建模来覆盖物体的“光照相关”变化。我们的设计将鼓励网络正确分解物体的表面法线和材质属性。03.4. 阴影处理0我们现在来看一下图像渲染方程(1)中的阴影因子s。由于世界上物体的表面崎岖不平,反射表面可能会出现阴影。如图4所示,当物体本身遮挡表面时,就会出现阴影。阴影区域的渲染依赖于物体相对于光照方向的几何和深度关系。因此,我们引入一个深度MLPZΨ来模拟物体表面点到相机之间的深度值z∈R。深度MLP以图像坐标作为输入,输出给定坐标的对应深度值z =ZΨ(x)。为了检查物体是否遮挡了光源,从表面点x向光源绘制一条线。将这条线在世界坐标系中表示为L = X -tl,其中t∈(0,+∞);X=[x,y,z]表示具有深度值z的表面点,深度值由ZΨ(x)给出。我们可以使用函数Lz来简化方程,表示L的z轴值。现在,沿着光照方向前进,即t∈(0,+∞),我们可以通过旅行计算阴影因子。0s = step(minx(t)(ZΨ(x(t)) - Lz(x(t)))), x(t) = x - tl',0其中step(∙)表示Heaviside阶跃函数,如果输入为正,则输出1,否则输出0;l' = [lx, ly]T0是光线方向l在xy平面上的投影。在实现中,我们将阴影渲染的步长设置为32(使用对数空间间隔)。OriginalOursACLSPNSR: 31.04 dBPNSR: 29.04 dB162250相机0阴影0渲染的阴影 估计的深度0图4.阴影参数化和渲染。如左图所示,阴影是由自遮挡引起的。为了确定表面点x是否落入阴影区域,我们将该点追踪到光源并沿该射线采样多个点x(t)。给定光线方向l和估计的深度图ZΨ(x),我们可以查询深度并将值进行比较,通过公式(6)有效地参数化和渲染阴影。04. 实现0我们使用位置编码[19]策略对输入进行编码,然后将其输入到MLP中。对于表面建模网络MΘ,我们使用10个级别的傅里叶函数对输入进行编码,网络MΘ使用12个具有256个通道的全连接ReLU层。表面法线n在第8层输出,而BRDF参数在最后一层输出。我们还使用10个编码函数来嵌入深度网络ZΨ的输入,该网络具有8个具有256个通道的全连接ReLU层。对于神经基础MLPSΦ,我们只使用3个编码函数来嵌入输入。网络SΦ由3个具有64个通道的全连接ReLU层组成。更多实现细节请参考补充材料。总体而言,这三个MLP网络非常轻量级(即占用空间小),总共仅有1.1M个参数。相比之下,基于CNN的自监督方法[13]包含3.7M个参数。此外,我们的模型较浅,计算量较小。因此,我们的框架在推理时间上更快。DiLiGenT数据集中的10个对象的推理时间范围为3分钟到9分钟,平均每个对象为6分钟。相比之下,基于CNN的方法[13,26]每个对象需要大约一个小时。重建损失。重建损失定义为观察到的强度Iob与重建强度之间的平均绝对误差:0L rec =0所有像素|I - Iob|. (7)0几何约束。我们引入了一个几何约束,将估计的表面法线n和深度网络ZΨ联系起来,如下所示。0Lgeo =0所有像素(1 - nT�ZΨ)。 (8)0在优化网络ZΨ的早期阶段,我们引入阴影引导sg来帮助训练。假设在n个不同的光照方向下的观察结果为0图5.通过我们估计的svBRDF重新渲染的图像。从左到右,我们展示了从“Harvest”拍摄的原始图像,使用我们估计的神经svBRDF重新渲染的图像,以及使用ACLS[1]重新渲染的图像。我们的方法在重建质量上取得了更好的效果,峰值信噪比(PSNR)高出2dB。ACLS无法恢复空间变化的材料(ACLS的结果中红色布料和人脸都变得模糊)。0n是平均强度。小于阈值的像素强度将被丢弃。我们在深度网络ZΨ稳定后使用公式(6)进行阴影渲染。平滑性约束。以前的自监督方法在网络初始化方面存在问题[13,26]。他们的网络需要预先计算的表面法线图作为早期网络引导。相比之下,我们的模型不需要任何预先计算的表面法线作为引导。相反,为了解决网络初始化问题,我们在早期阶段使用平滑性约束来引导网络,因为真实世界物体的反照率和表面法线通常呈现出分段平滑的模式。0Ltv = Vl1(ρd, c) + Vl2(n),(9)0其中Vl1表示具有绝对损失的总变差函数,Vl2表示具有平方损失的总变差函数。总之,我们通过最小化以下损失函数来优化MLPs MΘ,SΦ,ZΨ的参数:L = Lrec + Lgeo +βLtv,其中β是控制总变差损失的超参数。我们将其设置为β= 0.01;在前半部分迭代之后,将其设置为0。162260表1. DiLiGenT数据集上的定量比较。这里的度量标准是平均角度误差(MAE);较低的MAE更好。0GT法线方法 Ball Bear Buddha Cat Cow Goblet Harvest Pot1 Pot2 Reading Avg.0否 我们的方法 2.43 3.64 8.04 4.86 4.72 6.68 14.90 5.99 4.97 8.75 6.50 否 TM18 [26] 1.47 5.79 10.36 5.44 6.32 11.47 22.596.09 7.76 11.03 8.83 否 BK21 [13] 3.78 5.96 13.14 7.91 10.85 11.94 25.49 8.75 10.17 18.22 11.62 否 L2 [30] 4.10 8.4014.90 8.40 25.60 18.50 30.60 8.90 14.70 19.80 15.400是 PX-NET [16] 2.00 3.50 7.60 4.30 4.70 6.70 13.30 4.90 5.00 9.80 6.17 是 WJ20 [29] 1.78 4.12 6.09 4.66 6.33 7.22 13.346.46 6.45 10.05 6.65 是 CNN-PS [11] 2.20 4.10 7.90 4.60 8.00 7.30 14.00 5.40 6.00 12.60 7.20 是 GPS-Net [33] 2.92 5.077.77 5.42 6.14 9.00 15.14 6.04 7.01 13.58 7.81 是 PS-FCN [7] 2.82 7.55 7.91 6.16 7.33 8.60 15.85 7.13 7.25 13.33 8.3905. 实验0在本节中,我们在具有挑战性的真实世界数据集DiLiGenT[24]上评估了我们的方法及其变体。我们使用了所有不同光照方向下的n =96张图像来优化网络,除了物体“Bear”之外。我们丢弃了“Bear”的前20张图像,因为在先前的工作中发现它们过曝光[11]。批量大小设置为每批8张图像。在优化网络时,我们总共迭代了6000次。我们使用Adam[14]优化器,学习率为5×10-4,其他参数设置为默认值。我们的方法在PyTorch中实现,并在RTX 3090GPU上运行。DiLiGenT数据集的10个物体的推理(即训练)时间范围从3分钟到9分钟,平均每个物体6分钟。相比之下,先前的基于CNN的方法[13,26]每个物体大约需要一个小时。我们还在另外两个具有挑战性的真实世界数据集上评估了我们的方法:Gourd&Apple数据集[1]和Light StageData Gallery [4]。更多细节请参阅补充材料。05.1. 在真实世界数据集上的评估0表面法线评估。在表1中,我们对DiLiGenT数据集上的我们的方法与其他方法进行了定量比较。我们使用平均角度误差(MAE)作为论文中的度量标准。较低的MAE更好。我们将先前的方法分为两类:有监督方法,在训练阶段需要地面真实法线;和自监督方法,在测试时不需要地面真实法线,直接估计法线。如表1所示,我们的方法在平均MAE误差上超过其他自监督方法,与先前的自监督方法[13,26]相比,我们的方法在MAE误差上提高了2.33度。由于我们的神经反射建模,我们的方法在“Reading”、“Cow”和“Goblet”等光泽物体上显示出明显的优势。我们在图6中展示了“Cow”和“Pot2”的可视化结果。“Cow”是一个典型的金属涂装物体0表2.在输入图像数量不同的情况下在DiLiGenT上的定量结果。表中显示了平均MAE。0GT法线#输入96 16 10 80否 我们的方法 6.50 6.82 7.47 7.70 是 LMPS [15] 8.43 9.66 10.0210.39 是 PX-Net [16] 6.17 – 8.37 – 是 SPLINE-NET [36] – – 10.35 –0具有高峰值的镜面反射效果;而“Pot2”显示出更广泛和柔和的镜面效果。我们的方法在这两种情况下都取得了最佳性能。svBRDF评估。在图3中,我们可视化了对具有挑战性的物体“Harvest”估计的svBRDF。“Harvest”表面上包含许多不同类型的材料。从漫反射(参见点A)到镜面反射(参见点D),我们的模型在这些不同点上呈现出视觉上令人愉悦的估计BRDF球体。为了定量评估我们的方法,我们使用我们估计的反射率和地面真实光线重新渲染观察到的图像。结果如图5所示。我们将我们重新渲染的图像与ACLS[1]进行比较。ACLS的BRDF拟合结果由Shi等人提供[24],在拟合BRDF时使用了地面真实法线。通过观察重新渲染的图像,我们的方法在重建质量上表现出更高的性能(峰值信噪比(PSNR)高2 dB)。相比之下,ACLS[1]未能忠实地恢复空间变化的材料。稀疏输入结果。为了评估输入图像数量不同对性能的影响,我们在DiLiGenT数据集上测试了我们的方法。我们按照之前的工作LMPS[15]使用相同的输入进行测试。结果和比较如表2所示。从左到右,我们的方法分别使用96张图像、16张图像、10张图像和8张图像作为输入。据我们所知,SPLINE-Net[36]和PX-Net[16]的训练模型不公开。因此,我们报告了他们原始论文中的值。尽管我们的方法不是为稀疏输入而设计的,但在少量输入的情况下,我们仍然比以前的工作表现出更好的性能。1622700°050°025°0地面真实法线0地面真实法线0我们的04.72°0我们的04.97°0TM1806.32°07.76°0PS-FCN07.33°0PS-FCN07.25°0L2025.60°0L2014.70°00°050°025°0TM180图6.“Cow”和“Pot2”的定性结果。对于每个物体,奇数行显示了不同方法的观察图像和估计法线;偶数行显示了不同方法的角度(法线)误差(以度为单位)。0证明我们的方法对于稀疏输入是稳健的。05.2. 消融研究0阴影处理:为了展示我们的阴影处理机制的有效性,我们通过去除阴影渲染模块进行了消融研究,称为“w/oshadow”。定量比较结果如表3所示,可以看到所有物体的平均角度误差增加了1.96度。值得注意的是,性能下降主要是由“Buddha”、“Harvest”和“Reading”物体引起的。这是预期的,因为这些物体具有相当复杂(凹)的表面几何形状,更容易受到投射阴影的影响。我们提出的阴影处理方法更好地关注这些有阴影的区域,实现了高精度的恢复。在图7中,我们展示了我们的阴影模块对物体“Reading”的效果可视化。观察该物体的图像和其地面真实法线,我们可以看到“Reading”是一个高度非凸的物体,具有许多镜面反射和阴影。当光线来自右方时,阴影区域特别大,如图中的光照方向C和D所示。我们在这些光照方向下渲染阴影,尽管存在一些小错误,但准确预测了阴影区域。右侧的误差图显示了...0表3.提出方法不同变体的评估结果。第二行是不使用早期平滑约束的方法;第三行是不使用阴影因子s的方法;最后一行是不使用镜面分量ρs的方法。这里的度量指标是MAE,数值越低越好。0方法 Ball Bear Buddha Cat Cow Goblet Harvest Pot1 Pot2 Reading 平均0提出的方法 2.43 3.64 8.04 4.86 4.72 6.68 14.90 5.99 4.97 8.75 6.50 w/o L tv 2.44 3.668.56 4.93 5.27 6.77 21.67 6.73 6.88 9.19 7.61 w/o s 2.13 4.29 11.09 6.81 5.69 8.3017.88 7.79 7.80 12.68 8.44 w/o ρs 3.13 6.48 10.58 6.93 27.23 15.19 29.65 8.27 14.1411.41 13.300图7中的第三行对应于我们提出的模型和其无阴影变体(“w/os”)产生的MAE之间的差异。负面区域,即误差图中的蓝色区域,是我们的提出的模型优于替代方法的区域。完整模型在阴影明显的区域表现更好。平滑约束的有效性:为了展示所提出的平滑约束的有效性,我们进行了不使用该损失的实验,称为“w/o Ltv”,如表3所示。通过利用这个约束,平均角度误差平均降低了1.11度。镜面建模的有效性:我们进一步测试了...162280A0B0C0D0观察图像在A B C D处0在A B C D处渲染的阴影0我们的深度 GT法线 我们的(带阴影) 我们的(不带阴影) w/vs. w/o shadow0光线方向0图7。我们选择了4个不同的光源方向。它们在第二行的光分布图像中标有红色点。第一行显示了这4个不同光源下的观察图像。第二行展示了我们在相应的照明下渲染的阴影区域的结果。第三行展示了估计的深度、地面真实法线、估计的表面法线(带有和不带有阴影因子)。在第三行最右边的图像中,我们还比较了我们估计的法线“w/ shadow”和“w/o shadow”。比较中的蓝色对应于“w/ shadow”优于“w/oshadow”的区域。0在不使用任何镜面建模的情况下,我们的模型,标记为“w/o ρs”,在表3中显示。没有使用镜面ρs时,性能明显较差。我们可以看到,使用镜面分量,我们的方法在“Cow”、“Goblet”和“Harvest”等光泽物体上有很大的改进。06. 讨论和结论0在本文中,我们提出了一种基于MLP的非Lambertian形状重建方法。我们方法的关键创新之处在于神经网络对空间变化的表面反射率和表面几何的参数化。通过利用图像渲染的物理原理,我们明确地通过神经网络处理反射和投射的阴影。尽管我们的方法是一种无监督方法,但在真实世界的数据集上,我们的方法优于现有的最先进的有监督方法。我们的方法受到NeRF[19]的启发,它使用基于坐标的MLP来模拟从3D坐标到外观的映射。相比之下,我们将图像外观分解为多个组成部分:法线、漫反射反照率、神经网络镜面基础和阴影。对这些基于物理的渲染因素的拟合0恢复物体的表面属性。此外,我们明确地参数化了漫反射、镜面反射和阴影,以确保逆渲染遵循物理上有意义和可解释的方式。我们的方法还与[13,26]相关,这些方法旨在优化基于CNN的自监督架构。我们基于MLP的框架比那些基于CNN的方法快得多。我们将发布代码和模型。0局限性和未来工作:我们对深度的估计对法线估计和表面不连续性的准确性敏感。引入更多约束以进行准确的深度估计肯定有助于识别更准确的阴影。在强互反射存在的情况下,我们的模型可能失败。寻找一种有效的模型来跟踪在表面之间反弹的次级和三级光线也是一个有趣的未来方向。0致谢:本研究部分资助来自ARC-Discovery基金(DP190102261和DP220100800),百度RAL的赠款,以及一项授予李洪东的福特联盟基金。162290参考文献0[1] Neil Alldrin,Todd Zickler和DavidKriegman。具有非参数和空间变化反射的光度立体。在2008年IEEE计算机视觉和模式识别会议上,第1-8页。IEEE,2008年。5, 60[2] Mark Boss, Raphael Braun, Varun Jampani, Jonathan TBarron, Ce Liu, and Hendrik Lensch. Nerd:从图像集合中进行神经反射分解。arXiv预印本arXiv:2012.03918,2020年。20[3] Brent Burley和Walt Disney AnimationStudios。迪士尼的基于物理的着色。在ACMSIGGRAPH,卷2012,第1-7页。卷2012,2012年。30[4] Charles-F´elix Chabert, Per Einarsson, Andrew Jones,Bruce Lamond, Wan-Chun Ma, Sebastian Sylwan, TimHawkins, and Paul Debevec.使用流动反射场重新照明人类运动。在ACM SIGGRAPH2006草图中,第76页。2006年。60[5] Manmohan Chandraker,Sameer Agarwal和DavidKriegman。Shadowcuts:带有阴影的光度立体。在2007年IEEE计算机视觉和模式识别会议上,第1-8页。IEEE,2007年。10[6] Guanying Chen,Kai Han,Boxin Shi,YasuyukiMatsushita和Kwan-Yee KennethWong。非Lambertian表面的深度光度立体。IEEE模式分析与机器智能交易,2020年。1,2,30[7] Guanying Chen,Kai Han和Kwan-Yee KWong。Ps-fcn:一种用于光度立体的灵活学习框架。在欧洲计算机视觉会议上,第3-19页。Springer,2018年。1,2,3,60[8] Aaron Hertzmann和Steven MSeitz。基于示例的光度立体:具有一般可变BRDF的形状重建。IEEE模式分析与机器智能交易,27(8):1254-1264,2005年。40[9] David Honz´atko,Engin T¨uretken,Pascal Fua和LAndreaDunbar。利用空间和光度上下文进行校准的非Lambertian光度立体。arXiv预印本arXiv:2103.12106,2021年。20[10] Zhuo Hui和Aswin CSankaranarayanan。从虚拟样本估计形状和空间变化的反射率。IEEE模式分析与机器智能交易,39(10):2060-2073,2017年。30[11] SatoshiIkehata。CNN-PS:基于CNN的一般非凸表面光度立体。在欧洲计算机视觉会议上,第3-19页。Springer,2018年。1,2,60[12] Satoshi Ikehata,David Wipf,YasuyukiMatsushita和Kiy-oharuAizawa。利用稀疏回归的鲁棒光度立体。在2012年IEEE计算机视觉和模式识别(CVPR)会议上,第318-325页。IEEE,2012年。10[13] Berk Kaya,Suryansh Kumar,Carlos Oliveira,VittorioFer-rari和Luc VanGool。用于一般表面光度立体的非校准神经反渲染。在IEEE/CVF计算机视觉和模式识别会议上,第3804-3814页,2021年。1,2,3,5,6,80[14] Diederik P Kingma和JimmyBa。Adam:一种随机优化方法。arXiv预印本arXiv:1412.6980,2014年。60[15] Junxuan Li,Antonio Robles-Kelly,ShaodiYou和Yasu-yukiMatsushita。学习最小化光度立体。在IEEE/CVF计算机视觉和模式识别会议上,第7568-7576页,2019年。1,2,60[16] Fotios Logothetis,Ignas Budvytis,RobertoMecca和RobertoCipolla。Px-net:光度立体网络的简单高效的逐像素训练。在2021年IEEE/CVF国际计算机视觉会议上,第12757-12766页。1,2,60[17] Wojciech Matusik,Hanspeter P�ster,Matt Brand和LeonardMcMillan。数据驱动的反射模型。ACM图形交易,22(3):759-769,2003年7月。3,40[18] Wojciech Matusik,Hanspeter P�ster,MatthewBrand和LeonardMcMillan。高效各向同性BRDF测量。2003年。40[19] Ben Mildenhall,Pratul P Srinivasan,MatthewTancik,Jonathan T Barron,Ravi Ramamoorthi和RenNg。Nerf:将场景表示为神经辐射场进行视图合成。在欧洲计算机视觉会议上,第405-421页。Springer,2020年。2,4,5,80[20] Yasuhiro Mukaigawa,Yasunori Ishii和TakeshiShaku-naga。基于光度线性化的光度因子分析。JOSAA,24(10):3326-3334,2007年。10[21] Yvain Qu´eau,Tao Wu,Franc¸ois Lauze,Jean-DenisDurou和DanielCremers。一种非凸变分方法用于不准确照明下的光度立体。在计算机视觉和模式识别(CVPR)会议上,第350-359页。IEEE,2017年。10[22] Szymon M Rusinkiewicz.用于高效BRDF表示的新变量变换。在Eurographics渲染技术研讨会上,第11-22页。Springer,1998年。30[23] Hiroaki Santo,Masaki Samejima,YusukeSugano,Boxin Shi和YasuyukiMatsushita。深度光度立体网络。在2017年IEEE国际计算机视觉研讨会上,第501-509页。IEEE,2017年。1,20[24] 施博鑫,莫志鹏,吴哲,段鼎龙,Sai Kit Yeung,谭平.用于非Lambertian和非标定光度立体的基准数据集和评估.IEEE模式分析与机器智能交易,2018年. 1, 60[25] Pratul P Srinivasan, Boyang Deng, Xiuming Zhang,Matthew Tancik, Ben Mildenhall, Jonathan T Barron. Nerv:用于重照和视角合成的神经反射和可见性场.在IEEE/CVF计算机视觉和模式识别会议论文集中,页码7495-7504,2021年. 20[26] 谷谷,前原隆德. 用于一般反射光度立体的神经逆向渲染.在机器学习国际会议上,页码4864-4873,2018年. 1, 2, 3, 5, 6, 80[27] Kenneth E Torrance, Ephraim M Sparrow.粗糙表面的非镜面反射理论. Josa,57(9):1105-1114,1967年. 30[28] Bruce Walter, Stephen R Marschner, Hongsong Li,Kenneth E Torrance. 用于粗糙表面折射的微平面模型.渲染技术,2007年:第18届,2007年. 3162300[29] 王曦,简振雄,任明军.基于反射率模型的非Lambertian光度立体网络与共位光.IEEE图像处理交易,29:6032-6042,2020年. 2, 60[30] Robert J Woodham. 通过多图像确定表面方向的光度方法.光学工程,19(1):191139,1980年. 1, 60[31] 吴伦,Arvind Ganesh,施博鑫,松下康之,王永田,马毅.通过低秩矩阵补全和恢复实现鲁棒的光度立体.在亚洲计算机视觉会议上,页码703-717,2010年. 10[32] 吴泰鹏,邓志强. 基于期望最大化的光度立体.IEEE模式分析与机器智能交易,32(3):546-560,2010年. 10[33] 姚卓坤,李坤,傅颖,胡浩峰,施博鑫. Gps-net:基于图的光度立体网络. 神经信息处理系统进展,33,2020年. 1, 2,60[34] 张凯,栾福军,王倩倩,Kavita Bala,Noah Snavely. Physg:基于球面高斯的逆向渲染用于基于物理的材质编辑和重照.在IEEE/CVF计算机视觉与模式识别会议论文集中,页码5453-5462,2021年. 20[35] Xiuming Zhang, Pratul P Srinivasan, Boyang Deng, PaulDebevec, William T Freeman, Jonathan T Barro
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功