没有合适的资源?快使用搜索试试~ 我知道了~
126120快速轻量级近场光度立体0Daniel Lichy 1 Soumyadip Sengupta 2 David W. Jacobs 101马里兰大学,帕克学院2华盛顿大学0dlichy@umd.edu,soumya91@cs.washington.edu,djacobs@cs.umd.edu0图1.我们提出了一种快速轻量级的解决方案,用于解决近场光度立体(PS),这对于在小封闭空间中捕捉大型物体(例如沙发)特别有用。我们使用iPhone相机和手持手电筒拍摄物体。我们的方法在推理过程中速度显著提高,并且比现有的方法S20 [31]和L20[18]产生更准确的重建结果。0摘要我们介绍了第一个端到端的基于学习的近场光度立体(PS)解决方案,其中光源靠近感兴趣的物体。这种设置对于重建大型固定物体特别有用。我们的方法快速,能够在一秒钟内在普通GPU上从52512×384分辨率的图像中生成网格,因此可能解锁多个AR/VR应用。现有的方法依赖于优化与远场PS网络耦合,该网络在像素或小块上运行。使用优化使得这些方法速度慢且内存占用高(需要17GB的GPU和27GB的CPU内存),而仅使用像素或块使其对噪声和校准误差高度敏感。为了解决这些问题,我们开发了一种递归多分辨率方案,以在每个步骤中估计整个图像的表面法线和深度图。然后,将每个尺度的预测深度图用于估计下一个尺度的“每像素照明”。这种设计使我们的方法几乎快45倍,精度提高2°。0与使用迭代优化的最先进的近场PS重建技术相比,我们的方法更准确(11.3°对13.3°的平均角度误差)。1.引言在这项工作中,我们介绍了一种快速轻量级的近场照明光度立体(PS)技术。光度立体旨在通过使用静态相机和不同的光源拍摄的图像序列来重建物体的几何形状。现有的近场PS方法速度慢且内存占用极高。快速和轻量级的特点使用户能够在几秒钟内在笔记本电脑上捕捉图像并处理它们,从而允许多次重拍。0如有需要,这种轻量级重建技术对于多个AR/VR应用非常有用。虽然我们的方法主要用于校准照明,与现有的远场方法一致,但我们还展示了如何通过引入校准网络将我们的方法扩展到非校准的真实世界捕捉。0近场PS通常比远场或远距离照明的PS更受欢迎,无论是从实际还是理论上来说都是如此。它非常适用于捕捉大型物体,例如家具或人类,特别是在像房间这样的封闭空间中[3,16,25]。这是因为远场PS方法假设照明是远距离的,例如[33,34]建议的物体尺寸的10倍,这使得它在许多室内空间中不适用于3D成像。此外,手持设备上的低强度LED灯(例如手机上的闪光灯)可能无法从远距离照亮物体[28]。从理论上讲,在未校准照明的情况下,近场PS与远场PS相比没有线性模糊,而远场PS存在着众所周知的广义浮雕模糊[4],如[25]所示。0通过放弃传统的优化而采用递归多尺度算法,我们使我们的方法快速而准确。我们提出的方法由两个递归网络组成,一个用于预测表面法线,另一个用于深度图。在递归的每一步中,我们将输入图像的分辨率增加2倍。我们首先通过上采样前一步的预测深度图来分析估计图像中每个像素的相对照明方向和衰减因子(称为“每像素照明”),然后根据输入图像,“每像素照明”和估计的深度图推断该尺度的表面法线。• We build on [17], developed for far-field PS, by incor-porating ‘per-pixel lighting’, adding recursive depth pre-diction from normal, and allowing the flexibility to useunstructured lighting.126130前一尺度的预测法线图。最后,根据估计的法线图和前一尺度的深度图来预测深度图。这种递归的步骤数量由输入图像的分辨率决定,使得推断过程非常快速,只需要几次前向传递。我们还通过使用递归深度网络来估计从法线到深度图的深度图,而不是通过解决泊松方程[13,30]来解决法线积分,从而提高了推断速度。递归允许在所有尺度上使用一个网络,从而大大减少了内存占用。这种方法对噪声和光照校准误差的鲁棒性也比现有的基于每像素的方法[18,31]更强,因为递归导致了网络的更大感受野。我们的方法建立在现有的近场和远场光度立体技术的基础上,通过调整可以最大程度地提高性能、推断速度和内存需求的思想。我们的递归方法受到[17]的启发,该方法使用一个单一的网络来预测每个尺度的法线,该网络以图像和前一尺度的估计法线为条件。将[17]中提出的递归思想从远场远距离光照适应到近场是非常困难的,因为像素级的光照方向事先是未知的。我们的消融研究表明,将[17]简单地扩展到近场光度立体而不根据深度来改进光照方向的方法比我们提出的方法差得多(3.5°)。使用深度图来预测“每像素光照”的想法受到[18,25,31]的启发。然而,这些方法使用迭代优化来处理像素或块,导致内存使用量大、推断速度慢,并且对噪声和光照校准误差非常敏感。我们首先在具有校准光照的LUCES数据集[21]上定量评估了我们的方法,并显示出我们的方法在表面法线预测方面比最先进的近场光度立体方法L20[18]和另一种先前方法S20 [31]更准确(11.3° vs.13.3°的平均角度误差)。在计算效率方面,我们的方法对于1024×786分辨率需要4GB的CPU内存和12GB的GPU内存,而L20[18]需要27GB的CPU内存和17GB的GPU内存;而S20[31]无法扩展到这个分辨率。我们的推断速度为1.3秒,而L20 [18]为59.5秒,S20[31]为2435秒,这是在相同的硬件上测试的52个512×384分辨率图像。对于许多实际应用,例如在家中快速重建3D模型,校准光照是不切实际的。在没有校准光照的情况下,我们还引入了一个额外的光照校准网络。我们首先展示了在具有未校准光照的LUCES数据集上,我们的方法比现有方法更具鲁棒性,产生了14.11°的平均角度误差(MAE),而L20和S20的平均角度误差分别为18.85°和16.03°。最后,我们使用普通手电筒捕捉了一些具有近场光照的真实世界物体,并且在使用相同的校准网络后,我们的重建网格在质量上比现有方法S20 [31]和L20[18]更准确,详见图1和图4。总之,我们的贡献如下:0•我们在[17]的基础上进行了改进,该方法是针对远场光度立体开发的,通过加入“每像素光照”,添加了从法线到深度的递归预测,并允许使用非结构化光照。0•一种最先进的、快速、轻量级的近场光度立体方法,推断速度比现有方法快45倍,并且内存需求显著降低。0•我们还引入了一个校准网络,以便使用iPhone相机和手持手电筒在野外进行未校准的拍摄。2.先前的研究对光度立体(PhotometricStereo,PS)进行了研究,该方法在[33]中介绍,可以从多个维度进行划分:漫反射材料与镜面材料,校准光照与未校准光照,远场光照与近场光照。在本研究中,我们专注于近场光度立体,包括已知和未知光照条件。远场光度立体。我们简要提及一些与本研究特别相关的最近的远场光度立体研究。更全面的调查请参见[2,9]。我们的工作受到[17]的启发,该研究引入了一个递归神经网络,根据每个尺度的输入图像和前一尺度的预测法线图来预测每个尺度的表面法线。作者表明,使用递归架构可以通过捕捉通常在每像素技术[14]和基于块的技术[6]中缺失的全局上下文来显著提高性能。近场光度立体。近场光度立体的解决方案可以大致分为两种方法。第一种方法依赖于三步迭代细化[3,5,8,18,24,25,28],从一个初始形状(例如平面)开始,直到收敛:(1)基于当前形状计算每个点的光照方向和强度;(2)使用这些光照估计值预测表面法线;(3)积分法线以更新形状。Logothetis等人[18]在步骤(2)中使用了一个基于每像素远场深度神经网络,而其他这些方法纯粹是基于优化的。相比之下,我们使用两个深度递归神经网络来进行步骤(2)和(3)的训练,这些网络在近场光照下对整个图像进行训练。直接优化方法依赖于反演图像形成过程,通常通过解决一组偏微分方程[22,23,27-29]来实现。有关这些方法的详细讨论,请参见[29]。在[34]中,作者使用了一种局部-全局网格变形方案来优化重构图像的网格。Santo等人[31]也优化了重构损失。然而,在前向传递的过程中,他们使用远场深度神经网络将观察结果分解为反射和法线。Rnumber of resolutionsr0, ..., rR−1sequence of resolutions r0=64,ri+1 = 2ri, rR−1 input image reso-lutionIjijth image at resolution riNinormal at resolution riDidepth at resolution riAji, Ljiper-pixel light attenuation and direc-tion at resolution ri for image jpj, dj, µjlight parameters of jth imageUp(I)upsample I by a factor of 2ones(r × r)r × r array of onesTable 1. Summary of major notations used throughout the text.Light Calibration. Research on uncalibrated PS eitherseparately estimates lighting or alternately solves for lightand shape simultaneously using a variational approach [10].For the former, the lighting estimation can be physicallyperformed by inserting additional objects [11, 16] in thescene or by using a deep network for prediction [6, 7, 15].While the these methods have been introduced for far-fieldPS, we propose a calibration network for near-field PS.Normal Integration. Normal integration techniques es-timate a depth map that is consistent with a normal map. Fora detailed discussion see [30]. Ho et al. [12] uses the sim-ilarity between normal integration and shape from shading(SfS) to develop a normal integration technique. Similarly,we also introduce a deep network for faster and stable nor-mal integration during training based on SfS.3. BackgroundIn this section, we describe our image formation modelfor near-field Photometric Stereo (PS). Given M imagesof an object (I1, ..., IM) captured under different knownanisotropic point light sources from a fixed viewpoint, weestimate the surface normal and the depth map. Addition-ally, we assume the camera has known intrinsic parameters,and the mean distance to the object is known (WLOG as-sume mean distance is 1. See supplement for details). Thisis the same setup as [18, 31]. In Sec. 4.4, we show how toremove the restriction on known lights and mean distance.Camera Model We use the standard pinhole cameramodel centered at the origin in world coordinates and look-ing down the z-axis. The camera is specified by a 3×3 in-trinics matrix K. Any world point X = (x, y, z), projectsonto a pixel (u, v) by the formula:(u, v, 1)T ∼ K(x, y, z)T .(1)Geometry Model We only consider reconstructing thevisible region of an object. Therefore the object is com-pletely described by a normal and depth map. Concretely,X(u, v) ∈ R3 describes a point on the object appearingin pixel (u, v).Then we can define the depth map byD(u, v) = X(u, v)3, where the subscript 3 refers to the 3rdi.e. z component of X(u, v). We can also recover X(u, v)from the depth map D(u, v) following eqn. 2:X(u, v) = D(u, v)K−1(u, v, 1)T(2)If n(X) is the normal at the point X then the normalmap is defined by N(u, v) = n(X(u, v)). Since X(u, v) isa parametrization, we can also calculate the normal map as:N =( ∂X∂u × ∂X∂v )∥( ∂X∂u × ∂X∂v )∥.(3)Light Model We assume each image Ij is illuminatedby an anisotropic point light source. We describe this lightby a position pj ∈ R3, a direction dj ∈ S2, and an angularattenuation coefficient µj ∈ R. We assume all lights haveunit intensity. If that is not the case, we divide the image bythe intensity of the light sources.We can then describe the direction of the light arriving ata point X on the surface of the object by:Lj(X) = (X − pj)∥X − pj∥,(4)and the attenuation of the light at the same point by:Aj(X) = (Lj · dj)µj||X − pj||2 .(5)126140因此,给定深度图D(u, v),任意像素(u,v)的光照可以用方向项Lj(X(u, v))和强度衰减项Aj(X(u,v))来描述(其中X用方程2用深度D表示)。为了简洁起见,我们将每个像素的这些光照因子称为“每像素光照”。可接受的光照配置可能的各向异性点光源的配置非常庞大,需要3+2+1个参数来描述。为了解决这个问题,我们将自己限制在相机周围的圆柱体内的光源位置,并且方向大致指向物体。我们将这个区域称为“可接受光照区域”。它涵盖了大多数现有数据集(例如[21,31])和我们捕获的非校准数据中使用的光源位置。有关可接受光照区域的详细规范,请参见补充材料。反射模型我们将反射建模为依赖于光照方向ωl、视角方向ωv和表面位置X的一般空间变化的BRDF。将其表示为B(ωl, ωv,X)。渲染方程现在,给定深度图D、法线N、相机内参K和光参数pj、dj、µj,我们可以将第j个图像的渲染方程写为关于(u, v)的函数:0Ij(u, v) = Aj(X)B(ωv, Lj(X))(N(u, v) ∙ Lj(X)) + η(u, v)(6)其中η表示间接光照效果,如阴影和互反射。注意,ωv =−X/ ∥X∥,因为相机位于原点。1: PPLight(K, D, µ, p, d)2: X[u, v] = D[u, v]K−1(u, v, 1)T[u,v]−p||21261504.我们的方法我们的目标是预测法线图N和深度图D,给定一组图像I1,...,IM。我们提出了一种递归解决这个问题的方法。我们引入了两个递归网络,一个用于预测法线GRN(∙;θRN),另一个用于给定法线预测深度GRD(∙;θRD)。在递归的每一步中,我们将图像分辨率增加两倍,并使用这两个网络来预测深度图和法线图。为了进行稳健准确的法线估计,我们计算“每像素光照”(Lj0并将其作为法线估计网络的输入,我们在第5.4节进行了消融研究。Lichy等人[17]引入了一种类似的递归法线估计网络RecNet,用于远场PS。他们表明,递归网络具有较大的感受野,并通过改进先前尺度的预测来产生高质量的重建。我们也发现这个想法适用于产生快速和轻量级的推理。因此,我们开发了自己的递归重建近场PS的版本,我们在第4.1节中描述。网络架构、训练数据和损失函数的详细描述见第4.2节。我们的方法与[17]的主要区别是:0• 我们创建了用于训练的合成数据,模拟了可接受区域内的近场捕获和光照。0•我们计算每个像素的光照,并将其作为递归法线估计网络的额外输入,通过消融研究(第5.4节)显示性能提高了3.5°。0•我们引入了递归法线到深度积分网络,在训练过程中快速且稳健。然后使用预测的深度图计算下一尺度的每像素光照。0•与RecNet不同,我们的方法对光照顺序是置换不变的,并且可以在可接受的范围内使用任意光照。4.1.递归重建我们首先使用输入分辨率r0 = 64 ×64来初始化递归。•我们首先通过假设深度图是深度为1的平面来计算每个像素的光照参数Lj0(X)和Aj0(见第3节和补充材料)。这个计算是根据算法1进行的。0•然后我们使用初始法线估计网络GIN(∙;θIN),它接收输入图像和每个像素的光照参数来预测法线图N0:0N0 = GIN({Ij0, Lj0, Aj0}Mj=1); θIN) (7)0•最后,我们引入另一个初始化网络来根据法线预测深度:D0 = GID(N0;θID)递归网络通过逐步增加输入图像的分辨率2倍的方式进行,直到达到输入图像的分辨率。递归网络的步骤在下面解释:•然后使用递归法线预测网络GRN(∙;θRN),给定输入图像和每个像素的光照以及前一尺度的深度图Di−1和法线图Ni−1,预测法线图Ni:0原理类似于初始化网络,只是法线和深度估计网络GIN和GID不使用任何递归,而是以前馈方式在低分辨率下进行预测。递归的步骤如下所示:•对于分辨率为ri×ri的每个步骤i,我们首先使用上采样2倍的前一尺度Di−1计算每个像素的光照(算法1)。0•最后,我们使用另一个递归网络GRD(∙;θRD)根据法线图Ni和前一尺度的深度图Di−1来预测深度图Di:Di = GRD(Ni, Di−1;θRD)我们的递归过程的前向传播也在算法2中总结。0Ni = GRN({Iji, Lji, Aji}Mj=1, Ni−1, Di−1; θRN) (8)01: PPLight(K, D, µ, p, d) 2: X[u, v] = D[u, v]K−1(u, v, 1)T0算法1 根据深度D计算每个像素的光照。03: L[u, v] = normalize(X[u, v] − p)05: 返回A, L0算法2 我们方法的前向传播:见表1中符号的定义。01: Lj0, Aj0 = PPLight(K, ones(r0 × r0), µj, pj, dj)02: N0 = GIN({(Ij0, Lj0, Aj0)}Mj=1; θIN)03: D0 = GID(N0; θID) 4: 对于i =1到R-1,执行以下操作:5: Lji, Aji = PPLight(K,06: Ni = GRN({(Iji, Lji, Aji)}Mj=1, Ni−1; θRN)0D(Ni, Di−1; θRD)08: 结束循环04.2. 实现细节网络架构。我们的方法由四个神经网络组成,两个用于初始化,两个用于递归,初始化和递归具有相似的架构。法线估计网络由一个共享的编码器组成,它接收每个图像Iji与其每个像素的光照映射Aji和Lji连接在一起,并返回一个尺寸为128的特征Fji,分辨率为输入分辨率的1/4。在递归步骤中,使用上一步的法线通过双线性上采样2倍作为额外输入。然后,我们对所有输入图像的特征Fji进行最大池化操作,产生一个组合特征,传递给解码器生成法线图。non-trivial task. Solving normal integration requires globalinformation (details in supplement), but convolutional net-works have limited receptive fields, and therefore cannottake global information into account for large enough im-ages.RecNet, a recursive architecture introduced in [17], cre-ates a convolutional network with potentially infinite recep-tive field. We found a straight forward application of Rec-Net fails for normal integration. We believe this has to dowith the relation between normals and depth. To understandthis, we look at the opposite problem i.e. we want to traina network to predict normals from depth. To keep thingssimple let’s consider the orthographic case in 1D, where es-timating the normal is the same as estimating the derivative.We consider an image as discrete samples of a functionon domain [0, 1]. Let 0 = x1, ..., xr = 1 be the samplepoints and let h = 1/r be the distance between them, wherer is the image resolution. Let u be the depth and ui =u(xi). Let u′ be the derivative of u and [u′]i = u(xi). Let{ui} indicate the sequence of all the elements ui.Suppose we train a fully convolutional network to pre-dict normal {[u′]i} from depth {ui} at a resolution r. Itwill learn something similar to a finite difference and re-turn { ui+1−ui−1h}. Now if we test the network on an image{vi} that has a higher resolution say e.g. 2r. Then the net-work will predictvi+1−vi−1 , but this is not the desired126160深度预测网络接收由法线预测网络估计的法线(在递归情况下,编码器接收上一步的深度通过双线性上采样2倍)并生成深度图。它还进行一些预处理以纠正透视相机。具体来说,它应用了一个变换(例如,参见[30]或补充材料),使得在透视情况下法线积分等于求解�u = (p,q),其中u是深度的对数,p,q由法线图和相机内参确定。在体系结构上,它是一个编码器-解码器ResNet体系结构,类似于[17]。详细信息可以在第4.3节和补充材料中找到。损失函数。我们使用三个损失函数来训练我们的网络。我们使用深度损失Ldepth和法线损失Lnormal来产生准确的重建。我们还使用一种损失来确保从预测的深度图中导出的法线与从地面实况深度图中导出的法线一致。这种损失对于产生平滑的深度图是必要的。我们将这种损失称为Lnfd,nfd是“normal from depth”的缩写。这些损失定义为:Ldepth =�R−1i=0 ||Di − ¯Di||1,(9)0L normal = � R − 1 i =0 || Ni - ¯Ni || 1,(10)0L nfd = � R − 1 i =0 || nfd(Di) - nfd(¯Di) || 1,(11)0在这里,我们使用在字母上方加一条线来表示地面真实(GT)测量。nfd是一个函数,它接受深度图并产生法线图。这是使用方程2和3实现的。在方程3中,我们使用中心有限差分来近似导数。训练细节。我们的网络完全使用合成数据进行训练。首先,我们使用来自雕像数据集[32]的14个对象和来自[1]的免费可用反射率图生成深度、法线、空间变化的反射率和Cook-Torrance粗糙度图。这些图像以512×512的分辨率渲染。在训练时,对于每个法线、深度、反射率和粗糙度,从可接受区域3中均匀随机采样10个光源。以50%的概率,我们用MERL数据集[20]中的一个替换对象的材质。然后,我们使用方程6渲染这10个图像。为了增强,我们随机将补丁置零,并对每个像素添加随机噪声以模拟方程6中的间接光照项η。图像还随机裁剪以模拟多样化的相机内参集合。有关数据生成和增强的更多细节,请参见补充材料。我们使用学习率为0.0001的Adam优化器对网络进行端到端的训练,共进行了22个时期。训练在4个Nvidia P6000GPU上耗时约2天。4.3.法线整合网络我们发现现有的法线整合算法在神经网络训练过程中速度太慢。此外,它们在我们具有挑战性的合成数据上失败,因为存在较大的不连续性。我们的解决方案是用一个网络替换经典的法线整合程序,但这是一个0h/2},这是因为网络不知道分辨率已经改变。在这种情况下,有一个简单的解决方案:从与分辨率无关的{[u'']i ∙h}而不是{[u'']i}预测{ui}。这表明当我们解决逆问题时,我们应该尝试学习一个函数G,它接受{[u'']i ∙ h}并预测{ui}:{ui}= G({[u'']i ∙h})。这对于完全卷积网络是不可能的,因为它需要全局信息。然而,如果我们已经知道{ui}的低分辨率估计,称为{wj},那么我们可以学习一个函数:0{ui} = G({[u'']i ∙ h}, {wj}), (12)0即我们通过法线和低分辨率深度估计来预测深度。我们认为这对于完全卷积网络是可能的。通过递归地应用方程12,我们可以逐步重建完整分辨率的深度图。这是我们深度预测网络的核心思想。有关这个论证和深度预测网络的更多信息,请参见补充材料。4.4.光照校准在野外设置校准光照非常具有挑战性。最近的研究表明,在远场情况下,可以通过神经网络实现光照校准[6,15]。我们不知道任何基于学习的近场光照校准方法。由于在近场情况下,可能的光照配置更加自由,因此我们进行了一些额外的126170对光照进行简化假设:(1)所有图像中的光强度相同。(2)光源可以用各向同性点光源模型来建模,即µ=0且d无关紧要。(3)光源位于可接受区域内。我们发现这些假设足以从野外使用手持手电筒进行捕捉中估计光照。我们使用与[6]基本相同的架构来估计光源位置。该网络使用共享的特征提取器从每个图像Ij中提取特征Fj。然后它创建一个上下文c= max jFj。最后,第二个网络应用于特征Fj和上下文c,以产生图像Ij的光源位置估计pj。为了处理透视相机,所有输入图像都被裁剪或填充为具有相同内参的大小。05. 实验评估我们在LUCES数据集[ 21]上定量评估我们的方法(第5.1节),并在我们使用手持手电筒和iPhone捕获的数据集上进行定性评估(第5.3节)。我们主要将我们的结果与两种最先进的近场光度立体(PS)算法S20 [ 31 ]和L20 [ 18]进行比较。在未校准捕获的情况下,我们使用第4.4节中描述的校准网络对S20和L20进行校准,这两种方法仅适用于校准照明条件。05.1. LUCES [ 21 ]上的定量评估LUCES数据集包含14个物体,每个物体在52个校准的近场照明条件下进行了HDR捕获。我们使用平均角误差(MAE)和平均深度误差(MZE)指标进行评估。校准。在表2中,我们展示了我们的方法的MAE和MZE,并将其与LUCES [21]中的现有工作进行了比较。该表格包括两种纯优化的近场方法L17 [ 19 ]和Q17 [ 29],两种使用深度学习和优化的混合近场方法S20 [ 31]和L20 [ 18 ],以及远场深度方法I18 [ 14]的结果。所有方法都在2048×1536的分辨率下进行评估,只有S20由于其GPU内存需求而在512×384下进行评估[ 21]。表2显示我们的方法在MAE方面优于所有现有方法,尤其是最先进的方法L20(MAE 13.33° vs.11.32°)。使用我们的积分网络,我们在MZE方面排名第二,L20比我们优秀1.26mm。我们发现我们的法线积分网络在不连续性处会产生跳跃(详见补充材料),这会增加我们的MZE。我们尝试通过将我们的法线图预测作为后处理步骤进行积分来解决这个问题。我们使用了[ 26]的优化方法,这也是L20用于此步骤的方法。经过这个后处理步骤,我们的MZE降至2.93mm,我们的方法成为最佳表现者。我们在表2中将我们的方法标记为MZE+int。尝试在训练过程中用传统的积分算法替换我们的法线积分网络是很诱人的,但我们发现这些算法0Figure 2. 我们将我们的方法与S20 [ 31 ]和L20 [ 18]在LUCES [ 21]的样本对象上的预测法线图和误差图与GT进行比较。我们的合成训练数据中存在数据不连续性的问题。此外,这些方法在网络训练过程中非常缓慢。表2还报告了通过将地面真实深度图与有限差分(Diff-MAE)相减得到的MAE以及通过将地面真实法线与[ 26](Int-MZE)相结合得到的深度误差。这些误差是由图像的离散性质和物体的不连续性引起的,详见[ 21]进行详细讨论。我们在图2中展示了每种方法的法线预测结果和误差图。深度误差的可视化结果在补充材料中。未校准。在表3中,我们将我们的方法与L20和S20进行比较,其中地面真实照明校准被我们的校准网络的结果所替代。由于我们的校准网络只处理等强度光的情况,我们通过缩放每个图像的地面真实强度来进行处理。此外,假设光源是各向同性点光源。L17- [19]MAE28.259.7711.520.1511.9515.4229.6930.7613.7710.5613.0515.9312.515.117.03MZE4.450.814.677.514.583.196.992.673.646.561.891.824.373.254.02Q18- [29]MAE25.812.1214.0713.7313.7718.5130.6337.6314.7415.6613.1614.0611.1916.1217.94MZE12.032.59.287.065.916.88.024.835.8316.876.922.556.486.697.27S20- [31]MAE9.525.4219.1712.55.2323.1228.0214.2213.089.2716.6214.0712.4417.4215.72in mm).MAEMZE126180方法误差 Bell Ball Buddha Bunny Die Hippo House Cup Owl Jar Queen Squirrel Bowl Tool 平均0MZE 1.9 5.5 5.53 6.02 2.76 7.04 6.15 1.62 3.75 6.09 3.91 2.81 5.22 4.68 4.50L20- [18] MAE 14.74 12.43 10.73 8.15 6.55 7.75 30.03 23.35 12.39 8.6 10.96 15.12 8.78 17.05 13.330MZE 1.53 0.67 3.27 2.49 4.44 1.82 9.14 2.04 3.44 3.86 1.94 1.01 2.80 5.90 3.170I18- [14] MAE 23.55 44.29 35.29 36 41.52 44.9 49.05 35.78 40.27 40.66 32.89 41.09 28.04 31.71 37.50MZE 5.93 6.59 10.92 6.88 7.83 7.59 8.98 3.17 8.67 15.54 8.08 5.8 6.69 12.45 8.220我们的 MAE 6.20 8.55 12.69 8.63 5.16 8.01 29.00 17.28 12.32 5.32 12.90 13.00 7.07 12.33 11.320MZE 2.28 1.83 16.60 2.73 2.76 3.52 7.39 2.00 3.08 6.58 3.09 3.94 3.78 2.48 4.430MZE int 1.71 1.26 3.93 2.16 2.16 3.44 7.07 1.82 2.85 3.99 2.90 1.88 3.61 2.27 2.930GT Diff-MAE 2.5 2.69 2.69 2.93 2.49 3.2 9.19 2.85 4.3 1.79 4.22 3.26 2.27 2.34 3.340Int
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功