没有合适的资源?快使用搜索试试~ 我知道了~
自校准深度光度立体网络
1自校准深度光度立体网络陈冠英1韩凯2石博信3,4松下康之5关义K。王11香港大学2牛津大学3北京大学4鹏程实验室5大坂大学摘要提出了一种基于深度学习的非朗伯场景的无标定光度立体方法不同于以往的方法,严重依赖于特定的反射率和光源分布的拟合,我们的方法是能够确定的形状和光的方向与未知的任意反射率下观察到的未知变化的光的方向的场景。为了实现这一目标,我们提出了一个两阶段的深度学习架构,称为SDPS-Net,它可以有效地利用中间监督,从而与单阶段模型相比降低了学习难度。在合成和真实数据集上的实验表明,我们提出的方法显着优于以前的未校准的光度立体方法。1. 介绍光度立体旨在从不同光方向下捕获的一组图像中恢复静态对象的表面法线[34,29]。校准的光度立体方法假设已知的光方向,并且已经报道了有希望的结果[28],代价是繁琐的光源校准。光的方向是未知的,未校准的摄影测量立体声的问题仍然是一个公开的挑战,其稳定的解决方案是希望,因为易于设置。在这项工作中,我们研究了一般的和未知的各向同性反射率的表面的未标定的光度立体的大多数用于未校准的摄影测量立体的现有方法[2,27,23]假设简化的反射率模型,例如朗伯模型,并且专注于解决形状光模糊性,例如广义浅浮雕(GBR)模糊性[3]。虽然[19,20]的方法可以处理具有一般双向反射分布函数(BRDF)的表面,但它们依赖于光方向的均匀分布来导出解决方案。最近,随着深度学习在各种计算机视觉任务中的巨大成功,已经引入了基于深度学习的方法来校准光度立体[25,31、15、5]。而不是明确地建模复杂的表面反射,他们直接学习从反射观测到表面法线给定的光线方向的映射。虽然他们在校准设置中获得了有希望的结果,但他们无法处理更具挑战性的未校准光度立体问题,其中光方向是未知的。利用深度学习处理未经校准的光度立体的一个简单策略然而,如[5]中所报道的,这种模型的性能远远落后于将图像和光方向作为输入的模型。在本文中,我们提出了一个两阶段的模型称为自校准深度光度立体网络(SDPS-Net)来解决这个问题。SDPS-Net的第一阶段,称为照明校准网络(LCNet),将任意数量的图像作为输入,并估计其相应的光方向和强度。SDPS-Net的第二阶段,表示为法线估计网络(NENet),基于LCNet估计的光照条件和输入图像来估计场景的表面法线图。我们的两阶段模型设计背后的基本原理如下。首先,照明信息对于法线估计是非常重要的,因为照明是各种线索的来源,例如阴影和反射率,并且估计光方向(3矢量)和强度(标量)原则上比直接估计法线图(每个像素位置处的3矢量)以及照明条件容易得多。其次,通过明确学习估计光的方向和强度,该模型可以利用中间监督的优势,从而产生更可解释的行为。最后,所提出的LCNet可以与现有的校准光度立体方法无缝集成,这使它们能够处理未知的照明条件。我们的代码和模型可以在https://guanyingc.github.io/SDPS-Net网站。2. 相关工作在本节中,我们将回顾基于学习的光度立体和未校准的光度立体方法。我们还简要回顾了与学习相关的工作87398740基于照明估计。读者可以参考[28],了解使用非学习方法对具有朗伯表面和一般BRDF的校准光度立体的全面调查。基于光度立体的学习最近, 一 已经将一些基于深度学习的方法引入校准的光度立体[25,31,15,5]。Santo等人[25]提出了一种完全连接的网络,以像素方式从在预定义的一组光方向下捕获的反射率观测到表面法线来学习映射。Taniai和Maehara [31]介绍了一种非监督学习框架,可以预测物体的表面他们的模型在测试时针对每个测试对象进行Ikehata [15]介绍了一种固定形状的表示,称为观察图,它对图像的数量和排列是不变的。对于物体的每个表面点,其所有观测都基于给定的光线方向合并到观测图中,然后将观测图馈送到卷积神经网络(CNN)以回归法向量。Chen等人[5]提出了一种全卷积网络(FCN)来从输入图像-照明对中推断法线映射,并采用与顺序无关的最大池化操作来处理任意数量的输入。所有上述方法假设已知的照明条件,并且不能处理未校准的光度立体,其中光方向和强度不是先验已知的。当照明未知时,朗伯物体的表面法线只能估计到3×3线性模糊度[12],使用表面可积性约束可以将其减少到3参数GBR模糊度[3,36]预-先前的工作使用了额外的线索,例如,多个先验[2,27]、内部反射[4]、镜面尖峰[7]、Torrance和Sparrow反射模型[11]、反射对称[30,35]、多视图图像[9]和局部漫射最大值[23],以重新解决GBR模糊性。Cho等人[6]考虑了半校准的情况,其中光的方向是已知的,但其强度不是已知的。很少有作品能在未知的光照下处理非朗伯曲面。Hertzmann和Seitz [13]提出了一种基于范例的方法,通过向场景中插入额外的参考对象还介绍了基于辐射变化相似性[26,19]和附加阴影[22]等线索的方法,但它们要求光源均匀分布在整个球体上。最近,Luet al. [18]介绍了一种基于“约束半矢量对称”的方法与这些传统方法不同的是,我们的方法可以处理具有一般和未知各向同性反射率的表面,而不需要利用任何额外的线索或参考对象,在测试时解决复杂的优化问题,或者对光源分布做出假设。与我们最相关的工作是在[5]中介绍的UPS-FCNUPS-FCN是一个单阶段模型,它直接从由已知光强度归一化的图像中回归表面法线。其性能远远落后于校准方法。相比之下,我们的方法在两个阶段解决了我们首先解决了一个更容易的问题,估计光的方向和强度,然后估计,使用估计的光照和输入图像的表面法线最近,基于学习的单图像光照估计方法受到了相当大的关注。Gardner等人[10]介绍了用于从室内场景图像估计HDR环境照明的CNN。Hold-Goeffroy等[14]使用基于物理的天空模型学习户外照明。Weber等人[32]根据具有已知形状的物体的图像估计室内环境照明。Zhou等[37]通过假设Lambertian反射模型,从人脸图像以球谐函数的形式估计照明与上述方法不同的是,我们的方法可以从具有一般形状和非朗伯表面的静态物体的多幅图像中估计精确的方向照明。3. 图像形成模型按照传统的做法,我们假设一个orthographic相机与线性辐射响应,白色定向照明来自上半球,和观看方向指向观众。在本文的其余部分中,我们将光的方向和强度称为“照明”。考虑一个非朗伯曲面,其外观由一般各向同性BRDF描述ρ.给定法线为n∈R3的表面点被方向为lj∈R3且强度为ej∈R的第j个入射光照射,图像形成模型可以表示为mj=ejp(n,lj)max(n<$lj,0)+mj,(1)其中,m表示测量的强度,max(:,0)表示附加阴影,而max(:,0)表示全局照明效果(投射阴影和内部反射)和噪声。基于该模型,给定p个表面点在q个不同入射光下的观测,未校准的光度立体的目标是仅给定测量的强度来估计这些p个在这项工作中,我们使用两个阶段的方法来解决这个问题。特别地,我们首先从测量的强度估计光照,然后使用估计的光照和测量的强度求解表面法线8741NC!“l“C1281286433...输入$64128最大池化全局特征......64128128256Max256128128池化128128 256 25625625664256LnCC!nNPθφzzD局部特征Conv+LReLU Conv(stride-2)+LReLU全连接解卷积L2-范数C Concat N标准化输入1(a) 照明校准网络(b)正常估计网络图1. SDPS-Net的网络结构由(a)照明校准网络和(b)正常估计网络组成。所有卷积层的核大小都是3×3,层上方的值表示特征通道的数量4. 学习未校准的光度立体yy在本节中,我们将介绍我们的两阶段框架,称为SDPS-Net,用于未校准的光度立体(见图2)。①的人。SDPS-Net的第一阶段,表示为Light-ing校准网络(LCNet,图1(a)),取一个ar-xx输入任意数量的图像,并估计它们对应的光方向和强度。SDPS-Net的第二阶段,表示为正态估计网络(NENet,Fig.1(b)),基于由LCNet估计的光照和输入图像来估计对象的准确法线图。4.1. 照明校准网络为了从图像估计照明,直观的方法将是直接回归光方向矢量和强度值。然而,我们建议,公式化的照明估计作为一个分类问题是一个更好的选择,我们的实验将验证。我们的论点如下。首先,将光方向分类到一定范围内比回归精确值更容易,这将降低学习难度。其次,将离散光方向作为输入可以允许NENet更好地容忍估计光方向中的小误差。照明空间的离散化由于我们将我们的照明估计作为分类问题,因此我们需要将连续照明空间离散化。请注意,上半球的光线方向可以用它的方位角φ∈[0°,180°]和仰角θ∈[−90°,90°]来描述(见图2(a))。我们可以通过将方位角和仰角均分为Kd来箱,导致K2类(见图2)。第2段(b)分段)。解决一个K2-(a)(b)第(1)款图2. (a)坐标系的图示(z轴是观察方向)。φ∈[0<$,180<$]和θ∈[−90<$,90<$]分别是光方向的方位角和仰角。(b)例如,当Kd=18时,光方向空间的离散化。因为softmax概率向量将具有非常高的维数(即使当Kd不大时)(例如,当Kd=36时,K2= 1,296)。相反,我们分别估计光方向的方位角和仰角,导致两个Kd类分类问题。类似地,我们将可能的光强度范围均匀地划分为Ke类(例如,对于可能的光强度范围[0. 二,二。0])。局部-全局特征融合估计每个图像的照明的一种简单方法是简单地将单个图像作为输入,使用CNN将其编码到特征图中,并将特征图馈送到照明预测层。这样一个简单的解决办法的结果远不能令人满意,这是不足为奇的请注意,物体的外观由其表面几何形状、反射模型和照明决定从单次观察中提取的特征图显然不能提供足够的信息来解决形状-光模糊性。由于光度立体的性质,其中多个观测-D d类分类问题是计算效率不高,考虑到一个对象的情况下,我们提出了一个局部-全局8742我特征融合策略,从多个观测中提取更全面的具体来说,我们将每个图像单独输入到共享权重特征提取器中以提取特征图,我们称之为局部特征,因为它只提供来自单个观察的信息。输入图像的所有局部特征然后被聚合成全局特征,最大池化操作,其已被证明在从不同数量的无序输入中聚合显著特征时是有效和鲁棒的[33,5]。如此全球性的盛会-PS-FCN的缺点是PS-FCN需要准确的照明作为输入,而NENet是用LCNet估计的离散照明训练的,并且在照明中的噪声上显示出更鲁棒的行为。NENet首先使用LCNet预测的光强度对输入图像进行归一化,然后将LCNet预测的光方向与图像连接起来,以形成共享权重特征提取器的输入。给定大小为h×w的图像,NENet的损失函数为期望真实传达物体的隐式表面几何形状和反射信息,这有助于解决照明估计中的模糊性。每一个地方特色都是L正常=1小时,HW我Σ1−nni、(3)与全局特征链接,并馈送到共享权重其中,n,i和 表示预测的正常值,照明估计子网络来预测照明,每个单独的图像。通过同时考虑局部和全局特征,我们的模型可以产生比单独使用局部特征更可靠的结果。我们经验地发现,另外包括对象掩模作为输入可以有效地提高照明估计的性能,如将在实验部分中看到的。网络架构LCNet是多输入多输出(MIMO)网络,其由共享权重特征提取器、聚合层(即,最大池化层)和共享权重照明估计子网络(参见图1(a))。它将物体的观测值与物体掩模一起作为输入,并分别以维度Kd(方位角)、Kd(仰角)和Ke(强度)的softmax概率向量的形式输出光的方向和强度我们通过简单地取具有最高概率1的范围的中间值,将LCNet的输出转换为3矢量光方向和标量强度值。损失函数采用多类交叉熵损失用于光方向和强度估计,并且总损失函数为L光=λlaLla+λleLle+λeLe,(2)其中Lla和Lle是光方向的方位角和仰角的损失项,并且Lle是光强度的损失项在训练期间,损失项的权重λla、λle和λe被设置为1。4.2. 正态估计网络NENet是一个多输入单输出(MISO)网络。NENet的网络架构类似于PS-FCN [5],由共享权重特征提取器、聚合层和正常回归子网络组成(见图2)。(b)款。NENet和在像素i处分别为地面实况法线。4.3. 训练数据我们采用了公开可用的合成Blobby和Sculpture数据集[5]进行训练。Blobby和Sculpture数据集提供了具有复杂正态分布和来自MERL数据集的不同材料的表面[21]。 影响在使用基于物理的光线跟踪器Mitsuba[16]进行渲染期间,考虑了投射阴影和相互反射。共计85,212个样本。每个样本在从上半球采样的64个不同的光方向下以均匀的光强度进行渲染,5,453,568张图像(85,212×64)。渲染图像的尺寸为128×128。为了模拟不同光照强度下的图像,我们随机产生的光强度在[0. 二,二。0]来缩放图像的幅度(即,最高光强与最低光强的比值为10)2。请注意,此选定范围包含比公共光度立体数据集(如DiLi-GenT基准[28]和Gourd Apple数据集[1])更宽的强度值范围。将输入图像的颜色强度归一化到[0,1]的范围。在训练中,我们应用了噪声干扰-在 [-0 。 025 , 0. LCNet 和 NENet 的 输 入 图 像 大 小 为128×128。在测试时,NENet可以拍摄不同维度的图像,而LCNet的输入被重新缩放为128×128,因为它包含全连接层,并且需要输入具有固定的空间维度。仅接受培训在合成数据集上,我们将证明我们的模型可以很好地推广到真实数据集上。5. 实验结果我们对我们的方法进行了网络分析,并在合成和真实数据集上将我们的方法与以前的最先进方法进行了比较。1我们已经通过实验证实,概率向量的期望或在峰值附近执行二次插值不会改善结果。2请注意,比值(而不是确切值)很重要,因为光强度只能估计到比例因子。8743角度误差度我实现细节我们的框架在PyTorch [24]中实现,Adamoptimizer [17]使用默认参数。LCNet和NENet包含4个。四百万和两百万。200万个参数。我们首先使用批量大小为32的LCNet训练20个epochs,直到收敛,然后在LCNet估计的光照下从头开始训练NENet,批量大小为16,持续10个epochs。我们发现,端到端的微调并没有提高性能。 学习率最初设置为0。0005,并且对于LCNet和NENet分别每5和2个时期减半。在一个Titan XPascal GPU上训练LCNet大约需要22个小时,训练NENet大约需要26个小时,输入图像数量固定为32。(a)光源(b)SPHERE(珍珠漆)(c)BUNNY(粉红色碧玉)图3. (a)MERL测试数据集的光照分布。通过将3-d向量[x,y,z]映射到点[x,y]来可视化光方向。(b)以及(c)分别示出了SPHERE和BUNNY的样本图像和地面实况法线。y4030为了衡量预测的光方向和表面法线的准确性,采用了广泛由于测试图像之间的光强只能估计到比例因子s,因此我们引入了比例不变相对误差(一)X20100方位角和仰角(b)第(1)款呃1Σq= Q 我.Σ|sei−ei|e~i、(四)图4. (a)光方向A、B、C和D具有最大值在离散化之后与光方向P的偏离角。(b)在不同的光照方向空间离散化水平下,PS-FCN [5]的正常估计误差的上限(∞表示没有其中,q是图像的数量,ei和ei分别是估计的和地面实况的光强度,离散化)。图像显示。argminS比例因子s 通过求解n(sei-ei)2,最小二乘3。我们将光方向的方位角和仰角分成不同数量的仓,范围从2到180。用于5.1. 综合数据网络分析MERL测试数据集为了定量地执行我们的方法的网络分析,我们使用基于物理的光线跟踪器Mitsuba [16]绘制了球体和兔子形状的合成数据集,表示为MERL测试,在下文中分别表示为SPHERE和BUNNY。每个形状都使用来自MERL数据集[21]的100个各向同性BRDF在从上半球采样的100个光方向下进行渲染,从而产生200个测试对象(见图10)。(3)第三章。对于BUNNY,考虑了投射阴影和内部反射。对于涉及具有未知光强度的输入的合成数据集上的所有实验,我们随机生成在[0.二,二。0]。每个实验重复五次,并报告平均结果。照明空间的离散化对于给定数目的面元Kd,在离散化之后,光方向的方位角和仰角的最大偏离角为δ=180°/(Kd×2)(例如,δ=2。当Kd=36时,为了研究光线方向离散化对法线方向的影响,为了提高估计精度,我们采用了最先进的校准方法PS-FCN [5]和MERL测试数据集作为测试平台。3由于实际数据集中的校准强度是3矢量形式,因此我们将估计强度重复为3矢量并计算平均结果。具体的bin编号,我们更换了每个地面实况光di-通过四个光方向中的每一个具有离散化后的最大可能的角度偏差(见图1)。4(a))。然后,我们使用这些光线方向作为PS-FCN的输入来推断表面法线。图中报告的正常估计误差。4(b)是由离散化引起的PS-FCN的上限误差。 我们可以看出,当Kd≥30时,离散化引起的误差增加是微不足道的。在我们的实现中,我们根据经验将Kd和Ke分别设置为36和20我们实验发现LCNet的性能是ro-分解到不同的离散化水平。在本文中,我们选择了照明空间的相对稀疏的离散化,因为它可以让NENet学习更好地容忍测试时估计照明中的小错误LCNet的有效性为了验证LC-Net的设计,我们将LCNet与三种用于照明估计的基线模型进行了比较。第一个基线模型,表示为LCNetreg,是一个基于回归的模型,它直接对光方向矢量和强度值进行回归(有关实现细节,请参阅补充文件)。第二基线模型,表示为LCNetw/omask,是一个基于分类的模型,它只将图像作为输入,而不输入对象掩码。最后一个基线模型,表示为LCNet局部,是基于分类的模型,其独立地估计每个观察的照明(即,没有一BδPDCz球体兔子249 18 30 36 45 60 901808744表1. MERL测试数据集上的光照估计结果。结果是使用100个BRDF渲染的采样的平均值。SPHEREBUNNYID模型方向强度方向 强度表2. MERL测试数据集上的正态估计结果。这些数字是使用100个BRDF渲染的样本的平均MAE(值越低越好)。根据LCNet reg估计的光照对NENet进行训练。A0LCNet3.470.0825.380.089A1LCNetreg4.100.1045.460.094A2LCNet,不带掩模5.460.1048.850.144A3LCNet本地6.870.1989.980.255ID模型#参数SPHEREBUNNYB0PS-FCN [5]2.2米2.663.80局部-全局特征融合)。所有模型都在相同的设置下训练,结果总结在表1中。用表1中的ID A0A1进行的实验表明,所提出的基于分类的LCNet在光方向和强度估计上一致地优于基于回归的基线。这与我们的假设相呼应,即将光方向分类到一定范围比回归精确值更容易。因此,解决分类问题降低了学习难度,提高了性能。实验结果表明,采用目标掩模作为输入,可以有效地提高光照估计的效果。这可以解释为6420 8 16 32 640.150.100.050.001006420 8 1632 64 100事实上,对象掩码为oc提供了强有力的信息数目的输入图像数目的输入图像包括对象的轮廓,并帮助网络区分阴影区域和非对象区域。实验结果表明,本文提出的局部-全局特征融合策略能够有效地利用多个观测值的信息,显著提高光照估计精度。请参阅我们的补充资料,了解MERL测试数据集中BUNNY使用ID B1 B2的NENet实验的有效性在表2中示出了在利用由LCNet估计的离散化照明进行训练之后,在测试时间给定可能有噪声的照明的情况下,NENet比PS-FCN执行得更好,而利用ID B3B4的实验示出了利用由基于回归的基线估计的光方向训练NENet并不总是有帮助的。该结果进一步证明了所提出的框架对噪声照明是鲁棒的使用ID B 0 B1的实验&表明,所提出的方法实现了与完全校准的方法PS-FCN [ 5 ]相当的结果,平均MAE为2。71和4。09分别在SPHERE和BUNNY图5显示了LCNet和NENet的性能随着输入图像的数量而增加。 这是预期的,因为可以使用更多有用的信息来推断具有更多输入图像的照明和法线。为了验证所提出的两阶段框架的有效性,我们将我们的方法与五个不同的单阶段基线模型进行了比较。我们首先重新训练UPS-FCN [5],表示为UPS-FCN 重 新 训练,图像由随机生成的光强度缩放,以允许它在测试时适应未知的强度。然后,我们增加了UPS的型号容量图5.来自MERL测试数据集的S PHERE上SDPS-Net的结果,具有不同的输入图像编号。通过引入更广泛的网络(即,卷积层中的更多信道)和更深的网络(即,更多卷积层),分别表示为UPS-FCN宽和UPS-FCN深。我们还训练了一个更深层次的网络,表示为UPS-FCNdeep+mask,它将图像和对象掩码作为输入。我们最后通过训练变量模型(表示为UPS-FCNestlight)来同时估计照明和表面法线,从而研究了具有额外照明监督的效果。有关详细的网络架构,请参阅我们的补充资料。使用表2中的ID B5-B 9的实验表明,使用更宽或更深的网络,将对象遮罩作为输入,或结合额外的照明监督,可以在一定程度上提高单阶段模型的性能。然而,使用ID B1 B5的实验表明,当输入以及参数的数量相当时,所提出的方法显著优于性能最好的单阶段模型,特别是在具有复杂几何形状的表面上,例如BUNNY这一结果表明,简单地增加网络的层数或通道数,或纳入额外的照明监督不能产生最佳结果。与非学习方法的比较[23]为了进一步验证我们的方法相对于非学习方法的有效性,我们将SDPS-Net与现有的未校准方法PF 14 [23]进行了比较,该方法在DiLiGenT基准测试[28]上取得了最先进的结果,在不同的方向强度正常角度误差度相对误差角度误差度B1LCNet + NENet6.6百万2.714.09B2LCNet + PS-FCN6.6百万3.194.67B3LCNetreg + NENet†6.6百万3.224.99B4LCNetreg + PS-FCN6.6百万3.734.96B5UPS-FCN深+掩模6.1米3.656.41B6UPS-FCN深度6.1米4.307.29B7UPS-FCN宽6.4百万5.618.85B8UPS-FCN测试灯5.7百万6.8010.62B9UPS-FCN再培训2.2米7.4412.348745近均匀偏置朗伯织物塑料酚醛(a) (b)四种典型BRDF302010(a) DiLiGenT(b)APPLE(c)GOURD 1(d)GOURD 2(e)灯光舞台01图7.真实测试数据集的光照分布。通过将3-d向量[x,y,z]映射到点[x,y]来可视化光方向。点的颜色表示光强度(值除以最高强度以标准化为[0,1])。01.51.00.50.0403020100朗伯织物塑料酚醛(c) 光方向估计结果朗伯织物塑料酚醛(d) 光强度估计结果朗伯织物塑料酚醛(e) 表面法线估计结果5.2. 真实数据集的评价真实测试数据集我们评估了我们的方法三个公开的非朗伯光度立体数据集,即DiLiGenT基准[28],葫芦苹果数据集[1]和Light Stage Data Gallery[8]。图7显示了这些数据集的光照分布(请注意,对于Light StageData Gallery,我们只使用了133张图像,其中对象的正面处于光照下)。由于Gourd Apple数据集和LightStage Data Gallery仅提供校准的照明(没有地面实况正态图),因此我们对照明估计的方法进行了定量评估,同时对正态估计进行了定性评估DiLiGenT基准评估表3(a)-(b)图6.SDPS-Net和PF 14之间的比较[23]BUNNY在接近均匀的光照分布和偏置的光照分布下用四种不同类型的BRDF渲染。输入照明分布和BRDF类型具体来说,我们考虑了一个接近均匀的和一个有偏的照明差异(见图1)。(见第6(a)段)。我们使用四种典型类型的BRDF渲染BUNNY,包括Lambertian模型和来自MERL数据集的其他三种类型[21],即Fab- ric,Plastic和Phenolic。它们分别含有15、12、9和12种不同的BRDF。我们报告了每种类型的平均结果(见图1)。(b)每种类型的一个例子。图6(c)-(e)比较了SDPS-Net和PF 14在光照估计和正常估计方面的情况。实验结果表明:1)PF 14在漫射或近漫射表面(即,Lambertian和Fabric),但在处理非Lambertian曲面时会迅速退化。此外,它不能可靠地估计所有BRDF的光强度。2) SDPS-Net在不同类型的BRDF上表现良好,特别是在具有镜面高光的表面上。这一结果表明,镜面高光是一个重要的线索,为未校准的光度立体[7]。3)两种方法在处理有偏光分布时,光方向和法线估计性能都有下降的趋势,而光强估计性能略有提高。结果表明,LCNet优于基于回归的基线LCNet reg,并在DiLiGenT基准上获得了光方向和强度估计的高度准确结果,平均MAE为4。92,平均相对误差为0. 068、分别表3(c)比较了SDPS-Net与DiLiGenT基准上先前最先进方法的正常估计结果SDPS-Net在几乎所有物体上都取得了最先进的结果,平均MAE为9。51,除了B的对象。Al-through UPS-FCN深+掩模在具有光滑表面和均匀 材 料 的 物 体 上 获 得 了 相 当 好 的 结 果 ( 例 如 ,BALL),它在处理具有复杂几何形状和空间变化的BRDF(例如,READ-ING和HARVEST)。与LCNet耦合的正常估计网络(即,SDPS-Net)的表现优于此,LCNetreg(即,LCNet reg +NENet †),具有1的明显改善。平均MAE为52,证明了基于LCNet的拟议分类的是有趣的是,结合我们的LCNet,校准的方法L2基线[34]和IS 18 [15]已经可以实现与先前最先进方法相当的结果。这一结果表明,我们提出的LCNet可以与现有的校准方法集成,以帮助处理照明条件未知的情况。图8(a)-(b)示出了SDPS-Net在DiLiGenT基准上的定性结果。对其他真实数据集的评估表4表明,SDPS-Net可以为具有挑战性的葫芦苹果数据集和光SDPS-Net(近均匀照明)SDPS-Net(偏置照明)PF 14(近均匀照明)PF 14(偏置照明)18.018.511.49.710.28.110.2 11.17.29.1第八条第一款6.85.87.04.85.20.210.120.110.080.080.130.080.060.100.090.35零点三一0.320.500.480.69SDPS-Net(偏置照明)PF 14(近均匀照明)PF14(偏置照明)SDPS-Net(近均匀照明)PF14(近均匀照明)PF14(偏置照明)18.712.112.99.89.210.110.64.96.76.94.33.65.07.239.633.2SDPS-Net(近均匀照明)SDPS-Net(偏置照明)相对误差平均角误差平均角误差8746(a) READING(b)HARVEST(c)APPLE(d)GOURD1(e) HELMET SIDE(f)PLANT(g)KNEELING K.图8. SDPS-Net在真实测试数据集上的定性结果。第一到第四行分别示出了对象、估计的法线图、光方向的误差分布和光强度估计。表3. SDPS-Net在DiLiGenT基准上的结果。(a) 光方向估计的结果。方法球猫栽培器1熊罐2佛杯状阅读牛收获Avg.LCNetreg4.945.825.627.194.823.9012.897.904.199.506.68LCNet3.274.085.443.472.874.3410.364.504.526.324.92(b) 光强度估计的结果。方法球猫栽培器1熊罐2佛杯状阅读牛收获Avg.LCNetreg 0.032 0.051 0.048 0.167 0.0740.0800.0750.1410.0440.0850.080LCNet0.039 0.095 0.058 0.061 0.0480.0480.0670.1050.0730.0820.068(c) 正态估计的结果。(Best以PDF格式放大查看。)方法AM07 [2]SM10 [27]WT13 [35]LM13 [19]PF 14 [23]LC18 [18][34]第34话:我的世界球猫栽培器1熊罐2佛杯状阅读牛收获平 均值7.2731.4518.3716.8149.16三十二点八一8.9019.8416.6811.9850.68十五点五四4.3936.559.396.4214.52十 三点十九分22.43 25.0132.8215.4420.57 二十五点七十六分4.779.549.519.0715.90 14.929.3012.6012.4010.9015.70十九点6.6214.6813.9811.2314.1915.87LCNetreg+NENet†3.878.978.0415.988.36九 点四二SDPS-Net2.778.068.146.897.508.9746.5448.7920.5729.1629.9318.3020.7218.2918.5418.0711.4911.9153.6526.9358.9648.1624.1822.3023.2620.1123.7820.4654.7222.7319.7522.5319.5315.0011.9125.0829.3111.8416.99八 点八三14.90八点四八61.70三 十七 点二五73.86二 十九 点五九55.5123.9334.45二 十七 点六三29.21十 六点六六28.00十 六点半27.79十 六18.38十 一点零三分17.43九点五一阶段数据库。我们的方法还可以可靠地恢复这两个数据集的视觉上令人愉快的表面法线(见图11)。8(c)-(g)),清楚地证明了所提出的方法在现实世界应用中的实用性。请参阅我们的补充资料以了解更多结果。6. 结论与讨论在本文中,我们提出了一个两阶段的深度学习框架,称为SDPS-Net,用于未校准的照片测量立体。我们的框架的第一阶段采取任意数量的图像作为输入,并估计其相应的光的方向和强度,而第二阶段预测的基础上,在第一阶段估计的光照和输入图像的对象的法线映射。通过明确地学习估计照明条件,我们的两阶段框架可以利用中间-中间-表4. SDPS-Net在葫芦苹果数据集和Light Stage Data Gallery上的照明估计结果。(a) Gourd Apple数据集的结果。一个PPLE第1章GOURD 2Avg.方向9.314.077.116.83强度0.1060.0480.1860.113(b) Light Stage数据库上的结果。HELMETSIDEPLANTF点火K夜KNEELINGK夜公司简介K夜HELMETFRONTAvg.方向6.5716.0615.9519.8411.6011.6213.61强度0.2120.1700.2140.1990.2860.2480.221在学习过程中,通过对学习过程的监督,降低学习难度,提高最终的正常估计结果。此外,我们的框架的第一阶段可以与现有的校准方法无缝集成在合成数据集和真实数据集上的实验表明,我们的方法显著优于现有的最先进的未校准的摄影测量立体方法。由于我们的框架只在具有均匀材料的表面上训练,因此它在处理由多材料表面引起的陡峭颜色变化时可能表现不佳(见图10)。8(b)为例)。在未来,我们将研究更好的训练数据集和网络架构,用于处理具有空间变化BRDF的表面。致 谢我 们衷 心感 谢NVIDIA公 司捐 赠 Titan X PascalGPU 的 支 持 Kai Han 由 EPSRC Programme Grant 支 持Seebibyte EP/M013774/1。博信施是支持在国家自然科学基金项目,批准号:61872012.松下康之由新能源和产业技术开发组织(NEDO)提供支持。0◦45◦00的情况。5对象Int. 误差Dir. 误差Est. 正常8747引用[1] 尼尔·奥尔德林,托德·齐克勒,大卫·克里格曼。具有非参数和空间变化的反射率的照相测量立体。CVPR,2008。四、七[2] Neil G Alldrin,Satya P Mallick,and David J Kriegman.用熵最小化方法重新求解广义地貌模糊性CVPR,2007。一、二、八[3] Peter N Belhumeur , David J Kriegman , and Alan LYuille.浅浮雕的模糊性。IJCV,1999年。一、二[4] Manmohan Krishna Chandraker , Fredrik Kahl , andDavid J Kriegman. 关于广义浅浮雕模糊性的思考在CVPR,2005年。2[5] Guanying Chen,Kai Han,and Kwan-Yee K.黄。一个灵活的光度立体学习框架.在ECCV,2018。一二四五六八[6] Donghyeon Cho,Yasuyuki Matsushita,Yu-Wing Tai和Inso Kweon。非均匀光强度和曝光下的光度立体。在ECCV,2016年。2[7] Ondrej Drbohlav和M Chaniler。两个镜面反射像素可以校准光度立体吗?载于ICCV,2005年。二、七[8] Per Einarsson,Charles-Felix Chabert,Andrew Jones,Wan- Chun Ma,Bruce Lamond,Tim Hawkins,MarkBolas,Se- bastian Sylwan,and Paul Debevec.利用流动反射场重新照明人体运动。载于EGSR,2006年。7[9] Carlos Hernandez Esteban , George Vogiatzis , andRoberto Cipolla.多视图光度学立体。IEEE TPAMI,2008年。2[10] Marc-Andre'Gardner , KalyanSunkavalli , ErsinYumer,Xi-aohuiShen,EmilianoGambaretto,ChristianGag ne',andJean-Fran c oisLalonde. 学习从单个图像预测室内照明ACM TOG,2017年。2[11] Athinodoros S Georghiades。结合托兰斯和斯派洛模型的反射率在未校准的光度立体。载于ICCV,2003年。2[12] 早川秀树光源任意运动下的光度立体。JOSA A,1994年。2[13] Aaron Hertzmann和Steven M Seitz。基于示例的摄影立体:用一般变化的brdfs进行形状重建。IEEE TPAMI,2005年。2[14] Yannick Hold-Geoffroy 、 Kalyan Sunkavalli 、 SunilHadap、EmilianoGambaretto和Jean-Fran c oisLalonde。深度室外照明估计。在CVPR,2017年。2[15] 池畑聪CNN-PS:用于一般非凸表面的基于CNN的光度立体。在ECCV,2018。一、二、七、八[16] 温泽尔·雅各布Mitsuba rend
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功