PX-NET：基于光度的三维重建网络

34 浏览量更新于2023-10-14 收藏 1.98MB PDF 举报

三维重建

计算机视觉

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12757PX-NET：光度立体网络Fotios Logothetis1Ignas Budvytis2Roberto Mecca1Roberto Cipolla1，21东芝欧洲有限公司剑桥研究英国剑桥flogothetis,rmecca@crl.toshiba.co.uk2剑桥大学英国剑桥ib255,rc10001@cam.ac.uk摘要从物体反射光的方式中获取物体的精确三维重建是计算机视觉中一项非常具有挑战性的任务。尽管自光度立体问题的定义以来已有四十多年，但当全局照明效果（例如投射阴影、自反射和环境光）发挥作用时，大多数文献的成功有限，尤其是对于镜面反射表面。最近的方法已经结合计算机图形学利用了深度学习的能力，以便应对大量训练数据的需要，以反转图像辐照度方程并检索对象的几何形状。然而，渲染全局照明效果是一个缓慢的过程，这可能限制可以生成的训练数据的量在这项工作中，我们提出了一种新的逐像素的正常预测的训练程序，通过替换训练数据（观察图）的全球渲染图像与独立的每像素生成的数据。我们表明，全球的物理效应可以近似的观测图域，这简化和加快了数据创建过程。我们的网络PX-NET与合成数据集上的其他像素方法以及密集和稀疏光设置下的DiLiGenT真实数据集相比，实现了最先进的性能。1. 介绍光度立体（PS）是自80年代早期以来计算机视觉中的经典问题PS假设来自相同视点的多个图像以及变化的照明，并计算局部几何特征（例如，图像的几何形状）。法线或深度）。这本质上是一个逆渲染问题，需要至少三个输入图像，以便有一个唯一的解决方案。从中检索3D形状的大部分困难151050'读数' [ 16 ] MAE= 12。6点拟定MAE= 9。78o图1.所提出的方法与[16]在DiLiGenT真实基准[ 35 ]的“读取”上评估度量是计算的法线贴图与地面实况相比的平均角度误差（MAE）。从物体反射的光是由于反射的类型及其对材料特性的非线性依赖性。这通过由物体的材料确定的表面双向反射分布函数（BRDF）在数学上在过去的四十年中，已经提出了一个非常广泛的BRDF方程来模拟光反射现象。从漫反射的基本线性光响应开始[21，13]，已经提出了反射光的更多镜面行为[31，3，8，20，38，40]。的比较在[41，11，30，29]中可以找到许多BRDF。最后，发明了最近提出的Disney BRDF [4，12]，以将大多数物理反射效果（包括光泽反射、次表面散射和金属/镜面粗糙度）统一到统一的公式中。计算机图形学的上述进步使得基于卷积神经网络（CNN）的方法能够用于通过在众多光和材料配置下渲染各种表面的大量图像来他们经常将PS问题参数化为来自光强度观测的正态回归（即，观测图[16]），有效地执行辐照度方程的反演。基于CNN的方法已被证明优于经典的基于优化的方法[17，32]，主要是由于CNN能够学习如何处理各种各样的实际问题。12758将经典优化方法引入到棘手的计算中并因此简化（例如，假定朗伯反射）。此外，CNN可以获得对辐照度方程偏差的鲁棒性，例如全局照明效应（投射阴影，自反射），如果训练数据包括它们[16]。这可以使用3D创建套件（如Blender [2]）来实现，该套件可以渲染包含该真实感级别的数据。然而，彻底采样全局照明效果（其是整体表面几何体的函数）需要渲染大量的网格。此外，如果渲染数据也要覆盖所有材质/灯光配置，则渲染要求呈指数级增长。渲染计算成本可以通过渲染多材质对象（[16]）来降低，从而损害真实的光线跟踪自反射。最后，应注意，渲染完整对象在计算上是昂贵的，因此相对缓慢并且在某种程度上是低效的，因为在相邻像素之间存在大量的相关性（特别是对于阴影/自反射图案）。为了最大化采样材料、灯光和法线方向的组合这允许加宽训练数据变化，因为所有这些参数（例如材料）可以针对每个数据点独立地采样。此外，我们展示了如何全球光的效果，可以近似在观测地图域，并提出了一种策略，包括在地图模型环境光，阴影，自反射和反射混合在不连续边界的变化。这种策略有助于减少合成与真实的差距，使我们的数据适用于具有挑战性的真实数据[35]。出资额：我们基于CNN的解决PS问题的方法具有以下主要贡献：我们提出了一种每像素观察图生成策略，该策略可以代替缓慢获得的全图像绘制，同时仍然允许网络学习全局照明效果。此外，我们还提出了对CNN-PS [16]架构的改进，称为PX-NET，其受益于训练数据变化的增加。最后，我们表明，在观察图中包括RGB通道可以进一步提高性能。本工作的其余部分划分如下。第2节讨论相关文献。第3节提供了我们提出的CNN方法的细节。第4节和第5节描述了实验设置和相应的结果。2. 相关工作现在，我们将概述最新的PS改进，这些改进主要集中在深度学习方法上。有关PS技术的最新调查，请参阅[1]。深度学习（DL）最近已经主导了在计算机视觉中的大多数正在进行的研究中，已经提出了几种方法用于使用PS来检索对象的3D几何形状基于DL的方法近似高度非线性映射的能力在反演非线性和复杂的辐照度方程中是高度期望的。然而，回归非常密集和精确的深度图不是一项微不足道的任务。[36]提出的初步研究使用深度信念网络 [10] 来解决Lambertian PS问题。最近，已经提出了一些方法来解决DL架构的PS问题[43]能够建模光度图像形成（以无监督的方式）的构建层，其可以嵌入到现有的编码器-解码器体系结构中，用于建立光反射和几何学之间的对应关系。[33]提出了第一个使用真实世界的MERL数据库进行训练的网络。他们通过使用与测试相同的光方向来训练网络，简化了PS问题的一般性。[18]在解决RGB-PS问题时使用了一种学习过程来从多光谱图像中分离RGB信息。当使用最小数量的光源时，这种解复用过程允许提高重建的准确度。[37]提出了一种不需要任何训练的非监督方法，因为它们最小化了在测试时间呈现的图像和输入图像之间的重建损失。这使得该方法相对于通常的基于DL的方法更慢，因为训练计算时间被部分地转移到形状重建流水线。[7，6]介绍了PS-FCN，这是第一种基于深度学习的方法，在训练和测试时不需要相同的灯组。事实上，通过使用类似的概念，[5]提出了一种DL方法，用于光源未知的PS问题的更具挑战性的场景。在这种情况下，使用两阶段建模来首先近似均匀光方向（LC-Net ），然后估计法线（ NENet ）。 [44] 提出了SplineNet 来解决稀疏PS（例如 PS具有低数量的图像）。他们采用插值网络来估计在其他光方向的反射率。另一种解决稀疏PS的方法已经由以下给出：[39]其中通过用9 × 9像素块训练网络来补偿由于输入图像的数量有限而导致的信息的缺乏此外，它们强制执行并置光约束，该约束根据MERL材料数据库中的观察结果凭[9]能够通过在一组不同的BRDF中搜索和匹配来处理稀疏的灯光配置。由于DL已被证明是用于在传统设置中解决PS的有效工具，即具有定向光源和正交观察几何结构，最近的工作[23，34]利用基于CNN的方法在受约束的近场设置中使用光度成像来检索几何。最后，[16]介绍了观测图12759N×个×个JJ× ××× ××DJ、DJ2步骤1.从人工观测图训练CNNBRDF样本产生效果步骤2.将PS图像转换为观察图，并使用CNN获取法线PS图像观察图N通道DenseBlock：N通道TransitionBlock：图2.该图说明了我们提出的方法的两个关键步骤。在左侧，示出了网络训练，其包括对材料BRDF进行采样，然后生成合成观察图（3.2），其包括全局照明和其他逼真效果的建模在中间，示出了正常估计过程-对于每个像素，通过将来自所有PS图像的信息组合到单个张量（3.1）中来计算观察图然后通过CNN处理这些图，CNN回归法线（方向）图。完整的CNN架构如右图所示。ReLU激活在每个CONV层之后使用。表示沿着信道轴的级联。参数化（32乘32灰度图像），其将多个光的信息合并在单个张量上，从而允许在不同数量的光源下使用固定网络。训练数据是通过渲染15个网格获得的，这些网格在许多光方向下具有密集的材料特性变化。该预渲染训练数据集的目的是允许网络学习用计算机图形综合生成的全局物理现象的效果。虽然采样了大量数据，但选择特定网格的选择限制了可能的光法线材料配置。程序如图2所示。下面给出所有步骤的更详细的解释观测图。观测图的概念在文献[ 16 ]中被引入，作为一种将可变数量的图像信息合并到单个数据中的方法。d图像地图映射过程遵循两个步骤：首先，通过补偿计算归一化观测值对于光源亮度变化，转换为灰度（添加r、g、b分量），然后除以（图的）最大值：设置和约束全局照明效果的图案（投射阴影、自反射），这些图案是直接的ij，pij，p，r/φj，r+ij，p，g/φj，g+ij，p，b/φj，b=.（一）maxj（ij，p，r/φj，r+ij，p，g/φj，g+ij，p，b/φj，b）全局曲面几何体的函数。此外，在没有数据增强的情况下对纯合成图像进行训练容易过度拟合合成分布，从而可能降低真实图像中的性能。为了克服这些限制，我们提出了一个基于CNN的方法，PS问题具有更好的覆盖。该归一化操作被设计为补偿不同像素的反照率变化，从而减小数据的范围。其次，标准化的观察ij（为清楚起见，省略对p的依赖性）被放置在a图1示出了尺寸为d d的正方形网格On，其中从光源方向Lj=[lx，ly，lz]确定的位置如下：[16]不依赖于前渲染网格。为此，我们实施了一项观察-高程图生成程序采样所有相关.，lx+l，，2JJ Jly+1，Σ参数独立地用于每个样品。3. 方法本节描述了正态估计问题的数学公式，并提供了如何生成逐像素训练数据的详细解释。3.1. 法线估计请注意，使用除法运算可能会在两种情况下损坏数据首先，如果最大值是饱和的，则地图值被高估。其次，对于非常暗的点，比率运算在数值上变得不稳定，并且任何数量的噪声（或只是离散化不准确性）被极大地放大。为了克服这些限制，我们将观察图概念扩展到3D图O，其还包括RGB通道，诸如：我们的校准的PS方法将一组Jvar作为输入。.，lx+l，，ly+1，Σir/φrIED照明图像。假设照明为具有已知的光方向Lj和亮度Φj的方向。F或每个pixelp，其在图像j处的值被表示为Orgbd2 ，d2=ig/φgib/φb，O=[Orgb;On]J（三）ij，p.我们的方法的目的是恢复正常的Np在每个像素p。这是通过将具有变化的照明的图像中的像素的所有观察结果组合成单个d d4图O来实现的，该单个d d 4图O又被馈送到回归法线的CNN中。这张图其中0是第三轴上的级联，因此定义了D d4地图。最后，这些观察图被馈送到CNN中，CNN回归表面法线Np。网络培训。与[16]一样，我们使用CNN从观测图回归法线。我们使用的是nCNNCNN正常化密集（3）辍学率（0.2）变平MaxPooling简体中文（zh_cn）Conv（1x1，N）转换块（256）简体中文（zh_cn）转换块（128）Conv（3x3，N）简体中文转换块（64）Conv（3x3，N）简体中文Conv（3x3，32）Conv（3x3，N）输入（32，32，4）......Onij.（二）12760--∀Σ--(a) 基线（b）饱和度（c）环境（d）阴影（e）反射（f）不连续性图3.我们在观察图生成过程中建模的相关效应的演示。示出了RBG图和归一化灰度（等式3中的分量Orgb和On）。（a）是基线直接反射率RD图。（b）示出了当考虑可变光源亮度时的变化(c)示出了环境光的添加，其在各处充当附加偏移。(d)投射阴影阻止贴图区域中除环境光/自反射以外的所有灯光。(e)通过颜色变化可以在实际数据中注意到自反射：主要为灰色的猫在反射点处包含红色像素。(f)在杯子的尖锐边缘的点表现出不连续性（看起来像两个不同贴图的混合）。DenseNet [14] ，具有16 个卷积层（随后是 ReLU 激活），3个maxpooling和3个dropout。该网络有大约490万个参数，完整的图表如图2所示。与[16]的主要区别在于，我们使用4个而不是2个密集块以及每层更多的过滤器，并且我们删除了网络顶部的2个全连接层中的一个，所有这些变化都旨在提高学习能力。3.2. 数据生成我们的CNN使用合成生成的观测图进行训练。每个贴图都是独立计算的，并且不执行全局对象渲染，从而避免了对昂贵的图形操作（如曲面细分和光栅化）的需要。对于每个数据点，表面法线N、灯光组Lj、反照率ρ以及材料M独立采样（参数分布见第4更具体地，M是9维的V0=[0，0，1]用于所有灯Lj。然而，真实图像像素外观偏离纯BRDF反射率值。这样的偏差包括由于入射/反射光与表面的其他部分的相互作用引起的全局照明效应以及诸如环境光和表面不连续性的局部效应。因此，为了增加我们的合成数据的真实性，通过相应地调整反射率r d，j来近似一组效应。本节的其余部分在观察图生成的上下文中解释了这些上述为了简洁起见，在本节的其余部分中忽略了对j的依赖性。投下阴影。当表面的一部分阻挡光时，在真实数据中观察到投射阴影，从而将直接反射率变为零。这是与附近光源具有非常高相关性的结构化效果我们对这种效果的近似是通过对阴影图进行采样来执行的，即二进制函数S（L）= 0，如果被遮挡S（L）= 1，否则，包含被遮挡的光的区域（关于阴影图采样的细节，参见补充）。我们的工作的一个显着差异，以近似阴影与结构化的辍学（例如。[22]）的一个重要原因是我们将阴影图视为数据生成过程的一部分。如下所述，S（L）与其他效果（自反射/环境）组合以计算组合像素强度，即使对于阴影光源，该组合像素强度也将是非零的。自我反思镜面反射对象中发生自反射是由于曲面的某些部分充当辅助光源。这种效应在现实中可能变得非常复杂，可能有数百个点贡献额外的光分量。为了估计计算上有效的近似，我们在方向L，R上采样多达5个点，并计算从L到L，R到V，0的单个光反弹。我们注意到，在方向光远离表面的情况下，自反射方向被约束为阴影贴图S（LR）= 0，LR的一部分。这是真的，因为任何从P向外延伸的射线，或者在另一点A处与表面相交，或者延伸到无限远而不相交。在第一种情况下，A是潜在的自反射点，并且在第二种情况下，可以从远处的光源接收光（参见图4）。对于这些自反射点中的每一个，表面法线NR和反照率ρR被独立地采样，但材料被假设为相同的（参见补充材料以获得进一步的理由）。然后，自我反思--光L在反射点{L，R}处的反射分量为：包含来自 MERL BRDF 反射率数据库 [27] 的 DisneyBRDF [4]（不包括各向异性）或材料指数的参数的矢量。使用这些材料页-rr（L，{LR}）=LR， LRB（NR，L，LR，···）B（N，LR，V0，···）。L（四）通过计算Disney [4]非线性方程或执行表，可以生成一组直接反射分量rdj=B（N，Lj，V0，ρ，M）查找适当的MERL [27]材料。请注意，我们假设正交设置，因此观察方向注意，在第一BRDF项中，有效视图矢量现在是L_R，其也是第二项中的有效光矢量（当光从L行进到L_R到V_0时）。我们注意到，这种单次反弹光线跟踪并不能完全补偿多次光线反弹样本图像真实On实OrgbSynth. 在合成中ORGB··12761联系我们--≈--∝·基线环境光和阴影所有效果球熊佛猫牛杯状收获POT1Pot2阅读是说图4.（从左起）MAE演变（在训练期间）曲线，其示出了利用对DiLiGenT对象的连续效应训练的网络的性能这里比较的网络是在生成的地图上训练的：基线基本反射率，环境和全局阴影，所有效果。据观察，连续效果通过向下筛选误差曲线来提高性能，唯一值得注意的例外是球，因为它受到全局照明效果的影响最小（右）演示阴影和自反射之间的约束在该示例中，当考虑点P的反射时，红色和蓝色光源（假设远离提供均匀的定向照明）处于阴影因此，我们得出结论，存在位于这些方向上的点（A，B）（沿着射线的位置在远场设置中无关紧要），其为其余光源生成自反射散射或其它更复杂的全局光变换路径。最后，我们注意到，自反射改变像素的颜色（等式4中BRDF的乘法将增加颜色饱和度），并且因此RGB通道的包含被进一步激发，以便向网络提供信息以将自反射分量与主分量区分开151050（a）基准十四岁61o（b）饱和度十四岁45O（c）阴影9 .第九条。33O（d）环境8. 38O（e）反思7 .第一次会议。97o（f）不连续性7 .第一次会议。78o表面不连续性。通常假设每个像素对应于具有特定法线（例如，垂直于每个像素）的单个表面点的反射。在差分方法中，例如[28]其假设连续表面）。然而，在实践中，像素具有有限的尺寸，因此它们可能记录具有潜在不同表面法线的多个表面点的反射率。这种效果主要与表面不连续点有关，例如遮挡边界和锐边。由于BRDF是N的非线性函数，因此也需要考虑这种混合效应。我们的实现通过以下方式来近似这种效果：抽样检验一、二、三每个像素的法线Nk（85%的像素得到t=1以不具有这种效果），然后平均出相应的反射率（两者都是直接的rd，其可以是被阴影阻挡，并且由于自我反射rr）到com-图5.演示增量建模的影响我们的PX-CNN-PS对DiLiGenT真实数据集的“Buddha”的性能的影响(a)显示基线网络的结果。对于其余的效果，大部分的改善是在：（b）壶的中间的镜面高光，（c）头顶，（d）在大多数凹形区域中显著，（e）头部的中间，（f）袖子。大气尘埃的反射）。摄像机噪声。真实的相机容易受到噪声的影响，这些噪声可以合理地近似为高斯噪声。我们包括两个组件：乘法n MG和加法1 n AG。在实践中，这些组件很小，因此我们假设标准偏差为1e4（平均值分别为1和0）。杂项。最后，我们包括乘法均匀噪声分量nMU，其旨在解决混合气。计算总反射率rT=Σkrd（Nk）S（L）+rr（Nk）不新的未建模的物理效应。这些包括光源亮度校准[24]不确定性和近光环境光。大多数真实图像包含一定量的环境光主要是由于光散射到大气中并反射到环境中的其它物体上。即使PS图像是在没有反射对象的暗室中捕获的，这种效果仍然持续，即使它可以非常小（0.最大强度的1%）。这种效应通常是建模的（例如[26]作为一个不断的反思a. 我们注意到，这种恒定反射与表面反照率具有高度相关性，并且在非常倾斜的角度（以及大部分反射）下也会减少，因此我们采样例如aρN V0.最后，我们添加了一个小（最大至图1e4）加性均匀噪声n AU分量到ac-计数到达相机的任何附加光（例如，衰减（因为实际上点光源不是无限远），其以倍增方式影响像素亮度。我们根据经验观察到，这是最重要的噪声分量，最佳值为5%。饱和度变化不同的实际光源具有不同的亮度φ J。观测图参数化旨在通过除以Φ j来补偿这种变化。然而，在实践中，像素饱和使得这种补偿不完美，因此需要被增强。实际实现涉及对亮度值φj进行采样，将反射率乘以该值，应用其余的增强，然后应用离散化。LL维一LRBPB···.··12762×个--方法17号球（S）（男）乌龟17（S）（男）纸碗17（S）（男）球体305（S）（男）乌龟305（S）（男）纸碗305(S)（男）AVG基线[42]4.635.412.339.729.439.35.044.512.640.228.837.027.4CNN-PS[16]，K=14.911.912.920.222.236.81.62.04.26.56.811.111.8PX-NET，K=11.784.527.4513.6822.1436.010.686.453.4610.667.3222.1911.3615表1.在我们的PX-CNN-PS对DiLiGenT的真实数据的准确性中，几种建模物理效应的成分的消融研究[35]。据观察，性能几乎是单调的所有对象。一个值得注意的例外是球，它没有反射和环境光，因此包含这些效果会降低该对象的性能使用改进的架构PX-NET获得最后2行，该架构进一步减少了正常误差（具有归一化映射以及包含RGB通道两者）。离子和饱和度，即 D（x）=（uint16 （ 216x））/216。因此女王（镜面反射）五、69o南瓜（金属）9 .第九条。89o龙（中级）1059 .第九条。93o0对于饱和像素，用于创建观察图的最终划分不能完全补偿光源亮度1。注意，由于亮度对于不同通道是不同的，这导致镜面高光在亮度补偿图像中不是完全白色的。组合所有上述效果，总体生成的像素强度i计算如下：ij=D。（ rT ， j+a ） φjnMU ， jnMG ， j+nAU ，j+nAG，jΣ. （五）最后，i，j被转换成观测图，如第3.1节中所解释的。这些效果在真实图像映射和我们的合成生成中的视觉说明如图3所示。请注意，图3中的合成贴图是使用Diligent [35]灯光生成的，可以与真实灯光进行比较-我们在训练时间使用随机灯光所有相关超参数的详细解释可以在补充材料中找到。4. 实验装置本节描述了我们的实验设置，包括所使用的数据集、训练和评估程序。数据集。我们使用三个合成和一个真实的数据集进行评估。用于实验的真实数据集是DiLiGenT [35]，由10个不同材料和几何形状的对象组成。对于每个对象，提供96个图像（612 512px）以及地面真实光源方向、亮度和法线图。对于我们执行完整的灯光，以及稀疏的灯光评估，后者由10个随机子集的10个灯。此外，我们考虑两个合成数据集渲染与搅拌机（使用周期渲染引擎），其中1在Diligent中，φ在0. 28和3。因此饱和值映射到0。31-3 57、这是一个很大的变化。3 .第三章。六九○五。33o7。1804。40度图6.我们的PX-NET与CNN-PS的比较[16]有感觉的全局渲染对象。顶部的表格显示了Cycles-PS（来自[16]）的性能，底部显示了我们的均匀物质对象的性能。所提出的方法优于两个数据集上的竞争，特别是在均匀的物质对象（平均MAE 7。90o对5。15°）。执行全局照明效果的真实计算。第一个数据集是Cycles-PS-Test [16]，包含3个对象。每个对象在来自镜面或金属分布的多材料设置（每个超像素具有不同的随机材料）中被渲染。由于这种材质分布是不现实的，我们生成了第二个数据集，其中我们渲染了四个单一材质 / 反照率对象，即 QUEEN 、 PUMPKIN 、ARMADILLO、DRAGON（见图1）。图6）。这些物体是非凸的，并使用Blender（16位512x512 px图像）渲染，包括使用DiLiGenT的96个光源的逼真全局照明效果。最后，使用MERL材料在球体的合成数据集上评估网络学习材料的能力[27]。对于所有100种材料，我们使用DiLiGenT灯光（按像素）渲染了96个球体。培训详情。使用[16]的精确架构进行基线实验。该版本将被称为PX-CNN-PS。与[16]相比，该版本的唯一差异是使用第3.2节中解释的数据生成程序生成的训练数据。PX-CNN-PS的目的是表明我们的数据生成策略可以补偿真实和全局效应，甚至在密集光设置上实现最先进的结果（K=10的PX-CNN-PS仅被我们的PX-NET超越，参见表2）。最后的实验是用我们修改后的称为PX- NET的架构版本进行的，它取得了明显更好的结果。请注意，一个单独的PX-NET被训练用于所有密集实验，另一个用于稀疏实验。PX-NETPS图像示例CNN-PS[16]犰狳（中级）六、09o影响球熊佛猫牛高脚杯丰收盆1盆2阅读AVG基线5.8 9.814.68.8 10.1 12.518.99.4 9.715.411.48+周六3.8 8.314.57.9 10.1 12.119.48.9 9.615.110.97+影子1.7 4.89.34.97.18.815.35.8 7.013.17.78+环境2.1 4.28.44.65.87.814.95.6 6.012.57.18+反思2.4 3.78.04.55.87.614.55.4 5.610.96.83+不连续性2.2 3.77.84.35.57.615.05.4 5.710.96.79PX-NETOn1.9 3.77.64.55.47.013.35.2 5.210.56.43PX-NET+Orgb 2.0 3.67.64.44.76.913.15.1 5.110.36.2812763|||·||·|35302520151050零点二十4060八十1008.68.48.28.07.87.67.47.2平均勤奋误差演化二四六八十十二十四时期编号图7.（左）CNN-PS [16]与我们的两个网络（PX-CNN-PS，PX-NET）的比较，所述网络在用DiLiGenT光渲染的合成MERL图像上测试。所有结果都是针对具有相应平均误差6的K=1预测示出的。一四三三图7示出为水平线。（右）当使用原始数据生成和使用（虚线）的训练协议在增加数量的对象（20、30、40、50）上训练时，CNN-PS [16]网络的测试时间准确性（在DiLiGenT [35]数据集上）进化实线指示用附加环境光、相机噪声和乘性噪声效应训练的相应网络的性能。实施. 该网络在Tensorflow 2.0的Keras中实现。数据生成引擎是用Python和C++实现的，唯一的外部依赖是用于基本向量代数和i/o的OpenCV。我们使用平均角误差（MAE）损失函数训练网络，该函数也是所有实验的评估指标对于预测的法线np和地面实况nt，MAE被计算为：atan2（ntnp，ntnp）。超参数。训练批次大小设置为2400，每个时期5000个批次（12M图）。我们使用Adam [19]优化器的默认设置训练了20个epoch（这足以收敛图4在NVIDIA GeForce RTX 2080 Ti上，PX-CNN-PS的训练时间约为7小时，PX-NET的训练时间约为15小时。为了与[16]进行公平比较，将光分布设置为50-1000个随机光（以0o至70o的仰角均匀采样）稀疏灯光设置使用 10 个随机灯光，最大 45度（以匹配[22]）。数据生成过程的精确超参数在补充材料中进行了描述。旋转伪不变性：[16]注意到观察图可以被旋转以便执行测试时间增加（使用10次旋转，其被称为K=10）。如果不使用这种增强（除非另有说明，否则这是本文中的默认选择），则单个网络评估称为K=1。5. 实验在本节中，我们展示了显示第4节中描述的数据集中的最新技术性能的实验。现实效果建模的消融。我们的第一个实验旨在评估增量建模的效果，以演示使用每像素数据训练的网络如何优于使用全局更新训练的网络。10个灯基线[42]4.49.115.69.0二十六点四19.631.39.5十五点四20.216.04CNN-PS[16]9.1十一点七13.214.1 14.7 14.615.517.0 14.019.614.34SPLINE-Net [44]5.06.0版本10.1 7.5八点八 10.419.18.8十一点八16.110.35模拟[22]4.0八点七11.46.710.210.517.3 7.3九点七14.410.02Inv.模型[39]**2.35.27.15.6七点五 8.815.3 7.1八点二10.97.79PX-NET，K=12.85.29.66.67.810.316.5 7.4第八条第一款13.58.76PX-NET，K=10±0。4±0.42.5四点九±0。39.4±0。2±0。56.37.2±0。99.7±0。616.1±0。2±0。77.07.7±0。413.1±0。38.37±0。4±0.3±0。3±0。2±0。4±0。8±0。5±0。2±0。6±0。5±0。3表2.在DiLiGenT基准上对所提出的方法（简化的PX-CNN-PS和完整的PX-NET）进行定量比较[35]。对于我们的网络以及[16]，使用K=10的结果也是完整的。的底部该表显示了使用10个随机灯光的评估（**[39]使用9x9像素补丁和特定的照明约束，因此比较不完全公平）。我们执行实验10次，并报告10次尝试中每个错误的平均值和标准差（也计算K=10）训练数据。为此，我们首先训练了一系列具有完全相同的CNN-PS架构的网络[16]，我们将其称为PX-CNN-PS，并观察了递增应用一系列不同建模效果的效果（始终应用各种噪声效果改进的架构以及附加RGB通道的效果也在底部两行中示出。在真实的DiLiGenT数据集上进行评估。这可以在图4和图5以及表1中看到。我们观察到，在每个步骤中，大多数对象的性能以及整个数据集的平均误差都单调提高。注意，在包括环境、阴影和饱和度变化步骤之后，PX-CNN-PS 优于CNN-PS （6. 79o 对 7。 21o ，参见表2），其用全局渲染的数据训练。这可以由以下三个原因来解释。首先，CNN-PS的合成训练数据不包括我们在这里建模的一些效果，即光源亮度变化、噪声和环境光。其次，在迪士尼材料参数的有限子集上训练CNN-PS（由于受到缓慢的全局对象渲染的约束）。最后，CNN-PS很可能在仅使用15个网格渲染的训练数据的全局效应的特定分布上过拟合。我们的训练数据与CNN-PS的训练数据相比的优越性也在图6的合成的、全局渲染的对象以及Cycles-PS数据集上得到证实。PX-NET在这4个方面优于CNN-PSCNN-PS ： MAE 6.1 度 PX-CNN-PS ： MAE 4.3 度 PX-NET：MAE 3.7度20obj +Ns+Amb 30obj + Ns + Amb 40obj + Ns + Amb 50obj+ Ns +Amb平均角度误差（度）角度误差（度）方法球熊佛猫牛高脚杯收获盆1盆2阅读AVG基线[42]4.18.414.98.4 25.6 18.530.68.9 14.719.815.39SPLINE-Net[44]1.74.79.15.59.69.424.45.97.912.89.1ICML [37]1.55.810.45.46.311.522.66.17.811.08.83示例[15]1.35.68.54.98.27.615.85.26.412.17.55PS-FCN [6]2.74.86.27.77.27.57.810.9 6.712.47.4CNN-PS[16]，K=1 2.74.58.658.27.114.25.96.3137.55CNN-PS[16]，K=102.24.17.94.687.3145.4612.67.21Inv.模型[39]**1.84.16.14.76.37.213.36.56.510.16.65PX-CNN-PS，K=1 2.23.77.84.35.57.615.05.45.710.96.79PX-CNN-PS，K=102.03.47.64.25.26.814.24.95.310.46.39PX-NET，K=12.03.67.64.44.76.913.15.15.110.36.2812764151050[16]第16话图8.表2中的一些错误映射（k = 1）将我们的PX-NET与CNN-PS [16]进行了比较。应注意，由于在训练时使用更广泛的材料集合，我们在凸区域中显著Pot2误差图证明了我们在叶边界上的不连续性增强的强度。最后，Harvest错误图显示我们可以在一些凹区（左下方）表现出色;然而，具有复杂自反射图案的区域（图像的中间）是对我们的方法的潜在限制（由于假设的单次反弹自反射）。对象。最显著的改进是在PUMP- KIN对象（5. 33o对9。89°），并且可以通过CNN-PS不包括不连续性模型的事实来解释，该不连续性模型是重要的，因为该物体的表面是粗糙和详细的。在Cycles-PS（11. 36o对11。8〇），并且这是预期的，因为它以与Cycles-PS的训练数据类似的方式PX-NET优越性的原因可能是更高的学习能力和包含RGB通道。MERL球的评价。下一个合成实验（图7）在使用MERL材料渲染的合成图像上比较了我们的网络PX-CNN- PS （具有所有效果）和 PX-NET 与 CNN-PS[27]。这项评估的目的是证明我们的网络可以处理各种现实世界的反射。注意，PX-CNN-PS优于CNN-PS（6. 1o对4。3〇MAE），并且这是预期的，因为我们在训练数据中包括MERL材料。PX-NET进一步将MAE降低到4。80，但是仍然存在没有很好地回收的材料，因此这激发了未来的研究。增加CNN-PS全局渲染对象的大小为了证明使用我们的每像素训练过程的合理性，我们检查了Cycles-PS[16]数据集中对象数量增加对CNN-PS [16]网络的影响。我们用来自[35] Thingi 10 K [45]数据集的对象补充了CNN-PS [16]的原始15个对象（参见补充材料以获得对象的完整列表和示例训练时CNN-PS [16总共在20、30、40和50个对象上的测量结果在图7（右）中使用虚线示出。请注意，所有网络似乎都在早期达到最佳性能，并且不会从更长的训练中受益。此外，添加超过30个对象似乎不会对DiLiGenT [35]数据集的性能产生影响。这可能是由于过度拟合数据集中提供的对象的全局形状以及[16]对混合材料渲染的特定选择。如果应用第3节中提到的真实效果的一些建模（在这种情况下，应用于全局渲染的图像），例如环境光、相机噪声和乘性噪声，则初始时期（实线）中的性能略微改善到没有数据训练的对应网络增强，但仍然是7的最佳性能。11o错误是通过在30个对象上训练的网络实现的，其中没有增强相比之下，PX-CNN-PS能够实现6的准确度。79◦通过避免计算低效的全局对象渲染。与最先进技术的比较。最后，我们将我们的两个网络与表2中DiLiGenT [ 35 ]数据集中的其他最先进的方法进行了比较，包括密集和稀疏光设置。为了完整性，我们还包括应用测试时间旋转伪不变性增强（K=10）后的结果图8中示出了三个样本误差图（对于K=1网络评估）。我们的两个网络在平均误差以及几乎所有对象indi- vidually方面都明显优于竞争对手我们的方法的成功可以归因于网络处理具有复杂反射率的现实世界材料的能力（我们在PS问题减少到BRDF反演的凸区域中表现出非常小的误差），同时由于我们的建模策略，对全局照明效果非常鲁棒。我们注意到，稀疏设置[39]上的最佳执行方法使用9x9像素块以及在训练和测试时间对灯光设置的约束（而不是10个完全随机的灯光），因此比较并不完全公平（我们仍然在密集设置中表现出色）。6. 结论在这项工作中，我们提出了一种新的，简单和有效的概念，用于生成在线训练数据，解决PS问题，使用一个简单的像素观察图生成过程。我们近似全局效果，如阴影，自反射等。通过采用基于真实和合成数据观测的建模策略。我们分析了我们的方法的性能，同时逐步调整训练数据，我们定量地显示了采用这种建模策略的实际好处。在真实的DiLiGenT [35]基准以及合成的Cycles-PS [16]基准上实现了最先进的结果。未来的工作包括考虑扩展到多视图PS设置，例如。使用SDF表示[25]。收获牛Pot212765引用[1] J. Ackermann和M. Goesele光度立体技术综述。计算机图形与视觉的基础与趋势，2015年。二个[2] Blender在线社区。Blender -3D建模和渲染软件包。Blender基金会，2018年。二个[3] J. F. 布林计算机合成图像的光反射模型。在SIGGRAPH，1977年。一个[4] B. 白肋烟迪斯尼基于物理的阴影。在SIG中-GRAPH Course Notes，2012. 1、4[5] G. Chen，K.汉湾Shi，Y.Matsushita和K.-Y. K. 黄。自校准深度光度立体网络。在CVPR中，第8739-8747页二个[6] G Chen，K.汉湾Shi，Y.

下载后可阅读完整内容，剩余1页未读，立即下载