基于学习的稀疏多视图图像重建与反射特性

10 浏览量更新于2023-10-25 收藏 1.62MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5960深度3D捕获：稀疏多视图图像的几何和反射赛碧1徐泽祥1孙卡瓦利2大卫克里格曼1拉维·拉穆奥西11加州大学圣地亚哥分校2Adobe研究摘要我们引入了一种新的基于学习的方法来重建高质量的几何形状和复杂的，空间变化的BRDF的任意对象从稀疏的一组只有六个图像捕获的宽基线相机下collocated点照明。我们首先使用深度多视图立体网络来估计每视图深度图;这些深度图用于粗略地对准不同的视图。我们提出了一种新的多视图反射率估计网络架构，该架构经过训练，可以从这些粗对齐的图像中提取特征，并预测每个视图的空间变化漫反射、表面法线、镜面粗糙度和镜面反射。最后，我们融合和细化这些每视图的估计，以构建高质量的几何和每顶点的BRDF。我们通过联合优化我们的多视图反射网络的潜在空间来实现这一点，以最大限度地减少使用我们的预测渲染的图像与输入图像之间的光度误差。虽然以前的国家的最先进的方法失败，这样的稀疏采集设置，我们证明，通过广泛的实验合成和真实的数据，我们的方法产生高质量的重建，可用于渲染逼真的图像。1. 介绍从2D图像重建物体的3D几何形状和反射特性一直是计算机视觉和图形学中的长期问题，其应用包括3D可视化、重新照明以及增强现实和虚拟现实。传统上，这已经使用复杂的采集系统[5，17，41，45，56]或应用于密集图像集[34，49]的多视图立体（MVS）方法[13，40]来这些方法的采集要求大大限制了它们的实用性。最近，已经提出了深度神经网络，用于从单个或几个图像中进行材料然而，这些方法中的许多方法限于估计平面样本的空间变化BRDF（SVBRDF）[10，15，31]。Li等人[32]演示了从单个图像重建形状和反射率，但其重建质量受到其单个图像输入的限制我们的目标是使实用和高品质的形状迪帕努塞·卡多法向粗糙度镜面反射几何渲染图1：从在并置点照明下捕获的对象的六个宽基线输入图像（顶行），我们的方法重建高质量的几何形状和空间变化的非朗伯反射率（底行，对镜面反射执行色调映射以使其更可见），允许我们在新的视点和照明下重新渲染捕获的对象（底部，右）。和外观采集。为此，我们建议使用简单的捕获设置：一组稀疏的六个摄像机-放置在一个顶点和一个正二十面体的相邻面的中心，形成一个60个圆锥体-与同位点照明（图10）。2左）。拍摄六张照片应该与单一图像方法相比，允许更好的重建。然而，在如此宽的基线处，捕获的图像几乎没有对应性和严重的遮挡，使得跨视点融合信息具有挑战性如示于图2，我们提出了一个两阶段的方法来解决这个问题。首先，我们设计了多视图几何和反射率估计网络，该网络通过稳健地聚合所有稀疏视点的信息来回归每个输入视图的2D深度、法线和反射率。我们使用深度多视图立体网络来估计每个输入视图的深度[50，53]（第二节）。第3.1节）。由于我们的稀疏捕获，这些深度图包含错误，并且不能用于准确对齐图像以估计每个顶点的BRDF [34，56]。相反，我们使用这些深度图将图像扭曲到一个视点，并使用一种新的深度多视图反射率估计网络来估计该视点的每像素法线和反射率（通过简化的Disney BRDF模型中的漫射反射率，镜面反射率和粗糙度参数化 [24 ] ）（第253.2）。该网络从变形图像中提取特征，输入5961翘曲65迪帕努塞·卡多61←61优化21深度预测器编码器4SVBRDF解码器粗糙度13∗初始几何形状优化的几何形状逐顶点BRDF镜面反射泊松重建我们的收购设置多视点深度预测（第3.1节）多视角反射率预测（第3.2节）正常几何重建（第3.3节）SVBRDF和几何细化（第3.4节）图2：我们的收购设置（最左边的图）和框架。我们捕捉六个图像与并列的相机和灯光放置在一个顶点（绿色圆圈1）和五个相邻的面中心（绿色圆圈2-6）的二十面体。使用这六张图像，我们预测了每视图深度（红色块）。我们使用预测的深度扭曲输入图像，并将其传递到多视图SVBRDF估计网络以获得每个视图的SVBRDF（蓝色块）。最后，我们从估计的深度和法线重建3D几何，并执行联合优化以获得精细的几何和每个顶点的BRDF（黄色块）。使用max-pooling跨视点对它们进行解码，并对池化特征进行解码以估计该视点的法线和SVBRDF。这种聚合多视图信息的方法比基线方法（如U-Net架构[38]）更强大，并且我们使用它来恢复每个视图的法线和反射率。其次，我们提出了一种新的方法来融合这些每视图估计到一个单一的网格与每顶点BRDF使用优化学习反射空间。首先，我们使用泊松重建[25]从估计的每视图深度和法线映射构建网格（Sec.3.3）。每个网格顶点有多个反射参数，对应于每个每视图反射图，我们融合这些估计，以重建对象的几何形状和反射率，将准确地再现输入图像。我们没有优化每个顶点的反射率参数，这会导致离群值和空间不连续性，而是优化了我们的多视图反射率估计网络的潜在特征（第二节）。第3.4段）。我们将这些潜在特征传递给反射率解码器来构建每个视图的SVBRDF，使用每个顶点的混合权重将它们融合，并渲染它们以计算所有视图的光度误差。这整个管道是可微的，允许我们反向传播这个错误，并迭代更新反射潜在特征和每个顶点的权重，直到收敛。该过程细化重建以最佳匹配特定捕获的图像，同时利用我们的反射率估计网络学习的先验。我们用一个大规模的合成数据集训练我们的网络，该数据集由程序生成的形状组成，具有复杂的SVBRDF [50，52]，并使用基于物理的渲染器渲染。虽然我们的方法是用纯合成数据训练的，但它可以很好地推广到真实场景。这在图1A和1B中示出。1和8，其中我们能够重建具有复杂几何形状和非朗伯反射率的真实物体。先前的现有技术的方法，当应用于这样的对象的稀疏输入图像时，产生不完整的、有噪声的几何形状和错误的反射率估计（图1A和1B）。4和7）。在…trast，我们的工作是第一个从稀疏的多视图输入重建详细的几何形状和高质量的反射率，使我们能够在新的视图和照明下渲染逼真的图像2. 相关作品三维重建。为了从图像集重建3D几何形状，传统方法[14，28，40]利用特定图像特征找到两个或多个图像之间的对应关系。这种方法对照明变化、非朗伯反射率和无纹理表面敏感。匹配代价相似的多个点的存在也要求这些方法具有大量的图像以获得高质量的重建（我们请感兴趣的读者参考[14]以了解更多细节）。相比之下，我们的方法重建高质量的几何复杂的真实场景从一个数量级较少的图像。最近，已经提出了许多基于学习的方法来使用各种几何表示重建3D形状，包括规则体积[21，36，47]，点云[1，42]和深度图[18，53]。这些方法不能产生高分辨率的3D网格。我们扩展了最近的基于学习的MVS框架[50，53]，以从具有复杂反射的对象的稀疏多视图图像中估计我们将此深度与估计的表面法线相结合，以重建具有精细细节的3D网格。SVBRDF获取。SVBRDF采集是一项挑战性任务，通常需要密集的输入图像集[12，34，49]。许多方法利用复杂的硬件[33]或光模式[17，22，41]。从稀疏图像的重建已被证明为平面物体[3，31，51]和已知几何[56]。相比之下，我们从六个输入图像的稀疏集合重建任意对象的几何形状和复反射率已经提出了光度立体方法来重建任意形状和SVBRDF [4，16];然而，它们专注于单视图重建，需要数百个5962i=1我i=1我我我的图像。最近的作品[19，34]利用由并置的摄像机光设置捕获的图像进行形状和SVBRDF估计。特别地，Nam et al.[34]捕获超过60张图像，并使用多视图重建和物理-两种观点。这些因素导致传统的MVS方法无法找到准确的对应关系，从而无法重建高质量的几何形状。相反，我们使用基于学习的方法来估计-基于优化来恢复几何形状和反射率。在匹配深度。给定输入图像{I i}n，我们估计相比之下，通过设计新颖的深度网络，我们能够仅从六幅图像重建物体。基于学习的方法已被应用于正常和SVBRDF采集。深度光度立体方法从数十到数百个图像重建表面法线[6，7]，但它们不解决反射率或3D几何估计。大多数深SVBRDF采集方法都是针对平面样本设计的[2，10，11，15，30，31]。一些最近的多图像SVBRDF估计方法从多个视图中汇集潜在特征[11]并使用潜在特征优化[15]，但它们仅处理平面对象。Li等人。[32]从单个图像预测深度和SVBRDF;然而，单个输入不能提供足够的信息来精确地重建几何形状和反射率。通过捕获六张图像，我们的方法产生了更高质量的结果。3. 算法我们的目标是准确地重建一个简单的采集设置的对象的几何形状和SVBRDF。最近的工作利用同位点照明从稀疏的图像集合中进行反射率估计[2，3，10，31];这种照明最大限度地减少了阴影并引起了像镜面反射这样的高频效应，使反射率估计更容易。类似地，Xuet al.[50]展示了从在单点光下捕获的场景的稀疏多视图图像的新颖视图合成。受此启发，我们利用与Xu等人类似的捕获系统-六个摄像机放置在正二十面体的一个顶点和邻接该顶点的五个面的中心。不像他们使用一个点光的所有图像，我们捕捉下的点光（几乎）与相应的相机（见图）搭配每个图像。2左）。设置被校准，给出一组n=6输入im。年龄，{i}nwith the corresponding camera calibration.这种宽基线设置-中心视图和边界视图之间的角度为37度-使得可以对用一小组摄像机拍摄整个物体。在下文中，我们描述如何从这些稀疏输入图像重建对象3.1. 多视点深度预测传统的MVS方法依赖于手工制作的功能，如哈里斯描述符，以找到对应的视图之间。这些特征对于光照变化或非朗伯表面不鲁棒，使得它们无法用于我们的目的。此外，由于稀疏的输入和大的基线，对象的部分可以在尽可能少的视图i的深度图Di。类似于最近的作品，基于学习的MVS [20，50，53]，我们的网络由两个组件组成：特征提取器F和对应预测器C。特征提取器是一个2D U-Net [38]，它为每个图像Ii提取16通道特征图。为了估计Ii处的深度图，我们扭曲所有的特征图。使用一组128个预定义的深度级别将视图映射到视图i，并通过计算视图上特征图的方差来构建3D平面扫描体积[9]。三维体积是毛皮-然后馈送到对应预测器C，对应预测器C是3D U网，以预测每个深度级别的概率。我们将深度计算为所有深度水平的概率加权和。训练损失被定义为预测深度和地面真实深度之间的L1损失通过学习特征表示和对应关系，所提出的框架对光照变化和镜面反射更鲁棒，从而产生比传统方法更准确的像素级深度预测。虽然这样的网络能够产生合理的深度，但恢复的深度在无纹理区域中具有误差。为了进一步提高准确性，我们在网络中添加了一个引导过滤器模块[46]，其中包括一个引导地图示例。牵引器G以及引导层g。令视图i处的初始深度预测为D′。引导地图提取器G将图像Ii作为输入并学习引导地图G（Ii）。最终深度图估计为：D=g（G（I），D′）.（一）训练损失被定义为预测深度和地面真实深度之间的L1所有组件都以端到端的方式进行联合培训。3.2. 多视图反射率预测从稀疏图像中估计地表反射率是一个高度欠约束的问题。先前的方法要么假设几何结构已知[2，3，31，10]，要么可以用特定器械[17]或MVS [34]重建。在我们的情况下，准确的几何形状不能重建稀疏的输入与传统的MVS方法。虽然我们基于学习的MVS方法产生合理的深度图，但它们也有错误，这使得使用它们来对齐图像和估计每个顶点的SVBRDF具有挑战性。相反，对于每个输入图像Ii，我们首先估计其对应的范数Ii和SVBRDF，由漫射粗糙度Ai、镜面粗糙度Ri和镜面粗糙度Si表示。为了估计视图i处的SVBRDF，我们使用预测深度Di将所有输入图像扭曲到该视图。多视图SVBRDF估计的一种方法可以是馈送5963i←j我将这堆扭曲的图像转换为卷积神经网络，如常用的U-Net [31，38]。然而，深度图中的不准确性导致变形图像中的未对准，特别是在遮挡区域中，并且这种架构对于这些问题不鲁棒。我们提出了一种新的架构，是强大的深度不准确和闭塞。如图3，我们的网络包括暹罗编码器[8]，E和解码器，D，有四个分支用于四个SVBRDF组件。为了估计参考视图i处的SVBRDF，编码器处理n对输入，每对包括图像Ii以及变形图像Ii←j，其中我们使用预测深度Di将视图j处的图像Ij变形到参考视图i。为了处理潜在的闭塞，直接定位闭塞由于深度不准确，使用预测深度在变形图像中的区域中进行选择并将它们屏蔽掉通常是不可行的。相反，我们保留扭曲图像中的遮挡区域，并在输入中包含深度信息，从而使网络能够学习哪些部分被遮挡。为了包含深度信息，我们从常用的阴影映射技术中获得灵感[44]。深度输入由两个部分组成：对于视图i中的每个像素，我们计算其在视图j中的深度Z i<$j;我们还采样其深度Z从深度图Dj中，图3：我们的多视图SVBRDF估计网络。编码器从参考图像和变形图像对中提取特征。这些特征被最大池化以获得单个参考视图特征映射，该映射被解码以预测该视图注意变形图像中的错误;最大池化减轻了它们对输出SVBRDF的影响。与直接将所有扭曲的图像堆叠在一起相比，我们提出的网络架构适用于成对的输入图像，并使用最大池化层跨视图聚合特征。最大池的使用使网络对深度不准确引起的遮挡和未对准更加鲁棒1）。它还使网络对输入视图的数量和顺序保持不变，这是一个可以利用的事实其在视图j上的投影。如果Zi←j大于非结构化捕获设置，则直观。的训练损失L∗i←j，则像素在视图j中被遮挡;否则，网络定义为：不闭塞。此外，对于参考中的每个像素，在视图i处，我们还包括视图i处的光的照明方向Li，以及视图j处的光的照明方向，表示为Li←j。我们在这里假设一个点光源模型由于灯光与摄像机搭配照明方向也包括输入中每个像素的观看方向。所有方向都在参考视图的坐标系这些线索对于网络使用光度信息推断表面法线至关重要。因此，一对视图i和j的输入是：L=LA+LN+LR+LS+LI（6）其中，前四项是每个SVBRDF分量的L2损失，LI是输入图像和使用我们的预测生成的渲染图像之间的L2损失。3.3. 几何重建先前的多视图深度和SVBRDF估计网络以全像素分辨率给我们每个视图的深度和法线图。我们融合这些每视图的估计，以重建一个单一的三维几何形状的对象。我们首先建立一个Hi，j ={Ii，Ii←j，Zi←j∗i←j，Li，Li←j{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}（二）点云从深度图，通过生成3D点从每个像素在每个视图深度图。对于每一点，输入总共包含14个通道，并且总共有n个这样的输入。我们将所有输入馈送到编码器网络E并获得中间特征fi，j。所有这些中间特征都通过最大池进行聚合产生视图i、f的公共特征表示的层：fi，j=E（Hi，j）11←211←21←2∗1←2编码器1,2Max池化SVBRDF解码器11←611←61←6∗1←6∗1编码器1,6……Z、Z5964我我我我（3）我们还从估计的正规映射中得到了它相应的正规映射给定这组具有表面法线的3D点，我们执行泊松重建[26]以重建融合的3D几何形状。由于深度图中的不准确性，初始点云可能包含离群值。为了去除输出几何中不需要的结构，我们通过将泊松重建中的空间八叉树的深度设置为7来生成粗略的初始几何，f=max-pool（{f i、jnj=1）（4）有效体素分辨率为1283.我们把这个初始的-在随后的阶段。与基于学习的f被馈送到解码器以预测视图i的每个SVBRDF分量：A，N，R，S=D（f）（5）直接从图像生成几何结构（体素网格[23，37]，隐式函数[35，39]或三角网格[43]）的3D重建方法，该方法可推广到任意形状并产生更详细的重建。}5965我我22照片翘曲我我I（p3.4. SVBRDF和几何细化给定初始的粗糙几何形状以及每个视图的SVBRDF预测，我们的目标是构建一个详细的3D网格与每个顶点的BRDF。对于每个顶点，获取其BRDF的一种简单然而，这导致模糊的结果（图。5），由于估计的SVBRDF和几何形状的不一致性。还要注意，我们的SVBRDF预测是从单个提要计算的-阿斯乌克岛然而，由于重建的几何形状的不准确性，到多个视图上的像素投影可能不一致受Zhou et al.启发[55]第55话我是一个不懂事的人扭曲到每个视图以更好地对准投影。特别地，对于每个输入视图，我们使用具有C=T2控制点（在我们的实验中T=11）的T×T让ti，c是视图i处的控制点的平移向量。所得到的像素投影pk，i由下式给出：ΣC转发网络传递，并不保证重现捕获的输入图像，因为网络已被训练以最小化整个重建损失。pk，i=uk，i+c=1θc（uk，i）ti，c，（9）训练集，而不是这个特定的输入样本。我们解决这两个问题，一种新的基于渲染的优化，估计每顶点BRDF，最大限度地减少渲染预测参数和捕获的图像之间的误差。由于稀疏的观察，独立优化每个顶点的BRDF会导致人为因素，如离群值和空间不连续性，如图所示五、经典的反向渲染方法使用其中θc返回控制点ti，c的双线性权重在像素位置uk，i.SVBRDF优化。我们优化每个视图的潜在特征f，每个顶点的混合权重w k，i和每个视图的扭曲字段t i，c来重建最终的SVBRDF。的所有K个顶点的渲染颜色和地面实况颜色之间的光度一致性损失由下式给出：手工制作的前科相反，我们优化了最初从SVBRDF预测的每视图特征映射E照片（fi，w，t）=1 克朗n·K||I∗（pk，i）−Ii（pk我）||二、编码器（Eqn.4）. 这些潜在的特征，凭借训练过程，捕获对象反射率的流形，并且当通过解码器时生成空间相干的每视图SVBRDF，D（等式11）（五）。在这个特征空间中进行优化，使我们能够根据输入图像调整重建，同时利用我们的多-k=1i =1在计算损失之前，我们将渲染的颜色限制在[0，1]的范围内。为了防止非刚性扭曲漂移，我们还添加了一个L2正则化器来惩罚平移向量的范数：查看SVBRDF估计网络。逐顶点BRDF和颜色。对于每个顶点v，我们表示-E型经线（t）=1 Σnn·CΣC||不i，c||2.（十）K将其BRDFbk重新发送为来自多个视图的BRDF预测的加权平均值：Σni=1c =1因此，用于优化的最终能量函数为：E= E（f ∈，w，t）+ λE（t）。（十一）bk=i=1wk，iD（pk我;f），（7）我们将λ设置为100，并使用Adam优化器[ 27 ]优化能量函数，学习率为0。001。其中Pk，i是视图i处Vk的对应像素位置，D（pk，i;fk）表示来自几何优化。我们使用优化的每个顶点我n，以通过重新设置来更新对象的几何形状视图i通过处理f i 通过解码器网络D，以及wk，i是逐顶点视图混合权重。渲染在视图i处的vk的颜色被计算为：K求解泊松方程（Sec. 3.3）。与初始几何重建不同，我们将空间oc树的深度设置为9，对应于5123的体素分辨率，∗ik，i ）= Θ（bk，Li（pk，i）），（8）更好地捕捉对象的细粒度细节我们使用在随后的SVBRDF优化中，其中Li（pk，i）是照明方向，也是视图i处顶点vk的观看方向，并且Θ是渲染方程。我们假设一个点光源与相机搭配（这允许我们忽略阴影），并且在渲染方程中只考虑直接照明按视角扭曲顶点vk可以投影到视图i使用摄像机标定;我们把这个投影∗5966迭代我们每50次SVBRDF优化迭代就更新一次几何，并且我们对SVBRDF优化执行400-1000逐顶点细化。我们的瓶颈多视图SVBRDF网络--我们使用它作为我们的反射率表示--可能会导致预测的SVBRDF中高频细节的丢失。我们把这些细节5967通过直接优化每个顶点的BRDF参数bk（十）、请注意，在上一次优化之后，估计的BRDF漫反射法向粗糙度镜面反射原始U-Net0.0060 0.0336 0.0359 0.0125我国的已经取得了良好的效果，图像非常接近输入图像。因此，在这个阶段，我们使用小的学习率（0。0005），并执行少量（40-100）迭代的优化。4. 执行情况和结果训练数据。我们遵循Xu et al.[50]并通过组合1到5个由随机高度图置换的基本形状（例如圆柱体和立方体）来程序化地生成复杂场景。我们生成20，000个训练场景和400个测试场景。我们将Adobe Stock数据集1中的高质量材质划分为训练集和测试集，并分别使用它们为生成的场景制作纹理。对于每一个场景，下面的设置在节讨论1，我们渲染6个输入使用自定义的基于Optix的全局照明渲染器查看分辨率为512×512的图像，具有1000个采样每个像素。我们还为每个视图渲染地面实况深度、法线和SVBRDF组件。网络架构。对于深度估计，我们使用2D U-Net架构[38]用于特征提取器F和指导地图提取器G。两个网络都有2个下采样/上采样模块。对应预测器C是具有4个下采样/上采样块的3D U网。对于多视图SVBRDF估计，编码器E和解码器D都是2D CNN，E中有3个下采样层，D中有3个上采样层。请注意，我们在SVBRDF网络中不使用跳过连接;这迫使潜在特征来学习有意义的反射空间，并允许我们在细化步骤中对其进行优化我们在所有网络中使用组归一化[48我们使用了一个可微分的渲染层来计算点照明下的局部阴影，而不考虑可见性或全局照明。在我们的并置照明设置中，这是一个合理的近似值详情请参阅补充文件。培训详情。所有网络都使用Adam优化器[27]进行了50个epoch的训练，学习率为的0。0002.深度估计网络在批量大小为12的64×64裁剪块上训练，SVBRDF估计网络在批量大小为8的320×320裁剪块上训练。训练在4个NVIDIA Titan 2080Ti GPU上进行了大约4天。运行时。我们的实现还没有优化最佳的定时效率。在实践中，我们的方法需要大约15分钟的时间从分辨率为512×512的图像进行完整重建，其中大部分时间用于几何融合和优化。1https://stock.adobe.com/search/3d-assetsLi等人[32] 0.0227 0.10750.0661-我们的（ 256×256 ）0.00470.02260.02570.0083表1：合成测试集上的定量SVBRDF评估。我们报告L2错误。由于Li et al.[32]在256×256的图像上，我们在该分辨率下进行了下采样和评估。此外，它们不能预测镜面反射。4.1. 综合数据评价我们在我们的合成测试集上评估我们的基于最大池化的多视图特别是，我们将其与基线U-Net（具有5个下采样/上采样块）进行比较，该基线U-Net采用所有粗略对准的图像（等式1中的H1，j，j）2）作为其编码器的输入，并跳过从编码器到四SVBRDF解码器。这种架构已被广泛用于SVBRDF估计[10，31，32]。可以在Tab中看到。 1，而我们的扩散性预测略（1。7%）比U-Net差，我们在特殊的粗糙度，粗糙度和正常预测方面明显优于它，分别为31%，23%和9。L2损失降低5%这是在我们的网络中不使用跳过连接的情况下（以允许稍后在我们的管道中进行优化）。我们还比较了我们的结果与国家的最先进的单图像形状和SVBRDF估计方法李等人。[32 ]第32段。不出所料，我们的表现大大超过了它们，这证明了聚合多视图信息的有用性4.2. 真实采集数据我们评估我们的方法上捕获的真实数据使用一个龙门与前视红外相机和一个几乎并置的光来模仿我们的捕获设置。更多结果请参考资料。几何重建评价。我们的框架结合了我们预测的深度和法线来重建初始网格。图4显示了我们重建的网格与COLMAP（一种最先进的多视图立体框架）的网格之间的比较[40]。从这样的稀疏输入和低纹理表面，COLMAP无法找到跨视图的可靠对应关系，这导致了嘈杂的，不完整的3D网格。相比之下，我们的初始网格已经更加完整和详细，因为我们的深度和法线更加准确。我们的联合优化进一步细化了每个顶点的法线，并提取对象几何体中的精细细节。SVBRDF优化的评估。我们比较了我们的SVBRDF和几何优化方案（Sec.3.4）使用基于以下的权重来平均每视图预测：5968COLMAP我们最初的几何形状我们优化的几何结构与Nam等人的比较[34]我们还将我们的工作与Nam等人的最先进的几何和反射率重建方法进行了比较。他们的工作是在同位置照明下用手持相机捕获60多个对象的图像;他们首先使用COLMAP [40]来重建粗略的形状，并使用它来引导基于物理的优化过程，以恢复每个顶点的法线和BRDF。COLMAP不能从我们的稀疏输入生成完整的网格（见图1）。4）. 因此，我们提供了输入图像，图第四章：比较对几何重建COLMAP无法从稀疏输入重建完整的网格。相比之下，我们的初始网格质量要高得多，我们的联合优化恢复了网格上更细粒度的细节。图中的输入图像8（顶部）。摄像机校准和初始几何形状提供给处理这些数据的作者。如可见于图6，尽管从相同的初始化开始，但我们最终由于他们使用了与我们不同的BRDF表示，使得直接的SVBRDF比较困难，在图7中，我们比较了在新的照明和视点下重建对象的渲染。这些结果表明，它们不能处理我们的稀疏输入，并产生噪声，错误的反射率（ CAT 场景）或无法恢复高镜面反射物体（CACTUS）场景的镜面高光。相比之下，我们的结果具有更高的视觉保真度。更多效果图请参考补充视频。更多关于真实数据的结果图8显示了我们的方法在其他真实场景上的结果。我们可以看到无优化直接优化我们的优化地面实况我们的方法可以重建详细的几何形状，图5：SVBRDF优化的比较。简单没有优化的平均会产生模糊的结果，而直接的逐顶点优化会导致离群值和不连续性。相比之下，我们的优化产生了更直观的结果。我们最初的几何形状[Nam等，2018年]我们优化的几何结构图6：与Nam等人的比较[34]。虽然两者具有相同的初始化，但我们基于学习的细化产生更准确，更详细的几何形状。图中的输入8.视点和曲面法线之间的角度，以及这种平均化之后的逐顶点优化。从图我们可以看到加权平均产生模糊的结果。优化每个顶点的BRDF会带回细节，但由于缺乏任何正则化，外观上也会出现虚假的不连续性。相比之下，我们的潜在空间优化方法恢复详细的外观没有这些文物。适用于各种复杂形状和反射率的物体。比较我们在新相机和搭配照明下的估计效果图与地面真实拍摄的照片，证明了我们重建的准确性。我们还可以在新颖的环境照明下逼真地渲染这些对象。请参阅补充文件和视频了解更多结果。局限性。我们的方法可能无法处理高度非凸的对象，其中一些部分在少至单个视图中可见，并且没有对应的线索来输入正确的深度。此外，我们没有考虑全局照明SVBRDF优化。虽然在大多数情况下这是一个合理的近似，但在一些具有强烈相互反射的特定场景中可能会失败。对于未来的工作，将我们的方法与基于物理的可微分渲染[29，54]结合起来处理这些复杂的光传输效应将会很有趣。5. 结论我们已经提出了一个基于学习的框架，从一个稀疏的六张图像中重建任意对象的几何形状和外观。我们使用基于学习的MVS预测每个视图的深度，并设计了一种新的多视图反射率估计网络，该网络鲁棒地聚合来自稀疏视图的信息，以进行准确的法线和SVBRDF估计。我们还提出了一种新型的关节5969捕获对象[Nametal. 2018年]我们的几何学我们[Nametal. 2018年]我们的几何学我们图7：与Nam等人的比较[34]。我们在新的视点和光照下绘制了两个重建的物体。Nam等人无法从稀疏视图中准确地重建外观，并产生噪声边缘和不正确的镜面高光（顶部）或完全错过镜面分量（底部）。相比之下，我们的方法产生逼真的结果。新颖的视图地面实况点光渲染标准粗糙度几何环境贴图渲染图8：真实场景的结果对于每个场景，我们展示了重建的几何体，法线贴图和SVBRDF组件（请参考镜面反射的补充材料我们比较了我们的点光渲染结果（第二列）在新的观点和照明与捕获地面实况照片（第一列）。我们还展示了在环境照明下重建外观的对象渲染（最后一列）。在潜在特征空间中进行优化，以融合和改进我们的多视图预测。与以前的方法，需要密集采样的图像，我们的方法产生高质量的重建从稀疏的图像集，并提出了一个步骤，实际的外观捕捉3D扫描VR/AR应用。致谢这项工作得到了支持在部分由NSF 资助1617234，ONR资助N000141712687，N000141912293 ， Adobe 和 UC San Diego Center forVisual Computing。5970引用[1] Panos Achlioptas，Olga Diamanti，Ioannis Mitliagkas，and Leonidas Guibas.三维点云的学习表示与生成模型。在ICML，第40-49页，2018年。2[2] Miika Aittala，Timo Aila，and Jaakko Lehtinen.神经纹理合成的反射率建模。ACM事务处理图表，35（4）：65：1-65：13，July 2016. 3[3] Miika Aittala，Tim Weyrich，and Jaakko Lehtinen.固定材料的两次svbrdf捕获ACM Transactions on Graphics，34（4）：110：1-110：13，2015年7月。二、三[4] 尼尔·奥尔德林，托德·齐克勒，大卫·克里格曼。具有非参数和空间变化反射率的光度立体在CVPR中，第1-8页。IEEE，2008年。2[5] Seung-Hwan Baek，Daniel S Jeon，Xin Tong，and Min HKim. 同时采集偏振SVBRDF和法线。ACM Transactionson Graphics，37（6）：2681[6] Guanying Chen ， Kai Han ， Boxin Shi ， YasuyukiMatsushita，and Kwan-Yee K Wong.自校准深度光度立体网络。在ECCV，2018。3[7] Guanying Chen，Kai Han ，and Kwan-Yee K Wong.Ps-fcn：一个灵活的光度立体学习框架在ECCV，2018。3[8] Sumit Chopra，Raia Hadsell，Yann LeCun，等.学习相似性度量有区别地，与应用到人脸验证。见CVPR，第539-546页，2005年。4[9] 罗伯特·T·柯林斯一种真正的多图像匹配的空间扫描方法。见CVPR，第358-363页。IEEE，1996年。3[10] Valentin Deschaintre 、 Miika Aittala 、 Fredo Durand 、George Drettakis和Adrien Bousseau。使用渲染感知深度网络捕获单图像 SVBRDFACM Transactions onGraphics，37（4）：128，2018。一、三、六[11] ValentinDeschaintre，MiikaAittala，Fre´doDurand，GeorgeDrettakis，and Adrien Bousseau.灵活的svbrdf捕获与多图像深度网络。计算机图形论坛（欧洲图形研讨会的论文集渲染），38（4），2019年7月。3[12] Yue Dong，Guojun Chen，Pieter Peers，Jiawan Zhang，and Xin Tong.运动外观：未知光照下空间变化表面反射率的恢复。ACM Transactions on Graphics，33（6）：193，2014。2[13] YasutakaFuruk aw a，CarlosHern a´ndez，etal. 多视图几何形状和表面反射率。 ACM Transactions onGraphics，29（4）：99，2010。一、二、三[18] Po-Han Huang ， Kevin Matzen ， Johannes Kopf ，Narendra Ahuja，and Jia-Bin Huang. DeepMVS：学习多视图立体视觉。在CVPR中，第2821-2830页，2018年。2[19] Zhuo Hui，Kalyan Sunkavalli，Joon-Young Lee，SunilHadap，Jian Wang，and Aswin C Sankaranarayanan.利用brdfs的单变量采样捕获反射率。在ICCV，第5362-5370页，2017年。3[20] Sunghoon Im ， Hae-Gon Jeon ， Stephen Lin ， and In SoKweon.DPSNet：端到端深度平面扫描立体声。ICLR，2019。3[21] Mengqi Ji，Juergen Gall，Haitian Zheng，Yebin Liu，and Lu Fang. SurfaceNet：用于多视图立体视觉的端到端3D神经网络。在ICCV，第2307-2315页，2017年。2[22] Kaizhang Kang ， Zimin Chen ， Jiaping Wang ， KunZhou，and Hongzhi Wu.使用自动编码器的高效反射率捕获。ACM Transactions on Graphics，37（4）：127-1，2018。2[23] AbhishekKa r，ChristianHaene，andJitendraMalik. 学习多视角立体机。在NIPS，第365-376页4[24] Brian Karis和Epic Games虚幻引擎中的真实着色4. 1[25] Michael Kazhdan，Matthew Bolitho，and Hugues Hoppe.泊松曲面重建。在Proceedings of the fourth Eurographicssymposium on Geometry processing，第7卷，2006中。2[26] Michael Kazhdan和Hugues Hoppe筛选泊松曲面重建。ACM Transactions on Graphics，32（3）：29，2013。4[27] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。ICLR，2014年。五、六[28] F. Langguth，K. Sunkavalli，S. Hadap和M. Goesele阴影感知多视图立体。在 2016 年欧洲计算机视觉会议（ECCV）的会议记录中。2[29] Tzu-MaoLi ， MiikaAittala ， Fre´doDurand ， andJaakkoLehti-nen.通过边缘采样的可微蒙特卡罗射线追踪。ACM 事务处理图表（ Proc. SIGGRAPH Asia ）， 37（6）：222：1-222：11，2018. 7[30] 小李、岳东、皮特·皮尔斯、心彤。使用自增强卷积神经网络从单张照片中模拟表面外观。ACM Trans.立体声：Atutori a l. 基础和Trends图形和视觉，9（1-2）：11计算机Graph. ，36（4）：45：1-45：11，2017年7月。3[31] Zhengqin Li，Kalyan Sunkavalli，and ManmohanChandraker.[14] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视觉。IEEE Transactions on pattern analysis and machineintelligence，32（8）：13622[15] 段高、小李、岳冬、彼得·皮尔斯、昆旭、辛桐。深度逆渲染，用于从

下载后可阅读完整内容，剩余1页未读，立即下载