深度学习捕获物体形状和外观的新方法

46 浏览量更新于2023-10-23 收藏 1.44MB PDF 举报

深度学习

图像捕获

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13982两次空变BRDF及形状估计Mark Boss1分，Varun Jampani2分，Kihwan Kim2分，Hendrik P.A.Lensch1，Jan Kautz21个图宾根大学，2个NVIDIA闪光无闪光一种新的漫反射镜面粗糙度法向深度重绘制方法掩模图1：实际SVBRDF和形状估计。两次采样输入以及SVBRDF（反射度、镜面反射度、粗糙度）和形状（深度和法线）的相应估计值。样品取自[5]。摘要从图像中捕获物体的形状和空间变化外观（SVBRDF）是一项具有挑战性的任务，在计算机视觉和图形学中都有应用。传统的基于优化的方法通常需要在受控环境中从多个视图拍摄大量图像。较新的基于深度学习的方法只需要少量的输入图像，但重建质量无法与优化技术相提并论我们提出了一种新的深度学习架构，具有对形状和SVBRDF的逐阶段估计。早期的预测指导每个估计，联合细化网络稍后细化SVBRDF和形状。我们遵循一个实用的移动图像捕捉设置，并使用未对齐的双镜头闪光灯和无闪光灯的图像作为输入。我们的双镜头图像捕获和网络推理都可以在移动硬件上运行。我们还创建了一个大规模的合成训练- ING数据集与域随机几何和现实，*在NVIDIA实习期间完成的工作。数据集和代码可从以下网址获得：markboss.me/publication/ cvpr20-two-shot-brdftic材料。在合成数据集和真实世界数据集上的广泛实验表明，我们在合成数据集上训练的网络可以很好地推广到真实世界的图像。与最近的方法的比较表明，所提出的方法的优越性能。1. 介绍对场景的固有属性（如物体的形状和反射率以及场景的照明条件）的估计通常被称为计算机视觉中的逆渲染问题[51，45，23]，并且已经成为许多应用的核心，如图像的重新照明[46]，照片级逼真的混合现实[39]以及用于内容创建任务的资产的自动创建[4].在这项工作中，我们感兴趣的是在一个场景中的对象的形状和外观的自动估计，从只有两个图像。特别是，我们用深度图表示物体的形状，并将外观表示为双向反射分布函数（BRDF）[43]。BRDF描述了物体的低级材料属性，定义了光线如何在物体表面上的任何给定点反射。最受欢迎的参数之一13983模型[12]表示漫射和镜面反射特性以及表面的粗糙度。由于材料属性可以在整个表面上变化，因此必须估计每个图像像素处的BRDF以获得更真实的外观（即，空间变化BRDF（SVBRDF））。由于BRDF取决于视图和光线方向，并且从单个2D图像估计深度是一项模糊的任务，因此多视图设置提高了形状[50]和BRDF [39]的估计精度。仅从几张图像预测形状和BRDF仍然是非常困难的。对于形状估计，基于深度学习的深度估计的进步允许我们估计一个[17，25]，或一对图像[58]有效。由于单目深度估计不如多视图方法准确，因此我们在我们的方法中利用表面上的阴影线索来消除几何形状的歧义[6，65我们提出了一种基于神经网络的方法来估计SVBRDF和形状的对象随着照明从给定的两个镜头的图像：闪光灯和无闪光灯对。最近一些用于BRDF估计的深度学习方法[14，34，35]仅使用单个闪光图像作为输入。Flash图像通常具有苛刻的反射高光，其中输入像素信息在非HDR图像中饱和。Li等[35]使用单个输入图像并估计BRDF的形状和部分，例如漫反射和粗糙度，同时忽略镜面反射颜色。在这项工作中，我们使用闪光灯和无闪光灯的图像对作为输入，允许网络访问像素信息时，相应的像素在闪光灯图像饱和的无闪光灯的图像我们注重实用性：我们的输入捕获设置遵循一个真实的场景，其中两个镜头的图像是连续拍摄使用手机相机在突发捕获。该系统旨在解决由于相机抖动而导致的两次拍摄图像之间的不对齐。任何学习方法的一个关键挑战是对训练数据的我们通过创建一个大规模的合成数据集来解决这个问题。Flash和无Flash图像使用高质量的人类创作的SVBRDF纹理渲染，这些纹理应用于通过几何形状和背景的域随机化[55]生成的合成几何。我们在这种合成数据上训练的网络很好地生成了真实世界的物体图像。形状和SVBRDF估计的另一个关键挑战是模糊性问题。例如，图像中较暗的区域可能是由其材质颜色较暗、该区域因其形状而略微产生阴影或该点处的照明较暗而创建的。我们通过使用级联方法来解决这种模糊性，其中使用单独的神经网络来估计形状（深度），照明和SVBRDF。具体来说，我们首先使用几何估计网络来估计深度和法线。然后对光照进行近似，再进行SVBRDF重构.每一步都是由以前的网络。最后，形状和SVBRDF优化联合使用的细化网络。每个任务都由专门的网络架构实现。经验上，这种级联回归方法与单步联合估计相比更可靠作为这种级联方法的有利副作用，每个网络的大小与大的联合估计网络相比是小的。这允许推理网络甚至在移动终端上操作再加上两次拍摄的移动捕捉，这是一个非常实用的应用。定量分析的基础上合成的数据集，包括现实的物体形状和SVBRDF的demonstrates，我们的方法产生更准确的估计形状和SVBRDF相比，基线方法。我们还定性地证明了我们的方法在真实世界的两次拍摄数据集上的适用性[5]。2. 相关工作关于对象SVBRDF和/或形状估计的文献是大量的。在这里，我们只讨论与我们相关的代表作品。BRDF估计每个BRDF维度的穷举采样需要长的采集时间。几种建议的方法集中在减少采集时间[27，3，16]。这些方法引入了捕获设置和优化技术，减少了重建高质量SVBRDF所需的图像数量。最近，一些尝试[14，31，34，2，4]用一个或两个闪光图像在平坦表面上重建SVBRDF。这些方法利用在大量数据上训练的神经网络，并通过学习BRDF参数的统计特性在一定程度上解决了模糊性问题。对于形状和阴影的联合估计，形状和阴影的单独优化步骤是常见的[26，40，19，7]。Lensch等人[26]引入Lumitexels，其将先前获取的形状信息与来自输入图像的亮度信息堆叠，以指导BRDF估计并减少优化中的模糊性与联合估计相比，找到的局部极小值更少，优化更鲁棒。最近，预测物体或场景的形状和BRDF的任务也使用深度学习模型来解决[35，51]。Li等[35]使用初始估计网络，然后使用几个级联细化网络，从单个闪光图像预测物体的形状和BRDF。在这里，BRDF由漫反射粗糙度和镜面反射粗糙度组成，但缺少镜面反射粗糙度。镜面反射是必不可少的，然而，在重新渲染金属物体，例如.与Liet al相比，[35]，我们的方法还使用镜面反射估计SVBRDF与平面SVBRDF估计[14，34，2，4]相比，我们的方法处理来自任何视图位置的具有形状的完整对象另外，由于我们的未对齐的双镜头设置，饱和13984形状照明联合−丢失图像形状和SVBRDF快闪图像输入渲染器SVBRDF重新渲染图2：级联网络。形状、光照和SVBRDF估计的推理流水线概述。由于我们的移动捕获场景，闪光灯高亮被更好地补偿，同时仍然为用户提供相同的一键按压捕获体验。固有成像固有成像是将场景图像分解为反射（漫反射）和阴影的任务[8，7，38，53]。随着深度学习的进步，从标记数据[28，41，52]，未标记数据[33]中分离形状，反射率和着色的问题得到了解决。和部分标记的数据[66，32，42，9]。由于非常简单的渲染模型，用例仅限于我们的SVBRDF估计设置，其可用于新灯光场景中的一般重新渲染。形状估计人们可以从立体图像中获得高质量的深度，但单目深度估计的问题是相当具有挑战性的。近年来，单目深度估计主要通过深度学习来解决[61，37，30，18，49，25]。这个问题特别棘手，因为从单个图像中不知道绝对比例，并且深度线索需要通过阴影信息（例如二次光衰减）来解决[36]。3. 方法如引言中简要讨论的，为了解决形状和SVBRDF估计中的模糊性问题，我们提出了一种用于形状、照明和SVBRDF预测的新型级联网络设计。图2显示了我们的级联网络的概述。问题设置我们的网络采用两次拍摄的对象图像（闪光灯和无闪光灯）和相应的前景对象掩模，并估计形状和SVBRDF。我们还估计照明作为侧预测，以帮助形状和SVBRDF预测。两次拍摄的图像可以稍微错位，以支持手持相机的实际图像捕获。对象遮罩允许我们仅评估闪光图像中对象的像素，并且可以使用GrabCut轻松生成[48]。对象形状表示为作为每个像素处的深度和法线。深度图提供了对象的粗略形状，而法线图更精确地模拟局部变化。这种形状表示通常用于各种BRDF估计方法[35，40]。我们使用Cook-Torrence模型[12]来表示每个像素处的BRDF，其中包含漫射反射率（3个参数）、镜面反射率（3）和粗糙度（1）。类似于[60，29]，我们用24个球面高斯估计环境照明。网络概述和动机为了解决形状/SVBRDF模糊性，我们从透射优化技术[26，40]中获得灵感因此，单独的网络被用于形状，照明，和SVBRDF估计在cas-caded以及迭代的方式。来自级联中的网络的早期阶段的预测被用作后期网络的输入，以引导网络预测到更好的解决方案。此外，场景用当前估计重新渲染，并使用残差图像进一步细化。由于闪光灯和无闪光灯的图像略有错位，形状估计是比较少的挑战相比，SVBRDF估计。像素的未对准以及两次拍摄图像之间的像素差异[36]是物体深度的良好指标因此，我们首先使用专门的合并卷积网络预测深度和法线，然后，SVBRDF预测与当前的形状和照明的估计作为额外的输入。最后，在计算残差图像后，我们使用联合细化网络对形状和SVBRDF进行有关网络架构的详细信息，请参阅补充说明。3.1. 基于合并卷积的形状估计由于摄像机参数未知，并且两次拍摄的图像具有最小基线，因此传统结构-139852L=L.来自运动或立体解决方案对于密集深度估计是无用的。形状估计需要依赖于非结构化的透视移位以及闪光灯和无闪光灯图像之间的像素差异。为了紧密地整合来自两个图像的信息，我们设计了一个用于形状估计的专用卷积网络。对于深度和法线贴图预测，我们使用U网Prev. 层/输入1Prev. 图层/无Prev. 层/输入2下一层下一层/输出下一层类似于编码器-解码器架构[47]。代替标准卷积块，我们建议使用新的合并卷积块（MergeConv）。我们将对象掩码与每个双镜头输入图像连接起来作为网络的输入图3示出了MergeConv块。输入图像或其中间特征都通过2D卷积（Conv2D）单独处理。每个Conv2D操作的输出在通道中与来自前一个MergeConv层的合并输出连接，并使用另一个Conv2D操作进行处理。受ResNet [ 20 ] 中的残差连接的启发，我们添加了Conv2D输出，如图所示。3.第三章。我们使用4个MergeConv块用于编码器，也使用4个用于解码器。在encod-ing，使用2×空间下采样的最大池化。对于解码器中的每个MergeConv，我们使用2×最近邻上采样。最终的深度和法线贴图估计使用单独的 2D 卷积产生，然后是 S 形激活。该MergeConv架构背后的基本原理是保持分离两个输入图像的路径过程，同时使用中间的第三路径在它们之间我们认为，两个输入图像中的信息对于形状推理至关重要，这种架构有助于在整个网络中保持每个图像的特征完整从经验上讲，我们观察到可靠的更好的形状预测与此架构相比，一个标准的U-网与类似数量的网络参数。训练损失基于地面实况（GT）和预测深度之间的L2距离、L深度以及GT和预测法线之间的角距离L正常。此外，我们使用一个新的一致性损失之间图3：合并卷积。合并卷积为两次输入提供单独的路径，并在第三路径中合并信息。3.2. 形状引导的光照估计为了指导SVBRDF预测，我们还估计了环境照明。因此，BRDF预测可以考虑环境光并减少额外的高光，以及改善高光颜色和强度。照明用24个球面高斯（SG）表示然而，我们仅估计振幅并设置轴和锐度以覆盖单位球体。因此，该估计仅估计SG的幅度，从而产生24个RGB值。由于环境照明可以达到非常高的值，并且闪光和无闪光输入图像处于LDR中，因此SG幅度被限制为0和2之间的值。有关环境贴图示例及其SG表示，请参阅补充文件。我们使用一个小的卷积编码器网络，然后使用全连接层进行照明估计。该网络接收双镜头图像、对象遮罩以及预渲染预测的深度和法线作为输入。由于照明在朝向观察者的表面上被反射，因此准确地估计的形状信息有助于更好地照明。估计。为了训练照明网络，我们使用预测和地面真实SG之间的L2距离作为损失函数。3.3. 引导式SVBRDF估计角预测的正态n和正态n来源于SVBRDF估计成为一个不那么模糊的任务深度信息d，其强制预测的范数遵循形状的曲率：当以已知的物体形状和环境照明为条件时。因此，与两次拍摄的图像一起，先前估计的深度、法线和照明被法线/深度一致性nǁnǁ−n*ǁn∗ǁ 、（1）用作SVBRDF网络的输入，以预测漫反射和镜面反射颜色以及表面粗糙度1000 万美元Σ埃尔德·埃尔德1ΣT在每个像素处。根据最近关于BRDF估计的工作n=10d2宽=x宽度为 2、（二）[31，34，14]，U-net架构[47]用于我们的SVBRDF网络。使用沿水平（x）和垂直（y）方向的梯度从深度图导出法线方向 z分量可以被认为是强度因子，从图像宽度导出。总损失是加权的三种损失的组合：L深度+L法线+0。5×微分渲染我们开发了一个微分渲染模块，从估计的深度，法线，照明和SVBRDF重新渲染对象闪光图像。在每个曲面点处，渲染器计算直射光法线/深度一致性2角从闪光灯光源和估计的环境照明并将其与BRDF集成以计算二维转换Concat合并转换二维转换+游泳池操作游泳池操作游泳池操二维转换13986光的反射[22]。通过将照明以及BRDF模型表示为球面高斯（SG）来实现环境照明的快速评估[59]。两个SG的乘积是SG，SG的积分有一个闭合形式的解，计算起来很便宜。SVBRDF网络的损失函数使用不同损失项的组合来训练SVBRDF网络：GT和预测的SVBRDF参数之间的平均绝对误差（MAE）以及合成的仅直接照明闪光GT图像和重新渲染的直接照明闪光图像之间的损失。渲染损失通过可微分渲染器反向传播以更新SVBRDF网络。由于渲染可能会导致镜面高光产生较大值，因此MAE损失按log（1+x）计算，其中x是指仅直接光合成输入和重新渲染的图像。3.4. 关节形状和SVBRDF细化在我们的级联网络中，我们使用估计的深度来指导SVBRDF预测。同样，可以利用已知的SVBRDF获得更好的深度预测。我们共同优化深度，法线，和SVBRDF使用一个单独的细化网络。对于该细化，使用所有较早的预测以及重新渲染的先前结果与输入闪光图像之间的残留损失图像。该网络架构是一个小型CNN编码器和解码器的3个步骤，每个步骤之间有4个ResNet块[20]。损失函数是预测参数图和地面实况图之间的MAE损失。3.5. 执行级联网络以及可微分渲染器在Tensorflow [1]中实现。整个管道由4个网络组成，如图所示。二、每个网络都相对较小，整个流水线需要700 ms，包括在Nvidia 1080 TI GPU上渲染256×256图像。在GooglePixel 4移动终端上，大约6秒。渲染步骤在单线程桌面CPU（AMD Ryzen 71700）上大约需要220毫秒，在Google Pixel 4上也有类似的速度。请参考补充说明以了解进一步的运行时分析。训练所有网络都使用ADAM优化器训练200个epoch，每个epoch 1500步[24]，开始时的学习率为2 e-4，100个epoch后减少一半网络按顺序进行训练因为级联中的每个网络使用先前网络的结果作为输入。除了产生更好的结果之外，级联网络设计与单个联合网络相比的另一个主要优点是每个子网络都很小，并且整个网络可以适合移动硬件。我们...将网络模型转换为在移动硬件上运行的TensorflowLite，并开发一个高度实用的Android应用程序，该应用程序可以连续捕获两次闪光和无闪光图像，并运行级联网络来估计SVBRDF和形状。我们使用设备上的GrabCut [48]来获得对象掩码。在图8中，示出了来自移动应用的预测。有关移动应用程序和进一步预测的更多详细信息，请参阅补充资料。4. 大规模SVBRDF形状数据集扫描真实世界物体的SVBRF是非常耗时且昂贵的由于我们依赖深度学习技术进行SVBRDF和形状估计，因此需要大量数据进行网络监督。我们用真实的SVBRDF材料创建了一个高质量的材料收集我们从各种在线来源收集了公开可用的人类创作的高质量SVBRDF地图[44，13，64，10，54，57]。这些收集的SVBRDF图的参数化是针对Cook-Torrence模型[12]。总的来说，收集包括1125高分辨率SVBRDF地图。为了进一步增加材料池，我们随机调整大小，对这些实物地图进行768×768的裁剪。我们还将随机叠加与简单的coni-对比度、色调和亮度变化。最终的材质池包含11，250个材质贴图。示例材质贴图如图所示。4.第一章域随机对象建模生成3D对象的一个选项是收集逼真的对象网格并将材质应用于这些网格。然而，它是具有挑战性的收集大规模的对象网格数据，涵盖了广泛的对象类别。而且，将对象网格映射到相应的材料（例如，将陶瓷材料用于茶壶）将导致小的数据集，因此，将随机材料应用于对象网格是合理的策略。我们注意到，将随机材质贴图应用于形状复杂的对象网格将导致扭曲的纹理或平铺伪影。由于这些众多的挑战，我们选择随机化对象的形状来合成大规模的数据。继Xuet al. [62]，将随机选择的材料应用于9种不同的形状基元，例如球体、圆锥体、圆柱体、圆环体等。我们随机选择6到7个材质贴图的基本形状，并随机放置它们来组装场景。图中显示了对象形状基元的示例。 4. 第一章这种策略类似于域随机化 [55]（DR），它在高级语义任务（如对象检测[56]）中很有用。在这里，我们演示了使用DR的低层次但复杂的任务SVBRDF和形状估计。为了简单起见，我们将材质映射和几何随机对象形状称为DR对象。图4示出了具有GT形状和SVBRDF参数的样本基元形状、材料和所得到的DR对象。13987闪光无闪光漫反射镜面粗糙度正常深度简单的形状+材料图4：大规模合成数据集。（左）用于数据集创建的基本形状和材料的示例，（右）具有各种属性的两个示例的可视化。HDR照明对于环境照明，我们从[63]中收集了285个高动态范围（HDR）照明图。这些贴图是在经纬度上的图像，它们被包裹在球体的内部，球体充当DR对象的光源。渲染我们使用Mitsuba [21]渲染器来创建DR对象的两次闪光和无闪光图像，该DR对象使用随机选择的照明进行照明。DR数据集总共包含10万个生成的场景。请注意，每个DR对象都由不同采样的基本体形状组成，并且最近曲面与相机的距离在不同DR对象之间会有所不同。这个设置模仿了真实世界的捕捉设置，其中物体到相机的距离是变化的。对于无闪光灯图像渲染，相机位置略微偏移以模仿移动场景捕获中的相机抖动。除了两次闪光和无闪光的图像，我们还渲染另一个闪光图像，只有直接照明。该直接照明闪光图像用于在可微分渲染之后额外地监督 SVBRDF 网络（第123.3）。该仅直接照明的图像仅用于训练监督，并且不需要用于推理。此外，我们使用Mitsuba [21]渲染GT深度，法线，dif- fuse反射，镜面反射和粗糙度贴图，用于直接网络监督。图4显示了来自此数据集的样本，补充中有更多内容，还提供了有关渲染设置的其他详细信息。5. 实验我们在合成和真实数据集上评估了我们的方法，并与几种基线技术进行了比较。在本节中，我们提供了定量和定性结果，并参考补充材料以获得进一步的视觉结果和比较。测试数据集我们定量验证所提出的方法与现实的物体形状的合成数据，SVBRDF和定性的真实世界的两次拍摄图像数据集[5]。这两个数据集的图像在网络训练期间是不可见的。对于合成测试数据，我们收集了20个免费提供的，具有真实形状和材料的完全纹理的3D对象[11]。这些对象使用Mitsuba渲染器[21]进行渲染，其中包含不可见的HDR照明贴图。图5和图6显示了我们的合成测试数据集的两次拍摄输入图像的样本。对于现实世界的评估，我们使用来自[ 5 ]的最近“闪光灯和环境照明数据集”的两次拍摄图像我们已经在“对象”和“玩具”类别中的几个样本上创建了前景对象遮罩，因为这些样本符合单个对象的假设。该数据集不包含地面实况BRDF参数，但可以在估计上以及在具有不同相机视图和照明的重新渲染上检查视觉质量。为了评估形状和SVBRDF预测的质量，我们主要使用直接比较地面实况（GT）和预测的指标。对于深度和法线估计，均方误差（MSE）是拟合候选。为了与预测相对深度的方法进行比较，我们采用了[25]中的标度位移不变详见补充资料。对于SVBRDF，没有明确的指标与人类对材料的感知一致。继以前的工作，我们也使用的MSE度量SVBRDF预测地图。5.1. 消融研究在我们的框架内，我们根据经验评估我们在网络设计中做出的不同选择。级联与联合网络我们将级联网络与单个大型联合网络进行比较，该网络将所有形状和SVBRDF参数一起估计。为了实现公平的通信，我们设计了一个联合（JN），其网络参数数量与我们的级联网络（CN）相当（“Ours-CN”与“Ours-CN”）。'Ours-JN'）。JN遵循U-Net [47]架构。表1显示了它们之间的定量比较。结果表明，CN始终13988MSE：0.029 MSE：0.031 MSE：0.020 MSE：0.012 MSE：3.006未估计MSE：0.005MSE：0.020MSE：0.010MSE：0.011MSE：0.001平均标准误差：2.900输入弥漫性镜面粗糙度正常深度照明重新渲染图5：与Li等人的比较。[35 ]第35段。我们的估计弥漫，深度和正常更准确，特别是。MSE：0.009 MSE：0.074 MSE：0.009MSE：0.003 MSE：0.019 MSE：0.001输入弥漫性正常深度图6：与Barron等人的比较[7]（SIRFS）。Barron等人不估计镜面反射和粗糙度参数。方法弥漫性镜面粗糙度正常深度[25]第二十五话NANANANA【0.006】SIRFS [7]【0.033】NANA0.089【0.021】[42]第四十二话【0.018】NANANANALi等[35]第三十五届0.160/[0.019]NA0.0720.0340.024Ours-JN0.065/[0.022]0.0530.0640.025【0.005】关于我们0.060/[0.018]0.0470.0610.021【0.004】表1：最新技术水平比较。20个不可见对象的样本数据集的均方误差（MSE）。在[.]中的尺度和平移不变度量。在适用的地方。对于漫反射颜色，该度量仅是比例不变的。在SVBRDF和形状估计上都优于JN，幅度很大。这从经验上强调了我们的引导式逐阶段估计和联合细化与使用单个大型网络进行联合SVBRDF和形状估计相比无闪光掩模Flash掩模无闪光FlashGT我们我们Barron等人GTLi等人13989合并与标准卷积的形状估计这项工作的另一个技术创新是使用MergeConv块（第二节）。3.1）在形状估计网络中而不是标准的卷积。总体而言，深度估计误差从MSE为0. 021比0。016和正常MSE从0. 026比0。0215.2. 与最新技术水平的比较据我们所知，我们是第一个使用两次拍摄图像作为输入并完成SVBRDF估计的工作，包括物体的镜面颜色和形状估计。大多数现有的密切相关的技术通常使用单个闪光图像作为输入，并且仅在平坦表面上工作[14，15，34，31]，或者不估计特殊颜色[35]。虽然我们的方法具有独特的设置，但我们与SIRFS [7]，Li等人进行了比较。[35]和RAFII [42]关于SVBRDF和形状估计。SIRFS [7]使用无闪光灯的单个图像作为输入，并使用基于优化的方法预测漫射光、阴影和形状。RAFII [42]使用单个非闪存图像来执行本征分解。目视检查结果见补充资料。基于一个单一的闪光图像李等人。[35]是一种最近的深度学习方法，可以预测漫射的粗糙度，粗糙度，法线和深度图。表1中所示的20个对象合成测试数据集的定量结果表明，与SIRFS [7]和Li等人相比，我们的方法（Ours-CascadeNet）具有更好的性能。[35 ]第35段。由于SIRFS预测弥漫性血管紧张素转换酶仅达到一个比例因子，我们还报告了弥漫性血管紧张素转换酶的比例不变MSE评分。图5显示了与Li等人的视觉比较。[35 ]第35段。我们的估计在视觉上也更接近GT。特别是，我们可以在预测的漫射体中观察到清晰的视觉差异，其中光信息在我们的结果中分离得更好。此外，我们的方法的法线映射中的对象的一般形状遵循羊角面包的轮廓，而Li等人的方法。预示着一个基本平坦的形状。细节13990图7：真实世界的比较。与Li et al的比较[35]在现实世界中的样本[5]。捕捉闪光无闪光漫反射镜面粗糙度法线深度重新渲染掩模图8：移动捕获和推断。这是我们的移动应用程序的结果，该应用程序执行两次图像捕获，然后执行SVBRDF和形状估计。另一方面，粗糙度和法线贴图中的粗糙度和法线贴图，这两种方法都不能完美地预测。图 6显示了与SIRFS的视觉比较，其中我们再次观察到我们的方法预测更接近GT。在这里，漫反射和法线贴图的改进是显而易见的。SIRFS方法在本例中无法将形状与阴影分离。李等人之间的视觉比较。[35]在Yagiz等人的一个现实世界的例子上。[5]图中所示。7.第一次会议。我们的方法似乎可以更好地捕捉物体的颜色和形状Liet al的形状。被预测为几乎平坦的这一点在小说的重新渲染中表现得很明显。我们预测的法线贴图也更平滑，伪影更少，并且紧密遵循瓶子形状。为了评估深度预测，我们将我们的深度估计与来自MiDaS的新的最先进的monocular深度网络的深度估计进行比较[25]。MiDaS是用几个现有的深度数据集训练的，对不同的场景类型都很健壮。MiDaS [25]预测相对深度，并且为了比较，使用尺度移位不变的MSE度量。表1显示了使用我们的方法进行更好的深度估计的结果。我们在补充报告中提出了定性结果。移动捕获和推理为了进一步展示我们的真实世界的性能，图。8给出了一个用我们的移动应用程序捕获的示例。如图所示，大多数参数都是合理的。然而，电热水壶顶部的盖子在深度图中估计得稍微太远了。这可以归因于“深是黑暗”的在这里，我们想要指出的是，存在未知的移动相机捕获流水线的额外挑战RAW图像捕获将避免现代相机中大多数未知的图像预处理。6. 结论我们提出了一种新的级联网络设计与指导预测网络SVBRDF和形状估计从两个镜头的图像。我们的关键见解是，与单个大型网络的联合估计相比，任务和阶段预测的分离可以带来更好的结果。我们使用两次拍摄捕获设置，这是实用的，并有助于估计更高的质量SVBRDF和形状相比，现有的作品。我们所有的图像捕获、网络推理和渲染都可以在移动硬件上轻松实现。另一个关键贡献是创建大规模的合成训练数据与域随机几何和仔细收集的材料。我们表明，在这些数据上训练的网络在未来，我们希望通过结合反射去除技术和各向异性BRDF模型来解决更复杂的镜像对象致谢这项工作是部分资助德国研究基金会（ Deutsche Forschungsgemeinschaft ） - 项目编号276693517 - SFB 1233。我们感谢Ben Eckart在补充视频中的帮助。未估计输入弥漫性镜面粗糙度正常深度小说重渲染Flash无闪光我们Li等人13991引用[1] M. Abadi、A.Agarwal，P.Barham，E.Brevdo，Z.陈先生，C. 西特罗湾S. Corrado，A.Davis，J.Dean，M.Devin，S.盖-马瓦特岛。Goodfellow，A.Harp，G.Irving，M.Isard，Y.贾，R. 约瑟夫·奥维茨湖Kaiser，M.Kudlur，J.L evenber g，D.妈妈，R. Monga、S.穆尔，D.默里角奥拉山舒斯特J. Shlens，B.施泰纳岛Sutskever，K. Talwar，P. Tucker，V. Vanhouc k e，V. Vasud ev an，F. Viegas，O. Vi nyals，P. 等等，M。Wattenberg，M.Wicke，Y.Yu和X.郑张量-流量：异构系统上的大规模机器学习，2015年。软件可从tensorflow.org获得。5[2] M. Aittala，T.Aila和J.莱赫蒂宁神经纹理合成的反射率建模ACMTransactions on Graphics（ToG），2018年。2[3] M. Aittala，T. Weyrich和J.莱赫蒂宁频率域中的实用svbrdf捕获。ACMTransactionsonGraphics（SIGGRAPH），2013年。2[4] M. Aittala，T.Weyrich和J.莱赫蒂宁用于固定材料的两次ACMTransactions on Graphics（ToG），2015年。一、二[5] Y. 阿克索伊角Kim，P.Kellnhofer，S.巴黎M.伊勒加里布M. Pollefeys和W.马图西克来自人群的闪光灯和环境照明对的数据集在欧洲计算机视觉会议（ECCV），2018。一、二、六、八[6] N. G. Alldrin、T. Zickler和D.克里格曼具有非参数和空间变化反射率的光度立体在IEEE计算机视觉和模式识别会议中，2008年。2[7] J. T. Barron和J.马利克形状、照明和阴影的反射。IEEETransactionsonPatternAnalysisandMachineIntelligence（PAMI），2015年。二、三、七[8] H. Barrow和J.M. 特南鲍姆从图像中恢复固有场景特征计算机视觉系统，1978年。3[9] S. Bell，K.Bala和N.很聪明在野外的内在图像ACMTransactions on Graphics（SIGGRAPH），2014年。3[10] 布莱恩Freepbr，2019. https://freepbr.com. 5[11] CgTrader免费3D模型，2019年。www.cgtrader.com. 6[12] R. L.库克和K. E.托兰斯计算机图形学的反射模型。ACM Transactions on Graphics（ToG），1982年。二三五[13] L.德梅斯CC0纹理，2019年。https://cc0textures.com/. 5[14] V. Deschaintre，M. Aitalla，F.杜兰德G. Drettakis，以及A.布索使用渲染感知深度网络捕获单图像SVBRDF。ACMTransactions on Graphics（ToG），2018年。二四七[15] V. Deschaintre，M. Aitalla，F.杜兰德G. Drettakis，以及A.布索使用多图像深度网络进行灵活的SVBRDF捕获。在2019年的Eurographics Symposium on Rendering上。7[16] Y. Dong，J.Wang，X.Tong，J.Snyder，Y.兰，M。Ben-Ezra 和 B. 小郭。用于 svbrdf 捕获的流形自举。ACMTransactions on Graphics （ SIGGRAPH ）， 2010年。2[17] H.傅，M。贡角，澳-地Wang，K. Batmanghelich和D.涛.用于单目深度估计的深度有序回归网络。在IEEE计算机视觉和模式识别会议，2018。213992[18] H.傅，M。贡角，澳-地Wang，K. Batmanghelich和D.涛.用于单目深度估计的深度有序回归网络在IEEE计算机视觉和模式识别会议（CVPR），2018年。3[19] D. B.戈德曼湾Curless，A. Hertzmann和S. M. 塞茨来自光度立体的形状和空间变化的BRDFIEEE TransactionsonPatternAnalysisandMachineIntelligence（PAMI），2009年。2[20] K.他，X。Zhang，S. Ren和J. Sun.深度剩余网络中的身份映射。欧洲计算机视觉会议（ECCV），2016年。四、五[21] W. 雅各布Mitsuba -基于物理的渲染器，2018 年。https://www.mitsuba-renderer.org/。6[22] J. T.卡吉亚渲染方程。ACMTransactions on Graphics（SIGGRAPH），1986年。5[23] K. Kim，J. Gu，S.作者：Tyree，P.尼斯纳，以及J. Kautz一种用于实时反射率估计的轻量级方法。IEEEInternationalConferenceonComputerVision（ICCV），2017年。1[24] D. P. Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[25] K.拉辛格河Ranftl，K. Schindler和V.科尔顿。为了稳健的单目深度估计：混合数据集进行零激发交叉数据集传输。ArXiv电子打印，2019年。二三六七八[26] H. Lensch，J. Kautz，M. Gosele和H.- P. Seidel基于图像的空间变化材料的重建。2001年在欧洲图形会议上的渲染二、三[27] H. P. Lensch，J.朗，M。S. Asla和H.赛德尔空间变化brdf的计划抽样。计算机图形学论坛，2003年。2[28] L. Lettry，K. Vanhoey和L.范古尔DARN：一个用于内在图像分解的深度对抗残差网络。IEEEInternationalConference on Computer Vision（ICCV），2018年。3[29] M. Li 等人，室内场景的深度球面高斯照明估计ACMMultimedia Asia Conference（MM Asia），2019年3[30] R. Li，K. Xian，C.沈，Z. Cao，H. Lu和L.航基于深度注意力的分类网络，用于稳健的深度预测。2019年亚洲计算机视觉会议（ACCV）。3[31] X. Li，Y. Dong，P. Peers，and X.童使用自增强卷积神经网络从单张照片建模表面外观。ACMTransactionson Graphics（ToG），2017年。二四七[32] Z. Li和N.很聪明Cgintrinsics：通过基于物理的渲染实现更好的固有图像分解。在欧洲计算机视觉会议（ECCV），2018年。3[33] Z. Li和N.很聪明从观察世界中学习内在图像分解。在IEEE计算机视觉和模式识别会议（CVPR），2018年。3[34] Z. Li，K. Sunkavalli和M. Chandraker体量材料：用单个手机图像采集 SVBRDF 。在欧洲计算机视觉会议（ECCV），2018。二四七13993[35] Z. Li，Z.许河，巴西-地Ramamoorthi，K. Sunkavalli和M.陈-德雷克。学习从单个图像重建形状和空间变化的反射率。 ACMTransactions on Graphics （ SIGGRAPHASIA），2018年。二三七八[36] M.廖湖王河，巴西-地杨，和M。龚光衰减立体声。IEEEInternationalConferenceonC

下载后可阅读完整内容，剩余1页未读，立即下载