基于学习的移动混合现实照明合成方法

88 浏览量更新于2023-10-19 收藏 1.76MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5918DeepLight：无约束移动混合现实Chloe LeGendre1，2马万春1Graham Fyffe1 John Flynn1 LaurentCharbonnel1 Jay Busch1 Paul Debevec11Google Inc.USC Institute for Creative Technologies南加州大学创意技术学院（a）训练数据（b）输入图像(c)输出照明（d）再现对象（e）真实对象（f）再现对象（g）真实对象图1：给定用移动终端捕获的任意低动态范围（LDR）输入图像（b），我们的方法产生可用于将虚拟对象再现和合成到场景中的全向高动态范围照明（c，lower）。我们训练CNN，LDR图像（a）包含三个反射球，每个反射球在单次曝光中显示不同的照明线索（d）和（f）显示效果图使用我们的照明制作，在同一场景中紧密匹配真实3D打印和绘制对象的照片（例如）。摘要我们提出了一种基于学习的方法来推断合理的高动态范围（HDR），全方位照明给定的无约束，低动态范围（LDR）的图像，从一个有限的视野（FOV）的手机摄像头。对于训练数据，我们收集放置在相机FOV内的各种反射球体的视频我们训练深度神经网络，以通过使用基于图像的重新照明将LDR地面实况球面图像与用预测照明渲染的那些图像进行匹配来从LDR背景图像回归到HDR照明，所述基于图像的重新照明是可微分的。我们的推理在移动终端上以交互式帧速率运行，使虚拟对象真实地渲染到真实场景中，从而实现移动混合现实。在自动曝光和白平衡视频上进行训练，与室内和室外场景的最先进方法相比，我们提高了渲染对象的真实感。1. 介绍将渲染的虚拟对象合成到照片或视频中是混合现实、视觉效果和电影制作中的基本技术。合成物的真实感取决于几何和照明相关的因素，在Google实习期间完成的工作tors.一个“漂浮在太空中”而不是放在表面上的物体会立即看起来很假;类似地，太亮、太暗或从与场景中的其他对象不一致的方向照亮的渲染对象可能同样不令人信服。在这项工作中，我们提出了一种方法来估计似是而非的照明从手机图像或视频令人信服的光合成3D对象的实时合成。从具有低动态范围（LDR）和有限视场（FOV）的单张照片中估计场景照明是一个具有挑战性的、约束不足的问题。一个原因是，图像中的对象的外观是来自对象周围的整个方向球的光的结果，包括来自相机的FOV之外的方向。然而，在一个典型的手机视频中，只有6%的全景场景被摄像头观察到（见图1）。2）的情况。此外，即使FOV内的光源也可能太亮而不能在视场中正确测量。如果场景的其余部分曝光良好，则是单次曝光，由于有限的动态范围而使图像传感器饱和，从而产生相对场景辐射度的不完整记录为了测量这种缺失的信息，Debevec [10]使用全局照明渲染将不同曝光时间捕获的全向照片和使用这些高动态范围（HDR）滤镜但是，在没有这样的测量，专业照明艺术家往往创造令人信服的照明，5919通过对像阴影、几何形状和上下文的线索进行推理，这表明背景图像单独可以为合理的照明估计提供足够的信息。图2：手机视频的视场（FOV）（以全色显示的插图），相对于360° C环境。与其他具有挑战性的视觉推理任务一样，卷积神经网络（CNN）包括用于室内[14]和室外[18]场景的有限FOV，LDR图像的照明估计的最新技术。简单地说，训练需要许多对背景图像和照明（HDR背景图像）;然而，捕捉HDR照片是复杂和耗时的，因此对于这两种场景类型不存在这样的数据集。对于室内场景，Gardner et al.[14]首先用许多LDR图像训练网络[55]，然后用2100个捕获的HDR图像对其进行微调。对于户外场景，Hold-Geoffroy et al.[18]将天空模型拟合到用于训练数据的LDR全景。我们也使用CNN，但我们的模型可以推广到室内和室外场景，并且不需要HDR图像。在这项工作中，我们的训练数据被捕获为LDR图像，其中三个球体被保持在相机FOV的底部（图1）。3），每个具有不同的材料，其揭示关于场景的地面实况照明的不同线索。例如，镜面球体反射全向高频照明，但是在单次曝光中，明亮光源反射通常使传感器饱和，因此其强度和颜色被错误表示。相比之下，漫射灰色球体反射模糊的低频照明，但捕获场景中总光线及其一般方向性的相对完整的记录我们从未被球体遮挡的图像部分回归到HDR照明，通过最小化LDR地面实况球体图像与用估计的照明渲染的我们首先测量每个球体然后，在训练过程中，我们使用基于图像的重新照明[12，35]使用估计的HDR照明渲染球体，这是可微的。此外，我们增加了一个对抗损失项，以提高恢复合理的高频illuminations。由于每个训练示例仅包含一次曝光，因此我们可以捕获真实场景的视频，这增加了训练数据的量，并为相机的自动曝光和白平衡提供了先验知识作为一个公共基准，我们收集了20万张室内和室外场景的新图像，每张图像包含三种不同的-反射球体。我们在一个随机子集上显示，我们的方法在手机图像的室内和室外场景中优于最先进的照明估计技术，因为我们推断的照明更准确地渲染合成对象。此外，我们的网络在移动终端上以交互帧速率运行，并且当与实时渲染技术结合使用时，能够实现更逼真的移动混合现实合成。总而言之，我们的主要贡献是：• 用于训练照明估计算法的成对照明参考球体和背景图像（200k个示例）的数据收集技术和数据集• 一种基于CNN的方法，从单个无约束形象据我们所知，我们是第一个推广到室内和室外场景的。• 一种新的基于图像的重光照渲染损失函数，用于仅使用LDR数据来训练HDR光照推断网络。2. 相关工作Debevec [10]将合成物体渲染成使用HDR照明的真实场景的照片。这些可以通过拍摄微球或使用多次曝光拼接广角视图来捕获[10，46]。记录镜球的HDR视频[52，51]已用于基于图像的照明环境的实时捕获。我们的目标是仅在具有有限但固定的FOV的单个LDR图像的情况下估计HDR照明我们的技术的关键是具有不同反射函数（BRDF）的球体揭示不同的照明线索，使我们能够使用标准LDR视频流记录训练数据这在之前已经被用于使用dif- fuse、灰色球体从剪切的反射镜恢复太阳强度[39，11]。场景的外观取决于其几何形状、反射特性和照明，以及相机的曝光、色彩平衡和景深。几何形状、反射率和照明的联合再加工（称为逆渲染问题）一直是计算机视觉的核心挑战[59，38]。内在图像分解[4]将图像分为阴影和反射;然而，阴影是照明的效果虽然最近的方法从由未知材料[34，29]组成的对象、分割对象[53，31]的一个或多个图像、已知类别的镜面对象[40，15]或测量或已知的几何[30，54，33，17，3]，我们估计照明不受约束的图像与未知的几何形状和任意复杂的场景。Khan等人。[24]将有限FOV HDR图像投影到半球上，并将其翻转以推断360度照明。为5920LDR图像，Karsch等人[23]估计场景的几何和漫反射，检测视野内的光源，并且对于不可见的光，从数据库中找到匹配的LDR全景图[ 55 ]。他们将结果提升为HDR，最大限度地减少了漫反射场景渲染损失。对于室内场景，Gard- ner et al.[14]学习了使用CNN从有限FOV LDR图像到HDR照明的映射。注意到缺乏HDR照片，他们利用相同的LDR全景数据集[55]首先从输入图像回归到LDR全景和光源位置，然后用2100个新的捕获的HDR照片改进光源强度的模型。虽然展示了最先进的结果，但他们指出了两个关键限制。首先，预测的LDR全景和HDR光源被白平衡以使用灰色世界算法匹配输入图像[6]。其次，当艺术家手动调整预测的照明强度时，渲染效果得到了改善。我们提出一种新颖的基于渲染的损失函数，允许我们的网络学习相对于输入图像的入射照明的颜色和强度，而无需HDR图像。此外，我们提出了一种照明模型，其推广到室内和室外场景，尽管来自单个图像或来自LDR全景的室外HDR照明估计也受到了关注，因为太阳和天空提供较低维度的照明参数化[26，27，18，60]。Cheng等人[8]从室内和室外场景的全景内的相对视图估计照明，但没有考虑单个图像输入。最近的几项工作估计来自面部的照明，通过在编码器-解码器架构的“解码器”内渲染来对图像形成进行建模然而，所有这些都依赖于简单或低频着色模型。相比之下，我们在训练过程中使用基于图像的重光照（IBRL）[12，35]渲染对象，将新图像形成为反射基图像的线性组合，完全避免了解析着色模型Xu等人[56]训练一个网络来执行IBRL，联合学习低维反射基和渲染器，而不是像我们一样将IBRL应用为固定函数Hold-Geoffroy等人[18]和Cheng et al.[8]在渲染损失项中使用了合成朗伯反射率基础，但没有使用摄影基础或考虑多个BRDF。3. 方法在这里，我们描述了如何获取训练数据、网络架构以及端到端照明估计方法的损失函数。3.1. 训练数据采集和处理Gardner等[14]使用2100个HDR样本微调了预训练的网络，比没有预训练的深度学习通常需要的样本更少。然而，我们的关键见解是，我们可以推断HDR光-图3：左侧：捕获装置。中心：示例帧。右：已处理数据（顶部：输入;底部：地面实况）。仅从具有场景中的参考对象的LDR图像中提取，只要它们跨越揭示不同照明线索的BRDF因此，我们收集了室内和室外场景的LDR图像，其中每个场景包含位于相机FOV底部的三个球体，尽可能少地遮挡背景（图1）。3，中心）。这三个球体是塑料节日装饰品，具有不同的饰面，可不同地调节事件照明：镜面银、哑光银（粗糙镜面）和漫射灰色（喷漆），测量的反射率分别为82.7%、64.4%和34.5%。我们建立了一个捕捉装置来固定球体到手机的距离，稳定球体在每个图像中的位置（见图1）。3，左）。由于我们只需要LDR输入图像，因此我们以30 fps的速度收集por- trait HD（1080×1920）视频，而不是静态照片。与HDR全景摄影相比，这提高了训练数据采集的速度，能够捕获数百万张图像，用于相邻帧的代理冗余。这些视频具有自动曝光和白平衡功能，提供了一个帮助消除颜色，反射率和照明歧义的先验。我们通过检测相邻帧之间的光流场中的圆形边界来我们使用理想化的相机模型对球体的裁剪图像进行重新采样，该相机模型朝向球体中心，并在所有四个侧面上与球体相切，以消除透视失真。对于背景图像，我们在训练和推理过程中删除了每帧的低20%。最终的训练数据由裁剪的背景图像组成，每个背景图像与一组三个裁剪的球体配对，每个BRDF一个（图2）。3，右）。3.2. 网络架构该模型的输入是一个无约束的LDR，伽玛编码的图像捕获与移动电话，重新调整大小从本地裁剪分辨率为1080×1536到135 ×192，并归一化到[−0. 5，0。5]。我们的架构是一个编码器-解码器类型，其中的en-编码器包括快速深度可分离卷积[20]。我们使用MobileNetV2的前17层[41]，处理5921--BRDFB ASIS重建损失（L1）......这是什么？D......这是什么？MS......这是什么？MB64D GT=MS GTMB GT16164X 4CONV884X 4CONV128444X 4CONV256FC1024真是假不利因素鉴别器图4：我们的网络概览。我们从用移动终端捕获的LDR、有限FOV输入图像回归到HDR照明。我们包括一个多BRDF基于图像的重照明重建损失的扩散（D），哑光银（MS），和镜球（MB）和对抗损失的镜球。在推理时，只有用红色标出的部分才会发生。输出特征与全连接（FC）层映射以生成大小为256的潜在向量。对于解码器，我们重塑这个向量，并以2的因子上采样三次，以生成HDR照明的32×32彩色图像我们回归到自然日志空间照明，因为太阳可以更多比天空亮五个数量级[46]。虽然我们使用分数步长卷积进行了实验我们训练网络在镜像球映射中产生全向照明[39]，其中图像空间中的每个像素表示方向（θ，φ）的球体的相等立体角部分。因此，输出图像的角未被使用，但是如果需要，该映射允许在损失函数中同等地考虑所有照明方向。有关网络的详细信息，请参见图。4.第一章3.3. 反射场采集Debevec等人[12]引入了4D反射场R（θ，φ，x，y）来表示从任何照明方向（θ，φ）照亮的具有像素（x，y）的对象的图像，并示出了使用Phong波瓣的32×32镜球（n=64）和在球体上使用4 ×4方向3.4. 损失函数为了训练照明预测网络，我们最小化基于图像的重新照明损失，并添加对抗性损失，以确保合理的高频照明的推断。基于图像的重新照明渲染损失：我们通过最小化地面实况球体图像I和用预测的HDR照明照亮的渲染球体之间的重建损失来训练网络。通过反射场R（θ，φ，x，y），每个球在32×32镜球的每个照明方向（θ，φ）下的像素值，我们可以计算每个球在一种新的照明方案L_（？）下的线性图像I_（？），作为其基图像的线性组合年龄将反射场切片为各个像素Rx，y（θ，φ），我们利用（1）生成Iix，y，其中Li（θ，φ）表示在新颖照明环境中对于方向（θ，φ）的光的颜色和强度：Σ将反射场的点积HDR照明贴图重新照亮主体，使其看起来像在该照明中一样。在训练中，我们用这种方法I=x，y=θ，φR x，y（θ，φ）L i（θ，φ）.（一）以使用预测的HDR照明渲染球体。我们使用计算机控制的球面，白色LED [32]，在赤道处间隔12英寸这个亲-网络输出Q，即镜球映射中的全向HDR照明的对数空间图像，具有像素值Qi（θ，φ）。因此，我们用（2）来渲染每个球体：Σ为漫反射和哑光银色球体引入抗锯齿反射场;然而，这种LED间距混淆了I=x，y=θ，φRx，y（θ，φ）eQi（θ，φ）.（二）镜像BRDF。当我们推断镜球映射中的光照时，我们将镜球基构造为一组32×32的单热矩阵，大小为32×32，由其测量的反射率缩放。我们将照明基础转换为地面实况球面图像I是LDR、8位、伽马编码的图像，可能具有剪切的像素。因此，我们用可区分的软剪切函数Λ，n=40来剪切渲染的球体图像：其他BRDF到相同的几何和相对辐射计，ric空间基于入射光源颜色对拍摄的基底进行归一化并转换为镜面Λ（p）=1−1log. 1 +e−n（p−1）Σ.（三）编码器解码器HDR照明135调整大小调整大小3X 3CONV3X 3CONV3X3CONV256323264321651604168128移动网络V2648161923232FC重塑BG5922球映射，针对每个新的照明方向i从照片中累积能量，然后，我们用γ对裁剪后的线性渲染进行伽马编码，以匹配I。我们屏蔽掉角落里的像素5923对于BRDFb=[0，1，2]，产生掩蔽的L1重建损失Lrec，其中λb表示每个BRDF的可选权重：Σ2¨1¨ˆ ˆD的值较低，在训练D和G之间交替。我们设置λrec=0。999，λ b=0。2，0。6，0。2分别用于镜面、漫射和哑光银BRDF，并使用γ=2。2，因为相机的视频模式采用图像相关色调映射。我们使用的批量大小为32，Lrec=b=0λ b<$M<$（Λ（I b）γ − Λ（Ib））<$1.（四）[22]除了最后一层G和D之外，所有层都是如此。我们对G使用ReLU6激活，对D使用ELU [9]。对于我们的移动演示对抗性损失：仅最小化E[Lrec]会产生模糊的低频照明。虽然这对于照亮漫射对象是可以接受的，但是渲染有光泽的对象，具有真实镜面反射的阴影需要更高频率的照明。最近的图像修复和合成工作[36，28，58，21，57，45]利用生成对抗网络[16]来增加图像细节，增加对抗损失以促进多模态输出，而不是模糊的分布均值。我们在一个类似的框架中训练我们的网络，以呈现合理的剪切镜像球图像，我们有很多真实的例子。这是感知动机，因为人类很难推理反射光方向[37，47]，数字艺术家在环境映射[5]反射物体与任意图像时利用反射光方向。此外，现实世界的照明在统计上是高度规则的[13]。类似于Pathak et al.[36]，我们使用一个辅助判别器网络D，我们的基本CNN作为生成器G。在训练过程中，G试图欺骗D，产生尽可能“真实”的剪切镜球图像D试图区分真实图像和生成我们将D设定在原始图像中的一些像素上，球：我们对裁剪后的地面真实镜像球图像的四个角进行采样，并双线性内插32×32的晕染背景，就像镜像球被移除一样。然后，我们软剪辑和合成地面真相和预-将镜面球口述到这个“干净的板”上在球体边界处的实际不连续性。给定输入图像x，G学习到Q的映射，G：x→Q，用于渲染具有（2）的镜球。因此，对抗性损失项为：Ladv= logD（Λ（Ic））（补充材料），我们使用TFLite。对于数据增强，我们水平翻转输入和地面实况图像。我们发现，通过修改白平衡和曝光的数据增强并没有改善结果，也许是因为它们模拟了不太可能的相机响应。数据集：我们使用Google Pixel XL手机收集了37.6小时的训练视频，在各种室内和室外位置，一天中的时间和天气条件下，生成了406万个训练示例。我们将数据偏向于表面或地平面的图像，其中可能需要放置虚拟AR对象。对于测试数据，我们用同一台相机收集了116个新的一分钟视频（211.7k帧），并将它们分为四组：看不见的室内和室外（UI，UO）和看不见的室内和室外（SI，SO）。“Unseen” test videos were recordedin new locations, while the “seen” were 我们在以下视频中评估我们的方法：28个UI（49.3k帧）、27个UO（49.7k帧）、27个SI（49.9k帧）和34个SO（62.7k帧）。测试数据将公开发布。4. 评价4.1. 定量结果精确的照明估计应该正确地渲染任意材料的物体，所以我们首先使用Lrec测量照明精度，与地面实况LDR球体进行比较。我们在表1（顶部）中显示了每种材料的每个不可见测试数据集的平均每像素L1损失和漫射球的每像素线性RGB角度误差θrgb，这是一种通常用于评估白平衡算法的距离度量（参见Hordley和Finlayson[19（在训练过程中最小化θrgb并没有改善结果。）我们表明1-D（1-D（ Σ1θ，φR（θ，φ）eG（x;θ，φ））γ））。（五）补充材料中所见测试集的结果消融研究：我们评估了不同损失项的重要性，每个BRDF和Ladv的L rec，并报告共同目标：因此，全部目标是Lrec和θrgb的网络监督使用的子集G=arg min max（1−λG D）E[LAdv]+λ recE[Lrec]中。（六）表1中的损失项。仅使用镜像BRDF进行或者只有漫射BRDF导致其他的更高的L_rec。然而，仅使用哑光银色BRDF的训练仍然3.5.实现细节我们使用TensorFlow [2]并使用ADAM [25]优化器进行16个epoch的训练，β1=0。9，β2=0。999，G的学习率为0.00015，并且通常，100×产生低L反射的漫射球，这表明他们揭示了类似的照明线索。在图5中，我们显示了为每个损失变量生成的地面实况图像和渲染视觉上，仅使用镜球L1（m）的训练不能恢复照明的全部动态范围，如预期的那样。培训rec5924百分之仅使用哑光银L1（s）或漫射L1（d）不能产生逼真的镜球;因此，具有尖锐镜面反射的对象用Ladv训练产生了预期的更高频率的照明。表1：BRDF的平均L1损失：diffuse（d）、mirror（m）和matte silver（s），以及diffuse的RGB角度误差θrgb（列），对于我们使用不同损失项（行）训练的网络。我们将地面真实图像与使用HDR照明推断渲染的图像进行比较，用于看不见的室内和室外位置。UI输入（d）（s）（m）UO输入（d）（s）（m）gtpredgtpredL1（d）L1（s）L1（m）◦GTrgb（d）损失条款UIUOUIUOUIUOUIUOpredL1（m，d，s）+Ladv0.120.130.130.130.170.169.810.8图6：地面实况球L1（m，d，s）0.120.130.120.130.150.149.911.0和渲染使用我们的HDR照明推理和IBRL。前-L1（m）0.200.180.160.150.140.1311.013.5所示样品为L rec的第25、50和75次扫描。L1（s）0.120.130.130.130.210.2010.011.4L1（d）0.120.130.150.150.280.2710.011.2所以它和LDR手机上的图像吻合我们拟合线性化L1（所有）输入115.+ L高级 L1（所有）L1（m）L1（s）L1（d）（d）其他事项（s）（m）（d）其他事项（s）（m）使用颜色图表绘制每个LDR输入的曲线，但是电话我们使用图中的地面实况和预测照明来比较渲染。7（c，g）.4.3. 与以前工作的比较我们重新训练我们的网络，以获得3：4的宽高比输入室内和室外的最先进的方法[14][18]场景，从每个肖像输入的中心裁剪一个1080×810的风景图像，并将其调整为192×144，以保持我们的FC图层大小。 (Our比较网络因此观察我们标准网络的FOV的一半。）Gard- ner等人[14]托管服务器以预测给定的HDR照明图5：消融研究：不可见的图像输入、地面实况和漫反射（d）、哑光银色（s）和镜面（m）球体的渲染图像，使用来自使用不同损失项训练的网络的HDR照明推断进行照明（顶部）。我们的完整方法用粗体标记4.2. 定性结果Ground truth比较：在图6中，我们示出了与使用基于图像的重新照明和我们的HDR照明推断渲染的那些球体相比的地面实况球体的示例，用于每个BRDF。这些示例对应于Lrec损失的第25、50和75次扫描虚拟对象重新点亮：我们使用[ 1 ]中的模型3D打印两个相同的兔子。这两个都涂有测量反射率的油漆：漫射灰色（34.5%反射）和哑光银色（49.9%反射）。我们使用Google Pixel XL在不同的场景中拍摄这些“真实”的兔子，还捕获了一个干净的板用于照明推理和虚拟对象合成。在图7中，我们使用我们的照明估计（d，h）将真实兔子图像（b，f）与离线渲染的合成物进行比较（IBL渲染在补充材料中描述）。我们还使用Canon 5DMark III记录地面真实HDR照明，对原始线性HDR全景进行颜色25%百分之θ5925输入图像; Hold-Geoffroy等人[18]也预测相机时代的海拔。我们从测试集UI和UO中随机选择450张图像，并将其照明估计值作为HDR图像检索，将其转换为32×32镜球映射，并使用预测摄像头高度如果给定。我们使用IBRL渲染每个BRDF的球体，并与地面实况进行比较，在表2中显示每个BRDF的平均L1损失和漫射球的θrgb。我们还示出了通过将表9中的所有漫射球线性像素值1相加而测量的总场景辐射率的相对误差。我们显示比较球渲染图。8和兔子渲染图。7（e，i），更多的补充材料以及感知用户研究。这两种方法相比，我们表现出显着的改进在没有特定的太阳和天空模型的情况下，我们的网络还可以推断出户外场景的各种光源。然而，我们在给出这些结果时有两个注意事项：首先，我们的训练数据是用固定的FOV相机生成的，这是以前的方法所未知的，其次，我们的训练和测试1场景辐射由漫射球体的反射系数和透视缩短系数调制，具有更大的正面支持，我们使用γ = 2。二、5926(a) 看不见的输入（b）真实对象(c)GT HDR IBL（d）ours（e）[14]/[18]（f）real object(g)GT HDR IBL（h）我们的（i）[14]/[18]图7：对于每个输入图像（a），我们为两个不同的BRDF（b，f）拍摄一个放置在场景中的真实3D打印兔子，并在兔子的位置捕获地面真实HDR照片。使用GI渲染和IBL，我们使用地面真实光照（c，g），我们的光照推断（d，h）以及室内[14]或室外[18]场景的最先进方法（e，i）将虚拟兔子渲染到场景中表2：室内[14]和室外[18]照明估计中与先前最先进技术的定量比较。BRDF的平均L1损失：漫射（d）、镜面（m）和哑光银（s），以及漫射球体的RGB角度误差θrgb。n= 450。看不见的室内（UI）看不见的室外（UO）[18]第14话我们的L1（d） 0. 13±0。07021±0。 11013±0。080 25±0。12L1（s） 0. 14±0。05022±0。060 14±0。060 25±0。07L1（m）0. 18±0。03 0. 23±0。060 17±0。040. 34±0。06◦rgb（d）10个。3±8。八点十一分。9±7。2011 年。2±10。九点十四分。3±6。6◦数据是用同一个照相机产生的。尽管如此，对于具有固定FOV的移动混合现实，我们表明，优化多个BRDF的精确渲染对象可以提高照明估计。时间一致性：我们没有明确优化时间一致性，但我们的训练数据中的相邻视频帧提供了一种间接形式的时间规则化。在图10中，我们比较了我们的方法和Gardner等人的方法的四个连续帧的渲染结果。[14 ]第10段。虽然我们表现出质的改进，增加一个时间损失期限是未来工作的兴趣。4.4. 性能和演示我们的推理在各种手机CPU上以12-20 fps的速度运行我们报告了较小网络的性能，图8：使用我们预测的HDR照明和先前最先进的室内[ 14 ]和室外[ 18 ]场景，通过IBRL产生的地面实况和渲染球体。在补充材料中为特定的移动电话输出照明分辨率和定时我们还编写了一个演示移动应用程序来预测照明，并使用实时UI输入我们gt [14] UO输入我们gt [18]（d）其他事项（s）（m）（d）其他事项户外阳光户外遮阳室内θ5927图9：RGB相对辐射精度的箱形图，通过对使用HDR照明估计渲染的漫反射球的线性像素值求和并与地面实况进行比较来测量：（pred-gt）/gt，n= 450，对于我们的方法和先前的室内[14]和室外[18]场景的最先进的方法。帧0帧1帧2帧3工作类似地，我们的网络是针对特定的摄像机视场训练的，并且可能不会推广到其他人。SI输入（d）（s）（m）SO输入（d）（s）（m）gtpred图11：使用我们预测的HDR照明，使用来自不同相机的输入图像，使用IBRL生成的地面实况球体和渲染示例。正在处理图像内容：简单的场景缺乏变化，在表面法线和反褶（图。12，左）可以挑战我们的推理方法，由强烈色调的材料主导的场景也可能构成挑战（图12，左）。12，右）。添加用于每个输入图像的相机曝光和白平衡的知识UI输入（d）（s）（m）UI输入（d）（s）（m）0 1 2 3 0 1 2 3 0 1 2 3gt(a) 地面实况（b）我们的（c）[14]（d）其他事项（s）（m）pred图12：示例挑战场景：使用我们预测的HDR照明，使用IBRL生成的地面实况球体和渲染。图10：示例地面实况球体（a）和使用我们预测的照明（b）和[14]（c），对于四个连续的UI视频帧（顶部）。预先计算的辐射传输[44]渲染。5. 局限性和未来工作空间变化照明：的参考训练数据的球体反射来自照相机前面60 cm处的点的照明，并且不显示空间变化的照明线索。虚拟AR对象通常放置在场景中可见的表面上，并且从表面反弹的光应该是来自下方的对象上的照明。对我们的技术的一个潜在改进是用从每个对象下面的场景表面采样的像素值替换我们的照明估计的底部方向，允许放置在场景不同部分的对象从其环境接收不同颜色的反弹光使用不同的相机：我们的测试和训练数据是用同一台相机拍摄的。在图11中，我们示出了使用不同的移动电话相机（Apple iPhone 6）捕获的两个图像的结果。在质量方面，我们观察到白平衡的差异，这表明未来今后的工作：在移动混合现实会话期间，物体被定位在使用与运动恢复结构融合的传感器数据检测到的平面上[50]。因此，计算资源已经致力于几何推理，这对于利用改进的混合现实照明估计将是感兴趣的。此外，当用户在整个环境中移动电话时，可以利用惯性测量来连续地融合和更新照明估计。类似地，由于我们的训练数据已经包含时间结构，因此显式优化时间稳定性将是有意义的。最后，可以通过以原始视频格式获取训练数据并在训练期间模拟不同的相机模型来提高通用性。6. 结论我们已经提出了一种用于移动混合现实的HDR照明推断方法，仅使用LDR图像进行训练，利用具有不同材料的参考球体在单次曝光中显示不同的照明线索。这项工作是第一个基于CNN的方法，推广到室内和室外场景的单一输入图像，与改进的照明估计移动混合现实的COM-扩展到以前的工作，开发处理只有一个单一的照明类。5928引用[1] 斯坦福大学3D扫描仓库。得graphics.stanford.edu/data/3Dscanrep/余弦值. 6[2]M. Abadi、A.Agarwal，P.Barham，E.Brevdo，Z.陈先生，C. 西特罗湾S. Corrado，A.Davis，J.Dean，M.Devin，S.盖-马瓦特岛。Goodfellow，A.Harp，G.Irving，M.Isard，Y.贾，R. 约瑟夫·奥维茨湖Kaiser，M.Kudlur，J.L evenber g，D.妈妈，R. Monga、S.穆尔，D.默里角奥拉山舒斯特J. Shlens，B.施泰纳岛Sutskever，K. Talwar，P. Tucker，V. Vanhouc k e，V. Vasud ev an，F. Viegas，O. Vi nyals，P. 等等，M。Wattenberg，M.Wicke，Y.Yu和X.郑张量-流量：异构系统上的大规模机器学习，2015年。软件可从tensorflow.org获得。5[3] J. T. Barron和J.马利克从单个rgb-d图像的内在场景属性。在Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition中，第17-24页，2013年。2[4] H. Barrow，J. Tenenbaum，A. Hanson和E.里斯曼重新发现场景的内在特征. Comput.目视Syst，2：3-26，1978. 2[5] J. F. Blinn和M. E.纽厄尔计算机生成图像中的纹理和反射。Communications of the ACM，19（10）：542-547，1976. 5[6] G.布克斯鲍姆物体颜色感知的空间处理器模型。富兰克林研究所杂志，310：13[7] D.A.卡利安J. - F.拉隆德P.戈塔尔多T. 赛门，I. Matthews和K.米切尔从面部到室外光探头。在计算机图形论坛，第37卷，第51-61页。Wiley Online Library，2018. 3[8] D. 郑，J.Shi，Y.Chen，X.Deng和X.张某通过前后摄像机拍摄的成对照片学习场景照明。在计算机图形论坛，第37卷，第213-221页。Wiley Online Library，2018. 3[9] D. Clevert，T.Unterthiner和S.Hochreiter。通过指数线性单元（elus）进行快速准确的深度网络学习国际学习表征会议（ InternationalConferenceonLearningRepresentations，ICLR），2016。5[10] 德贝维克将合成对象渲染到真实场景中：通过全局照明和高动态范围摄影将传统图形和基于图像的图形连接起来。第25届计算机图形学和交互技术年会论文集，第189-198页。ACM，1998年。一、二、六[11] P. Debevec，P. Graham，J. Busch，and M.波拉斯一个单发光探测器。在ACM SIGGRAPH 2012会谈中，第10页。ACM，2012年。2[12] P. Debevec ， T. 霍金斯角 Tchou ， H.-P. Duiker ，W.Sarokin和M.萨加尔获取人脸的反射场。第27届计算机图形和交互技术，第145ACM出版社/Addison-Wesley出版公司2000. 二、三、四[13] R. O. Dror，A. S. Willsky和E. H.阿德尔森真实世界照明的统计特性。Journal of Vision，4（9）：11-11，2004.5[14] M.- A. Gardner，K. Sunkavalli、E. Yumer，X. Shen，E.甘巴雷托角 Gagn e'和J. - F. 拉隆德学习预测-5929门照明从一个单一的图像。ACM事务处理图表，36（6）：176：1-176：14，Nov. 2017. 二三六七八[15] S. 乔古利斯K. 雷马塔斯T. 里彻尔M. 弗里茨L. Van Gool和T. Tuytelaars快乐网：将反射贴图分解为镜面材质和自然照明。 arXiv 预印本 arXiv ：1603.08240，2016年。2[16] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在神经信息处理系统的进展，第2672-2680页，2014年。5[17] L. Gruber，T. Richter-Trummer和D.施马斯蒂格任意几何形状的实时光度配准。在 Mixed and AugmentedReality （ ISMAR ）， 2012IEEEInternationalSymposium on，第119-128页中。IEEE，2012。2[18] Y. Hold-Geoffroy ， K. Sunkavalli ， S. Hadap ， E.Gambaretto和J. - F.拉隆德深度室外照明估计。在IEEE计算机视觉和模式识别国际会议上，第2卷，2017年。二三六七八[19] S. D. Hordley和G. D. Finlayson重新评估颜色恒定性算法。模式识别，2004年。2004年国际公民权利和政治权利委员会。第17届国际会议论文集，第1卷，第76-79页。IEEE，2004年。5[20] A. G. Howard ， M.Zhu ， B.Chen ，中国粘蝇D.Kalenichenko，W.小王，T. Weyand，M. Andreetto和H. Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。3[21] S. Iizuka、E. Simo-Serra和H.石川全局和局部一致的图像完成。ACM Transactions on Graphics（TOG），36（4）：107，2017。5[22] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。在第32届国际机器学习会议论文集-第37中，ICML'15，第448-456页。JMLR.org，2015年。5[23] K. Karsch，K.Sunkavalli，S.Hadap，N.Carr，H.金河，西-地丰特，M. Sittig和D.福赛斯三维物体合成的自动场景推断。ACM Transactions on Graphics（TOG），33（3）：32，2014. 3[24] E. A. 汗，E。莱因哈德河 W. Fleming和H. H. B ülthof f.基于图像的材质编辑。在 ACM SIGGRAPH 2006Papers，SIGGRAPHACM。2[25] D. Kinga和J. BA. Adam：一种随机优化方法。在国际学习代表会议（ICLR），第5卷，2015年。5[26] J. - F. Lalonde、A.A. Efros和S.G. 纳拉希姆汉从单个室外图像估计自然光照。在Computer Vision，2009 IEEE第12届

下载后可阅读完整内容，剩余1页未读，立即下载