没有合适的资源?快使用搜索试试~ 我知道了~
6908快速空间变化的室内照明估计MathieuGaronBoga*,KalyanSunkav alli<$,SunilHadap<$,NathanCarr<$,Jean-Franc.Lalonde您可以使用Adobe Research,†ulaval.ca{sunkaval,hadap,ncarr}@jflalonde@gel.ulaval.ca adobe.com摘要我们提出了一种实时的方法来估计空间变化的室内照明从一个单一的RGB图像。给定图像和该图像中的2D位置,我们的CNN在笔记本电脑移动显卡上不到20ms的时间内估计虽然现有的方法估计一个单一的,全球照明表示或需要深度作为输入,我们的方法的原因,局部照明,而不需要任何几何信息。我们证明,通过定量实验,包括用户的研究,我们的结果实现了较低的照明估计误差,是用户的首选国家的最先进的。我们的方法可以直接用于增强现实应用,其中虚拟对象在场景中的任何位置实时地重新显示1. 介绍估计场景的照明条件是一个具有挑战性的问题。图像是通过将照明效果与场景几何体、曲面反射率和摄影机属性的效果反转该图像形成过程以恢复照明(或任何这些其他固有属性)是严重约束不足的。这个问题的典型解决方案依赖于在场景中插入具有已知几何形状和/或反射特性的对象(光探针)(发光球体[5]或已知几何形状的3D对象[9,34])。不幸的是,必须在场景中插入已知对象是有限的,因此不容易适用于实际应用。先前的工作已经通过使用额外的信息来解决这个问题,例如深度[1,25],通过扫描场景获得的多个图像[12,26,36,37]或用户输入[18]。然而,这样的信息获取起来很麻烦。最近的工作[8]提出了一种学习方法,该方法通过直接从端到端的单个图像预测照明来绕过对额外信息的需求。*部分工作是在Mathieu Garon在Adobe Research实习时完成的图1.室内照明是空间变化的。估计全局照明的方法[8](左)不考虑局部照明效果,从而在照明虚拟对象时导致不一致的渲染。相比之下,我们的方法(右)从单个RGB图像产生空间变化的照明,从而产生更逼真的结果。方式虽然[8]代表了对以前方法的实际改进,但我们认为这种技术仍然不适合用于更具交互性的场景,例如增强现实(AR)。首先,它不能实时执行,因为它解码完整的环境地图。第二,并且可能更重要的是,该方法产生针对图像的单个然而,室内照明是空间变化的:光源非常接近场景,因此由于遮挡和不均匀的光分布,在整个场景中产生显著不同的照明条件。商业AR系统,如Apple然而,我们观察到它们的功能相当初级:ARkit使用在这项工作中,我们提出了一种方法,估计空间变化的照明表示为球谐函数(SH),从一个单一的图像在实时。我们的方法基于1 资 料 来 源 : WWDC2017 , session 602 , https ://developer 。 apple.com/videos/play/wwdc2017/602/?时间=22302资料来源:WWDC 2018, 届会议 602,https://developer.apple.com/videos/play/wwdc2018/602/?时间=16146909学习,将单个图像和该图像中的2D位置作为输入,并且输出该位置处的照明的5阶SH系数我们的方法有三个主要优点。首先,球谐函数是低维照明表示(每个颜色通道的5度SH的36个值),并且可以用紧凑的解码器架构来预测事实上,我们的实验表明,我们的网络可以在移动GPU(Nvidia GTX 970 M)上在不到20 ms的时间内预测5度SH系数。其次,SH系数可以直接由现成的着色器使用,以实现实时重新照明[28,32]。第三,也许更重要的是,这些局部SH估计直接嵌入局部光可见性,而不需要显式几何估计。因此,我们的方法适用于局部遮挡和反射,而不必进行显式的推理,ING场景几何。请注意,虽然使用SH限制了我们可以表示的照明的角频率,但通过对每个场景位置进行不同的估计,我们的方法确实捕获了高频空间变化,例如图1(b)中桌子下的阴影。据我们所知,我们的论文是第一个提出一个实用的方法来估计空间变化的照明从一个单一的室内RGB图像。我们的方法使一个完整的图像渲染增强现实管道,自动适应本地和全球照明变化的实时帧速率。为了定量地评估空间变化的方法,公开了一种新颖的、包含各种室内场景中的79个地面真实HDR光探针的增强数据集3。2. 相关工作从图像估计光照在计算机视觉和图形学中有着悠久的历史。在他的开创性工作中,De- bevec提出从插入场景中的反射金属球体中显式捕获HDR照明[5]。大量的工作依赖于场景中存在的更通用的3D对象来估计照明。值得注意的是,Bar-ron和Malik [2]将对象外观建模为其形状,照明和材料属性的组合,并试图在逆向渲染框架中联合估计所有这些属性,该框架依赖于数据驱动的先验来补偿单个图像中缺乏可用信息类似地,Lombardi和Nishino [24]估计了已知形状物体先前的工作也使用图像中的面部来估计照明[3]。最近,Georgoulis et al.[10]使用深度学习来估计来自已知几何形状的对象的照明和反射,通过首先估计其反射图(即,它的在AR的背景下,实时方法[12,26]3https://lvsn.github.io/fastindoorlight/从捕获的几何体对整个场景的辐射传递函数进行建模,但需要首先重建场景。Zhang等人[36]也恢复空间变化照明,但需要完整的场景重建和用户注释的光位置。在最近的工作中,相同的作者[37]提出了一种场景变换,该场景变换从它们在平坦表面上创建的阴影中识别可能的各向同性点光位置,使用类似的场景扫描获取其他方法将RGBD图像分解为其内在场景分量[1,25],包括空间变化的基于SH的照明。相比之下,我们的工作不需要任何知识的场景几何,并自动估计空间变化SH照明从一个单一的图像。还提出了从单个图像估计照明的方法Khan等人[20]提出翻转HDR输入图像以近似视图外照明。类似的想法也被用于合成[22]。虽然这些近似可能在大多数漫射照明的情况下起作用,但是定向照明不能被可靠地估计,例如,如果主导光在相机的视场之外Karsch等人[18]开发一个用户引导系统,产生高质量的照明估计。在随后的工作[19]中,同一作者提出了一种自动方法,该方法将背景图像与LDR图像的大型数据库相匹配,并在依赖于场景的固有分解和自动深度估计的逆渲染框架中优化光位置和强度Lalonde等人[21]通过在概率框架中结合图像的阴影和阴影等线索来估计照明,但他们的方法针对户外场景。Hold-Geoffroy等人[14]最近提供了一种更鲁棒的方法,通过依赖于训练的深度神经网络来估计室外照明模型的参数。与我们的工作更密切相关的是Gardner et al.[8]使用神经网络从单个图像估计室内照明。他们的方法首先在从检测到光源的大量LDR光谱中提取的图像上进行训练然后,他们在HDR屏幕上微调他们的网络。类似地,Cheng et al.[4]提出了在给定从移动终端的前置和后置相机捕获的两个图像的情况下估计SH系数。然而,这两种工作都为整个图像提供了单一的全局照明估计相反,我们预测空间变化的照明。3. 数据集为了学习估计局部照明,我们需要一个大型的图像数据库及其在场景中的几个位置测量的相应照明条件(光探头)。不幸的是,依赖于全景数据集(如[8])是无法实现的,因为它们无法捕获局部遮挡。虽然我们提供了一个小的真实照片数据集来评估我们的方法(第二节)。5.2),6910123照明21深度3123照明12深度3图2.在我们的数据集中采样的示例合成光探针。图像上的位置是随机采样的(左)。对于每个位置,灯光探测器(右,上)及其相应的深度贴图(右,下)将渲染为立方体贴图。捕获足够的这样的图像来训练神经网络将需要大量的资源。因此,我们依靠真实的合成数据来训练我们的神经网络。在本节中,我们将描述如何创建本地光探针训练数据。3.1. 渲染图像与[38]一样,我们使用SUNC [33]数据集进行训练。我们不使用Reinhard色调映射算法[29],而是使用简单的Gamma [23]。我们现在描述应用于渲染以提高其真实感的校正。SUNC数据集中的光源强度通过因子eU[100,500]随机缩放,其中U[a,b]是[a,b]区间内的均匀分布。由于许多场景都有窗口,来自200个HDR室外全景图的数据集的全景图[13]。每个室外全景也随机地围绕其垂直轴旋转,以模拟不同的太阳方向。我们发现,使用这些灯罩可以为带有窗户的场景增加显著的真实感,提供逼真的外观和照明分布(见图2)。2)的情况。我们总共渲染了26,800张图像,并使用与[38]相同的场景和相机视点注意根据房屋(每个房屋包含许多房间)划分训练/验证数据集。每个图像的渲染位置为640×480分辨率,使用Mitsuba [17]的Metropolis LightTransport(MLT)算法,512个样本。3.2. 渲染局部光探头对于每个图像,我们在场景中随机采样4个位置来渲染局部光探测器。图像被分成4个象限,并且在每个象限中均匀地采样随机2D坐标(不包括图像边缘周围的5%边界)。为了确定虚拟摄像机的位置以便渲染光探测器(平面,并保留与几何图形的第一个交点。从那一点开始,我们将虚拟相机沿着法线移动到离表面10 cm的地方,并在这个位置渲染光探针。请注意,探测摄影机轴与场景摄影机轴对齐-仅应用平移。每个光探针都在立方体贴图表示中渲染,独立渲染6个面中的每一个。虽然Mitsuba MLT可以快速收敛到真实图像,但它有时会收敛到错误的解决方案,这可能会对地面实况探测产生负面影响。因此,对于每个面我们使用Mitsuba [17]的双向路径跟踪(BDPT)算法,使用1,024个样本并以64×64分辨率渲染。这平均需要5分钟来渲染光探针的所有6个面。此外,我们还渲染了每个探头的深度。图2显示了图像及其在我们的合成数据集中对应的探针。渲染后,场景将被过滤掉,以删除SUNC中存在的错误的地板或墙壁区域灯光此外,从表面移动10cm可能导致相机在另一表面后面。为了过滤掉这些探针,我们简单地基于平均光探针强度(根据经验发现0.01的值)来阈值化。最后,我们将5阶SH系数拟合到渲染的光和深度探测器以获得要学习的地面真值。4. 学习估计当地室内照明4.1. 照明估计的主要架构我们现在描述我们的深度网络架构,以从图像中学习空间变化的照明以前的工作已经表明,全局上下文可以帮助进行照明推理[8],因此这里可能需要全局和局部信息的组合。我们提出的架构如图所示。3.第三章。我们需要一个分辨率为341×256的RGB输入图像,以及图像中要估计照明的特定坐标。图像被提供给CNN中的“全局”路径。分辨率为150 ×150的该位置被提取并馈送到全局路径通过预训练的DenseNet-121网络的前三个块处理输入图像,以生成特征图。将空间分辨率为16×21的二进制坐标掩模连接为添加到特征图的额外通道。结果被馈送到编码器,该编码器产生5120维向量zg。本地路径具有类似的结构。它用预训练的DenseNet-121网络处理输入补丁以生成特征图,该特征图被馈送到编码器并产生512维向量zl。全局和局部编码器共享类似的结构并使用Fire模块[16]。使用fire-x-y表示法,这意味着模块减少了6911全球照明SH512036x31025x16x21zG36深度SH3x341x256当地zizL4x4x4反照率1024512着色3x150x1501024x9x9FCDenseNet 121(3块)FCDenseNet 121(3块)GRL真实的还是合成的?l,cl,c坐标掩模鉴别器FCFCFC图3.我们神经网络的结构蓝色表示处理完整图像的全局路径,红色表示提供以我们想要估计光探针的坐标为中心的图像块的局部路径。在这两条路径中,三个预训练的DenseNet块 [15]和两个从头开始训练的Fire模块[16]用于获得局部和全局特征。这些特征与两个完全连接的层相解码器被联合训练以回归局部块的阴影和阴影。我们应用域自适应[7],并在潜在向量上添加一个“隐藏”(黄色)和一个对抗性损失,以推广到真实图像。在扩展到Y之前,将信道数目扩展到X,编码器具有以下 结 构 : 用 于 全 局 流 的 FIRE-512-1024/FIRE-256-256Fire模块有ELU激活,然后是批量标准化。对于低频探头深度(图1B),2)的情况。 为此,我们将另一个36维输出添加到z i向量之后的最后一个FC层(图2)。3,右)。该分支的损失是深度SH系数上的分别来自全局路径和局部路径的向量zg和zl被连接并由全-L=1ΣΣl(dm−dm)2,(2)LL连接(FC)层的1024个神经元,以产生潜在向量zi。RGB中的5阶SH系数则为d-sh36l=0m=−l由另一个维度为36×3的FC层预测。我们其中,dm(dm)是球谐系数,L l对SH系数使用MSE损失:探针深度(w.r.t.)地面实况)。L= 1Σ3 Σ4 Σl(im−im)2,(1)伊什36×3c=1l=0m=−ll,cl,c学习修补程序着色和着色为了帮助消除-反射率和照明之间的双向,我们还问其中im(im)是预测的(w.r.t.)第c个颜色通道的SH系数(RGB中)。4.2. 学习其他子任务最近的研究表明,类似的任务可以从联合训练中受益[35]。我们现在描述添加到网络中以学习这些相关任务的其他分支和损失,并在第二节中介绍。5.1我们提出了一个消融研究,以评估这些子任务中的每一个的影响。学习低频探测深度由于照明受到局部可感知性的影响-例如,桌子下的照明更暗,因为桌子遮挡了头顶光源-我们要求网络也预测SH系数该网络将局部斑块分解成其反射率和阴影本征分量。为此,我们添加了一个3层解码器,该解码器从最后一个FC接收4×4×4向量层,并重建7×7像素分辨率。解决方案(彩色)灰度和(灰度)阴影图像。我们在低分辨率下这样做,因为我们想要概括地消除局部反射和照明之间的颜色和强度 编码器由以下3部分层:分别为conv 3 -128、conv 3 -128和conv 1 -4(其中convx-y表示维度为x×x的y个滤波器的卷积层前两层具有ELU激活,随后是批次标准。在第一次卷积后应用2倍上采样,以允许本地编码器和解码器。最后一层有一个sigmoid激活函数,用于3个通道。我们将损失定义为解码器编码器编码器46912我我我我我我反射率和阴影为:SH DegreeGlobal(w/omask)全局(w掩码)本地+全球(带面罩)1ΣNLrs-mse= Ni=11ΣN(R−R)2∗+(S−S)22、(3)0.563 0.5530.5201 0.451 0.384 0.4120.3792019 - 05 - 2表1.对网络输入进行消融研究平均绝对Lrs-recons=N i=1(Pi−(Ri+Si))报告了合成测试集上每个SH度的误差(MAE)“Global其中,Ri(Ri)和Si(Si)表示对数反射率预处理,信息. 评估两种类型的本地信息i i(w掩码)措辞(分别为地面实况(ground truth)和对数阴影预测(log-shading prediction)(分别Ground Truth),P是输入补丁。适应真实数据我们应用无监督域“Local”接收探头位置周围的贴片。我们的实验表明,使用局部信息和完整图像(adaptation [7]使在合成SUNC图像上训练的模型适应真实照片。这是通过梯度反转层(GRL)连接到zi潜在向量的一个子向量来完成的在图1的右上角示出的图2的顶部中3,由3个FC层(64,32,2)组成神经元分别与ELU激活和第一个SH学位L伊什+Ld-sh+Lrs-mse+Lrs-重组所有两层,然后进行批量归一化。我们用交叉熵损失来训练神经网络:表2.比较照明的平均绝对误差(MAE)10,000个合成测试探针的每一次损失的SH度。估计探头位置处的低频深度,Lda=−ΣNi=1∗rilogri,(4)SH的方向度,同时对环境光提供最小增益(0度)。阴影和阴影损失改善了环境光估计。其中,ri(r)是输出(分别为地面实况)。4.3. 培训我们的神经网络的总体损失是第二节中介绍的各个损失的线性4.2:L=L i-sh +L d-sh +L rs-mse +L rs-recons +λL da 。( 五)这里,λ=2/(1+exp(−8n/60))−1,其中n是历元,是控制域适配器重要性的权重·损失,其随着训练时期e的数量增加而逐渐接近1。我们使用Adam优化器从头开始训练β=(0. 九比零。999)。我们使用10−4的学习率来计算前60个时期,以及10- 5个额外的30个时期。该网络是在合成和合成的组合上训练的真实数据每个minibatch,总大小为20,由50%的合成数据和50%的真实数据组成。对于合成数据,所有损失均在方程式中。(5)激活。总的来说,我们使用来自24,000个合成图像的83,812个探针进行训练,并使用来自2,800个图像的9,967个探针进行验证(以监控过度拟合)。我们在运行时增加合成数据(图像和探针),同时使用以下三种策略训练网络:1)水平翻转; 2)随机曝光因子fU[0. [16,3],其中U[a,b]是在[a,b]间隔中的均匀分布,如在sec中。3)随机相机响应函数f(x)=x1/γ,γ<$U[1. 八二4]中。真实数据由从Laval Indoor HDR中提取的作物数据集[8]。由于我们没有真实数据的任何基础事实,因此在这种情况下,我们仅采用Lda00.5200.5110.4720.44910.3790.3410.3720.3362–50.1590.1490.1660.1461度角0.6040.5820.6410.5416913一阶SH角误差培训网络上的所有这些任务中的每一个都能为所有学位取得更好的结果5. 实验验证现在,我们提出了一个广泛的评估我们的网络设计以及定性和定量的结果在一个新的基准测试集。我们评估我们的系统我们在试验了3到8的阶数后选择了5阶数,并根据经验确认了5阶SH照明为我们提供了渲染时间和视觉质量(包括阴影和阴影柔度)之间的实际权衡。原则上,我们的网络可以很容易地扩展到推断高阶系数。5.1. 合成数据验证来自2,800个合成图像的9,900个探针的非重叠测试集(秒3)用于执行两个消融研究,以验证网络架构中的设计选择(第2节)。4.1)和其他子任务(第4.2)。首先,我们评估了网络中具有全局和局部路径的影响 , 并 在 表 中 报 告 SH 系 数 估 计 的 平 均 绝 对 误 差(MAE)。1.一、对于这个实验,基线(“全局(w/o掩码)”)是一个[8]的一项建议。在没有局部信息的情况下,网络预测场景的平均光照条件,无法预测局部变化,从而导致准确性低。通过将坐标掩码连接到全局DenseNet,6914无域自适应域适应RMSE0.051 ±0.0110.049 ±0.006siRMSE0.072 ±0.0090.062 ±0.005表3.使用重新照明误差比较域自适应损失对来自真实图像的所有探针的影响。域自适应稍微提高了该方法的性能。图4.定性的例子,稳健性的变化。我们的网络适应场景中的亮度变化,并且不严格依赖平均补丁亮度来估计环境照明。我们证明了三个估计:(1)参考贴片,(2) 具有与参考相似的亮度但不同照明的贴片;以及(3)具有与参考类似的照明但不同亮度的片。请注意我们的网络如何适应这些变化并预测相干照明估计。feature map(“全局(w mask)”).有趣的是,只使用本地路径(图中的红色)。3,标签中的“本地”。1)给出了比全局图像更好的准确性,暗示局部照明确实可以与全局照明完全不同使用两种类型的本地信息,即全局路径和局部面片中的坐标掩码,进一步降低误差(选项卡中的“局部+全局(w掩码)”)。①的人。第二,标签。2表明学习子任务提高了光估计任务的性能[35]。在这些实验中,整个网络只有损失的SH系数L1-sh从方程。(1)作为基准。激活低频探头深度Ld-sh上的MSE损失,当量(2)显著改善方向性成分的SH系数,但对程度的影响不大0.相反,用一个隐式/阴影分解任务进行训练(损失函数Lrs-mse和Lrs-recons来自等式2)。(3))改进了环境光估计(SH度0),但使方向分量大部分保持不变。图4,我们表明,我们的网络能够区分本地来自阴影的反射率改变并且不仅依赖于平均斑块颜色。将所有子任务结合起来,可以改善网络的环境预测和方向预测5.2. 真实图像和局部光探头为了验证我们的方法,我们捕获了一个新的真实室内场景数据集和相应的空间变化的光探头(见图2)。(五)。这些图像是用佳能EOS 5D mark III和三脚架上的24-105 mm镜头拍摄的这些场景首先是在高动态范围内拍摄的,通过合并7个括号曝光(从1/8000秒到8秒)和f/11光圈。对于每个场景,平均4个HDR光探针随后通过在不同位置放置3英寸直径的铬球[6]来捕获,并拍摄整个场景表4.比较了各种方法的重照误差我们显示了所有探头的结果,中心探头靠近图像的中心,不受局部几何形状的影响(例如,阴影)或靠近光源,以及偏离中心的探头。我们报告 了 RMSE 和 si-RMSE [11] 及 其 95% 置 信 区 间 ( 使 用bootstrapping计算)。正如预期的那样,global-[8]对于中心探针具有较低的RMSE误差。我们的方法在两个指标上都有较低的误差,并且在所有类型的探测器上都是恒定的。球在HDR中再次出现。然后手动分割出金属球,并根据其相对于相机投影中心的视图矢量旋转相应的总共拍摄了20个室内场景和79个HDR光探头。在下文中,我们使用数据集来定量地比较我们的方法,并通过感知研究。5.3. 真实照片的定量比较我们使用SEC的真实数据集。5.2验证第5.2节中提出的do- main适配。4.2并将我们的方法与Gardner等人的方法的两个版本进行比较。[8]分别命名为全局和局部。全局版本是他们的原始算法,它接收完整的图像作为输入,并输出一个单一的全局照明估计。为了更公平的比较,我们让他们的方法更局部化,给它一个包含三分之一图像的裁剪作为输入,探头位置尽可能靠近中心。重照明误差我们通过渲染来比较所有方法具有地面实况环境地图的漫射兔子模型,具有算法输出,并计算关于地面实况的渲染的误差请注意,由于我们的方法输出SH系数,我们首先将其转换为环境贴图表示,并执行与其他方法相同的渲染和合成技术。表3表明,使用域自适应损失的训练略微提高了真实数据集上的分数。[8]在[8]中有一个比较4.第一章 为了提供更多的洞察力,我们进一步将数据集中的光探针分为两个不同的类别:中心和偏离中心的探针。siRMSE RMSE所有中心偏离中心全球-[8]0.081 ±0.0150.079 ±0.0210.086 ±0.019本地-[8]0.072 ±0.0130.086 ±0.0270.068 ±0.019我们0.049 ±0.0060.049 ±0.0190.051 ±0.012全球-[8]0.120 ±0.0130.124 ±0.0180.120 ±0.031本地-[8]0.092 ±0.0170.120 ±0.0350.084 ±0.016我们0.062 ±0.0050.072 ±0.0110.055 ±0.0096915输入图像地面实况[Gardner[加德纳我们输入图像地面实况[Gardner[加德纳我们121211221212122111221212图5.我们的数据集的真实图像和本地光探头的定性比较结果这些结果也是我们用户研究的一部分通过手动检查确定中心探头是靠近图像中心的探头,并且不受局部几何形状或近光源的影响所有中心和偏心探头都在补充材料中介绍。由于它被训练来估计大约在图像中间的照明,因此global-[8]的RMSE在中心探头上略低于偏离中心的探头。我们注意到我们的方法优于[8]的两个版本。用户研究我们进一步进行用户研究,以评估在前一节中获得的定量结果是否在感知上得到证实 对于这3种技术(我们的,全球的-[8],本地的-[8])中的每一种,我们向用户展示图像对:利用地面实况光探测器渲染的参考图像,以及利用照明估计之一渲染的结果。向每个用户呈现所有20个场景,并且为每个场景选择随机探针和随机技术。使用的示例图像如图所示。五、该研究使用Amazon Mechanical Turk进行。允许用户最多进行两次测试以防止统计偏差,并插入2个哨兵(明显的选择)以过滤掉不良反应。共有144名独特的参与者参加了这项研究,平均每个光探测器有20张选票。选项卡. 5显示了我们的用户研究结果,包括按中心和偏心探头划分的结果(如第2节所定义5.3)。总的来说,我们的方法实现了35.8%的混淆度(最大超过50%),而[8]的局部和全局版本分别为28%和31%。我们注意到global-[8]在“center- ter”探针上的表现略优于我们,混淆度为39.8% vs 38.3%。我们将这种表现归因于这种技术是经过训练的所有中心偏离中心全球-[8]31.0%百分之三十九点八27.1%本地-[8]28.0%25.2%百分之二十九点五我们百分之三十五点八百分之三十八点三百分之三十四点五表5.用户对我们的真实图像和局部光探头数据集的研究结果。用户被要求比较对象与参考地面实况照明和随机选择的方法 之间的 重新照 明。总 体而言 ,用 户对我 们的方 法(35.8%)的混淆程度高于最先进的方法(最多为31.0%)。global-[8]在经过专门训练的中心探头上具有较高的混淆率。请注意,完美的性能是50%。特别是对于这种情况,其非参数输出有预测比我们更清晰的阴影的趋势-这似乎是由用户赞赏。另一方面,全局[8]的性能在“偏离中心”的探针上严重下降,混淆率为27.1%。相比之下,我们的方法仍然保持了34.5%的高混淆度。本地-[8]在这两种情况下似乎都不起作用,可能是由于缺乏上下文。与Barron和Malik [1]的比较Barron和Malik [1]的方法将单个RGB-D图像作为输入,并返回场景的空间变化的两种算法对来自NYU-v2数据集[ 27 ]的图像的结果如图所示。6、补充材料。我们注意到,他们的方法没有捕捉到由局部几何形状引起的环境照明的突然变化,而我们的方法处理得很好。此外,他们的方法需要深度信息,并且需要长达1.5小时来运行单个图像;我们的方法在RGB图像上运行,并且处理图像所需的时间小于20ms。6916(a) Barron和Malik [1](b)Ours图 6.与Barron 和Malik [1]在NYU-v2 数据 集上的定 性比较[27]。虽然他们的方法产生空间变化的SH照明,但它通常产生保守的估计,不能准确地捕获照明的空间变化。相比之下,我们的方法只需要RGB输入,实时运行,并产生更真实的照明估计。图7.在某些场景中,我们的算法预测具有错误色调(通常为紫色或绿色)的照明。虽然我们的方法在各种条件下都能产生准确的照明,但在某些情况下,我们会观察到不正确的色调偏移(见图1)。(七). 我们假设这可能是我们的合成训练集和真实测试集的光和相机响应分布之间的差异的结果;我们相信它可以通过额外的正则化或数据集丰富来弥补6. AR的实时光照估计我们的方法特别适合于实时应用,在Nvidia 970M移动GPU上每幅图像的执行时间为20 ms。 我们在记录的现场演示中演示了我们的方法,并作为本文的附属视频提供,并在图中显示了代表性的帧。8.对于这些演示,将虚拟球体放置在场景中,并使用网络在每帧独立估计的SH照明进行照明(不强制执行时间一致性)。当用户在场景中单击并拖动对象时,对象将重新发光。我们使用Kinect V2录制视频源:仅将RGB图像提供给网络用于照明估计。深度帧仅用于重新缩放对象。我们演示了两种情况。首先,摄像机保持静止,用户在场景中拖动虚拟对象(图1)。8-(a))。其次,相机和物体都是静态的,用户可以移动(真实)光源(图1)。8-(b))。这表明,我们的方法适应强烈变化的局部照明效果的实时和稳定,(a) 移动对象(b) 移动光源图8.实时重新照明应用演示在(a)中,对象在场景中移动,并在每一帧自动重新发光。在(b)中,对象是静态的,但光源在场景中四处移动。尽管缺乏强制的时间一致性。7. 结论和未来工作我们提出了一种实时的方法,特别适合于AR,预测室内场景的局部照明。通过对合成数据和真实数据的广泛评估,我们的方法显着优于以前的工作。我们设想了一些未来探索的方向我们的方法目前适用于单个图像。虽然我们对结果应用于视频流的每一帧时的时间稳定性感到惊讶,但使用时间图像信息重新训练我们的网络可能会提高预测准确性。视频输入还开辟了跨帧聚合场景信息以产生更准确预测的可能性。未来的方向将是探索不同的照明表示,以提高我们预测的角频率,从而产生清晰的阴影,并最终产生合适的反射图,以实现无缝的基于物理的渲染管道和AR体验。致谢这 项 工 作 得 到 了 REPARTI 战 略 网 络 和NSERC/Creaform 3D扫描工业研究主席的部分支持:创建3D。我们非常感谢Nvidia的支持,他们捐赠了用于这项研究的GPU,以及Adobe的慷慨捐赠资金。6917引用[1] Barron和J.马利克从单个rgb-d图像的内在场景属性。IEEE计算机视觉和模式识别会议(CVPR),2013年。[2] J. T. Barron和J.马利克形状、照明和着色的反射率。IEEE Transactions on Pattern Analysis and MachineIntelligence(TPAMI),37(8):1670[3] 诉Blanz和T.维特三维人脸合成的可变形模型在ACMTransactions on Graphics(SIGGRAPH),第187-194页[4] D. 郑,J.Shi,Y.Chen,X.Deng和X.张某通过前后摄像机拍摄的成对照片学习场景照明。计算机图形论坛,37:213[5] 德贝维克将合成对象渲染到真实场景中:将传统图形和基于图像的图形与全局照明和高动态范围摄影相结合。在Proceedings of the 25th Annual Conference on ComputerGraphics and Interactive Techniques,ACM Transactionson Graphics(SIGGRAPH),pages 189[6] P. E. Debevec 和 J. 马 利 克 从 照 片 中 恢 复 高 动 态ACMTransactions on Graphics ( SIGGRAPH ) , 第 31页。ACM,2008年。[7] Y. Ganin和V.Lempitsky 通过反向传播的无监督域自国际机器学习会议,2015。[8] M.- A. Gardner,K. Sunkavalli、E. Yumer,X. Shen,E.甘巴雷托角 Gagn e'和J. - F. 拉隆德学习从单个图像预测ACM Transactions on Graphics(SIGGRAPH Asia),9(4),2017。[9] S. Georgoulis,K. Rematas,T. Ritschel,M.弗里茨,T.Tuyte- laars和L.范古尔相机周围是什么IEEEInternationalConference on Computer Vision(ICCV),2017年10月。[10] S. Georgoulis,K. Rematas,T. Ritschel,E. Gavves,M.弗里茨L. Van Gool和T. Tuytelaars使用深度学习实现单一材质镜面反射物体的反射率和自然照明IEEE Transactions onPattern Analysis and Machine Intelligence(TPAMI),40(8):1932[11] R. 格罗斯湾K. Johnson,E.H. Adelson和W.T. 弗里曼。固 有 图 像 算 法 的 地 面 实 况 数 据 集 和 基 线 评 估 。IEEEInternationalConferenceonComputerVision(ICCV),2009年。[12] L. Gruber,T. Richter-Trummer和D.施马斯蒂格任意几何形状的实时光度配准。IEEEInternational Symposium onMixed and Augmented Reality(ISMAR)IEEE,2012。[13] Y. Hold-Geoffroy,A. Athawale和J. - F.拉隆德用于单图像室外照明估计的深空建模。在IEEE计算机视觉和模式识别国际会议(CVPR),2019年。[14] Y. Hold-Geoffroy , K. Sunkavalli , S. Hadap , E.Gambaretto和J. - F.拉隆德 深度室外照明估计。 在IEEE计算机视觉和模式识别国际会议(CVPR),2017年。[15] G. Huang,Z.柳湖,加-地van der Maaten和K. Q. 温伯格密集连接的卷积网络。在IEEE Confer-计算机视觉和模式识别(CVPR),2017年。[16] F. N.扬多拉,S。汉,M。W.莫斯基维茨K.阿什拉夫,W。J.达利和K.库茨Squeezenet:Alexnet级别的精度,参数减少50倍<,5mb模型大小。arXiv预印本arXiv:1602.07360,2016.[17] W. 雅 各 布 Mitsuba renderer , 2010. http://www.mitsuba-renderer.org.[18] K. Karsch,V. Hedau,D. Forsyth和D.霍伊姆将合成对象 渲 染 为 旧 照 片 。 ACM Transactions on Graphics(SIGGRAPH asia),30(6):1,2011.[19] K. Karsch,K.Sunkavalli,S.Hadap,N.Carr,H.金河,西-地丰特,M. Sittig和D.福赛斯三维物体合成的自动场景推断。ACM Transactions on Graphics ( SIG-GRAPH ) ,(3):32:1[20] E. A. 汗,E。莱因哈德河 W. Fleming和H. H. Bülthof f.基于图像的材质编辑。ACM Transactions on Graphics(SIGGRAPH),25(3):654,2006。[21] J. F. Lalonde、A.A. Efros和S.G. 纳拉希姆汉从单个室外图 像 估 计 自 然 光 照 条 件 。 International Journal ofComputer Vision,98(2):123[22] J. - F. 拉隆德湾Hoiem,A.A. 埃夫罗斯角罗瑟,J。Winn和A. 天 啊 照 片 剪 贴 画 。 ACM Transactions on Graphics(SIGGRAPH),26(3),2007年7月。[23] Z. Li和N.很聪明CGIntrinsics:通过基于物理的渲染实现更 好 的 固 有 图 像 分 解 。 在 欧 洲 计 算 机 视 觉 会 议(ECCV),2018年。[24] S. Lombardi 和 K. 西 野 野 外 反 射 率 和 光 照 恢 复 IEEETransactions on Pattern Analysis and Machine Intelligence(TPAMI),38(1),2016。[25] R. Maier,K.Kim,D.Cremers,J.Kautz和M.尼斯纳In-trinsic 3d:通过联合外观和几何优化与空间变化照明进行 高 质 量 的 3D 重 建 IEEE Int
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功