没有合适的资源?快使用搜索试试~ 我知道了~
IRISformer:室内单图像逆渲染的视觉Transformer
2822IRISformer:用于室内场景朱瑞1李正勤1 贾纳贝克·马泰2贾尼赫·波里克利2曼莫汉·钱德拉克11加州大学圣地亚哥分校2高通AI研究{rzhu,zhl378,mkchandraker} @ eng.ucsd.edu{ jmatai,fporikli} @ qti.qualcomm.com摘要由于任意不同的物体形状、空间变化的材料和复杂的照明之间的无数相互作用,由可见和不可见光源引起的阴影、高光和相互反射需要推理出逆向渲染的远程交互,逆向渲染试图恢复图像形成的组成部分,即形状、材质和照明。在这项工作中,我们的直觉是,从Transformer架构中学习到的长距离注意力非常适合解决单图像逆渲染中的长期挑战。我们演示了一个特定的实例化的密集的视觉Transformer,IRISformer,擅长在单任务和多任务推理所需的逆渲染。具体来说,我们提出了一个Transformer架构,同时估计深度,法线,空间变化的亮度,粗糙度和照明从一个单一的图像的室内场景。我们对基准数据集的广泛代码和数据是公开发布的。11. 介绍逆向渲染长期以来一直受到计算机视觉界的极大关注,这是由于其承诺将场景分解为形状、复杂的空间变化照明和材料的内在因素,从而实现虚拟对象插入、材料编辑和重新照明的下游任务。这个问题对于室内场景尤其具有挑战性,其中复杂的外观源于上述内在因素之间的多种相互作用,例如阴影,镜面反射和相互反射。逆渲染的最新进展导致了出现-1https://github.com/ViLab-UCSD/IRISformer我们的结果以前的工作反照率粗糙度反照率粗糙度深度法线我们的结果深度法线以前的工作注意四注意三注意二注意1照明照明输入图像图1.给定单个真实世界图像,IRISformer同时推断场景的材质(粗糙度和粗糙度)、几何体(深度和法线)和空间变化的照明。该估计使虚拟对象插入成为可能,与以前的工作相比,我们在具有挑战性的照明条件下展示了高质量的真实感渲染[19]。学习的注意力也被可视化为选定的补丁,表明全局注意力对远距离交互的好处(详见文本)。许多作品承担了这一挑战的一些具体方面(几何[8,24],Escherdo [4,20,33],照明[9,11,18,36])或联合估计[2,19,33,39]。然而,场景分解的任务可能是极其不适定的,这是由于复杂的照明、几何形状和材料之间的固有模糊性,这些因素共同支配着室内场景中的图像形成例如,高强度像素值可以通过镜面或浅色材料、特定的局部几何形状、明亮的照明或所有这些因素的组合这个问题是espe- cially严重的只有一个单一的图像作为输入,先验知识是必要的,以消除歧义之间的所有可能的内在分解,解释图像。经典方法在优化目标中利用强启发式先验[2,3],这可能并不总是适用于具有复杂几何形状或照明条件的真实世界场景。2823卷积神经网络(CNN)和大规模数据集用于场景分解[4,23,33,34]的广泛使用促进了端到端多任务模型[19,33]的监督训练,以进行联合估计。基于CNN的模型在真实世界图像的逆渲染方面取得了令人印象深刻的进展[19,33,36,39]。尽管如此,CNN架构中的感受野在整个连续层中基本上保持局部如图1,基于CNN的方法无法处理由于复杂的光传输而存在强烈阴影或高光的场景。这表明必须利用图像空间中的长程依赖关系来提供逆渲染中的全局最近,视觉变换器[7,43](ViT)已经出现用于多个计算机视觉任务,通过空间注意力机制受益于全局推理。特别是,密集视觉变换器[25,28,38]非常适合密集预测,我们认为这有利于逆渲染。在本文中,我们建议利用视觉变换器来更好地解释逆渲染中的复杂光传输。考虑图1作为一个例子,我们比较我们提出的基于变换器的方法,即。IRISformer(用于在室内场景中进行反向渲染的转换器),具有基于CNN的现有技术水平[19]。Note the improve- mentin material consistency and geometry of the floor wherecomplex lighting governs appearance; as a result of which,the leftmost sphere is properly reflected on the floor. 此外,IRISformer更好地捕捉全球环境照明,使第三个球体从左边更好地照亮。我们还可视化了四个补丁位置的热图,由选定的Transformer层和头部的彩色方块显示 通 过 关 注 具 有 语 义 意 义 的 大 的 全 局 区 域 ,Transformer可以更好地消除几何材料和照明(黄色)的歧义。这些区域之间的长距离交互可以帮助推断相互反射( 绿色)、方向 高光(红色) 或阴影(蓝色)。以及对那些同质区域/在那些同质区域内的长距离关注,该模型设法更好地解决了非均匀照明模糊性,并做出更一致的估计。我们证明,通过对使用密集视觉变换器进行逆渲染的单任务和多任务模型此外,下游任务,如对象插入和材质编辑大大受益于我们的改进,特别是在复杂的高光或阴影的情况我们在IIW [4]和NYUv2 [34]的真实世界数据集上的所有子任务以及与先前工作相比的对象插入任务上都取得了最先进的结果我们的贡献有三方面。(1)我们提出了第一个基于密集视觉变换的逆伦框架,在多任务环境下工作。(2)我们证明,适当的设计选择导致更好地处理场景组件之间的全局交互,从而更好地消除形状,材质和照明的歧义。(3)我们在所有任务中展示了最先进的结果,并在增强现实中实现了高质量的应用。2. 相关工作室内场景的逆向渲染。几个先前的作品研究了形状、材料和光的相互作用,以从阴影中估计形状[15,46]、内在图像分解[13,20]、材料属性[1,6,21,22,32]或照明[3,10,11,44],而逆渲染试图同时估计所有这些因素[26]。用于逆渲染的经典方法通常被设定为具有启发式先验的能量最小化,例如,SIRFS [2,3],其中固有属性与统计成本函数联合优化。尽管早期的成功,这样的模型通常不能很好地推广到具有不同外观的真实图像。随着深度学习的进步,基于CNN的方法已经被开发出来,以数据驱动的方式学习可推广的最近的NIR方法[33]使用弱标签进行预训练,并在真实图像上进行微调,重新渲染损失。像Lighthouse [36]这样的方法使用立体输入学习体积照明表示,而Wang等人。[39]这是一个简单的图像。Li等[19,23]设计基于物理的表示和渲染层,以从单个图像中估计形状,SVBRDF和空间变化的然而,上述方法利用卷积神经网络,其特征在于有限的感受野并且缺乏明确的注意力机制来推理图像空间中的长程依赖性,这对于估计光传输的全局特性及其与材料和形状的相互作用用于逆向渲染的数据集。合成数据集[23,30,35]通常用于为大多数模态提供地面实况,包括场景几何形状,材料和照明,并且适合以监督方式训练逆渲染模型[19],同时实现对真实世界数据集的良好概括性。在合成数据集上训练的模型被证明可以通过弱监督[4],对模态子集的完全监督[34]或重新渲染损失[33]进行微调来进一步改善真实世界的图像在这项工作中,我们在OpenRooms数据集[23]上训练我们的Transformer模型,并通过在IIW [4]和NYUv2 [34]真实世界数据集上进行微调来获得最先进的结果。视觉Transformer。 卷积神经网络(CNN)长期以来一直是选择作为深度学习密集预测的构建块的架构,既可以作为特征提取的骨干[5,14],也可以作为解码器[19,27]。然而,CNN固有的几个缺点使得它们对于需要在长距离依赖上进行推理的任务来说是次优的。2824LBG×k=1∈∈Σ∈××∈∈×× ××LRR××n ∈1Np联系我们LL图2.IRISformer概述对于BRDFGeoNet,我们在上部灰色块中说明了多任务设置,而单任务情况(下部灰色块)具有4个独立的DPT副本,具有不同的输出头设计。尽管已经提出了多种措施来缓解这些问题,包括扩张卷积[5,42],跳过连接[14,31]和自我注意[45]。最近提出的Vision Transformer(ViT)[7]已经实现了在图像空间上具有全局关注的特征提取,具有优雅的设计和更好的可解释性,同时在多个视觉任务上实现了与CNN相比的卓越性能 几项工作[38,41,43]已经将ViT扩 展 到 密 集 预 测 任 务 , 包 括 DPT [28] , SwinTransformer [25]等。已经做出了额外的努力来在多任务或多对象设置中利用变换器,例如遵循编码器-解码器设计方案并利用任务特定查询嵌入来学习所有的统一解码特征空间的UniT[16]。任务在对比这些作品,我们提出了单任务和多任务变压器的密集预测任务的逆渲染,其中使用变压器的材料和照明估计以前没有研究过。3. 方法记法。矢量用小写粗体字体表示(例如,X)。矩阵是大写粗体(例如,X)而标量是常规字体(例如x或X)。带帽子的变量,e. G. 是对应实体X的估计。F或表示一组中的第L个样本(例如,图像,形状),我们使用下标(例如,Xl)。大写书法符号(如 X)表示函数。3.1. 场景表示和损失函数几何形状和空间变化的材料。在IRISformer中,我们只考虑摄影机视锥体内的场景元素。对于hw图像,我们用深度图DRh× w和法线N来表示每像素的几何形状Rh×w ×3。我们将材料表示为微面空间变化BRDF模型(SVBRDF)[17],分别具有尺寸为h w3和h w的粗糙度A和粗糙度R具体地,给定单个RGB输入图像I,我们寻求学习表示为B的函数BRDFGeoNet以联合估计上述性质:{D,N,A,R}=B(I)。Giv en ground空间变化的照明。 对于照明,我们遵循Li etal。[19,23]采用1632像素的每像素图像空间环境图 来表示入射辐照度,由K = 12球面高斯(SG)波瓣λ k,λ k,fkK参数化 . 这里,λkS2是单位球面上的中心取向,fkR3是强度,λkR是带宽。 给定每组照明参数和从3D中的一个空间位置η向外的取向,我们有KG(η)= fke λ(1−η):S2→ R3.(一)k=1对于所有h w像素位置和来自3D中的每个表面点的所有16 32个外出方向的集合,我们到达照明图L高×宽×16×32×3。然后,使用单个图像作为唯一输入或将其与几何和材料的预测相结合,表示为可以学习的网络:L=(I)或L=(I,D,N,A,R)。几何、材料和照明的几何估计,每像素的基于物理的可微分的光线,RendererRenderNet [19]表示为可以重新渲染输入图像:(D,N,A,R,L)。监督照明的培训,假设密集可以从合成数据集获取地面真实值,我们在光照图L上(在对数空间中)施加尺度不变的L2重建损失,并在L2重建损失的基础上施加尺度不变的L2重渲染。在重新渲染的图像上的损失。最后的损失L都是一个所有估计的加权损失组合:Lall=λALA+λRLR+λDLD+λNLN+λLLL+λILI。(二)3.2. 高密度视觉TransformerDense Vision Transformer(DPT)[28]是一种用于密集预测的通用架构,利用视觉变换器[7]代替CNN作为骨干。图像I首先被划分为大小为p p的非重叠区块的h/p w/p网格,随后DPT将每个区块标记为具有阴影CNN(DPT-大或DPT-基础)或ResNet(DPT-混合)的维度D的向量。 结果是一组令牌t0={t0,. . .,t0 其中Np=hw/p2,事实,我们使用尺度不变的L2损失[19,29]用于深度和深度(对数空间),以及粗糙度和法线的L2损失t0RD,n=[1,. . . N p]。然后,M个Transformer层的级联用自关注变换向量集[37]BRDFGeoNet(多)头的t0的t0T1⋮的t0T1⋮33领导一个头枕头D头N不⋮T3头1不反照率粗糙度0深度法线的t0T1⋮T3编码器T1⋮解码器F不3的t0T1⋮头不不编码器解码器输入图像I解码器fT[编码器{A,R,D,N} 解码器{A,R,D,N}头{A,R,D,N}T3解码器f照明LBRDFGeoNet(单)输入图像IX4LightNetResNetResNet{A,R,D,N}兰德勒河2825×B BBB{B B B B}输入图像反照率粗糙度深度法线照明重新渲染图3.OpenRooms上的BRDF、几何和照明估计小插图(在PDF版本中放大时最佳)是用双边求解器(BS)处理的估计。更多的结果可以在补充材料中找到。转换为tM,并且卷积解码器之后的重新组装操作将令牌变换回2D空间,从而产生2D密集特征图。一个定制的卷积头连接到产生的最终预测的特征图,根据特定的预测任务。3.3. 单任务网络设计由于DPT的模块化设计以及不同DPT变体之间的大小和容量变化[28],我们考虑了一些设计选择,用于使 用 DPT 模 块 在 单 任 务 和 多 任 务 设 置 中 构 建BRDFGeoNet和LightNet我们的管道的完整设计可以在图中找到二、 在单任务设置中,我们寻求通过对深度、法线、垂直度、粗糙度和光照中的每一个使用独立的DPT来最大化每个任务的性能。这有效地导致4个DPT A、R、D、N的 BRDFGeoNet 独 立 地 推 断 每 个 模 态 : D=D(I),N=N(I),A=A(I),R=R(I).对于每个DPT,我们通过使用M=6个Transformer层进行编码和使用M=6个层进行解码来遵循DPT混合[28]的设计。在我们的例子中,我们使用256 320的输入分辨率和补丁大小p=16。ResNet-50 [14]充当补丁嵌入主干。 对于输出头设计,我们采用输出特性对于每个像素。然而,我们发现为三个任务共享解码器并不是最佳的,因为这些任务的输出空间非常不同,因此强制使用统一的解码器特征空间会使训练不稳定。因此,我们使用一个共享的编码器,但独立的解码器和LightNet输出头。我们在多任务设置中的编码器和解码器中使用4个Transformer层,以便整个模型可以适合一个GPU进行联合训练。我们使用与前面提到的类似的输出层设计,除了不使用tanh来表示tank,而是使用单位范数的归一化。3.4. 多任务网络设计单网络设计需要4个用于材质和几何图形的DPT,以及一个用于照明的DPT。因此,集体内存占用太大,无法将整个模型放入常规GPU中进行训练。另一种选择是允许DPT具有统一的特征空间,以便可以减少内存使用。此外,在某些情况下,共同学习的特征可以从相关任务中受益。受UniT [16]的启发,输入域特定的编码器和共享解码器是为多模态输入设置设计的,除了独 立的特定于 任务的卷积 头之外, 我们还为BRDFGeoNet中的所有任务使用出于内存考虑,我们共享解码器,同时注意到独立解码器的进一步增益可能是可能的。来自ResNet的第1阶段和第2阶段,以及来自层的3和6从解码器,融合表示和使用4结果是专为多如图所示,有4个头。二、 的卷积层与2个双线性插值层,产生最终输出。读出标记[28]被设置为忽略,并在输出头中启用批量标准化(BN)。DPT之间的唯一区别是头部的输出层,这取决于子任务。我们使用双曲正切激活所有的头输出的深度,粗糙度,法线和反深度。有关张紧器尺寸和头部设计的详细信息请参见补充材料。对于LightNet,我们有类似的编码器-解码器设计。需要三个独立的头来估计K球面高斯的轴心、强度和带宽LightNet与单任务设置相同。3.5. 附加部件使用双边求解器进行优化。我们可以选择使用双边求解器(BS)来优化几何和材料输出。额外的细化导致更平滑的输出,这对于某些指标(如WHDR [4])是更可取的。与以前基于CNN的作品相比,我们观察到我们基于transformer的输出已经相当准确,而无需所有任务的双边求解器。级联设计。 在先前的作品[19]中,地面实况Ours(single)Ours(multi)Li et.alB2826↓↓↓↓ ↓ ↓ ↓用于基于渲染误差来细化预测。然而,它导致内存增加了两倍,只有很小的改进,而我们已经取得了显着的进步。高光和阴影,我们可以更好地将光线从阴影中分离出来,并相应地产生更亮/更暗的光线)。通过单级网改善所有基准测试结果-工作因此,我们选择不使用级联细化。4. 评价我们证明了我们的基于DPT的IRIS- former产生全局一致估计的能力,该估计在所有模态上都优于传统的基于CNN的模型,因为它的全局注意力可以更好地处理逆渲染的固有对于存在高光、阴影和相互反射的材质和照明预测,这一我们包括OpenRooms上的联合BRDF、几何和照明预测结果,以及真实世界基准测试的子任务我们还提供了设计选择和消融研究的分析。4.1. 数据集和培训鉴于合成逆渲染数据集在为所有逆渲染任务提供照片级真实感图像和完整的地面实况方面的成功,我们使用OpenRooms(OR)[23]数据集进行监督训练。我们使用6,684个场景进行训练,1,008个场景进行测试,每个场景都使用多种材质和照明配置渲染,总共102,452个图像用于训练,15,738帧用于测试。我们使用Adam优化器在 OR上训练 BRDFGeoNet(在多任务和单任务设置中),在4个GPU上以1 e-5的学习率和8的批量大小进行了80个epoch,从ImageNet上的预训练ResNet开始。然后我们冻结BRDFGeoNet并在相同的设置中训练LightNet。补充材料中有额外的训练细节和损失的权重。在OpenRooms上训练之后,我们可以在真实数据集上进行微调,其中所有任务或任务子集的标签都是可用的。具体来说,我们对(a)IIW数据集[4]进行微调,其中包含相对标签Paddo;(b)NYUv 2 [34],其中包含地面真实深度和法线。我们还展示了照明估计结果与虚拟对象插入现实世界的图像从加隆等人。[12]其中地面实况照明是在选定位置用光探针收集的。4.2. BRDF和几何估计表1包括IRISformer以及Li等人的性能。[23](我们在与我们所有评估相同的设置中进行了训练和微调)用于BRDF和几何估计,在我们的OpenRooms测试分割中进行了评估,两者都有一个变体,其中双边求解器应用于BRDF,粗糙度和深度。我们观察到我们的多任务和单任务模型在所有任务上都有更好的性能,我们在图中用几个样本直观地展示了比较3 .第三章。正如可以观察到的,我们的模型具有更清晰和准确的材料和几何估计,以及更好的照明估计(特别是在区域方法ARDNL我L+ IIRISformer(multi)0.51 5.52 1.72 2.05 12.50 1.15 12.54IRISformer(multi+BS)0.51 5.50 1.71 2.0512.47 1.15 12.58IRISformer(单)0.43 5.50 1.42 1.8912.040.99IRISformer(single+BS)0.43 5.48 1.44 1.8912.080.97我们的(直接)----12.29 1.29 12.42[ 23 ]第二十三话0.52 6.31 2.20 2.6118.63 0.88[ 23 ]第二十三0.48 6.30 1.91 2.6118.610.88 18.70表1.在OpenRooms上以10−2为基数的BRDF、几何和照明的错误[23]。越低越好。对于照明估计,L是照明重建误差,I是渲染误差,L+I是LightNet训练的组合照明损失。4.3. 照明估计在表1中,我们报告了不同版本的IRISformer的照明估计误差,包括多任务和单任务模型,以及这两个模型与BS的变体。我们还包括我们的照明估计模型的另一个版本(表示为Ours(直接)),其中BRDF和几何估计的第一阶段被删除,只有图像直接用作照明预测的输入我们从单个模型中观察到对于直接模型,它能够 直 接 从 图 像 输 入 中 估 计 合 理 的 照 明 , 突 出 了Transformer架构的功率,但不适合下游任务(例如,对象插入、材质编辑),其中需要完整的场景分解。4.4. 子任务比较内禀分解为了评估IRISformer在真实世界图像上的内在分解(仅限CRAMDO)任务,我们使用标记像素对之间的CRAMDO的相对标签在IIW [4]上微调我们的模型。结果总结见表2和图5。我们观察到,由于其更大的容量和独立的特征空间,我们的单任务模型的性能优于多任务版本。更重要的是,多任务和单任务模型在IIW上实现了新的最新技术水平,优于所有先前的方法。请注意,音调的变化是由于相对损失的微弱监督。几何估计。 对于深度和正常预测,我们遵循Li等人的训练和评估设置。[23],并在表3和图5中报告结果。我们选择在多任务逆渲染设置中使用类似方法,而不是在野外最大化几何预测性能的专用和更复杂的方法,如DPT [28]或MiDaS [29]。正如可以观察到的,我们实现了改进的结果相比,所有以前的作品上市。2827输入图像反照率粗糙度深度法线照明重新渲染图4.BRDF,几何估计,每像素照明和重新渲染结果的加隆等人。[12](BS之后)。插图是BS之前的结果即使没有BS,我们的材料和几何结果也更清晰与Li等人相比,在我们重新渲染的图像中也可以观察到更少的伪影(参见样本2中表格上的明亮区域)。[23]由于对所有模式的估计更好。输入图像CGIntrinsics 18Li等人21Ours(multiple)Ours(single)输入图像地面实况Li等人21我们的(多)我们的(单人)图5. (Top)IIW [4]上的固有分解结果(BS之前)。插图是BS之后的结果。我们的结果在具有复杂几何形状和照明的区域中更好(参见样本1中的床上用品和样本2中的衣服)。(底部)NYUv2 [34]上的几何估计结果(均无BS)。我们的打印机不太容易出现伪影(参见示例1中的打印机表面和示例2中的垃圾桶更多结果请参阅补充材料真实世界图像的中间结果。在图4中,我们在Garon等人的真实世界图像上测试IRISformer。[12],我们证明了IRISformer可以很好地推广到现实世界的图像,并且在每个任务中都优于以前的技术。一般来说,我们的结果在空间上更一致,并且具有更少的伪影(最明显的是重新渲染的图像,这是所有估计的结果图6、我们比较用Wang等人的最近方法,[39]在他们报告的样本上,我们得到了更好的结果。真实图像上的光照估计。通过中间估计,包括材料,几何形状和最终的每像素照明,我们展示了IRISformer在下游应用中的应用,对于对象插入,我们将与Ours(single)Ours(multi)Li et.al 21Ours(single)Ours(multi)Liet.al2828↓ ↓↓方法微调数据集WHDRIRISformer(multi)OR+IIW13.1IRISformer(单)OR+IIW12.0[ 23 ]第21话:我的世界[ 19 ]第19话:我的世界NIRCGIntrinsics表2. IIW上的本征分解[4]。越低越好。方法平均值(%)Med.(三)深度IRISformer(multi)23.5 16.30.162IRISformer(单)20.2 13.4 0.132李single-6 single-4 multi Li 七三零五六二五六 1,539 795推断(ms)141.9 125.9 91.9 45.2A+R+D+N6.00 6.08 6.44 7.6512.14 12.85 12.54 18.72表5.多种设计选择分析:IRISformer(BRDFGeoNet中具有6层或4层的单任务,具有4层的多任务)和来自Li等人的基于CNN的架构。[23]第23话,李NIR输入图像Li等人21我们Zhang表3. NYUv2上的正常(平均值和中位数)和深度(平均值对反向深度)预测结果[34]。越低越好。图7.材料编辑的例子,我们取代材料的一部分墙与木材。请注意,来自外部照明的阴影在替换的材质上重新创建,证明了我们准确的空间变化照明估计。输入图像注意力地图图8.单任务模型学习的每个热图是补丁(由粉红色方块表示)的注意力权重(亲和力)w.r.t.所有其他补丁,来自后续Transformer层的一个头图6.我们的结果与Wanget al. [39]关于Rendo,法线和重新渲染。在具有挑战性的输入上,我们实现了更平滑的伪影,更丰富的细节和更一致的法线。左上方的插图是输入图像,右下方的插图是BS之前的)。[ 11 ]第19届世界杯足球赛[ 12 ]第23届世界杯足球0.47 0.58表4.关于对象插入的用户研究,我们将IRIS- former与之前的每一项工作或地面实况进行比较,并报告反馈的百分比,其中其他方法被认为比我们的更真实。图中的先前工程。9.第九条。我们为插入的对象生成更逼真的照明,这些对象在高光和阴影区域中的照明强度,方向和插入对象的相对亮度上更好地匹配周围环境。为了定量评估插入结果,我们进行了针对选项卡中其他方法的用户研究。4.第一章我们优于所有以前的方法,只是不如地面实况。我们还在图中执行材料编辑图7中,我们替换了平面表面的材料并重新渲染该区域,以展示IRISformer捕获该区域的定向照明效果,以便替换的材料将被适当地阴影化。结果和比较的完整列表见补充材料。4.5. 消融研究设计选择的比较。在表5中,我们比较了所有模型的各种指标,包括模型大小,Titan RTX 2080Ti GPU上一个样本的推理时间,材料和几何组合的OR测试损失,以及组合的照明损失。关于其他次要选择的研究可在补充材料中找到。变形金刚注意为了提供额外的洞察到的注意力,是学习,我们包括在图.8两个样本,其中对应于来自不同层的一个补丁位置的注意力图被可视化。在第一个示例中,我们在照亮的椅子座位上显示了一个补丁,随后注意到(1)椅子和窗户,(2)图像上的突出显示区域,(3)整个地板,(4)椅子本身。对于第二个示例,所选面片位于我们的(多)Wang et.al21Wang et.al21我们的(多)↓1 23 41 23 42829Barron等人13 Gardner等人。17 Li et al.21我们的图9.虚拟对象插入结果。来自Barron等人的照明估计。[2]缺乏高频率,而加德纳等。[11]预测全局环境地图,而不是每个位置的空间变化照明与最近的Liet al.[23],我们更好地解耦照明和外观,以更好地恢复高亮或阴影区域(参见示例1和2中的中心对象,示例4和5中的右侧对象我们的照明也更加空间一致。光源(参见示例1和示例3的对象中的阴影方向墙壁,并且它关注(1)墙壁的邻近阴影区域,(2)整个墙壁,(3)潜在的光源和遮挡物,(4)周围环境。在整个级联的Transformer层中,IRISformer学会关注大区域和远距离相互作用,以改善其在复杂光传输效应存在下的预测。5. 讨论限制和潜在的负面影响。IRISformer仅推断场景表面上的每像素照明,因此在空中插入对象等应用程序是不可行的。未来的工作也可能探索超越目前的多任务设计的选择,可能通过利用各种任务的互补性。潜在的负面影响包括Deepfake [40],其中我们的方法可以用于重新创建具有真实感修改外观的室内场景。结论 我们已经提出了一个逆渲染框架,估计材料,几何形状,和每像素照明,给定一个无约束的室内图像使用Transformer为基础的模型。我们的研究结果表明,该模型可以产生显着更好的结果,特别是在材料和照明,这需要长期推理的消歧。此外,我们的方法还支持单任务或多任务设置的不同设计选择。下游应用程序,包括对象插入和材料编辑的真实世界的图像证明了我们的模型的实力,以更好地处理具有挑战性的照明条件,并产生高度逼真的结果。我们还提供了对设计选择的分析和我们模型学习的注意力地图致谢:我们感谢NSF CAREER 1751365、NSF IIS 2110409和NSF CHASE-CI、高通公司的慷慨支持,以及Adobe的礼物和Google研究奖。2830引用[1] Miika Aittala,Timo Aila,and Jaakko Lehtinen.神经纹理合成的反射率建模 ACM Trans. Graphics,35(4):65,2016. 2[2] Jonathan T Barron和Jitendra Malik。来自单个rgb-d图像的 内 在 场 景 在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition中,第17-24页,2013年。一、二、八[3] Jonathan T Barron和Jitendra Malik。形状、照明和着色的反 射 率 。 IEEE transactions on pattern analysis andmachine intelligence,37(8):1670-1687,2014。一、二[4] Sean Bell,Kavita Bala,Noah Snavely.在野外的内在图像ACM Transactions on Graphics(TOG),33(4):1一、二、四、五、六、七[5] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence,40(4):834二、三[6] Valentin Deschaintre 、 Miika Aittala 、 Fredo Durand 、George Drettakis和Adrien Bousseau。使用渲染感知深度网 络 捕 获 单 图 像 svbrdf ACM Trans.Graphics , 37(4):128,2018. 2[7] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Sylvain Gelly,et al.一张图片相当于16x16个单词:用于大规模图像识别的变换器. arXiv预印本arXiv:2010.11929,2020。二、三[8] David Eigen和Rob Fergus。预测深度,表面nor-mals和语义标签与一个共同的多尺度卷积架构。在IEEE计算机视觉国际会议集,第2650-2658页,2015年。1[9] 马克·安德烈·加德纳、扬尼克·霍尔德·杰弗里、卡利安·桑克·阿里、克里斯蒂安·加格恩·埃和让·弗朗索瓦·拉隆德。深度参数化室内照明估计。在IEEE/CVF计算机视觉国际会议论文集,第7175-7183页1[10] 马克·安德烈·加德纳、扬尼克·霍尔德·杰弗里、卡利安·桑克·阿里、克里斯蒂安·加格恩·埃和让·弗朗索瓦·拉隆德。深度参数化室内照明估计。InProc. ICCV,2019.2[11] Marc-Andre 'Gardner,Kalyan Sunkavalli,Ersin Yumer,Xiao-hui Shen,Emili a no Gambaretto,Christian Gag n'e和Jean-Franc.Lalonde。学习从单个图像预测室内照明ACM Transactions on Graphics(TOG),36(6):1-14,2017。一、二、七、八[12] Mathieu Garon , Kalyan Sunkavalli , Sunil Hadap ,Nathan Car r,andJean-FrancoisLalonde. 快速空间变化的室内照明估计。在IEEE/CVF计算机视觉和模式识别会议论文集,第6908-6917页,2019年。五、六、七[13] Roger Grosse,Micah K Johnson,Edward H Adelson,and William T Freeman.固有图像算法的地面实况数据集和基线评估2009年2831计算机视觉国际会议,第2335- 2342页。IEEE,2009年。2[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,andJian Sun. 用 于 图 像 识 别 的 深 度 残 差 学 习 。 在Proceedings of the IEEE conference on computervision and pattern recognition,第770-778页,2016中。二、三、四[15] Berthold KP Horn和Michael J Brooks。从阴影中形成形状。麻省理工学院出版社,1989年。2[16] Ronghang Hu和Amanpreet Singh。单元:使用统一的Transformer进行多模式多任务学习。arXiv预印本arXiv:2102.10772,2021。三、四[17] Brian Karis和Epic Games虚幻引擎中的真实着色4.Proc. Physically Based Shading Theory Practice,4(3),2013. 3[18] Chloe LeGendre 、Wan-Chun Ma 、Graham Fyffe 、John Flynn、Laurent Charbonnel、Jay Busch和PaulDebevec。Deeplight:无约束移动混合现实的学习照明在IEEE/CVF计算机视觉和模式识别会议论文集,第5918-5928页,2019年。1[19] ZhengqinLi,MohammadShafiei,RaviRamamoorthi , Kalyan Sunkavalli , and ManmohanChandraker.复杂室内场景的逆向渲染:单个图像的形状,空间变化的照明和svbrdf在IEEE/CVF计算机视觉和模式识别会议论文集,第2475-2484页一二三四七[20] 李正奇和诺亚·斯内弗利。Cgintrinsics:通过基于物理的渲染实现更好的固有图像分解。在欧洲计算机视觉会议(ECCV)的会议记录中,第371-387页,2018年。一、二、七[21] Zhengqin Li , Kalyan Sunkavalli , and ManmohanChandraker. 体 量 材 料 : 用 单 个 手 机 图 像 采 集SVBRDF。在ECCV,2018。2[22] Zhengqin Li , Zexiang Xu , Ravi Ramamoorthi ,Kalyan Sunkavalli,and Manmohan Chandraker.学习从单个图像重建形状和空间变化的反射率。在SIGGRAPH Asia,第269页。ACM,2018。2[23] Zhengqin Li , Ting-Wei Yu , Shen Sang , SarahWang,Meng Song,Yuhan Liu,Yu-Ying Yeh,RuiZhu , Nitesh Gun- davarapu , Jia Shi , Sai Bi ,Zexiang Xu , Hong-Xing Yu , KalyanSunkavalli ,Milos Has Has Dogan , Ravi Ramamoorthi , andManmohan Chandraker.OpenRooms:一个用于真实感室内场景数据集的端到端开放框架。在CVPR,2021年。二、三、五、六、七、八[
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功