没有合适的资源?快使用搜索试试~ 我知道了~
62290场景表示变换器:0通过集合潜在场景表示进行无几何约束的新视角合成0Mehdi S. M. Sajjadi Henning Meyer Etienne Pot Urs Bergmann Klaus Greff0Noha Radwan Suhani Vora Mario Luˇci´c Daniel Duckworth Alexey Dosovitskiy �0Jakob Uszkoreit � Thomas Funkhouser Andrea Tagliasacchi ‡�0Google研究 ‡ Simon Fraser大学0摘要0计算机视觉中的一个经典问题是推断3D几何结构0从少量图像中提取场景表示,可用于以交互速率渲染新视角。以往的工作侧重于重建预定义的3D表示,例如纹理网格,或者隐式表示,例如辐射场,并且通常需要具有精确相机姿态和长时间处理每个新场景的输入图像。0在这项工作中,我们提出了场景表示变换器0前者(SRT)是一种处理新区域的姿态或非姿态RGB图像的方法,它推断出“集合潜在场景表示”,并在单次前向传递中合成新视角。为了计算场景表示,我们提出了对图像集合的VisionTransformer的泛化,使得全局信息整合成为可能,从而进行3D推理。通过在场景表示中进行注意力操作,高效的解码Transformer将光场参数化,以渲染新视角。学习过程通过最小化新视角重构误差进行端到端的监督。0我们展示了这种方法在合成数据集上优于最近的基准方法0在合成数据集上,我们以PSNR和速度为指标,包括为本论文创建的新数据集。此外,我们还展示了SRT在使用街景图像进行实时交互可视化和语义分割的真实世界室外环境中的可扩展性。0�本工作完成时在Google工作。贡献:MS:原始想法和概念化,主要实现,实验,写作,组织,主导;HM:想法概念化,实现,实验,写作;EP:实现,实验,写作;UB:想法概念化,实现,实验,写作;KG:数据集支持,指导;NR:独立于项目的代码;SV:独立于项目的代码;ML:指导,写作;DD:指导,独立于项目的代码;AD:指导;JU:指导;TF:数据集,指导,写作;AT:指导,写作。通讯:srt@msajjadi.com & tutmann@google.com项目网站:srt-paper.github.io0图1. 模型概述 -SRT将一组图像编码为场景表示:一组潜在特征。通过使用光场射线在潜在表示中进行注意力操作,实时渲染新视角,详见图2。01. 引言0我们的工作目标是交互式的新视角合成0给定之前未见过的场景的少量RGB图像,我们可以以交互速率合成相同场景的新视角,而无需进行昂贵的场景处理。这样的系统可以用于虚拟探索城市空间[26],以及其他地图制作、可视化和AR/VR应用[27]。主要挑战在于推断出能够编码足够3D信息以正确呈现视差和遮挡的场景表示。0传统方法构建显式的3D表示0例如彩色点云[1]、网格[31]、体素[36]、八叉树[42]和多平面图像[52]等。这些表示方法可以进行交互式渲染,但通常需要昂贵且易碎的重建过程。0更近期的工作研究了如何表示场景0也可以使用纯隐式表示[39]。值得注意的是,NeRF将场景表示为由MLP参数化的3D体积[25],并已经证明可以扩展到具有挑战性的真实世界环境[23]。然而,它通常需要对每条射线进行数百次MLP评估来进行体积渲染,依赖于准确的相机姿态,并且需要昂贵的训练过程来适应新场景,因为不同场景之间没有共享参数。Follow-ups that address these shortcomings include re-projection based methods which still rely on accurate cameraposes due to their explicit use of geometry, and latent modelswhich are usually geometry-free and able to reason globally,an advantage for the sparse input view setting. However,those methods generally fail to scale to complex real-worlddatasets. As shown in Tab. 1, interactive novel view synthesison complex real-world data remains a challenge.We tackle this challenge by employing an encoder-decoder model built on transformers, learning a scalableimplicit representation, and replacing explicit geometricoperations with learned attention mechanisms. Differentfrom a number of prior works that learn the latent scenerepresentations through an auto-decoder optimization pro-cedure [38, 16], we specifically rely on an encoder architec-ture to allow for instant inference on novel scenes. At thesame time, we do not rely on explicit locally-conditionedgeometry [49, 41] to instead allow the model to reason glob-ally. This not only comes with the advantage of strongergeneralization abilities (e.g., for rendering novel camerasfurther away from the input views, see Fig. 4), but also en-ables the model to be more efficient, as global informationis processed once per scene (e.g., to reconstruct 3D geom-etry and to resolve occlusions) in our model, rather thanonce or hundreds of times per rendered pixel, as in previousmethods [49, 41, 44].We evaluate the proposed model on several datasets ofincreasing complexity against relevant prior art, and see thatit strikes a unique balance between scalability to complexscenes (Sec. 4), robustness to noisy camera poses (or noposes at all, Fig. 6), and efficiency in interactive applica-tions (Tab. 3). Further, we show a proof-of-concept for thedownstream task of semantic segmentation using the learnedrepresentation on a challenging real-world dataset (Fig. 7).2. Related WorkThere is a long history of prior work on novel view syn-thesis from multiple RGB images based on neural represen-tations (see Tab. 1 and [40]). Recent work has demonstratedthat novel views can be synthesized using deep networkstrained to compute radiance values for a given 3D positionand direction. In particular, NeRF [25] trains an MLP to storeradiance and density used in a volume rendering system andproduces novel views with remarkably fine details. Severalextensions have been proposed to mitigate some its short-comings, including ones to accelerate rendering [12, 30, 48],handle color variations [23], optimize camera poses [21],and perform well with few images [15]. However, thesemethods generally still require an expensive optimization ofan MLP for each novel scene, and thus are impractical fordeployment at large scale.NeRF with Re-projection. Several NeRF extensions havebeen proposed that do not always require to be trained indi-NeRF et al.Re-projectionLatentOther OursNeRF [25]FastNeRF [9]NeRF-W [23]BARF [21]DietNeRF [15]GRF [41]IBRNet [44]PixelNeRF [49]MVSNeRF[5]CodeNeRF [16]NeRF-VAE [20]LFN [38]NRW [24]GFVS [32]SRT1) Real-world dataX X X X X X X X X⇥ ⇥ ⇥ X XX2) Temp. consistentX X X X X X X X X X X X ⇥ ⇥X3) Real-time⇥ X ⇥ ⇥ ⇥ ⇥ ⇥ ⇥⇥⇥ ⇥ X ⇥ ⇥X4) Appearance enc.⇥ ⇥ X ⇥ ⇥ ⇥ ⇥ ⇥⇥⇥ ⇥ ⇥ ⇥ ⇥X5) Pose-free623006)少量图像 � � � � X � � X X X X X X X X07)泛化能力 � � � � � X X X X X X X � X X08)即时生成新场景 � � � � � X X X X � X � � X X09)全局潜在 � � � � � � � � � X X X � � X0表1.与先前方法的特征比较。行表示每种方法是否:1)在真实世界数据上进行了演示,2)旨在提供相邻视角之间的一致性,3)实时执行推理,4)处理具有相同场景中不同外观的图像,5)在测试时无需已知相机姿态,6)使用非常稀疏的输入图像,7)从训练集推广到新场景,8)在前向步骤中捕获新场景,并且9)学习全局潜在场景表示。0这些方法依赖于从CNN中提取特征的显式3D到2D样本沿射线的投影,然后由神经网络对每个点进行聚合[41,44,49],或者聚合到体素网格中[5]。因此,这些网络可以进行预训练,然后应用于新场景,无需任何优化,或者进行额外的每个场景的微调。然而,依赖于显式相机投影需要精确的相机姿态,而直接投影无法考虑样本和输入特征之间的物体遮挡。0图像0变压器。变压器最初用于自然语言处理中的序列到序列任务,变压器[43]放弃了先前方法的循环记忆,而是使用多头注意力机制从输入的最相关部分收集信息。视觉社区对其在图像中的应用进行了深入研究。�������������������������������������������������������������������������������������������arg min✓=[✓CNN,✓E,✓D]XsEr⇠Ii(r)k22(3)62310视角0图像0视角0图像0图像0图像0图像0视角0图像0图像0视角0视角0视角0图像0图像0视角0视角0场景0视角0的0图像0图像0的的的的场景表示0视角0视角0视角0图像0图2.网络架构-给定一组定位(SRT)或未定位(UpSRT)的RGB图像,CNN提取出补丁特征,这些特征由编码器变压器处理,从而得到场景的潜在表示。然后,通过关注场景表示中给定射线姿态的部分来渲染新视角,从而得到图像。详见第3节和附录A.2。0在计算机视觉和视频处理中,它们已经在多个任务中取得了最先进的成果[ 18 ],包括固有的几何应用,如深度估计[ 29],点云处理[ 51 ]和生成几何无关的视角合成[ 32]。后一项工作使用变换器学习一系列VQ-GAN嵌入[ 8],以在给定单个图像的情况下采样出逼真的视角。虽然结果质量很高,但由于其自回归性质,该方法速度较慢,并且不能用于视频渲染,因为每个帧都是独立采样的,会产生明显的闪烁伪影。ViT [ 6]已被提议用于非常大规模的分类任务:从输入图像的补丁中提取局部特征,并将其馈送到变换器网络中。我们将证明这种架构非常适合学习3D场景表示,我们在此基础上进行扩展,使其能够处理来自多个图像的补丁,并通过添加一个查询射线的变换器解码器将其推广到3D。03. 方法0我们的模型接收一个无序的集合作为输入0同一场景的可选姿态图像{ I i 2 R H � W � 3 , c i 2 SE (3) , K i2 R 3 � 3 },其中外部相机矩阵c i = [ R i | t i]和内部相机矩阵K i。模型通过具有可训练参数� E的编码器E将此集合编码为基数为Z的集合表示:0{ z z 2 R d } = E � E ( CNN � CNN ( { I i , c i , K i } )) (1)0更详细地说,我们的编码器首先通过共享的CNN主干处理图像(图2左),然后聚合起来0将特征转换为一组平坦的补丁嵌入。然后,编码器变换器处理这组嵌入,生成输出的代码{ z z }。请注意,{ z z}完全编码了特定的3D场景,就像对应的图像集所观察到的那样,因此它是我们的集合潜在场景表示。0解码器变换器通过查询这个表示来生成图像0D 使用可训练参数� D 为视线r = ( o , d)的像素颜色生成器生成像素颜色,其中o是起点,d是方向:0C ( r ) = D � D ( r | { z z } ) (2)0按照惯例,我们假设I 0 是规范图像,因此查询r是以c 0的坐标表示的,并且当相机信息不可用时,我们假设规范相机姿态为单位矩阵。如果已知姿态信息,则在场景中的图像被随机洗牌,因此参考帧在训练和测试时都是随机选择的。给定一组来自不同场景的图像{ I s,i},我们通过新视角合成上的重建损失来端到端地训练所有参数:0s,i k C ( r ) - I gt0由于在训练期间模型的输入和输出都是2D图像,因此没有明确的3D监督。我们现在详细描述我们的架构的内部结构,如图2所示。0姿态信息。我们首先沿着通道维度连接相机原点的位置编码γ [ 43 , 25 ]与L o个八度和相机方向。LFN [38]24.950.870-14.770.3280.582PN [49]26.800.9100.10821.970.6896+(6662320NMR Multi-ShapeNet0" PSNR " SSIM # LPIPS " PSNR " SSIM # LPIPS0SRT (我们的方法) 27.87 0.912 0.066 23.41 0.697 0.3690表2.定量结果-对简单和具有挑战性的数据集进行新场景新视角合成的评估。作者提供的NMR基线(LFN的LPIPS不可用)。在数据集和度量标准上,SRT是最好的,除了MSN上的LPIPS。0Ld个八度,从当前选择的规范相机c0产生:0γ(r)= γ(c−100 ∙ o,Lo)⊕γ(c−100 ∙ d,Ld)(4)0Fγ0i(r)= Ii(r)⊕γ(r)(5)0总体上,该阶段的输出将具有维度|Fγ0i | =(H,W,C),其中C =(3 + 6Lo + 6Ld)或C0取决于是否提供相机姿态信息。根据[25]的做法,我们对每个3D维度(即6L)分别进行正弦和余弦编码。0CNN -图2(左)。共享的卷积神经网络提取补丁特征,同时通过因子K =16缩放输入图像的空间维度,从而将形状从(H,W,C)映射到(h = H / K,w = W / K,C):0FC0i = CNN � CNN(Fγ0i)+ B(�)(6)0我们为所有图像的所有补丁添加了一个单一的全局学习的2D位置嵌入B(�)∈Rh�w�C,以使模型保留每个补丁在相应图像中的位置。然后,将空间维度展平以获得ˆFCNN0对于规范相机的所有补丁,添加了表示参考相机和所有其他相机的嵌入Bi=0(�),Bi6=0(�)∈RC,以使模型能够区分参考相机和其他所有相机:0Fi,n = ˆFCNN0Bi=0(�),如果i = 0,Bi6=0(�),如果i6= 0,8n ∈ {1,..,hw}(7)0所有特征一起形成(未排序的)大小为|{ff}| =Ihw的补丁嵌入集合,每个补丁的大小为RC:0{ff} =0I [0i = 10hw0n = 10F i,n(8)0编码器Transformer -图2(中)。我们通过一个标准的Transformer[43]将补丁嵌入传递给交替注意所有令牌和小型MLP块的Transformer:0{zz} = E � E({ff})(9)0该网络通过在补丁和输入图像之间进行注意力,以推断出3D场景表示的全局规模的场景信息。需要注意的是,关键的是,集合潜变量0LFN [38] PN [49] SRT0模型大小(#参数)105 M 28 M 74 M0a)场景编码时间 � 100秒 0.005秒 0.010秒0b)图像渲染速度192 fps 1.3 fps 121 fps0c)新场景视频渲染 � 100秒 75.5秒 0.182秒0表3. 计算性能 -模型大小,以及a)编码场景所需的时间,b)编码后单独渲染100帧的帧率,c)应用程序:编码新场景并渲染100帧视频的总时间。对于实际应用,SRT的速度比数量级更快。有关详细信息,请参见附录A.2。0场景表示的规模随输入信息的数量而变化,而不是固定大小[16, 20, 38]。解码器Transformer -图2(右)。解码器D也是一个Transformer。与编码器相比的主要区别在于,用于渲染的像素对应的光线被用作多头注意力机制的查询,而键和值是从所有层的场景表示{zz}中计算得到的。换句话说,解码器学习将注意力集中在场景表示中最相关的特征子集上,以计算输出颜色。注意,查询光线位置的编码方式与公式(4)中的方式相同。解码器的输出最终经过一个小的2层MLP来计算像素颜色。03.1. 训练和推理0在训练过程中,所有组件都只是简单地进行端到端的训练,使用新视角的L2重建损失,参见公式(3)。我们在附录A中提供了更多的训练细节0使用L2重建损失进行端到端训练,参见公式(3)。我们在附录中提供了更多的训练细节0附录A.2。在推理过程中,输入图像只需编码一次,然后可以用于渲染任意数量的新视角(例如视频)。请注意,这种方法旨在最大化推理效率,因为3D推理仅在编码器变换器中执行一次,而与要渲染的新视角数量无关。对于下游任务,场景表示的编码器可以进行预训练,并且可以与新任务的解码器一起进行冻结或微调(例如,语义分割-第4.5节)。04. 实验结果0我们进行了一系列实验,以评估SRT的性能如何0与先前的工作相比,评估SRT的新视角合成性能,并研究网络架构的每个组件如何对结果产生影响。在所有实验中,所有方法都在一个场景集的图像数据集上进行预训练,然后在新场景的图像上进行测试。除非另有说明,我们在所有数据集的所有实验中,使用相同的模型架构、超参数和训练协议来训练SRT。使用PSNR、SSIM [46]和LPIPS[50](VGG)评估合成图像。623304.1. 数据集0神经3D网格渲染器数据集(NMR)[17]。NMR已经在几个先前的研究中使用过。它由ShapeNet[4]对象在24个固定视角下渲染而成。该数据集非常简单,可能不适用于实际应用。MultiShapeNet(MSN)。因此,我们提出了这个更具挑战性的数据集,使用光线追踪进行渲染[11]。每个场景在一个不可见的边界框内随机放置了16-31个ShapeNet对象。我们还从382个复杂的HDR背景和环境贴图中进行采样。视点是在半球壳内均匀采样选择的。0与NMR相比,该数据集要困难得多0有几个原因:1)图像以照片般逼真的方式渲染,2)场景包含许多不同类型的对象,呈复杂而紧密的配置,3)复杂的背景地图阻碍了模型对对象的分割能力(就像在现实世界中一样),4)随机采样的视点防止模型过度拟合,不像NMR中使用相同的相机和规范定向对象。该数据集可在srt-paper.github.io上获得。街景。这是从真实世界的街景数据[10]创建的新数据集。训练数据集包含来自旧金山的550万个场景,每个场景有10个视点。该数据集非常具有挑战性,因为输入视点通常与参考视点相距几米,摄像机通常排列成直线(沿着车辆轨迹,意味着视角的多样性不大),场景包含具有挑战性的几何形状(例如树木和细杆)和动态元素(例如移动车辆和行人),摄像机具有鱼眼畸变和滚动快门(使得基于投影的方法如[49,41,44]不适用),最后,不同的图像通常具有不同的曝光和白平衡设置。04.2. 与基线方法的比较0在第一组实验中,我们比较了结果0对于新视角合成,SRT相对于以前的方法具有更好的性能。对于这些实验,我们将测试限制在NMR和MSN数据集上,因为它们提供了一个机会,可以在已知真实情况的合成环境中与最近发表的方法进行直接比较。我们在这两个数据集上使用相同的参数运行SRT。基线方法。我们与两个基线方法进行比较,这两个方法与我们的方法有一些相似之处。第一个基线是Pixel-NeRF[49],它也使用预训练网络从图像中生成特征。第二个基线是光场网络(LFN)[38],与我们的方法一样,它使用光场形式而不是体积渲染。这些方法在定量和定性结果方面与其他先前的工作相比表现出了有利的结果[41,37,28,22]。0输入 LFN [38] PN [49] SRT(我们的方法) 目标0图3.NMR的定性结果-虽然PixelNeRF对于靠近输入的目标视图具有高质量(中间),但是当距离更远时,结果迅速下降(底部)。SRT的渲染质量更加一致,优于两个基线方法。更多结果请访问srt-paper.github.io。0定量结果-表2和表3。SRT在NMR上提供了最佳图像质量,优于LFN和PixelNeRF。在计算性能方面(表3),PixelNeRF和SRT都能够快速编码新场景,而LFN需要对场景嵌入进行缓慢优化。一旦场景被编码,LFN和SRT都能以交互速率渲染新帧,而PixelNeRF由于体积渲染而明显较慢。SRT是唯一一种在场景编码和新视角生成方面都快速的方法,使其适用于以交互速率渲染新场景视频的实际应用。有关更多详细信息,请参见附录A.2。我们注意到SRT对于一个Transformer来说相对较小:其7400万参数包括CNN的2300万参数,编码器的4700万参数和解码器的400万参数。相比之下,ViT [6]有860-6320万参数。0在MSN数据集上,SRT优于LFN和PixelNeRF0在PSNR和SSIM方面,SRT在LPIPS方面优于PixelNeRF。我们认为这是因为SRT倾向于模糊不确定区域。在另一个实验中,我们尝试增加LFN的潜在维度(从256增加到1024)以适应更复杂的场景,但这并没有提高新场景的PSNR。0定性结果-图3和图4。结果显示我们的方法在NMR数据集上优于两个基线方法。虽然所有方法都能够为附近的视图合成高质量的图像(图3,中间),但是PixelNeRF的渲染质量在相机远离输入视图时迅速下降(图3,底部)。LFN的渲染质量也类似下降,并且对于更复杂的物体也模糊。相反,SRT在各种视角下提供了类似的性能。MSN数据集(图4)以其复杂的场景清楚地展示了LFN的单潜在场景表示的限制。虽然PixelNeRF为靠近输入视图的目标视图提供了详细的重建(图4,中间),但SRT是唯一能够对远离的目标视图进行良好重建的方法(图4,底部)。0ithiddle).RT’sdrop inndox)ges,hert ofmer.henrendering a ray of the chair from a novel direction, the firstattention layer only attends into the bottom edge of all inputviews, while the second layer attends into similar patchesas the encoder, and into the bottom corners of the first inputimage. This learned 2-stage inference in the decoder appearsto be crucial, as we noticed in prior experiments that a 1-layerdecoder is significantly worse, while more than two layersdo not lead to significant gains. The model appears to havelearned ahybrid global / local conditioning pattern throughback propagation, without explicit geometric projections.SNntsatet.iza-hricgticted62340输入图像 完美输入姿态 噪声姿态 σ = 0.1 无姿态 目标0LFN [38] PN [49] SRT PN [49] UpSRT0图4.MultiShapeNet上的定性结果-由于其全局潜在条件,LFN无法扩展到这个要求严格的数据集。在输入相机姿态完美的情况下,PixelNeRF可以更清晰地解析场景中心附近的目标视图的细节(中间)。但是对于更远的视图(底部),即使相机姿态完美,PixelNeRF也会产生投影伪影,而SRT的结果更加连贯。PixelNeRF在补偿噪声相机方面也存在困难,而SRT的质量只有轻微下降。最后,UpSRT是唯一可以完全不需要输入相机姿态的模型(详见第4.4节)。0通过研究编码器和解码器Transformer的注意权重,可以获得更多的洞察力。从图5(顶部)可以看出,具有小椅子的补丁(用绿色框标记)主要关注其他输入图像中的同一椅子,即使椅子面向不同的方向。我们还注意到,所有补丁还会关注图像边缘上的一些补丁(第一张输入图像的底角)。我们认为编码器学会将全局信息存储在这些特定的补丁中。04.3.消融研究0我们现在对MSN进行一系列消融研究0数据集,我们删除或替换SRT的主要组件,并测量性能的变化,以评估不同设计决策的个别贡献。0没有编码器变换器。重新训练没有编码器变换器的系统(即,解码器直接关注CNN的输出)会导致PSNR从23.41下降到21.64。这表明编码器变换器为推理添加了关键能力,并且将计算从解码器(应尽可能小且快速)转移到编码器是可行的。0ble设计决策。需要注意的是,在大多数实际情况下,它的计算开销可以忽略不计,因为它只是一个单独的前馈步骤,并且每个新颖场景只运行一次,与渲染帧的数量无关。扁平潜在场景表示。SRT的主要创新之一是设置潜在场景表示。我们通过将编码器变换器的均值补丁嵌入馈送到一个大型的8层MLP并丢弃解码器变换器来研究更常用的扁平潜在。这种架构导致PSNR从23.41下降到20.88,显示了大型集合场景表示与注意解码器的强大之处。体积渲染。作为光场公式的替代方案,我们还研究了一种体积参数化。为此,我们只是用3D点而不是光线查询解码器,然后进行体积渲染[25]。为了简单起见,我们不注入视角,并且只使用一个粗糙网络。我们将此变体称为V-SRT。虽然这种变体导致了一个明确的3D体积,具有易于可视化的深度图,并且结果在视觉上与SRT可比,但值得一提的是,V-SRT的解码速度理论上比每个光线样本的数量慢192倍,使得该变体的推理时间更类似于现有的体积方法[49]。值得注意的是,我们的模型架构可以在两种设置下进行训练,无需对架构或超参数进行进一步更改。有关详细信息,请参见附录A.3。04.4.鲁棒性研究0虽然在合成中有完美的姿势信息可用0设置中,现实世界的应用通常依赖于估计的相机姿势(例如[35]),这是缓慢且经常包含错误[21]。因此,我们在一个662350查询输入图像中的关键补丁0编码器0所有层0解码器0第1层0解码器0第2层0图5.注意可视化-绿色输入补丁在编码器中关注的输入补丁,以及渲染标记查询光线时第一层和第二层解码器关注的补丁。模型学会关注相同的3D位置,并将全局信息存储到特定的令牌中(沿底边)。解码器首先关注全局补丁,然后关注场景的相关3D位置。0嘈杂的相机姿势范围。为此,我们遵循[21]的方法,对所有输入相机姿势ci(i≠0,即除了参考相机,参见第3节)进行合成扰动,添加加性噪声δci =N(0,σ)以不同程度。对于每个σ的值,我们从头开始重新训练所有模型,以使它们适应噪声。为了使PixelNeRF能够区分参考输入相机c0和其他相机,我们在CNN的输出中添加了学习的相机身份嵌入,参见第3节。0PixelNeRF在准确的相机姿势上严重依赖。0在渲染过程中,我们执行从3D体积到2D图像的投影。如预期的那样,图6显示,即使有少量的噪声,该方法的性能也会急剧下降。LFN无法扩展到MSN数据集(参见图4),我们注意到少量的噪声实际上会由于正则化效应而增加PSNR。由于LFN依赖于测试时优化场景潜变量,因此它对噪声相机位置不具有鲁棒性。0相比之下,SRT更优雅地处理嘈杂的姿势。0完全。将其推向极端,我们的方法甚至适用于完全未定位的图像,仍然优于两个基线方法。我们将这种没有测试时姿势的模型变体称为UpSRT。进一步的检查显示,UpSRT不仅仅是简单地使用第一张输入图像(根据定义,其姿势是已知的,参见第3节),而且模型实际上学会使用所有输入相机,甚至是未定位的相机。这通过注意力模式的检查以及UpSRT明显优于仅有单个输入视图的SRT的事实得到证明,详见附录A.3。04.5. 应用0在本节中,我们研究了SRT在应用中的使用。0对于这些实验,我们使用包含真实世界室外环境图像的街景数据集。为了补偿外观和曝光的变化,我们使用外观编码器对网络进行增强,详见附录A.2。0图6. 鲁棒性 - 即使在微小的噪声量下,PixelNeRF[49]的质量也会迅速下降,尽管它是针对这种设置进行训练的。即使在完美相机的情况下,LFN [38]也无法扩展到MSN -一些噪声可以使模型正则化,并实际上导致质量的小幅增加。SRT优雅地处理相机噪声,即使没有任何相机参数(UpSRT),也能胜过竞争方法。0视图插值。该应用的目标是在街景全景图中插值捕获的图像,以提供它们之间的平滑视频过渡。这个应用不仅需要准确的视图合成,还需要附近视图之间的时间连贯性。我们在图7中展示了一组插值视图的代表性样本。虽然渲染结果比输入视图更模糊,但我们的结果表明,SRT可以适应具有复杂的现实场景和非平凡相机姿态分布。它还表明,该模型学习了足够的3D场景信息,可以渲染远离输入的新视图(最后一列)。我们在附录A.3中提供了显示渲染视频中时间连贯性的视频和进一步结果。0语义分割。我们在这个应用中的目标是预测室外场景新视图的密集语义。我们展示了SRT在RGB重建任务上训练的场景表示可以更直接地在新领域中发挥作用。一旦SRT已经针对RGB重建任务进行了训练,我们就冻结编码器,并训练一个新的解码器变换器,直接从冻结的场景表示中合成语义分割图像。语义解码器具有与彩色解码器相同的网络架构,只是最后的输出层从3个RGB通道更改为46个语义类别。我们使用标准的多类交叉熵损失在半监督设置下训练语义解码器,详见附录A.2。0示例语义分割结果如图所示0图7.这些结果表明,通过颜色重建损失学习到的场景表示包含了足够的关于场景的信息,可以进行语义推理。Kolesnikov, Aravindh Mahendran, Luke Barrington, Kon-stantinos Rematas, Sebastian Ebert, Srinadh BhojanapalliVickie Ye, and Vincent Sitzmann for their help and fruitfuldiscussions.62360输入视图 附近的SRT预测 远处的SRT预测0图7. 在街景数据集上的定性结果 -SRT在具有小范围和大范围摄像机视角变化的高难度真实世界数据上表现良好。此外,场景表示包含了足够的信息来进行三维语义场景推理。附录A.3中提供了与基于NeRF的优化方法的比较。0虽然这只是许多可能的下游任务之一的例子,但这是一个重要的发现,即SRT已经学习到了一个对于非平凡应用有用的场景表示。05. 限制0本项目研究了transformer是否能够学习0从仅有图像中学习可扩展的场景表示,而无需显式的几何处理。我们在这里确定了一些限制,我们相信后续的工作可以解决这些限制。0首先,我们的结果显示图像上存在一些模糊0即使对于接近输入相机的视图,也会在复杂数据集上出现模糊。这是预期的,因为模型需要学习像素精确的光线变换,这会导致对于确切位置的不确定性,已知会在L2损失下导致模糊 [33]。0其次,SRT是一种无几何学习的方法0因此,与具有显式几何归纳偏差的方法相比,它在非常小的数据集上的效果不会很好。实际上,我们发现我们的模型的收敛速度与其他模型相似,但更多的训练通常会导致更好的性能。特别是,在本文报告的标准数据集上训练时,SRT的性能优于LFN和PixelNeRF。需要进一步研究以更好地理解最佳的训练协议。0最后,与先前的方法相比,我们的模型效果最好0当输入视图稀疏或相机姿态存在噪声或缺失时。当新视图可靠地接近输入视图,并且具有完美的姿态时,显式几何方法可能更适用。0例如[49]通常能够提供更好的结果,尽管推理时间更长。虽然SRT已经专门为稀疏输入场景设计,但未来的工作可以研究如何在推理时更好地利用附近的输入视图。06. 结论0我们提出了场景表示变换器(Scene Representation Transformer, SRT),这是一个模型0用于仅使用自监督从彩色图像中学习可扩展的神经场景表示的方法。新颖的编码器-解码器变换器架构学习在没有显式几何推理和可选
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功