没有合适的资源?快使用搜索试试~ 我知道了~
神经点光场:大场景合成的高效隐式表示方法
Julian Ost1Issam Laradji2Alejandro Newell3Yuval Bahat3Felix Heide 1,31Algolux2McGill3Princeton University184190神经点光场0摘要0我们引入了神经点光场,它使用稀疏点云上的光场来隐式表示场景。将可微体积渲染与学习的隐式密度表示相结合,使得能够为新视角的小场景合成逼真的图像。由于神经体积渲染方法需要对基础功能场景表示进行密集采样,即沿着穿过体积的射线进行数百次采样,因此它们在根本上仅限于具有相同对象投影到数百个训练视图的小场景。将稀疏点云提升为神经隐式光场使得我们能够用每条射线进行单个辐射评估来有效地表示大场景。这些点光场是射线方向和局部点特征邻域的函数,使我们能够在没有密集对象覆盖和视差的情况下插值光场条件训练图像。我们在大型驾驶场景上评估了所提出的方法,通过合成现实中未见的视图,证明了现有的隐式方法无法表示。我们验证了神经点光场使得能够预测沿着以前只能通过显式建模场景才能生成的未见轨迹的视频。01. 引言0学习隐式体积场表示使得合成单个场景的照片真实图像成为可能[20,24,27,39]。最成功的方法将传统的体积渲染方法与基于坐标的神经网络相结合,预测密度和辐射[24]。因此,这些方法不再将密度和辐射明确存储在高维的5D体积中,而是将该体积表示为一个学习函数,可以进一步分解为辐射和照明[53,40,5]。尽管隐式体积表示具有高效的内存使用和可微性,但它也基本上需要对体积进行采样,即对于给定像素的每条射线,需要对基于坐标的网络进行数百次评估。这就需要长时间的训练和体积内的小支持。0图1:神经点光场在点云捕捉中编码了场景的光场表示信息。根据相关点上光场的局部编码,为每个相机射线渲染图像。0为了解决这些挑战,混合表示[13,019,15]用于将局部辐射函数嵌入或“烘焙”到显式稀疏代理表示(如粗糙的体素网格、点云或网格),以通过忽略空白空间来加快渲染速度。虽然这种方法在测试时显著提高了渲染速度,但在训练过程中仍需要进行体积采样。这是因为必须在训练过程中学习场景几何形状。这些方法在训练过程中与体积方法具有相同的限制,因此也仅限于昂贵的小场景。学习大型室外场景的表示是一个未解决的挑战。不幸的是,目前没有提供替代方法的无隐式表示的方法。具体来说,将特征明确存储在代理几何形状上[34,33,17]在插值没有附近训练样本的视图时无法达到与体积方法相同的质量。现有的公式利用几何形状作为投影画布,结合从目标视图提取的特征,因此需要大量接近目标视图的输入图像。在这项工作中,我们摒弃了体积模型,引入了神经点光场,一种在点云上编码光场的局部隐式表示。所提出的表示支持新视角合成。184200大型室外场景不需要像体积方法那样强烈的视差。尽管最近的汽车深度估计网络可以从视频数据中估计密集的深度点云,但我们假设我们的方法的输入是测量的激光雷达点云,特别是激光雷达数据在大多数室外车辆数据集[42,10]和最近发布的智能手机中都是可用的。尽管稀疏,激光雷达几何提供了足够的线索来对点云上的局部光场进行编码。我们提出的光场只依赖于二维射线方向和指向点云特征的一维索引,而不是5D体积辐射函数或传统的4D光场[18]。我们通过在点云投影上学习的特征提取器为每个点提取特征[11]。对于给定的相机姿态,我们为每个像素发射射线,并选择点云内的一组接近点。然后,通过将点相对于射线的位置和特征通过注意力模块传递,对这些选定点的特征进行加权,得到单个射线特征编码。然后,通过一个隐式光场表示来重建每个射线的颜色,该表示以此特征编码为条件。我们在大规模汽车驾驶数据集[42]上评估了所提出的方法,并展示了以前所未见的质量的未知轨迹上的新视图合成。具体而言,我们做出了以下贡献0•我们引入了神经点光场,这是一种在点云中隐式编码特征的表示方法,每个射线只需要进行一次辐射度评估。0•通过利用估计或捕获的点云中的稀疏几何信息,所提出的方法消除了体积场景表示的限制。0•我们在大规模驾驶场景的新视频合成任务上验证了所提出的方法,展示了所提出的方法生成逼真的新视图的能力,这是现有隐式表示方法无法处理的。0我们的代码和训练模型可以在我们的网站上找到:https://light.princeton.edu/neural- point- light-fields0范围尽管现有的汽车数据集包括来自多个摄像机、激光雷达和雷达传感器的数据,我们专注于从单个摄像机和单个场景轨迹中学习,而且场景动态性不强。与在整个半球范围内密集观察场景不同[24],我们的情况下捕获的图像沿驾驶轨迹稀疏分布。我们注意到将训练扩展到多个摄像机视图并不简单,因为摄像机的姿态、曝光和色调映射是不同的。0未来的研究方向可以利用多个摄像机并添加对动态物体的支持。02. 相关工作0小说视图合成。从一组无结构图像中合成新视图是计算机视觉和图形学中一个长期存在的问题。早期的基于图像的渲染工作引入了光场[18]作为场景中光线及其辐射度的4D参数化。光场是通过考虑5D光场函数的凸子空间[1]导出的,该函数通过空间中的点和方向来参数化光线。传统的光场渲染,即新视图的插值,需要对光场进行大量密集采样的视图,因为传统的优化方法[47,48]只处理插值视图和测量视图之间的小视差变化。最近,依赖于深度学习的方法[23]允许使用3D卷积神经网络从平面扫描体中恢复光场。另一方面,还有一系列工作研究从一组图像中重建显式的3D模型。通过优化在所有图像中找到的特征之间的投影误差,多视图重建方法能够重建底层场景几何和相机姿态[2,36]。这些方法可以重建大型场景,但需要许多图像才能达到高质量,并且与基于图像的渲染方法相比,难以合成逼真的新视图。0神经场景表示。一个新兴的大量工作探索了场景重建管道中的学习表示。这些神经渲染方法能够生成逼真的新视图 [ 20, 27],同时重建高质量的场景几何。现有的方法依赖于场景的显式、隐式或混合表示。显式方法在恢复的代理场景几何上编码纹理或辐射,例如网格 [ 44 ],多平面 [ 8 , 21 , 23 , 41, 54 ],体素 [ 38 ]或点 [ 3 , 31]。这些方法不需要同时恢复几何和外观,可以专注于恢复图像细节。然而,依赖显式代理几何限制了可达到的图像质量。为了克服对这种几何的依赖,研究人员使用基于坐标的网络探索了隐式表示,例如成功的NeRF方法 [ 24]。然而,实现多样化任务的逼真质量 [ 22 , 29 , 49 , 40 ,37 , 26 , 28]需要昂贵的训练和测试。缺乏显式几何知识要求在体积内密集评估隐式网络,其中大多数样本位于空白空间中,因此不会对渲染的像素颜色做出贡献。扩展方法 [ 9]通过在测试时评估预测样本来解决了这个问题。184210在训练之后,一些方法通过对区域进行采样 [ 25 , 4 ]或明确提取代理几何形状 [ 19 ] 来加速训练。DS-NeRF [ 6]使用从COLMAP重建的3D关键点来监督透明度预测,这些稀疏关键点可以加快训练速度。神经稀疏体素场(NSVF)[19]使用一种混合表示方法,在体素网格中存储隐式函数。NeRF++提出了将背景和前景场景组件分离的方法 [ 51],这有助于提高渲染质量,主要适用于远距离场景对象。然而,所有这些方法都难以处理大规模的室外场景或者只有很少视角的场景。相比之下,所提出的方法允许从稀疏的观测集合中渲染大规模的室外场景,通过在稀疏场景几何上引入光场参数化。0多视图结构(MVS)重建。从图像中重建点云或网格 [ 36 ,35 ] 可以指导隐式场景表示的训练 [ 6],或为学习特征提供支架 [ 34 , 17 ]。Riegler和Koltun [34 , 33 ]提出了基于MVS网格的几何支架。Kopanas等人 [17]展示了通过从初始点云优化点位置,并结合他们的新视图合成管道,可以弥补从MVS重建过程中的错误。这些方法和类似的基于点的方法 [ 3]使用点云作为几何代理,同时遵循严格的渲染和投影方法。相比之下,我们提出了一种方法,不仅可以通过将特征投影到几何代理上来使用它们,还可以从3D点云中对它们进行编码,并且在测试时不需要输入图像。0在汽车场景重建的背景下,SurfelGAN [ 50 ]提出了一种由离散纹理表面元素(surfels)组成的表示,这些元素是从捕获的激光雷达和RGB数据中恢复出来的。通过一个生成器网络,从surfelRGB数据的投影中渲染出新视图。相比之下,我们直接学习嵌入在捕获的点云中的特征。0直接在点云上编码特征已经得到了广泛的研究 [ 32],用于各种任务。最近的工作重新审视了使用点云的多视图投影进行分类任务 [ 11 , 12],类似于从点云中重建的方法,但不使用图像特征。他们的方法对遮挡具有鲁棒性 [ 12],并在下游任务上取得了最先进的结果。我们展示了多视图点云编码不仅可以解决分类或分割任务,还可以为重建新视图提供丰富的局部点特征。03.点光场0在本节中,我们介绍点光场。点光场将场景的光场编码在稀疏的点云上。假设相机-激光雷达传感器设置典型于0在机器人和汽车环境中[10],在时间步骤i,所提出的方法学习RGB帧Ii作为输入和相应的点云捕获Pi。为了学习嵌入在点云上的光场,我们设计了三个步骤:编码步骤、特征聚合和点条件光场预测,我们将在下面进行描述。03.1.每点特征编码0我们首先为点云中的每个点生成特征嵌入。为此,我们采用Goyal等人提出的策略[11]。输入点云投影到六个平面上,产生稀疏深度图像。这些图像直接输入到卷积网络中。我们使用普通ResNet18[14]的初始层在输入分辨率的四分之一处提取每个像素的特征。对于给定的点xk,我们在六个视图中的其投影位置上检索相应的特征向量。将它们连接在一起以产生最终的特征编码lk∈R6×128。我们发现将输入点云归一化到由[-1,1]界定的规范立方体,并使用立方体的6个面作为投影平面足够。即使在野外大规模场景的复杂性下,这种方法也能稳健地工作。我们进行了对比实验,将使用这种策略编码的特征与PointNet等替代基于点的模型进行了比较,详见补充材料。学习到的每个点的特征lk不依赖于任何图像数据,并且可以与完整的光场渲染一起进行端到端的训练。我们可以引入增强方法,使模型不会过拟合到特定的点排列。这包括从完整的捕获点云中采样不同的点子集,并使用附近时间步的点云捕获。03.2.光场特征插值0给定一组点Pi={x0,...,xN}i,其中xk∈R3,它们的编码特征lk∈R6×128,以及相机视图Ci,由其内部参数K,外部参数Ei和传感器尺寸W和H定义,我们聚合与重建每条射线周围的局部光场相关的特征。对于来自Ci的所有W×H像素,我们使用针孔相机模型将一组射线Ri投射到场景中。每个rj∈R由其起点oj和视线方向dj定义。0局部点选择。局部点云编码可以解释它们稀疏位置上的场景属性。显式地表示来自所有视图的高频光场细节将需要密集描述符。相反,我们隐式地为每条射线插值一个表示描述符。DeVries等人的工作[7]表明,对局部潜在描述符进行插值可以为大型室内场景提供隐式场景表示。与其规则的网格结构不同,我们希望利用点云的几何属性。我们假设点特征lk包含足够的信息,不仅可以表示其精确位置上的光场,还可以表示其邻域中的光场。对于每条射线rj,我们从一组相关的稀疏点中聚合描述符。为此,我们在相机Ci的视锥体内选择一组K个点Pj,i�Pi,这些点与射线之间的正交距离dk,j最小。through the geometric properties of the point cloud. Weassume that point features lk hold enough information notonly to represent the light field at their exact location, butalso in their neighbourhood. For each ray rj, we aggregatea descriptor from a relevant set of sparse points. To thisend, we select a set of K points Pj,i ⊂ Pi inside the view-ing frustum of the camera Ci, with the smallest orthogonaldistance dk,j between the points and the ray�,(1)tion dj�xy�k,j,proj=�xk,(3).(4)184220图2:神经点光场渲染流程。对于每条射线rj,从场景的点云中选择K个最近的点。从每个点xk,使用特征向量lk和相对于rj的位置预测键和值向量。使用多头注意力模块对射线的最相关点特征进行聚合,使用编码后的射线方向dj形成查询向量。光场函数FθLF根据射线特征lj和射线方向dj计算射线颜色。0cos ( ϕ k,j ) = d j,i ∙ � x k,i − o j,i0|| x k,i − o j,i ||0 ) ∙ ( x k,i − o j,i )0with sin ( ϕ k,j ) = �01 − cos 2 ( ϕ k,j ) . (2)0射线起点 o j,i ,归一化射线方向 d j,i 和点 x k,i 都以捕获的P i中心的局部参考框架给出。然后,为每个射线生成一个光场描述符,考虑 P j,i 中的所有编码特征。0射线中心的点编码。对于 P j,i的点嵌入,有几种直接的选择,包括平均池化、最大池化或通过所选 K 个点特征的距离 d j,k进行线性加权。然而,这些插值方法是模糊的,即它们可以为同一组最近点 P i,j上的不同射线和特征提供相同的描述符。为了确保对于来自集合 P j,i的每个射线都有一致且唯一的描述,我们必须使用所有点相对于该射线的明确相对位置,并且在同一场景的不同时间步骤 i中保持一致。如图3所示,并在方程2、4和5中形式化,我们使用角度 θ k,j (x k 与射线 d j之间的角度)、点与射线之间的正交距离以及角度 ψ来参数化一个接近点,其中 ψ 被定义为投影 x k 到由全局 Y轴的投影和它与射线方向的叉乘确定的平面上的径向坐标。0� y T j � d j × y j � T0with y j = Y − ( Y ∙ d j ) d j ∥ Y − ( Y ∙ d j )d j ∥ and y ∈ R 3 ,0ψ k,j = arctan x k,j,proj0全局点 x k 与 d j 之间的角度计算为 θ k,j = arccos � d j,i ∙ x k0这是在世界坐标系中计算的,与本地位置无关,不像方程1中的 ϕ k,j 用于计算距离。0射线特征注意力。我们提出了一个学习的多头注意力模块(如图4所示),而不是对射线特征应用任意加权。我们提出了Vaswani等人提出的多头注意力模块的变体。我们将所选择的基于注意力的加权方案与线性插值方案进行了比较,在实验部分4中。两个角度距离 θ k,j 和 ψ k,j ,以及 d k,j,使用位置编码 γ ( s ) = [ ..., sin (2 t πs ) , cos (2 t πs ) , ...] 进行转换,其中 t = 0 , . . . , T , T = 4 [ 24 , 43 ],以从低频输入域插值高频数据。点特征向量 l k和位置编码距离连接在一起,形成一个唯一的描述符 v k,j =( l k ⊕ γ ( θ k,j ) ⊕ γ ( ψ k,j ) ⊕ γ ( d k,j )) ,对应于射线 r j和点 k,该描述符包括位置编码和该点的特征向量。然后,描述符v k,j 通过两个双层MLP传递,为每个 K点射线对预测一个键 K k,j 和值 V k,j 。0V k,j = F θ V ( v k,j ) , K k,j = F θ K ( v k,j ) (6).(10)184230图3:射线-点距离示意图,显示了射线 j 和 k = 3个最近点的距离。为了更好地可视化,射线和点通过 - o j平移到场景坐标系中,并且所有点都投影到一个平面上,而不是3个平行平面。0Q j = F θ Q ( γ ( d j )) (7)0查询向量 Q j 是从位置编码的射线方向 γ ( d j )导出的。射线方向 d j再次表示为世界坐标,使其独立于任何局部参考坐标系。多头注意力学习预测给定 K k,j 的所有 V k,j的权重,对于每个选定的点射线对 ( k, j ) 和查询射线 Q j。多头注意力模块的聚合输出包括描述每个射线 r j的特征代码 l j ∈ R 128 ,即多头注意力: l j = F θ attn (Q j , K k,j , V k,j ) 。 (8)0点云之外的点。大多数汽车数据集中的点云仅捕捉从地面平面到几米高度的场景几何。这导致未在点云数据中明确捕捉到的场景区域,例如高楼结构和天空。因此,我们设置一个阈值d∞,在该阈值以下,我们认为射线与点云相交。选择d∞的值为任何Pi中两点之间的最大距离,忽略异常点。对于超过d∞的点,我们将v_k,j与学习到的全局特征代码l∞连接起来,以便注意力模块可以利用全局和局部点特征表示,因为点特征可能包含上升到点云之上的结构的相关上下文和几何信息,因此仍然可能有用。03.3. RGB预测0在从稀疏点云上的编码中预测射线r_j的特征向量l_j之后,我们最终能够重建与全局场景中任意射线相对应的颜色C_j,即0C_j = FθLF(d_j ⊕ l_j). (9)0这里FθLF是一个8层MLP(具有256个通道),它接受射线方向d_j和与射线索引j对应的特征向量l_j的连接,以预测输出0图4:多头自注意力模块根据K个最近点的信息聚合射线j的特征向量lj。对于每个点k,从点的特征和相对于rj的位置编码位置计算出嵌入向量v_k,j,用于每个射线-点对(j,k)计算FθK和FθV从v_k,j计算出键K和值V向量。为射线方向dj预测查询向量Q。0颜色C_j。有关此模块和所有其他模块的实现细节,请参见补充材料。对于每个预测的射线颜色ˆC(r_j),我们可以计算均方误差图像损失0L = ∑0j ∈ R0|| ˆ C(r_j) - C(r_j) ||^20训练 所有模型参数,即θResNet18,θK,θV,θQ,θattn和θLF,通过最小化损失函数进行优化。0θ Q,θ attn和θ LF通过最小化Eq.10中的损失来进行联合优化,使用Adam优化器[16]进行线性学习率衰减,在每个步骤中,我们从小批量帧中随机采样8192条射线。04.评估0为了评估所提出的方法并评估其复杂性,我们在汽车驾驶数据集上训练了神经点光场。我们通过生成在驾驶轨迹上的姿势之间插值的新视图以及对完全新的轨迹进行外推来与最先进的神经渲染方法进行比较。此外,我们分析了所提出方法中的架构和参数选择对重建质量的影响。04.1.复杂性0体积神经渲染方法需要每条射线的大量样本才能获得准确的结果。尽管现有方法可以加快渲染时间[15],但训练通常需要数百个射线样本。我们在表1中报告了训练和推理过程中处理单个射线所需的测量时间和评估次数。为了忽略与特定的差异相关的差异184240RGB帧NeRF DS-NeRF GSN神经点光场0图5:场景重建。我们展示了对NeRF [23],DS-NeRF [6],GSN[7]和神经点光场进行训练期间观察到的姿势的图像重建结果。所有方法都是在Waymo开放数据集[42]的相同场景集上进行训练的。即使模型容量大大增加,NeRF(甚至是DS-NeRF)仍然显示出类似的模糊和其他伪影,而深度监督使得DS-NeRF能够改进现有方法。GSN产生较少的伪影,但在重建细节方面存在困难,并且对于稀疏观察的视图(中间场景)无法成功。神经点光场最忠实地重建了数据集中的图像,另请参阅表2。0实现加速(如射线预缓存)后,评估时间是在射线采样步骤之后测量的,使用了该方法的PyTorch[30]实现。测量时间包括编码和解码步骤(例如我们方法中的点编码或GSN中的卷积细化),并按照图像像素数进行归一化,以对应于单个射线。与需要大量采样点的体积场景表示不同,即使在局部特征向量的支持下,神经点光场在渲染过程中每个射线只需要进行一次评估。这导致了两倍的加速,尽管由于点特征提取的开销而产生了额外的开销。0成本 NeRF [24] DS-NeRF [6] GSN [7] 我们0评估次数↓ 192 192 64 1 每个射线的训练时间(µs)↓ 146 146 37 34每个射线的推理时间(µs)↓ 49 49 17 100表1:训练和推理期间每个射线的复杂度。所有体积方法都需要对每个射线进行多次评估。我们的神经点光场(Ours)每个渲染射线的复杂度为O(1)。尽管特征提取步骤增加了复杂性,但这使得训练和推理时间更短。04.2. 实验设置0我们在视角重建和新颖视角合成两个任务上定量和定性地验证了所提出的方法,与生成场景网络(GSN)、NeRF和深度监督NeRF(DS-NeRF)进行了比较。GSN已成功应用于大规模室内场景[7],并利用了与场景联合学习的局部嵌入。0RGB帧 NeRF DS-NeRF GSN 神经点光场0除GSN外,所有方法都是在Waymo开放数据集[42]的6个场景上进行训练的,长度≤200帧,请参阅补充文档。为了允许在单个GPU上进行训练,我们将捕获的图像降采样了8倍,结果分辨率为240×160像素。对于GSN,卷积细化步骤要求模型在完整的图像分辨率上进行训练,并且提供的代码使用了硬编码的设置,需要我们(在与作者协商后)使用64×64的图像裁剪。为了公平评估,我们报告了3个场景的GSN结果,同时在降采样的数据集图像上计算指标。请注意,由于较低分辨率下较小的视场需要合成,GSN在所有定量评估中具有优势。所有模型都在NVIDIA TITAN Xp和NVIDIAV100的混合环境中对每个场景进行了收敛训练。RGB FrameNeRFDS-NeRFGSNNeural Point Light Fields184250图6:新颖视角插值。我们预测从训练数据中排除的未见姿势的视角。中间行的图像来自最长的选定场景(200帧),而其余图像来自较短的场景(80帧)。NeRF和DS-NeRF的结果模糊且过于平滑,但在较小的场景中表现更好。NeRF在小场景上更好地合成了细节,但在较大的场景上完全失败,即使大幅增加模型的容量也是如此。GSN在所有场景中表现一致,但存在伪影和缺乏细节。我们的神经点光场表示允许对新颖视角插值进行高质量合成。0NeRF [24] DS-NeRF [6] GSN [7] 我们的方法0重建0PSNR ↑ 29.48 26.53 17.98 31.52 SSIM ↑ 0.815 0.7780.512 0.882 LPIPS ↓ 0.289 0.306 0.136 0.1100新视图合成0PSNR ↑ 22.47 26.15 16.83 29.96 SSIM ↑ 0.700 0.7720.464 0.868 LPIPS ↓ 0.389 0.310 0.174 0.1190表2:我们使用Waymo开放数据集[42]中的5个静态场景,使用前置摄像头的图像进行NeRF[24]、DS-NeRF[6]、GSN[7]和神经点光场的PSNR、SSIM和LPIPS评估。PSNR和SSIM越高越好,LPIPS越低越好。最佳值用粗体强调,次佳值用下划线标出。我们的方法在所有指标上都优于其他方法。虽然NeRF的重建性能只稍微差一些,但DS-NeRF在新视图合成能力方面表现更好。0GPU。复杂性评估是在相同的硬件上计算的。GSN对于在单个场景上过拟合的低分辨率要求导致训练时间为2天,而其他模型的训练时间为2至3天,具体取决于场景帧数。0定量评估。我们使用相同的90%驾驶轨迹帧训练所有方法,将剩余的10%用于评估在观察到的轨迹内插值的未见视图。表2报告了使用PSNR、SSIM[46]和LPIPS[52]指标的两个任务的定量结果。在这两个任务中,GSN的整体印象比其他方法差。所提出的方法在所有指标上表现最好。虽然NeRF的重建性能稍微差一些,但DS-NeRF在新视图合成能力方面表现更好。0我们的方法在所有指标上都优于其他方法。虽然NeRF在新视图合成任务中表现明显较差,但DS-NeRF与其重建结果相比仅有轻微的性能下降,可能是因为在稀疏的图像集合上训练时能够更好地预测不透明度。我们的方法在视图合成任务中的表现也最好,与重建任务相比仅有轻微的性能下降,与NeRF的输出形成对比。0场景重建。图5中显示的结果支持表2中的定量评估。尽管NeRF在我们研究中处理的大场景中产生了不一致和模糊的预测结果,但仍能在直线场景上恢复一些细节。我们假设模糊是由于准确的姿态信息要求和长场景轨迹上稀疏的训练视图集合。DS-NeRF表现出类似的行为,但缺少NeRF中已经重建的一些细节,同时产生平滑的伪影。训练场景的深度图的渲染表明,点云捕捉对于DS-NeRF的表示来说过于平滑,从而抑制了高频特征。相比之下,GSN产生了整体一致的重建结果,与场景长度无关。然而,结果显示GSN在被接受的显著降采样分辨率中仍然存在平滑问题。相比之下,神经点场能够重建所有结构,无论其在帧间的位置和外观如何,只在非常细小的结构(例如单独的树枝、叶子)上产生少量伪影。还请参考附加材料中的视频。We introduce an implicit representation that encodes alocal light field on a point cloud. Departing from volumet-ric representations that require querying radiance estimatesat hundreds of sample points along each ray, we learn real-istic radiance fields with only a single radiance sample perray. Neural point light fields are functions of the ray di-rection and local point feature neighborhood, which allowsus to interpolate the light field conditioned training imageswithout densely captured input views. As such, the methodallows for novel view synthesis in large-scale automotivescenarios, with only a few sparse view directions availableduring a drive-by capture. We validate the proposed methodfor novel view synthesis when interpolating and extrapolat-ing along unseen trajectories, where existing implicit rep-resentation methods fail. While it is typical in automotivescenarios to have point cloud captures available, in the fu-ture, we plan to jointly recover point positions and localfeatures of the proposed neural point light fields.184260轨迹 NeRF DS-NeRF GSN 我们的方法0图7:新视图轨迹外推。使用训练轨迹(蓝色)外推视图(橙色)。虽然NeRF和DS-NeRF无法合成远离训练轨迹的视图,但所提出的方法在重建和视图插值任务中产生了高质量的结果。0请参见补充材料中的视频。0小说视图轨迹插值。我们接下来比较在训练数据中排除的帧所合成的视图,如图6所示。DS-NeRF在插值任务中存在模糊和幽灵现象。NeRF在少数场景上也显示出类似的、虽然稍微较弱的伪影,但我们的方法在处理短(顶部和底部行)和长(中间行)场景时产生高质量的渲染结果。结果验证了这些现有方法无法有效地仅通过稀疏的图像集合合成场景。GSN使用局部支持,似乎更加一致,在两个任务中产生类似的输出质量,无论场景长度如何。神经点光场在稀疏的点集上编码场景特征,因此即使对于长序列,也能实现高质量的新视图插值。0新视角轨迹外推。图7中显示的结果报告了视觉外推实验。我们展示了相对于训练轨迹的新视角相机姿势的地图。我们的方法能够生成一组新的轨迹和场景,很难与插值和重建结果区分开来。这在场景的某些区域是可能的,这些区域至少部分被训练图像覆盖,详见补充材料。在训练期间未见过的场景区域的视图,例如仅从前方看到的车辆的背面,会产生虚构的对象,可能是从与观察到的对象相似的点中产生的幻象。将来,将从其他相机(可能覆盖360°)获取信息可能允许合成这样的被遮挡的场景区域。04.3. 消融实验0我们在图8中分析了架构和参数选择。选择自注意力来聚合射线特征被证明是至关重要的,因为我们发现启发式加权或对所有点特征进行简单求和无法达到类似的结果。仅仅求和会完全阻止训练,而通过将每个点特征按照逆距离dk,j加权的启发式方法可以获得更好的结果。然而,这种加权仍然缺乏细节,并且在场景重建中存在伪影和噪声。我们提出在点云中索引一组点,与纯粹参数化射线的方法相反。此外,我们在图8中比较了每个射线中不同数量的点K的结果,表明少数点对于学习大规模场景光场是至关重要的。其他消融研究结果见补充材料。0Heuristic K = 0 K = 10Self-Attn. (Ours) K = 2 K = 8 (Ours)0Naive Sum Heuristic K = 0 K = 1 K = 2 Ours0PSNR ↑ 4.84 24.56 18.88 29.83 30.95 31.520图8:消融研究。使用不同数量的最近点K和不同的特征聚合方法进行定性和定量比较。0仍然缺乏细节并且存在伪影和噪声的场景重建。我们提出在点云上编码局部光场的隐式表示。与需要在每条射线上查询数百个样本点的体积表示不同,我们只需在每条射线上进行单个辐射采样即可学习到逼真的辐射场。神经点光场是射线方向和局部点特征邻域的函数,这使得我们能够在没有密集输入视图的情况下插值光场条件的训练图像。因此,该方法允许在大规模汽车场景中进行新视角合成,仅需在驾驶捕获过程中获得少数稀疏视角方向。我们验证了所提出的方法在插值和外推未见轨迹时进行新视角合成的有效性,而现有的隐式表示方法则失败。虽然在汽车场景中通常可以获得点云捕获数据,但在将来,我们计划共同恢复所提出的神经点光场的点位置和局部特征。05. 结论0致谢。我们感谢ServiceNow为本项目提供计算资源,使用ServiceNow Toolkit。Felix Heide获得了NSFCAREER奖(2047359),索尼青年教师奖和ProjectX创新奖的支持。Yuval Bahat获得了MSCA COFUNDSTAR奖学金的支持。[3] Kara-Ali Aliev, Artem Sevastopolsky, Maria Kolos, DmitryUlyanov, and Victor Lempitsky. Neural point-based graph-ics. pages 696–712, 2020.[4] Relja Arandjelovi´c and Andrew Zisserman.Nerf in de-tail: Learning to sample for view synthesis. arXiv preprintarXiv:2106.05264, 2021.[5] Mark Boss, Raphael Braun, Varun Jampani, Jonathan T Bar-ron, Ce Liu, and Hendrik Lensch. Nerd: Neural reflectancedecomposition from image collections. In Proceedings ofthe IEEE/CVF International Conference on Computer Vi-sion, pages 12684–12694, 2021.[6] Kangle Deng, Andrew Liu, Jun-Yan Zhu, and Deva Ra-manan. Depth-supervised nerf: Fewer views and faster train-ing for free. arXiv preprint arXiv:2107.02791, 2021.[7] Terrance DeVries, Miguel Angel Bautista, Nitish Srivastava,Graham W Taylor, and Joshua M Susskind. Unconstrainedscene generation with locally conditioned radiance fields.arXiv preprint arXiv:2104.00670, 2021.[8] John Flynn, Michael Broxton, Paul Debevec, Matthew Du-Vall, Graham Fyffe, Ryan Overbeck, Noah Snavely, andRichard Tucker. Deepview: View synthesis with learned gra-dient descent. Proceedings IEEE/CVF Conference on Com-puter Vision and Pattern Recognition (CVPR), Jun 2019.[9] Stephan J Garbin, Marek Kowalski, Matthew Johnson, JamieShotton, and Julien Valentin. Fastnerf: High-fidelity neu-ral rendering at 200fps. arXiv preprint arXiv:2103.10380,2021.[10] Andreas Geiger, Philip Lenz, and Raquel Urtasun. Are weready for autonomous driving? the kitti vision benchmarksuite. In Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition (CVPR), 2012.[11] Ankit Goyal, Hei Law, Bowei Liu, Alejandro Newell, and JiaDeng. Revisiting point cloud shape classification with a sim-ple and effective baseline. arXiv preprint arXiv:2106.05304,2021.[12] Abdullah Hamdi, Silvio Giancola, and Bernard Ghanem.M
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- OptiX传输试题与SDH基础知识
- C++Builder函数详解与应用
- Linux shell (bash) 文件与字符串比较运算符详解
- Adam Gawne-Cain解读英文版WKT格式与常见投影标准
- dos命令详解:基础操作与网络测试必备
- Windows 蓝屏代码解析与处理指南
- PSoC CY8C24533在电动自行车控制器设计中的应用
- PHP整合FCKeditor网页编辑器教程
- Java Swing计算器源码示例:初学者入门教程
- Eclipse平台上的可视化开发:使用VEP与SWT
- 软件工程CASE工具实践指南
- AIX LVM详解:网络存储架构与管理
- 递归算法解析:文件系统、XML与树图
- 使用Struts2与MySQL构建Web登录验证教程
- PHP5 CLI模式:用PHP编写Shell脚本教程
- MyBatis与Spring完美整合:1.0.0-RC3详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功