没有合适的资源?快使用搜索试试~ 我知道了~
X-NeRF:多场景360°显式神经辐射场和RGB-D视图
5766X-NeRF:多场景360°的显式神经辐射场-RGB-D视图朱浩毅上海交通大学中国上海hyizhu1108@gmail.com摘要神经辐射场(NeRFs),尽管其在新颖的视图合成上的性能很好,但通常需要密集的输入视图。许多论文针对每个场景分别训练一个模型,很少有人探索将多模态数据结合到这个问题中。在本文中,我们关注一个很少讨论但很重要的设置:我们是否可以训练一个可以表示多个场景的模型,具有360个足够的视图和RGB-D图像?我们将不充分的视图引用到极少数非常稀疏且几乎不重叠的视图。为了解决这个问题,提出了一种完全显式的方法X-NeRF,该方法学习一般的场景完成过程,而不是基于坐标的映射。给定几个不充足的RGB-D输入视图,X-NeRF首先将它们转换为稀疏点 云 张 量 , 然 后 应 用 3D 稀 疏 生 成 卷 积 神 经 网 络(CNN)将其补充为显式辐射场,其体积渲染可以快速进行,而无需在推理过程中运行网络为了避免过拟合,除了常见的渲染损失,我们应用感知损失以及通过点云上的随机旋转视图增强所提出的方法显着优于以前的隐式方法在我们的设置,表明所提出的问题和方 法 的 巨 大 潜 力 代 码 和 数 据 可 在https://github.com/HaoyiZhu/XNeRF上获得。1. 介绍神经辐射场(NeRFs)[29]最近引起了重要的研究兴趣,其通常使用基于坐标的多层感知器(MLP)隐式地编码场景,并且具有广泛的应用,例如新颖的视图合成[1,7,29,44,50,51]。大量后续工作努力以各种方式改进和扩展NeRF[29],从收敛和渲染速度[7,11,23,39]到动态场景[10,21,46]等。一些方法[39,48,49]利用显式结构来图1. 我们的问题设置的一个例证。图中显示了由几个低成本RGB-D相机拍摄的不完整场景。场景周围的小正方形圆锥体表示相机的位置和方向,其对应的RGB图像显示在周围的矩形中。其中,红色表示用于训练的可见视图,而绿色表示用于测试的不足的视图非常稀疏,相互重叠的不到10%到20%,这使得问题非常困难。获得巨大的性能改进,但它们仍然直接在可学习的网络参数中编码场景。尽管在许多场景中表现出色,但大多数NeRF类方法在训练时需要大量密集捕获的视图,这使得它们很难或昂贵地应用于实践。虽然一些工作[7,50]已经研究了少视图训练,但它们通常的适用场景需要具有小视角变化和大重叠的视图。更重要的最后,随着硬件的快速发展,深度数据的可用性越来越但目前大多数NeRF相关的工作仅采用RGB模态作为输入。如何更好地利用深度信息进行渲染值得进一步探索。为此,在本文中,我们的目标是提出一种方法学,它允许一个单一的模型(i)处理多个5767场景,(ii)在场景周围360°的视图不足,以及(iii)结合深度数据以更好地呈现。图1显示了我们设置的示例为了解决这个困难的设置,我们提出了一个显式神经辐射场(X-NeRF),它可以将RGB-D图像作为输入。与其他NeRF类似的方法隐式地将坐标映射到颜色和密度不同,我们明确地将这个问题建模为完成任务。背后的直觉来自于观察,给定几个RGB-D输入图像,场景的大部分实际上是已知的。换句话说,大量的信息在初始阶段就已经可用,因此我们只需学习一个一般的场景无关的完成关系。 由于网络被设计为编码一般的完成映射而不是特定的场景,因此我们可以自然地处理多场景问题。具体而言,输入的RGB-D图像被转换为稀疏的彩色点云,并量化为稀疏的十元,我们可以直接应用Minkowski Engine[4]进行操作。我们采用一个3D稀疏生成CNN来构造和完成显式神经辐射场。我们的骨干应用了类似UNet的[34]编码器-解码器结构,在解码器中具有多级生成转置卷积为了避免过拟合看到的意见,除了常见的渲染损失,我们也适用于感知损失与补丁式采样以及视图增强通过随机旋转点云。使用具有后激活的体度量渲染。通过拍摄和查询来自像素的光线,可以渲染其累积的颜色大量的实验表明,所提出的任务是非常具有挑战性的现有方法,而我们的方法可以很好地处理我们首先将我们的方法与DS-NeRF[7]进行比较,DS-NeRF [7]是一种先进的基于NeRF的工作,也支持深度监督,DVGO[39]是一种最先进的NeRF类方法,利用显式结构,在单场景实验中。 为了公平起见,我们在DVGO中添加了深度监督[39]。 然后,我们将X-NeRF与最近一些支持多场景训练的NeRF相关工作进行比较,如pixelNeRF [50]和IBRNet [44](还添加了深度监督)。结果清楚地表明,X-NeRF对多场景360°不充分视图具有鲁棒性,并且可以产生可靠的新颖视图预测。我们的工作在极端设置上优于以前的方法,这表明X-NeRF可以以低成本的方式应用于实践,因为我们可以为许多场景训练一个模型,而推理过程非常轻量级。2. 相关工作新颖的视图合成。给定一组图像,合成一个新颖的视图图像是一个经典的和长期的任务。绘制方法主要可以分为基于图像的和基于模型的。基于图像的方法[9,15,44]直接学习图像级别的变换,例如扭曲或插值,其通常计算效率更高。但是,它们在绘制过程中需要参考视图,参考视图的数量和密度对绘制质量有很大影响。基于模型的方法[16,18,32,35,42]将场景表示为高维表示,并应用物理上有意义的模型(如光学模型[27])来渲染新视图图像。有多种形式来表现场景。早期的作品应用lumigraph[2,12]和光场[5,19,20,36]直接对输入图像进行插值。然而,它们需要非常密集的输入,这在许多应用中是完全负担不起的。其他方法利用显式表示,如网格[6,40,43,45]来处理稀疏输入。然而,由于不连续性和局部极小值,基于网格的方法不能很好地与基于梯度的优化一起工作。最近,许多基于深度学习的方法采用CNN来构建面向前向捕获的多平面图像(MPI)[8,22,28,38,41,53]。还有将场景编码为体积表示的方法[16,18,28,41,42,53],但它们通常难以处理复杂和大规模的场景。神经辐射场。近年来,NeRFs在新视图合成任务中引起了人们的极大兴趣,并取得了巨大的成功。经典的NeRF[29]学习从坐标到相应纹理(如颜色和密度)的直接映射,隐式编码MLP中的场景。自提出以来,人们已经将NeRF[29]扩展到许多具有不同特征的变体,包括可编辑[17,24,47],快速推理和/或训练[7,11,23,39]、可变形[30,33]、无约束图像[3,26]等。最近的一些工作[39,48,49]引入了显式结构以获得巨大的性能增强,这表明隐式MLP架构不一定是成功的关键。然而,尽管显式体素网格结构,它们实际上仍然本质上是隐式建模,因为它们仍然以可学习的参数对场景信息进行编码。隐式建模使得基于NeRF的方法难以在多场景情况下自由推广。虽然一些工作如[50]声称它们具有处理多场景任务的能力,但它们实际上只能处理多个小对象或多个相似的模拟场景。此外,当输入视图数量不足时,即输入视图非常稀疏,但与真实场景360度 相交 ,且几乎没有重叠(通常小于10%~20%),隐式建模由于对场景结构的约束较小,很容易过拟合到一个平凡解一些方法可以处理很少的输入,如[7,50],但它们的适用场景主要是面向前的捕获,实际上仍然不够稀疏。多模态RGB-D数据。在硬件设备飞速发展的今天,深度模型正成为5768i=1Y.ΣΣ∈ℓθ在i在ii=1JJ j=1i=1--i=1{∈}{ ∈}越来越普遍和可用。只要我们容忍一些合理的深度误差,捕获少量不足的RGB-D视图通常比捕获数十倍或数百倍的RGB视图更经济实惠。1因此,处理RGB-D输入并准确渲染新颖的视图深度图像非常重要。仅从不足的360像素 RGB图像合成完美的新颖视图可能是不适定的,但通过附加的深度模型,该问题完全可以解决。Deng等人[7]已经利用了深度信息,并表明深度知识可以大大避免对所见视图的过拟合,并有利于NeRF的收敛和性能3. 预赛基于NeRF的方法将一组不同视图的图像作为输入,并将3D坐标隐式地映射到密度σ和颜色c,将特定场景编码为网络参数:f(x,d)=(σ,c)。通常Sigmoid作用于c,ReLU或Softplus作用于σ。给定特定的相机姿态P,为了渲染相应的2D图像像素,我们首先在从相机的投影中心o到像素的方向d上发射射线r。然后在预定义的近平面和远平面之间的r上的N个有序查询点被采样并送入模型以获得它们的密度和颜色(σi,ci)N,使得我们可以使用由[27]提出的光学模型对它们进行以得出渲染的像素颜色Ci(r):αi= 1−exp(−σi δi)1≤i≤N,(1a)i−1Ti=(1−αj)1≤i≤N,(1b)j=1从多场景360多视角RGB-D图像合成。我们考虑使用3D稀疏生成CNN来学习一般场景无关完成关系的完全显式方法,而不是隐式地在神经网络参数中构建场景。在下文中,我们首先描述我们的显式建模方法(第二节)。4.1),然后详细的模型架构的X- NeRF(节。4.2),最后我们的体积渲染过程(第4.2节)。4.3)以及优化功能(第4.4)。4.1. 显式建模现有的NeRF类方法基本上都是隐式的,尽管有些方法(如[39,48,23])使用显式结构。尽管隐式模型在许多情况下表现良好,但它们仍面临三个挑战。第一个是,当有不足,即。非常稀疏和几乎不重叠的可见视图,它们倾向于过拟合到平凡解,因为它们对场景结构没有约束或先验。第二个问题是它们很难使用一个模型自然地处理多个场景,因为它们直接将场景信息编码在模型参数中。一些现有的支持多场景学习的基于NeRF的方法要么需要参考视图[44,50],其数量和密度会影响渲染效果,要么在共享MLP[23]之前采用独立的显式结构,其空间和时间成本随着场景数量的增加而线性增加。第三是它们通常缺乏将RGB与目前越来越流行和可用的深度图像融合的能力为此,我们提出了一种完全显式的方法,可以解决具有挑战性的问题,从多场景360度不充分的可见视图合成新的视图,并可以自然地C(r)=Ni=1Ti aicii+TK+1cbg,(1c)融合RGB和深度模态。我们认为这个问题是一个明确的完成任务,因为给定几个RGB-D视图,我们可以很容易地得到大部分其中,αi表示点i处的终止概率,并且到点i的累积透射率由Ti表示。δi是采样步长,即,到射线上相邻采样点的距离cbg是预先定义的背景的位置和颜色信息,我们需要做的是完成整个空间,即。显式神经辐射场因此,我们的网络可以被建模为一个完备映射函数:颜色,通常为0或1。深度渲染类似于显色性,其可以由下式给出i=N。f:{x,c }→x,k,σ_j=M,其中k=(km)m:−k≤m 。N:0≤D(r)=Tiαidi,(2)i=1其中di是从射线原点到点i的距离4. 方法在本节中,我们介绍了显式神经辐射场(X-NeRF),这是一种新观点的显式表示这里,f θ表示具有可学习参数θ的神经网络,其是从由iR3i=N中的输入点云坐标x和iR3i=N中的颜色c组成的N个输入RGB-D点到M个显式神经辐射场点的完全映射,其中每个σR表示标量不透明度,而我们应用k(球面谐波(SH)系数的向量)来表达输出颜色信息,类似于[48,49]。每个 km∈R3是一个3余集,1美国平均工资英特尔实感RGB-D摄像头的价格仅为297.17美元。RGB通道的系数。 在[48]中讨论过。2次球谐函数就足够了,输出j(三)5769ℓ›→≤··C显式辐射场Lvl.1显式辐射场Lvl.2输入稀疏张量显式辐射场Lvl.3卷积残余块生成转置卷积修剪稀疏张量编码器显式辐射场Lvl.4生成稀疏张量解码器图2.概述X-NeRF的模型架构。 我们使用3D稀疏生成卷积神经网络来完成我们的完全显式完井建模。给定一个表示特定不完整场景的稀疏张量,我们使用类似于UNet的编码器-解码器结构来完成并将其映射到显式神经辐射场。编码器只在现有坐标上操作,以节省提取特征时的成本。然后在多级解码器中,应用具有修剪层的生成转置卷积层来产生新点。每个阶段都提供不同分辨率的输出,有助于稳定训练过程。对于每个体素总共27个谐波系数,每个颜色通道需要9个系数,并且我们遵循它们的设置。SH使得输出颜色c_out能够通过查询SH函数Y_m:S_2R(给定其对应的视图方向d)而与视图相关:编码器被设计为具有多级输出,分辨率增加。每一级的输出都参与损耗计算,这是受到大多数NeRF相关方法中由粗到精设计的启发。编码器仅在已知坐标上操作。换句话说,没有新的坐标生成期间,cout(d;k)=Sigmoid. ΣmaxΣkm Ym(d)Σ.(四)编码。在解码时,我们应用生成转置卷积层,然后修剪层,以向上-ℓ ℓ=0m=−我们注意到,在不一致视图条件下,SH对新视图合成至关重要。更详细的讨论在第二节中说明。4.5和图五、4.2. 模型架构处理RGB-D数据是一个典型的多模态问题。在本文中,我们将多视图RGB-D输入转换为彩色点云,并将其体素化为Minkowski稀疏张量[4],以便我们可以直接对其应用卷积和转置卷积等操作。如图2,我们应用具有跳过连接的编码器-解码器架构,类似于采样并完成整个辐射场。 模拟- 在图3中示出了编码-解码流水线的低维示意图。正如我们所看到的,修剪的功能是删除冗余点,以节省计算资源,以及使输出更准确。生成转置卷积层的细节可以在[4,13]中找到。解码器的多级设计也有利于决定保留或修剪哪些点。具体来说,在每个阶段,如果点Pi对应的输出终止概率αi太小,并且它离输入点集太远UNet [34]. 稀疏张量编码器主要用于提取空间和局部特征,如果αi τα和minPj∈Cin dist(Pi,Pj)≤τdist,(五)一些卷积和残差块,而由生成转置卷积、修剪和残差块组成的生成稀疏张量解码器主要起上采样和生成新点的作用。德-其中τ α和τdist是两个超参数;in表示输入点云的坐标集;dist(,)表示计算两点:第第二个距离项的目的是ℓ57702I=Nj=Mj=MΣ1 Σ¨HWL2L深度= |RD(r)−D(r)(P)|输入曲面体素化输入转换输出ConvTr输出修剪输出图3. 关于编码-解码过程的二维草图。给定一个输入表面,我们首先将其体素化为稀疏张量,然后将其输入卷积编码器。编码器只对现有位置进行操作,不会生成新的坐标。之后,生成转置卷积解码器被应用于上采样并生成新的坐标,从而完成场景结构。最后,可选的修剪层被用来删除不必要的点。太远的点不太可能属于完整场景。在实践中,我们发现剪枝操作可以减少内存消耗,对性能影响不大,但对执行速度有一定影响,所以我们将其作为一个可选的选择。4.3. 体绘制给定一些RGB-D图像,我们可以将它们投影并体素化到稀疏张量Tin中,该稀疏张量T in由一组坐标Cin和对应的特征Fin组成:4.4. 优化由于我们流水线中的所有操作都是可微的,我们可以通过梯度下降来优化X-NeRF为了克服由视图不足引起的过拟合问题,应用由以下部分组成的损失函数造成损失。 给定一组RGB-D输入和摄像机姿态P,渲染损失由地面实况和渲染输出之间的均方误差(MSE)给出:L渲染=L颜色+λDL深度,Tin=(Cin,Fin),(6a)I=NL颜色1=|R(P)|r∈R(P)<$C<$(r)−C(r)<$2,(九)Cin={xi,yi,zi}i=1,(6b)Fin={cini}i=1,(6c)1Σˆ2VDr∈RVD(P)其中i∈R3中的c表示3通道RGB颜色。其中R(P)是P的射线集,而RVD(P)<$R(P)让第三章:T_out=fθ(T_in)=(C_out,F_out),(7a)C_out={x_j,y_j,z_j}_j=1,(7b)Fout={kj,σ?j}j=1,(7c)其中σ∈j∈R表示作用前的ra w密度包含具有有效深度的光线。λD是超参数。感知损失。除了普通MSE损失之外,我们进一步添加了感知损失,考虑到每像素MSE误差不包含全局或高级上下文信息,这可能无法将模型引导到正确的道路上。在实践中,较低的MSE并不一定意味着更好的人类感知质量。我们在图4中显示了上述两种情况的直观而简单的示例。为此,受许多图像生成工作的启发,我们采用感知损失[52]来避免陷入琐碎的解决方案:Sun等人[39]他指出,后激活,即。简单插值后的激活函数,是体绘制的最佳选择,我们遵循这一点勒内普L=wlHlWl- 是的伊什特尔-y=0hwΣ¨2 、(10)设置. 如第3,给定视图方向d和l=1h,w拍摄对应于特定2D像素的射线r,我们首先在r上插值Tout以获得它们上的SHk和原始密度σ<$r,然后使用Mip-NeRF[1]中提到的移位Softplus来获得相应的密度:σr= log(1 + exp(σ¨r+b)),(8)其中位移b是超参数。辐射场中每个光线点的RGB颜色可以通过方程得到4.第一章在此之后,我们可以使用Eq。1和等式2以渲染2D像素颜色C(r)和深度D(r)。57710 ∈其中y是,y是RHl×Wl×Cl是渲染和参考图像块的通道维度单位归一化的第l层特征堆栈,其从固定的预训练神经网络(如VGG [37])的L层中提取。注意,为了使用感知损失,我们需要在图像块级别中对光线进行采样。综合上述情况,我们可以得出一个整体损失:L总体 =Lrender+λepLep(11)其中λep是加权超参数。5772××λ=λS× ××阶段MSE=39.68 MSE=39.98 MSE=39.84参考2像素移位模糊噪声图4. 关于MSE损失的模糊性的说明。生成的三个示例具有相似的MSE值,但它们的感知质量差异很大。从左到右是地面实况,移动了2个像素,高斯模糊和随机噪声。5. 实验5.1. 数据集由于之前从未讨论过多场景不足360 RGB- D视图的设置,因此我们为这项具有挑战性的任务收集了一个新的数据集。我们使用7台RGB-D相机拍摄了6个已知场景和4个新场景,其中一个机器人手臂在不同的环境中执行不同的任务。视图在大角度变换下非常稀疏。视图之间的重叠小于10%至20%。一个例子如图所示。1.一、在7个视图中,一个用于测试,而其他6个是训练视图。详情请参阅补充材料。5.2. 实现细节所有的实验都在一个NVIDIA A100 GPU上进行。我们应用PyTorch[31]和Minkowski En-GT无带SH带SHPercep。损失带SH RotPercep。损失gine[4]来构建稀疏网络。在所有的单场景实验和多场景实验中,图5. SH、知觉丧失和通过随机旋转对新视图进行视图增强的有效性。 我们可以看到,所有这些都可以显着提高合成质量。最后,如SEC所述。4.2,我们有多级输出,所以最终的总损耗为:相同的超参数。 一个简单的3D稀疏版本的ResNet14[14]被用作我们的骨干。 当对输入点云进行体素化时 , 我 们 将 体 素 大 小 设置为 4 10−3 。 我 们 选 择AdamW[25]作为我们的优化器。在每个批次中,我们为所有6个训练视图随机抽取2个大小为40 40的图像块,这相当于一个总的射线批次大小L总S阶段SL总体、(十二)6 2 40 40=19200我们训练模型240个epoch,初始学习率为10−3,在第120和200个epoch时,学习率除以10。看柔软-其中λs是阶段s的权重系数。详细的超参数设置的参考资料。4.5. 视图增强我们利用球谐函数使渲染的颜色与视图无关(参见第二节)。4.1)。然而,由于训练视图的稀疏性和少量,我们在实验中观察为了处理这个限制,我们在输入点云上应用随机旋转增强来手动模拟看不见的视图方向。我们发现,这个简单的操作可以显着提高质量的渲染看不见的视图图像。图5示出了通过点云上的随机旋转实现SH、感知损失和视图增强的有效性。4.6. 快速推理大多数完全隐式的基于坐标的NeRF方法都在渲染效率上挣扎,因为它们必须在给定相机姿势的每条射线上的每个位置上重复运行网络。然而,X-NeRF可以只保存显式场景表示Tout,以便在推理期间只需要进行高度并行化的渲染操作,例如插值和积分。由于不需要运行神经网络,因此推理的复杂性大大降低5.3. 对比实验在本节中,我们将提出的X-NeRF与最先进的隐式NeRF相关工作在我们极具挑战性的360nm不足RGB-D视图数据集上进行比较。请注意,除了RGB新颖视图合成的常见度量之外我们采用有效区域中的均方误差(以米为单位)作为深度度量,因为低成本深度相机可能具有一些无效值。单场景比较。考虑到我们的数据和模型是RGB-D,我们首先与DS-NeRF[7]进行比较,DS-NeRF是一种最先进的基于隐式NeRF的方法,也允许深度输入。此外,我们还与DVGO[39]进行了比较,DVGO是一种最先进的基于NeRF的方法,利用了显式体素网格结构。不幸的是,上述两种方法不支持多场景训练,所以我们在单场景上与它们进行比较。DVGO[39]最初不支持深度监控。为了公平比较,我们还增加了深度监督。新视图的定量指标见表1。1. 我们可以看到,X-NeRF在每个场景上的表现都明显优于这两种方法,特别是在深度误差方面,这意味着5773GT DS-NeRF DVGO,带深度X-NeRF(我们的)图6. 现场1-2的单一现场定性结果。从上到下,每一行都显示了不同方法在新视图上渲染的RGB和深度图像。显然,我们提出的X-NeRF执行明显优于其他两个隐式方法。场景1场景2场景3RGB颜色深度错误%↓RGB颜色深度错误%↓RGB颜色深度错误%↓LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑DS-NeRF[7]0.8916.650.26787.540.71415.600.53786.550.7978.020.01182.85[39]第三十九话0.7358.930.10068.460.7389.470.20555.130.7769.620.15669.81[39]第三十九话0.7269.460.12466.160.72310.030.22055.690.76410.220.17069.21X-NeRF0.52117.390.4140.2570.50516.380.4570.3560.45217.830.4771.66场景4场景5场景6RGB颜色深度错误%↓RGB颜色深度错误%↓RGB颜色深度错误%↓LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑DS-NeRF[7]0.6987.070.09387.560.70112.000.74886.140.7548.630.46380.04[39]第三十九话0.65111.840.57651.670.72911.890.54058.100.7407.360.22659.71[39]第三十九话0.64311.960.56054.690.73012.050.53258.380.7627.510.19661.51X-NeRF0.39717.730.7540.3670.43118.580.8120.4850.47118.190.5930.269表1. 每个场景的定量结果。 我们使用三种常见的RGB指标,即LPIPS(使用预训练的VGG,越低越好)和PSNR/SSIM(越高越好)。深度误差用有效面积内的均方误差来评价,单位为米%。X-NeRF 成 功 地 避 免 了 过 拟 合 到 平 凡 解 。 此 外 ,DVGO[39]在添加深度监督后对新视图没有显著改善,表明关键因素不是深度损失,而是建模方法。场景1-3的定性结果如图所示所有结果都可以在柔软的材料中找到很明显,内隐方法在训练视图不足和视图间隙较大的情况下,不能很好地概括新视图多场景和跨场景比较。如上所述,由于我们的显式完井建模,X-NeRF能够处理多场景表示。有一个小的工作,可以处理多场景任务。Pixel- NeRF[50]将来自2D CNN的图像特征与NeRF相结合,以便它可以在多场景上进行训练。因此,我们在6个场景上同时重新训练pixelNeRF[50]3000个epoch,以比较我们在多场景下的工作。IBRNet[44]是一种基于图像的渲染方法,它应用MLP和光线Transformer来学习通用视图插值函数。我们使用预训练的权重对IBRNet[44]进行微调,以进行60000次迭代。由于这两种方法在绘制时都需要参考视图,因此我们在评估时使用所有6个可见视图作为参考图像。根据表1中的定量结果2和图3-6中场景的定性结果。8(所有结果都可以在补充材料中找到),我们可以看到pixelNeRF [50]完全过拟合到一个平凡的解决方案,GT RGB GT深度预测深度图7. 深度完井效果。从左到右示出了地面实况RGB图像、地面实况深度图像和预测深度图像的示例。无效的深度值以黑色表示,并用蓝色椭圆标记红色椭圆圈出深度相机有误差的区域。我们可以看到,渲染结果不仅可以完成缺失的区域,而且可以纠正错误。而X-NeRF再次击败了这两种方法。如果我们同意的话。2、用Tab 1、多场景版本X-NeRF甚至优于单场景版本,说明X-NeRF具有强大的泛化能力。我们还对两个小说场景的小说视角进行了跨场景比较。实验结果表明,X-NeRF具有较强的跨场景性能,证明X-NeRF学习到的完备映射具有较好的泛化能力。复杂性比较。我们进一步比较了多场景方法之间的每幅图像的推理时间、训练时间和模型大小,如Tab. 3.我们可以发现X-NeRF需要更少的训练时间。X- NeRF的 推 理 时 间 和 模 型 大 小 也 与IBRNet [44]相 当 , 比pixelNeRF [50]好得多。5774GT pixelNeRFIBRNet w/depthX-NeRF(我们的)图8.多场景和跨场景定性结果。 前2行显示场景5-6,最后4行显示4个新场景。场景1场景2场景3场景4RGB颜色深度错误%↓RGB颜色深度错误%↓RGB颜色深度错误%↓RGB颜色深度错误%↓LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑pixelNeRF[50]0.80211.720.33325.760.79216.750.50722.450.78513.140.35925.590.77012.680.57621.71IBRNet[44]0.64614.370.2839.300.67316.430.31612.420.63116.890.33612.380.64213.950.5338.31IBRNet[44]深度0.62014.850.33611.480.65716.630.36816.790.61716.650.35112.050.63114.670.5528.96X-NeRF(我们的)0.53418.250.4400.09710.58717.590.5200.1440.48418.050.4760.8880.39718.650.7520.138场景5场景6小说场景1小说场景2RGB颜色深度RGB颜色深度RGB颜色深度RGB颜色深度错误%↓错误%↓错误%↓错误%↓LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑pixelNeRF[50]0.70714.030.71424.280.80811.720.47719.620.88511.740.54623.020.72215.220.38824.24IBRNet[44]0.63318.490.6138.830.65613.450.3655.380.63314.060.4559.420.63816.330.29412.36IBRNet[44]深度0.67814.520.51212.680.64913.740.3565.960.62813.550.4638.720.64814.360.26114.67X-NeRF(我们的)0.40818.710.8170.3460.47617.690.6050.1520.45218.660.6031.700.54917.930.4451.82小说场景3小说场景4总体平均值在看到的场景总体平均值论小说场景RGB颜色深度RGB颜色深度RGB颜色深度RGB颜色深度错误%↓错误%↓错误%↓错误%↓LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑pixelNeRF[50]0.67914.570.63028.720.74813.240.58022.740.77813.340.49423.230.75913.690.53624.68IBRNet[44]0.69213.440.4187.260.71311.950.34010.450.64715.600.4089.440.66913.950.3779.87IBRNet[44]深度0.69613.600.37910.170.72411.500.32013.620.64215.180.41211.320.67413.250.35611.80X-NeRF(我们的)0.51217.170.6561.700.52017.570.6331.670.48618.190.5820.6610.50817.830.5841.72表2. 多场景的定量结果。我们同时在6个场景中训练每个模型,然后报告它们在每个场景中的表现以及整体平均得分。我们还评估了两个新的场景上的新视图合成的模型方法#参数pixelNeRF[50] 28.2M培训>10天推理IBRNet[44]8.9M41sX-NeRF(我们的)22.1百万×3.5天×11秒106天18S表3.复杂性比较。 我们报告模型大小,训练时间(包括预训练)和每张图像的推理时间。5.4. 完成能力我们进一步研究了X-NeRF的补全能力。结果见图13。7清楚地表明,X-NeRF足够强大,可以完成缺失的区域,并纠正低成本深度相机造成的错误值。6. 结论我们提出了一个新颖且极具挑战性的任务,即在多个场景上仅给出不足的可见视图的情况下合成新颖的视图RGB-D图像该问题在低成本环境中是有用的,并且可以扩展NeRF相关工作的针对新问题收集了一个新的数据集确认感谢方浩树教授和张学良教授的无私帮助和宝贵意见。策武路!小说场景看到的场景5775引用[1] Jonathan T Barron,Ben Mildenhall,Matthew Tancik,Peter Hedman , Ricardo Martin-Brualla , and Pratul PSrinivasan. Mip-nerf:抗混叠神经辐射场的多尺度表示。在IEEE/CVF国际计算机视觉会议,第5855[2] Chris Buehler 、 Michael Bosse 、 Leonard McMillan 、Steven Gortler和Michael Cohen。非结构化发光图绘制。在Proceedings of the 28th annual conference on Computergraphics and interactive techniques,pages 425[3] 陈星宇,张琦,李晓宇,陈越,冯颖,王轩,王爵。幻觉神经辐射场在野外,2021年。[4] Christopher Choy,JunYoung Gwak,Silvio Savarese.4D时空卷积:Minkowski卷积神经网络。在IEEE计算机视觉和模式识别会议论文集,第3075-3084页[5] Abe Davis Marc Levoy和Fredo Durand非结构化光场。在Computer Graphics Forum,第31卷,第305Wiley OnlineLibrary,2012.[6] Paul E Debevec,Camillo J Taylor,and Jitendra Malik.从照片中建模和渲染建筑:一种基于几何和图像的混合方法 。 在 Proceedings of the 23rd annual conference onComputer graphics and interactive techniques,pages 11[7] Kangle Deng,Andrew Liu,Jun-Yan Zhu,and Deva Ra-manan. 深度监督削弱:更少的视图和更快的训练-ING免费。arXiv预印本arXiv:2107.02791,2021。[8] 约翰·弗林,迈克尔·布罗克斯顿,保罗·德贝维克,马修·杜瓦尔,格雷厄姆·费弗,瑞安·奥弗贝克,诺亚·斯内弗利和理查德·塔克。Deepview:查看合成与学习梯度下降。在IEEE/CVF计算机视觉和模式识别会议论文集,第2367- 2376页[9] John Flynn,Ivan Neulander,James Philbin,and NoahSnavely. Deepstereo:学习从世界图像中预测新视图在IEEE计算机视觉和模式识别会议论文集,第5515-5524页[10] Chen Gao ,Ayush Saraf ,Johannes Kopf,and Jia-BinHuang.从动态单目视频合成动态视图。IEEE/CVF计算机视觉国际会议论文集,第5712-5721页,2021年[11] Stephan J Garbin,Marek Kowalski,Matthew Johnson,Jamie Shotton,and Julien Valentin.Fastnerf:200fps的高保真神经渲染。第14346-14355页[12] Steven J Gortler、Radek Grzeszczuk、Richard Szeliski和Michael F Cohen。光显仪。在Proceedings of the 23rdannual conference on Computer graphics and interactivetechniques,pages 43[13] JunYoung Gwak,Christopher Choy,and Silvio Savarese.用于3d单次目标检测的生成稀疏检测网络。欧洲计算机视觉会议,第297-313页。Springer,2020年。[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[15] Peter Hedman,Julien Philip,True Price,Jan-MichaelFrahm,George Drettakis,and Gabriel Brostow.自由视点图像渲染的深度混合。ACM Transactions on Graphics(TOG),37(6):1[16] Philipp Henzler,Niloy J Mitra,and Tobias Ritschel.从2d样本学习神经3d纹理空间在IEEE/CVF计算机视觉和模式识别会议论文集,第8356-8364页,2020年[17] 张家凯、刘新航、叶欣怡、赵富强、张延顺、吴敏烨、张英亮、徐澜、于静怡。使用分层神经表示的可编辑自由视点视频。在ACM SIGGRAPH,2021年。[18] Nima Khademi Kalantari , Ting-Chun Wang , and RaviRa-mamoorthi.基于学习的光场相机视图合成。ACMTransactions on Graphics(TOG),35(6):1[19] Anat Levin和Fredo Durand使用维度间隙光场先验的线性视图合成在2010年IEEE计算机协会计算机视觉和模式识别上,第1831-183
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功