没有合适的资源?快使用搜索试试~ 我知道了~
15702NeurMiPs:用于视图合成林志浩1、2马伟秋3徐浩宇2王 玉强2王神龙 11伊利诺伊大学香槟分校2国立台湾大学3麻省理工图1. 神经渲染的不同3D表示之间的比较。神经隐式表面模型精确的表面几何形状,但渲染需要昂贵的顺序采样。多平面成像是有效的,但不反映真实的几何形状,不适合外推。虽然NeRF是灵活的,但它不是采样效率高的,并且其学习的密度场可能不反映真实的场景几何。我们提出的混合平面专家是有效的,能够模拟复杂的表面几何形状和外观。摘要我们提出了平面专家神经混合(Neur-MiPs),一种新的基于平面的场景表示模型的几何形状和外观。NeurMiPs利用3D空间中的本地平面专家的集合作为场景表示。每个平面专家由表示几何形状的局部矩形形状的参数和模拟颜色和不透明度的神经辐射场组成。我们通过计算光线平面相交和复合输出颜色和密度在图像的顶点渲染新的视图NeurMiPs融合了显式网格渲染的效率和神经辐射场的灵活性。实验表明,我们提出的方法优越的性能和速度,相比其他的三维表示在新的视图合成。1. 介绍Metaverse来了。想象一下未来的某一天人们可以在不离开房间的情况下自由地、身临其境地探索世界。当它们向前移动时,细节会弹出;当它们向侧面移动时,被遮挡的区域会重新出现。每当人们采取行动时,虚拟实境就会以相应的视觉场景做出回应,这些场景看起来很自然,就像人们亲自参观这个地方一样。虽然很吸引人,但将这一愿景变为现实需要在多个领域取得进展,其中之一是实时,高质量,内存高效的新视图合成。具体而言,鉴于作为一组世界的姿势图像,理想的NVS系统必须能够从新颖的视角以照片般真实的方式重新渲染场景,使得人们无法区分。该系统还需要快速和轻量级,以便可以无处不在地部署。为了实现这一宏伟目标,研究人员开发了大量的方法来重现我们的视觉世界。一个有希望的方向是显式地对场景的几何形状进行建模(例如,多平面图像[12,13,73,85],点云[1,39,53],网格[31,51,52])和传导图像-基于渲染(IBR)[3,9,10,31,63]。通过调整其他现有视图的视觉特征,这些方法可以有效地渲染高质量的图像。不幸的是,它们通常是内存密集型的,并且需要良好的代理几何结构。另一方面,神经辐射场[44,50,78,79,82,84]的最新进展使我们能够以低内存占用合成高度逼真的图像。通过将颜色和密度函数编码为神经网络,它们可以处理传统方法难以处理的复杂几何和场景效果,例如,薄结构、镜面反射和半透明物体。然而,体绘制的灵活性是一把双刃剑。如果没有适当的表面建模,他们不能准确地捕捉场景的几何形状,从而导致在视图外推设置过程中出现伪影考虑到这些动机,我们的目标是找到一个替代的3D场景表示,是紧凑的,高效的,表现力,和概括。具体来说,我们调查飞机,最简单的几何图元之一,但powerful表示复杂的场景。大多数表面15703×nkd(xk,d)颜色:ckPKhkalpha:k焕光图2. 平面专家参数化左:每个平面由3D中心、平面法线、向上向量以及宽度和高度组成;右:外观通过神经辐射场函数建模,该函数将3D坐标和光线方向作为输入,并输出颜色和不透明度。都是局部平面的。在图中的场景 3作为一个例子,可以使用500个平面,以适应一个5 5米2的场景,最大点到表面的误差为8.66毫米。这一结果表明,我们可以考虑我们的真实世界的表面通过分段局部平面结构建模。 局部平面世界对许多视觉研究人员来说并不是一个令人惊讶的新概念[35,41,48]。它也深刻地影响了图形社区,是最常见的渲染表示。与多平面图像[12,68,73,85]不同,它通过正面平行平面表示场景,我们提出的方法允许每个平面具有任意位置,方向和大小。因此,我们的表示是更灵活的近似场景几何。与体绘制不同,NeurMiPs使用平面几何体显式地对表面因此,快速绘制可以通过有效的光线平面相交来完成图1描述了我们提出的3D表示以及与其他神经渲染表示的比较。我们验证我们的方法在几个标准的基准新颖的视图合成。实验结果表明,该方法的速度明显快于基于体的方法,且具有相似或更好的绘制质量,与基于表面的神经绘制方法相比,该方法具有更高的绘制质量和更少的内存。此外,我们评估了我们的方法在一个新的挑战基准视图外推,表现出优越的性能相比,其他国家的最先进的方法。特别是,NeurMiPs优于NeRF,在重要的新测试视图中具有超过1dB的PSNR增益。NeurMiPs的显式平面表面表示也可以很容易地在现代图形引擎中使用。2. 相关工作我们的方法是密切相关的经典工作,基于图像的建模和渲染,以及最近的学习为基础的努力。我们还从平面场景表示的现有技术中在本节中,我们简要回顾了这两个主要方向的前期工作(a) 目标场景(b)平面数量与点-面误差图3.使用混合平面精灵进行曲面拟合左:目标场景;右:拟合结果。2.1. 一种新的视图合成方法显式曲面建模:开创性的视图合成工作利用显式曲面几何。网格表示已被采用作为代理几何结构,以引导基于图像的扭曲,从源视图到目标姿势[7,9,10,31]。密集点云和曲面是多边形网格的交替显式表示[1,39,53,75]。两者都适用于硬件加速。因此,它们具有优越的效率和高质量的合成数据的绘制。然而,处理不完美的几何体和视图相关的效果是具有挑战性的。最近的作品研究了显式表面渲染[51,52,66,67]或使用2D网络来修饰图像[39,72]的学习方法。NeurMiPs是显式几何的一种形式因此,我们继承了它的速度优势。与大多数显式几何方法不同,我们利用神经辐射场来提高渲染质量,同时节省内存。多平面成像: 另一个密切相关的结构是分层图像,包括多平面图像(MPI)和分层深度图像(LDI)[3,12,13,24,43,58,60,73,85]。MPI使用一堆正面平行图像来表示场景。它允许快速渲染,并可以通过轻微的正面平行移动提供然而,它的分层几何结构带来伪影360环绕视图或矢状面移动(例如,步行或飞行)。最近的工作扩展了视图外推能力[43]通过融合多个MPI与额外的内存成本。与我们最相关的MPI工作之一是NeX [73]。两者都利用多平面几何形状和神经辐射函数。然而,NeX使用固定的、正面平行的平面。相比之下,我们使用可学习的倾斜平面,带来更大的灵活性来处理复杂的场景和渲染外推和周围的视图。隐式曲面:通过隐式曲面建模可以缓解显式几何的局限性[46]。最近的工作开始使用神经表示联合建模表面和外观[74,76,77,81]。他们实现15704图4.NeurMiPs的渲染管道我们首先投射光线并确定相交点和平面。然后可以通过每个平面的神经辐射场来评估颜色和不透明度最后,进行阿尔法混合步骤以输出最终光线颜色。最先进的重建质量和良好的视图合成结果。然而,渲染隐式函数需要顺序的射线行进步骤,并且需要额外的步骤来提取表面。神经体绘制:体辐射场可以追溯到90年代后期[19]。最近的作品,如NeRF [44]和Neural Neural Needle [37]开始研究用于体绘制的深度学习。它充分利用了神经网络的表达能力和体绘制的灵活性在过去的一年中,已经提出了大量的新方法来扩展NeRF [4,17,25,36,42,44,50,71,82,84]。代表性的作品可以处理稀疏输入视图[69,79],无界场景[82],克服混叠效应[4]并将未知/噪声姿态作为输入[33]。开创性的NeRF [44]不会实时呈现有几篇文章试图使用不同的策略来加速NeRF例如,像[17,49,50,78]这样的方法选择将输入场景分解为更小的区域,并使用更小的网络为每个区域建模3D几何其他方法通过早期射线终止[47],空空间跳过[50,78],可学习稀疏采样[2,45,64],或闭型无采样积分[34]。延迟渲染或烘焙技术也被用来加速NeRF [17,25]。我们的方法是一个新的实例上述加速技术通过平面表示。也许最接近我们的工作是MVP [38],他们也利用了几何图元。然而,存在一些关键的差异。首先,MVP利用密集的体素网格来捕捉复杂的人体头部纹理,我们用平面来建模场景结构。其次,MVP显式地为每个体素生成RGBα,这是消耗内存的,而NeurMiPs使用神经网络对纹理进行建模。2.2. 平面场景表示我们并不是第一个意识到多个倾斜平面用于表示场景几何体的潜力的人。计算机视觉和图形社区有着悠久的历史,利用平面表面进行建模和渲染。各种形式的平面场景表示已被研究[3,14,21,23,27,28,32,55,63]。代表作品包括多边形网格[5,20]、Marr草图[40]、曼哈顿世界[15,26]、二进制空间划分树[8]、3D盒布局[22,23]、折纸理论[28]、倾斜平面[3,6,63]等。一个密切相关的研究路线被称为分层精灵[63],它与我们的几何表示相似关键的区别在于外观表示和渲染:分层的sprites为每个平面使用图像纹理,渲染是通过单应性扭曲完成的,而我们的NeurMiPs利用表达神经辐射场,渲染是通过光线投射完成的,它可以捕获更好的视图相关效果,并在复杂场景中运行已经开发了许多方法来从图像中推理平面结构。例如,可以从图像[35,80]中检测平面,恢复网格[18],从立体重建倾斜的平面表面[6,16],利用平面结构进行SLAM [54],基于局部平面假设估计表面法线和边界[14],并最终从多个图像重建平面精神[27,55]。建议的NeurMiPs可以被视为一个多视图的倾斜平面重建方法,通过最大限度地减少光度量渲染损失。3. 方法在这项工作中,我们解决的问题,小说的看法合成。我们的目标是尽可能地提高渲染效率,同时提高极端新颖视图的渲染质量。为了实现这一目标,我们提出了一种新的神经表示称为平面专家的混合物,并设计了一个神经渲染方法使用NeurMiPs。具体来说,我们首先表示的场景作为一个混合的局部平面表面。每个局部表面是一个有向的二维矩形在三维。然后,我们为每个平面使用神经辐射场函数来编码其依赖于视图的外观和透明度。几何形状和辐射场都是从输入图像端到端学习的。期间15705}{∈--KGT NeRF KiloNeRF我们的GT NeRF KiloNeRF我们的图5.坦克神庙的定性结果&。 放大以进行更好的视觉比较。渲染时,我们的方法将首先进行光线-矩形相交检查。每条光线只会击中曲面的一个小子集。颜色和透明度将根据相交点的坐标进行评估。最后,光线颜色将通过alpha混合所有相交点的颜色来计算图1比较了用于视图合成的不同3D表示。与神经表面绘制相比,我们的方法在内存和计算方面都很有效;该方法比体绘制具有更好的外推性,样本效率更高;与多平面图像相比,我们的方法更好地反映了几何形状。3.1. 第一千一百零六章位面强者混合平面专家表示由sk=(pk,nk,uk,wk,hk)参数化的K矩形曲面构成其中pk是矩形中心;nk是表示平面法线的归一化3D向量受最近神经渲染成功的启发[44,73],我们将每个平面专家的视图相关外观和透明度表示(ck,αk)=fk(xk,d)(1)该函数将3D空间坐标xk和标准化的3D光线方向d=(dx,dy,dz)S2作为输入,并输出相应的颜色和透明度。见图图2为平面表示的图示网络架构每个平面精灵只需要对全辐射场的局部切片进行建模。因此,我们使用一个显着较小的多层感知器(MLP)的每个平面专家模型。每个MLP模型由三个完全连接的隐藏层组成,每个隐藏层都有ReLU激活,最终输出为sigmoid激活网络预测颜色和alpha值。根据最近的工作[44,65],光线输入在传递到网络之前被转换到具有高频函数的高维空间,这增强了捕获高频纹理的能力。一个自然的问题出现了:它是否足以表示复杂的世界与混合的飞机?为了回答这个问题,我们进行了一个快速的实验来证明它的力量。具体地说,我们选择了两个复杂的3D场景,一个是来自Toshiba数据集[61]的室内环境,另一个是来自Tanks和Temple [30]的室外这两个场景都由足够复杂的几何结构组成,如树木,杆,圆形表面。我们使用平面专家的混合来拟合表面几何形状,通过最小化从场景表面采样的点到图3将局部平面表面拟合性能示出为矩形的数量对点到平面的平均从图中我们可以看到,只有1000个平面,我们可以达到10−3RMSE点到面误差,整个场景归一化为一个单位球体。这些结果表明,多平面的表面几何是适合表示复杂的场景神经绘制。3.2. 渲染在测试时,通过从眼睛拍摄光线并评估沿着光线的辐射来渲染像素。形式上,输入射线由原点和归一化方向向量r=o,d组成,其中o是原点,d是方向。光线平面相交渲染NeurMiPs由于其简单的几何形状而非常有效。第一步是射线-矩形相交:确定局部平面是否与射线相交。这种交叉检查可以通过分析。首先,我们将找到给定射线r={o,d}和无限大小平面{nk,pk}之间的交点X =o+(pk−o)·nkd(2)d· nk我们将只保留下一阶段的矩形。实际上,只有一小部分会被保留。然后,我们在相交平面专家处评估光线具体地,给定输入坐标变换xp,k和方向15706--ΣYK{}··联系我们L=(5)cgtL×GTNeRFNEXKiloNeRF我们GTNeRFNEXKiloNeRF我们图6. 数据集的定性结果。d对于每个平面专家,我们将通过评估其神经辐射函数来输出透明度值αk和颜色ck1.一、现在,每条射线都收集了一组点样本xj,cj,αj。我们将点从最接近眼睛o到最远进行排序,并进行alpha合成以获得光线颜色的最终估计j−1c(r)=(1−αi)αjcj(3)蒸馏在平面几何初始化之后,我们联合优化辐射和几何。受NeRF蒸馏成功的启发[50,62,78],我们首先训练一个大容量的普通NeRF作为教师模型来提取知识。它遵循标准NeRF神经网络架构,有两个明显的区别。首先,通过NeurMiPs的射线-平面相交进行点采样。其次,我们还联合优化了平面专家的几何参数。关节几何形状和光度量损失用于训练平面引导NeRF:jiLtotal= Lg+ Lc,图4描绘了我们的渲染过程的详细程序,cess每一个射线。我们想强调我们的方法的三个重要特性。首先,由于我们的混合平面结构,光线几何相交是有效地计算在封闭的形式,这是非常有效的。其次,每道射线只会击中少数几架飞机.这导致我们需要为每条射线评估的样本数量较少,从而显着提高了速度。最后,每个平面专家辐射率函数只需要对局部表面建模因此,辐射MLP所需的计算也明显小于NeRF。3.3. 培训训练NeurMiP需要联合优化平面几何形状(ck,nk,uk,wk,hk)和辐射fk(,)。从头开始的训练会导致伪影和低保真度的几何结构。在实践中,我们观察到更好的结果可以通过两种训练技术获得:1)通过几何损失最小化的平面初始化;2)从大型教师辐射模型中提取。我们使用由运动恢复结构[ 56 ]估计的粗略3D点云xi初始化平面几何参数s k。具体来说,我们优化了以下点到矩形距离函数:Lg=λmind(xi,sk)+λmax(wkhk)2,(4)其中,Lg是在等式中定义的点到矩形几何损失。Lc是L2光度损失22R对于每个平面专家,我们通过最小化教师输出和每个学生输出之间的差异来从教师模型中提取知识。具体地说,我们从矩形中均匀地绘制随机点,从半单位球中随机地绘制视图方向。学生网络在过拟合到教师网络之后,我们将固定平面参数并微调学生辐射场模型,以进一步提高渲染质量。具体来说,我们最小化渲染像素颜色和地面实况颜色之间的L2光度损失c3.4. 执行尽管NeurMiPs在设计上很高效,但在实现过程中将受益于几种技术,以进一步提高渲染速度,使其成为实时的。另一种加速技术是纹理预烘焙。受先前关于预缓存NeRF的工作的启发[17,73,78],我们建议预渲染alpha值并烘焙ik它们作为每个矩形平面的alpha纹理。 是其中minkd(x,sk)是从点x到最大矩形表面sk的距离。采用面积正则化(wkhk)2来禁止矩形任意大。更具体地说,视图无关的alpha被烘焙到每个平面i中,作为大小为w h的纹理贴图Ai。在推理过程中,当光线击中曲面时,我们可以检索其对应的15707Q−×∼----模型PSNR↑SSIM↑LPIPS↓NeX [73]24.760.8320.152NeRF [44]30.120.9010.097[78]第七十八话27.720.8720.174KiloNeRF*[50]29.370.9040.097我们30.800.9000.088表1.坦克神庙的定量比较&。从烘焙的alpha纹理Ai进行双线性插值得到的alpha值。请注意,在推理过程中直接应用alpha烘焙可能会导致轻微的渲染性能下降。因此,我们微调了平面专家的RGB分支,以获得更好的渲染质量。对于所有相交的矩形,不需要提前射线终止评估辐射亮度,特别是当透射率值i(1 αi)接近于零时(例如,射线撞击不透明平面),因为它可能仅具有较小的在实践中,我们利用早期光线终止,以避免额外的网络评估,从而大大提高渲染效率如果alpha值的总和小于1,我们也会执行重新归一化我们根据经验观察到,它将提高性能。表2. 定量比较。所有型号均在单个TITAN RTX上进行评估。更多详情请参阅正文允许评估现有方法的外推能力我们采用BlenderProc [11]作为我们基于物理的渲染引擎。图像大小设置为512×512。注 : 在 [44 , 50] 之 后 , 我 们 采 用 峰 值 信 噪 比(PSNR),结构相似性指数(SSIM)[70]和感知度量(LPIPS)[83]进行定量评估。基线 :我们将我们的方法与最先进的神经辐射场( 即 , NeRF [44] ) , 基 于 MPI 的 方 法 ( 即 , NeX[73])和混合实时方法(即,NVSF [36],KiloNeRF[50],PlenOctrees [78])。我们建议读者阅读supp。材料了解更多详情。实现细节:对于每个场景,我们使用来自自定义CUDA内核为了进一步加速模型推断,我们实现了一个自定义CUDA内核,用于光线平面相交、模型推断和alpha合成。我们将每个专家的网络评估融合到一个CUDA内核中,以便所有专家可以并行渲染。正如我们将在Sec中展示的那样。和supp。材质,这可以显著提高渲染效率。4. 实验4.1. 实验装置数据集:我们在两个具有挑战性的数据集上评估了NeurMiP:Tanks Temple [30]和Patient [61]。 坦克神庙由五个有界的真实世界场景组成[36]。每个场景包含从周围360个视点捕获的152 384个高分辨率图像(19201080这是一个合成数据集,包含各种室内场景。每个场景都配备了高质量的几何和真实感纹理,允许从任意相机姿势渲染高保真图像。灵活性还允许我们生成在现有基准中不可用的具有挑战性的新颖视图合成场景(例如,极端观点外推)。在这项工作中,我们随机选择七个场景,并为每个场景渲染50个训练图像和100个测试图像相机姿势在预定义的范围内随机采样。我们采用更宽的测试分割范围,以便测试图像可以覆盖更广泛的视图,并可能包括未看到的区域。设置COLMAP [56,57].通过远点采样选择平面中心pk,并将平面方向nk,uk初始化为从pk周围的局部点集估计的法线。我们将位面专家的数量设置为500个,坦克和神殿为1000个。我们首先训练6K epoch的教师模型,然后提取1.5K epoch的平面专家。最后,我们对专家进行了2.5K epoch的微调。我们使用Adam [29]优化器,学习率为5× 10-4在所有实验中。4.2. 坦克神庙如Tab.所示。1,我们的方法在所有三个度量上都与现有技术相当或优于现有技术。具体来说,虽然NeRF为大规模场景生成模糊纹理,KiloNeRF产生块效应,但NeurMiPs能够在具有清晰边界的平面上捕获详细纹理。此外,我们的本地平面结构可以处理非平面和薄的对象,以及通过平面专家和阿尔法组成的组合。见图中谷仓例子中的树枝和树叶。五、4.3. 副本我们进一步评估了我们的方法。由于图中包含外推视图(如第2节所述),4.1)在训练过程中没有观察到 , 基 于 体 素 的 隐 式 方 法 ( 如 PlenOctrees [78] ,KiloNeRF [50])受到严重影响。这些方法在训练期间修剪掉冗余的体素。因此,他们不能模型PSNR↑SSIM↑LPIPS↓NeRF [44]28.320.9040.168SRN [59]24.100.8470.251[37]第三十七话23.700.8340.260NSVF [36]28.400.9000.153[第78话]27.990.9170.131KiloNeRF [50]28.410.9100.090我们28.460.9080.08915708ΣY易中硬PSNR ↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR ↑SSIM↑LPIPS ↓NeX [73]25.880.8440.13624.560.8280.15623.860.8260.164NeRF [44]31.410.9150.08129.980.9010.09729.020.8870.113PlenOctree [78]28.050.8770.17127.6130.8720.17427.510.8660.179KiloNeRF [50]28.000.9080.08528.060.8930.10527.500.8860.117我们31.980.9140.07430.310.8940.09230.050.8920.096模型中位数↓内值(%)<0的情况。05内值(%)<0的情况。10内值(%)<0的情况。50NeX [73]0.7673.36.633.3NeRF [44]0.13719.638.387.8表3. 性能与视角差异。估计看不见的区域的外观。为了(部分)缓解这个问题,我们降低了修剪阈值,以便即使体素具有较低的体积密度,也能保留体素,但代价是较大的内存占用/较慢的推理速度。相比之下,NeurMiPs表示具有多个平面的场景几何体,并且可以在视图外推中更好地泛化如Tab.所示。2、Tab。7,我们的方法达到了最佳的质量-效率权衡,并且在所有三个度量上与现有技术我们请读者参阅附录。材料的实施细节与基准线比较较为全面。我们还在图6中显示了一些定性结果。NeRF在自由空间中产生雾状伪影,而NeX [73]具有显著的相比之下,NeurMiPs具有显著更好的视觉质量,即使是在外推的新视图下。4.4. 分析性能与视角差异:为了深入了解NeurMiPs何时表现最好,我们根据与最近训练视图的接近程度将测试划分为三类,即简单,如Tab.所示。3、Neur-MiPs在所有设置中与竞争方法相当或优于竞争方法。特别地,当视点差异大时(即,1.03 dB PSNR增益和0.017 LPIPS分数降低)。深度估计:为了验证NeurMiPs对场景几何建模的效果,我们遵循之前的工作[44],在每个视点生成深度图,并与基线进行比较。具体来说,我们通过alpha合成来估计沿着每条射线r的预期深度值d(r):j−1d(r)=(1−αi)αjtj(6)表4. 估计深度的概率。SfM几何蒸馏PSNRSSIMLPIPS25.0690.8180.158✓✓✓30.81033.6590.9090.9410.0820.051表5. 消 融 研究 。 场 景: 厨房 。“SfM geom- etry” refers toplanes initialization with point cloud extracted by COLMAP [速度-内存权衡:NeurMiPs使用平面专家的混合模型与基于体素的方法相比,平面和相关联的微小MLP的紧凑表示不仅配合我们定制的CUDA内核,我们可以在GPU上实现每秒19.16与基线进行比较(参见选项卡7),NeurMiPs实现了最佳的速度-内存权衡。培训策略:验证每种培训技术的贡献(第3.3),我们评估我们的模型与不同的组合。如Tab.所示。5、用稀疏点云初始化平面几何显著提高了性能。我们推测这是因为良好的初始化允许模型减轻形状-辐射模糊性[82]并收敛到正确的几何形状。在蒸馏的帮助下,可以进一步减少伪影并改善结果。我们假设这是因为教师模型的指导防止我们的模型陷入局部极小值。这两个观察结果与以前的作品[50,71]的调查结果一致。我们还注意到,在实践中需要进行SfM来获得相机姿态,因此来自SfM的稀疏点云本质上是“自由的性能w.r. t平面专家的数量:由于我们的目标是用平面模型对场景外观和几何形状进行建模,j i 专家,一个自然的问题是:其中tj是采样点j的深度。如Tab.所示4、我们的平面专家非常灵活,在大多数情况下都能很好地近似场景几何然而,由于平面的大小是有限的,因此平面可能无法覆盖极端视点中的所有区域。因此,由背景建模的场景引起更高的深度误差。请注意,这可以通过采用多层框来解决我们把这个留给将来的研究。方法规模与平面专家的数量如Tab.所示6、一般来说,更多的飞机会带来更好的效果。这是合理的,因为我们可以更好地适应现场。然而,由于更多的光线平面相交,它也可能增加模型大小并降低镜面反射效果:与NeRF类似,我们的平面专家通过观察方向来15709∼NEXNeRFPlenOctree*KiloNeRF*我们参数数(M)FPS21.280.1421.190.1061457.278.046.214.193.1119.16表6. 飞机数量的影响。数据集:请注意,#planes=500可以实现最佳的复杂性-质量权衡。表7. 模型大小和推理速度。Ground-Truth我们的渲染几何图7. 将所学平面的几何图形可视化。 每种颜色都是NeurMiPs学习的平面。图8. 坦克神殿的位面专家。我们为每个平面专家将alpha和颜色值预烘焙到2D纹理中,捕获具有不同外观和几何形状的不同局部表面,例如,自行车架和车轮。d考虑(见等式1)。我们进一步从所有相交平面(每条射线10个)合成α辐射,以补偿镜面反射效应(类似于MPI)。镜面反射窗口的一个9 .第九条。平面专家可视化:为了更好地理解在NeurMiP中学习到的内容,我们将其平面精神几何学、平面索引和纹理可视化。具体来说,我们在图中显示了由α组成的平面表面指数着色的渲染表面7 .第一次会议。NeurMiPs学习用几个大平面(用相同的颜色表示)来捕捉这些结构,同时近似非平面区域(例如,轮胎,汽车前面)与更多的飞机。图8描绘了从若干平面专家的辐射场烘焙的学习纹理图的集合。我们看到,全面的每平面纹理已经学习了足够的可解释性。结合图形引擎:我们的方法的一个吸引人的特点是它与基于网格的渲染引擎的兼容性。事实上,我们的表示可以被认为是一个多边形网格与K个矩形面。因此,我们可以将光线颜色预烘焙成高分辨率的视图-图9. 镜面效果。数据集:坦克神庙。每个平面的依赖纹理,并保存场景的纹理然后我们可以在OpenGL中编写与视图相关的着色器,并使用标准光栅化引擎渲染场景。请注意,每个平面表面的深度排序和从后到前的渲染是必要的,以确保方程中正确的alpha混合过程3 .第三章。纹理烘焙带来了众所周知的加速的代价是额外的内存消耗和小的渲染质量下降,由于连续辐射场的离散化。最终的加速渲染在单个RTX 3090桌面上以1920x1080分辨率实现了1000平面卡车场景的每秒976帧。局限性:我们的方法有几个关键的局限性。 首先,NeurMiPs在很大程度上依赖于SfM点云进行平面初始化(参见Tab.(五)。如果稀疏点云是嘈杂的或不可用的,我们的性能将下降。然而,我们的模型目前无法处理无限场景。一个可能的解决方案是结合NeRF++[82]的技术,用非欧几里德坐标对背景纹理进行建模。我们把这个留给将来的研究。5. 结论在本文中,我们提出了NeurMiPs,一种新的三维表示新的视图合成。NeurMiPs用可学习的平面专家的混合来表示3D场景。每个平面由矩形形状和神经辐射场组成。我们的方法消除了基于MPI的方法的前端并行限制,同时由于高效的基于光线投射的渲染而保持高效。我们证明了我们的方法可以与经典的渲染管道集成我们相信NeurMiPs将为3D建模和渲染开辟新的鸣谢我们感谢国家高性能计算中心(NCHC)提供的计算和存储资源。我们还要感谢NVIDIA的硬件捐赠。飞机数量参数数(M)250.15500.311000.622001.245003.1110006.21PSNR26.4127.6929.1930.1030.8730.64SSIM0.8280.8510.8770.8880.9000.902LPIPS0.1680.1400.1120.0980.0880.08515710引用[1] Kara-Ali Aliev,Artem Sevastopolsky,Maria Kolos,Dmitry Ulyanov,and Victor Lempitsky.基于神经点的图形。在ECCV。Springer,2020年。一、二[2] Relja Arandjelovic和Andrew Zisserman Nerf详细介绍:学习视图合成的采样。在2021年的ArXiv中。3[3] Simon Baker,Richard Szeliski,and P Anandan.立体重建的分层方法。在CVPR中。IEEE,1998年。一、二、三[4] 乔纳森·T. Barron,Ben Mildenhall,Matthew Tancik,Peter Hedman , Ricardo Martin-Brualla , and Pratul P.Srinivasan. Mip-nerf:抗混叠神经辐射场的多尺度表示ICCV,2021年。3[5] 布鲁斯·鲍姆加特。翼边多面体表示法,1972. 3[6] Michael Bleyer Christoph Rhemann 和 Carsten Rother 。Patchmatch立体匹配与倾斜的支持窗口。InBmvc,2011.3[7] Chris Buehler 、 Michael Bosse 、 Leonard McMillan 、Steven Gortler和Michael Cohen。非结构化光绘渲染。SIGGRAPH,2001年。2[8] Zhiqin Chen,Andrea Tagliasacchi,and Hao Zhang.Bsp-net:通过二进制空间划分生成紧凑的网格CVPR,2020年。3[9] Paul Debevec,Yizhou Yu和George Borshukov。基于投影纹理映射的高效视相关图像绘制。在欧洲图形渲染技术研讨会上。Springer,1998年。一、二[10] Paul E Debevec,Camillo J Taylor,and Jitendra Malik.从照片中建模和渲染建筑:一种基于几何和图像的混合方法。在SIGGRAPH,1996中。一、二[11] Maximilian Denninger 、 Martin Sundermeyer 、 DominikWinkelbauer、Youssef Zidan、Dmitry Olefir、MohamadEl-badrawy 、 AhsanLodhi 和 Harinandan Katam 。Blenderproc. 2019. 6[12] 约翰·弗林,迈克尔·布罗克斯顿,保罗·德贝维克,马修·杜瓦尔,格雷厄姆·费弗,瑞安·奥弗贝克,诺亚·斯内弗利和理查德·塔克。Deepview:使用学习的梯度下降进行视图合成。在CVPR,2019年。一、二[13] John Flynn,Ivan Neulander,James Philbin,and NoahSnavely.Deepstereo:学习从世界图像中预测新视图。在CVPR,2016年。一、二[14] David Ford Fouhey,Abhinav Gupta,and Martial Hebert.展开一个室内折纸世界。在ECCV。Springer,2014. 3[15] Yasutaka Furukawa,Brian Curless,Steven M Seitz,andRichard Szeliski.曼哈顿世界立体声。CVPR,2009。3[16] David Gallup,Jan-Michael Frahm,Philippos Mordohai,Qingxiong Yang,and Marc Pollefeys.具有多个扫描方向的实时平面扫描立体声在CVPR中。IEEE,2007年。3[17] Stephan J Garbin,Marek Kowalski,Matthew Johnson,Jamie Shotton,and Julien Valentin.Fastnerf:200fps的高保真神经渲染。ICCV,2021年。三、五[18] Georgia Gkioxari Jitendra Malik和Justin Johnson 网格r-cnn。在ICCV,2019年。3[19] Steven J Gortler、Radek Grzeszczuk、Richard Szeliski和Michael F Cohen。光显仪。在SIGGRAPH,1996中。3[20] ThibaultGroueix , Matthew Fisher , Vladimir G Kim ,Bryan C Russell,andMathieuAubry. 学习3D表面生成的papier-mche´方法在CVPR,2018年。3[21] Abhinav Gupta、Alexei A Efros和Martial Hebert。块世界重访:图像理解使用定性几何和力学。在ECCV。施普林格,2010年。3[22] Varsha Hedau,Derek Hoiem,and David Forsyth.恢复杂乱房间的空间布局。ICCV,2009年。3[23] Varsha Hedau,Derek Hoiem,and David Forsyth.在盒子里思考:使用基于房间几何形状的外观模型和上下文。在ECCV。施普林格,2010年。3[24] Peter Hedman ,Julien Philip, True Price,Jan-MichaelFrahm,George Drettakis,and Gabriel Brostow.自由视点图像渲染的深度混合。SIGGRAPH,2018. 2[25] Peter Hedman , Pratul P Srinivasan , Ben Mildenhall ,Jonathan T Barron,and Paul Debevec.烘焙神经辐射场用于实时视图合成。ICCV,2021年。3[26] Ronghang Hu , Nikhila Ravi , Alexander C Berg , andDeepak Pathak.Worldsheet:将世界包裹在一张3d图纸中,以便从单个图像合成视图。ICCV,2021。3[27] Michal Irani和Prabu Anandan。用于三维场景分析的点对视差几何在ECCV。Springer,1996. 3[28] 金田武夫折纸世界的理论。人工智能,1980年。3[29] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。ICLR,2015年。6[30] Arno Knapitsch , Jaesik Park , Qian-Yi Zhou , andVladlen Koltun. 坦克和寺庙:大规模场景重建的基准SIGGRAPH,2017. 四、六[31] Johannes Kopf,Michael F Cohen,and Richard Szeliski.第一人称超延时视频。SIGGRAPH,2014. 一、二[32] David C Lee,Martial Hebert和Takeo Kanade。单幅图像结构恢复的几何推理在CVPR中。IEEE,2009年。3[
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功