神经辐射场的场景属性合成：合成模型的新视角，从NeRF到SS-NeRF

135 浏览量更新于2023-10-16 收藏 1.94MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

795Beyond RGB：使用神经辐射场的场景属性合成张明通*，1郑书红*，1鲍志鹏2马夏尔赫伯特2王宇雄11伊利诺伊大学香槟分校2卡内基梅隆大学{mz62，szheng36，yxw}@ illinois.edu{zbao，hebert}@ cs.cmu.edu摘要全面的3D场景理解，无论是几何和语义，是非常重要的现实世界的应用，如机器人感知。现有的大部分工作都集中在开发用于场景理解的数据驱动的判别模型上本文从合成模型的角度出发，利用隐式场景表示和神经绘制的最新进展，提出了一种新的场景理解在神经辐射场（NeRF）的巨大成功的基础上，我们引入了具有NeRF的场景属性合成（SS-NeRF），其不仅能够从新颖的视点渲染照片级逼真的RGB图像，而且还能够渲染各种精确的场景属性（例如，外观、几何形状和语义）。通过这样做，我们方便地解决各种场景理解任务下的一个统一的框架，包括语义分割，表面法线估计，重绘，关键点检测，和边缘检测。我们的SS-NeRF框架可以是一个强大的工具，用于桥接生成学习和区分学习，因此有利于调查广泛的有趣的问题，如研究综合范式中的任务关系，将知识转移到新的任务，促进下游区分任务作为数据扩充的方式，并作为数据创建的自动标注器。我们的代码可在https://github.com/zsh2000/SS-NeRF 上获得。1. 介绍考虑一个家用机器人，它在房间里导航并执行各种类型的家务。为此，机器人需要对场景进行全面的几何和语义理解，揭示场景的完整3D空间布局、功能属性和语义标签等。[39 ]第39段。大部分关于3D场景理解的现有工作都集中在为各种场景分析问题开发数据驱动的判别模型[23，27]，例如语义分割，对象检测和表面正常估计。作为对比，本文介绍了一部小说*同等贡献图1：我们将场景表示为隐式函数，并开发了一种通用的神经场景表示，SS-NeRF，它不仅能够从新颖的视角渲染图像，还能够渲染各种场景属性（例如，外观、几何形状和语义）与合成图像配对。场景理解的视角-合成各种场景属性的重要第一步在这个方向上最有影响力的最新进展之一是神经辐射场（NeRF）[37]，它给出了静态场景的一些图像，学习了可以从新视点渲染的场景的隐式体积表示。通过对来自不同视图的每个相机射线的坐标进行采样，NeRF将复杂场景表示为具有多层反射网络的连续5D隐式函数，该函数从单个5D坐标回归到单个体积密度和视图相关的RGB颜色。最后，NeRF通过体绘制将这些颜色和密度累积到2D图像通过最小化合成图像和来自各种视图的地面实况之间的残差来优化隐式表示NeRF激发了重要的后续工作，主要集中在提高渲染图像的质量[42，50]，加速训练和渲染[12，17，33，47]等。在本文中，我们感兴趣的是一个不同的问题：这种隐式表示是否可以扩展到合成RGB颜色以外的更丰富的场景属性？答案是肯定的。生成模型的一种成熟方法[2]是训练NeRF模型，然后预测不同的场景796具有判别模型的属性然而，这种混合解决方案包含一个自然的差距之间的综合模型和判别模型。为了更好地连接生成学习和判别学习，如图所示。1，我们开发了一个NeRF风格的模型，它不仅能够从新的视角渲染照片级真实感的RGB图像，而且还能够在统一的框架下渲染与合成图像相对应的各种精确的场景属性。因此，这有助于全面的场景理解，包括语义分割、表面法线估计、重绘、关键点检测和边缘检测。我们称我们的框架场景属性合成与NeRF（SS-NeRF）。自然地，我们发现一些场景属性对观察方向敏感，而另一些则不敏感（例如，语义标签），对于这些，原始NeRF模型的视图方向输入是冗余的。因此，我们采用两个分支来处理这些不同的属性（如图所示）。2）分别考虑或忽略视向输入（θ，θ）。通过这样做，所提出的SS-NeRF模型能够以连贯的方式处理不同类型的属性，从而为所有属性提供现实的综合此外，学习的场景表示是可共享的，并且在不同的属性之间是有益的，这导致SS-NeRF能够从合成单个属性推广到多个属性。作为一个通用的，灵活的框架，SS-NeRF进一步促进了各种有趣的问题的调查。例如，在SS-NeRF框架内，我们通过多任务学习和知识转移来分析不同场景属性之间的关系。我们表明，一个学习的隐式几何和语义表示，使知识在不同的合成任务的流动虽然类似的现象已经在判别模型（如Taskonomy [66]）中得到了广泛的研究，但在综合模型中，它们在很大程度上还没有得到充分的研究此外，我们探讨了SS-NeRF的两个应用我们表明，由SS-NeRF（RGB图像与场景属性配对）合成的示例可以有效地用作增强数据，用于改善相应的下游判别任务。此外，我们表明，由于其学习的底层语义和几何场景表示，SS-NeRF可以作为一个自动标注器来细化由最先进的判别模型产生的伪标签。我们的贡献有四个方面：（1）从学习综合模型的角度提出了一种新的场景理解解决方案SS-NeRF据我们所知，SS-NeRF是第一个将NeRF扩展到模拟渲染照片级真实感新视图图像和各种相应场景属性的工作。（ 2）我们使用五个流行的场景属性来实例化SS-NeRF，包括语义标签、表面法线、阴影、关键点和边缘。有趣的是，作为一种多功能的神经场景表示，SS-NeRF优于单独训练NeRF（用于渲染图像）和特定于任务的判别模型（用于预测场景属性）的混合策略。（3）我们的SS-NeRF框架是连接生成学习和判别学习的有力工具，通过综合范式中的多任务学习和知识转移，为研究不同场景属性（4）我们进一步证明了SS-NeRF可以帮助解决各种问题，例如作为数据增强的方式促进下游任务，以及作为数据创建的自动标注器。2. 相关工作新视图合成旨在从一个或几个给定的源图像生成具有任意相机姿态的目标图像[54]。基于生成对抗网络[19]（GANs）的模型已经显示出合成新颖视图的照片级逼真图像的有希望的结果[3，9，18，28，41，68]。虽然一些工作也研究了显式建模几何属性[7，20]或引入3D形状表示作为归纳偏差[24，59，71]，但这些模型仍然无法学习隐式3D表示。隐式场景表示将场景编码为特征向量，用于新颖视图合成。结合隐式神经模型和体绘制技术，神经辐射场（NeRF）[37]在复杂场景的新视图合成中实现了令人印象深刻的它利用感知器网络学习场景的隐式几何和语义表示，并利用经典的体绘制技术通过沿相机光线查询来合成视图。一些后续工作进一步提高了泛化能力[1，21，50，64]，组成-[22，42，44，67]和推理的效率[12，17，33，47]。还引入了深度和多视图一致性等归纳偏差，以促进NeRF式架构[43，55，57]。此外，体绘制技术和底层语义和几何场景表示也适用于其他模型结构[30，34，49]。虽然大多数基于NeRF的工作仍然集中在RGB合成任务上，但已经进行了一些探索，将NeRF从RGB合成扩展到其他场景属性。例如，物体的表面与颜色和密度一起学习[43]，从而实现高效和有效的渲染。通过对表面密度进行建模，改进了神经体积中的几何表示和重建[63]。Semantic-NeRF [69]还将NeRF风格的架构扩展到语义注释，这可以被视为我们框架的一个特殊实例，并探索了几个有价值的应用。与这些工作不同，SS-NeRF从RGB合成扩展到其他像素级场景属性，从单个到多个属性，具有共享的语义和几何场景表示。797（x，y，z，θ，）FvDecFenc编码网络F女Decpn（x，y，z）（θ，θ）σ（r，g，b）}1ΣΣDecDec›→k=1k=1T（tm）=exp−δσ（t）P {}pv......这是什么？pv然后，NeRF通过跟踪和采样相机光线r（t）=o+td来计算单个像素颜色值，相机光线r（t）= o +t d从相机平面的中心o沿方向d发射。具体来说，它随机采样M正交点{tm Mm=1 颜色c（tm）和密度σ（tm）须─p......这是什么？在近边界tn和远边界tf之间。则该像素的近似颜色由下式给出：M目标场景解码网络C（r）=T（tm）α（δmσ（tm））c（tm），（1）m=1图2：SS-NeRF架构。该模型将3D坐标和视图方向作为输入，并能够合成不同的其中δm是两个连续样本之间的距离点（δm=tm+1−tm），α（d）=1−exp（−d），以及成对的场景属性。 SS-NeRF使用共享场景编码网络Fenc来进行3D 位置嵌入，然后是两个单独的解码网络Fv和Fenc，它们产生Decm−1J Jj=1（二）场景属性预测。Fv考虑视图输入，而表示累积透射率。NVDec没有。3.2.创新和问题设置最近的场景理解方法在语义分割中获得了令人印象深刻的性能[16，23，32，46]，目标检测[6，27，70]，3D和视觉推理[4，10、26、35、45、60]等。尽管取得了很大的成就，但很少有人从综合模型的角度来理解场景相比之下，SS-NeRF考虑了3D形状和场景属性的隐式表示，允许跨不同任务进行知识转移和特征共享，从而捕获底层图像生成机制，以实现比单个任务更全面的场景理解。多任务学习旨在通过利用相关任务的共享知识来共同解决不同的任务[11]。最近的工作主要使用软参数共享[38，61]或硬参数共享[14，31]策略[48]。在解决多任务学习问题的同时，还研究了不同任务之间的任务关系。任务主义和后续工作[2，51，53，65，66]广泛利用任务关系以获得最佳性能。与已有的工作相比，SS-NeRF作为一个综合模型，还可以扩展到多个视觉任务的联合求解，并进一步研究任务之间的关系。3. 方法图2示出了我们提出的SS-NeRF框架（使用NeRF的场景属性合成在本节中，我们首先介绍了神经辐射场的基本概念，其次是SS-NeRF的问题设置和创新最后，我们详细描述了我们的SS-NeRF设计，并在场景理解的背景下用五个有代表性的任务对其进行实例化。3.1. 神经辐射场给定一个3D点x=（x，y，z）和一个视图方向d=（θ，θ），NeRF [37]学习一个隐式场景表示f，将5D输入映射到RGB颜色c=（r，g，b）和体密度σ：f（x，d）<$→（c，σ）。创新：NeRF使用感知器网络学习隐式几何场景表示。我们的关键见解是，这种几何感知表示不仅适用于RGB颜色，而且适用于其他场景属性，因为它是内部共享的。此外，这种表示一致地解决了判别模型（对新视图的泛化）和基于GAN的生成模型（从图像合成到其他任务的泛化）两者的限制因此，它为场景理解提供了一个新的综合视角，并为广泛的应用带来了新的问题设置：我们将基本的NeRF设置从单个RGB合成推广到渲染附加的逐像素场景属性（例如，语义标签、边缘、表面法线等）。具体来说，对于某个场景属性Pi，我们的目标是学习函数fi，以估计每个3D位置和视图方向的值p i：fi（x，d）pi.此外，由于隐式函数编码了geome-尝试，形状，和纹理信息的场景，这些是共享的不同属性的预测任务，我们认为，不同的属性可以一起学习共享的知识。因此，我们进一步将“场景-属性合成”问题公式化如下：给定 K 个场景属性的集合 = P k K ，我们的目标是构建一个表示函数 f ，该函数可以将 3D 坐标和视图方向映射到对应的属性值 f （ x， d ） → { p k } K。3.3. SS-NeRF模型架构：为了解决这个新问题，我们提出了SS-NeRF，其模型架构如图所示。二、请注意，虽然原则上我们的框架适用于更强大的NeRF变体，以提高性能，但在这里我们关注基本NeRF模型[37]，显示SS-NeRF的有效性和通用性，而无需其他高级组件和设计选择。具体地，整个模型学习映射5D向量（3D1MF798LP {}DecDecDecd=（θ，θ）与编码坐标一起，我Dec我DecJLDecΣ坐标和2D视图方向）到相应的场景属性;然后我们渲染场景属性对于语义标签预测，我们使用交叉熵损失函数：使用的体绘制技术[37]。公司简介ll我们首先采用一个共享的位置编码器Fenc来为3D坐标（x，y，z）构建特征嵌入ex：Lseg=−r∈Rl=1s（r）logsc（r）+l=1s（r）logsf（r）、（六）e=F（x，y，z）。（三）其中sl，sl，sl是真实的，粗糙的体积前，xenccF某些场景属性（例如，语义标签）对视图方向不敏感，因此视图输入是冗余的。多类语义分别为L类概率粗预测和细预测sl、sl在滤波后由softmax层处理因此，我们采用两种类型的解码网络Fvcf而F受启发[69]。FvDec渲染。对于阴影、关键点和边缘，我们采用Dec输入dec采取了额外的观点，L1损失：对性质Pv进行预测，而Fv预测JLABSE=pc（r）− p（r）1+pf（r）− p（r）1。（七）场景属性P直接与编码坐标：pv=Fv （ex，θ，θ）;p<$nv=Fnv（ex）.（4）在实践中，在我们的初步实验中，我们针对每个场景属性尝试了这两种建模策略，并采用在接下来的实验中效果更好我们还验证了这种双分支模型设计的必要性，并在第二节中进行了消融。四点三。SS-NeRF最简单的工作场景是预测单个场景属性。然而，通过增加更多的解码分支，所提出的模型能够预测多个属性，导致从单个任务到多个任务的推广。节中4.4讨论了SS-NeRF在多任务学习请注意，无论是对单个属性还是多个属性进行体渲染，都需要密度σ，而颜色是信息量最大的因此，我们将它们视为我们的SS-NeRF模型的固定输出，并在这个基本模型上添加其他属性。SS-NeRF的实例化和优化：我们使用在实践中很重要的五个代表性场景属性[51，66]以及彩色图像合成来实例化SS-NeRF。这些属性是：语义标签（SL）、曲面法线（SN）、着色（SH）、关键点（KP）和边缘（ED）。SH、KP和ED采用Fv;和F为SL和SN。在SS-NeRF的优化过程中，我们采用了[37]提出的分层体积采样策略。也就是说，我们首先随机选取一些我们还为这些不同的属性使用特定于任务的目标对于彩色图像合成，我们采用均方误差（MSE）：Lrgb=LMSE=pc（r）−p（r）2+pf（r） −p（r）2，r∈R最后的损失是光测损失和具体任务的标准损失为：L整体=Lrgb+λPiLPi，（8）Pi∈P其中=PSL，PSN，PSH，PKP，PED是属性集，λPi是相应的权重。曲面法线的建模在所有五个场景属性中，曲面法线是一个特殊的矢量形式，其在图像中的投影取决于相机的姿态。为了更好地模拟这种特性，我们使用F作为解码网络，但引入了额外的输入的编码相机姿势，直接合成的编码正常的体绘制技术。4. 实验评价在本节中，我们评估SS-NeRF。我们从实验开始设置在秒。4.1，其次是对所有五个场景属性的4.2）。节中4.3、在不考虑彩色图像合成分支和不同解码网络的情况下，对模型性能进行了仿真然后，我们对SS-NeRF进行了进一步的探索，包括知识转移和任务关系，下游判别任务的数据增强，以及现实世界的自动标签应用程序（第二节）。4.4）。最后，我们讨论了SEC的局限性和未来的工作。四点五分。4.1. 实验环境数据集：我们首先在常用的数据集上进行广泛的实验[52RISK是一个高质量的合成场景数据集，包含总共18个场景的照片级逼真的3D模型在[69]之后，我们对四个场景进行了实验，每个场景包含50帧，分辨率为640×480。我们还验证了强大的-2r∈R2（五）我们的模型在BlendedMVS数据集上的性质[62]，研究了SS-NeRF在复实数上的应用799R××其中，p（r）、pc（r）、pf（r）分别是属性P的地面实况、粗略体积是每批中的光线r的集合。的MSE损失也用于表面法线预测。世界场景这两个数据集的图像分辨率分别为768 576和4032 3024 我们遵循与LLFF的NeRF [37]相同的处理。800DZLDZ图3：两个有代表性的测试视图的定性结果。顶行：地面实况;底行：我们的合成结果。合成的RGB图像来自SL任务。SS-NeRF能够渲染逼真和匹配的RGB图像和其他属性。设置SL（↑）SH（↓）KP（↓）ED（↓）FvDecF女Dec0.91730.04290.00380.01790.92430.07450.00390.0211表1：SS-NeRF对各个场景属性的性能。SL：语义标签;SN：表面法线; SH：阴影; KP：关键点; ED：边缘。SS-NeRF在所有任务中都达到了很高的定量分数，并且优于两个基线，这表明它能够渲染类似于地面实况的准确场景属性。目标属性：根据[51]中的观察，我们在实验中关注RGB颜色以外的五个重要场景属性：语义标签（SL）、曲面法线（SN）、着色（SH）、关键点（KP）和边（ED）。对于XML，我们将原始的88路语义类映射到常用的NYUv 2 -13 [15，40]格式。场景注释：我们自己来呈现缺失的注释。表面法线通过SN（x，y，z）=（-dx，-dy，1）从深度导出，其中（x，y，z）是3D表2：在4个场景中，针对4个场景属性的不同建模的平均结果的消融。视图输入对于SH、KP和ED至关重要，但对于SL是多余的。0的情况。999 我们在每个场景上对模型进行20万次迭代训练，在单个NVIDIA RTX 2080 Ti GPU上花费约9小时评估指标：我们用平均交叉点联盟（mIoU），以评估语义分割和1错误来衡量其他任务的性能。4.2. 在RGB以外的任务上的性能我们首先为每个单独的场景道具构建SS-NeRF，并在测试中对其进行评估我们在表1中报告了定量结果。请注意，本文的主要目的是展示，使用SS-NeRF，它能够合成与渲染图像配对的不同场景属性;因此，目前没有任何工作可作为更全面比较的基线。虽然已经有大量的工作在训练判别模型来预测真实图像的场景属性，但是很难实现。在这些有区别的坐标和dx，dy是z关于模型和我们的合成模型。从概念上讲，合成-dz dz分别为x和y。边缘由Canny渲染[8]检测器 ; 关键点来自 SURF [5]; 阴影由预训练模型XTConsistency [65]渲染。实现细节：与NeRF [37]一致，我们分别为每个场景优化模型。设 λSN=1 ， λSL=0 。 04 ， λSH=0. 1 ，λKP=2，且λED=0。4via交叉验证我们使用Adam优化器[29]，初始学习率为5×10−4，设置β1= 0。9，β2=SIS模型原则上可以产生无限的成对样本，而判别模型则受到给定数据的约束然而，为了更好地理解，我们将模型性能与一个启发式基线和一个混合基线进行比较。启发式基线（Heuristic Baseline）通过在训练集中找到最近的视图，然后将源标签直接映射到场景SL（↑）SN（↓）SH（↓）KP（↓）ED（↓）办公室 30.93450.03550.04230.00380.0155办公室 40.91620.03830.05030.00350.0150房间 00.97070.03230.02930.00390.0209房间 10.87570.05200.04950.00380.0202Avg. （我们的）0.92430.03950.04290.00380.0179Avg. （启发式）0.85800.04240.04510.00590.0457801DecDec模型峰值信噪比（↑）NeRF29.9230SS-NeRF-SL30.2019SS-NeRF-SN29.8111SS-NeRF-SH28.1492SS-NeRF-KP29.7657SS-NeRF-ED28.8192财产不含RGB（平均值）w/ RGB（平均值）SL（↑）0.52080.04400.05510.01140.05600.92430.03950.04290.00380.0179SN（↓）SH（↓）KP（↓）RGB SN（GT）SN（我们的）SN（NeRF）执行主任（总干事）ED（我们的）ED（XTC）图4：混合MVS的代表性结果。SN（NeRF）是从NeRF深度导出的法线; ED（XTC）是从一个经过良好训练的模型预测的边缘，该模型将NeRF的法线作为输入。我们的模型优于这两种方法，表明SS-NeRF的能力和鲁棒性目标视图与透视投影。Hybrid Baseline（Hybrid）分别训练合成模型（NeRF）和对于新的测试视图，我们首先生成对应于该姿势的彩色图像，然后使用训练有素的注释器预测注释我们采用标准的Taskonomy编码-解码架构[66]用于Hybrid。我们在表1中报告了所有场景的平均结果。从表1中，我们得到以下观察结果：（1）SS-NeRF在所有五个任务上都达到了很高的性能，表明我们的模型能够很好地捕捉场景属性的原始分布：（2）SS-NeRF在所有任务上的性能都优于启发式基线，验证了我们的SS-NeRF模型生成的标签质量的准确性;(3)SS-NeRF还优于所有任务的混合基线，表明合成成对的彩色图像和其他场景属性是不平凡的，并且共享的语义和几何场景表示对于合成不同的场景属性至关重要。我们还可视化了渲染的场景属性，并与图中相应的地面实况进行了比较。3.第三章。所有图像都体现了我们的SS-NeRF在RGB之外的其他场景属性的良好新颖视图合成结果此外，我们还对真实世界的BlendedMVS数据集[62]进行了实验，以验证鲁棒性。SN和ED的两个样本如图所示。4.第一章对于SN，我们与由NeRF深度导出的法线进行了比较;对于ED，我们与更强大的混合基线 XTConsistency [ 65 ] 进行了比较，XTConsistency [65] 包含一个强大的骨干，并在Taskonomy [66]上进行了预训练，由NeRF合成图像。我们的模型在这两个任务上对具有挑战性的“榴莲”场景具有明显更好的对于简单的4.3. 消融研究使用两个解码器建模：节中3.针对不同的场景属性，提出了两个分支。对于除了SN（特殊建模）之外的每个场景属性，我们选择具有更好性能的属性。在表2中，我们展示了两种建模类型之间的定量比较表3：RGB彩色分支的消融研究。左：平均基本NeRF和SS-NeRF变体的PSNR测量。其他场景属性不会影响合成图像的视觉质量。右：有或没有RGB分支的模型之间的性能比较。 RGB监控对于理解场景和学习其他视觉特性至关重要。设置Office 3办公室40号房间房间1SH0.04230.05030.02930.0495SH + SL0.0417（+）0.0479（+）0.0295（-）0.0432（+）SH + SN0.0403（+）0.0471（+）0.0303（-）0.0445（+）SH + KP0.0427（-）0.0478（+）0.0296（-）0.0473（+）SH + ED0.0422（+）0.0483（+）0.0311（-）0.0501（-）SH +全部0.0415（+）0.0481（+）0.0318（-）0.0452（+）表4：具有用于着色的附加任务的模型性能。（+）表示性能提高，（-）表示性能下降。SL始终有利于目标SH任务几乎所有的场景，表明这两个任务之间的关系更密切。vation与intuition是一致的：阴影、关键点和边缘随不同的视图方向而变化，但语义标签保持相同。因此，视图输入对于SH、KP和ED是关键的，但对于SL是多余的这一观察结果还表明，SS-NeRF确实学习了场景的几何感知表示。RGB建模：RGB颜色是一个基本的场景属性，可以帮助学习其他属性。在这里，我们在两组实验中消除RGB 颜色的关键作用首先，我们用峰值信噪比（PSNR）测量基本NeRF模型和SS-NeRF的所有变体的合成RGB图像的平均质量。表3的左侧部分显示RGB和其他场景属性的联合训练不会影响合成图像的视觉质量。此外，包括SL甚至提高了基本NeRF的PSNR。接下来，我们为每个场景属性构建另一个SS-NeRF变体，该变体删除RGB颜色输出（w/o RGB）。所有场景的平均性能如表3的右侧所示。基于结果，我们发现RGB监督对于理解场景和学习其他视觉属性至关重要4.4. 在SS-NeRF多任务学习：我们为每个场景属性实例化 SS-NeRF，但它能够同时学习场景表示和多个视觉任务中的共享知识，以便进一步受益于单个任务。以SH为例，我们进一步在dif下构建了五个变体，对于每个场景属性。我们发现Fv更适合不同的任务设置进行多任务学习，SH、KP和ED，但不能击败F对于SL。这个观察者-研究其他任务是否可以从语义802数据设置SL（↑）SN（↓）SH（↓）KP（↓）ED（↓）GT0.58050.03940.06100.00510.0229SS-NeRF0.55750.04340.05940.00480.0268GT + SS-NeRF0.61780.03940.05520.00480.0224GT + SS-NeRF-N0.59290.03900.05310.00410.0206表5：迁移学习的模型性能。通过从其他场景属性中学习到的可共享知识，转移模型始终获得更好的性能，表明SS-NeRF的泛化能力。在SS-NeRF的框架下进行分割。我们首先介绍了要与SH联合训练的其他四个属性（表示为SH +我们在表4中示出了结果。我们有以下观察结果：（1）SL在除“房间0”外的所有场景中始终有利于目标SH任务，但差距是边际的，表明两个任务之间的关系更密切。这可能是因为语义标签隐式地包含了场景的纹理和几何信息，这使得模型能够更好地估计阴影。(2)与所有任务联合训练在四个场景中的三个场景中优于单个任务模型，表明来自其他场景属性的知识的一般益处。(3)模型性能在不同的场景中也不同，表明任务关系也可能依赖于场景结构，任务之间的关系可能不是固定的。表6：四个数据设置的比较。GT：配对地面实况数据; SS-NeRF：成对合成数据; GT+SS- NeRF：由SS-NeRF呈现的GT数据和增强数据（相同姿势）; GT+SS-NeRF-N：由SS-NeRF呈现的GT数据和增强数据（新姿势）。SS-NeRF综合了视觉上真实的和有用的数据，因此它可以用作数据增强的有效方式，以有益于其他视觉任务的学习。SS-NeRF（SS-NeRF）;（3）由我们的模型（GT+SS-NeRF）生成的地面实况和增强数据;（4）由SS-NeRF（GT+SS-NeRF-N）合成的地面实况和增强的新视图数据。对于GT+SS-NeRF数据设置，我们生成与GT具有相同姿势的配对数据;对于最后一个设置，我们从新视图（来自训练集中的附属视图的平均视图）生成数据。对于任务网络，我们采用标准的Taskonomy编码-解码架构[66]。与主实验不同的是，我们将四个场景的所有数据结合在一起进行评估。我们训练所有模型200个epoch。结果示于表6中。我们发现：（1）GT和SS-NeRF具有相当的性能，并且SS-NeRF在SH和KP上甚至优于GT，表明SS-NeRF生成的数据（2）对于所有五个场景属性，包括增强数据，即使来自迭代模型有趣的是，这些观察结果也与判别模型的观察结果一致[51，66]。知识转移：除了研究多任务学习之外，我们还通过进行迁移学习来探索学习场景表征的泛化。仍然将SH作为目标场景属性，我们首先用另一个源属性训练我们的模型，并通过初始化学习的编码网络F enc将源学习的知识转移到目标SH。与以前的实验不同，这里我们专注于典型的迁移学习设置，目标属性的数据有限（6个训练视图）结果如表5所示，其中我们可以发现，通过从其他场景属性中学习到的可共享知识，传递的模型可以始终如一地获得更好的性能，这表明SS-NeRF框架的有效推广多任务学习的数据增强：鉴于我们可以渲染照片般真实的图像及其相应的场景属性注释，一个自然的，有趣的问题出现了：我们如何利用这些成对的合成大小的数据？受[2，13]的启发，我们设计了以下实验.我们采用任务网络（即，一个标准的判别模型）来评估每个任务，我们在四个数据设置下训练这个模型：（1）地面实况（GT）;（2）通过以下步骤生成的成对RGB图像和对应的注释：同样的姿势，可以带来额外的改善。(3)当我们使用来自新视图的增强数据时，这种改进对于大多数任务进一步增加。这些结果表明，SS-NeRF可以生成视觉上逼真和有用的数据，使其有吸引力的应用，有利于学习的视觉感知任务。真实世界场景的自动标注多任务判别模型的一个重要应用是，它们在合成或学术小规模数据集上进行预训练后，作为自动标注器来注释真实世界数据我们的SS-NeRF型号也可以用作自动贴标机。请注意，与直接在真实图像上操作的判别模型不同考虑到这一差异，我们引入了一个两阶段的方案，利用SS-NeRF作为自动贴标机。使用预先训练的判别模型，我们首先生成初始的地面实况注释。这样的注释不能保证是正确的，甚至可能是有缺陷的它们在不同的视图中可能不一致。然后，我们用这些弱注释训练SS-NeRF。由于SS-NeRF可以隐式地学习语义和几何场景表示，因此它可以在优化期间纠正这些不一致作为自动标记器的这种改进让人想起去噪任务（在[69]中），其旨在通过从大多数准确标签中学习来校正较小的噪声地面实况设置Office 3办公室40号房间房间1有限的观点0.11710.09930.06850.1246SL →SHSN →SHKP →SHED→ SH0.09150.09170.08930.09200.08860.09110.08640.08640.06060.06060.06070.05850.09820.10020.10160.0965803图5：LLFF数据集真实图像的表面法线和阴影预测。我们使用预先训练的注释器来获得有噪声和缺陷的初始标签，并使用这些标签重新训练SS-NeRFSS-NeRF可以通过对场景的联合建模和理解来改进这些有缺陷的注释然而，自动标记任务更具挑战性，因为无法保证大多数注释是准确的，并且模型必须基于底层3D几何形状检测和优化正确的标签。基于这种见解，我们转向没有注释的真实世界数据集我们还使用预先训练的注释器[65]来为这个数据集生成弱注释（图2中的第2列和第4列）。（五）。由于LLFF和Taskonomy数据集之间的数据分布差距，这些注释的质量相当差;例如，对于表面法线，在物体边界中存在尖锐的断层。然后，我们用这些有缺陷的注释训练SS-NeRF，并在图中显示LLFF数据集的两个场景上的表面法线和阴影的结果。五、很明显，我们的SS-NeRF产生了更平滑的结果，包含更多的细节，并反映了更好的场景3D结构。我们认为，细化来自联合建模和场景的理解，内在的SS-NeRF框架内，显示我们的模型在场景理解的能力此外，这种自动标记和细化的一般思想原则上可以应用于其他真实世界的数据，并与其他判别模型联合工作。4.5. 局限性和未来工作我们的SS-NeRF模型有两个主要限制(1)SS-NeRF建立在原始NeRF模型之上，其是场景相关的，使得难以将所学习的知识从一个场景转移到另一个场景;（2）SS-NeRF需要准确且密集的姿势注释来学习场景表示，这可能对于所有数据集都不可访问（例如，Taskonomy [66]）。请注意，这些限制基本上来自原始NeRF模型，一些后续工作提供了有希望的解决方案[1，21，50，56，64]。类似的技术可以引入到我们的SS-NeRF框架中-努力进一步提高模型能力。我们的工作提供了第一个通用的表示场景属性合成的神经辐射场的基础上高级动机是来自NeRF的底层语义和几何场景表示促进了不同任务之间的知识共享，因此使其能够从彩色图像合成扩展到其他场景属性。研究其他格式的场景表示（如点云[58]和网格[25]）的类似策略也可能是未来研究的有前途的方向。5. 结论这项工作表明，一个全面的场景表示与隐式编码的3D几何和语义结构，由NeRF风格的架构，可以是有用的，不仅RGB图像合成任务，而且各种视觉任务。受此启发，我们提出了一个统一的框架SS-NeRF，允许在不同的任务之间共享知识和表示。这种用综合模型解决视觉感知问题的新策略为多任务学习提供了不同的视角，这通常是在判别模型的背景下解决的。我们进一步展示了一些有趣的观察和有前途的应用在这个综合框架。鸣谢：我们感谢朱军燕、帕维尔·托克马科夫和罗伯特·柯林斯的宝贵意见。这项工作得到了NSF Grant2106825，丰田研究所，NIFA奖2020-67021-32799，Jump ARCHES基金会通过医疗保健工程系统中心，伊利诺伊大学厄巴纳-香槟分校的国家超级计算应用中心（NCSA）通过NCSA研究员计划以及IBM伊利诺伊发现加速器研究所的部分支持。804引用[1] 本杰明·阿塔尔、艾略特·莱德劳、亚伦·戈卡斯兰、金昌吉To？ RF ：用于动态场景合成的飞行时间辐射场在NeurIPS，2021年。二、八[2] Zhipeng Bao，Martial Hebert，and Yu-Xiong Wang.多任务视觉学习的生成建模。在ICML，2022。一、三、七[3] Zhipeng Bao，Yu-Xiong Wang，and Martial Hebert.蝴蝶结网络：用于联合少数镜头识别和新颖视图合成的生成建模ICLR，2021年。2[4] Fabien Baradel 、 Natalia Neverova 、 Christian Wolf 、Julien Mille和Greg Mori。视频中的对象级视觉推理在ECCV，2018。3[5] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。SURF：加快了强大的功能。在ECCV，2006年。5[6] 丹尼尔·博亚，肖恩·福利，詹姆斯·海斯，和朱迪·霍夫曼。Tide：用于识别对象检测错误的通用工具箱在ECCV，2020年。3[7] ChristopherPBurgess 、 LoicMatthey 、 NicholasWatters、Rishabh Kabra、Irina Higgins、Matt Botvinick和Alexander Lerchner。MONet：无监督场景分解和表示。arXiv预印本arXiv：1901.11390，2019。2[8] 约翰·坎尼。边缘检测的计算方法PAMI，1986年。5[9] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. InfoGAN：通过信息最大化生成对抗网络进行可解释的表示学习。InNeurIPS，2016. 2[10] Xinlei Chen，Li-Jia Li，Li Fei-Fei，and Abhinav Gupta.迭代的视觉推理超越了卷积。在CVPR，2018年。3[11] 迈克尔·克劳福德。深度神经网络的多任务学习：一项调查。arXiv预印本arXiv：2009.09796，2020。3[12] 邓康乐，刘安，朱俊燕，和德瓦·拉曼南。深度监督NeRF：更少的视图和更快的免费训练在CVPR，2022年。一、二[13] Jeevan Devaranjan Amlan Kar和Sanja FidlerMeta-sim 2：场景结构的无监督学习，用于合成数据生成。在ECCV，2020年。7[14] Carl Doersch和Andrew Zisserman。多任务自监督视觉学习。InICCV，2017. 3[15] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签。在ICCV，2015年。5[16] 范锐，王恒利，蔡培德，刘明。Sne-roadseg：将表面法线信息转化为语义分割，以实现精确的自由空间检测。在ECCV，2020年。3[17] Stephan J Garbin，Marek Kowalski，Matthew Johnson，Jamie Shotton，and Julie

下载后可阅读完整内容，剩余1页未读，立即下载