没有合适的资源?快使用搜索试试~ 我知道了~
in the wild. Providing an objects’ 3D shape with 6DOFpose and corresponding appearance from a single imageis key to enabling immersive experiences in AR/VR, orin robotics to decompose a scene into relevant objects forsubsequent interaction. The underlying research problemis related to novel view synthesis or inverse graphics, andhas recently gained a lot of attraction in our community[10,12,17,21,34,39,42,43], leading to remarkable improve-ments in terms of monocular 3D reconstruction fidelity.39710AutoRF:从单视图观察中学习3D物体辐射场0Norman M¨uller 1 , 3 Andrea Simonelli 2 , 3 Lorenzo Porzi 3 Samuel Rota Bul`o 30Matthias Nießner 1 Peter Kontschieder 30慕尼黑工业大学 1 特伦托大学 2 Meta Reality Labs Zurich 303D检测器,全景优化0训练 推理0编码器 神经RF 解码器 形状编码0外观编码0单输入图像0合成新视图03D检测器,全景0图1.AutoRF的概述。我们的模型由一个编码器和一个解码器组成,编码器从物体的图像中提取出形状和外观编码,可以解码成在归一化物体空间中操作的隐式辐射场,并用于新视图合成。通过利用机器生成的3D物体检测和全景分割,可以从真实世界图像生成物体图像。在测试时,我们使用光度损失公式将物体拟合到相应的目标实例。0摘要0我们介绍了AutoRF-一种新的方法,用于学习神经3D物体表示,其中训练集中的每个物体只通过单个视图进行观察。这种设置与大多数现有的作品形成鲜明对比,这些作品利用同一物体的多个视图,在训练过程中使用显式先验,或者需要像素级完美注释。为了解决这个具有挑战性的设置,我们提出了一种学习归一化的、以物体为中心的表示,其嵌入描述和解耦了形状、外观和姿态。每个编码提供了关于感兴趣物体的可广泛推广的、紧凑的信息,可以在单次解码中生成新的目标视图,从而实现新视图合成。我们通过在测试时将形状和外观编码优化到输入图像上,进一步提高了重建质量。在一系列实验中,我们展示了我们的方法在未见过的物体上具有很好的泛化能力,甚至在不同的具有挑战性的真实世界街景数据集(如nuScenes、KITTI和MapillaryMetropolis)之间也是如此。更多结果可以在我们的项目页面https://sirwyver.github.io/AutoRF/上找到。01. 引言0在这项工作中,我们解决了从单个图像中推断出3D物体信息的挑战性问题。从单个图像中提供物体的3D形状和相应的6自由度姿态以及外观,对于实现AR/VR中的沉浸式体验,或者在机器人技术中将场景分解为相关对象以进行后续交互至关重要。这个基础的研究问题与新视图合成或逆向图形有关,并且最近在我们的社区中引起了很大的关注[10, 12, 17, 21,34, 39, 42, 43],在单目3D重建保真度方面取得了显著的改进。0该工作是在Meta Reality LabsZurich的Norman和Andrea的实习期间完成的。0许多现有的作品[10, 17, 21, 34, 42,43]在适用性方面存在局限性,特别是由于它们对数据和监督要求的限制:大多数作品需要多个视图和同一物理对象的非遮挡可见性,几乎完美的相机姿态信息,以及感兴趣的对象位于中心位置,具有高分辨率,因此是图像中最显著的内容。由于缺乏提供这些特征的真实世界数据集(除了[33]之外,最近发布的例外情况),大量的方法只在合成数据集上显示实验结果,因此在完美的数据条件下,或者需要大量的CAD模型数据集来构建形状先验。当应用于真实数据时,现有的领域差距变得明显,通常导致性能严重下降。0我们的工作探讨了从单目、单图像的真实世界数据中合成新视角的限制。我们关注街景图像,其中像汽车这样的物体在尺度上具有很大的变异性,与整个图像分辨率相比可能非常小。此外,这些物体通常是39720由于数据采集设置的原因,物体可能被遮挡或者可能因为运动模糊而受损。在训练和推断过程中,我们只考虑单视角物体场景,即不基于同一物体的多视角施加约束。对于监督,我们限制我们的方法仅从机器生成的预测中学习,利用先进的和现成的基于图像的3D物体检测[20,35]和实例/全景分割算法[11, 18,32]。这种数据设置还使我们能够在现有的自动驾驶研究数据集[2, 7,28]上对我们的结果进行基准测试。然而,缺乏人工质量控制要求我们的方法应对由单目3D物体检测器引入的机器预测的标签噪声(本身解决了一个不适定问题)和不完美的实例分割掩码。我们提出的方法遵循一个编码器/解码器架构,该架构在每个图像上训练,该图像具有机器预测的3D边界框和相应的2D全景分割掩码。编码器学习将训练样本从其实际(任意)姿态和尺度表示转换为两个规范的、以物体为中心的编码,分别表示形状和外观。解码器将物体的形状和外观编码转换为以物体空间中给定的3D点和视角方向为输入的物体中心的隐式辐射场表示,该表示提供占用和颜色信息。我们的训练过程利用分割掩码收集关于物体前景像素的信息并应对潜在的遮挡,同时利用3D边界框提供的姿态信息来强制物体中心的表示。在测试时,我们进一步优化预测的潜在代码,通过使用光度损失公式将表示紧密地适应给定的输入图像。最终,我们的架构可以学习强大的隐式先验,也可以在不同数据集之间进行泛化。我们在具有挑战性的真实世界和可控合成数据集上提供了有见地的实验评估和消融研究,定义了我们考虑的具有挑战性的训练设置的最新技术水平。总之,我们与现有工作的主要贡献和差异是:•我们引入了基于3D物体先验的新颖视角合成,仅从单视角的野外观察中学习,其中物体可能被遮挡,尺度变化很大,并且可能受到图像质量下降的影响。我们既不利用同一物体的多个视角,也不利用大型CAD模型库,也不建立在特定的预定义形状先验之上。0•我们成功利用机器生成的3D边界框和全景分割掩码,从而学习到一个可以应用于真实世界数据的隐式物体表示。大多数先前的工作在合成数据上进行了实验,或者要求感兴趣的物体是0不遮挡且是图像的主要内容(除了[13]利用[11]的掩码)。0•我们的方法高效地编码了感兴趣物体的形状和外观特性,我们能够在一次拍摄中将其解码为新视角,并在测试时进行进一步微调。这使得我们能够纠正潜在的领域转移,并在不同数据集之间进行泛化,这在以前还没有得到证明。02. 相关工作0从单个图像中进行3D重建。从单个图像中提取3D信息的任务,也被称为“逆向图形学”,近年来受到了相当大的关注。一些工作专注于重建单个图像中的形状,或者形状和外观[12, 17, 34,39],而其他工作则尝试提取每个图像中的多个物体[6, 10,21, 43]或构建整个场景的整体表示[5,42]。所有这些方法都使用可微分渲染来制定重建成本,以将预测的3D模型与2D图像进行比较,但在用于编码3D模型的具体表示方面存在差异。常见的选择包括3D网格[10, 12,17],有符号距离函数[6, 21, 27],深度[39]和隐式模型[34,42,43]。最后一种选择,即隐式模型,将是下一节的重点,也是我们在工作中采用的选择。这些方法中的大多数利用某种形状先验,无论是以隐式模型的形式学习[42,43],还是从一些模板形状的集合构建[6,21]。无论哪种方式,它们都利用大量的CAD模型库来引导它们的网络或作为唯一的训练数据形式,在转移到真实图像时会产生相当大的领域差距。同样,在训练时通常需要同一物体的多个视角,进一步证明了使用合成数据的必要性。相比之下,我们的方法可以通过一个视角训练一个物体,并完全基于真实图像。在上述提到的方法中,唯一克服这些限制的工作是Henderson等人的工作[12]和Wu等人的工作[39]。然而,这些工作利用的是高分辨率、无遮挡且通常干净的物体视角(例如,面部的良好照明的正面拍摄[39])。相比之下,我们的方法在遮挡和/或低分辨率图像上进行训练和验证。039730给定单个输入图像,我们的目标是将场景中存在的每个3D对象编码为紧凑表示,以便在以后的阶段中有效地存储对象并从不同的视图/上下文中重新合成它们。虽然这个问题在过去已经得到了解决[15,41],但我们专注于更具挑战性的情况,即在训练这样一个编码器时。与大多数方法相反,这些方法假设在训练编码器时至少可以访问同一对象实例的第二个视图,我们专注于解决更具挑战性的情况,即只能从单个视图观察到对象实例。此外,我们没有利用关于对象几何的其他先验知识(例如CAD模型、对称性等)。最后,我们使用的是未经为特定任务策划的真实世界图像进行训练。例如,我们可以利用3D对象检测数据集进行训练,其中图像包含多个可能被遮挡的对象实例,每个实例可能具有不同的尺度和分辨率。为了能够在上述不受约束的情况下训练编码器,我们利用预训练的实例或全景分割算法来识别图像中属于同一对象实例的2D像素,以及预训练的单目3D对象检测器,以获取关于对象在3D空间中的姿态的先验信息。因此,在训练和测试时,我们假设对于每个图像,都会得到一组带有关联的2D掩码的3D边界框,这些边界框表示检测到的对象实例,以及有关相机标定的信息。通过利用关于对象3D边界框的信息,我们可以将对象表示与实际对象姿态和尺度分离开来。实际上,我们获得了一个归一化的、以对象为中心的编码,它被分解为形状和外观两个组成部分。类似于条件NeRF模型,形状代码用于条件化占据网络,该网络在给定归一化对象空间中的3D点和外观代码的情况下输出密度,而外观代码用于条件化外观网络,该网络在给定归一化对象空间中的3D点和视线方向的情况下提供RGB颜色。这两个网络产生了3D对象的隐式表示。03. 方法0在给定单个输入图像的情况下,我们的目标是将场景中存在的每个3D对象编码为紧凑表示,以便在以后的阶段中有效地存储对象并从不同的视图/上下文中重新合成它们。虽然这个问题在过去已经得到了解决[15,41],但我们专注于更具挑战性的情况,即在训练这样一个编码器时。与大多数方法相反,这些方法假设在训练编码器时至少可以访问同一对象实例的第二个视图,我们专注于解决更具挑战性的情况,即只能从单个视图观察到对象实例。此外,我们没有利用关于对象几何的其他先验知识(例如CAD模型、对称性等)。最后,我们使用的是未经为特定任务策划的真实世界图像进行训练。例如,我们可以利用3D对象检测数据集进行训练,其中图像包含多个可能被遮挡的对象实例,每个实例可能具有不同的尺度和分辨率。为了能够在上述不受约束的情况下训练编码器,我们利用预训练的实例或全景分割算法来识别图像中属于同一对象实例的2D像素,以及预训练的单目3D对象检测器,以获取关于对象在3D空间中的姿态的先验信息。因此,在训练和测试时,我们假设对于每个图像,都会得到一组带有关联的2D掩码的3D边界框,这些边界框表示检测到的对象实例,以及有关相机标定的信息。通过利用关于对象3D边界框的信息,我们可以将对象表示与实际对象姿态和尺度分离开来。实际上,我们获得了一个归一化的、以对象为中心的编码,它被分解为形状和外观两个组成部分。类似于条件NeRF模型,形状代码用于条件化占据网络,该网络在给定归一化对象空间中的3D点和外观代码的情况下输出密度,而外观代码用于条件化外观网络,该网络在给定归一化对象空间中的3D点和视线方向的情况下提供RGB颜色。这两个网络产生了3D对象的隐式表示。03.1.初步0图像I。给定一个存在多个感兴趣对象的2D图像,我们运行一个3D物体检测器以及全景分割,以提取每个对象实例的3D边界框和实例掩码(见图2)。边界框和掩码用于生成检测到的对象实例的掩码2D图像I,适应固定的输入分辨率。此外,3D边界框捕捉了对象在相机中的范围、位置和旋转。V (γu|σ, ξ) := −� buau˙αt(γu, σ)ξ(γu(t), du)dt ,39740图像、3D边界框、全景掩码掩码对象、占用掩码0图2.预处理步骤:首先,我们使用预训练模型在3D中检测感兴趣的对象并分割图像。然后,我们裁剪每个对象的视图并计算它们的占用掩码(白色:前景,黑色:背景,灰色:未知)。0相机空间中的像素u∈U的RGB颜色由Iu∈R3表示,其中U表示其像素集。0规范化物体坐标空间O。每个对象实例都有一个关联的3D边界框β,该边界框在相机空间中描述了关联对象的姿态和范围。包含在3D边界框β中的3D点可以通过微分同胚映射到(居中的)单位立方体O:= � -102.3.称为规范化物体坐标空间(NOCS)的空间。事实上,每个3D边界框都可以被平移、旋转和缩放成一个单位立方体。鉴于这一事实,我们将直接使用β来表示上述微分同胚,并将点从相机空间映射到NOCS。0以对象为中心的相机γ。描绘3D场景的每个图像I都有一个关联的相机ρ。相机ρ将像素u∈U映射到相机空间中的单位速度射线,表示为ρu:R+→R3,其中ρu(t)给出射线上的3D点在时间t处。通过利用给定对象的边界框β,我们可以将每个射线ρu从相机空间映射到NOCS,得到一个以对象为中心的射线γu。具体而言,γu是重映射射线β◦ρu的单位速度重新参数化。我们将γ称为给定对象的以对象为中心的相机。0占用掩码Y。我们使用全景分割来生成与物体图像I相关联的2D占用掩码Y。占用掩码Y为每个像素u∈U提供一个类别标签Yu∈{+1,0,1}。前景像素,即属于物体实例掩码的像素,被赋予标签+1。背景像素,即不属于物体实例的像素,被赋予标签-1。无法确定是否遮挡物体的像素被赋予标签0。如果像素属于不应遮挡物体的语义类别(例如汽车,我们有天空、道路、人行道等),则被赋予背景标签。示例请参见图2。0遮挡物体的像素被赋予标签-1。无法确定是否遮挡物体的像素被赋予标签0。如果像素属于不应遮挡物体的语义类别(例如汽车,我们有天空、道路、人行道等),则被赋予背景标签。示例请参见图2。03.2.架构概述0我们在图3中提供了我们架构的概述,并在下面进行了描述。0输入(I,γ,Y)。我们的架构以检测到的物体的图像I,相应的NOCS相机γ和通过利用物体的3D边界框信息得到的占用掩码Y作为输入。关于I,γ和Y的详细信息已在第3.1节中提供。图2给出了物体图像、占用掩码和3D边界框的示例。0形状和外观编码器ΦE。我们通过神经网络ΦE将描绘给定感兴趣对象的输入图像I编码为形状编码φS和外观编码φA;即(φS,φA):=ΦE(I)。编码器包括一个CNN特征提取器,输出中间特征,这些特征被馈送到负责生成形状和外观编码的两个并行头部。编码器和后续解码器的实现细节可以在补充材料中找到。形状解码器ΨS。形状编码φS被馈送到解码器网络ΨS,该网络隐式输出一个占用网络σ;即σ:=ΨS(φS)。占用网络σ:O→R+为给定的3D点x∈O在NOCS中表示的密度输出。0外观解码器Ψ A。与形状解码器相反,外观解码器ΨA接受形状和外观代码作为输入,并隐式输出外观网络ξ,即ξ := Ψ A(φ A, φ S)。外观网络ξ:O× S 2 → R3为给定的3D点x ∈ O和单位3D球S 2上的视角d输出RGB颜色。0体积渲染器V。占据网络σ和外观网络ξ构成了表示NOCS中对象的辐射场。我们可以通过使用[26]中提出的方法渲染对象中心射线γ u来计算与u相关联的颜色。然而,由于我们只对感兴趣的对象进行建模,对象中心射线仅限于与O相交的点。这导致以下体积渲染公式:101这个公式乍一看与[26]中的公式不同,但在计算时间导数˙ αt之后,两者变得等价。αt(γu, σ) := exp�−� tauσ(γu(s))ds�.LRGB(Θ|Ω) :=1�u∈WRGB∥Iu − V (γu|σ, ξ)∥2 ,̸39750占据掩码0占据掩码0图像 图像0形状代码0相机0形状解码器0编码器 外观解码器0体积渲染器0NOCS0图3.给定一个带有相应的3D物体边界框和占据掩码的RGB图像,我们的自动编码器学习将形状和外观编码为单独的代码。这些代码使各个解码器能够为给定视图重新渲染输入图像。0其中[a u, b u]是γ u 与O相交的时间窗口,d u ∈ S 2是γ u的单位速度。此外,˙ α t表示射线γ u 在范围[a u,t]内的累积透射率的时间导数,定义如下:0体积渲染器V中的积分可以通过利用沿射线采样的点的求积法则来解决(有关详细信息,请参见[26])。03.3. 训练0为了训练我们的架构,我们依赖于两个损失项:光度损失和占据损失。我们为给定的训练示例Ω = (I, γ,Y),其中包括图像I,占据掩码Y,对象中心相机γ。此外,我们假设从I使用编码器Φ E 和解码器Ψ S 和Ψ A计算出对象的辐射场(σ,ξ)。最后,我们用Θ表示涉及架构的所有可学习参数。0光度损失LRGB。光度损失项类似于自动编码器损失,因为它强制模型将输入编码为形状和外观代码,使用Φ E 进行解码,使用ΨS 和Ψ A进行解码,最后使用体积渲染器V进行渲染。损失的形式定义如下:0|W RGB|0其中W � U仅包含前景像素;即Y u = +1,其对象中心射线γu 与O相交。0占据损失LOCC。我们使用全景分割来推断像素是前景、背景还是未知像素。这些信息被编码在占据掩码Y中,该掩码用于直接监督体积渲染方程V的累积透射率分量α。实际上,α(γ u , σ):= α b u (γ u , σ)表示对象不与射线γ u相交的概率,或者在0其他术语中,u可能是一个背景像素。类似地,1-α(γu,σ)是u作为前景像素的概率。因此,我们可以直接在累积透射率上实现分类损失,如下所示:0L OCC (Θ | Ω) := -0�0u ∈W OCC log � Y u 02 - α(γ u, σ)) + 102 �0|W OCC |。0其中W OCC � U仅包含前景或背景像素,即Y u ≠ 0,射线γu 与O相交。0最终损失L。我们用上述两个损失的线性组合作为训练网络的最终损失:0L (Θ | Ω) = L RGB (Θ | Ω) + λL OCC (Θ | Ω),0其中占用损失与超参数λ ≥ 0调制。03.4. 测试时间优化0我们的方法在测试时通过存在的特定编码器Φ E对对象进行正向编码。然而,我们可以进一步优化回归的代码甚至对象的先验姿态,使输出更加稳健,例如适应对象外观的领域转移或预测的3D边界框中的错误。为此,我们在测试时间保持优化我们的损失L,但将对象的形状/外观代码(φS, φA)和3D边界框β视为要优化的变量。由于优化需要一个良好的初始估计才能收敛到一个良好的解决方案,我们使用3D物体检测器的初始3D边界框预测和我们的编码器Φ E提供的对象编码来初始化这些变量。我们的公式还允许通过保持其他变量固定来优化这些变量的子集(例如,通过优化φA 来仅微调外观,同时保持φ S和β固定)。值得一提的是,在单目设置中,优化边界框β是不明确的,因为存在尺度-深度模糊。实际上,我们将边界框的尺寸分量固定为由3D物体检测回归的尺寸,仅优化边界框的姿态,即旋转和平移。39760图4. 在仅在nuScenes测试数据上训练我们的模型后,从单个未见过的图像中对nuScenes(顶部)、KITTI(中部)和MapillaryMetropolis(底部)进行完整场景新视图合成。请注意,我们获得了不同尺度、长宽比和图像质量的对象的高保真重建结果。04. 实验0我们在nuScenes数据集[2]上定量评估我们的方法,用于从单个视角进行新视图合成的任务,并在[36]中介绍的SRN-Cars合成汽车数据集上进行评估。最后,我们还评估了我们在nuScenes数据上训练的模型在来自KITTI [8]和MapillaryMetropolis2数据集的图像上的表现。在图4中,我们提供了nuScenes验证集(顶部)、KITTI验证集(中部)和MapillaryMetropolis验证集(底部)的重建结果以及合成的新视图。请注意,模型在训练过程中从未见过任何来自KITTI或Metropolis的数据。0基准。我们在一视角、2D监督重建任务上与PixelNeRF[41]进行定量和定性比较。对于nuScenes的实验,我们扩展了他们的方法,只支持在前景和背景像素上进行训练,并将相机系统转换为规范化的物体空间,以利用3D物体注释。由于pixelNeRF是在多视角设置下训练的,我们在训练时提供了额外的视角,利用提供的跟踪注释。相比之下,我们只使用同一实例的单个观察来训练我们的模型。0指标。我们报告所有评估的标准图像质量指标PSNR(峰值信噪比)和SSIM(结构相似性指数)[38]。此外,我们还包括LPIPS [44]和FID [14]分数,以更准确地反映人类感知。0实现细节。与PixelNeRF [41]类似,我们的02 https://www.mapillary.com/dataset/metropolis0图像编码使用在ImageNet上预训练的ResNet34主干,而每个解码器由五个全连接的残差块组成。关于我们架构的详细描述,请参阅补充材料。04.1. 在nuScenes上的评估0nuScenes数据集是一个大规模的驾驶数据集,包含7个物体类别的3D检测和跟踪注释。它包含700个训练序列、150个验证序列和150个测试序列,共有168,000张训练图像、36,000张验证图像和36,000张测试图像。由于该数据集通常用于自动驾驶研究中的感知任务,我们对数据进行预处理,使其适用于新视角合成任务:我们筛选白天的序列(作为元信息提供),并运行一个预训练的2D全景分割模型[32],因为nuScenes不提供2D分割掩码。我们将提供的3D边界框注释与结果实例掩码匹配,并将全景结果分为前景(对象的可见部分)、背景(非遮挡的语义类别,如街道、天空、人行道)和未知区域(潜在遮挡的类别,如人、车辆或植被),因为我们不依赖深度信息来解决遮挡问题。此外,我们筛选出足够可见的实例,并使用跟踪信息进行评估。对于训练,我们随机选择每个实例的一个视角进行训练(基线模型选择两个视角),并在验证集的10,000对车辆实例视角中进行评估。有关数据生成过程的详细信息,请参阅补充材料。0204060801001201401601800.180.2.23.250.280.3� ���� �� �� � � � �� �� � �0204060801001201401601801617892021� ���� �� �� � � � �� �� � �39770输入视角 PixelNeRF AutoRF (无优化) AutoRF 目标视角0图5. nuScenes上的定性比较:单个实例的新视角合成。0单视角合成结果。我们在表1中将我们的性能与最先进的基线模型pixelNeRF和CodeNeRF进行比较。即使没有任何多视角信息,我们的模型能够合成比使用多视角信息训练的基线模型更高质量的结果。测试时优化使模型能够恢复实例特定的细节,同时保持形状和整体外观。在图5中,我们定性地展示了我们的模型产生的整体更清晰、形状更自然的结果,而pixelNeRF则难以合成与输入视角显著不同的视角。我们通过在图6中绘制PSNR和LPIPS值与输入视角和目标视角之间的旋转差异来量化这一观察结果:虽然在接近输入视角的视角上,模型的性能相似,但pixelNeRF在透视变化增加时性能显著下降,直到最大旋转误差,此时模型可以利用与输入视角的相似性(例如,从左侧和右侧看到的汽车)。0nuScenes车辆 PSNR ↑ SSIM ↑ LPIPS ↓ FID ↓0pixelNeRF [41] 18.25 0.459 0.236 160.60 CodeNeRF [15] 18.440.462 0.241 146.320测试集上的AutoRF (无优化) 18.69 0.479 0.227 138.23测试集上的AutoRF 18.94 0.491 0.223 145.100表1. nuScenes车辆上的新视角合成结果概览(来自验证集)。04.1.1 形状重建质量0我们还通过将生成的深度渲染与地面真实(GT)物体LiDAR点进行比较,来评估我们方法的形状重建质量在nuScenes验证集上。我们根据0新视角旋转差值 [°]0LPIPS ↓0新视角旋转差值 [°]0PSNR ↑0图6.新视角评估:图像保真度的度量值与输入视角和目标视角之间的旋转差值绘制的关系图。0根据定向的GT3D边界框注释,删除边界框下10%的点(排除属于街道的LiDAR点),最后在剩余至少20个点的样本上进行评估。表2显示,与使用GT注释和每个实例多个视角训练的pixelNeRF基线相比,我们的模型在L1和RMSE指标方面产生了更精确的表面(补充文档中还有其他定性重建结果)。0nuScenes汽车 L1 ↓ RMSE ↓0pixelNeRF [41] 0.357 0.984CodeNeRF [15] 0.239 0.6410AutoRF(无优化) 0.209 0.632AutoRF 0.204 0.6140表2.在单视角训练的SRN-chairs上的定性比较。0平均扰动 PSNR ↑ LPIPS ↓00°/ 0cm 18.95 0.210 5°/ 10cm18.67 0.216 10°/ 20cm 17.950.269 20°/ 40cm 16.83 0.3480表3.在nuScenes上使用扰动注释训练的AutoRF的新视角综合。04.2. 对合成数据的评估0我们在[36]引入的SRN数据集上对我们的方法进行了与基线的评估。SRN-Cars数据集包含3514个汽车渲染样本(基于3DWarehouse的形状),在对象实例之间有预定义的划分。虽然每个模型从每个对象实例的50个随机视角进行渲染,但我们选择一个随机帧来训练我们的方法和CodeNeRF(对于pixelNeRF基线选择两个随机帧)。对于测试集中的每个对象,我们从基于单个随机选择的视角的Archimedean螺旋上采样的251个视角中评估新视角综合。有关其他类别的评估,请参阅补充材料。0单视角综合结果。我们将我们的方法与在额外视角上训练的pixelNeRF和CodeNeRF在表4中进行了比较。我们注意到我们的模型在所有指标上优于基线,同时不需要训练时的多视角约束。此外,我们在图7中提供了定性结果,展示了我们方法的高保真度重建结果,以及我们如何保留细节,如不同颜色的车顶。39780SRN-Cars PSNR ↑ SSIM ↑ LPIPS ↓ FID ↓0pixelNeRF [41] 19.55 0.847 0.177 142.9 CodeNeRF [15]18.93 0.844 0.172 127.10AutoRF(无优化) 18.08 0.833 0.180 121.6 AutoRF 19.660.860 0.165 122.40表4. 在[36]的SRN-Cars数据集上进行新视角综合的评估。0图7.在SRN-Cars数据集上的定性比较,展示了我们的高保真度单视角重建结果与2视角pixelNeRF基线的对比。04.3. 消融实验0数据质量。在第3表中,我们报告了AutoRF使用地面真实注释的随机扰动训练的新视角综合结果,以平均不同旋转和平移误差为指标。我们注意到较小的不准确性影响较小。此外,我们研究了在nuScenes训练集上使用人工注释数据训练AutoRF,并将结果与完全基于机器注释的单视角数据训练的模型进行评估。结果总结在第5表中,显示利用高质量注释并不能显著改善新视角综合结果。虽然PSNR和SSIM非常相似,但主要改进在感知损失(LPIPS和FID)方面。定性分析显示,使用地面真实注释训练的模型稍微模糊,我们将其归因于不准确的姿态注释导致NOC空间中的光线采样不精确。0领域转移。虽然仅在nuScenes街道级别数据集上进行训练,但我们在图4中展示了定性结果,证明了学习到的物体辐射场先验在新数据集上具有很好的泛化性。nuScenes、KITTI和MapillaryMetropolis上的示例表明,AutoRF(无优化)可以可靠地分配匹配的物体先验,并且测试时的优化始终保留细粒度的细节。0nuScenes汽车PSNR↑ SSIM↑ LPIPS↓ FID↓0AutoRF(无优化)在测试集上的结果为18.69,0.479,0.227,138.23,在训练集上的结果为18.58,0.473,0.211,84.140AutoRF在测试集上的结果为18.94,0.491,0.223,145.10,在训练集上的结果为18.95,0.493,0.210,106.500表5. 在nuScenes验证集上的新视图评估。0图8.nuScenes上的场景编辑示例。从输入视图开始,我们可以改变物体的代码并合成新的场景布局。0详细信息也在新视图中。0场景编辑。我们的方法自然地将一个物体分解为姿态、形状和外观。这直接实现了3D场景编辑,可以在输入视图中渲染具有新的姿态、形状和/或外观的物体,从而有效地创建一个新的场景。我们在图8中提供了场景编辑能力的示例,并在补充文档中提供了更多演示。05. 结论0在这项工作中,我们提出了一种学习神经三维物体表示的新方法,与大多数现有的工作相比,我们的方法在训练过程中仅利用了物体实例的单个视图,而没有利用其他三维物体形状先验,如CAD模型或精心策划的数据集。为了解决这个具有挑战性的训练环境,我们的方法利用机器生成的标签,即三维物体检测和全景分割,学习一个归一化的物体中心表示,它是姿态无关的,并分解为形状和外观两个组成部分。这两个组成部分被解码为物体的隐式辐射场表示,然后可以渲染为新的目标视图。我们展示了我们的方法在未见过的物体上具有很好的泛化能力,甚至在不同的真实世界街景数据集之间也是如此。0社会影响和局限性。我们的工作有助于进一步研究利用现实世界的大规模数据来构建未来AR/VR应用所需的表示。至于局限性,我们的工作需要大量的计算工作来生成新视图的渲染,类似于神经表示学习的相关工作。此外,我们将研究AutoRF在更复杂的物体类别中的适用性。39790参考文献0[1] Piotr Bojanowski, Armand Joulin, David Lopez-Paz, andArthur Szlam. Optimizing the latent space of generativenetworks. In ICML, 2018. 30[2] Holger Caesar, Varun Bankiti, Alex H Lang, Sourabh Vora,Venice Erin Liong, Qiang Xu, Anush Krishnan, Yu Pan,Giancarlo Baldan, and Oscar Beijbom. nuscenes: Amultimodal dataset for autonomous driving. In Proceedingsof the IEEE/CVF conference on computer vision and patternrecognition, pages 11621–11631, 2020. 2, 60[3] Wenzheng Chen, Huan Ling, Jun Gao, Edward Smith,Jaakko Lehtinen, Alec Jacobson, and Sanja Fidler. Learningto predict 3d objects with an interpolation-baseddifferentiable renderer. Advances in Neural InformationProcessing Systems, 32:9609–9619, 2019. 20[4] Julian Chibane and Gerard Pons-Moll. Implicit featurenetworks for texture completion from partial 3d data. InEuropean Conference on Computer Vision, pages 717–725.Springer, 2020. 30[5] Manuel Dahnert, Ji Hou, Matthias Nießner, and AngelaDai. Panoptic 3d scene reconstruction from a single rgbimage. In Thirty-Fifth Conference on Neural InformationProcessing Systems, 2021. 20[6] Francis Engelmann, J¨org St¨uckler, and Bastian Leibe.SAMP: shape and motion priors for 4d vehiclereconstruction. In IEEE Winter Conference on Applications ofComputer Vision, WACV, 2017. 20[7] Andreas Geiger, Philip Lenz, Christoph Stiller, and RaquelUrtasun. Vision meets robotics: The kitti dataset. TheInternational Journal of Robotics Research,32(11):1231–1237, 2013. 20[8] Andreas Geiger,Philip Lenz和RaquelUrtasun。我们准备好自动驾驶了吗?kitti视觉基准套件。在计算机视觉和模式识别(CVPR)会议上,2012年。60[9] Kyle Genova,Forrester Cole,Avneesh Sud,AaronSarna和ThomasFunkhouser。用于3D形状的局部深度隐式函数。在IEEE计算机视觉和模式识别会议上,第4857-4866页,2020年。30[10] Georgia Gkioxari,Jitendra Malik和Justin Johnson。MeshR-CNN。在IEEE /CVF国际计算机视觉会议上,第9785-9795页,2019年。1, 20[11] Kaiming He,Georgia Gkioxari,Piotr Dollar和Ross Gir-shick。MaskR-CNN。在IEEE国际计算机视觉会议(ICCV)上,2017年10月。20[12] Paul Henderson,Vagia Tsiminaki和Christoph H. Lam-pert。利用2D数据学习纹理3D网格生成。在IEEE /CVF计算机视觉和模式识别(CVPR)会议上,2020年6月。1, 20[13] Philipp Henzler,Jeremy Reizenstein,PatrickLabatut,Ro- man Shapovalov,Tobias Ritschel,AndreaVedaldi和DavidNovotny。从野外视频中无监督学习3D对象类别。在IEEE /CVF计算机视觉和模式识别(CVPR)会议上,第4700-4709页,2021年6月。2, 30[14] Mart
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功