束调整神经辐射场：从不完美相机姿态学习3D场景表示和注册

98 浏览量更新于2023-10-14 收藏 25.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

BARFChen-Hsuan Lin1Wei-Chiu Ma2Antonio Torralba2Simon Lucey1,3https://chenhsuanlin.bitbucket.io/bundle-adjusting-NeRFNeRF˝˝˝157410:束调整神经辐射场01卡内基梅隆大学2麻省理工学院3阿德莱德大学0摘要0神经辐射场（NeRF）[31]最近在计算机视觉界引起了广泛关注，因为它能够合成真实场景的逼真新视图。然而，NeRF的一个限制是需要准确的相机姿态来学习场景表示。在本文中，我们提出了用于从不完美（甚至未知）相机姿态训练NeRF的束调整神经辐射场（BARF）-学习神经3D表示和注册相机帧的联合问题。我们建立了与经典图像对齐的理论联系，并展示了粗到细的注册也适用于NeRF。此外，我们还表明，在具有合成目标的情况下，天真地应用位置编码对注册产生负面影响。对合成和真实数据的实验证明，BARF可以有效地优化神经场景表示，并同时解决大相机姿态不匹配的问题。这使得可以从未知相机姿态中合成视图和定位视频序列，为视觉定位系统（例如SLAM）和密集3D建图和重建的潜在应用开辟了新的途径。01. 引言0人类通过我们的视觉对3D几何进行推理具有很强的能力。当观看电影时，我们可以立即推断出视频中物体和场景的3D空间结构。这是因为我们具有将同一场景的空间对应关系与连续观察中的场景关联起来的固有能力，而不必理解相对相机或自我运动的意义。通过纯视觉感知，我们不仅可以恢复我们所看到的物体的3D心理表示，同时我们还可以识别我们从何处观察场景。从RGB图像中同时解决3D场景表示（即重建）和定位给定相机帧（即注册）是计算机视觉中一个长期存在的鸡生蛋问题。0图像+准确的相机姿态03D场景表示0BARF（我们的）0图像+不完美相机姿态03D场景表示0+注册的相机姿态0图1：训练NeRF需要所有图像的准确相机姿态。我们提出了BARF，通过联合优化注册和重建，从不完美（甚至未知）相机姿态中学习3D场景表示。03D结构需要具有已知相机姿态的观测，而定位相机需要可靠的重建对应关系。传统的方法，如运动结构（S f M）[17,44]或SLAM[13,32]通过局部注册后跟全局几何束调整（BA）来解决这个问题，同时对结构和相机进行调整。然而，S fM和SLAM系统对局部注册的质量敏感，并容易陷入次优解。此外，输出的稀疏3D点云（通常带有噪声）的性质限制了需要密集几何推理的下游视觉任务。与从图像中重建3D结构相关的是视图合成问题。虽然视图合成的主要目的不是恢复显式的3D结构，但最近在逼真视图合成方面的进展选择恢复中间的密集3D感知表示（例如深度[15,61]，多平面图像[71, 51, 55]或体密度[27,31]），然后使用神经渲染技术[14, 29, 47, 54]进行渲染。257420合成目标图像。特别是神经辐射场（NeRF）[31]已经展示了其对高保真视图合成的显著能力。NeRF使用神经网络将3D点位置映射到颜色和体积密度来编码3D场景。这使得场景可以用紧凑的内存占用表示，而不限制合成图像的分辨率。网络的优化过程受到经典体积渲染原理的约束[23]，使得学习到的表示可以解释为连续的3D体积密度函数。尽管NeRF（以及其他视图合成方法）的一个硬性先决条件是准确的给定图像的相机姿态，通常通过辅助的现成算法获得。规避这个限制的一个直接方法是通过反向传播使用NeRF模型来优化姿态参数。然而，正如后面的论文中讨论的那样，使用NeRF进行简单的姿态优化对初始化非常敏感。它可能导致3D场景表示的次优解，降低视图合成的质量。在本文中，我们解决了从不完美的相机姿态训练NeRF表示的问题 -重建3D场景和注册相机姿态的联合问题（图1）。我们从经典图像对齐方法的成功中获得灵感，并建立了一个理论联系，表明从粗到细的注册对NeRF也至关重要。具体而言，我们表明输入3D点的位置编码[57]起着至关重要的作用 -它不仅使拟合高频函数[53]成为可能，而且对次优的注册结果更加敏感。为此，我们提出了Bundle-AdjustingNeRF（BARF），一种基于坐标场景表示的粗到细注册的简单而有效的策略。BARF可以被看作是一种使用视图合成作为代理目标的光度BA [8, 2,26]。然而，与传统的BA不同，BARF可以从零开始学习场景表示（即从随机初始化的网络权重开始），摆脱了局部注册子过程的依赖，从而实现更通用的应用。总之，我们提出了以下贡献：0•我们在经典图像对齐与神经辐射场（NeRF）的联合注册和重建之间建立了理论联系。0•我们展示了位置编码对注册的吸引盆地产生的噪声的敏感性，并提出了一种基于坐标场景表示的粗到细注册的简单策略。0•我们提出的BARF可以成功地从不完美的相机姿态中恢复场景表示，从而实现从未知姿态的视频序列的视图合成和定位等应用。02.相关工作0结构运动（S f M）和SLAM。给定一组输入图像，S f M[37, 38, 48, 49, 1, 62]和SLAM [33, 13, 32,64]系统旨在同时恢复3D结构和传感器姿态。这些可以分为（a）间接方法，依赖于关键点检测和匹配[6,32]，和（b）直接方法，利用光度一致性[2,12]。沿着间接路线的现代流水线取得了巨大的成功[44]；然而，在无纹理区域和重复模式中，它们往往遇到困难，无法可靠地检测到独特的关键点。因此，研究人员一直试图使用神经网络直接从数据中学习有区别的特征[10, 35,11]。另一方面，直接方法不依赖于这种有区别的关键点 -每个像素都可以贡献于最大化光度一致性，从而在稀疏纹理环境中提高鲁棒性[59]。它们还可以通过图像重建损失自然地集成到深度学习框架中[70, 58,66]。我们的方法BARF属于直接方法的广泛范畴，因为BARF从RGB图像中学习3D场景表示，同时定位相应的相机。然而，与经典的S fM和SLAM使用显式几何（例如点云）表示3D结构不同，BARF使用神经网络将场景编码为基于坐标的表示。0视图合成。给定一组姿态图像，视图合成试图模拟从新视点观察场景的效果。这个任务与3D重建密切相关[5, 24, 52,19]。研究人员已经研究了基于深度图的像素颜色混合[4]或利用代理几何来扭曲和合成合成图像[22]。然而，由于这个问题本质上是不适定的，对合成视点仍然存在多重限制和假设。最先进的方法利用神经网络从数据中学习场景几何和统计先验。在这个方向上已经探索了各种表示方法，例如深度[15, 61, 42, 43]，分层深度[56, 46]，多平面图像[71, 51,55]，体密度[27,31]和网格片[20]。不幸的是，这些视图合成方法仍然需要事先知道相机姿态，这在实践中大大限制了它们的应用。相比之下，我们的方法BARF能够有效地学习编码来自不完美甚至未知相机姿态的底层场景几何的3D表示。0神经辐射场（NeRF）。最近，Mildenhall等人提出了NeRF，用于从一组姿态输入图像合成静态复杂场景的新视图。关键思想是使用多层感知机（MLP）对场景的连续辐射场进行建模，然后通过可微体积渲染来合成图像并通过光度误差进行反向传播。NeRF已经引起了广泛的关注。minp�357430由于其简单性和非凡性能，基于深度学习的视图合成已经在视觉社区中得到广泛应用。它也在许多方面得到了扩展，例如用于光线追踪的反射建模[3,50]和整合世界运动的动态场景建模[25, 63,39]。最近的研究还试图利用大量数据对MLP进行预训练，从而能够从单个图像中推断辐射场[16, 67, 41,45]。尽管以上基于NeRF的模型取得了令人印象深刻的结果，但它们有一个共同的缺点——需要姿态图像。我们提出的BARF方法可以绕过这种要求。我们展示了通过简单的粗到精的捆绑调整技术，我们可以从不完美的相机姿态（包括视频序列的未知姿态）中恢复并同时学习NeRF表示。与我们的工作同时进行，NeRF--[60]引入了一种经验的两阶段流程来估计未知的相机姿态。相比之下，我们的方法BARF受到数学洞察力的启发，并且可以在单次优化过程中恢复相机姿态，从而为各种NeRF应用和扩展提供直接的实用性。03. 方法0我们通过以经典图像对齐的简单2D情况作为示例来阐述这篇论文的动机。然后我们讨论了相同的概念如何适用于3D情况，为我们提出的BARF方法提供了灵感。03.1. 平面图像对齐（2D）0令 x ∈ R2 为2D像素坐标，I: R2 → R30将成像函数定义为 I。图像对齐旨在找到最小化两个图像 I1和 I2之间光度误差的相对几何变换。该问题可以用基于合成的目标来表述：0x ∥I1(W(x; p)) - I2(x)∥22, (1)0其中 W: R2 → R2 是由 p ∈ RP（其中 P是维度）参数化的变形函数。由于这是一个非线性问题，梯度优化是首选的方法：给定当前的变形状态p，通过迭代地求解并更新变形更新∆p，将其更新到解决方案中，即 p ← p +∆p。在这里，∆p可以用一般形式表示。0∆p = -A(x;p)�0xJ(x;p)��I1(W(x;p))−I2(x)�, (2)0其中J ∈R3×P被称为最陡下降图像，A是一个通用的变换，它取决于优化算法的选择。开创性的Lucas-Kanade算法[28]使用高斯-牛顿优化来解决这个问题，即A(x;p) = (�0xJ(x;p)�J(x;p))−1；或者，也可以选择诸如（随机）梯度下降等一阶优化器0�! �0�" �0�! �0�" �0（a）平滑信号0（b）复杂信号0图2：从信号差异预测对齐。考虑两个1D信号，其中f1(x) =f2(x +c)通过偏移c不同。在解决对齐问题时，平滑的信号可以预测出比复杂信号更连贯的位移，后者很容易导致次优对齐。0作为（随机）梯度下降，更容易自然地融入现代深度学习框架中，其中A对应于标量学习率。最陡下降图像J可以展开为0J(x;p) = ∂I1(0∂W(x;p) ∂W(x;p0∂p, (3)0∂p ∈ R2×P是约束像素位移的warp雅可比矩阵。基于梯度的注册的核心是图像梯度∂I(x)0∂x ∈ R3×2建模外观和空间位移之间的局部像素线性关系，经典上是通过有限差分估计得到的。如果像素级预测是连贯的（图2），即图像信号是平滑的，那么可以更有效地从像素值差异中估计出整体的warp更新∆p。然而，由于自然图像通常是复杂的信号，基于原始图像的梯度注册容易受到不良初始化的影响而导致次优解。因此，通过在注册的早期阶段对图像进行模糊处理，即通过扩大吸引盆地并平滑对齐景观，来实践粗到细的策略。0图像作为神经网络。问题的另一种表述是学习一个基于坐标的图像表示，同时解决warp p。将网络写为f: R2 →R3，并将Θ表示为其参数，可以选择优化目标0minp, Θ0�0x0� ∥ f(x;Θ) - I1(x) ∥220+ ∥ f(W(x;p);Θ) - I2(x) ∥22 �, (4)0或者，也可以选择解决warp参数ˆI(u) =zfar�� i��457440分别为图像 I1 和 I2 的 p1 和 p20min p1,p2, Θ0M 0i=10x ∥ f(W(x;pi);Θ) - Ii(x) ∥22, (5)0其中 M = 2 是图像的数量。虽然与（1）类似，但图像梯度变成了网络的解析雅可比矩阵∂f(x)0∂x而不是数值估计。通过操作网络f，这还可以更有原则地控制对齐的信号平滑性，而无需依赖启发式的图像模糊处理，使这些形式能够推广到3D场景表示（第3.2节）。03.2. 神经辐射场（3D）0我们讨论从神经辐射场（NeRF）[31]中恢复3D场景表示的3D情况，同时与相机姿态一起。为了表示与第3.1节的类比，我们故意重载符号x作为3D点，W作为相机姿态变换，f作为NeRF中的网络。NeRF使用MLP f: R3 →R4将3D场景编码为连续的3D表示，以预测每个输入3D点x∈ R3的RGB颜色c ∈ R3和体积密度σ ∈ R。这可以总结为y= [c; σ]� = f(x;Θ)，其中Θ是网络参数1。NeRF假设仅发射模型，即像素的渲染颜色仅取决于沿视线的3D点的发射辐射，而不考虑外部光照因素。我们首先在相机视图空间中制定NeRF的渲染操作。给定像素坐标u ∈ R2，并将其齐次坐标表示为¯u = [u; 1]�∈R3，我们可以通过体积渲染来表达沿视线的深度zi处的3D点xi = zi¯u。通过体积渲染提取像素位置u处的RGB颜色ˆI0z near T(u, z)σ(z�u)c(z�u)d z, (6)0其中T(u, z) = exp(−∫z z near σ(z�u)d z′)，z near和zfar是感兴趣的深度范围的边界。我们将读者引用到Levoy[23]和Mildenhall等人[31]对体渲染的更详细处理。在实践中，上述积分形式通过在沿射线采样的深度{z1,...,zN}上进行数值近似来进行。这涉及到对网络f进行N次评估，其输出{y1,...,yN}通过体渲染进一步组合。我们可以将射线合成函数总结为g：R4N→R3，并将ˆI(u)重写为ˆI(u) =g(y1,...,yN)。注意，g是可微分但确定性的，即没有与之相关的可学习参数。在由p∈R6参数化的6自由度相机姿态下，相机视图空间中的3D点x可以通过3D刚体变换W：R3→R3转换为0在实践中，f还受到视角方向[31]的条件约束，以建模视角相关效果，这里我们简化了描述。0相机姿态p的3D世界坐标。因此，像素u处的合成RGB值成为相机姿态p的函数0ˆI(u; p) = g � f(W(z1�u; p); Θ),...,f(W(zN�u; p); Θ) �. (7)0给定M个图像{Ii}Mi=1，我们的目标是优化NeRF和相机姿态{pi}Mi=1的合成目标0minp1,...,pM,Θ0M个0i = 10个0u0||ˆI(u; pi, Θ) - Ii(u)||22, (8)0其中ˆI也取决于网络参数Θ。我们可以注意到2D图像对齐(5)和NeRF(8)的合成目标之间的类比。类似地，我们还可以推导出“最陡下降图像”0J(u; p) =0N个0i = 10∂g(y1,...,yN)0∂yi0∂yi(p) ∂xi(p)∂W(zi�u; p)0∂p, (9)0在实践中，线性化(9)也类似于2D情况(3)的情况，其中网络的雅可比矩阵∂y0∂x线性地关联颜色c和体密度σ与3D空间位移。为了通过反向传播求解有效的相机姿态更新∆p，还希望控制f的平滑性，以便从采样的3D点{x1,...,xN}预测一致的几何位移。03.3.关于位置编码和配准0使NeRF能够合成高保真度视图的关键是位置编码[57]，它是将输入的3D坐标x确定映射到不同正弦频率基的更高维度。我们将L个频率基的位置编码表示为γ：R3→R3+6L，定义为0γ(x) = �x, γ0(x), γ1(x),...,γL-1(x)�∈R3+6L, (10)0其中第k个频率编码γk(x)为0γk(x) = �cos(2kπx), sin(2kπx)�∈R6, (11)0通过逐坐标操作正弦函数。当 L = 0时，γ成为一个恒等映射函数。因此，网络f是f(x) = f' ◦γ(x)的组合，其中f'是后续可学习的MLP。位置编码允许基于坐标的神经网络表示更高频率的信号，并具有更快的收敛行为[53]。第k个位置编码γk的雅可比矩阵为0∂0∂x=2kπ∙�−sin(2kπx),cos(2kπx)�,(12)0尽管我们这里专注于3D输入坐标，但位置编码也可以直接应用于2D图像坐标（见第3.1节）。��(14)�557450这会使得MLPf'的梯度信号通过2kπ放大，并且其方向在相同频率下改变。这使得预测有效更新∆p变得困难，因为来自采样的3D点的梯度信号在方向和大小上是不一致的，容易相互抵消。因此，天真地应用位置编码对于NeRF的联合注册和重建任务来说可能是一把双刃剑。03.4.束调整神经辐射场0我们描述了我们提出的BARF，这是一种简单而有效的NeRF粗到细注册策略。关键思想是在优化过程中对不同频率带上的编码应用平滑掩码，这起到了动态低通滤波器的作用。受到最近学习粗到细变形流场的工作的启发[36]，我们将γ的第k个频率分量加权为0γ_k(x;α)=w_k(α)∙�cos(2kπx),sin(2kπx)�,(13)0其中权重w_k定义为0w_k(α)=0如果α

下载后可阅读完整内容，剩余1页未读，立即下载