自校准神经辐射场：一种通用的摄像机自校准算法，学习场景的几何形状和准确的相机参数，适用于任意非线性失真

131 浏览量更新于2023-10-14 收藏 1.73MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1自校准神经辐射场Yoonwoo Jeong1Seokjun Ahn1Christopher Choy2Animashree Anandkumar2，3Minsu Cho1JaesikPark1POSTECH1NVIDIA2Caltech3(a) 校准外部相机参数(b) 校准内部摄像机参数(c) 校准非线性失真参数图1.我们使用我们的方法可视化三个不同的相机参数的校准过程。我们的方法校准外部相机参数（a），内部相机参数（b），非线性相机模型噪声（c）。摘要在这项工作中，我们提出了一个摄像机自校准算法的通用摄像机与任意非线性失真。我们共同学习场景的几何形状和准确的相机参数，而无需任何校准对象。我们的相机模型由针孔模型，第四阶径向失真，和一个通用的噪声模型，可以学习任意的非线性相机失真。虽然传统的自校准算法主要依赖于几何约束，我们还将光度一致性。这需要学习场景的几何形状，我们使用神经辐射场（NeRF）。我们还提出了一个新的几何损失函数，即，投影射线距离损失，以结合复杂非线性相机模型的几何一致性。我们在标准真实图像数据集上验证了我们的方法，并证明我们的模型可以在没有COLMAP初始化的情况下从头开始学习相机的内在和外在此外，我们表明，以不同的方式学习准确的相机模型，使我们能够提高PSNR超过基线。我们的模块是一个易于使用的插件，可以应用于NeRF变体以提高性能。代码和数据目前可在https://github.com/POSTECH- CVLab/SCNeRF1. 介绍摄像机标定是计算机视觉中的关键步骤之一。通过此过程，我们了解入射光线如何映射到像素，从而将图像连接到物理世界因此，它是许多应用（诸如自动驾驶、机器人、增强现实等）中的基本步骤。照相机校准通常通过将校准对象（例如，棋盘图案），并使用校准对象的已知几何形状来估计相机参数。然而，在许多情况下，校准对象不容易获得，并且当相机部署在野外时可能干扰感知任务因此，无外物标定，即自标定，一直是一个重要的研究课题;首先在Faugeras等人中提出[4]。这篇论文引发了许多后续研究，其中一些提出了全局优化或将约束嵌入自校准优化过程[14，24，1，2]。尽管在开发自校准算法方面已经取得了很大进展，但是所有这些方法都具有局限性：1）在自校准中使用的相机模型是简单的线性针孔相机模型。该相机模型设计不能结合在所有商品相机中普遍存在的通用非线性相机噪声，从而导致较不准确的相机校准。2)自校准算法仅使用稀疏的图像对应集合，并且直接的光度一致性尚未用于自校准。3)它们使用来自不可微处理的对应关系，并且不改进对象的3D几何形状，这可以改进照相机模型。让我们详细讨论每个限制首先，可以用公式表示线性针孔相机模型58465847∈作为Kx，其中KR3×3，x是齐次三维坐标。该线性模型可以简化相机模型和计算，但是真实镜头具有复杂的非线性失真，其允许捕获真实世界和图像之间的准确映射[5，15，20，18]。然而，传统的自校准算法为了计算效率而以精度为代价第二，传统的自校准方法仅依赖于基于epipolar几何的几何损失或约束当场景没有足够的兴趣点时，这可能导致对噪声极端敏感的发散结果。另一方面，摄影测量一致性是基于物理的约束，其迫使相同的3D点在所有有效的视点中具有相同的颜色。它可以创建大量基于物理的约束以学习准确的相机参数。最后，传统的自校准方法使用现成的不可微特征匹配算法，并且不改进或学习几何形状。众所周知，我们越了解场景的几何形状，相机模型就越准确。这一事实是必不可少的，因为场景的几何形状是用于自校准的输入的唯一来源。在这项工作中，我们提出了一个通用的摄像机模型，端到端的学习参数的基本针孔模型和径向失真和非线性摄像机噪声的自校准算法。为此，我们的算法联合学习几何体-尝试与统一的端到端可微分框架一起使用，该框架允许更好的几何体来改善相机参数。特别地，我们使用隐式体积表示或神经辐射场[13]用于可微场景几何表示。我们还提出了为我们的相机模型设计的几何一致性，并与用于自校准的光度一致性一起训练系统，这提供了大量的约束。新颖的几何一致性迫使来自图像上的对应点的射线彼此接近，这克服了从Kruppa的自校准方法[9，7，11]导出的常规几何损失中的针孔相机假设实验上，我们表明，我们的模型可以学习相机的时代参数，包括内在和外在，没有标准的COLMAP初始化。此外，当给出这些相机参数的初始化值时，我们精确地微调相机参数，这改善了底层几何结构和新颖的视图合成。我们使用COLMAP学习的相机径向失真参数在鱼眼图像上测试我们的模型，以分析失真模型，并显示我们的模型以显著的幅度优于基线。此外，我们还证明了我们的非线性相机模型是模块化的，可以应用于NeRF例如NeRF [23]和NeRF++[25]。2. 相关工作相机失真模型。传统的3D视觉任务通常假设相机模型是简单的针孔模型。随着相机模型的发展，各种相机模型被引入，包括鱼眼模型、每像素通用模型。虽然每像素的通用模型更有表现力，但它们很难优化。Schops等人。 [19]提出了一种定位在12个参数和每像素通用模型之间的模型。他们已经表明，所提出的模型比其他相机模型具有更小的重投影误差。Strum和Srikumar [20]提出了几种方法，显示了如何校准一般成像模型，其中结构已知，但视点未知。所提出的方法允许在不使用任何失真模型的情况下学习中央相机Grossberg和Nayar [5]提出了一种通用成像模型，该模型使用描述入射光线和像素之间的映射的虚拟感测元件。他们还提出了一种校准方法，该方法可以找到虚拟传感元件的参数，并表明该方法可以应用于任何成像系统。Ramalingam和Sturm [15]将相机模型解释为将像素映射到3D射线的函数。通过这种解释，他们对各种相机进行建模，例如中央相机或轴向相机。相机自动校准是在不使用场景中的外部校准对象（诸如棋盘图案）的情况下从一组未校准图像和相机估计相机参数的过程Zeller等人 [24]提出了一种自校准方法，该方法采用Kruppa方程来自校准视频序列中的摄像机参数。Pollefeys等人。 [14]提出了一种使用模量约束进行校准的分层方法。Chandraker等人 [1]提出了一种自校准算法，该算法将秩和正半定约束纳入优化。Chandraker等人。 [2]将分支定界方法用于全局最优分层自校准算法。Ha等人 [6]采用了一种损失，它使用图像对之间的对应关系隐式地校准相机模型，以从未校准的小运动剪辑产生高质量的深度图Engel等人 [3]提出了一种新的方法来校准响应函数和非参数渐晕函数，以生成更准确的跟踪模型。新视图合成。神经辐射场[13]通过使用多层感知器学习体积场景函数来合成新视图。对神经辐射场提出了几种改进方法Zhang等人 [25]通过区分背景和前景改进了原始NeRF模型。Liu等人。 [10]提出了一种稀疏体素场方法，该方法跳过了体素的射线行进5848∈{|∈||}∈∈N--不包含相关内容的元素，从而能够高效且更精确地呈现。Yariv等人。 [21]通过用神经网络将3D表面重建为带符号距离函数的水平集来合成新视图。然而，基于表面的渲染需要区分背景和前景的二进制掩模此外，它是不适合重建真实场景，因为该模型也重建的背景表面。Yu等人。 [23]提出了一种学习框架，使用少量图像学习场景信息。Yen等人。 [22]解决了NeRF的逆问题，该逆问题估计观察到的图像的姿态。他们3. 初步我们使用神经辐射场来学习3D场景几何形状，这对于学习自校准的光度损失至关重要在本节中，我们简要介绍了神经辐射场的定义： NeRF [13] 和NeRF++[10]。隐式体积表示。使用隐式表示学习场景的密集3D几何形状由于其鲁棒性和准确性而最近获得了极大的关注。它学习两个隐式表示：其中 xR3是世界坐标系中的3D位置，rdrdrdR3，rdR3，rdR3= 1是表示光线r（t）=r0+ trd的方向的法向3-向量。射线的颜色值C可以表示为通过沿着射线的不透明度加权的所有颜色的积分，或者可以近似为沿着射线的N个一个是背景。在本文中，我们将探索NeRF和NeRF++来分析我们的相机自校准模型。4. 可差动自校准相机在本节中，我们提供了可区分相机模型的定义，该模型结合了针孔相机模型、径向失真和用于自校准的通用非线性相机失真[18]。在数学上，相机模型是将3D光线r定义到图像平面中的2D坐标p的映射p=π（r）在这项工作中，我们专注于非投影函数，或射线，r（p）=π−1（p）作为几何学习，我们的投影射线距离只需要一个像素到射线的非投影。因此，我们可互换地使用术语相机模型和相机非投影，并且我们将像素p的光线r（p）表示为一对3向量：方向向量r_d和偏移或光线原点向量r_o。我们的相机非投影过程由两个部分组成：使用可微分针孔相机模型和一般非线性射线失真的像素的非投影。我们首先从数学上定义每个组件。4.1. 可区分针孔摄像机光线我们的可微相机非投影的第一个组成部分是基于针孔相机模型，该模型将3D空间中的4向量齐次坐标映射到图像平面中的首先，将摄像机内函数分解为初始化K0和残差参数矩阵ΔK.这是由于具有许多局部最小值的本征矩阵的高度非凸性质因此，最终的内函数是这些的和K=K0+ ΔKR3×3，其中Δ K的范数有界。矩阵Σi−1⎡⎣fx+Δfx0cx+Δcx⎤⎦C（r）≈α（r（tj），Δj）K= 0fy+ Δfy cy+ Δcy（二）i j=1（一）0 0 1注意，我们将表示c=[cx，cy]和f=[fx，fy]其中Δi=t i+1t i。因此，该方法的准确性在很大程度上取决于样本的数量以及我们如何采样点。具有逆深度的背景表示。NeRF中使用的体绘制是有效的和鲁棒的，如果网络捕获的空间是有界的。但在室外场景上，空间的体积是无界的，拍摄空间所需的采样数量为了简单起见。类似地，我们使用外部初始值R0和t0以及残差参数来表示相机旋转R和平移t。然而，直接学习旋转矩阵的每个元素的旋转偏移将破坏旋转矩阵的正交性。因此，我们采用6-向量表示[26]，其使用旋转矩阵的未归一化前两列来表示3D旋转：成比例地增加，通常在计算上是禁止的。相反，Zhang等人。 [25]提出NeRF++来模拟前-⎛⎡||⎤⎞⎡|||⎤具有独立隐式网络的而背景光线被重新参数化以具有边界fa1a2=b1b2b3，（3）|||||音量. [25]的网络架构可以简洁地表述为两个隐式网络：一个用于前台其中b1，b2，b3∈R3是b1=N（a1），b2=N（a2-（b1·a2）b1），并且b3=b1×b2，并且N（·）表示L25849·↔XXyyΣΣ标准最终旋转和平移为R= f（a0+ Δ a），t = t0+ Δ t.我们使用K将像素取消投影到光线。来自本征函数的射线为~r（p）d=K−1p且~ro=0，其中~表示相机坐标系中的向量。我们用的是-sicsR，t将它们转换为世界坐标系国家：径向畸变rd=RK−1p，r〇= t。（四）由于这些射线参数（rd，ro）是内在和外在残差（Δf，Δc，Δa，Δt）的函数，因此我们可以将梯度从射线传递到残差以优化参数。注意我们没有优化K0，R0，t0.照相机是由一组圆形透镜组成的射线到中心。因此，透镜边缘处的畸变我们扩展我们的模型，将这种径向扭曲。在COLMAP [16]中的径向鱼眼模型之后，我们采用四阶径向失真模型，该模型消除了罕见的高阶失真，即k=（k1+zk1，k2+zk2）.n=（（px−cx）/cx，（py−cy）/cy，1）（5）d=（1 +k1n2+k2n4，1+k1n2+k2n4）（6）图2.根据摄像机参数和摄像机参数噪声计算ro，rd5. 几何和光度一致性我们的相机模型采用了通用的非线性失真，大大增加了相机参数的数量。在这项工作中，我们提出使用几何和光度一致性进行自校准，这允许更准确的相机参数校准，因为这些一致性提供了额外的约束。我们将在本节中讨论每个约束。p×=（pxdx，pydy，1）（7）rd=RK−1p×，ro=t（8）与其他相机参数类似，我们使用光度误差来学习这些相机参数。4.2.一般非线性光线失真我们对一些易于用数学表达的扭曲进行然而，实际镜头中的复杂光学像差不能使用参数相机来建模。对于这种噪声，我们使用Grossberg等人 [5，18]的非线性模型具体地，我们使用局部射线参数残差zd= Δrd（p），zo= Δro（p），其中p是图像坐标。r×d= rd+ zd，r×o= ro+ zo。我们使用双线性插值局部提取连续光线畸变参数[px+1[py+1zd（p）=（1 − |x − px|）（1 − |y −py|）x=[pxy=[py5.1. 几何一致性：投影光线距离通用相机模型提出了定义几何损失的新挑战。在大多数传统工作中，几何损失被定义为测量极线和对应点之间的距离的极线约束，或者重新投影误差，其中首先定义对应的3D点，然后将其投影到图像平面以测量投影和对应之间的距离然而，当我们使用我们的通用噪声模型时，这些方法几乎没有限制。首先，核线距离假设一个完美的针孔相机，这在我们的设置中是不可能的。第二，3D重投影误差需要使用不可微过程来创建3D点云重构，并且从3D重构间接地学习相机参数。在这项工作中，而不是需要一个3D重建计算间接损失，如重投影误差，我们提出的投影射线距离损失，直接测量射线之间的差异。令（pApB）分别是相机1和2上的对应。当所有的摄像机参数被校准时，射线rA和rB应zd[x，y]zd[x，y]。（5850九）zd[x，y]指示在离散2D坐标（x，y）处的射线方向偏移。我们只在离散位置学习zd的参数类似地，我们可以将zo（p）定义为zo[x，y]的双线性插值。最终光线方向、光线偏移生成可以总结为图1B。二、在生成点pA和pB的3D点处相交。然而，当由于相机参数中的误差而存在设直线A上的一点为xA（tA）=r0，A+tArd，A且直线B上的一点为xB（tB）=r0，B+tBrrd，B。的距离5851dtBtBΣL=||C（p）−C（r（p）||布里尔rdrord我图像A图像B图3.建议的投影射线距离（PRD）的图示。PRD测量两条射线之间的短路线段的投影长度。直线A和直线B上的一点之间的距离是在不可微的预处理阶段进行3D重建，并通过优化3D重建来优化相机参数。我们的投影射线距离不需要中间的3D重建，可以建模的非线性相机失真。5.2. 手性检查当相机失真大并且相机之间的基线小时，来自对应关系的射线之间的最短线可能位于相机后面。最小化这种无效光线距离将导致次优相机参数。因此，我们通过计算z深度以及相机光线来检查点是否从数学上讲，R AXB[z]>0，RbxA[z]> 0（14）D =|（ro，B+tBrd，B−ro，A）×rA，d|rA，d·r A，d（十）其中x[z]指示向量的z分量。最后，我们仅对所有对应的有效投影射线距离求平均值以计算几何损失。如果我们解出dd2|= 0，我们得到5.3. 光度一致性tB =（rA，o−rB，o）×rA，d·（rA，d× rB，d）。（十一）（rA，d×rB，d）2与几何一致性不同，光度一致性要求重建3D几何，因为3D点的颜色仅在其从曲线可见时才有效。我们将tB代入第2行，可以得到xB=xB（tB）。类似地，我们可以得到x∈A。对于简单的y，我们将把x·表示为x·，因为我们将主要关注最终解。两点之间的距离d=xAxB为租金前景。在我们的工作中，我们使用神经辐射场[13]来重建3D占用和颜色。这种隐式表示是可区分的，通过位置和颜色值，并允许我们通过体绘制捕捉可见的具体来说，在d=|（rA，o−rB，o）·（rA，d×rB，d）||rA，d × rB，d|（十二）在渲染过程中，使用K0、R0、t0以及ΔK、Δa、Δt以及zo[·]、zd[·]对光线进行参数化，如在然而，该距离未针对对应性进行归一化。给定相同的摄像机失真，距离摄像机较远的点的对应将具有图二.我们将下面的能量函数与相对于可学习的相机参数来优化我们的自校准模型。因此，更接近相机的点的对应将具有更大的偏差，而更接近相机的点的对应将具有更小的偏差。因此，我们需要对距离的尺度进行因此，我们预测22p∈I（十五）将点xA、xB映射到图像平面IA、IB，并计算图像平面上的距离，而不是直接使用3D空间中的距离。这里，P是像素坐标，并且是图像中的像素坐标的集合。C（r）是使用光线r的体视渲染的输出，其对应于像素p。C（p）是地面真值颜色。因此，对于D=πA（xB）−pA+πB（xA）−pB2（十三）内在是其中π（·）是投影函数，并且使逆函数相等LrrdΣ=++。从摄像机的镜头。我们在图中可视化投影的射线距离。3.第三章。该投影射线距离是不同于对极距离或重投影误差的新的几何损失对极距离仅针对线性针孔摄像机定义，并且不能对非线性摄像机失真进行建模。另一方面，重投影误差需要提取每一个人，无论他的命运如何，ΔKπ5852类似地，我们可以定义其余参数Δa、Δt以及zo[·]、zd[·]的梯度，并校准相机。6. 优化几何体和相机为了优化几何和相机参数，我们联合学习神经辐射场和相机模型。5853S{}← LLif←←然而，当几何形状未知或对于自校准来说太粗糙时，不可能学习准确的相机因此，我们顺序地学习参数：首先是几何学和线性相机模型，然后是复杂相机模型参数。6.1. 课程学习相机参数确定用于NeRF学习的射线的位置和方向，并且不稳定的值通常导致发散或次优结果。因此，我们将学习参数的子集添加到优化过程中，以共同降低学习相机和几何形状的复杂性。首先，我们学习NeRF网络，同时将相机焦距和焦点中心初始化为图像宽度和高度的一半。首先学习粗糙几何是至关重要的，因为它将网络初始化到更有利的局部最优，以学习更好的相机参数。接下来，我们顺序地将线性相机模型的相机参数、径向失真和光线方向的非线性噪声、光线原点添加到学习中。我们首先学习更简单的相机模型，以减少过度拟合和更快的训练。6.2. 联合优化我们在 Alg 中提出了最终的学习算法。 1. getparams函数返回一组用于课程学习的参数，这逐渐增加了相机模型的复杂性。接下来，我们通过随机选择具有足够对应性的目标图像，用投影光线距离训练模型启发式地，我们发现从源视图选择最大30°内的图像给出了最佳结果。算法1使用课程学习的颜色一致性损失和光线距离损失的联合优化初始化NeRF参数Θ初始化摄像机参数z K，z R|t，z射线o，z射线d，z k可学习参数= Θ对于iter= 1，2，…做S'=4体积渲染（rd，ro，Θ）等式一个iter %n== 0且iter>=nprd则I×←random（RI，tI，I）C←对应（I，I×）Lprd←投射光线距离（C）秒第5.1节endLif← L+λLprdf或s∈S ×dos s+s端端7. 实验7.1. 数据集我们使用三个数据集来分析我们模型的不同方面。两个户外场景，米尔登霍尔等。[12]和Zhanget al. [8]用针孔照相机镜头捕获。LLFF [12]和Tanks and Temples数据集 [8] 分别由 8 个和 4 个场景组成，其中使用COLMAP [16]估计它们的相机由于这些数据集是使用镜头畸变较小的专业相机捕获的，因此我们使用鱼眼相机收集了一些场景，以检查我们模型的端到端学习能力。我们用COLMAP获取摄像机信息。7.2. 自校准我们从头开始训练我们的模型，以证明我们的模型可以自校准相机信息。我们初始化所有的旋转矩阵，平移向量，和焦距的单位矩阵，零向量，高度和宽度的捕获的图像。表1报告了训练集中渲染图像的质量虽然我们的模型不采用校准的相机信息，我们的模型显示了可靠的渲染性能。此外，对于某些场景，我们的模型优于使用COLMAP [16]相机信息训练的NeRF我们在图7中可视化表1.比较NeRF和我们的模型时，没有校准的相机信息。场景模型PSNR（↑）/ SSIM（↑）/ LPIPS（↓）/PRD（↓）花NeRF我们13.8/ 0.302 / 0.716 /nan33.2/ 0.945 / 0.060 /0.911堡垒NeRF我们16.3/ 0.524 / 0.445 /nan35.7/ 0.945 / 0.069 /0.833叶NeRF我们13.01 / 0.180 / 0.687 /楠25.75 / 0.878 / 0.146 /0.885TrexNeRF我们15.70 / 0.409 / 0.575 /楠31.75 / 0.954 / 0.104 /1.0027.3. 对NeRF我们已经观察到，当COLMAP初始化相机信息时，我们的模型显示出比NeRF更好的我们在表2中比较了NeRF和我们的模型的渲染质量。我们的模型始终表现出更好的渲染质量比原来的NeRF。此外，我们的模型表明投射的光线距离要小得多，这表明我们的模型改善了相机信息。我们将我们的相机模型在图中学习的非线性失真可视化。4.第一章5854表2.当在LLFF [12]数据集中使用COLMAP [16]初始化相机参数时，NeRF和我们的模型的比较球形立方体图5.使用鱼眼相机拍摄的图像。表4.鱼眼相机拍摄的场景的渲染质量。“RD”表示反映径向失真的修改后的实施方式。场景模型PSNR（↑）/ SSIM（↑）/LPIPS（↓）全球NeRF++[研发部]21.97 / 0.572 /0.659我们23.76 / 0.598 /0.633立方体NeRF++[研发部]21.30 / 0.574 /0.643我们23.17 / 0.605 /0.616图4.所捕获的非线性失真的可视化。第二行显示学习的光线偏移。7.4. 相对于NeRF++的由于我们的模型设计用于NeRF的变体，因此我们将NeRF架构替换为NeRF++ [25]架构。然后，我们在坦克和寺庙[8]数据集中比较NeRF++和我们的模型。表3报告了训练集中的渲染质量和投影光线距离损失。我们的模型结果在更好的渲染质量和更少的训练投影光线距离。定性结果在图6中可视化。表3. NeRF++和我们的模型在坦克和寺庙[8]数据集中的渲染质量。场景模型PSNR（↑）/ SSIM（↑）/ LPIPS（↓）/PRD（↓）M60NeRF++我们25.62 / 0.772 / 0.395 /1.33526.99 / 0.805 / 0.359 /1.326操场NeRF++我们25.14 / 0.681 / 0.434 /1.30226.17 / 0.715 / 0.396 /1.299火车NeRF++我们21.80 / 0.619 / 0.479 /1.26122.71 / 0.651 / 0.450 /1.255卡车NeRF++我们24.13 / 0.730 / 0.392 /1.24825.22 / 0.763 / 0.352 /1.2407.5. 鱼眼晶状体重建我们在具有高失真的图像上测试我们的模型，以对比相机参数的端到端学习的重要性。传统的特征匹配算法无法为这些场景获取可靠的对应关系，因此我们从我们的课程训练中跳过投影光线距离损失。表4报告了我们学习的模型和基线NeRF++的渲染质量。我们从COLMAP初始化训练基线和模型表5.消融研究我们的模型的组件。”IE”, ”OD”, and ”PRD”denote learnable intrinsic and extrinsic param- eters, learnablenon-linear distortion, and projected ray distance loss,场景PSNR（↑）/ SSIM（↑）/ LPIPS（↓）/PRD（↓）堡垒NeRF+ IE30.5/ 0.866 / 0.096 /0.85635.3/ 0.948 / 0.058 /0.729+ IE + OD36.4/ 0.957 / 0.051 /0.724+ IE + OD + PRD36.6/ 0.96 / 0.049 /0.724房间NeRF+ IE31.5/ 0.950 / 0.096 /0.88338.3/ 0.978 / 0.070 /0.806+ IE + OD39.4 0.980 / 0.065 /0.805+ IE + OD + PRD39.7/ 0.981 / 0.063 /0.805具有提供鱼眼相机参数的径向失真模型。由于NeRF++相机模型不包含径向失真，因此我们修改了实现，以在光线计算中包含鱼眼失真。7.6. 消融研究为了检查所提出的模型的效果，我们进行了消融研究。我们检查课程学习中每个阶段的表现。我们为每个阶段训练20万次迭代。从这个实验中，我们已经观察到，扩展我们的模型在渲染更清晰的图像方面更有潜力。然而，对于某些场景，采用投影光线距离会增加总体投影光线距离。表5报告了消融研究的结果，图8显示了误差。8. 结论我们提出了一种自校准算法，学习几何和相机参数联合端到端。相机模型由针孔模型、径向畸变和非线性畸变组成，其捕获镜头中的真实噪声。我们还提出了投影光线距离来提高准确性，这使得我们的模型能够学习细粒度的核心。场景模型PSNR（↑）/ SSIM（↑）/ LPIPS（↓）/PRD（↓）花NeRF我们32.2/ 0.937 / 0.067 /2.44033.3/ 0.946 / 0.058 /0.895堡垒NeRF我们35.3/ 0.947 / 0.056 /2.47536.6/ 0.960 / 0.049 /0.724叶NeRF我们25.3 0.874 / 0.149 /2.70925.9 / 0.886 / 0.136 /0.854TrexNeRF我们31.4 0.955 / 0.099 /2.36832.0/ 0.959 / 0.095 /0.95358550.10图6.实验使用坦克和寺庙[8]数据集。对于每个场景，呈现了渲染图像和误差图（0到0.1像素强度范围）的放大，它们是从NeRF++[25]（第一行）和我们的模型（第二行）中获得的对于每个子图，PSNR在左上方示出。0.2(a) NeRF [不含COLMAP](b) NeRF [w/COLMAP](c) 我们的[不含COLMAP](d) 我们的[w/COLMAP]0(e) 目标图像图7. NeRF [13]和我们使用LLFF [12]数据集的方法的比较。前两列图像显示了NeRF的结果，没有或有内在和外在相机参数。我们使用COLMAP [17]进行相机初始化。第三和第四列显示了使用我们的方法以相同配置渲染的图像。我们的自校准方法显示出一致的结果，无论使用相机之前。对于每个子图，PSNR在左上方示出。响应我们表明，我们的模型从头开始学习几何和相机参数时，没有给出的姿势，我们的模型改进了NeRF和NeRF++更强大的相机姿势时。鸣谢。这项工作得到了 IITP 赠款的支持（ 2019-0-01906：AI等级学校课程- POSTECH和2021-0-00537：通过自我监督学习恢复图像中不可见部分的视觉常识）。0.20图8.表5中所示的每种配置的渲染图像的可视化绿色、蓝色、黄色和紫色框分别是NeRF、NeRF + IE、NeRF + IE + OD和NeRF + IE的错误映射+ OD + PRD。二十五点三二二十五块九角二十四点七二二十五点十分十三点零四分二十五点九十九分25.11二十六点五一十五点八十四三十一点五五三十一点九一三十一点七一十三点一二三十二点三十一分三十二点二五三十三点四十四十二点四十八二十四点七二十五块七十五二十五点六四5856引用[1] 曼莫汉·钱德拉克、萨米尔·阿加瓦尔、弗雷德里克·卡尔、D a vidNis te´r和D a vidKri e gman。通过绝对二次曲面的秩约束估计的自动校准在2007年IEEE计算机视觉和模式识别会议上，第1-8页IEEE，2007年。[2] ManmohanChandraker 、 SameerAgarwal 、 DavidKriegman和Serge Belongie。用于分层自动校准的全局优化算法。国际计算机视觉杂志，90（2）：236[3] Jakob Engel，Vladyslav Usenko，and Daniel Cremers. 一用于单眼视觉里程计的光度校准基准。arXiv预印本arXiv：1607.02555，2016。[4] Olivier D Faugeras，Q-T Luong，and Stephen J Maybank.摄像机自校准：理论与实验。在欧洲计算机视觉会议上，第321-334页。Springer，1992年。[5] Michael D Grossberg和Shree K Nayar。一种通用成像模型及其参数求取方法。第八届IEEE计算机视觉国际会议论文集。ICCV 2001，第2卷，第108-115页。IEEE，2001年。[6] Hyowon Ha ， Sunghoon Im ， Jaesik Park ， Hae-GonJeon，and In So Kweon.高品质的深度从未校准的小动作剪辑。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第5413-5421页[7] 理查德岛哈特利 KruppaIEEE Transactions on patternanalysis and machine intelligence，19（2）：133[8] Arno Knapitsch ， Jaesik Park ， Qian-Yi Zhou ， andVladlen Koltun.坦克和寺庙：大规模场景重建的基准。ACM Transactions on Graphics（ToG），36（4）：1[9] 欧文·克虏伯两种特殊的定向物体的测试. 1913年的《荷尔德》。[10] Lingjie Liu ， Jiatao Gu ， Kyaw Zaw Lin ， Tat-SengChua，and Christian Theobalt.神经稀疏体素场。arXiv预印本arXiv：2007.11571，2020。[11] 马诺利斯国际机场卢拉基斯和拉希德·德里奇。使用Kruppa方程和基本矩阵的奇异值分解的摄像机自标定：变化的内在参数的情况研究报告RR-3911，INRIA，2000年。[12] Ben Mildenhall ， Pratul P Srinivasan ， Rodrigo Ortiz-Cayon，Nima Khademi Kalantari，Ravi Ramamoorthi，Ren Ng，and Abhishek Kar.局部光场融合：实用的视图合成与规定的采样指南。ACM Transactions on Graphics（TOG），38（4）：1[13] Ben Mildenhall，Pratul P Srinivasan，Matthew Tancik，Jonathan T Barron，Ravi Ramamoorthi，and Ren Ng. 纳夫：将场景表示为用于视图合成的神经辐射场。arXiv预印本arXiv：2003.08934，2020。[14] Marc Pollefeys和Luc Van Gool具有模量约束的分层IEEETransactionsonPatternAnalysisandMachineIntelligence，21（8）：707[15] Srikumar Ramalingam和Peter Sturm。摄像机标定的统一模型。IEEE Transactions on pattern analysis and machineintelligence，39（7）：1309[16] JohannesLutzSchoünber ger和Jan-MichaelFrahm。结构从运动重新审视。计算机视觉与模式识别会议，2016年。[17] Johannes L Schonberger和Jan-Michael Frahm.结构-从运动重新审视。在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，pages 4104[18] Thomas Schops 、 Viktor Larsson 、 Marc Pollefeys 和Torsten Sattler。为什么在相机模型中有10，000个参数比12个参数更好。In Proceedings ofIEEE/CVF计算机视觉和模式识别会议，第2535-2544页，2020年。[19] Thomas Schops 、 Viktor Larsson 、 Marc Pollefeys 和Torsten Sattler。为什么在相机模型中有10，000个参数比12个参数更好。In Proceedings ofIEEE/CVF计算机视觉和模式识别会议，2020年6月。[20] Peter Sturm和Srikumar Ramalingam。通用校准概念：理论和算法。博士论文，INRIA，2003年。[21] Lior Yariv，Matan Atzmon和Yaron Lipman。隐含神经表征的普适可微渲染器 arXiv 预印本 arXiv ：2003.09852，2020。[22] 林燕辰、皮特·弗洛伦斯、乔纳森·T·巴伦、阿尔贝托·罗德里格斯、菲利普·伊索拉和林宗义。inerf：反转神经辐射场以用于姿态估计。 arXiv 预印本 arXiv ：2012.05877，2020。[23] Alex Yu ， Vickie Ye ， Matthew Tancik 和 AngjooKanazawa。pixelnerf：神经辐射场来自一个或几个图像。arXiv预印本arXiv：2012.02190，2020。[24] 西里尔·泽勒和奥利维尔·福格拉斯来自视频序列的摄像机自校准：Kruppa方程的再研究一九九六年。[25] Kai Zhang，Gernot Riegler，Noah Snavely，and VladlenKoltun. Nerf++：分析和改进神经辐射场。arXiv预印本arXiv：2010.07492，2020。[26] 周毅、康奈利·巴恩斯、景万路、杨吉美和李浩。论神经网络中旋转表示的连续性。在IEEE/CVF计算机视觉和模式识别会议论文集，第5745- 5753页

下载后可阅读完整内容，剩余1页未读，立即下载