智能手机图像中估计相对姿态及未校准情况下的焦距估计方法

49 浏览量更新于2023-10-26 收藏 13.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1,4213Depending on the camera conﬁguration, there have beena number of solutions proposed over the years. Assumingthat both cameras are calibrated and, thus, the intrinsic ma-trices are known, one can estimate the relative pose fromﬁve correspondences [22,27,32,40,46]. This setting is usedin many applications and is generally regarded as a solvedproblem with efﬁcient stable solutions and only a few de-generacies. When we do not have access to an accurate cal-ibration, jpeg-exif headers often contain useful information,e.g., the focal length. This header is, however, sometimescorrupted, e.g., for images from the Internet, or the includedfocal length is incorrect, e.g., due to image resizing.In the case when we are not given an accurate calibra-tion a priori, it is safe, in practice, to assume that the pixels127660从校准和未校准的智能手机图像中估计相对姿态01 南京理工大学计算机科学与工程学院 2 ETH Z¨urich计算机科学系计算机视觉与几何组 3捷克理工大学电气工程学院视觉识别组 4 兰德大学数学科学中心0dingyaqing@njust.edu.cn0摘要0在本文中，我们提出了一种新的最小和非最小求解器，用于估计相机的相对姿态以及第二个相机的未知焦距。这种配置具有许多实际优势，例如在处理大规模数据集时。此外，它对传统的六点算法的典型退化情况具有抵抗力。最小求解器需要四个点对应关系，并利用了最近智能设备的内置IMU恢复的重力方向。我们还提出了一种线性求解器，可以极其高效地从大于最小样本中估计姿态，然后可以通过束调整等方法进行改进。这些方法在来自公开可用的真实世界和新数据集的35654个图像对上进行了测试。与最传统的求解器相结合，它们在旋转、平移和焦距精度方面的结果优于传统求解器，同时速度明显更快。01. 引言0使用通常的最小点对应集合，估计两个相机的相对姿态是一个经典的计算机视觉问题[23]。它有许多应用，包括全局[5, 36, 50, 52]和增量[44,45, 53]结构运动的姿态图初始化，同时定位和映射算法[37,38]，增强现实和虚拟现实[33]，视频中的多运动拟合[51]和监视[34,35]。如今，随着配备各种传感器的智能手机的普及，利用其他内置传感器提供的附加信息进行姿态估计的新可能性出现了，例如惯性测量单元（IMU）恢复的重力方向。在本文中，我们专注于在一个相机完全校准的情况下，另一个相机的焦距未知时利用IMU恢复的重力方向。根据相机的配置，多年来已经提出了许多解决方案。假设两个相机都校准了，因此内部矩阵是已知的，可以从五个对应关系中估计相对姿态[22, 27,32, 40,46]。这种设置在许多应用中被使用，并且通常被认为是一个已解决的问题，具有高效稳定的解决方案和很少的退化情况。当我们无法获得准确的校准时，jpeg-exif头通常包含有用的信息，例如焦距。然而，这个头有时会损坏，例如来自互联网的图像，或者包含的焦距是不正确的，例如由于图像调整大小。在我们没有事先给定准确校准的情况下，实际上可以安全地假设像素0图1.几乎每个人都有一部配备了相机和IMU传感器的智能手机。虽然相机的y轴通常可以使用从IMU提取的重力方向对齐，但某些相机的内部校准可能损坏或不可用。在这里，通过仅使用一个校准的相机（红色的人），我们可以估计剩余相机的相对姿态和焦距。λ′iK−12 m′i = λiRK−11 mi + t,(1)λ′iR′alignK−12 m′i = λiRyRalignK−11 mi + τ,(2)λ′iR′alignK−12 m′i = λiRypi + τ,(3)127670方形并且主点与图像中心重合。这意味着唯一需要估计的未知量是两个图像的焦距。当我们假设两个相机具有共同的未知焦距时，六个对应关系足以解决问题[22, 27, 28,47]。然而，由于存在退化问题，例如相机的光轴平行或相交，实际上很少使用6点求解器。如果两个相机的焦距不同且未知，则至少需要七个对应关系来恢复相对姿态和焦距[8,21]。另一个实际上有趣的情况是，其中一个相机完全校准，而另一个相机的焦距未知。这个问题需要六个点对应关系，并且在[9,28]中通过Gr¨obner基方法解决。这种情况经常发生在处理大规模数据集时，其中一些图像的焦距要么在exif标签中可用，要么传感器类型已知。例如，最先进的运动结构算法[44,50]在识别用于成像的传感器类型后，如果可用，从数据库中读取相关的焦距。尽管在处理大规模数据集时显然具有实际好处，但这种配置也对6点算法的典型退化具有抵抗力[46]。即使相机的光轴平行或相交，它也能正常工作。最近的设备通常配备了能够准确测量重力方向的IMU传感器。利用这个重力先验，相机的垂直轴可以对齐，将它们的相对方向减少到1自由度（DOF）。这个先验不仅简化了需要解决的几何和多项式系统，而且还减少了估计所需的对应关系数量。这非常重要，因为类似RANSAC的鲁棒估计的运行时间在指数级上取决于样本大小。重力先验被用于简化最小相对姿态[12, 15, 16, 31, 39, 43,49]，包括具有两个未知相等或不同焦距的相对姿态问题[14]，绝对姿态[2, 26, 48]和一般径向畸变单应性求解器[11,41]。在本文中，我们填补了现有相对姿态求解器的空白。我们提出了利用重力方向的求解器，解决了两个实际上有趣且以前未解决的问题。首先，我们提出了几种不同的最小求解器，用于从至少四个点对应关系中估计相对姿态和第二个相机的未知焦距1。所提出的求解器基于用于生成高效多项式求解器的最先进的代数方法[7, 22, 27,30]，其中隐藏变量方法为求解器提供了在数值稳定性和效率之间的最佳平衡。在推导这些解决方案时，我们还提供了对问题的额外分析。01 不考虑重力的解决方案[ 9 ]需要六个对应点。0这些求解器中使用的是 Cayley参数化。这使得问题方程和求解器都变得简化。其次，我们提出了一种从大于最小样本中估计未知参数的求解器。这一步对于最先进的 RANSACs [ 25 , 42 ]非常重要，其中准确性是通过局部优化和最终模型优化步骤来保证的，这些步骤使用非最小求解器运行。02. 问题陈述0假设有两台相机观察到的三维点集 { X i } 。设 m i = [ u i, v i , 1] � 和 m ′ i = [ u ′ i , v ′ i , 1] � 是点 X i在第一台和第二台相机中的齐次坐标。对应的图像点 m i和 m ′ i 之间的关系为0其中 R ∈ SO (3) 且 t ∈ R 3是两台相机之间的未知相对旋转和平移， λ i , λ ′ i是图像点 m i , m ′ i 的深度， K 1 , K 2是第一台和第二台相机的内参矩阵。在本文中，我们假设两台相机有一个共同的参考方向。这是一个自然的假设，在许多图像捕捉场景中，我们可以从智能手机和平板电脑的内置IMU中提取出共同的参考方向。不失一般性，让我们假设两台相机的 y轴通过从共同参考方向计算得到的横滚和俯仰角进行对齐。为了进行这种对齐，需要 IMU到相机的标定。然而，正如之前的论文所示[ 12 , 20]，通常假设这个标定是已知的。由于现代智能设备的构造方式，相机和 IMU 之间的轴之间的角度通常为 0 ◦ ， ± 90 ◦或 180 ◦ ，因此可以被视为已知。设用于对齐两台相机的 y轴的旋转矩阵为 R align 和 R ′ align 。对齐后，方程（ 1）可以重写为0其中 R y 是偏航角（绕 y 轴旋转）的旋转矩阵， τ = R ′align t 是对齐后的平移向量。对于具有 CCD 和 CMOS传感器的现代相机，通常假设像素为正方形，并且主点与图像中心重合[ 22]。在这种假设下，内参标定矩阵是一个对角矩阵，唯一的未知参数是焦距。我们假设第一台相机的焦距已知。因此，方程（ 2 ）可以写成0其中 p i = R align K − 1 1 m i是第一台相机中已标定图像点的已知齐次坐标(R′align[u′i, v′i, f]⊤) × (Rypi) · τ = 0.(4)A(i,:) = (R′align[u′i, v′i, f]⊤) × (Rypi).(6)Ry =11 + σ2��1 − σ202σ01 + σ20−2σ01 − σ2�� ,(7)hk(σ, f) = det(Ak)/(1 + σ2).(8)Bw = 0,(9)w = [1, f, f 2, σ, σf, σf 2, ..., σ4f 2]⊤,(10)127680对齐后， K − 1 2 = diag(1 , 1 , f ) ，其中 f是第二台相机的未知焦距。向量 ( λ ′ i R ′ align K − 1 2 m′ i ) × ( λ i R y p i ) 与平移向量 τ垂直。因此，我们可以写成0在这种情况下，深度参数 λ ′ i , λ i被消除。我们的目标是使用方程（ 4）估计第二台相机的未知相对旋转 R y ，平移 τ 和焦距 f。03. 最小4点求解器0每个点对应 m i � m ′ i 提供一个形式为（ 4）的约束。由于我们有4个自由度（一个用于未知旋转参数，两个用于只能估计到比例的未知平移，一个用于第二台相机的焦距 f），我们需要至少四个点对应来解决这个问题。通过堆叠 N个点对应的方程，约束（ 4 ）可以写成 A τ = 0 ，（5）0其中A是一个N×3的多项式矩阵，A的第i行形式为0旋转矩阵 R y 可以使用Cayley参数化表示为02，θ是绕y轴的旋转角度。Cayley参数化引入了一个180°的退化，但在最小解算器中经常使用，因为它减少了未知数的数量。此外，这个180°的退化在实践中不是一个问题[29]，可以在RANSAC中轻松检测和过滤。由于(5)有一个非平凡解，矩阵A必须是秩亏的。这意味着矩阵A的所有3×3子矩阵的行列式必须为零。注意，由于方程(6)是齐次的，我们可以省0在实践中，退化不是一个问题[29]，可以在RANSAC中轻松检测和过滤。由于(5)有一个非平凡解，矩阵A必须是秩亏的。这意味着矩阵A的所有3×3子矩阵的行列式必须为零。注意，由于方程(6)是齐次的，我们可以省略比例因子101+ σ 2在参数化(7)中。此外，矩阵A的3×3子矩阵的行列式具有以下性质：性质1. 矩阵A的所有3×3子矩阵A I的行列式可以写成det( A I ) = (1+ σ 2 ) h I ( σ, f )，其中h I( σ, f )是{ σ, f }的多项式。这里I是一个索引集合，A I是矩阵A中包含与I互补的行的子矩阵。性质1成立是因为Cayley表示用于参数化0旋转矩阵 R y。几篇论文也注意到了类似的性质[14,49,55]，但没有提供确切的证明。在本文中，我们通过证明一个更强的陈述来证明性质1：性质2：矩阵A = A I 的2×2子矩阵A 12 ，A 22，A 32 的行列式具有1 + σ 2作为公共因子。通过对第二列进行拉普拉斯展开，矩阵A的行列式可以表示为det( A ) = a 22 det( A 22 ) − a 12det( A 12 ) − a 32 det( A 32 )。因此，通过证明性质2，我们直接得到性质1的证明。证明见补充材料。注意，一般旋转情况的证明可以在[54]中找到。由于性质1，我们可以减少用于解决问题的多项式的次数。对于最少的四个点对应，矩阵A在(5)中是一个4×3的矩阵，有(4 3) =4个3×3大小的子行列式必须为零。这四个子行列式给出了两个未知数{ σ, f } 的四个6次多项式（最高次项为 σ 4 f 2）：0通过这种方式，我们从方程中消除了未知的平移τ。四个多项式方程h k ( σ, f ) = 0 ，k = 1 , . . . , 4可以重写为0其中B是一个4×15的系数矩阵，0是一个由15个单项式组成的向量。多项式方程组(9)可以使用不同的代数方法求解[10]。在本文中，我们测试了不同的最先进的方法来生成高效的代数求解器[7,22,27,30]。接下来，我们将介绍这些解决方案，从提供最佳稳定性和效率之间的最佳平衡的隐藏变量解决方案开始。03.1. 隐藏变量解决方案0多项式方程组(9)中包含两个未知数( σ, f )的四个多项式，未知数f的最高次数为2。在这种情况下，可以选择σ作为隐藏变量，即我们可以将其视为参数。然后，多项式方程组(9)可以重写为0M(σ)v = 0, (11)0其中M(σ)是一个参数化为σ的4×3多项式矩阵，v = [1, f,f^2]�是一个在f中没有σ的单项式向量。M(σ)可以重写为0M(σ) = σ^4B4 + σ^3B3 + σ^2B2 + σB1 + B0, (12)F7E6feE6fsE4feE5fvH4feH4fsH4fvE4fsE6l��0I0000I0000IC−14 C0C−14 C1C−14 C2C−14 C3�� . � ��i�127690参考文献 [23] [22, 28] [9, 28] [14] [14] [12, 13] [12, 13] [12, 13]0不同的f � �0纯旋转 � � � � 纯平移 � � 平面 � � � � � � 重力先验 � � � � � � � DOF 7 6 6 4 5 7 7 8 4 4 点数 7 6 6 4 5 3.5 3.5 4 4 6 解的数量 3 15 9 20 24 2412 8 10 10表1. 提出的求解器（灰色部分）和最先进的求解器的属性。0其中B4，B3，B2，B1，B0是一些4×3的系数矩阵，只包含数字。如果矩阵M(σ)的行数等于列数，即Nrow =Ncol，我们可以将多项式方程组(11)直接求解为多项式特征值问题[27]或通过计算多项式行列式det M(σ) =0的根[22]。如果Nrow Ncol。在[27]中，作者们表明选择一组多项式使Nrow =Ncol可以解决这种系统。然而，可能会发生这样的情况，即原始多项式的子集导致奇异矩阵B4和B0，这是[27]的退化情况。在[22]中，介绍了两种不同的非方阵系统方法。一种方法是计算M(σ)的所有(Ncol-1)×(Ncol-1)子矩阵的最大公约数，另一种方法是计算det(M(σ)�M(σ))。然而，这些方法都不高效。在本文中，我们使用一种非常简单的方法，既高效又避免了仅选择原始方程子集可能引起的退化。由于通常情况下，B4或B0是非奇异的，在这种方法中，我们将(11)乘以B�4（或B�0）。这实际上生成了三个新的多项式，它们是原始四个多项式的线性组合。令Ci = B�4Bi，i =1,...,4。矩阵Ci是3×3的方阵，因此多项式矩阵B�4M(σ)变为3×3的方阵。如果我们将(11)视为多项式特征值问题[3]，则σ的解是12×12矩阵的特征值0Q =0找到这种矩阵的特征值的一种高效方法是使用实Schur分解[24]：Q = UΛU�0其中U是一个实正交矩阵，Λ是一个实拟三角矩阵。拟三角矩阵是一个块三角矩阵，其对角线由1×1的块组成0和2×2的复特征值块可以省略。Λ对角线上的块的特征值与矩阵Q的特征值相同。一旦我们得到了σ的解，焦距f可以根据(11)中的M(σ)的零向量提取出来。这样，我们得到了12个可能的解。注意，我们解决了原始问题(11)的一个放松版本，导致了两个冗余解，这些解不能保证v = [1, f,f^2]�的元素满足。一旦计算出{σ,f}，平移可以从矩阵A(5)的零空间中提取出来。在实践中，我们只需要计算矩阵A的一个3×3子矩阵的零空间。在解中，我们只对具有正焦距的实解感兴趣。最后，完整的相对旋转和平移可以通过R = R'�align R y R align和T =R'�alignτ找到。0Sturm序列解法。解决（11）中的系统的另一种方法是计算3×3多项式矩阵B^T4M(σ)的多项式行列式[22]。由于（11）有一个非平凡解，矩阵B^T4M(σ)应该是秩亏的，即det(B^T4M(σ))=0。这是一个关于σ的12次单变量多项式（还有两个冗余解），可以使用Sturm序列[18]高效地求解。03.2. 其他解决方案0我们测试了两种生成高效多项式求解器的最新方法。一种基于u-结果[7]，另一种基于Gröbner基[30]。u-结果方法[7]生成一个大小为22×32的求解器，具有10个解，可以提取为一个10×10矩阵的特征值。最先进的Gröbner基方法[30]生成一个更高效的求解器，模板大小为8×18，用于高斯-约旦消元，并从一个10×10矩阵的特征值中提取10个解。在我们展示的合成实验中，隐藏变量求解器比这个方法更稳定（见图2）。02原始系统（11）有10个解，可以使用计算机代数系统Macaulay2[19]等进行证明。127700Gröbner基求解器。因此，对于实际应用，我们建议用户使用隐藏变量求解器。04. 线性非最小求解器0在本节中，我们专注于在具有大于最小样本的情况下解决相对位姿和焦距估计问题。这在最终模型优化步骤或现代RANSAC的局部优化中特别有用，例如MAGSAC++[6]。即使通过应用束调整来确保最终模型的准确性，这种快速的非最小估计器在局部优化中或为数值参数细化提供初始估计[25]方面也非常重要。由于向量w在（9）中的大小为15×1，我们需要至少15个方程来线性化系统（9）。系统（9）中的方程是通过N×3矩阵A中的3×3子矩阵的行列式获得的（5）。该矩阵包含大小为3×3的（N3）子矩阵。因此，对于N≥6，我们获得足够的方程来线性化（9），即我们至少获得15个方程3。通过忽略向量w中的单项式依赖关系，可以将这样一个超定系统视为线性系统。因此，可以将σ和f的值作为超定线性系统的标准最小二乘解找到4。请注意，在这种情况下，点归一化对于提高求解器的数值稳定性很重要。05. 与现有求解器的比较0在本节中，我们展示了现有最先进的求解器的属性，包括著名的7点基础矩阵求解器（F7）[23]，假设焦距相等且未知的6点求解器（E6 fe）[22,28]，具有单个已知焦距的6点求解器（E6 fs）[9,28]，基于本质矩阵且已知重力方向的求解器（E4 fe，E5fv）[14]，以及基于单应矩阵且已知重力方向的求解器（H4fs，H4 fs，H4 fs）[12,13]。所有这些求解器都有一些退化配置。例如，标准求解器（F7，E6 fe，E6fs）无法处理纯旋转、纯平移和平面场景。基于单应矩阵的求解器（H4 fs，H4 fs，H4fs）可以解决前面提到的特殊情况，但它们要求底层的3D点共面，这在实践中是一个相当强的假设。基于重力先验的本质矩阵求解器（E4 fe，E5fv）可以处理纯旋转和平面场景。然而，在实践中它们耗时（可能有太多的解）且无法处理纯平移。相比之下，所提出的方法更加高效且不具有上述退化配置。0对于6个点对应，我们得到(6 3) =20个方程。注意，得到的解不是原始系统(9)的最小二乘解，因为我们忽略了w中的单项式依赖关系。0不同求解器的比较结果如表1所示。注意，�表示求解器可以在不需要任何额外假设的情况下解决特定的特殊情况。圆圈表示求解器可以解决特定的情况，但只有在引入额外假设（例如共面点）时才能解决。提出的最小（E4fs）和线性非最小（E6l）求解器以灰色显示。0复杂度分析和运行时间。下表包含了提出的求解器和现有技术求解器执行的主要操作，以及它们的平均运行时间（µs）。第二列显示用于提取零向量的SVD矩阵的大小。第三列显示用于高斯-约旦消元的矩阵的大小。第四列报告用于特征值分解的矩阵的大小。第五列包含由Sturm序列求解的单变量多项式的次数。0求解器 SVD G-J Eigen Sturm 时间（µs）0E4fs (polyeig) - 3 × 12 12 × 12 - 510E4fs (GB) - 8 × 18 10 × 10 - 380E4fs (Sturm) - - - 12 240E6l 20 × 15 - - - 40 F7 7 × 9 - - - 11 E6fe 6 × 9 21 × 36 15 × 15- 72 E6fs 6 × 9 6 × 15 9 × 9 - 37 E4fe - 6 × 24 24 × 24 - 110E5fv - 12 × 48 48 × 48 - 31006. 合成评估0在本节中，我们将提出的求解器与SOTA进行比较。我们假设相机的焦距是不同的，但其中一个是已知的。在这种情况下，我们与F7、E6fs和E5fv进行比较。其他需要更强的假设（例如平面性）的求解器在这些实验中被省略。我们在这个评估中为所有求解器使用C++-mex实现。合成数据是在以下设置中生成的。我们在一个大小为[-3, 3] × [-3, 3] × [3,8]的3D立方体中随机采样200个3D点。相机的焦距被均匀随机设置为fg∈[300,3000]像素，图像的分辨率为1000×1000像素。用于测试性能的参数包括图像点位置的噪声水平、相机的视场（FOV）、两个相机之间的基线以及重力方向的噪声水平。对于重力噪声，我们对两个视图的横滚和俯仰角添加噪声。默认设置为：图像噪声=1像素，FOV=90°，基线=平均场景深度的5%，重力矢量噪声=0°。通过修改上述参数中的单个参数的值来测试求解器的性能，同时保持其他参数不变。旋转误差被定义为估计旋转和真实旋转之间的角度差。-20-15-10-500204060800.10.20.51.00360.10.20.51.000.51-20-15-10-500204060800.10.20.51.00360.10.20.51.000.51-15-10-5050204060800.10.20.51.00360.10.20.51.000.51-20-15-10-500204060800.10.20.51.00360.10.20.51.000.51127710图2.从上到下：一般运动、纯平移、纯旋转和平面结构下的性能。左列：在无噪声数据上的数值稳定性。中列：求解器相对于增加图像噪声的旋转误差。右列：求解器相对于增加图像噪声的焦距误差。0arccos(2 * tr(Rg * Re^T) - 1) / 2,其中Rg和Re分别是真实旋转和估计旋转。平移误差是估计平移向量和真实平移向量之间的夹角，因为估计的平移只能恢复到尺度。焦距误差被定义为ξf = |fe - fg| /fg，其中fg和fe分别是真实焦距和估计焦距。我们关注四种在实际应用中非常常见的实际情况：一般运动、纯平移、纯旋转和平面场景。0图2的左列显示了四种不同配置中所提出的解算器的数值稳定性0（从上到下：一般运动、纯平移、纯旋转和平面场景）。所提出的解算器对所有测试配置都是稳定的，除了纯旋转，其中提出的6点线性非最小解算器E6l和基于Sturm序列的最小解算器在无噪声数据上提供稍微不稳定的结果。然而，在存在图像噪声的情况下，这些解算器提供非常准确的结果。0从三个测试的最小解算器中，多项式特征值解算器比基于Sturm序列的解算器和Gr¨obner基解算器更稳定。图2的中间和右列报告了旋转和焦距误差相对于增加的图像噪声。根据实验结果，我们可以看到所提出的解算器在不同配置上优于现有方法。由于空间有限且为了更好的可读性，这些图表仅包含一个新的最小4点解算器的结果，即多项式特征值解算器（E4 fs）。平移误差在补充材料中报告。图3显示了一般相机运动的错误，作为视场、基线和重力矢量噪声的函数。所提出的解算器（E4 fs）和（E6l）在大多数配置中导致最准确的结果。即使在滚动和俯仰角（对于两个相机）的噪声水平为0.2°时，所提出的解算器与SOTA解算器相当。请注意，汽车和现代智能手机中使用的加速度计的噪声水平约为0.06°[16]。608011015005100.20.40.61.00360.010.050.10.2036608011015000.510.20.40.61.000.510.010.050.10.200.51length error w.r.t. increasing image noise. Based on the ex-perimental results, we can see that the proposed solvers out-perform the existing methods on different conﬁgurations.Due to the lack of space and for the better readability thesegraphs contain results only for one new minimal 4-pointsolver, i.e. the polynomial eigenvalue solver (E4fs). Thetranslation error is reported in the supplementary material.Fig. 3 shows errors for general camera motion as a func-tion of the ﬁeld-of-view, baseline, and the gravity vectornoise. The proposed solvers (E4fs) and (E6l) lead to themost accurate results for most of the conﬁgurations. Evenwhen the noise level in the roll and the pitch angle (for bothcameras) is 0.2◦, the proposed solvers are comparable to theSOTA solvers. Note that accelerometers used in cars andmodern smartphones have noise levels around 0.06◦ [16].5http://www.cvlibs.net/datasets/kitti6https://github.com/danini/graph-cut-ransac127720图3. 在一般运动下的旋转（上行）和焦距（下行）误差。从左到右：列显示了解算器相对于增加的视场、基线和重力矢量噪声的误差。07. 实际世界实验0为了展示所提出方法在实际应用中的实际效益，我们在KITTI [17]5数据集上测试了解算器。此外，我们还收集了新的PHONE数据集。KITTI里程计基准提供了22个序列，但只有11个序列（00-10）提供了通过GPS和IMU获得的地面真实值进行训练。因此，我们使用这11个序列来评估比较的解算器。总共使用了23190对图像。PHONE数据集是使用不同的智能手机（iPhone 6s和iPhone11）录制的。这些序列以@30Hz的速度使用后置摄像头捕获，相应的IMU数据以@100Hz的速度使用内置传感器捕获。此外，这些序列涵盖了我们在合成评估中讨论的所有相机配置：一般运动、纯平移和旋转以及平面场景。为了获得真实值，我们对手机进行了校准，并使用RealityCapture[1]软件获得相机姿态和3D重建。总共生成了12464对具有同步重力方向、真实姿态、校准和3D重建的图像。示例图像显示在补充材料中。为了在实际数据上测试所提出的解算器，我们选择了一种最先进的RANSAC，即Graph-Cut RANSAC 6[4]（GC-RANSAC）。在GC-RANSAC（和其他局部优化的RANSAC）中，使用两个不同的解算器：（a）用于从最小样本估计姿态和（b）用于在所有内点上进行最终姿态抛光或局部优化步骤中拟合大于最小样本的样本。我们在（a）中使用所提出的解算器。请注意，E5 fv解算器正在使用复杂符号系数填充大矩阵，这些系数是从符号行列式计算得到的。因此，C++实现（23.9 MB）在我们的实验中崩溃了。在这种情况下，我们提供了使用E5 fv解算器的额外Matlab（C++-mex）测试。图4显示了在KITTI数据集上旋转、平移和焦距误差、运行时间、迭代次数和内点数的累积分布函数（CDF）。准确性被解释为曲线接近左上角。两个提出的解算器比测试的SOTA解算器提供更准确的旋转、平移和焦距估计。同时，新的解算器需要更少的RANSAC迭代次数，因此更快。虽然SOTA方法提供更多的内点05 http://www.cvlibs.net/datasets/kitti0123450.50.60.70.80.91(a)0510152000.20.40.60.81(b)00.050.10.150.20.250.30.40.50.60.70.80.9(c)0.20.40.60.81(d)0.20.40.60.81(e)00.20.40.60.81(f)E4fsE6lE6fsF7ξR (◦)MEDAVG0.591.170.571.052.314.754.9320.39ξT (◦)MEDAVG16.5523.1017.8423.1630.6539.1029.8137.81ξf (%)MEDAVG0.300.740.491.250.501.581.1811.05ξR(◦)ξT(◦)ξf (%)E4fsMEDAVG0.881.333.625.601.161.63E5fvMEDAVG2.055.135.059.5220.3533.88127730角度误差（度）0概率0旋转误差CDF0角度误差（度）0概率0平移误差CDF0相对误差0概率0焦距误差CDF0-2.5 -2 -1.5 -1 log 10 时间（秒）0概率0运行时间CDF01.6 1.8 2 2.2 2.4 2.6 2.8 log 10 # 迭代次数0概率0迭代次数CDF02 2.5 3 3.5 log 10 # 内点0概率0内点数CDF0图4.GC-RANSAC在KITTI数据集（23,190张图像）上的（a）旋转，（b）平移（都以度为单位），（c）焦距误差，（d）运行时间，（e）迭代次数和（f）内点数的CDF。准确性被解释为曲线接近左上角。0# 迭代次数 AVG 101 120 150 776 # 内点 AVG 13701345 1275 11000表2.在捕获的PHONE数据集（12,464个图像对）上的解算器比较。报告了旋转（ξ R），平移（ξ t）和相对焦距（ξ f）误差。最佳结果用粗体标记。0对于大多数实际应用来说，姿态准确性通常更为重要。表2显示了PHONE数据集的中位数和平均旋转、平移和焦距误差。我们对该数据集使用了每10帧。再次，所提出的解算器比SOTA解算器具有更准确的结果，更多的内点和更少的迭代次数。表3显示了PHONE数据集第一个序列上E4 f s和E5fv（使用Matlab的预编译C++-mex实现）的比较。其他结果在补充材料中。0限制。在本文中，我们假设两个相机具有共同的方向，可以从IMU读数中提取出来。由于现代智能手机、平板电脑和机器人中使用的相机通常配备有IMU，我们认为这个假设是合理和实际的。0表3. 在PHONE数据集的第一个序列上比较E4 f s和E5 fv。最佳结果用粗体标记。08. 结论0在本文中，我们专注于当一个相机完全校准而另一个相机的焦距未知的情况。假设已知一个共同的参考方向，我们提出了新的最小化解算器，可以从至少四个点对应中估计相对姿态和未知的焦距。我们还提出了一个线性解算器，可以从大于最小样本的样本中高效地估计姿态。具有一个校准的相机和一个焦距未知的相机的配置对于传统的六点算法的典型退化情况具有抵抗力，并且具有一些实际的好处，例如在处理大规模数据集时。我们在公开可用的数据集上的数千个图像对和一个新的PHONE数据集上展示了所提出的解算器在准确性和处理时间方面优于现有技术。源代码和PHONE数据集可在https://github.com/yaqding/relative-pose-E4f获得。致谢。本工作得到了ETHZurich博士后奖学金和OP VVV资助的项目CZ.02.1.01/0.0/0.0/16019/0000765“信息学研究中心”的支持。127740参考文献0[1] Realitycapture. http://www.capturingreality.com . 7 [2]Cenek Albl，Zuzana Kukelova和Tomas Pajdla.具有已知垂直方向的卷帘快门绝对姿态问题。在计算机视觉和模式识别（CVPR）中，2016年。 20[3] Zhaojun Bai，James Demmel，Jack Dongarra，AxelRuhe和Henk van der Vorst.代数特征值问题的解决方案模板：实用指南。SIAM，2000年。 40[4] Daniel Barath和Jiˇr´ı Matas.图割RANSAC。在计算机视觉和模式识别（CVPR）中，2018年。 70[5] Daniel Barath，Dmytro Mishkin，Ivan Eichhardt，IliaShipachev和Jiri Matas.用于全局SFM的高效初始姿态图生成。在计算机视觉和模式识别（CVPR）中，页14546-14555，2021年。 10[6] Daniel Barath，Jana Noskova和Jiri Matas.边缘化采样一致性。模式分析与机器智能（PAMI）交易，2021年。 50[7] Snehal Bhayani，Zuzana Kukelova和Janne Heikkila.基于稀疏结果的高效最小解算器方法。在计算机视觉和模式识别（CVPR）中，2020年。 2 , 3 , 40[8] Sylvain Bougnoux.从投影空间到欧几里德空间在任何实际情况下，对自标定的批评。在国际计算机视觉会议（ICCV）中，1998年。 20[9] Martin Bujnak，Zuzana Kukelova和Tomas Pajdla.从具有单个已知焦距的图像集合进行3D重建。在国际计算机视觉会议（ICCV）中，页1803-1810。IEEE，2009年。 2 , 4 , 50[10] David A Cox，John Little和Donal O'shea.使用代数几何。Springer Science & Business Media，2006年。30[11] Yaqing Ding，Daniel Barath和Zuzana Kukelova.在国际计算机视觉会议（ICCV）中，给定重力先验的全景拼接的最小

下载后可阅读完整内容，剩余1页未读，立即下载