摄像机共线的平均双焦张量算法

123 浏览量更新于2023-10-24 收藏 592KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1共线摄像机中本质矩阵和基本矩阵的平均Amnon Geifman* Yoni Kasten* Meirav Galun Ronen Basri Weizmann科学{amnon.geifman，yoni.kasten，meirav.galun，ronen.basri}@ weizmann.ac.il摘要近年来，从运动构造结构的全局方法得到了广泛的应用全局方法的一个显著缺点在本文中，我们介绍了一种分析和算法，平均双焦张量（基本或基本矩阵）时，任一子集或所有的相机中心共线。我们提供了一个完整的谱表征双焦点张量在共线的情况下，并进一步提出了两个平均算法。第一种算法使用秩约束最小化来恢复完全共线设置中的相机矩阵。第二种算法利用附加的“虚拟相机”来丰富可能混合的共线和非共线相机的集合，所述附加的我们的算法在各种基准上实现了最先进的结果，包括自动驾驶汽车数据集和校准和未校准设置中的无序图像集合1. 介绍运动恢复结构（SfM）的全局方法使用图像对之间的双焦点张量（基本或基本矩阵）近年来，这些方法由于其高精度和高效率而受到欢迎。与增量方法相反，增量方法每次恢复一个图像的相机参数，因此涉及对每个处理的图像重复应用光束法平差（BA），全局算法仅应用BA一次，大大减少了执行时间。现有的全局算法主要分两步进行，首先应用旋转平均，然后应用平移平均。最近的算法通过在一个步骤中直接平均基本和基本矩阵来进一步提高精度[13，14]。* 同等贡献者全局方法的一个显著缺点是它们对共线相机设置的敏感性。当场景中的所有摄像机中心都位于一条线上时，双焦张量不能确定摄像机沿这条线的位置，必须利用三个或更多图像此外，只有双焦点张量，共线相机的子集可以导致重建的场景部分，连接非刚性。最后，[13，14]的平均算法严格地将其恢复基于图像的三元组子集合，其相机必须位于一般位置。这严重限制了这些算法的适用性，在许多情况下需要从输入数据集中移除许多图像处理共线相机设置对于许多SLAM应用至关重要，包括自动驾驶[8]。本文介绍了一种分析和新的解决方案，三维重建问题涉及相机与共线中心的上下文中的双焦张量平均。我们注意到，到目前为止，这个问题只在平移平均的上下文中得到了解决[5，11，34]。我们介绍了一个完整的代数表征的双焦张量共线的情况下，提供了必要和充分条件，双焦张量可以实现的相机共线中心。我们的分析补充了[13，14]中为一般位置的摄像机导出的条件和[25]中导出的共线设置的部分条件。具体地说，我们采用这些文献中介绍的n-视图双焦点矩阵的定义，给出了这些矩阵的谱分解和秩模式的充分刻画。我们建立在此特性的基础上，设计适用于校准和未校准设置的全局SfM的最先进的算法。我们首先介绍一种方法，可能错误的双焦点张量，加强我们的光谱约束。该算法适用于在完全共线设置中捕获的图像集合。随后，我们提出了第二个算法的双焦张量平均，可以将共线相机和相机在一般的位置。该算法基于以下新颖的观察。给定跨三个视图的点匹配，可以定义以该点的未知3D位置为中心的虚拟相机，然后60216022我我3我我i jj依次构造将该虚拟相机与对应于这些视图的三个相机中的任何一个相关联的双焦张量选择该点以使其投影远离核线，确保虚拟摄像机的中心与真实摄像机不共线。因此，我们可以用新构造的矩阵来增加双焦张量的集合，然后将它们馈送到标准的双焦张量平均方案，使我们能够在完全和部分共线的相机设置中获得解决方案。我们在各种应用中展示了最新的结果，并且通过允许在优化过程中并入共线相机三元组来特别改进[13，14]我们根据四个基准评估我们的建议出租：自动驾驶汽车数据集[8]以及校准和未校准设置中的无序图像集合[34，19，33]。处理点跟踪。许多论文通过研究其相应的观察图来分析SfM的可解性，其中每个节点代表一个摄像机，边缘代表可用的基本矩阵[16，20，23，29，30]。然而，这些方法假设相机处于一般位置，并且因此不确定哪些观看图在（可能部分地）共线设置中是3. 共线设置的表征让我1，...，In表示分别由相机P1，… Pn. 每个摄像机Pi由3×4矩阵Pi=KiRT[I，−ti]其中Ki是3×3校准矩阵，ti∈R和Ri∈SO（3）表示的位置和方向在一些全局坐标系中。我们毛皮-记为Vi=K−TRT，因此摄像机投影2. 相关工作ii用于校准[24，15，27，1，35]和未校准SfM设置[17，22]的增量方法使用两个图像来获得初始重建，然后增量使用相机切除方法[7，12，21，36，10，3]，每次添加一个图像以扩展重建。束调整[31]对每个额外的图像进行，以防止相机参数的误差漂移，从而使该过程的计算要求很高。SfM的全局方法使用双焦点张量的集合大多数现有的全球办法，矩阵可以表示为Pi=V−T[I，−ti]（1）因此，令X =（X，Y，Z）T是全局坐标系中的场景点。它在Ii上的投影由xi=Xi/Zi给出，其中Xi=（Xi，Yi，Zi）T=KiRT（X−ti）。我们分别用Fij和Eij表示图像Ii和Ij之间的基本矩阵和本质矩阵。在[2]中证明了Eij和Fij可以写成aEij=RT（Ti-Tj）Rj（2）设置首先从基本矩阵中提取成对旋转，然后执行旋转平均[2，18，32，9，4]，最后求解摄像机位置[2，34，20，11，5，6]。其中T是Fij=K−TEijK−1=Vi（Ti−Tj）VT=[ti]×.（三）Kasten等人[13]介绍了一种对基本矩阵求平均的方法，允许在单个优化框架中求解摄像机位置和方向。在未校准的设置中，Sweeney et al.[29]提出了一种方法，首先改进测量的基本矩阵，然后在自校准后，应用旋转平均，然后进行平移平均。最近，[14]引入了一种基本矩阵的平均算法，该算法产生唯一的投影重建。全局方法依赖于双焦点张量的集合，但这些方法不能确定共线相机设置中的平移幅度，并且必须使用从三个或更多图像中的点轨迹恢复的3D点。这个问题已经在翻译的背景下得到了解决，重复 Jiang等人[11]恢复平移幅度，最近，[13，14]建立了一组代数控制，应变表征双焦张量的一致性相机的中心在于一般的位置。在本文中，我们补充这些特征处理共线相机中心。我们首先重复在[13，14]中所作的下列定义。用S3n表示所有3n×3n对称矩阵的集合.定义1. 一个矩阵F∈S3n，其3× 3的分块用Fij表示，称F是n-视图基本矩阵，如果其中，f i j= j ∈ [n]，rank（Fij）= 2，Fii= 0。我们用F表示所有这样的矩阵的集合。定义2. 一个n维基本矩阵F称为如果存在摄像机矩阵P1，...， Pn的形式Pi=V−T[I，ti]，满足Fij=Vi（[ti]×−[tj]×）VT。I j通过记录3D从每对摄像机独立三角测量的点。类似于我们的第二个算法，威尔逊等人。[34]在平移平均中使用未知3D点作为附加（但不是共线）凸轮。Cui等人[11][12][13]定义3.一个矩阵E ∈ S3n，其3 × 3分块记为Eij，如果Eij=j，rank（Eij）= 2，Eij的两个奇异值相等，Eii= 0，则称它为n维本质矩阵. 我们用E表示所有这样的矩阵的集合。6023i=1{}我我P∈E×∈FF∈×∈--∈∈2∈3|| ≤∈定义4. 一个n维本质矩阵E称为consis-如果G是一致的，则F决定所有的参数。如果存在n个旋转矩阵{Ri}n，则为帐篷n向量相机唯一（直到全局投影变换tni=1 使得Eij= RT（[ti]×− [tj]×）Rj。（见第4段）。此外，实施三元组的一致性比较大相机集合的一致性更容易，因为对于相机而言，接下来，我们推导出以下条件的充分必要条件：共线相机设置中的基本矩阵和基本矩阵的一致性。定理1. 让E.然后，E是一致的，并且可以由具有共线中心的相机实现，当且仅当E满足以下两个条件：1. E的特征值为λ，λ，−λ，−λ，其中λ >0。2. 相应的本征向量rs，X，Y∈R3n×2，ar e三胞胎的一致性与估计的规模无关配对双焦张量S. 下面我们用m≤n表示G<$中的顶点数并通过τ（1），.， τ（m）。我们进一步表示为Eτ（k）（resp. Fτ（k））99E（resp. F）对应于三重态τ（k）。接下来，我们提出两个平均算法。第一个算法处理的图像采集与相机的中心都是近共线。第二种算法也允许部分共线性。我们进一步展示如何使得每个3×2子块Vi，满足VTVi=1I2×2。0的情况。5（X+Y）这两种算法都可以应用于校准和未校准中，校准设置。在每种情况下，我们将问题表述为在秩约束优化，我们解决了使用ADMM定理2. 设F.然后，F是一致的，并且可以由具有共线中心的相机实现，当且仅当以下条件成立1. rank（F）=4且F恰好有2个正特征值和2个负特征值.2. rank（Fi）=2，其中Fi表示F，i∈[n].这两个定理的证明都在附录中给出。4. 方法类似于[13，14]。4.1. 完全共线设置我们的第一个算法应用Thms。1和2处理完全共线设置。4.1.1校准设置给出我们寻求求解的测量矩阵E和三重态CΣm在本节中，我们提出了双焦张量的算法minE∈Ek=1||2||2（四）当任一子集或所有相机中心共线时求平均我们假设给定图像I1，...， In以及测量的双焦张量的（可能部分和错误的）集合，如果相机未校准，则由{Fij}表示，或者由Eij表示如果它们被校准。我们的目标是找到一个一致的n-视图双焦矩阵FS3N （分别（3）whose 3三个街区都很近-可用于测量张量。类似于[13，14]，我们的算法依赖于构建满足某些刚性约束的查看图的三元组覆盖。具体地，设G=（V，W）为其顶点v1，...，vn∈ V表示n个摄像机，边wijW代表对。〇f测量双焦点张量的双焦点图像（Wn）。的在G中捕获的信息被概括在n视图双焦矩阵F中。S3n（resp. E.一个三元组c over是一个连通的对偶图G¯，其节点表示G中的3-团（可能是其子集），边连接G中相应的3-团共享一条边的每两个顶点（即，三胞胎共享两个相机）。由这种连通对偶图表示的配置满足类刚性条件，根据该条件，如[14]中所证明的，对于一般情况下的未校准相机，如果F的每个9×9子矩阵对应于一个顶点，S.T. rank（Eτ（k））= 4λ1（Eτ（k））=−λ4（Eτ（k）），λ2（Eτ（k））=−λ3（Eτ（k））其中λi（. ）表示矩阵的非零特征值，i[4]和k[m]。我们注意到，在（4）中，我们排除了Thm的条件2。1、简化优化。我们的实验在所有情况下都收敛到满足Thm的所有条件的解。1.一、恢复相机参数。一旦我们得到一个n-视图的本质矩阵，其三元组是一致的，我们继续确定相应的n相机矩阵。在这个过程中有两个障碍。一是所获得的基本矩阵不能唯一地确定旋转，其次，在共线设置中，基本矩阵只能确定连接摄像机中心的线的方向，而不能确定沿着该线的位置。由于基本矩阵的模糊性，三个视图产生八个可能的旋转配置，其中典型地四个产生循环一致配置（即，满足R12R23R31=I）。为了选择适当的配置，我们首先使用[10]中的2视图对应来确定成对旋转，然后使用[2]的特征值分解方法恢复三个相机R1，R2，R3的6024−−×1不不×F我J∈∈V不det（B）33我我∈∈接下来，我们需要恢复相机的绝对位置。因为我们的程序强制执行的条件。对于每个三元组，由于三元组盖的刚性结构，所有恢复的基本矩阵在通过相机中心的线的方向上一致。因此，我们设置t1=0，t2=R1t12，并且t3=αt2=αR1t12，其中提取相对平移t12从E12，震级为1，符号用2-观点对应。这产生以下相机矩阵 P1=[RT|0] ，P2=[R2|R2R1t12]，且P3=[RT|αRTR1t12]。为了确定α，我们必须求助于三视图对应。使用前两个视图，我们重新覆盖3D点X，然后获得形式为P3Xx3=0的方程，该方程提供了两个线性方程，对于每个3视图对应。原则上，两点对应足以确定a，但为了稳定性，我们将所有内点3视图对应合并。该过程独立地应用于每个三元组的相机，从而产生定义为投影变换的相机矩阵。与校准的情况一样，α的选择不改变F，并且它仅解决了重建相机时的模糊性最后，通过遍历3-查看对应关系。设βixi=PiX，i∈[3]，de-注意3D点X的三个投影，其中βi表示x的投影深度i.与DLT算法[10]一样，我们使用前两个方程来确定X，然后根据P3Xx3=0确定α。这样的方程可以对于每一个3视图对应，都可以写上，从而得到一个α中的过约束线性方程组，我们可以用最小二乘法求解。我们强调，旋转和α的选择不会改变E，因此它保持其considerability，仅解决重建底层相机时的模糊性。最后，我们使用[13]中的方法，对G′进行变换，并将所有n个摄像机带到一个公共的欧几里得坐标系中。4.1.2未校准设置我们求解了Giv en测量矩阵F和G上的三重态cΣm如[14]，所有相机都被带到一个共同的亲，射坐标系4.2. 使用虚拟相机处理共线性该算法在SEC。4.1处理所有相机（几乎）共线的数据集。然而，许多常见的数据集包含共线相机和一般位置的相机接下来，我们提出了一个双焦张量平均算法，可以应用于任何这样的相机集合。我们的算法将[13，14]的平均这些以前的算法的主要限制是它们依赖于构造一个三元组覆盖，其中每个三元组必须包括由相机在一般位置捕获的图像。这限制了算法在包括共线相机集的数据集中的适用性，并且通常导致丢弃许多输入图像。下面，我们提出了一种新的方法，克服了这一限制。minF∈F<$k=1||2||2（五）我们的方法是基于增广共线三元组of cameras by constructing virtual cameras centered aroundS.T. rank（Fτ（k））= 4。在这里，我们用F′表示n维基本矩阵的集合ces，其中我们放松了rank（Fij）= 2的要求。为对应于3视点匹配的3D点，与真实的摄像机不在同一直线设P1、P2和P3为三个摄像机的三个摄像机。召回（方程式（1）-（3））每个相机可以通过Pi=[V-T|− V −Tti] ∈为了实现的简单性，我们不强制Thm的全部约束集合。二、然而，在我们的实验中得到的解决方案，总是满足所有这些条件。恢复相机参数。一旦我们得到一个-查看基本矩阵的三元组是一致的，继续确定相应的N个摄像机矩阵。在这里，由于共线性，重建也不是唯一的[10]。形式上，根据[10，16]，给定两个基本矩阵F12，F23，在确定三个相机矩阵时有四个自由度，这三个相机矩阵是共同的。R3×4，i[3]，其中，在校准设置中，Vi= RTSO（3），以及相关的双焦张量由下式给出：Fij=Vi[ti−tj]×VT，i，j∈[3]。设XR3是三个摄像机看到的三维点。我们的目标是构建双焦张量的虚拟相机中心在X与三个真正的相机P1，P2和P3。我们进一步为虚拟相机选择与真实相机之一的取向一致的比如VX=V2。然后，针对i[3]的双焦张量FiX可以表示为：与F12和F23兼容。摄像机矩阵可以表示为P2=[I|0]，P1=[[e21]×F12|[21]和FiX =Vi[ti−X]×2P3=[[e23]×F T|0]+ e23a]，其中eij是零空间=1[V−T（t我-X）] V−TVT，23Fij的向量（核极），且a∈R4可以任意设置-det（Vi−1）×i2伊利对于一般位置的摄像机，剩余的基金-心理矩阵F13唯一地确定a的条目。然而，当三个摄像机共线时，A不受F13的限制. 类似于Sec。4.1，我们解决了一个使用其中对于后一个等式，我们使用恒等式B−1[a]×=1[BTa]×BT。设xi=[xi，yi，1]T∈R3为X在帧i上的投影。则它成立，Sixi=不我6025我−FFFF23F≤−FPi[XT，1]T =V −T（Xti），其中si是X相对于相机i的投影深度。因此，我们认为，F=−si[x] V，（6）视觉里程计数据集[8]以及校准[34]和未校准[19，33]图像的无序集合。由于我们的第一个算法（Sec. 4.1），我们用“R4”表示det（Vi−1）i×i2KITTI序列第二个算法（Sec. 4.2），de-其中Vi2=V−TVT。通过构造，矩阵标记为我们比较了算法-I20F12F13F1X最近几种方法的算法，包括[13]，LUD [20]和1DSFM[34]用于校准数据集和GPSFMT型0F23F2X[14]与PPSFM [17]对于那些没有校准的人。为12中文（简体）T TT13 230F3X校准设置，我们比较平均值和中位数trans.T T T1X2X3X是一致的4视图双焦矩阵。注意，（6）中的FiX可以从输入图像中估计，因为Vi2可以从FiX12和尺度中估计−si/det（Vi−1）可以丢弃。具体而言，在校准设置中，我们从E i 2估计Vi2=Ri2。得到两个选择正确的一个。在未校准的设置中，按照第2.2节中所述的相机恢复和3视图对应的4.1.2，我们得到V12=V−TV2=[e21]×F12，V22=I，V32=V−TV2=对于未校准的设置，我们比较平均重投影误差5.1. 数据集驾驶汽车图片收藏。KITTI visual odom-tools [8]基准测试包括11个视频序列，这些视频序列是由移动的汽车通过地面实况摄像机位置和方向捕获的。作为典型的驾驶，这些序列通常包含近共线运动的延伸。在我们的实验中，我们为11个数据集中的每个数据集随机选择了三个近共线的连续性（通过应用PCA1[e23]×FT3+e23[a1，a2，a3]。最后，X可以被选择为到地面实况摄像机位置），每个包括100个跳转然后，我们使用每个序列产生三个颜色，与三个真实摄像机的中心不共线。因此，（7）的估计元素可以用于增强观看图G，然后用于[13，14]的平均算法，其在一般位置场景中是适用的和稳定的。这些算法使用ADMM来解决约束优化问题，为了完整，我们总结如下。基本矩阵的平均化[13]。给定一个测度矩阵E和G<$上的三元组c，我们求解veΣm非重叠序列的选择，每个长度为5、10或20帧，在3300帧上产生总共1155个序列。无秩序的互联网照片。我们进一步测试我们的VC al-出租在校准无序的互联网照片集合上，由[34]收集。我们注意到，该数据集的该数据集包括许多离群照片，因此，除了最大化准确性外，我们的目标是最大化minE∈Ek=1||2||2（八）摄像头的处理方法。其他数据集包括未校准的照片[19，33]。作为S.T. rank（Eτ（k））= 6λi（Eτ（k））=−λ7−i（Eτ （k）），i=1，2，3X（Eτ（k））+Y（Eτ（k））是块旋转，数据集包括未知相机对未知3D点的内点2D投影列表，允许我们通过平均重投影误差来评估其中X（E）τ（k））、Y（Eτ（k））∈R9×3包含5.2. 构建一个三重覆盖Eτ（k）的特征向量分别对应于pos-正负特征值。平均基本矩阵[14]。给定一个测量矩阵F和G<$上的三重态c，我们求解veΣm我们的R4和VC算法都需要一个三元组覆盖图G′作为输入。我们通过应用遵循三个步骤。初始三重态转换完毕。F或我们的R4算法，我们简单地使用连续的相机三元组（i-1，i，i+1）初始化G'，minF∈F<$k=1||2||2（九）2i 0。接下来，为了证明第二个条件，我们首先构造T是3×3斜对称的，因此它有2个相同的sin-A的SVD分解，使用A=A_U_V_T_i_in（i），以及第三个值为零（而第三个值为零）。因此，委员会认为，（对称）矩阵UTU具有两个相同特征值-T=P的稀疏SVD分解σ0QT0σ与ues，具有形式UTU=的PΛ<$PT，其中Λ<$=diag[λ<$，λ<$，0]且P∈SO（3）。因此P，Q∈R=α−我我们甲氧基D[13个国家]陆D[201DSFM[34]数据集TR+TTBAT总计TR+TTBAT总计TR+TTBAT总计TR+TTBAT总计维也纳大教堂14526293068293566787208146732336113934Piazza del Popolo5439143262787883116242213255纽约图书馆558021428581251024720047382429阿拉莫9611550947155327385133750152646798约克明斯特6710029633116207103148297719551026蒙特利尔ND80216626411704942711675539310431136伦敦塔8913228041120241888622861750811埃利斯岛40441702153140---29276305数据集Mn误差（像素）时间（秒）VC[14个][17个]VC[14个][17个]小行星49834983360.430.420.4715.754.6513.00福尔克·菲尔比特21150400.260.820.3114.306.70102.77基路伯72784650.750.740.8148.5227.30101.64多伦多大学7087770.240.540.2630.4726.5991.26斯里兰卡Thendayuthapani88849980.310.510.33219.11220.25325.58尼古拉一世37857980.290.320.3189.9370.79101.01斯莫尔尼大教堂511151310.460.480.50303.62210.75263.606029αRRTαRT不3×2表示PTP=I2×2。设U=rank（U）=2，并且使用（11），11 1.ATA= VP<$PTVT。（十三）1Σ2我αn nP和V=1。所以UTU=不n√nR.6030n ∈F√E ∈ E∈∈我我我我∈×我∈×我n∈ −我我nˆ∈√∈n ∈F∈我也是。I2×2和VTV=I2×2。然后，使用（10），B. 定理2A=UVT=.Σnαi21ΣΣσ0U0σV.证据：假设F是一致的并且由具有共线中心的相机实现。然后，根据定义和由于共线性，F可以用公式表示为F = A + AT，其中A的这种稀疏SVD分解意味着E的稀疏SVD分解是形式（14）。使用引理1，则V=0。5（X+Y），其中X和Y包括A=UVT和U，VR3n×3，α1V1V1E的n个特征向量与V的子块正交，因为V_i=11R_T_Q满足V_i=1I_2×2，i∈[n]，U=.αnVn凯特，V=。,Vn这意味着满足第二个条件。：我们证明，如果E满足条件1-2，E是一致的。在条件1之后，E的秩为4其中ViR3×3为满秩，T =[t]×且tR3。接下来，我们证明rank（F）= 4。使用QR分解-我们可以写为Vi=K-TRT，其中Ki是可逆的我我通过如引理1中的形式的谱分解因此，由于这个引理，它的SVD采取以下形式：E=λU<$V <$ T+λV<$U<$ T，其中U<$，V<$∈R3n×2是given上三角形且Ri∈SO（3）.由于Vi的满秩，该分解是唯一的。因此我们可以写F=KTEK，其中3n×3n矩阵K是块对角矩阵。U=0。5（X-Y），V=0。5（X+Y）。更多-由{K−1}n形成的3 × 3块的正交，因此具有由于条件（2），所有3

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

摄像机共线的平均双焦张量算法

三焦点张量的计算以及计算机视觉中的应用

张量算法简明教程pdf

cp张量分解算法 python

基于CP张量SURF算法原理

张量补全算法python代码

pytorch元素级平均两个张量

fluent中脉动速度的平均二阶相关张量怎么提取

脉动速度平均二阶张量怎么计算

请详细介绍有限尺寸闭合张量网络收缩算法的步骤

matlab中优化张量变成张量

HOSVD算法求核心张量和因子矩阵的时间复杂度

MATLAB实现HOSVD算法，随机生成一个三阶张量，给出分解误差。

fluent r2021软件中提取大涡模拟的脉动速度平均二阶张量，具体步骤是？

matlab 非负张量分解

matlab 如何实现张量分解

张量 数据压缩 matlab

matlab实现HOSVD算法,随机生成一个三阶张量,给出分解误差

非负张量分解 python

输入张量和输出张量具体区别在哪儿

最新资源

cp张量分解算法　python

张量数据压缩 matlab