基于图神经网络的相机姿态估计与优化

157 浏览量更新于2023-10-14 收藏 909KB PDF 举报

位姿估计

图神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5895PoGO-Net：基于图神经网络的李欣怡*Magic Leap，Sunnyvale，CA，美国xinli@magicleap.com林海滨†石溪大学，石溪，纽约，美国hling@cs.stonybrook.edu摘要准确的相机位姿估计或全局相机重新定位是运动恢复结构（SfM）和SLAM系统中的核心组件。给定成对的相对相机姿态，姿态图优化（PGO）涉及求解全局一致的绝对相机姿态的优化集合。在这项工作中，我们提出了一种新的PGO计划的图神经网络（GNN），即PoGO-Net，进行绝对相机姿态回归杠杆多重旋转平均（MRA）。具体地，PoGO-Net将噪声视图图作为输入，其中节点和边被设计为对几何约束和局部图一致性进行编码此外，我们解决了离群边缘去除利用一个隐式的边缘丢弃方案，噪声或损坏的边缘有效地过滤掉参数化网络。此外，我们引入了一个联合损失函数嵌入MRA配方，使鲁棒推理是能够实现实时性能，即使是大规模的场景。我们提出的网络在公共基准上进行端到端的训练，在广泛的实验中表现优于最先进的方法，证明了我们提出的网络的效率和鲁棒性1. 介绍视觉定位或相机姿态回归是许多计算机视觉和机器人任务的核心，其应用包括机器人导航、自主驾驶和增强现实。相机姿态估计是借助图像检索的顺序信息自确定方向和位置的过程。姿态图优化（pose-graphoptimization，PGO）是标准摄像机姿态估计流程中的关键部分，它涉及摄像机相对姿态的迭代估计和噪声全局视图的渐进优化。在大多数传统的运动恢复结构（SfM）[65，69]和SLAM [47]系统中，PGO是*工作主要在天普大学研究生学习期间进行†通讯作者。作为通过利用特征-帧对应来数值求解高维非凸近似问题来进行，并且通常产生高计算成本。尽管解决SfM系统中的后端优化的研究激增，但许多挑战仍然存在。首先，规范解算器携带关于输入大小的cubic顺序的复杂性并且逐渐减慢[67]，从而丧失实时要求。其次，成对相对相机姿态的测量通常是有噪声的，在视图图中产生损坏和错误的边缘，并且此后损害常规方法和基于学习的方法的性能[52]。第三，使用深度学习网络进行结构和运动的直接回归容易过拟合[55，62]，阻碍了鲁棒性和通用性。受图神经网络（GNNs）[53]最近成功的启发，我们在此提出了一种新的基于GNN的PGO方案，以解决具有具体网络（即PoGO-Net）的所有上述问题。具体而言，我们编码的边缘消息与成对的几何约束的边缘上的视图图，与本地一致性信息聚合绝对相机方位被编码为节点特征，根据其连接的边缘和相邻节点进行更新。由于我们将输入视为具有错误和冗余边的损坏图，因此我们通过利用拓扑参数化网络层进行“边丢弃”来解决图去噪问题根据局部图一致性，去除离群边缘，得到输入视图图的更稀疏但更精确的子图。我们重新定义了消息聚合，并设计了基于多旋转平均（MRA）算法的损失函数，与有效的消息传递方案，我们提出的网络是能够实时处理的速度，即使是大规模的数据集。此外，我们的网络具有端到端的可微分结构，其中去噪层和GNN层的参数在训练期间被联合优化。我们的贡献可归纳如下：• 我们提出了一种新的PGO制定燃料与GNN进行绝对相机姿态回归利用MRA计划。5896• 我们设计去噪层来解决PGO中的离群边缘去除。我们提出的去噪层与GNN层一起迭代执行，隐含地利用• 我们对PoGO-Net进行端到端训练，该网络可以轻松地与传统和基于学习的SfM系统*集成。在公共基准上的大量实验证明了我们提出的网络的准确性，效率2. 相关工作常规PGO方法。给定3D场景，通过应用鲁棒方法[21，50]来初始估计成对相对相机姿态以拒绝匹配的特征对应异常值，并且因此拟合本质/基本矩阵[2]，然后进行视图图细化，即，PGO迭代。在传统SfM方法的标准PGO流水线[19，35，47，56]中，解决高维非凸优化问题[27，58]主要涉及采用迭代非线性数值求解器[1，45，48，64]，以通过联合优化3D场景点、相机取向和平移[42，5]来最小化重投影误差8，68]，即捆绑调整（BA）。作为BA中的子问题，旋转平均（RA）[26，29]致力于在给定相对相机旋转的一组噪声测量的情况下求解相机取向，并且可以被分类为单次旋转平均[28，38，40]和多次旋转平均（MRA）[4，7，20，44]。前者提供了一个旋转的最佳解决方案，给出了几个估计，而后者可以被认为是一个同步问题，其目标是在给定噪声边缘标记的情况下恢复图中的未知顶点标记[3]。近年来，我们见证了对MRA的研究兴趣激增[9尽管MRA由于其旋转群空间的非凸性而仍然是计算上难以解决的问题，但与基于点帧对应的常规BA方法[11，17，66]相比，它通过承认更低的维度和复杂度而显示出优势，从而实现更快和更轻的求解器。然而，MRA的主要挑战与异常边缘相关联，即，在不知道视图图中的边缘上的噪声分布的情况下，MRA的准确性和鲁棒性被极大地削弱[4，12，44，65]。最近有大量的工作针对稳健和有效的MRA方法，可以进一步分类为显式离群值检测/去除方案[12，29，49]和隐式降噪方案[4，14，63]。基于学习的SfM方法。直到最近，研究兴趣才集中在将深度*代码https://github.com/xxylii/PoGO-Net神经网络到SfM管道和相机姿态回归任务[5，18，22，33，36，57，61，71]。作为一个在采用神经网络进行相机姿态回归的最早工作中，[33]中提出的深度卷积神经网络[33]《易经·系辞下》：“以德为本，以德为本。虽然将传统网络转换为姿态回归框架，但是它不将视图图的帧内约束或连接性进行优化，因此在准确性上几乎没有超过传统对应物，如稍后在[13，52，72]中改进的。其他工作利用给定序列图像之间的代数或几何关系并训练网络以预测定位图像[8，13，59，61]，其中[13]通过为双向LSTM配备CNN-RNN模型来利用序列图像的时间一致性，使得时间规律性可以在回归中提供更多的姿态信息[8]中的方法通过利用来自IMU和GPS的附加测量，利用帧之间的成对几何约束来训练DNN模型神经网络的采用也极大地有益于平行线研究，包括3D配准和点云对齐[6，25]。最近的工作[72]是第一项在完全绝对相机姿态回归框架中利用GNNs的研究，其中作者使用与CNN提取的图像特征融合的节点对视图图进行建模。另一种最近的方法 [49] 提出了一种基于 GNN 的网络来解决MRA，其中该网络由两个子网络组成，分别解决离群点去除和姿势细化。虽然这两种基于GNN的方法都取得了令人满意的性能，但存在局限性，可以进行改进例如，节点特征和边缘值的相关性在[72]中被视为纯二进制，丢弃帧之间的几何约束此外，图被初始化为完全连接的，这可能引入大量的冗余和错误的边缘。在我们的工作中，我们编码的边缘消息与成对的几何约束的视图图的边缘，与本地一致性信息聚合。虽然受到NeuRoRA [49]的启发，但所提出的网络通过边缘消息的显式公式化来实现此外，通过允许节点-边缘联合消息聚合使得仅需要一个单个丢失来更有效地保存图形信息，从而促进端到端训练，而在NeuRoRA的网络设计中涉及额外的视图图清理丢失。特别地，我们通过引入去噪层来有效地去除离群点，从而解决了我们所提出的网络的鲁棒性。图神经网络。凭借其强大而敏捷的数据表示，GNN [34，53，60]已经实现了5897~我~~我~在众多计算机视觉任务中表现出色。尽管他们取得了成功，但由于GNN对噪声图的脆弱性，在解决PGO时直接采用GNN是不适用的在我们的工作中，我们通过采用参数化去噪层来减少离群边缘的负面影响[41，43，51]。3. 问题陈述3.1. 预备和符号给定具有n个图像帧的3D场景，考虑存在帧I i和I j之间的相对旋转的测量Rij∈SO（3）。假设在理想的sce中-其中Rij是无噪声的，则Ii和Ij的绝对旋转Ri，Rj∈SO（3）满足Rij=RjR−1。然而，在实践中，相对测量通常是不精确的。由于相对测量值具有噪声并且包含异常值，因此绝对相机取向估计是寻找与相对测量值全局一致的一组相机取向，该过程被称为多旋转平均（MRA）。形式上，MRA [12]是一个转换同步该问题涉及最小化成本函数，该成本函数使相对旋转R~ij和RjR-1 的测量值之间的差异永久化。也就是说，要解决以下问题-的真子图上进行MRA运算。4. PoGO-Net架构在本节中，我们详细描述了如图1B所示的所提出的PoGO-Net。1.一、具体来说，我们首先在§4.1中给出了网络架构概述，然后在§4.2中介绍了我们的图结构和特征嵌入。然后，我们在§4.3中说明了我们的消息聚合方案的新颖构造，其中节点消息和边缘消息都被有效地编码以收集每个节点邻域上的所有§4.4描述了我们提出的网络中的去噪层，其中去噪层被设计为与GNN层一起迭代执行，使得离群边缘可以被有效地隐式去除。在§4.5和§4.6中，我们强调了图更新规则和提出的损失函数。4.1. 体系结构概述如图1，我们的PoGO-Net将噪声视图图作为输入并输出优化的姿态图。由于输入中的绝对相机方向是未知的，因此我们通过播种跨度来初始化节点特征目标函数arg minR， R，1≤i，j≤n我Σρ。d（R~ij，RjR−1）Σ，（1）在具有最高度的节点（即，连接具有大多数节点），并且在我们的去噪层的帮助下，在图上传播初始化，所述去噪层主动地重新移动离群边缘。该网络具有多层ij（i，j）其中ρ（·）是鲁棒成本函数，并且d（·，·）是距离度量。我们在整个论文中采用四元数参数化和相应的度量[29]。3.2. 姿态图优化有了上面定义的MRA问题，现在我们准备制定PGO过程。设图G=（V，E）表示初始视图图，其中顶点集V={vi|i≤n}表示要估计的绝对相机取向的集合，并且边缘集合E ={（i，j）|v i，v j∈ V}描述了图像帧之间的相对相机取向在实践中-因此，视图图的边往往是有噪声的，这妨碍了我们直接在G上进行MRA。E是噪声的原因有两个方面：1）鉴于图像检索中存在不可减少的错误（例如：特征匹配），离群值成对相对测量难以消除。基于深度学习的方法[37，49]和传统的几何约束方法[10，44，63]。2)由于多个相机可以共享类似的视图，因此视图图倾向于具有冗余边缘，使得在等式（1）中定义的MRA不存在1经常被在我们的工作中，我们通过以下方式处理视图图中的噪声利用由参数化去噪层融合的前馈架构，由去噪层和GNN层组成。在每次迭代时，在通过GNN层更新聚合消息之前，去噪层对离群值边缘进行“边缘丢弃”方案。PoGO-Net是完全可区分的，端到端训练，以联合优化去噪层和GNN层。4.2. 特征嵌入对于输入视图图G=（V，E），表示相对取向集合的边缘集合E包含姿势侵略中所需的大部分基本信息。设rij∈ SO（3），（i，j）∈ E表示连接vi和vj的边的特征向量.由于节点表示未知的绝对相机取向，因此令qi∈SO（3），vi∈V表示节点特征。 {qi|vi∈V}可以被视为一组特征占位符，并且在-在训练过程中以生成树的方式交互初始化，更多细节在§4.5中给出。与其中从E导出的邻接矩阵AG是指示每个节点的邻域的二进制矩阵的常规GNNs相比，我们的工作中的邻接矩阵由参数化变量形成。具体地说，组成AG的元素的值说明了相应的边缘表示的测量是否可靠，即，小的值意味着边缘易于是噪声的或者甚至是异常值。AG参数化的详细信息见§4.4。5898G我Gr~Gr~r~IJIJIJ1+eQIZl表示二进制系数矩阵{zl}，⊙de-我r~ij我JIJLIJ图1：PoGO-Net管道的图示。我们提出的网络以一个嘈杂的视图图作为输入，输出是优化的姿势图。该网络采用多层前馈结构，消息传递方案，其中消息在连接的边缘和每个节点的相邻节点上聚合。去噪层被设计为去除离群边缘，并且与GNN层一起迭代地执行。最好用彩色观看。4.3. 消息聚合我们的网络采用了一个多层前馈架构，该架构是用消息传递方案[53]实现的，即，聚集的信息在每个节点的邻域上传播。由于节点和边是通过网络层交互更新的，因此我们设计了一种新的联合消息聚合方案，有效地增强了节点和边之间的交互。对节点消息和边缘消息两者进行详细地，表示Nl={v，j|对于第l层上的节点vi的邻域，消息生成如下将GNN应用于PGO任务，因为沿着边的消息聚合可能在整个图上传播和放大噪声在我们提出的网络中，我们通过利用详细地，考虑第l个处的邻接矩阵Al网络的第一层，在我们的网络中，Al的元素表示相应边缘特征的权重M=ρ{r~|(i, j) ∈ E l}++ ql,(2)在回归中。也就是说，Al=AG⊙ Zl，其中IJm_l =q_l++q_l++r~l，（3）llllling [31，43，60]，我们从be-mπi=mea n{r~ij|（i，j）∈E}++{qj|vj∈Ni}，（4）IJ将纯二进制化为确定性函数g的值其中+表示级联，πi表示节点的状态边缘消息M1IJ 如等式中所定义3、这样五岛对于PGO，从与给定相机姿势共享视图的所有相邻相机收集信息是可行的。系数是连续的和非二进制的。具体来说，让是一个独立的均匀分布的随机变量因此，我们将Vi的状态特征与所有关于MLIJ，则zl被定义为其邻域中的连接边和节点特征。zl=g（ωl（ml），l），（5）值得注意的是，由于我们提出的网络能够ijγr~ij通过在训练期间滤除离群值/冗余边缘，E通过不同的滤波器演化为更稀疏但更精确的边缘。其中ωγ1（·）是由γ1参数化的MLP。当我们鼓励网络去除边缘以进行优化时，层（详见§4.4）。node的两个组件我们推广了zl的开域（0，1）包括0。去-状态消息对应于所有连接的边注UL作为随机变量从二进制CON-相邻节点。由边缘消息参数化的具体分布，即，4.4. 图去噪ul=σ（（logl−log（1−l）+ωl（ml））/τ），（6）ijγr~ij由于PoGO-Net的输入通常是有噪声的，存在离群值/冗余边缘，因此直接计算PoGO-Net的输入是不实际其中τ >0表示温度参数[31，43]，σ（x）=1−x是sigmoid函数。既然要IJ注意逐元素乘法运算。关注-5899IJIJIJIJ我我我IJIJ我 JIJIJIJIJl +1llLLvi∈Viid图2：节点初始化。我们的去噪层能够根据基于生成树的初始化过程中的局部一致性过滤出离群边缘，防止错误的测量被广播。l∈（a，b），其中a为0且b>0，因此我们更新u_l为l=（b − a）u l+ a。现在我们准备最终确定zlasl=min（1，max（u（l，0）），（7）使得零值系数被启用。利用上述去噪方案，现在可以从视图图中有效地去除噪声边缘图3：我们网络中的反向传播方案的图示。去噪层基于边缘损失进行更新，而GNN参数由总损失进行调整。这是关于新出现的邻接矩阵。详细地，边特征与固有图连接性信息一起被聚合在边消息中。在每次迭代中，离群边缘在边缘消息在更新的本地区域上聚集对于小y，将（·）、φ（·）和μ（·）表示为节点、边和状态的级联的可区分的分别根据规则对图进行更新qil+1=l（ρ{r~ij|（i，j）∈E1}，q1，πi1），（8）r~=φ（q，q，r~），（9）πl+1=μl（softma x{r~l|（i，j）∈El}，{ql|v∈Nl}，πl）。（十）而没有明确的离群值检测。在我们提出的网络中，i i ij迭代地执行去噪和消息传递即，输入信号经过去噪层jj i ii在每次迭代中通过GNN层。4.5. 图形初始化和更新初始化。回想一下，图形初始化配备有节点集作为节点特征占位符的集合，因为在初始化时输入视图图形中的绝对相机方向是未知的（§4.2）。在PoGO-Net中，我们通过在视图图[11，28]中播种生成树来初始化节点，即，将初始值给予具有最高度的节点，随后以宽度优先方式在其邻域上进行定向广播的迭代。尽管初始化生成树循环对于常规方法，由于噪声边缘上的离群值测量逐渐传播[4，12，49]，因此，我们提出的网络分布通常不稳健。4.6. 损失函数损失函数。我们的损失函数由两个分量组成，一个代表边缘损失，另一个代表节点损失。直观地，边缘损失测量输出姿态图的全局一致性，并且节点损失评估绝对相机取向的预测。分别地，将L e表示为边缘损失并且Lv是节点损失，令Lr是附加的l1正则-节点加权和对应的化损失关于顶点度的权重以及关于邻接系数zij的边权重，则L=αeLe+αvLv+αrLr，（11）其中αe，αv，αr∈（0，1）为权参数。精确地，将地面实况绝对相机定向表示为{q*}，则我们有工作能够纠正错误的测量L=Σq−1rq，（12）动态地并且因此限制异常值传输，通过e（i，j）∈E{Jij id我们的去噪层的利用。具体地说，去噪层用边缘信息参数化，边缘信息集合了“局部边缘一致性”的信息离群边缘在其邻域内生成不一致的消息，因此易于被移除（§4.4）。我们的初始化过程的说明在图中给出。3 .第三章。图表更新。视图图通过网络层关于边和节点两者更新，而节点特征参考聚集的节点消息直接更新，边结构隐含地演化。L=Σq−q，（13）其中（·）表示输出变量值，·d表示对应于l1四元数度量d的范数。我们的网络是端到端联合训练的，同时优化了去噪层和GNN层参数。特别地，当GNN层关于组合总损耗被调谐时，我们实施去噪层训练。uuz5900因为设计用于去噪的“边缘下降”方案是基于边缘控制的，所以仅依赖于Le本地区域的一致性。5901表1：7Scenes数据集的实验结果[55]。直接引用结果，突出显示最佳结果。场景RelocNet LsG MapNetMapNet+PGOPoseNet15PoseNet+LSTM CNN+GNN[5][71][8][8][33][32][62][72]PoGO-Net象棋3m x 2m x 1m4.14○3.28◦3.25◦3.24◦8.12◦4.48◦5.77◦2.82◦1.72◦办公室2.5m x 2m x 1.5m5.32◦5.45◦5.15o5.42◦7.68◦5.55◦8.08◦5.08◦3.93◦火2.5m x 1m x 1m10.4◦10.92◦11.69o9.29◦14.4◦11时30分o11.90◦8.94◦6.23◦南瓜2.5m x 2m x 1m4.17○3.69◦4.02◦3.96◦8.42◦4.75◦7.00◦2.77◦◦3.56◦红色厨房4m x 3m x 1.5m5.08◦4.92◦4.93◦4.94◦8.64◦5.35◦8.83◦4.48◦3.85◦楼梯2.5m x 2m x 1.5m7.53◦11.3o12.08o10.62◦13.8o12.40◦13.70◦8.78◦7.88◦头2m x 0.5m x 1m10.5◦12.70◦13.25o8.45◦12.0◦13.0◦13.7o11.41◦7.34◦平均6.73◦7.47◦7.66◦6.56◦10.4◦8.12◦9.85◦6.33◦4.93◦训练对于PoGO-Net的训练，我们使用SGD优化网络参数，其中权重衰减设置为1 e-4，学习率初始化为1 e-4。3.我们用64的批量大小训练网络，最大epoch设置为300。在我们的实验中，我们使用参数α e=0。2，αv=0。7，α r=0. 1为损失函数。更多培训详情见§5.1。5. 实验结果我们的网络使用SGD对所有数据集进行端到端训练。这些网络在Pytorch中实现，在具有8GB内存的单个Nvidia GeForce 1080 GPU上。数据集和指标。我们对传统和基于学习的最先进的相机姿态回归方法进行了广泛的实验。我们报告的中位数和平均角误差，误差随着运行时间的实验。对于相对相机姿态的测量不可用的数据集，通过手动运行传统的最先进的SfM系统Visu-alSfM[68，69]来给出初始视图图，其中在初始化视图图的边缘上添加高斯噪声（μ=2 00，σ=50）。ScanNet[15]是一个RGB-D视频数据集，包含超过1500个室内扫描中的250万个视图，地面实况包括绝对摄像机方位（由[16]给出）、三角形化表面和语义分割。剑桥数据集[33]包含超过12000张具有地面真实绝对相机方向的图像，这些图像在剑桥大学周围的6个户外场景中拍摄。由于存在大量移动物体和不断变化的闪电条件，数据集具有挑战性。7场景[55]由7个相对较小的室内场景组成，由Kinect RGB-D摄像头跟踪。虽然与其他数据集相比，具有小于10K图像的数据集在规模上是小的，但是视图图由于场景中存在各种无纹理对象而具有高度噪声，因此使其具有挑战性。Photo Tourism数据集[65]是19个户外场景的大型集合，在多个数据集上具有超过5k的视图和超过200K的相对测量值。基线。我们比较了POGO-Net与传统和基于学习的状态的性能。技术方法来证明所提出的网络的效率和鲁棒性。在这些方法中，IRLS [11]，IRLS-Robust [12]，Weiszfeld[28]，Arrigoni [4]，DISCO [14]、CEMP [39]、MPLS [54]和Wang [63]是常规的 MRA-PGO 方法。基于学习的方法包括RelocNet [5]，LsG [71]，MapNet [8]，PoseNet15 [33]，PoseNet17 [32]，PoseNet+LSTM [62]，CNN+GNN [72]和NeuRoRA [49]。5.1. 实现细节对于PoGO-Net的训练，我们采用无丢包的SGD优化器。为了防止GNN的骨干网络采用原始GNN [53]。我们根据数据集的常规分割来训练PoGO-Net，学习率从1 e-3开始几何地接近，然后下降到1 e-3。5. 视图图的初始化完全采用传统的生成树方法，容易广播错误的边测量。因此，我们通过设置边缘损失的权重Le来解决去噪层参数调谐（即局部边缘一致性）略高（α e= 0. 35）在训练数据的前10% 损耗分量权重参数设置为α v=0。7，α e=0. 2，α r=0. 1用于所有数据集的训练。虽然我们设定了最大值当epoch为300时，我们已经观察到验证错误和测试错误的下降在我们的实验中终止于大约 150- 230 个epoch。5.2. 性能比较7个场景。我们首先在7场景数据集上将PoGO-Net与最近最先进的基于学习的PGO方法进行比较，定量结果报告在表中。1.一、由此可见，PoGO-Net取得了最好的效果在大多数场景上，其中在Fire和Heads数据集上，PoGO-Net的性能大大优于其他方法。在Pumpkin和Stairs数据集上，PoGO-Net略低于以前的方法。考虑到这两个场景都包含大量的具有重复模式和无纹理表面的视图，错误的主要因素来源于过度噪声的图像检索，即错误的特征提取和匹配导致初始视图图在大多数边缘上被高度破坏5902表2：剑桥数据集上的实验结果[33]。直接引用结果，突出显示最佳结果。场景MapNet[8]PoseNet15[33]PoseNet17[32]PoseNet+LSTM[62]CNN+GNN[72]PoGO-Net旅游PoGO-Net7场景PoGO-NetScanNetPoGO-Net剑桥T. G. 法院8.0x103平方米3.76◦-3.27◦-2.79◦3.23◦3.92◦3.66◦1.96◦街5.0x103 m227.55o-15.50◦-22.44◦19.29◦28.33◦23.17o11.76oK. 学院5.6x103平方米1.89◦4.86◦1.04◦3.65◦0.65◦2.04◦3.89◦2.55◦0.94◦O. 医院2.0x103平方米3.91◦4.90◦3.29◦4.29◦2.78◦3.14○3.65◦2.97◦1.69◦S. 立面8.8x103平方米4.22◦7.18o3.78◦7.44◦2.87◦3.93◦4.88◦4.06◦2.40◦圣。教会4.8x103平方米4.53◦7.96◦3.32◦6.68◦3.29◦3.66◦5.12◦3.49◦2.12◦平均7.64◦6.23◦5.03◦5.52◦5.80◦5.04◦8.29◦6.65◦3.47◦请注意，[5]和[72]都利用了ResNet [30]特征提取器，与我们在图像检索阶段采用的初始视图图生成的传统方法VisualSfM相比，该特征提取器更鲁棒。剑桥在剑桥号上的实验中数据集，我们证明了POGO-Net的可转移性通过在不同的数据集上训练。结果见表2。具体来说，我们记录了剑桥数据集上的可比测试结果，其中PoGO-Net 仅在 7Scenes [55] ， ScanNet [15] 和 PhotoTourism [65]数据集上分别训练。我们最后用噪音= 10%161412108642123456789十个噪音（度）(a) 噪音= 10%噪音= 20%18161412108642123456789十个噪音（度）(b) 噪音= 20%在剑桥数据集和我们的PoGO-Net上进行的训练和测试在大多数场景中表现出显着的优异表现，进一步证明了网络在大规模户外场景中的鲁棒性。请注意，PoseNet 15 [33]和PoseNet+LSTM [62]没有提供TrinityGreat Court和Street的数据，这两种方法的平均误差基于左侧四个场景的结果表3：ScanNet数据集[15]上的实验结果。结果基于5次常规方法运行。在CPU上评估平均运行时间。平均角度错误。中位角错误。运行时IRLS [11]Robust-IRLS [12]韦兹费尔德[28]阿利戈尼[4]王[63]NeuRoRA [49]14.07◦10.65◦2.08秒13.23◦ ◦2.33so8.17o19.74◦15.32◦85.21秒27.16◦20.43◦37.83秒16.30◦10.04 13.2秒11.02◦0.92s6.92PoGO-Net8.22◦3.04◦0.37s扫描网然后，我们测试的性能PoGO-Net对传统的国家的最先进的方法。具体来说，我们记录的角度误差和运行时间证明的准确性和效率的PoGO-Net相比，传统的MRA-PGO方法。我们还包括NeuRoRA [49]报告的结果，这是一个基于GNN的MRA框架，具有两个子网络。请注意，NeuRoRA是用作者捕获的合成数据集预先训练的，CleanNet和微调网络是单独训练的，而PoGO-Net是在没有预先调整参数的情况下端到端训练的。我们引用了[49]中报告的NeuRoRA结果，我们执行了常规方法并报告了5次运行平均值，结果见表3。可以看出，PoGO-图4：对不同降噪层设置的研究噪声分布到a）10% b）20%的视图图边缘。Net在准确性和速度方面都大大优于以前的方法。旅游与ScanNet上的实验类似，角度误差和运行时间的实验照片旅游数据集[65]报告见表4。我们部分引用文献[4，12，49]中的结果。可以观察到，PoGO-Net在大多数场景上都取得了最佳效果。在具有大规模视图图的数据集上（如Piccadilly），PoGO-Net通过比传统方法快400倍来展示其效率，并且与基于学习的Neu-RoRA相比快了近2倍。补充资料中提供了完整的实验结果和更多的分析。5.3. 消融研究为了研究去噪层的效果，我们使用PoGO-Net的几个变体对7Scenes数据集进行消融研究。具体来说，我们在原始PoGO-Net中使用0%，30%，50%的去噪层重新训练网络，并在视图图中随机选择的边缘上使用额外的噪声（从1◦到10◦）准确度图如图所示。4.第一章在设置0%的去噪层的情况下，很难用生成树方案初始化视图图中的节点，因为边缘错误在图上严重传播。因此，在仅GNN变化的实验中，我们首先通过强制执行循环标识来手动过滤视图图中随机选择的循环中的离群边缘[49]。可以看出，虽然具有较少去噪层的网络可以工作，但与原始网络相比，它产生的准确性要低得多仅限GNNPoGO-Net 30PoGO-Net50 PoGO-Net中位误差（度）仅GNNPoGO-Net 30PoGO-Net50PoGO-Net中位误差（度）5903场景##IRLS Robust-IRLS Weiszfeld Arrigoni Wang DISCO CEMPNeuRoRAPoGO-Net表4：在Tourism数据集上的实验结果[65]。我们报告CPU上的角度误差（◦）和运行时间。最好的结果被突出显示。完整结果见补充资料。节点边缘[第十一届][12个][28日][4]美国[63个][14个][39]第三十九届[五十四][49个]是说3.643.674.96.25.3-4.053.444.92.9662797206中值1.301.321.41.21.17.861.621.161.20.85运行时14.2s15.1s84.0s2.7s20.6s3917s10.38s20.6s2.2s1.74s是说1.251.222.14.82.0-1.331.041.20.8247452424中值0.580.570.70.90.86.810.790.510.60.37运行时8.5s7.3s41.5s2.9s10.1s1608s7.3s9.3s1.0s0.53s是说2.632.264.73.93.5-2.352.061.61.1771564678中值0.780.710.81.00.97.480.940.670.60.35运行时17.2s22.5s80.8s4.2s19.5s4070年代13.2s31.5s2.0s1.24s是说5.125.1926.422.010.136.04.663.934.74.932508319257中值2.022.347.59.73.9-1.981.811.91.75运行时 353.5s370.2s1342.6s43.7s118.1s 15604s45.8s191.9s5.9s3.19s是说2.662.694.813.24.6-2.802.622.301.55113470187中值1.581.571.88.23.535.361.451.371.30.69运行时18.621.4115.0s16.8s19.6s1559s6.1s8.8s1.3s1.26s是说3.423.414.74.62.9-2.843.162.61.7750824863中值2.522.502.91.81.510.381.572.201.40.43运行时2.6s2.4s17.4s3.9s3.6s479s2.2s2.7s0.3s0.38s是说6.776.7740.99.26.8-7.476.545.93.393025561中值3.663.8510.34.43.226.273.643.482.01.25运行时9.0s8.6s42.8s12.1s4.1s466s2.5s5.7s0.6s0.29s是说2.62.455.74.53.5-2.492.472.52.0345827729中值1.591.532.01.61.326.171.371.450.90.72运行时3.4s4.3s32.0s2.5s4.9s641s2.8s3.9s0.4s0.12s是说4.33.618.866.889.2---17.66.827866101512中值3.93.416.443.975.554.38--12.63.16运行时18.9s15.2s1462.7s354.7s27.2s1413s--2.6s1.54s是说9.18.211.719.310.16.917.21-3.94.26918103550中值3.91.21.92.391.822.352.632.831.51.44运行时56.9s48.1s158.3s6.0s25.7s4085s13.1s42.6s2.1s1.53sPOGO-Net。此外，值得注意的是，尽管噪声水平不断增加，PoGO-Net的准确性仍然保持稳定，进一步证明了网络的鲁棒性。补充资料中提供了对降噪层效果的全面研究。5.4. 讨论和未来工作为了进一步证明PoGO-Net的泛化能力，我们在KITTI Odometry [23]上对其进行测试，并将其与最先进的SLAM流水线ORB-SLAM [47]集成。在补充资料中给出了评价和分析。观察到PoGO-Net以高精度实现实时性能进一步验证了 PoGO-Net 扩展到完整SfM/SLAM系统的潜力。虽然准确的MRA，特别是与基于图形的公式相结合，是紧凑和轻量级的，以有效地解决PGO，扩展用于SE（3）回归的PoGO-Net既不是立即的，也不是微不足道的。尽管如此，我们相信特征子网的采用赋予了完整的姿态回归，使得旋转和旋转不受影响。可以在图形形式内联合优化平移6. 结论在这项工作中，我们提出了一种新的PGO方案，由GNNs，即PoGO-Net，进行绝对相机姿态回归利用MRA。PoGO-Net将噪声视图图作为输入，其中节点和边被设计为编码成对几何约束并与局部图一致性聚合。为了解决朝向鲁棒的MRA-GNN方法的离群边缘去除，我们通过在噪声或损坏的边缘上利用边缘丢弃方案来设计去噪层，噪声或损坏的边缘利用参数化网络被有效地过滤掉。我们的联合损失函数嵌入MRA公式，实现端到端训练，使得去噪层和GNN层的参数在多个基准上的广泛实验证明了PoGO-Net的准确性，效率和鲁棒性。谢谢。这项工作得到了国家科学基金会资助2006665和1814745的部分支持。U.Sq.维也纳角圣菲约克T.o.L.R.Frm.皮卡 N.Dame M.N.D Alamo5904引用[1] S. Agarwal，K. Mierle及其他谷神星解算器网址：//ceres-solver.org网站。[2] A. M.安德鲁计算机视觉中的多视图几何。Kybernetes，2001年。[3] F. Arrigoni和A. Fusiello计算机视觉中的同步问题及其封闭解。 InternationalJournalofComputerVision（IJCV），128（1）：26[4] F.阿里戈尼湾Rossi，P. Fragneto，and A. Fusiello基于低秩稀疏矩阵分解的so（3）和se（3）鲁棒同步。计算机视觉与图像理解，174：95[5] V. Balntas，S. Li和V.Prisacariu. Relocnet：使用神经网络的连续度量学习重新定位在欧洲计算机视觉会议（ECCV），2018。[6] 联合Bhattacharya和V.M. 戈文杜三维特殊欧氏群上的高效鲁棒在IEEE计算机视觉国际会议（ICCV）的会议记录中，2019年。[7] T. Birdal，M.Arbel，U.Simsekli和L.J. Guibas 通过最优传输同步旋转的概率测度。在IEEE计算机协会计算机视觉和模式识别会议（CVPR）的会议记录中，2020年。[8] S. Brahmbhatt，J. Gu，K. Kim、J. Hays和J.考茨用于相机定位的地图的几何感知学习。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。[9] A. P. Bustos，T. J. Chin，A.埃里克森和我里德视觉冲击：为什么要进行捆绑调整？在IEEE机器人与自动化国际会议（ICRA）的会议中，2019年。[10] L. 卡隆河Tron，K.Daniilidis和F.德拉特3D SLAM的初始化技术：旋转估计及其在姿态图优化中的应用。IEEE机器人与自动化国际会议，2015年。[11] A. Chatterjee和V.M. 戈文杜高效和鲁棒的大规模旋转平均。在2013年IEEE国际计算机视觉会议（ICCV）的会议记录中[12] A. Chatterjee和V. M.戈文杜稳健的相对旋转平均。IEEETransactions on Pattern Analysis and Machine Intelligence（T-PAMI），40（4），2017。[13] R.克拉克

下载后可阅读完整内容，剩余1页未读，立即下载