异构GNN的地图稀疏化方法

96 浏览量更新于2023-10-26 收藏 18.26MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

24060异构GNN的长期视觉地图稀疏化0Ming-Fang Chang 1, Yipu Zhao 2, Rajvi Shah 2, Jakob J. Engel 2, Michael Kaess 1, and Simon Lucey 301 卡内基梅隆大学 2 Meta Reality Labs研究 3 阿德莱德大学0图1. 给定由SfM构建的地图，我们提出的方法利用GNN能够识别稳定结构上的地图点（红点和蓝色方块），同时丢弃容易受季节变化影响的点，如树叶（黑点和橙色方块）。0摘要0我们解决了长期视觉定位的地图稀疏化问题。对于地图稀疏化，一个常用的假设是预先构建的地图和后来捕获的定位查询是一致的。然而，在动态世界中，这个假设很容易被违反。此外，随着时间的推移，地图的大小随着新数据的积累而增长，导致长期的数据开销。在本文中，我们旨在通过选择对未来定位有价值的点来克服环境变化并减小地图的大小。受到图神经网络（GNN）的最新进展的启发，我们提出了第一篇将SfM地图建模为异构图并使用GNN预测3D点重要性得分的工作，这使我们能够直接利用SfM地图图中的丰富信息。我们提出了两个新的监督方法：1）一个数据拟合项，根据训练查询选择对未来定位有价值的点；2）一个K-Cover项，用于选择具有完全地图覆盖的稀疏点。实验表明，我们的方法选择了稳定且广泛可见的结构上的地图点，并在定位性能上优于基线方法。01. 引言0在长期视觉定位中，一种常见的策略是从捕获的图像流中构建和累积地图，然后通过匹配与累积地图进行新的定位查询。0在存在环境变化的情况下，累积地图包含越来越多的点，其中许多已经过时。这将影响到长期的计算成本和定位性能。因此，识别和删除这些无效点对于许多针对动态环境的应用非常重要，例如自动驾驶、现场机器人和增强现实。此外，对于内存有限的设备，它可以保持一个只包含未来定位查询的最有价值信息的紧凑地图。0现有的地图稀疏化工作主要属于子集选择类别，即将3D地图视为静态世界的过采样表示，并旨在从中选择最有价值的点子集。点子集的选择通常被建模为K-Cover问题。假设地图关键帧覆盖了所有可能的相机位置，K-Cover算法鼓励地图中的每个关键帧观察到K个点，同时满足总点数约束[7, 14,15,17]。这些方法完全基于地图中存储的历史数据，因此缺乏识别由于环境变化而无效的点的能力。当环境发生变化时，地图只能通过收集覆盖整个映射区域的新查询数据来更新，并再次使用新查询数据解决K-Cover问题，这是低效且昂贵的。除了稀疏化3D地图外，还有一些关于选择2D关键点的工作，例如通过预测24070持久性[8]或视觉特征的可重复性[6]。然而，所提出的预测器仅采用瞬时测量（如局部图像补丁），而不利用累积地图中存储的完整上下文。最近，图神经网络（GNN）在具有不同结构的数据上显示出有希望的结果，例如引文图[29]，局部特征匹配[20]和可见性图[23]。在这项工作中，我们利用GNN的这种灵活性，将地图稀疏化形式化为一个学习问题，并克服了以前方法的局限性。首先，通过将SfM地图建模为图形，我们可以直接使用上下文丰富的SfM地图作为GNN的输入，而不是瞬时测量。其次，与基于K-Cover的方法相比，我们只需要部分查询来训练GNN，并用它来稀疏化整个地图，而不需要完全覆盖新的查询来更新地图。与以前的方法相比，一个主要的改进是能够根据部分新数据从整个地图中选择重要点，因为基线方法没有简单的方法来做到这一点，而不需要收集覆盖整个映射区域的新数据。为此，我们提出了第一篇从SfM地图中提取特征的异构GNN的工作。我们首先用异构图表示SfM地图，其中3D点、2D关键点和图像被建模为图节点，而2D和3D点之间的可见性等上下文被建模为图边。然后，我们使用异构GNN根据地图图中的局部外观和空间上下文预测地图点的重要性得分。此外，我们提出了两个新的损失函数来指导训练：1）一个数据拟合项，根据训练查询数据的外观和空间分布选择点，2）一个K-Cover损失项，用于选择具有完全地图覆盖的稀疏点。在一个具有显著环境变化的室外长期数据集（ExtendedCMU Seasons[22]）上进行评估时，我们的方法可以选择稳定且广泛可见的结构（例如建筑物/公用事业杆）上的地图点，同时丢弃易受季节变化影响的点（例如树叶）或具有高度重复纹理的点（例如路面）。与K-Cover基线[14]相比，我们的方法在相同的地图大小下在视觉定位性能上表现出色。02. 相关工作0在本节中，我们首先简要描述了鲁棒特征学习的文献，然后回顾了现有的地图稀疏化工作，最后涵盖了启发我们工作的有关GNN的相关研究。02.1. 鲁棒特征学习0许多先前的工作尝试通过寻找对环境变化具有鲁棒性的特征描述符来解决长期视觉定位问题[25]（例如白天-夜晚、照明条件和季节变化）。具体例子包括R2D2[19]、SOSNet[24]、PixLoc[21]和[1]。一些方法研究视觉特征（以及相应的物理环境）的动态性，例如持久性[8]和可重复性[6]。除了学习鲁棒特征外，一些工作还尝试通过在2D和3D中找到共同信息来克服环境挑战，例如语义信息[26,27]和从查询图像中预测深度[18]。在这项工作中，我们不是寻找鲁棒特征，而是通过考虑整个地图图结构来全局稀疏化SfM地图。我们使用Kapture[11]，这是一个使用R2D2的现代化建图和定位库，来生成数据并评估所提出的方法。0例如白天-夜晚、照明条件和季节变化），具体例子包括R2D2[19]、SOSNet[24]、PixLoc[21]和[1]。一些方法研究视觉特征（以及相应的物理环境）的动态性，例如持久性[8]和可重复性[6]。除了学习鲁棒特征外，一些工作还尝试通过在2D和3D中找到共同信息来克服环境挑战，例如语义信息[26,27]和从查询图像中预测深度[18]。在这项工作中，我们不是寻找鲁棒特征，而是通过考虑整个地图图结构来全局稀疏化SfM地图。我们使用Kapture[11]，这是一个使用R2D2的现代化建图和定位库，来生成数据并评估所提出的方法。02.2. 地图稀疏化0对于包含世界冗余信息的地图，地图稀疏化的目标是选择最有价值的子集。在以前的工作中，通常假设地图包含所有可能的相机位置，并将地图压缩问题形式化为K-Cover问题，鼓励每个可能的相机位置（地图中的关键帧位置）观察足够数量的3D点以在总点数预算下进行稳健的PnP定位。然后使用各种技术解决K-Cover问题：概率方法[5]、整数线性规划（ILP）[7, 14]和整数二次规划（IQP）[7, 15,17]。还使用混合地图和手工启发式方法确定地图点的重要性[4, 13,16]。这些方法在静态环境中效果良好，但在大量动态环境中性能下降，其中地图中的许多可见性边缘已过时和无效。02.3. 图神经网络0图神经网络（GNNs）[10]已应用于各种具有不规则数据结构的学习任务，例如引文图[29]和图像可见性图[23]。图神经网络的一个重要优势是能够处理异构数据[31]。在这项工作中，我们使用异构图表示SfM地图中的各种信息，并使用GNN提取特征。最近，基于注意力的网络在不仅仅是顺序数据[28]，而且是图结构（如2D-3D匹配）中的特征提取方面表现出强大的性能。受到这些工作的启发，我们研究了异构GNN和注意力的组合，并展示了比基线更好的最终性能。03. 方法0给定一个SfM地图和在大规模动态环境中记录的一组定位查询，我们的目标是选择一组最具信息量的3D地图点，即具有高定位性能。为了实现这一目标，我们首先将输入的SfM地图转换为一个异构图（第3.1节），并训练一个基于注意力的GNN（第3.2节，第3.3节）来预测3D地图点的重要性得分，然后用这些得分来稀疏化地图。最后，我们将测试查询集与稀疏化地图进行定位，并报告定位性能（第4节）。我们的整体系统流程的示意图如图2所示。are most informative, i.e. result in high localization perfor-mance. To achieve this, we first turn the input SfM mapinto a heterogeneous graph (Sec. 3.1) and train an attention-based GNN (Sec. 3.2, 3.3) to predict the importance scoresfor 3D map points, which are then used to sparsify the map.Finally, we localize the testing query set against the sparsi-fied map, and report the localization performance (Sec. 4).An illustration of our overall system flow is shown in Fig. 2.h+i =j∈{+1}αhijWhhj,(1)24080图2.整体框架。提出的GNN学习预测地图中每个3D点的得分。预测的得分用于稀疏化地图。我们报告了将一组测试查询定位到稀疏化地图的性能。03.1. SfM地图作为异构图0异构图定义为包含不同类型节点或边缘的图结构。为了表示SfM地图，定义了三种类型的节点：3D点节点Vp，2D关键点节点Vk和图像节点Vm。我们还定义了三种类型的边缘：连接相应的Vp和Vk的可见性边缘Ev，连接每个Vp及其k个最近邻Vp的kNN边缘En，以及连接每个Vk到相应图像Vm的包含边缘Ec。每个Vp可能连接到多个Ev和Vk，因为它被多个地图图像观察到。然后，SfM地图用异构图G ={Vp，Vk，Vm，Ev，En，Ec}表示。我们的地图图形的示意图如图3（a）（b）所示。基于局部外观和空间上下文预测每个点的重要性分数。我们设计了地图图形以提供以下信息：首先，局部外观数据通过将在地图构建阶段提取的关键点描述符嵌入到Vk中来存储。其次，空间上下文在kNN边缘En中捕获，这些边缘是从Vp中存储的3D点位置派生出来的。图像节点Vm不携带特征，但用于跟踪连接的Vk和Vp，以确保GNN在每个Vm的视野范围内选择足够数量的Vp，如图3（c）所示。实际上，我们在地图图形中存储了两组Vk，Vm，Ev和Ec：一组来自地图，另一组来自在稀疏化之前在地图上定位查询集。将第一组输入到提出的GNN中以提供0用于分数预测的信息。第二组仅在训练区域中可用，并且仅用于生成存储在Vp（第3.4节）中的点选择标签Lgt。请注意，上述所有图边缘都是有方向的。具体而言，Ejin表示从邻居Vjp到Vi_p的kNN边缘，Ewiv表示从关键点Vwk到地图点Vi_p的可见性边缘，其中i，j，w是节点索引。边缘的方向性在网络训练期间检索局部子图时很有用（第3.3节）。03.2. 图注意力网络0为了从地图中提取空间上下文，我们提出使用图注意力网络（GATConv）[29,30]来聚合来自局部连接的3D点节点的特征。对于一个3D点节点Vi_p，应用一个GATConv层来融合输入节点特征并预测一个输出节点特征。形式上，GATConv操作为：0αhij = softmaxj(a(Whhi, Whhj))0H0其中hj ∈RF是从Vjp到节点Vi_p的输入特征，具有特征维度F。输入特征来自Vi_p本身和kNN节点，其中j ∈ {1, 2, ..., k,i}，k是kNN节点的数量。Wh ∈ RF+ ×F是共享的权重矩阵，αhij是归一化的注意力系数，H是注意力头的数量，a(.)：RF+ × RF+ →R计算注意力系数。我们通过简单求和来聚合多头GATConv的输出。输出h+i ∈RF+是存储在Vi_p上的输出特征，具有维度F+。经验上，我们发现这个GATConv在我们的应用中优于GraphConv[12]和SAGEConv [10]。03.3. 异构图神经网络0我们设计了一个异构GNN来从上述地图图形中提取特征并进行分数预测。动机是关键点描述符虽然不是原始像素值，但仍然包含有价值的外观信息，使我们能够从连接的2D关键点描述符推断出3D点的分数。这里的异构性使我们能够根据节点和边缘类型定义不同的操作。我们的GNN包括三个阶段：1）描述符收集层g1，2）局部特征提取层g2和3）最终的多层感知器（MLP）层g3。在g1中，我们追踪每个Vp的连接Ev，以收集存储在Vk中的连接关键点描述符。收集到的描述符被发送到具有LeakyReLU激活和求和聚合函数的图卷积层（GraphConv）[12]。g1的输出是一个携带局部外观信息的聚合点特征fdesc。在g2中，我们使用(2)24090（a）（b）（c）（d）0图3. SfM地图作为异构图和网络结构。a）简化的图：深蓝色圆圈是图像节点 V m，浅蓝色圆圈是关键点节点 V k，绿色圆圈是3D点节点 Vp。边 E c、E v 和 E n 分别是包含边、可见性边和kNN边，用黑色、浅蓝色和绿色表示。（b）Extended CMUSeasons数据集的真实快照。图像节点 V m 和可见性边 E v 分别表示为蓝色点和线。关键点节点 V k 未显示。3D点 V p上的颜色编码表示与当前查询图像的距离，绿色表示低值，黄色表示高值。与（a）中的图像对应的三个图像节点位置用深蓝色圆圈标记。（c）在每个训练迭代中，我们采样一个图像节点，并追踪相应的边以提取一个子图来运行我们的GNN。用于提取此子图的 E v显示为红色线。（d）我们的网络接收关键点描述符 f kpt，并为每个地图点预测一个得分 s。我们定义了三个网络层：g 1聚合描述符到3D点，g 2 收集3D局部信息，g 3作为最终的每点MLP（粉色块）。深粉色块是一个MLP层，包含一个线性层和一个LeakyReLU激活函数。箭头上方的数字是特征维度。0使用 GATConv 层（第3.2节）从 kNN V p中收集附近的点特征，生成捕捉空间上下文的局部特征 fknn。最后，使用一个3层的 MLP g 3将点特征维度转换为1，并使用 sigmoid 层将预测的得分值s 限制在 [0, 1] 范围内。网络结构如图3（d）所示。设 i, j∈ {1, 2, ..., N p} 表示地图点索引，w ∈ {1, 2, ..., N k}表示关键点索引，其中 N p 和 N k分别是地图点和关键点的总数。设 G表示地图图，得分预测步骤如下：0f i desc = g 1 ({V w k |E0f i knn = g 2 ({f j desc |E jin 0s i = Sigmoid(g 3 (f i knn)),0其中 h i = f i desc，h + i = f iknn，参见公式1。为了在大规模图上方便进行GNN训练，我们对每个训练批次采样一个 Vm，提取一个局部子图，并仅在局部子图上运行我们的GNN。给定一个 V m，我们首先通过追踪 E c 提取连接的 Vk。然后，我们追踪 E v 和 E n 提取相应的 V i p及其邻居。最后，我们追踪连接到邻近的 V j p 的 Ev，以计算邻近的 f j desc。03.4. 训练损失0我们的损失函数促进了在两个属性上得分高的点：首先，所选点的描述符分布应与对训练查询定位有用的描述符对齐。其次，所选点应涵盖所有可能的视角，以便所有查询在视野内观察到足够数量的点。我们提出了一个具有两个项的训练损失：0数据拟合项。由于ILP基线在静态环境中表现良好[14]，我们将其作为oracle来生成点选择标签。我们首先在地图上定位训练查询，收集训练查询与地图之间的2D-3D匹配，并运行ILP基线[14]来获得点选择结果，即二进制向量 Lgt。在这种设置下，ILP基线（query）消除了环境变化并表现良好（图6（a）），但在现实世界中无法实现，除非训练查询覆盖整个映射区域。然后，通过将预测得分 S 与 L gt进行比较，使用二元交叉熵（BCE）损失 L BCE计算数据拟合项：0L BCE = BCE(Lgt, S). (3)0对于我们评估的地图，我们发现ILP公式的计算可处理整个地图。也可以使用IQP[17]进行标签生成，但在实践中，IQP在不进行额外图分区步骤的情况下无法在大规模地图上运行。图分区对定位性能的潜在影响超出了本文的重点。K-Cover术语。仅使用LBCE训练网络只会鼓励点选择与训练集中的Lgt对齐，但不能保证整个地图上的地图点覆盖。为了弥补这一点，我们利用传导学习，此外还鼓励与每个Vm连接的所有Vp的分数之和接近预定义的正整数K，该正整数指示每个图像应观察到的3D点的数量以支持鲁棒的定位。经验上，我们观察到这种设置在训练过程中收敛速度比不惩罚的情况更快。24100样本大于K。在满足K-Cover约束的同时，我们还鼓励通过L1范数损失选择更少的点。令l为图像节点Vm的索引，我们将ϕl定义为选择连接到Vlm（如图3（c）中的红色边）的Vp集合的地图点索引集合。Vip的分数预测表示为si。最终的K-Cover损失为：0ϕl = {i |Elwc ∈ G ∩ Ewiv ∈ G},0L KC = �0l | K − �0i ∈ ϕ l s i | + λ || S || 1. (4)0通过添加这两个术语，我们提出最终的损失函数：0L = L BCE + L KC. (5)0数据分割和使用情况总结如表1所示。请注意，训练和测试查询在空间上不重叠，预先构建的地图覆盖了训练和测试区域。训练查询的作用是提供无法从过时的地图数据中获得的最新外观信息，因为我们关注时间外观差异。在这种情况下，训练和测试数据在空间上不应重叠，但可以在时间上重叠。04. 评估0在本节中，我们描述了数据准备过程、实现细节和实验结果。数据准备我们在Extended CMU Seasons数据集[2,22]上评估了我们的方法，该数据集由多个位置的两个摄像头在多个月份记录的12个会话组成。为了模拟地图数据的自然积累，我们使用0-5会话构建了一个多会话地图，并使用6-11会话作为查询集进行定位。映射和查询集具有显著不同的外观。地图是使用Kapture[11]构建的。定位性能通过将查询集注册到从会话0-5构建的多会话地图上进行测量。我们使用了13个切片（场景）进行评估，包括城市和郊区切片（3-4,6-16），并且由于在稀疏化之前在原始多会话地图上的定位性能较差，丢弃了公园切片和切片2,5。评估的13个切片包含各种对象，如植被、建筑物和移动物体，以及多种天气，如晴天、多云和下雪。季节性外观变化的示例如图4（a）（b）所示。我们进一步通过两个摄像头（摄像头0、摄像头1）对查询集进行拆分，使用所有13个切片的摄像头0进行训练，切片3的摄像头1进行验证，其他12个切片的摄像头1进行测试。每个数据集拆分中的映射/查询图像数量分别为17837/16077用于训练，1333/1428用于验证，16498/15627用于测试。请注意，摄像头0和摄像头1指向道路的两侧，并且没有重叠，如图4（c）（d）所示。0表1. 数据按类型和用途分割。Extended CMUSeasons数据集中有两个相机，分别为c0和c1。我们将12个会话按时间分开，使用旧会话（0-5）进行映射，将新会话作为查询（6-11）。0数据类型空间时间用于训练测试旧新0地图（G）�（c0）�（c1）�L KC，L BCE查询（训练）�（c0）�LBCE查询（测试）�（c1）�未使用0实现细节提出的GNN使用PyTorch和Deep GraphLibrary（DGL）[30]实现。在训练过程中，我们循环遍历训练集中的地图图像节点Vm，提取子图以运行GNN。使用了一个四层DGL节点采样器（Vm ← Vk ← Vp ← knn Vp ←Vk of knnVp）来提取每个训练迭代中的子图，以提供必要的信息。在Nvidia Quadro RTX 3000 GPU和i7-10850H CPU @2.70GHz上处理一个地图图形（平均4.12×105个地图点）大约需要3.97秒。更多图形统计信息请参见补充材料。至于参数，我们使用k = 9来构建3D点之间的kNN边，K =30和λ = 0.01用于K-Cover损失。使用Gurobi[9]实现了ILPs [14]，并配置了b = 30。我们使用n desired= 500[14]生成Lgt。网络使用AdamW优化器进行训练，学习率为0.001，βs（0.9，0.999）进行20个epoch。对于每种情况，我们选择验证性能最好的时期进行测试。最终评估使用Kapture定位管道[11]进行。给定一个查询图像，首先检索具有相似全局特征的地图图像，然后在查询图像和检索到的地图图像之间执行2D-2D关键点描述符匹配。与匹配的查询关键点对应的3D点用于执行与匹配的查询关键点的PnP。地图构建、定位以及作为我们网络输入fkpt的Kapture默认R2D2[19]描述符都在使用中。04.1. 稀疏化地图上的定位性能0对于每种地图稀疏化方法，我们首先获得其点选择结果，并使用仅包含与所选点对应的关键点和描述符的Kapture格式重建多会话地图。我们使用地图中剩余的点描述符数量（＃kpts）作为地图大小的代理，因为这些高维描述符（例如R2D2的128个）占据了大部分地图存储空间。进行了三个基准比较：0• 随机：随机选择一部分地图点，直到达到允许的预算。0• ILP（地图）：传统的ILP[14]，将K-Cover问题与存储在地图中的可见性边和基于地图中观测次数的每点权重组合起来。We obtained data points by sweeping the desired totalpoint number ndesired [14]. For our method, we randomlyselected points with predicted scores larger than 0.1. If therewere not enough points with scores larger than 0.1 to satisfyndesired, we randomly selected from the rest of the points.We observed that predicted score distribution is close to bi-nary (due to the L1 norm sparsity loss) and the point selec-tion result is not sensitive to the score threshold.Overall, our proposed approach outperformed the ILP(map) baseline in all the testing slices by achieving higherlocalization recall (success rate) under the same map sizes,as shown in Tab. 2 and Fig. 6. Qualitatively, we observedthat compared with the ILP (map) baseline, the proposedmethod selects map points on static structures that are moreuseful for query set localization, as in Fig. 7 and Fig. 8.24110（a）切片3的示例图像（b）切片11的示例图像0（c）训练集地图示例（切片4的相机0）（d）测试集地图示例（切片4的相机1）0图4.扩展CMU季节数据集的示例图像。我们观察到整个数据集的季节性变化很大。在(a)(b)中，左侧是地图图像示例，右侧是在相似位置记录的查询图像示例。此外，扩展的CMU季节数据集由两个相机记录。我们使用相机0（c）进行训练，使用相机1（d）进行验证/测试。训练集和测试集捕捉到道路的两侧，没有空间重叠。底部的红点是地图图像的位置。0• ILP（查询）：理想的ILP[14]，可以访问测试查询。K-Cover问题是通过在稀疏化之前将测试查询在地图上定位的可见性边构建的，点的权重根据测试查询定位期间的观测次数进行加权。这种方法表示了在没有环境变化的理想情况下ILP方法的性能，但在现实世界中无法实现。0网络结构。我们还比较了以下配置的g2GNN层：GraphConv[12]，SAGEConv（使用均值聚合函数）[10]和GATConv（H =4）[29]。比较的网络具有相同的特征维度和LeakyReLU（斜率=0.1）激活函数。我们的结果显示GATConv0图5.定位过程中每个测试查询图像的2D-3D匹配数的密度直方图。应用LKC后，我们观察到具有极端匹配数的图像较少，这有利于在地图大小预算下实现一致的定位性能。这两个直方图是在相同的地图大小预算下生成的（总关键点数约为6.3×10^5）。0在相同的地图大小下，我们的方法在定位召回率（表2）和相对于ILP(query)的分类性能方面显著优于GraphConv和SAGEConv，如图6(b)所示。0训练损失。最后，没有同时使用L BCE和LKC训练的网络表现比使用组合损失的网络要差，如表2和图6(b)所示。LBCE仅在训练区域进行训练，因为测试区域没有标签可用。LKC是使用整个输入地图图形进行训练的（覆盖了训练和测试区域）。有趣的是，尽管仅使用LBCE的配置得到了最低的训练L BCE，但添加LKC改善了测试集的分类性能。我们进一步观察到，在定位测试查询时，使用LKC稀疏化的地图获得了较少的极端匹配关键点数（图5）。这是有利的，因为每个查询获得了足够的匹配，但没有太多导致地图存储的浪费。ILP (query)0.240.460.690.800.300.530.750.850.380.600.830.9224120表2. 不同地图大小下的平均召回率。对于每个切片（The Extended CMUSeasons数据集中的一个序列），我们线性插值了召回曲线，以获得在相同数量的关键点描述符下的召回数，并根据图像数量计算了平均召回率。比较了三个召回阈值。召回数表示定位姿态误差小于相应召回阈值的图像样本比例。作为参考，稀疏化之前的平均关键点数量约为2.8×10^6。详细的地图图形统计数据和完整的召回曲线请参见补充材料。0召回阈值 0.25m, 2.0° 0.5m, 5.0° 5.0m, 10.0°0平均地图大小（10^4个关键点） 3 5 10 20 3 5 10 20 3 5 10 200随机基线 0.07 0.18 0.41 0.59 0.07 0.20 0.44 0.63 0.09 0.23 0.49 0.70 ILP (map) 0.15 0.31 0.53 0.64 0.190.36 0.59 0.69 0.25 0.43 0.66 0.760GraphConv 0.31 0.48 0.64 0.73 0.34 0.52 0.69 0.77 0.39 0.58 0.76 0.85 SAGEConv 0.27 0.42 0.58 0.68 0.300.46 0.62 0.72 0.34 0.51 0.68 0.79 GATConv (我们的方法) 0.35 0.52 0.67 0.73 0.40 0.57 0.72 0.78 0.46 0.640.80 0.860GATConv (仅L BCE) 0.25 0.38 0.53 0.65 0.28 0.42 0.57 0.70 0.32 0.47 0.64 0.77 GATConv (仅L KC) 0.09 0.23 0.420.60 0.10 0.25 0.45 0.64 0.12 0.29 0.52 0.710(a) 测试集中每个切片的召回率与地图大小的曲线 (b) 分类性能0图6. 定位和分类召回率比较。 (a) 我们的方法在所有测试切片中优于ILP(map)和随机基线，在相同的地图大小预算下实现了更高的召回率（成功率）。另一方面，ILP (query)在显著优于ILP(map)的同时，显示了环境变化对基线的影响。这里的召回误差阈值为0.25m和2.0°。 (b) 与ILP(query)相比，使用完整的提出的损失训练的GATConv在相同的覆盖率（选择的正标签数与总点数的比率）下实现了最高的分类召回率。05. 讨论和局限性0本研究中使用的异构图非常灵活，可以轻松地将更多信息作为附加的节点或边特征包含在内。这意味着未来工作具有巨大的潜力。附加信息的选择包括时间戳（用于捕捉周期性环境变化）或来自其他传感器的数据。还可以轻松地应用其他训练损失来对地图进行稀疏化，以用于除传统定位之外的不同任务。此外，我们观察到某些对象，如建筑物和电线杆，更有可能获得更高的分数。这意味着可以使用语义标签来辅助点分数预测。还值得一提的是，异构GNN框架有可能应用于其他实际图形，如SLAM中的因子图。将基于GNN的方法与现有的因子图稀疏化方法进行比较是另一个有趣的未来方向。另一方面，影响结果的一个重要因素是点采样策略。在给定相同预测分数集合的情况下，不同的点选择策略会导致不同的性能。在我们的系统中，我们使用简单的随机下采样和达到出色性能的分数阈值，但是探索不同的点采样策略可以是一个有趣的未来工作。0工作[3]是另一个有趣的未来方向。另一方面，影响结果的一个重要因素是点采样策略。在给定相同预测分数集合的情况下，不同的点选择策略会导致不同的性能。在我们的系统中，我们使用简单的随机下采样和达到出色性能的分数阈值，但是探索不同的点采样策略可以是一个有趣的未来工作。0至于局限性，地图稀疏化的关键通常是压缩给定场景的地图，因此对于未见过的场景的泛化并不是我们的重点。对于K-Cover设置的工作，查询时的相机轨迹应该是地图中相机轨迹的子集。这适用于我们的方法和相关工作。此外，我们只关注从现有地图中删除点，因此结果受到定位性能的限制。24130(a) 切片3 (b) 切片110图7.大规模点选择结果。上排是ILP（地图）的结果，下排是我们的结果，阈值为0.1。黑色点是稀疏化之前的地图3D点，红色点是选择的点。我们的方法选择了静态结构上的点，如建筑物墙壁、电线杆和树干，并避免了季节变化的树叶。0(a) 图像 (b) ILP（地图） (c) GATConv（我们的方法） (d) ILP（查询）0图8.定性可视化结果。相机位置位于点云可视化图(b)(c)(d)的底部。每行对应的部分由红色框标记。总体而言，我们观察到ILP（地图）的点选择在选择静态点方面比ILP（查询）和我们的方法更缺乏区分性。我们比较了具有相似关键点数量的情况，因此总的3D点数量会有所变化。0如何将新信息添加/合并到地图中也值得在未来进行探索。最后，我们的实验中使用了简单的相机和切片划分，但在实践中，最好将训练集大小最小化，以减少地图更新的工作量。06. 结论总之，我们提出了一种用于视觉地图稀疏化的异构GNN，并证明了其在真实环境中的有效性。这项工作为应用于SfM应用程序的丰富GNN相关技术开辟了新的途径。我们的未来工作将是多传感器地图的稀疏化和更多地图图形表示。0将丰富的GNN相关技术应用于SfM应用程序是一个重要的因素。我们的未来工作将是多传感器地图的稀疏化和更多地图图形表示。0致谢0Ming-Fang Chang受CMU ArgoAI自动驾驶研究中心的支持。我们还感谢TianweiShen以及CMU和Meta的亲爱的实验室成员们提供了宝贵的讨论和建议。https://sites.google.com/view/ltvl2021/challenges. Accessed: 2022-03-09. 2[21] Paul-Edouard Sarlin, Ajaykumar Unagar, Mans Larsson,Hugo Germain, Carl Toft, Viktor Larsson, Marc Pollefeys,Vincent Lepetit, Lars Hammarstrand, Fredrik Kahl, et al.Back to the Feature: Learning Robust Camera Localizationfrom Pixels to Pose. In IEEE Conf. Comput. Vis. PatternRecog., 2021. 2[22] Torsten Sattler, Will Maddern, Carl Toft, Akihiko Torii,Lars Hammarstrand, Erik Stenborg, Daniel Safari, MasatoshiOkutomi, Marc Pollefeys, Josef Sivic, Fredrik Kahl, andTomas Pajdla. Benchmarking 6DOF Outdoor Visual Local-ization in Changing Conditions. In IEEE Conf. Comput. Vis.Pattern Recog., 2018. 2, 5[23] Yan Shen, Zhang Maojun, Lai, Shiming, Liu Yu, and PengYang. Image Retrieval for Structure-from-Motion via GraphConvolutional Network. Inform. Sci., 2021. 2[24] Yurun Tian, Xin Yu, Bin Fan, Fuchao Wu, Huub Heijnen,and Vassileios Balntas.SoSnet: Second Order SimilarityRegularization for Local Descriptor Learning. In IEEE Conf.Comput. Vis. Pattern Recog., 2019. 2[25] Carl Toft, Will Maddern, Akihiko Torii, Lars Hammarstrand,Erik Stenborg, Daniel Safari, Masatoshi Okutomi, MarcPollefeys, Josef Sivic, Tomas Pajdla, et al. Long-Term VisualLocalization Revisited. IEEE Trans. Pattern Anal. Mach. In-tell., 2020. 2[26] Carl Toft, Carl Olsson, and Fredrik Kahl. Long-term 3D Lo-calization and Pose from Semantic Labellings. In Int. Conf.Comput. Vis. Worksh., 2017. 2[27] Carl Toft, Erik Stenborg, Lars Hammarstrand, Lucas Brynte,Marc Pollefeys, Torsten Sattler, and Fredrik Kahl. SemanticMatch Consistency for Long-Term Visual Localization. InEur. Conf. Comput. Vis., 2018.[28] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszko-reit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and IlliaPolosukhin. A

下载后可阅读完整内容，剩余1页未读，立即下载