Transformers用于学习多场景绝对位姿回归

13 浏览量更新于2023-10-16 收藏 886KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2733−用Transformers学习多场景绝对位姿回归Yoli Shavit Ron Ferens以色列拉马特甘巴尔伊兰大学工程学院{yolisha，ronferens，yosi.keller} @ gmail.com摘要绝对相机姿态回归器仅根据所捕获的图像来估计相机的位置和取向通常，使用图像和姿势标签来训练具有多层感知器头的卷积骨干，最近，该方案被扩展为通过用一组完全连接的层替换MLP头来学习多个场景。在这项工作中，我们建议使用Transformers学习多场景绝对相机姿势回归，其中编码器用于聚合具有自我注意力的激活图，解码器将潜在特征和场景编码转换为候选姿势预测。这种机制使我们的模型专注于一般功能，是本地化的信息，同时嵌入多个场景在paral-lel。我们评估我们的方法在通常基准的室内和室外数据集，并表明它超越了多场景和国家的最先进的单场景绝对姿态回归。我们在https://github.com/yolish/multi-scene-pose-transformer上公开发布我们的代码。1. 介绍使用查询图像定位相机是许多计算机视觉应用中的关键任务，例如室内导航、增强现实和自动驾驶等。用于估计相机的位置和定向的当代方法提供准确度、运行时间和存储器之间的不同权衡。例如，分层定位流水线[26、30、25]实现了现有技术（SOTA）姿态准确度，但是相对较慢（数百毫秒的响应时间），并且需要大的存储器占用和客户端-服务器连接。这些方法采用图像检索（IR）来获取与查询图像相似的图像，然后进行局部特征提取和匹配。所提取的2D-2D匹配经由深度或3D点云被映射到2D-3D对应关系，并且然后被用于利用透视n点（PnP）和RANSAC [13]来估计相机姿态。另一方面，绝对姿态回归器（APR）估计位置Transformer0123 2MLP0123CNN+选定场景索引查询图像从场景2取向Transformer01232MLP0123图1：具有变换器的多场景绝对姿态回归。两个变压器分别参加位置和方向信息的功能，从卷积骨干。场景特定的查询（0 - 3）进一步编码与聚合的激活映射到潜在的表示，从其中选择一个单一的输出。最强的响应，示出为注意力权重的叠加颜色编码热图，是利用与输入图像所选择的输出用于回归位置x和取向q。仅使用查询图像，用单次向前传递来确定相机姿势。它们的速度快了一个数量级，并且由于其内存占用量小，因此可以在瘦客户机上作为独立应用程序部署不幸的是，与分层定位流水线和在推理时间利用3D数据的其他方法相比，APR的准确度也低一个数量级此外，大多数APR被设计为一次嵌入单个场景，这意味着对于具有N个场景的数据集（例如，具有许多病房和房间的医院），需要在推理期间训练、部署和选择N个在这项工作中，我们专注于提高准确性的APR，同时扩展，ING目前的单场景范例学习多个场景并行。绝对相机姿态回归的公式化首先由Kendall等人提出[17]第10段。在卷积神经网络（CNN）在学习不同计算机视觉任务方面取得成功之后，作者建议适应2734GoogLeNet架构通过附接多层感知器（MLP）头以回归相机位置和取向来进行相机姿态回归。提出的体系结构表示PoseNet，提供了一种新颖的，快速和轻量级的解决方案的摄像机定位。然而，它也遭受了低精度和有限的推广。提出了各种绝对姿态回归方法来解决这些问题，提出了对骨干和MLP架构的修改[20，21，35，37，29，36，8]，以及不同的方法。损失公式和优化策略[15，16，28]。尽管这些年利率各不相同，但它们有两个共同的特点：(1) 采用CNN主干来输出单个全局潜在向量，其用于回归姿势（ 2 ）训练每个场景的模型（场景特定的APR）。最近，Blanton et al.[3]提出了一种将单场景绝对姿态回归扩展到多场景范例的方法。类似于现有的APR，该方法应用CNN主干来生成图像的潜在全局描述符。然而，它不是使用单个场景特定的MLP，而是训练一组全连接（FC）层，每个场景一层，其基于预测的场景标识符进行索引。虽然提供了一个新的通用框架，工作优化一个单一的模型，多个场景，这种方法是无法匹配的准确性，当代SOTA的APR。在这项工作中，我们提出了一种新的多场景绝对姿态回归公式，其灵感来自于最近成功应用Transformer进行计算机视觉任务，如对象检测[9]和图像识别[11]。这些工作证明了编码器在通过自我注意力聚合聚焦于为特定任务提供信息的此外，解码器被证明可以基于输入嵌入成功地生成与查询对应的多个独立预测[9]。类似地，我们提出将变换器应用于多场景绝对姿态回归，使用编码器来关注姿态信息特征，并且使用解码器来将编码的场景标识符变换为潜在姿态表示（图1B）。①的人。由于姿态估计涉及两个不同的任务（位置和方向估计），与不同的视觉线索相关，我们在两个不同的分辨率下应用共享卷积骨干，并使用两个不同的变压器，每个任务一个。解码器我们在两个常见的基准数据集上评估我们的方法，包括多个室外和室内定位的挑战。我们表明，我们的方法不仅提供了一个新的SOTA多场景APR定位精度，但重要的是提供了一个新的SOTA单场景APR。此外，我们表明，我们的方法实现了竞争力即使在具有显著不同特征的多个数据集上进行训练时，也可以获得相同的结果我们进一步进行多次消融，以评估我们的模型的敏感性，不同的设计选择，并分析其可扩展性的运行时间和内存。综上所述，我们的主要贡献如下：• 我们提出了一种新的配方多场景绝对姿态回归使用变压器。• 我们的实验表明，自我注意允许聚集的位置和旋转图像线索。• 我们的方法被证明可以实现新的SOTA精度为多场景和单场景APR跨当代室外和室内定位基准。2. 相关工作相机姿态估计方法可以分为几个家庭，这取决于在推理时间的输入和它们的算法特性。图像检索方法学习全局图像描述符以用于检索描绘由查询图像捕获的区域的附近的数据库图像它们通常由姿态估计方法使用，诸如基于结构的分层定位流水线[30，25，22，12]和相对姿态回归方法[2，18，10]。IR还可以应用于通过获取最相似的所获取图像的姿态或通过内插若干视觉上接近的图像的姿态来估计相机姿态。这样的方法需要存储和搜索具有姿态标签的大型数据库。最近，Sattler et al.[27]提出了一种基于IR的相机姿态回归基线，以说明APR的局限性，因为没有回归器能够在多个定位任务中连续超过它。基于3D的定位方法，也被称为基于结构的方法[26，27]，包括利用2D图像位置和3D世界坐标之间的对应关系的相机姿态估计技术，用于分层姿态估计流水线[30，25，22，12]基于两阶段方法，利用全局（IR）和局部匹配。首先使用针对IR训练的CNN对要定位的每个查询图像进行编码，并且从大规模图像数据集中检索通过匹配局部图像特征来估计暂定2D-2D对应关系，然后将其映射到2D-3D匹配中。所得到的匹配被传递到PnP-RANSAC以用于估计相机姿态。这些管道在具有挑战性的条件下在大规模基准上实现了SOTA精度[30，25]。然而，这些方法比其他定位方法慢一个数量级或更高的速度。2735∈∈两个数量级，并且通常部署有客户端-服务器架构，因为需要大的存储空间。不同的作品主体直接从图像中的2D位置回归3D坐标。Brachmann和Rother导出了DSAC [4]和后续DSAC++[5]方案，其中CNN架构被训练以估计查询图像中的像素的3D位置这些方法在推理时只需要查询图像，并达到SOTA精度，这与分层本地化管道有竞争力。然而，与APR类似，模型需要在每个场景中进行训练。此外，这些方法实现起来具有挑战性，需要很长的时间来收敛，并且在推断时间[3]与绝对姿态回归方法（10ms）相比要慢（100ms）一个数量级。由于RANSAC的固有随机性，它们还遭受非确定性行为。相对姿态回归方法将相机姿态回归与IR方案组合。通过首先估计查询图像与参考图像集合之间的相对运动（平移和旋转）来计算绝对相机姿态应用IR方案来检索一组最近邻图像，并且在查询图像和每个检索到的图像之间单独计算相对运动回归，随后进行姿态插值。因此，学习集中于在给定一对图像的情况下回归相对姿态[2，18，10]。这些相对姿态回归量（RPR）被证明比APR更好地推广，并提高了小规模室内基准的准确性[10]。然而，类似于其他基于IR的方案，这样的方法在推断时间期间需要检索阶段和姿态标记的数据库。当图像随时间顺序采集时，结合相对和绝对回归显示出显著提高姿态准确度[33，24]。绝对姿态回归首先由[17]提出，通过将MLP头连接到GoogLeNet主干来直接回归给定输入图像的摄像头的位置和方向。由此产生的架构，名为PoseNet，远不如基于3D的方法准确，但使姿态估计使用一个单一的前向通过，提供了一个更轻，更快的定位替代。为了提高定位精度，当代APR研究了不同的CNN主干[20，21，37，29]和MLP头[37，21]。通过使用随机丢弃的激活来平均多个模型的预测[15]，或者通过使用长短期记忆（LSTM）层来降低全局图像编码的维度[35]，来解决过拟合问题。其他工作集中在绝对姿态回归的损失公式上，以便能够自适应地加权与位置和取向相关的误差。Kendall等人[16]建议优化这些参数平衡了两种损耗，以提高准确性并避免手动微调。许多姿势回归器都采用了这个公式。还提出了替代方向表示以改善姿势损失[37，7]。还建议使用附加传感器（如惯性传感器）来提高定位精度[7]。最近，Wang et al.[36]提出通过在CNN主干的输出上应用自注意力来使用注意力来指导回归过程。新的虽然对最初由Kendall等人制定的架构和损失提出了许多修改，主要范例保持不变：（1）采用CNN主干来输出用于绝对姿态回归的全局潜在向量（2）训练每个场景的单独模型。多场景绝对姿态回归方法旨在扩展绝对姿态回归范例，以用于在多个场景上学习单个模型。Blanton等人提出了多场景PoseNet（MSPN），一种新颖的多场景绝对姿态回归方法[3]，其中网络首先对与输入图像相关的特定场景进行分类，然后使用它来索引一组场景特定权重以回归姿态。跨场景共享的来自CNN骨干的激活图被用于场景分类和回归姿势两者。SoftMax的完全连接层预测场景，并通过二元交叉熵进行训练一组FC层，每个场景一个，被训练用于具有一组场景特定的参数化损失的绝对相机姿态回归。多场景相机姿态估计的概念也被应用于从图像像素回归3D坐标的基于3D的方法。然而，建议的框架仍然涉及训练多个模型（每个场景一个），然后使用专家混合策略选择最合适的模型[6]。在这项工作中，我们专注于学习一个统一的深度学习模型，用于跨多个场景的绝对姿势回归因此，我们的方法是密切相关的单场景和多场景的绝对姿态回归，我们比较它在这一领域的领先架构（APR）。我们在补充材料中包括了关于注意力和变形金刚的广告背景。3. 基于Transformers的单/多场景APR利用输入图像上的前向传递来定位捕获相机。相机姿态p通常由元组x，q表示，其中x，R3是相机在世界坐标中的位置，并且q，R4是其3D取向的四元数编码。<在最近的视觉变换器[9，11]的成功之后，我们采用单独的位置和定向变换器。273611--∈∈∈∈ΣΣEN1∈1∈ RNA^NN联系我们^∈×∈查询图像图2：我们提出的模型的架构。用于由卷积主干计算的（平坦化的）中间激活图的自适应聚合的卷积Transformer器编码器特别地，如图1所示3、位置和定向编码器强调不同的图像线索：与由定向编码器强调的细长边缘相比，角和斑点状图像线索是位置信息的。为了处理N个场景，我们还应用单独的位置和定向变换器解码器，其通过以下方式查询：Xi和qi，分别用于每个场景的位置和方向嵌入。对应的输出序列{Xi}和QiN分别对定位参数进行编码。每一场戏的演员。这种架构的灵感来自DETR首先使用11卷积（投影到维度Cd）将维映射ARHa× Wa×Ca转换为序列表示ARHa·Wa×Cd，然后进行平坦化（图2b）。激活图中的每个位置还被分配有学习的编码以保留每个位置的空间信息为了减少参数的数量，针对X、Y轴分别学习两个一维编码。具体地，对于激活图A，我们定义位置嵌入向量的集合EuR（Wa）×Cd/2和EvR（Ha）×Cd/2，使得空间位置（i，j），i1…H a，j 1.. 通过级联两个对应的嵌入向量来编码：方法[9]，其中通过多个查询来查询单个激活图，每个查询与不同的任务相关。一起i，j位置JuCdIv（一）编码器-解码器Transformer体系结构允许在一次学习多个场景的为了恢复姿势，N因此，用作变换器的输入的经处理的序列由下式给出：首先通过连接{Xi}1和{Xi} 2来对场景进行分类。{Qi}1，以及检测到的场景{Xi，Qi}的嵌入。Z0=A^+EA∈RHa·Wa×Cd（2）由MLP头回归。3.1. 网络架构我们的模型的架构如图所示。2.给定图像IRH×W×C，我们以两种不同的分辨率对卷积骨干进行采样，并根据回归任务获取激活图：Ax和Aq，分别用于位置和取向回归（图 2a ）。为了将激活映射转换为Transformer兼容的输入，我们遵循与[9]中相同的序列准备过程一种行为-其中EA是A的位置编码。该处理被单独应用于两个激活标测图中的每一个（分别用于位置和取向变换器）。我们使用[9]中描述的Transformer架构，使用修改的标准编码器和解码器架构，以在每个注意层添加位置编码一个转换器编码器是由L个相同的层，每个consisting的多头注意力（MHA）和多层感知器（MLP）模块。每一层1，1=1…L执行通过应用LayerNorm（LN）Transformer器编码器Transformer器解码器��∈ ℝ��×��定向Transformer0 ……��መ��∈ℝℎ��×��2b2gMLP【一乘三】2a��∈ ℝℎ�� ×�� ×��00CNNL2f+我FC我��∈ ℝℎ�� ×�� ×��N2e∈×2��N��መ��∈ℝℎ��×��0 ……我MLP��L∈��【一乘四】............EE=.2d��L∈��Transformer器编码器Transformer器解码器0 ... 我 …我��∈ ℝ��×��2c0 ……位置Transformer2737111Yi--∼−−A^A^A^NN[1]在每个模块之前，并将剩余连接的输入加回：Zl′=MHA（LN（Zl−1））+Zl−1∈RHa·Wa×Cd（3）其中Sx和Sq是控制两个损耗之间的平衡的学习参数。由于我们的模型还需要对拍摄图像的场景进行分类，因此我们进一步添加了负对数似然（NLL）损失项，该损失项相对于地面真实场景索引进行计算Z1=MLP（LN（Z1′））+Z1′A^A^A^∈RHa·Wa×Cd（4）s0。给定估计的姿态p和预测场景的对数概率分布s，我们的总体损失如下在最后一层L，输出通过附加的归一化：签署人：Lmulti-scene=Lp+NLL（s，s0）（10）ZL=LN（ZL）（5）3.3.实现细节A^A^给定具有N个场景的数据集，Transformer解码器首先应用自我注意力，如等式（1）中所示。3到两个学习的查询序列{xi}和{qi}（图2c），我们的模型在PyTorch中实现[23]。我们使用预先训练的EfficientNet-B 0 [31]，可通过开源实现[19]获得，并在两种不同的分辨率：Ax∈R14×14×112和Aq∈位置和方向解码器。等式三四然后再次应用，但这次计算编码器-R28×28×40。我们设置Cd=256，以英寸为解码器的注意力，而不是自我注意力。与早期的自回归解码器[34]相反，该架构针对所有位置并行地输出预测。关于MHA操作和并行解码的详细定义，我们请读者参考[34，9]。变形金刚输出序列{Xi}N和{Qi}N，其中具有潜在em。Transformer组件的放置。所有编码器和解码器由具有gelu非线性和p=0的丢弃的六个层组成。1.一、每个（编码器/解码器）层使用四个头MHA和具有隐藏尺寸Ch=Cd的两层MLP。两个MLP头，回归位置和方向-11分向量分别扩展解码器维度每一个场景（图）第2d段）。然而，给定查询图像，仅一个位置对应于从其拍摄图像为了选择合适的priate场景，我们附加的两个变压器的输出（图。2 e）作为{Zi}N，使得Zi=ΣXiΣ∈R2Cd，6并将它们通过全连接层，然后通过Log SoftMax。然后选择具有最大概率的位置处的向量（图12）。2f）。所选择的变换器输出Xi、Qi被传递到具有一个隐藏层和gelu非线性的相应MLP头，以回归目标向量x（图2g）或q。3.2. 多场景相机姿态丢失我们训练我们的模型，以最小化头寸损失L到 1024 具有单个隐藏层。我们的代码可从https://github.com/yolish/multi-scene-pose-Transformer公开获得，提供了模型实现以及培训和评估框架。4. 实验结果4.1. 实验装置数据集。我们使用 Cam-bridge Landmarks [17] 和7Scenes [14]数据集来评估我们的方法，这些数据集通常用于评估姿态回归方法。剑桥地标数据集由六个中等大小的场景组成（9005500m2）设置在一个乌尔-禁止环境。对于我们的比较分析，我们考虑了四个场景，这些场景通常以APR为基准。7Scenes数据集包括七个小规模场景（X以及相对于地面真实姿态p0=x0，q0>的定向损失Lq，由下式给出：<1 10m2）设置在办公室室内环境中。培训详情。我们优化我们的模型，以最大限度地减少在方程的损失。10使用Adam，其中β1=0。9，β2=0。999和L x=||x0的 --||2（七）=10−10。损失参数（Eq. 9)被初始化为在[33]中。在所有实验中，我们使用的批量为8，初始学习率λ= 10−4。在火车上，L q= ||q0Q- -一种||Q||||2（八）使用地面实况场景索引来选择解码器输出，并且所估计的场景索引仅用于评估。其中q被归一化为阶为en的单位范数四元数确保它是有效的方向编码。我们结合两个损失使用相机2738的姿态损失制定建议肯德尔等人。[16]：Lp=Lxexp（−sx）+sx+Lqexp（−sq）+sq（9）评估NLL损失。在推断期间，场景索引为未知，我们依赖于我们的模型的预测，以最高（log）概率获取索引。注意，不是如在单个APR中那样训练每个场景的模型（通常具有场景特定的训练超参数），这里我们一起训练所有场景的单个模型广告2739表1：MSPN和我们的方法在Cambridge Landmarks数据集（室外定位）上的比较分析我们报告了每种方法的中值位置/方向误差（单位：米/度）粗体突出显示表示性能更好方法K. 学院旧医院店门面街。玛丽MSPN [3] 1.73/3.65 2.55/4.05 2.92/7.49 2.67/6.18MS-Transformer（我们的）0.83/1.47 1.81/2.39 0.86/3.07 1.62/3.99表2：我们的方法和MSPN在7Scenes数据集（室内定位）上的比较分析我们报告了每种方法的位置/方向误差中位数（单位：米/度）。粗体突出显示表示性能更好。方法象棋火头办公室南瓜厨房楼梯MSPN[3]0.09/4.760.29/10.50.16/13.10.16/6.80.19/5.50.21/6.61 0.31/11.63MS-Transformer（我们的）0.11/4.66 0.24/9.6 0.14/12.190.17/5.66 0.18/4.44 0.17/5.94 0.26/8.45表3：剑桥地标数据集的定位结果。我们报告的平均值的中位数位置/方向误差米/度和各自的排名。最佳结果以粗体突出显示。表4：7Scenes数据集的定位结果。我们报告了以米/度为单位的中值位置/定向误差的平均值和相应的排名。最佳结果以粗体突出显示。方法平均值[m/deg]行列方法平均值[m/deg]行列单场景APR单场景APRPoseNet [17]2.09/6.8410/11PoseNet [17]0.44/10.410/ 11[15]第十五话1.92/6.288/10[15]第十五话0.47/9.81十一月八日LSTM-PN [35]1.30/5.522/9LSTM-PN [35]0.31/9.86八月九日[21]第二十一话1.33/5.173/7GPoseNet [8]0.31/9.95八月八日GPoseNet [8]2.08/4.596/3[16]第十六话0.24/7.877/ 4[16]第十六话1.43/2.855/2[第16话]0.23/8.12五分之五[第16话]1.63/2.866/3MapNet [7]0.21/7.784/ 3MapNet [7]1.63/3.646/5IRPNet [29]0.23/8.49七分之五IRPNet [29]1.42/3.454/4附件位置[36]0.20/7.562/2多场景APR多场景APRMSPN [3]2.47/5.3411/8MSPN [3]0.20/8.412/6MS-变压器（我们的）1.28/2.731/1个MS-变压器（我们的）0.18/7.281/1个补充材料中提供了增援和培训的其他细节。本文中报告的所有实验都在 8Gb NVIDIA GeForce GTX 1080GPU上进行。4.2. 年利率的比较分析我们的方法的目的是提供一个多场景的绝对姿态回归范例，这也提高了目前的APR获得的准确性。因此，我们比较我们的方法都MSPN，这是，我们所知道的最好的边缘，唯一的其他多场景APR，以及领先的单场景APR。我们不包括第2节中详细描述的定位方案，这些方案是较慢的量级（基于3D的场景坐标回归[4，5]），或者在推理时利用附加数据（定位流水线[30，25，22，12]和相对姿态回归[2、18、10]）。表1和表2分别示出了利用我们的方法（ MS-Transformer ）和利用 MSPN 在 Cam-bridgeLandmarks和7Scenes数据集上获得的结果。2740表5：单场景、多场景和多数据集学习的定位结果我们报告了Cam-bridgeLandmarks和7Scenes数据集的中值位置/方向误差的平均值，APR方法CambridgeLand。7场景[m/deg][m/deg]单场景[16] 1.43/2.850.24/7.87多场景（我们的）1.28/2.730.18/7.28多数据集（我们的）1.50/2.57 0.22/6.78由于MSPN是在CambridgeLandmarks数据集的不同场景组合上训练的，因此我们采用作者在该数据集上报告的性能最佳的模型[3]。我们的方法在室外和室内场景中始终优于MSPN，减少了位置和方向误差。我们进一步将我们的结果与当代绝对姿态回归解决方案进行比较。表3-4示出了通过不同的APR、MSPN和我们的方法获得的性能。2741N--1CambridgeLandmarks和7Scenes数据集。我们报告了每个数据集中所有场景的中值位置和方向误差的平均值以及相应的排名（其中前1位对应于最小误差）。我们的方法在室内和室外定位上都排名第一，实现了最小的位置和方向误差。有趣的是，7Scenes数据集上的两个性能最好的APR（AttLoc和我们的方法）都使用姿态回归的注意力机制。我们可以进一步将多场景学习的概念扩展到多数据集学习，其中单个模型在完全独立的数据集上进行训练，可能会显示不同的挑战和属性。为了评估这种扩展的效果，我们在7Scenes和Cambridge Landmarks数据集上一起训练我们的模型。表5示出了在多场景和多数据集模式中训练的最先进的单场景APR [16]和我们的模型的每个数据集的平均姿态误差。虽然在两个数据集上训练时观察到一些退化，但我们的模型仍然保持了有竞争力的性能，并且优于单场景模型。尽管两个数据集描绘了显著不同的环境和挑战（中等规模的室外与小规模的室内）。我们还评估了我们的模型正确分类输入查询图像的场景的能力我们的模型达到了98的平均精度。9%（跨场景）从而降低了解码器输出的可靠选择，该解码器输出是回归姿势的关键。补充资料中提供了对模型可伸缩性（运行时和内存）的其他分析。4.3. 注意力地图可视化和解释在基于注意力的方案中，注意力地图的可视化提供了对Transformer编码器捕获的视觉线索的直观解释。为此，我们将最后一个编码器层的上采样注意力权重可视化为叠加在输入图像上的热图图 3 显示了从7Scenes数据集中的Chess场景拍摄的图像的注意力图我们显示了在三个和七个场景（分别为顶行和底行）上训练时在更多场景上的训练允许网络更好地捕获用于位置和定向嵌入的信息图像线索。特别地，位置注意力集中在角状物体上，而方向注意力强调细长的边缘。(a) 输入（3个场景）（b）位置（c）方向(d)输入（7个场景）（e）位置（f）方向图3：Transformer Encoder针对不同数量的训练场景（3和7）的注意力可视化。当我们使用更多场景（第二行）训练我们的方案时，位置注意力能够更好地定位角状图像线索（e与b相比）。定向注意力能够更好地定位细长边缘（f与c相比）。(a)金斯角(b)旧医院（c）商店门面（d）圣玛丽图4：平移解码器注意可视化X11。每个激活都与不同的场景相关。激活是由于来自旧医院场景的输入图像。相应场景的激活明显更强。表6：在7Scenes数据集上评估的我们的模型的卷积骨干的消融。我们报告了所有场景中的平均位置和方向误差。型号选择以粗体突出显示。主干位置方向[米][度]Resnet50 0.19 8.6有效NetB00.18 7.28我们还将注意力{Xi}N可视化的输出处EFFECTS 0.17 7.26来自OldHospital场景的图像的位置解码器（图4）。每个激活对应于特定场景。事实上，对应于OldHos- pital场景的激活（图1B）。（4）强度大。我们在补充材料中包括了对解码器注意力的额外分析。4.4. 消融研究为了研究不同架构设计选择的效果，我们对7Scenes数据集进行了多次消融实验（表6-9）。在每一次实验中-2742××××××表7：在7Scenes数据集上评价的激活标测图消融。Ax和 Aq 以不同的分辨率采样，并传递到相应的Transformer头。我们报告所有场景中的中值位置和方向误差的平均值型号选择以粗体突出显示。可以利用适当的更深模型（例如，更深层次的EfficientNet模型），在内存和运行时的支出。激活图的分辨率。EfficientNet主干可以在不同的端点进行采样随着我们沿着这些端点，感受野和深度决议位置取向每个入口都在增长。因此，在dif.Ax/Aq[米][度]28x28 x40/14x14 x1120.227.4714x14 x112/28 x28x400.187.2814x14 x112/14x14 x1120.19 7.78表8：在7Scenes数据集上评估的编码器和解码器组件我们报告所有场景中型号选择以粗体突出显示编码器/解码器位置方向层数[米][度]20.197.4840.186.9460.187.288 0.18 6.92表9：在7Scenes数据集上评估的Transformer的潜在维度C d的消融我们报告所有场景中的中值位置和方向误差的平均值。型号选择以粗体突出显示。Transformer尺寸位置方向[米][度]640.188.061280.197.562560.187.28512 0.18 7.19我们从用于比较分析的架构（第4.2节）开始，并修改单个算法组件/超参数。我们计算每个场景的中位数位置和方向误差，并报告跨场景的平均值。我们的消融研究集中在我们方法的两个主要方面：（a）激活图的导出（主干和分辨率）和（b）Transformer架构。卷积骨干。我们考虑三个卷积编码器用于我们的主干选择：ResNet 50、Effi-cientNetB 0和EfficientNetB 1。用这些主链获得的结果示于表6中。与ResNet 50主干相比，两个Efficient-Net变体实现了更好的性能，这要么是由于过拟合（ ResNet 50 的 26 M 参数，而EfficientNetB 0 和 EfficientNetB 1 分别为 5.3M 和7.8M[32]）或更好的学习能力[32]。使用EfficientNetB1主干实现了最佳性能，这表明进一步不同的级别捕获不同的特征，这些特征可以在它们对于位置和方向估计的信息量方面有所不同。为了评估这种效果，我们通过在不同端点对位置和方向激活图Ax和Aq进行采样来训练我们的模型。具体而言，我们考虑从同一终点采样Ax和A q，分辨率为14 14 112，或者从两个不同分辨率分离采样时：1414112和28 2840表7示出了这三种组合的结果。在提供分别用于位置和方向变换器的粗略和精细激活图的组合Transformer架构我们的Transformer架构的主要超参数遵循标准选择。因此，我们进一步评估我们的模型性能对两个主要超参数变化的敏感性：编码器组件和解码器组件中的层数以及Transformer维度结果分别示于表8和表9中。与其他APR解决方案相比，所有考虑的性能随着Transformer维度的增加而提高，这表明更大的模型可以进一步提高局部化精度。我们注意到，无论层数如何（表8），我们的模型都优于其他解决方案（见表4）。我们选择标准6层模型进行消融，因为我们发现它最稳健。5. 结论在这项工作中，我们提出了一种新的基于变换的方法，用于多场景绝对姿态回归。使用两个Transformer编码器的自我注意分别注意到位置和方向信息图像线索。因此，以任务自适应的方式聚合由骨干CNN我们的公式允许在骨干CNN和Transformer编码器中聚集非场景特定的信息场景特定信息由变换器解码器编码，并且按场景查询。我们的方法被示出为跨室外和室内数据集的单个和多场景绝对回归方法2743引用[1] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。[2] Vassileios Balntas、Shuda Li和Victor Prisacariu。Reloc-net：使用神经网络的连续度量学习重新定位。在欧洲计算机视觉会议（ECCV）的会议记录中，2018年9月。[3] Hunter Blanton Connor Greenwell Scott Workman 和Nathan Jacobs 将绝对姿态回归扩展到多场景。在IEEE/CVF计算机视觉和模式识别研讨会会议集，第38-39页[4] E. Brachmann，A. Krull，S. Nowozin，J. Shotton，F. 米歇尔S. Gumhold和C.罗瑟用于相机定位的Dsac a（C在2017年IEEE计算机视觉和模式识别会议（CVPR），第2492-2500页，Los Alamitos，CA，USA，2017年7月。IEEE计算机协会。[5] E. Brachmann和C.罗瑟学习越少越好-通过3d表面回归的6d摄像机定位2018年IEEE/CVF计算机视觉和模式识别会议，第4654-4662页[6] Eric Brachmann和Carsten Rother。专家样本共识适用于相机重新定位。在IEEE/CVF计算机视觉国际会议论文集，第7525-7534页[7] Samarth Brahmbhatt，Jinwei Gu，Kihwan Kim，JamesHays，and Jan Kautz.用于相机定位的地图的几何感知学习在IEEE计算机视觉和模式识别会议（CVPR），2018。[8] 蔡明，沈春华，伊恩·里德。摄像机重定位的混合2018年英国机器视觉会议，BMVC 2018，英国纽卡斯尔，2018年9月3日至6日，第238页。BMVA Press，2018.[9] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在Andrea Vedaldi ， Horst Bischof ， Thomas Brox 和 Jan-Michael Frahm编辑，计算机视觉施普林格国际出版社.[10] Mingyu Ding，Zhe Wang，Jiankai Sun，Jianping Shi，and Ping Luo. Camnet：用于相机重新定位的粗到精检索。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，2019年10月。[11] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：大规模图像识别的变形金刚，2020年。[12] M. 杜斯马努岛 Rocco ， T. Pajdla ， M. Pollefeys ， J.Sivic，A. Torii和T.萨特勒D2-net：一个可训练的cnn，用于联合描述和检测局部特征。2019年IEEE/CVF计算机视觉和模式识别会议（CVPR），第8084-8093页[13] Martin A. Fischler和Robert C.波尔斯随机样本一致性：模型拟合的范例，应用于图像分析和自动制图。Commun. ACM，24（6）：381 -395，June 1981.[14] B. Glocker，S. Izadi，J. Shotton，and A.天啊实时RGB-D摄像机重新定位。在2013年IEEE混合和增强现实国际研讨会（IS-MAR），第173-179页[15] 亚历克斯·肯德尔和罗伯托·西波拉在深度学习中对相机重新定位的不确定性在Danica Kragic，Antonio Bicchi和Alessandro De Luca，编辑，2016年IEEE机器人和自动化国际会议，ICRA 2016，瑞典斯德哥尔摩，2016年5月16日日，第4762-4769页。IEEE，2016.[16] A. Kendall和R.西波拉使用深度学习进行相机姿态回归的几何损失函数。2017年IEEE计算机视觉和模式识别会议（CVPR），第6555-6564页[17] A. Kendall，M. Grimes和R.西波拉Posenet：用于实时6-dof相机重新定位的卷积网络。2015年IEEE国际计算机视觉会议（ICCV），第2938-2946页[18] Z.拉斯卡尔岛Melekhov，S. Kalia和J.卡娜拉使用卷积神经网络计算成对相对姿态的相机重新定位。在2017年IEEE国际计算机视觉研讨会（ICCVW）上，第920-929页[19] 卢克 · 梅拉斯基里兹 efficientnet-pytorch. https：//pypi.org/project/efficientnet-pytorch/，2019.[20] Iaroslav Melekhov、Juha Y

下载后可阅读完整内容，剩余1页未读，立即下载