分层场景坐标分类和回归用于视觉定位

156 浏览量更新于2023-10-20 收藏 13.96MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

119830分层场景坐标分类和回归用于视觉定位0Xiaotian Li 1 Shuzhe Wang 1 Yi Zhao 1 Jakob Verbeek 2 * Juho Kannala 101 Aalto大学 2 Facebook AI研究0摘要0视觉定位对于计算机视觉和机器人学中的许多应用至关重要。为了解决单幅RGB图像定位问题，最先进的基于特征的方法在查询图像和预先构建的3D模型之间匹配局部描述符。最近，深度神经网络已被用来回归原始像素与场景中的3D坐标之间的映射，因此匹配是通过网络的前向传递隐式进行的。然而，在一个大而模糊的环境中，直接学习这样的回归任务对于单个网络来说可能很困难。在这项工作中，我们提出了一种新的分层场景坐标网络，以从单个RGB图像中以粗到细的方式预测像素场景坐标。该网络由一系列输出层组成，每个输出层都依赖于前面的输出层。最终的输出层预测3D坐标，其他输出层产生逐渐细化的离散位置标签。所提出的方法优于仅回归的基线网络，并允许我们训练可在大型环境中稳健扩展的紧凑模型。它在7-Scenes、12-Scenes、CambridgeLandmarks数据集和三个组合场景上创造了新的单幅RGB定位性能的最新技术水平。此外，对于AachenDay-Night数据集上的大规模室外定位，我们提出了一种混合方法，优于现有的场景坐标回归方法，并显著减小了与显式特征匹配方法之间的性能差距。01. 引言0视觉定位旨在估计相对于已知环境的精确六自由度（6-DoF）相机姿态。它是许多智能自主系统和计算机视觉和机器人应用的基本组成部分，例如增强现实、自动驾驶或基于相机的个人室内定位。0* JV在INRIA期间完成的工作。1代码和材料可在https://aaltovision.github.io/hscnet获得。0常用的视觉定位方法依赖于匹配局部视觉描述符[42,43]。通常，通过最近邻搜索在查询图像的2D兴趣点和预先构建的结构运动模型中的3D点之间建立对应关系[48,49]，然后可以从对应关系计算查询的6自由度相机姿态。场景坐标回归方法直接从图像中回归3D场景坐标，而不是通过匹配描述符来明确建立2D-3D对应关系[3, 5, 8,50]。这样，可以在没有特征检测、描述和显式匹配的情况下密集地获取图像中的2D点与场景中的3D点之间的对应关系。此外，测试时不需要描述符数据库，因为模型权重隐式地编码了场景表示。实验证明，与最先进的基于特征的方法相比，基于CNN的场景坐标回归方法在小规模数据集上实现了更好的定位性能[5]。高精度和紧凑的密集场景模型使得场景坐标回归方法成为经典基于特征方法的有趣替代方案。然而，大多数现有的场景坐标回归方法只能应用于小规模场景。通常，场景坐标回归网络被设计为具有有限的感受野[3,5]，即每个场景坐标预测只考虑一个小的局部图像块。这样做可以使网络从有限的训练数据中很好地泛化，因为局部图像块的外观在视点变化方面更加稳定。另一方面，有限的感受野大小可能会导致场景中的模糊模式，特别是在大规模环境中，由于局部图像块之间的视觉相似性。由于这些模糊性，网络更难准确地建模回归问题，导致测试时性能较差。使用更大的感受野大小，直到整个图像，来回归坐标可以减轻由模糊性引起的问题。然而，已经证明在有限的训练数据情况下，即使数据增强可以缓解，使用更大的输入模式容易过拟合。PnP-RANSAC6-DoF PosePose Optimization1198403D场景区域标签子区域标签场景坐标0查询图像0分层场景坐标网络0区域标签预测0子区域标签预测0场景坐标预测0图1. 基于分层场景坐标预测的单图像RGB定位方法概述，这里使用3个级别。0在一定程度上解决了这个问题[27]。与此相反，在这项工作中，我们通过在每个像素周围的离散位置标签上进行条件约束，克服了由于小感受野而产生的模糊性。在训练过程中，标签是通过对地面真实3D坐标进行粗量化获得的。在测试时，每个像素的位置标签是使用密集分类网络获得的，这种网络可以更容易地处理位置的模糊性，因为它们是使用交叉熵分类损失进行训练的，允许在3D空间中进行多模态预测。我们的模型允许使用多个分类层，使用逐渐细化的位置标签，通过对地面真实3D点云数据进行分层聚类获得。我们的分层粗到细的架构是使用与FiLM架构[36]相关的条件层实现的，从而得到一个紧凑的模型。请参见图1，了解我们方法的概述。我们通过将其与仅回归网络进行比较来验证我们的方法，后者缺乏分层粗到细的结构。我们在之前的研究中使用了三个数据集进行结果展示：7-Scenes [50]，12-Scenes[56]和Cambridge Landmarks[24]。我们的方法始终表现出更好的性能，并在单图像RGB定位方面取得了最先进的结果。此外，通过将7-Scenes和12-Scenes数据集编译成单个大场景，并使用AachenDay-Night数据集[44,46]，我们展示了我们的方法对更大环境的更强大的扩展能力。总之，我们的贡献如下：•我们引入了一种新的分层粗到细的条件架构，用于场景坐标预测，它改进了基线回归网络的性能和可扩展性。•我们展示了我们的新方法在三个基准数据集上实现了单图像RGB定位的最先进结果，并且它使我们能够训练单个紧凑的模型，这些模型对大场景具有更强大的扩展能力。•对于大规模室外定位，我们提出了一种基于我们网络的混合方法，它显著缩小了与基于特征的方法之间的差距。0基于我们的网络构建的混合方法，显著缩小了与基于特征的方法之间的差距。02. 相关工作0视觉定位。视觉定位旨在预测给定查询图像的6自由度相机姿态。为了获得精确的6自由度相机姿态，视觉定位方法通常是基于结构的，即它们依赖于2D图像位置和3D场景坐标之间的2D-3D对应关系。通过建立2D-3D对应关系，RANSAC[20]优化方案负责产生最终的姿态估计。通常，这些对应关系是通过匹配SIFT[29]等局部特征获得的，并且已经提出了许多匹配和过滤技术，使得在城市规模的环境中能够进行高效且鲁棒的定位[15, 25, 34, 43, 52,54]。图像检索也可以用于视觉定位[1]。查询图像的姿态可以直接通过最相似的检索数据库图像来近似。由于匹配使用紧凑的图像级描述符，图像检索方法可以扩展到非常大的环境。检索方法可以与基于结构的方法[40, 41, 45, 53,60]或相对姿态估计[2, 18,26]相结合，以预测精确的姿态。通常，检索步骤有助于限制搜索空间，从而实现更快速和更准确的定位。近年来，已经开始探索基于学习的定位方法。一个流行的方向是用单个神经网络替代整个定位流程。PoseNet [24]及其变体[9, 22,23, 31,58]直接从查询图像回归相机姿态。然而，最近的研究表明，直接姿态回归的结果更类似于通过图像检索进行姿态近似，而不是通过3D结构进行精确姿态估计[47]。因此，这些方法仍然不如基于结构的方法表现出色。通过融合前一帧的估计姿态信息，[37, 55]取得了更好的结果。Conditioning layers.To make use of the discrete loca-tion label information predicted by the network at coarserlevels, these predictions should be fed back to the ﬁnerlevels.Inspired by the Feature-wise Linear Modulation(FiLM) conditioning method [36], we introduce condition-ing layers just before each of the output layers. A condi-tioning parameter generator takes the predicted label mapℓ as input, outputs a set of scaling and shifting parametersγ(ℓ) and β(ℓ), and these parameters are fed into the con-ditioning layer to apply linear transformation to the inputfeature map. Unlike FiLM layers, however, which perform119850性能，但需要图像序列而不是单张图像。0场景坐标回归。与学习整个流程相比，场景坐标回归方法学习了结构化方法中流程的第一阶段。也就是说，要么训练一个随机森林[4, 13, 14, 21, 30, 32, 33, 50,57]，要么训练一个神经网络[3, 5, 6, 7, 8, 10, 11, 12, 27,28,30]来直接预测像素的3D场景坐标，从而建立2D-3D对应关系。这些方法不明确依赖于特征检测、描述和匹配，并能够提供密集的对应关系。它们在小尺度和中尺度上比传统的基于特征的方法更准确，但通常在较大场景上不具有良好的可扩展性[5,6]。为了很好地推广到新的视点，这些方法通常仅依赖于局部图像块来产生场景坐标预测。然而，这可能会由于相似的局部外观引入歧义，特别是当场景的尺度较大时。为了解决局部外观歧义，我们引入了逐元素的条件层，使用粗糙的离散位置信息来调制网络的中间特征图。我们展示了这导致更好的定位性能，并且我们可以稳健地扩展到更大的环境中。0联合分类回归。联合分类回归框架已被证明在解决各种视觉任务中是有效的。例如，[38,39]提出了一种用于从单张图像估计人体姿态的联合分类回归方法。在[4]中，训练了一个联合分类回归森林来预测场景标识符和场景坐标。在[59]中，使用CNN来检测和分割预定义的一组平面感兴趣对象（OOIs），然后对它们与参考图像的密集匹配进行回归。在[10]中，场景坐标回归被形式化为物体实例识别和局部坐标回归的两个独立任务。在[6]中，多个场景坐标回归网络被训练为专家混合模型，同时使用一个门控网络来评估每个专家对给定输入的相关性，并使用一种新颖的RANSAC框架（即Expert SampleConsensus，ESAC）获得最终的姿态估计。与现有方法相比，我们的工作中使用了为所有像素定义的空间密集离散位置标签，并提出了类似FiLM的条件层来在层次结构中传播信息。我们展示了我们的新颖框架使我们能够使用一个紧凑的模型实现高精度的定位。03. 层次化场景坐标预测0我们现在描述我们的粗到细的层次化场景坐标预测方法。请注意，我们处理的是单张RGB图像的定位，如[5, 6, 7,28]，而不是使用RGB-D图像[12, 13, 14, 21, 33, 50,57]或者0图像序列[37, 55]。0层次化联合学习框架。为了定义层次化的离散位置标签，我们对真实的3D点云数据进行了层次化分割。这一步可以使用k-means等方法完成。通过这种方式，除了真实的3D场景坐标，训练图像中的每个像素还与一系列标签相关联，这些标签从粗糙到精细，分别在不同层次的聚类层次上获得。然后，对于每个层次，我们的网络都有一个相应的分类层，用于预测该层次上所有像素的离散位置标签。除了分类层，我们还包括一个最终的回归层，用于预测像素的连续3D场景坐标，生成假设的2D-3D匹配。为了将粗糙位置信息传播到更细的层次以指导预测，我们在每个分类/回归层之前引入了条件层。请注意，在训练过程中，我们在地面真实标签图上进行条件，而在测试时，则在预测的标签图上进行条件。由于每个分类层的预测都是在所有前面的标签图的条件下进行的，在每个特定的分类层，只需预测该层次的标签分支即可。例如，对于一个具有分支因子k的三级分类层次，我们只在每个层次上对k个标签进行分类。与[10]类似，我们不直接回归绝对坐标，而是回归到最细层次上的3D空间中的聚类中心的相对位置。这加速了网络训练的收敛[10]。请注意，这种层次化场景坐标学习框架还允许仅进行分类的变体。也就是说，如果我们在回归层之前有足够精细的位置标签，我们可以简单地将聚类中心作为场景坐标的预测，而无需执行最后的回归步骤。我们设计网络为全局到局部，这意味着更细的输出层在输入图像中具有更小的感受野。这使得网络可以在较粗糙的层次上使用更多的全局信息，同时通过位置标签对更细的层次上的局部外观进行消除歧义。请注意，在测试时，更细的输出层的感受野也很大，因为它们依赖于在测试时从输入预测的离散位置标签，而不是像在训练期间那样固定。RGB Image(H x W x 3)3x3Base Regression NetworkClassification BranchConditioning Parameter GeneratorConditioning Layer3x31x11x1Convolutional Layer1x11x11x11x11x1.1x11x1Label Map(h x w x 1)Scene Coordinate Map(h x w x 3)Conditioning LayerConditioning Parameter Generator𝓁)𝓁)𝛾(𝓁)𝓁)𝓍𝛾(𝛽(𝓁)Label Map(h x w x 1)Figure 2. Left: Architecture of our hierarchical scene coordinate network (3-level). Right: Architecture of the conditioning layer.the same channel-wise modulation across the entire featuremap, our conditioning layers perform a linear modulationper spatial position, i.e., element-wise multiplication andaddition as shown in Fig. 2 (right). Therefore, instead ofvectors, the output parameters γ(ℓ) and β(ℓ) from a gener-ator are feature maps of the same (height, width, channel)dimensions as the input feature map of the correspondingconditioning layer. More formally, given the input featuremap x, the scaling and shifting parameters γ(ℓ) and β(ℓ),the linear modulation can be written as:f(x, ℓ) = γ(ℓ) ⊙ x + β(ℓ),(1)where ⊙ denotes the Hadamard product. In addition, thegenerators consist of only 1×1 convolutional layers so thateach pixel is conditioned on its own location labels. We usean ELU non-linearity [16] after the feature modulation.Network architecture. In our main experiments we use 3-level hierarchy for all the datasets, i.e. our network has twoclassiﬁcation output layers and one regression output layer.The overall architecture of this network is shown in Fig. 2(left). The ﬁrst classiﬁcation branch predicts the coarse lo-cation labels, and the second one predicts the ﬁne labels.We use strided convolution, upconvolution and dilated con-volution for the two classiﬁcation branches to enlarge thesize of the receptive ﬁeld, while preserving the output res-olution. All the layers after the conditioning layers havekernel size of 1×1 such that the label conditioning is ap-plied locally. More details on the architecture are providedin the supplementary material.Loss function.Our network predicts location labels andregresses scene coordinates at the same time. Therefore, weneed both a regression loss and a classiﬁcation loss duringtraining. For the regression task, we minimize the Euclideandistance between predicted scene coordinates ˆy and groundtruth scene coordinates y,Lr =�i∥yi − ˆyi∥2,(2)where i ranges over the pixels in the image. For the classi-ﬁcation task, we use cross-entropy loss at each level, i.e.Ljc = −�i�ℓji�⊤log ˆℓji,(3)L = w1L1c + w2L2c + w3Lr,(4)119860其中， ℓ j i 表示像素 i 在级别 j上的真实标签的one-hot编码，ˆ ℓ j i表示相同像素的预测标签概率向量，并且对数函数应用于每个元素。在3级层次结构的情况下，最终的损失函数由以下给出0其中，w 1 ，w 2 ，w 3是损失项的权重。我们发现最终回归预测的准确性对于定位性能至关重要，因此应该为回归损失设置较大的值。有关权重和训练过程的详细信息请参见补充材料。请注意，如前所述，我们的分层联合学习框架还可以通过使用更细的标签层次结构来进行仅分类的变体。04. 实验评估0在本节中，我们介绍我们的实验设置和对标准视觉定位数据集的评估结果。04.1. 数据集和实验设置0我们在实验中使用了四个标准基准数据集。7个场景（7S）[ 50]数据集是一个广泛使用的RGB-D数据集，包含七个室内场景。场景的RGB-D图像序列是由KinectV1记录的。提供了地面真实姿态和密集的3D模型。 12个场景（12S）[ 56]是另一个室内RGB-D数据集。它由使用Structure.io深度传感器和iPad彩色摄像头捕获的十二个房间组成，并提供了RGB-D图像的地面真实姿态。记录的环境比那些1198707个场景 DSAC++ [ 5 ] AS [ 43 ] Inloc [ 53 ] 仅回归 Ours 12个场景 DSAC++ [ 5 ] 仅回归 Ours0—— 准确率中位误差准确率中位误差准确率中位误差准确率中位误差准确率中位误差 —— 准确率中位误差准确率中位误差准确率中位误差0国际象棋 97.1 0.02 , 0.5 - 0.04, 2.0 - 0.03, 1.1 95.4 0.02 , 0.7 97.5 0.02 , 0.7 厨房-1 100 - 100 0.008 , 0.4 100 0.008 , 0.40火灾 89.6 0.02 , 0.9 - 0.03, 1.5 - 0.03, 1.1 94.9 0.02 , 0.9 96.7 0.02 , 0.9 客厅-1 100 - 100 0.011 , 0.4 100 0.011 , 0.40头 92.4 0.01 , 0.8 - 0.02, 1.5 - 0.02, 1.2 97.1 0.01 , 0.8 100 0.01 , 0.9 床 99.5 - 100 0.013, 0.6 100 0.009 , 0.40办公室 86.6 0.03 , 0.7 - 0.09, 3.6 - 0.03 , 1.1 81.4 0.03 , 0.9 86.5 0.03 , 0.8 厨房-2 99.5 - 100 0.008, 0.4 100 0.007 , 0.30南瓜 59.0 0.04 , 1.1 - 0.08, 3.1 - 0.05, 1.6 58.0 0.04 , 1.1 59.9 0.04 , 1.0 客厅-2 100 - 100 0.014, 0.6 100 0.010 , 0.40厨房 66.6 0.04 , 1.1 - 0.07, 3.4 - 0.04 , 1.3 56.5 0.05, 1.4 65.5 0.04 , 1.2 卢克 95.5 - 93.8 0.020, 0.9 96.3 0.012 , 0.50楼梯 29.3 0.09, 2.6 - 0.03 , 2.2 - 0.09, 2.5 68.1 0.04, 1.0 87.5 0.03 , 0.8 门 362 100 - 100 0.011, 0.5 100 0.010 , 0.40平均 74.4 0.04, 1.1 - 0.05, 2.5 - 0.04, 1.4 78.8 0.03 , 1.0 84.8 0.03 , 0.9 门 381 96.8 - 98.8 0.016, 0.7 99.1 0.012 , 0.60完整 76.1 - - 74.7 80.5 休息室 95.1 - 99.4 0.015, 0.5 100 0.014 , 0.50剑桥 DSAC++ [ 5 ] AS [ 43 ] NG-RANSAC [ 7 ] 仅回归 Ours Manolis 96.4 - 97.2 0.014, 0.7 100 0.011 , 0.50大法院 0.40, 0.2 - 0.35, - 1.25, 0.6 0.28 , 0.2 5楼a 83.7 - 97.0 0.016, 0.7 98.8 0.012 , 0.50K. 学院 0.18, 0.3 0.42, 0.6 0.13 , - 0.21, 0.3 0.18, 0.3 5楼b 95.0 - 93.3 0.019, 0.6 97.3 0.015 , 0.50旧医院 0.20, 0.3 0.44, 1.0 0.22, - 0.21, 0.3 0.19 , 0.3 平均 96.8 - 98.3 0.014, 0.6 99.3 0.011 , 0.50商店外观 0.06 , 0.3 0.12, 0.4 0.06 , - 0.06 , 0.3 0.06 , 0.3 完整 96.4 97.9 99.10圣马丁教堂 0.13, 0.4 0.19, 0.5 0.10, - 0.16, 0.5 0.09 , 0.30平均0.19，0.3 0.29，0.6 0.17，-0.38，0.4 0.16，0.30表1. 7-Scenes、12-Scenes和剑桥的中位误差（m，°）以及7-Scenes和12-Scenes中定位准确的测试图像百分比（误差<5cm，5°）。“Complete”指的是所有场景的所有测试图像的百分比。0在7-Scenes中。剑桥地标[24]是一个室外RGB视觉定位数据集。它包含使用Google LG Nexus5智能手机拍摄的六个场景的RGB图像。还提供了由运动结构生成的地面真实姿态和稀疏的3D重建。除了这三个数据集，我们通过将所有七个、十二个或十九个单独的场景放置在一个单一坐标系统中，类似于[6]，在7-Scenes和12-Scenes的基础上合成了三个大规模的室内场景。这些大型集成数据集分别用i7-Scenes（i7S）、i12-Scenes（i12S）和i19-Scenes（i19S）表示。最后，我们在AachenDay-Night数据集[44,46]上评估我们的方法，该数据集对于场景坐标回归方法来说非常具有挑战性，因为其3D模型的尺度和稀疏性。此外，它还包含一组具有挑战性的夜间查询，但没有夜间训练数据。接下来，我们介绍除Aachen之外的所有数据集的主要实验设置。有关Aachen的详细信息，请参见补充材料。地面真实场景坐标可以通过已知的姿态和深度图获得，也可以使用3D模型进行渲染。为了生成地面真实位置标签，我们在密集点云模型上运行分层k均值聚类。对于主要实验中使用的所有单独场景，除非另有说明，我们使用两级分层k均值，两个级别的分支因子都设置为25。对于三个组合场景，即i7-Scenes、i12-Scenes和i19-Scenes，我们只需在第一级别上组合标签树。例如，对于i7-Scenes，总共有175个分支在第一级别上。我们使用与DSAC++[5]相同的VGG风格[51]架构作为我们方法的基本回归网络，只是我们使用ELU激活[16]代替ReLU[35]。这是因为我们发现，纯回归网络使用ReLU更容易训练，而我们的网络具有额外的条件层和分类分支，使用ELU效果更好。回归层、第二和第一分类层在输入图像中的感受野尺寸分别为73×73、185×185和409×409像素。为了展示所提出的架构的优势，我们还评估了定位性能0与DSAC++[5]中使用的仅回归网络相同，但这里仅使用欧几里得损失项进行训练。需要注意的是，在[5]中，提出了另外两个训练步骤，并且整个定位流程进行了端到端的优化，这可以进一步提高准确性。潜在地，我们的网络也可以从DSAC++框架中受益，但这超出了当前论文的范围。除非另有说明，我们在训练过程中进行仿射数据增强，并进行亮度的加性变化。我们还在第4.4节中报告了没有数据增强的结果。对于姿态估计，我们遵循[5]，使用相同的PnP-RANSAC算法和相同的超参数设置。有关架构、训练和其他设置的更多详细信息，请参见补充材料。0在7-Scenes、12-Scenes和剑桥上的结果0为了评估我们的分层联合学习架构，我们首先将其与最先进的方法以及仅回归的基准方法在7-Scenes、12-Scenes和剑桥地标数据集上进行比较。对于剑桥地标，我们报告了中位姿态准确度，与之前的工作一样。根据[5, 7,28]的方法，我们不包括Street场景，因为该场景的密集3D重建质量较差，影响了性能。对于7-Scenes和12-Scenes，我们还报告了测试图像误差低于5cm和5°的百分比，这是两个数据集的主要评估指标，并提供了更多关于定位性能的信息。场景坐标回归方法目前是这三个小/中尺度数据集上表现最好的单图像RGB方法[5,7]。我们还将其与最先进的基于特征的方法（即ActiveSearch[43]）和利用密集对应关系的室内定位方法（[53]）进行比较。需要注意的是，通常情况下，利用额外的深度信息[12,13]或图像序列[37,55]的方法可以提供更好的定位性能。然而，额外所需的信息也限制了它们可以应用的场景。由于这些方法与我们的结果不直接可比，因此我们在本文中不进行比较。70.3 %97.1 %88.1 %83.3 %99.0 %92.5 %71.5 %98.7 %87.9 %82.4 %99.3 %92.0 %59.9 %75.4 %20.3 %66.8 %92.9 %79.7 %83.6 %99.3 %92.6 %37.9 %5.0 %5.7 %49.4 %27.1 %10.9 %45.3 %9.2 %7.4 %0.0 %20.0 %40.0 %60.0 %80.0 %100.0 %i7-Scenesi12-Scenesi19-Scenes104MB165MB73MB7×28MB12×28MB19×28MB119880ESAC [6] Ours Ours无增强0Ours容量 - 无条件Ours Ours rf +0Ours rf - 仅回归仅回归无增强0仅回归容量 +0图3. 组合场景上的平均姿态准确度。ESAC的结果来自[ 6]。我们的方法始终明显优于仅回归基准，并且在性能上优于ESAC。0在单图像RGB定位设置中，我们的方法在所有场景和三个数据集上始终提供更好的定位性能，相对于仅回归基准，我们的方法通过离散位置标签能够始终提供更好的定位性能，同时我们还观察到相对于仅回归基准，我们的方法在训练过程中始终具有更低的回归训练误差，这突出了离散位置标签消除局部外观歧义的能力。我们的方法在所有三个数据集上相对于当前最先进的方法DSAC++ [ 5 ]和NG-RANSAC [ 7]也取得了更好的结果，而CambridgeLandmarks数据集上的NG-RANSAC没有报告结果。在表1中，我们使用数据增强训练了我们的网络和仅回归基准，而DSAC++和NG-RANSAC没有使用数据增强。在4.4节中，我们展示了即使没有数据增强，我们的方法仍然能够达到与DSAC++和NG-RANSAC相当或更好的性能。此外，在DSAC++和NG-RANSAC中，提出了更先进的训练步骤和RANSAC方案来改善纯回归网络的准确性并优化整个流程，而在本文中，我们专注于场景坐标网络本身，并展示了在这个单一组件上的改进已经能够超越最先进的定位性能。需要注意的是，DSAC++和NG-RANSAC与我们的方法是互补的，它们的组合可以在未来的工作中进行探索。04.3. 组合场景的结果0仅回归 Ours Ours 容量- ESAC (i7S) [ 6 ] ESAC (i12S) [ 6 ] ESAC (i19S) [ 6 ]0表2.模型大小比较。我们的方法可以在具有紧凑模型的大型环境中进行可靠的扩展。0线和ESAC [ 6]在三个组合场景上的定位性能。据我们所知，ESAC是目前唯一能够很好地适应组合场景的场景坐标回归方法。结果在图3中报告。我们可以看到，相对于在每个场景上单独训练和测试的情况，回归基线（仅回归）在组合场景上的定位性能显著下降，参见表1。随着场景的增大，其性能下降得更加剧烈。我们的方法对环境尺寸的增加更加稳健，并且明显优于基线。这突出了我们的分层学习框架在环境较大且可能包含更多歧义时的重要性。我们的方法还优于ESAC，后者使用网络集合，其中每个网络专门用于环境的局部部分[ 6]。ESAC需要训练和存储多个网络，而我们的方法只需要一个模型。需要注意的是，ESAC的作者没有使用数据增强。当我们在没有数据增强的情况下训练我们的方法（Oursw/oaug）时，我们仍然在i7-Scenes和i12-Scenes上优于ESAC，并在i19-Scenes上获得稍低但可比较的准确性（87.9% vs.88.1%）。需要注意的是，ESAC和我们的方法是互补的，它们的组合可以在未来的工作中进行探索。04.4. 详细分析0网络容量。与仅回归基线相比，我们的网络为条件生成器和分类分支增加了额外的层，因此参数数量增加。因此，为了公平比较，我们在仅回归基线中增加了更多的通道来补偿我们模型中增加的参数数量。在7-Scenes上，回归基线的平均准确率从78.8%提高到80.4%。在组合场景中，如图3所示，我们观察到性能有较大的改善（在图3中表示为Reg-onlycapacity+）。然而，即使增加了容量，仅回归基线仍然远远落后于我们的方法，特别是在组合场景中。我们还尝试减小主干回归网络的大小，该网络占据了大部分模型参数。我们在网络早期增加了更多的条件层，同时在回归和分类分支之间使用了更少的共享层。我们用Ourscapacity-表示得到的网络，详见补充材料。在表2中，我们将我们的网络与回归基线和ESAC的模型大小进行了比较。7S9×949×4910×100×100 10×100×100×10062525×2582.9%85.0%85.9%85.5%85.3%84.8%i7S63×9343×49 70×100×100 70×100×100×100 7×25×25 175×2580.6%83.7%83.0%82.1%83.0%83.3%1198907-Scenes 12-Scenes Cambridge0Reg-only w/o aug 70.9% 97.5% 0.38m, 0.4° Ours w/o aug 75.5%99.4% 0.18m, 0.3° DSAC++ [5] 74.4% 96.8% 0.19m, 0.3° NG-RANSAC[7] - - 0.17m, -0表3.我们方法和无数据增强的仅回归基线在7-Scenes、12-Scenes和Cambridge数据集上的平均姿态准确性/中位误差。0场景。如图3和表2所示，这使我们能够将模型大小减小到原来的一半以上，同时准确性损失不到一个百分点。与i19-Scenes数据集上的ESAC相比，我们的压缩模型紧凑度提高了七倍以上。请注意，由于我们进行局部回归，k-means聚类中心也需要存储。由于每个单独场景只有625个聚类中心，所以聚类中心的存储空间是可以忽略的（<1MB）。0使用全局信息。直接使用全局信息来回归场景坐标已经在[27]中进行了探索。然而，即使通过数据增强，大尺寸的输入模式仍然对视点变化敏感，在测试时表现不如使用局部补丁[5]。我们通过使用相同的回归网络进行验证，但现在使用了扩张卷积，使得感受野尺寸更大（409×409）。我们发现，一般情况下直接使用全局上下文有助于训练损失更快地减小。这可能对复杂场景有积极影响（通过扩张卷积，i7-Scenes上的准确率从37.9%提高到39.3%）。然而，对于要求较低的场景，网络通常会给出更差的结果（7-Scenes上的准确率从78.8%降低到59.2%），这是由于视点不变性的降低。同时，我们的网络能够以更稳健的方式使用全局信息，即通过离散的位置标签间接使用。我们还创建了两个变种的网络，分别具有小（73×73）和大（409×409）的感受野，分别在图3中表示为Ours rf-和Oursrf+。如预期的，增加所有层级的感受野尺寸会损害性能，如图3所示。有趣的是，具有小感受野的模型在组合场景上的表现稍微更好。这表明，层次化的粗到细的条件机制可以很好地处理局部的模糊性。0数据增强。我们在训练过程中对图像应用仿射变换，并进行亮度增加的数据增强。一般来说，这提高了网络的泛化能力，并使其对光照和视点变化更加稳健。根据表1、表3和图3，数据增强一致地提高了我们方法的定位性能，除了在12-Scenes数据集上；在12S中，训练和测试轨迹接近，并且训练和测试帧之间没有显著的视点变化[13]。数据增强0表4.使用不同层次设置获得的平均姿态准确度。具有4级标签层次结构的模型是仅分类的，即省略了最终的回归层。0数据增强，然而，也可能增加训练数据的外观模糊性，并使网络训练更加困难。这对于仅回归的基线网络来说是如此：尽管数据增强在小规模场景上有所帮助，但在剑桥和组合场景上，数据增强没有积极的效果，甚至会损害性能。请注意，即使没有数据增强，我们的方法仍然提供了优于或与现有技术相当的结果，参见表3和图3。0条件机制。通过将场景回归任务表述为粗到细的联合分类回归任务，可以在一定

下载后可阅读完整内容，剩余1页未读，立即下载