细粒度分割网络：一种改进的长期视觉定位的自监督分割算法

80 浏览量更新于2023-10-13 收藏 1.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

31细粒度分割网络：一种改进的长期视觉定位的自监督分割算法Ma˚ nsLarsson ErikStenbor g CarlToft LarsHammarstrandT orstenSattler FredrikKahlChalmers理工摘要长期视觉定位是在外观随时间变化的场景中估计给定查询图像的相机姿态的问题。这是一个重要的- 例如在自动驾驶中遇到的实际问题。为了获得对这种变化的鲁棒性，长期定位方法通常使用分段分割作为不变的场景表示，因为每个场景部分的语义含义不应受到季节和其他变化的影响。然而，由于可用类别的数量有限，这些表示通常不是非常有区别的。在本文中，我们提出了一种新的神经网络，细粒度分割网络（FGSN），可用于提供图像分割与大量的标签，可以在一个自我监督的方式进行训练。此外，我们还展示了如何训练FGSNs以在季节变化中输出一致的我们通过大量的实验证明，将我们的FGSNs产生的细粒度分割到现有的定位算法中，会导致定位性能的大幅改善。1. 介绍视觉定位是估计给定图像相对于已知场景的视觉表示的摄像机姿态的问题它是计算机视觉中的经典问题，并且解决视觉定位问题是高级计算机视觉应用（诸如自动驾驶汽车和其他自主机器人，以及增强/混合/虚拟现实）的一个关键。由定位算法使用的场景表示通常从描绘给定场景的图像中恢复表示的类型可以从集合具有相关相机姿势的图像[8，75，98]，通过从运动结构[77，81]构建的3D模型，以卷积神经网络（CNN）[8，10，12，13，35，36，52]或随机森林[11，16，79]编码的权重。实际上，从所有可能的视角捕捉场景-图像扫描100类集群图1.我们不是使用一小部分人类定义的语义类，而是训练一个神经网络，它可以自动发现一大部分细粒度的集群。我们的实验表明，使用- ING大量的集群提高本地化性能。点和在所有可能的条件下，例如，不同的照明条件是非常昂贵的[74]。因此，局部化算法需要对这种变化具有鲁棒性。在长期运行的情况下，例如在海调变化下，场景外观可随时间而剧烈变化。然而，场景部分的语义含义保持不变，例如，不管有没有叶子，树就是树。基于这种见解，用于语义长期视觉定位的方法使用图像的语义分割或对象检测来获得不变的场景表示[4，21，64，78，80，83，85，86，93，94，94]。然而，这种不变性是以较低的区分能力为代价的，因为通常只有少数类别可用。例如，Cityscapes数据集[22]使用19个类进行评估，其中8个类涵盖了对本地化无用的动态对象，如汽车或行人。Mapillary Vistas数据集[55]包含66个类，其中15个类用于动态对象。同时，注释更多的类需要大量的人力和时间。在本文中，我们表明，使用显着更多的类标签导致更好的性能的语义视觉局部化算法。为了避免繁重的人工注释时间，我们使用以下核心见解：由这种方法使用的图像分割需要在视点、照明、季节等下是稳定的。变化然而，分割的类别不需要映射到人类可理解的概念是有用的，即，它们可能不一定需要是语义的。受最近使用k均值聚类从未标记数据中预训练CNN的工作的启发[15]，我们因此提出了一种32自监督，数据驱动的方法来定义细粒度的图像分割类。更确切地说，我们使用像素级CNN特征的k均值聚类来定义k个类。如图1，这允许我们的方法，称为细粒度分割网络（FGSNs），以创建更细粒度的分割。具体而言，本文做出了以下贡献：1）我们提出了一种新型的分割网络，细粒度分割网络（FGSN），它基于聚类索引输出密集的分割图。这重新移动了对人类定义类的需求，并允许我们通过自监督学习以数据驱动的方式定义类。使用2D-2D对应数据集[42]进行训练，我们确保我们的类在海洋和视点变化下是稳定的。我们的ap-proach的源代码是公开的1.2）FGSN允许我们创建具有更多类别的更精细的分割。我们表明，这有一个积极的影响，语义视觉定位算法，rithms，并可以导致实质性的改善时，使用现有的本地化方法。3）我们进行了详细的实验来研究聚类器的数量对多个视觉定位算法的影响。此外，我们比较了两种类型的权重初始化，分别使用预先训练的网络进行语义分割和图像分类。2. 相关工作下面回顾与我们的方法相关的工作，最值得注意的是语义分割和视觉定位。语义分割。语义分割是指为输入图像中的每个像素分配类别标签的任务。现代方法使用完全卷积网络[47]，可能预先训练用于分类[47]，同时结合更高级别的上下文[99]，扩大感受野[17，19，92]或融合多尺度特征[18，66]。另一种工作是将FCN与概率图形模型相结合，以后处理步骤[17]的形式或作为端到端可训练网络[41，46，100]中的可微分组件。用于语义分割的CNN通常以完全监督的方式进行训练。然而，获得大量密集标记的图像是非常耗时和昂贵的[22，55]。因此，已经开发了基于较弱形式的注释的方法。用于训练FCN的弱标签的一些示例是边界框[23，37，57]，图像级别标签[57，59，62，82]，点[9]或2D-2D点匹配[42]。在本文中，我们表明，用于“语义”视觉定位的类这使我们能够直接学习一个大的类集进行图像分割1https://github.com/maunzzz/细粒度分割网络以自我监督的方式从数据中提取信息。在训练期间，我们使用2D-2D点匹配[42]来鼓励跨季节变化和跨不同天气条件的分割的一致性。（语义）视觉定位。传统上，用于视觉定位的方法使用经由运动恢复结构从一组数据库图像构造的3D场景模型[14，20，43将每个3D模型点与诸如SIFT [50]的局部图像特征相关联，这些方法通过描述符匹配在查询图像和模型之间建立一组2D-3D对应关系然后将所得匹配用于基于RANSAC的相机姿态估计[26]。基于机器学习的方法或者通过场景坐标回归[10，12，16，52它们回归每个2D- 3D匹配中的3D点坐标，或直接从图像回归相机姿态[8，13，35，36，89]。前一种类型的方法在小规模场景中实现了最先进的定位精度[12，16，53]，但似乎不容易扩展到更大的场景[12]。后一种类型的方法最近被证明不能一贯地比图像检索方法[76]更好地执行，即，通过最相似的数据库图像的姿态来近似查询图像的姿态的方法[3，38，87]。因此，用于大规模长期视觉定位的现有技术方法依赖于用于匹配的局部特征[28，71，78，83，85，86]或使用图像检索技术[2一类语义视觉定位方法使用对象检测作为特征[5，6，69]。在本文中，我们专注于基于语义分割的第二类方法[4，21，28，78，80，83，85，86，94]。这些方法使用语义图像分割来获得对外观和（现代）几何变化不变的场景表示。由于通常可用的类的数量很少，因此所得到的表示不是非常有区别的。因此，语义定位方法使用语义作为仅次于3D信息的第二感测模态[21，78，83，85，86]。在本文中，我们表明，这种方法所使用的图像分割不一定需要语义。相反，我们表明，这些approaches受益于更细粒度的分割与我们的FGSNs产生的更多的类。域自适应。语义定位算法隐含地假设语义分割对照明、视点、季节和其他变化是鲁棒的。在实践中，用于语义分割的CNN通常仅在不同条件下表现良好，如果这些条件反映在训练集中。然而，为大型图像集创建像素级注释是一项耗时的任务。Do- main适应方法[27，40，48，49，68，88，101]因此考虑应用在一个上训练的算法的问题。33nn域到新域，其中很少或没有标记数据可用。这使得在合成数据集[65，67]上训练以提高真实图像[33，70，102]的性能成为可能。此外，可以改善网络在不同天气和照明条件下拍摄的图像上的性能[90，91]。在（语义）图像分割的上下文中，这些方法提高了分割的鲁棒性。然而，它们不会增加可用类的数量，因此是对我们方法的补充。出于相同的目的，我们使用最近提出的对应数据集[42]，以确保我们的分割对照明和季节变化具有鲁棒性自我监督学习。自监督学习方法是无监督学习方法的一种变体，其中模型学习预测一组可以从输入数据中自动创建。几种方法训练CNN以执行域特定辅助任务[25，56，61，97]。任务的一些示例包括预测丢失的图像部分[60]，自我运动[1]和图像的旋转[30]。为了解决这些辅助任务，CNN需要学习有意义的视觉特征，然后这些特征也可以在[15]中，Caronet al. 使用通过图像特征的k均值聚类获得的标签来训练CNN以用于图像级分类的任务我们将这种方法扩展到训练图像分割网络。我们还使用实际的集群，或标签，明确的视觉定位。这与[15]形成对比，其中聚类只是学习分类等任务的特征的一种手段。描述相同3D点的图像中的点之间的2D点对应鼓励网络预测每个对应中的两个点的相同类，以使输出对季节变化具有鲁棒性图2说明了培训过程。请注意，创建对应数据集的过程比用语义标签手动标记相同图像的过程要少得多，详见[42]。标签创建对于标签的创建，我们使用Caron等人开发的方法。[15]基于k-均值聚类。然而，我们需要做一些修改，使其能够很好地用于密集输出和2D-2D对应的训练主要思想是对CNN的输出特征进行k均值在固定次数的训练迭代之后，重复聚类并重新初始化最终层。对于聚类，我们从对应数据集的参考遍历中的所有图像中提取特征。该遍历包含在有利的天气条件下捕获的图像，因此如果我们用针对语义分割训练的权重初始化网络，则提取的特征将包含有意义的语义信息。对于每个图像，我们得到一个图像特征的密集图，从中我们随机抽取一组特征进行聚类。一半的特征是从我们具有2D-2D对应关系的像素位置提取的，另一半是在整个图像上随机采样的。给定提取的图像特征集，通过求解3. 细粒度分割网络min1ΣNminn−Cyn2（一）细粒度分割网络（FGSN）C∈Rd×mN n=1 yn∈{0，1}m2与用于语义分割的标准CNN相同的结构。给定一个输入图像，它产生一个密集的分割图。然而，不是在一组手动创建的注释上进行训练，而是以自监督的方式创建标签。在训练期间，以一定的间隔，从训练集中的图像中提取特征，并使用k均值聚类进行聚类。然后，在训练过程中使用每个像素一个的聚类作为监督，即.作为标签。通过这种方式，我们可以更改FGSN输出的类的数量，而不必使用新的类集创建注释训练FGSN以输出每个像素的正确标签。我们还在训练期间使用一组2D-2D点对应[42]，以确保预测在季节变化和视角变化下保持稳定。对应数据集的每个样本包含从不同遍历并且因此在不同季节或天气条件下拍摄的相同场景的两个图像。每对中的图像中的一个总是来自在有利天气条件期间捕获的参考遍历。一组2D-S. t.y1m= 1，其中d，n是从CNN产生的输出特征图采样的长度为m的特征向量。解决这个问题提供了一个质心矩阵和一组最优矩阵。mal assignments（y*）.为了避免使用空集群我们做一个重新分配的质心空集群对于每个空簇质心，随机选择非空簇然后将空簇的质心设置为与具有小扰动的质心相同的值[15，34]。训练损失。我们的训练损失由两部分组成，对应部分Lcorr和聚类分类部分Lclass。后者鼓励模型为数据集的参考图像中的每个像素输出正确的标签。我们使用标准的交叉熵损失与标签作为目标。最终的L类损失是所有样本的平均值对于Lcorr，我们使用2D-2D点对应。将来自对应数据集的一个样本的内容定义为（Ir，Ir，Xr，Xt）。这是一张来自34C标签创建培训图2. FGSN培训程序的图示。为了创建训练数据，从来自对应数据集的所有参考图像中提取特征。然后使用k均值聚类对特征进行聚类，并且将分配用作图像的标签。除了为参考图像提供密集的标签外，我们还在训练期间使用2D-2D对应关系，以鼓励在天气条件和季节以及不同视点之间保持一致性。参考遍历，It是来自目标遍历2的图像，并且Xr和Xt分别是参考和目标图像中的匹配点的像素位置对应损失函数L_corr是所有这样的样本在每10000次迭代之后，从参考图像中提取一组新的图像初始维度512的特征被PCA缩减到256个维度、白化和12归一化。k-means聚类是Lcorr=1Σ ICE（Ir，It，xr，xt），（2）使用Faiss框架完成[34]。聚类后，网络的最后一层使用M（r，t）其中M是样本的数量，并且ICE是聚类对应交叉熵损失。令dx∈RC表示长度为C的网络的输出特征向量，即像素位置x处的聚类数。为了计算ICE，我们首先进行簇分配，即标签，对于参考图像中的所有位置Xr的特征。通过使用独热编码向量cxi来描述位置xi处的像素的标签，损失可以写为均值为0且标准差为0的正态分布0的情况。01.偏置权重全部设置为0。所有评价和测试均仅在原始图像比例尺上的713×713像素块中进行。在两个方向上以476像素的步长从图像中提取块。网络输出与插值权重图配对，插值权重图对于面片的236×236中心像素为1，并且在边缘线性下降到0对于每个像素的加权平均值，使用插值映射作为权重，用于产生像素lCE=−1ΣN.ΣTlog（dxr）+log（dxt）、（3）插值背后的动机是网络通常在补丁的中心处表现得更好，因为Nxiiii=1其中，l〇 g（·）是逐元素的。该损失将促使目标图像中的像素具有与参考图像中的对应像素相同的标签。在训练期间，我们最小化L=Lclass+Lcorr。实施详情。在CNN的训练过程中，我们使用具有动量和权重衰减的随机梯度下降来最小化损失L 在所有实验期间，学习速率被设置为2。5·10−5，而动量和重量衰减设置为0。9和10- 4，分别。我们使用PSPNet [99]网络结构，其中Resnet101 [32] base.由于GPU内存的限制，我们训练的批量大小为1。网络被训练60000次迭代，并使用在验证集上获得最低对应损失Lcorr的权重。培训和评估在PyTorch中实现[58]。2我们将第二次遍历称为目标，因为我们的目标是确保其标记与引用遍历一致。有更多关于周围环境的信息可用。4. 语义视觉定位本文的动机是假设能够获得更细粒度的图像分割将有积极的影响语义视觉定位方法。为了验证这一假设，我们将我们的FGSNs获得的分割到多个语义视觉定位算法。在下文中，我们简要地回顾这些算法。所有这些都假设场景的3D点云是可用的，其中每个3D点与类或簇标签相关联。由于点云链接到图像，因此通过将图像的分割投影到点云上来获得标签。简单语义匹配一致性（SSMC）[86]。第一种方法是在[86]中用作基线方法的易于实现的匹配一致性过滤器。给定查询图像中的特征之间的一组2D-3D匹配，并且参考图像特征标签参考输出标签和对应关系FGSNk-means聚类向前FGSN落后目标重量共享FGSN向前FGSN落后L级L校正R35对于运动恢复结构（SfM）点云中的3D点，SSMC使用语义过滤掉不一致的匹配。如果通过分割查询图像获得的f的标签和p的标签不相同，则认为特征f和3D点p通过在RANSAC [26]循环内应用P3P求解器[31，39]，所有一致匹配都用于估计相机姿态几何语义匹配一致性（GSMC）[86]。假设重力方向和摄像机离地高度的估计是已知的，[86]提出了一个更复杂的匹配一致性过滤器。对于每个2D-3D对应关系，再次通过将图像特征与SfM模型匹配来获得，生成一组相机姿态假设对于每个这样的姿势，模型中的3D点投影用于通过对投影到具有与点相同的标签的查询图像区域中的点的数量进行计数来测量姿态的语义一致性得分来自匹配的所有姿势的最高得分则是该对应的语义一致性得分。分数被归一化并用于使RANSAC的采样策略偏向于选择更语义一致的匹配。虽然GSMC的性能明显优于SSMC [86]，但GSMC会做出额外的假设，并且计算效率较低。基于粒子滤波器的语义定位（PFSL）[83]。在这种方法中，定位作为过滤问题来处理，其中除了相机图像的序列之外，我们还可以访问有噪声的测距信息。这两个源被组合在粒子滤波器中，以通过让每个粒子描述可能的相机姿态来顺序地估计相机的姿态。在粒子滤波器的更新步骤中，每个粒子的新权重与3D点云的投影与当前图像的分割的匹配程度成比例地设置假设3D点P在P被投影到的像素具有与P相同的标签的情况下匹配良好。注意，该方法不依赖于使用例如以下各项形成直接2D-3D对应：SIFT-描述符，因此更依赖于区分性分割标签。5. 实验我们实验的主要焦点是评估使用FGSN进行“语义”视觉定位的影响此外，我们调查是否集群学习的FGSNs进行语义信息。网络变化。对于训练，我们使用来自[42]的两个跨季节对应数据集，即CMU Sea-sons对应数据集和OxfordRobotCar对应数据集。将可用样本分成训练集（70%的样本）和验证集（30%的样本）。对应的图像是geo-Init集群CMU机器人汽车CSWDCSWDSeg20四十1三十三岁。7三十二528岁0Seg100四十七9三十六641岁5二十七岁2Seg200四十七0三十六641岁7三十二1Seg1000四十五7三十五8三十五6二十六岁1类20028岁8二十六岁7二十四岁0二十四岁7类1000十八岁1二十二岁2十八岁423岁0表1.测量我们的集群中包含的语义信息。使用在CMU或RobotCar Corre上训练的模型通过使用随机数据，我们测量了我们的聚类与Cityscapes（CS）和WildDash（WD）验证集上的19个Cityscapes类之间的归一化互信息（以%为网络在语义分割上进行预训练，在用于评估本地化方法的扩展CMU季节和RobotCar季节基准[74]中与查询图像度量分离除了将我们的结果与几个基线进行比较之外，我们还研究了不同输出集群数量的影响以及预训练的影响。对于后者，我们评估了第一个变体，该变体使用在Ima-geNet [24]上训练的网络的权重初始化网络的基础，同时随机初始化其余的网络权重。第二种变体使用预先训练的网络，使用Cityscapes数据集[22]的精细注释和Mapillary Vistas数据集[55]的训练集为了能够组合这两个数据集，我们将 Vistas 语义标签映射到Cityscapes标签，因此在训练期间使用了19个语义类。此外，我们只在Cityscapes和Vistas上训练具有不同数量输出集群的FGSN。对于这些实验，没有使用Lcorr，因为这些数据集没有可用的对应关系。5.1. 集群中的语义信息我们的FGSNs的灵感来自语义分割的任务，并设计与创建更细粒度的分割的目标我们的训练过程不强制我们的分割传达语义信息。不过，一个有趣的问题是，我们的集群是否可以与标准的语义类。为了研究这一点，我们计算了归一化互信息（NMI）来测量集群分配与Cityscapes [22]验证集中的注释将聚类分配表示为X并且将语义标签分配表示为Y，归一化互信息由下式给出：I（X，Y）NMI（X;Y）=√，（4）H（X） H（Y）其中I是互信息，H是熵。如果X和Y是独立的，则NMI（X;Y）=0。如果其中一个可以从另一个预测，那么X传达的所有信息都与Y共享，并且NMI（X;Y）=1。3620 100 200图3. Cityscapes类之间的列联表和不同数量的聚类的聚类指数的可视化。使用在语义分割上预训练的模型在CMU对应数据集上训练集群颜色映射表从深蓝色（最低值）到黄色（最高值）。使用的数据是来自Cityscapes验证集的500个图像测试图像中常见的许多类，如道路，建筑物和植被被分成几个簇。除了Cityscapes数据集之外，我们还将聚类分配与Wild-Dash数据集[96]上的相同19个类进行了比较，该数据集旨在评估各种条件下分割方法的稳健性。选项卡. 1显示了我们网络的NMI。正如预期的那样，与针对分类预先训练的网络相比，针对语义分割预先训练的网络直观地，聚类因此应该包含可以用于定位的语义信息。然而，高NMI不一定意味着更好的本地化性能。例如，包含房屋和天空之间的边缘周围的像素的聚类将减少聚类分配和语义类之间的NMI，但是对于定位可能是有用的。图3显示了Cityscapes类和我们的聚类索引之间的列联表，这些网络是在CMU上训练的，具有语义分割初始化。每个连续性表通过形成二维直方图来显示相同数据的两组分配之间的相互关系，其中每个维度对应于分配中的一个在我们的例子中，维度分别对应于语义类标签和聚类索引。可以看出，有许多聚类索引被分配给与语义类别植被相同的像素。由于CMU图像包含大量的植被，这是预期的并且可以导致可以用于定位图像的更多信息。查看具有20个聚类的网络的列联表，我们可以看到索引为19的聚类与几个语义类重叠。这意味着许多像素被标记到该簇，指示语义信息丢失。这也反映在NMI（c.f.选项卡. 1），与用更多集群训练的网络相比，20个集群的网络更低。图3还示出了许多簇不直接与-5.2. 视觉定位为了验证所学习的集群，即使它们在本质上不一定是语义的，也包含用于视觉定位的有用信息，我们对两个数据集进行了长期视觉定位的实验：RobotCarSea-sons [74]和扩展CMU季节数据集[74]。数据集。RobotCar Seasons数据集由来自原始RobotCar数据集的32，792张图像组成[51]。其中，20，862个构成具有公知参考位姿的参考序列从这些图像中观察到的稀疏特征三角测量的地图可用作参考3D模型，作为基于结构的定位方法的辅助。参考图像都是在单一条件下捕获的，而11，934个测试图像是在各种不同条件下捕获的，包括季节、天气和照明变化。我们使用了RobotCar Seasons数据集的一个稍微不同的版本，也用于[42，74]，它由测试和训练集组成我们用来训练FGSN的RobotCar核心响应数据集与训练集重叠，但不是这个版本的RobotCar季节数据集的测试集。扩展CMU季节数据集3是[74]中CMU季节数据集的更大版本，基于CMU视觉定位数据集[7]。与RobotCarSeasons数据集一样，Extended CMU Seasons数据集由具有公开已知的相机姿态的参考序列以及相机姿态不可公开获得的隐藏测试集组成。参考序列由在有利条件下在同一天捕获的10，338个图像组成。测试集由在各种条件（晴天、下雪、秋天等）下捕获的56,613幅图像组成。该数据集涵盖了城市、郊区和公园状区域，主要由道路两侧的植被组成。后者是该数据集最具挑战性的部分[74]。两个数据集都为所有测试和训练图像提供SIFT特征对于SSMC和GSMC，我们建立了2D-3D响应语义类。这表明FGSNs de-从用于初始化它们的预先训练的网络中分离出来。3见visuallocalization.net。37培训配置/数据集CMU延长赛季RobotCar季节FGSN集群数据L校正Init城市0.25/ 0.5 / 5 [m]2 / 5 / 10 [deg]郊区0.25/ 0.5 / 5 [m]2 / 5 / 10 [deg]公园0.25/ 0.5 / 5 [m]2 / 5 / 10 [deg]整天0.25/ 0.5 / 5 [m]2 / 5 / 10 [deg]整晚0.25/ 0.5 / 5 [m]2 / 5 / 10 [deg]1919CS+VCS+V+EJ71.8/ 77.1 /83.575.4/ 80.7 /87.156.0/ 61.6 /71.656.3/ 62.1 /72.032.8/ 36.9 /46.035.0/ 39.4 /49.060.1/ 92.3 /99.260.3/ 92.2 /98.98.2/ 21.0 /35.78.2/ 21.2 /35.766V75.4/ 80.6 /87.257.1 1996年12月31日至1997年12月31日34.2/ 38.3 /47.760.3 1992年6月至1999年2月，8.9/ 20.3 /36.666V+E65.8/ 70.4 /77.647.7/ 52.7 /63.729.6/ 33.1 /41.959.4/ 92.4 /99.06.1/ 16.3 /31.566V+EJ66.5/ 71.2 /78.248.1 1999年12月31日至1999年12月31日29.2/ 32.7 /42.159.7/ 91.2 /98.37.2/ 19.6 /36.1J20CS+V+EJSeg76.3/ 81.7 /87.659.7/ 65.7 /75.342.9/ 47.7 /56.657.2/ 88.7 /96.71.9/ 6.5 /18.9J100CS+V+EJSeg81.8 1998年12月19日68.9/ 75.6 /83.551.3/ 57.5 /65.761.1/ 93.0 /99.98.9/ 25.4 /40.6J200CS+V+EJSeg81.0 1996年12月至1997年12月，67.7/ 74.8 /82.850.8/ 57.2 /65.061.3/ 93.2 /99.89.6/ 25.9 /44.1J1000CS+V+EJSeg78.0/ 84.0 /89.262.8/ 70.7 /79.645.1/ 51.9 /60.960.6/ 92.4 /99.16.5/ 17.9 /35.7J*100CS+V+EJSeg85.3/91.0/94.676.4/83.751.4/57.6/65.561.6/93.5/99.711.0/28.4/45.2J200CS+VSeg75.8/ 82.4 /88.260.7/ 68.5 /77.442.5/ 48.5 /57.259.9/ 92.9 /99.44.7/ 11.4 /26.8J1000CS+VSeg69.8/ 77.0 /84.054.6/ 63.2 /73.037.3/ 43.4 /52.154.7 1996年至1997年，1.4/ 7.7 /19.3J200CS+V+ESeg78.7/ 84.9 /89.964.9/ 72.4 /81.147.5/ 54.0 /62.161.3/ 93.1 /99.57.0/ 17.9 /34.0J1000CS+V+ESeg73.4/ 80.4 /86.957.6 1995年至1999年，39.6/ 46.2 /55.045.5/ 74.8 /81.82.3/ 5.6 /14.0J200CS+V+EJ类70.8/ 77.6 /84.154.1/ 63.1 /73.337.6 1999年12月31日至1999年12月31日，60.0/ 91.8 /98.55.4/ 20.3 /36.4J1000CS+V+EJ类47.4/ 55.7 /64.835.1/ 44.4 /57.422.3 2017年12月31日48.0/ 73.0 /79.91.9/ 4.0 /7.5J19200CS+V+OCS+V+OJSeg69.7/ 74.6 /81.175.2/ 81.4 /86.753.2/ 58.6 /69.060.0/ 67.6 /76.631.2/ 35.2 /44.240.9/ 46.8 /55.411.8/ 17.0 /20.761.1/ 93.2 /99.80.0/ 0.0 /0.23.5/ 10.7 /27.0J200CS+V+OJSeg73.0/ 79.6 /84.959.1/ 66.5 /75.841.6/ 47.5 /55.359.5/ 93.1 /99.83.5/ 11.2 /24.2P3P RANSAC65.3/ 70.1 /77.644.5/ 49.7 /61.527.3/ 30.6 /39.658.4/ 88.6 /97.13.7/ 10.7 /23.3表2.在Extended CMU Seasons数据集上使用不同分割网络的SSMC方法的定位性能和RobotCar数据集。第一列标记来自本文的条目，因为标记有 * 聚类的条目在训练期间没有重复。第二列表示网络输出的聚类（或类）的数量。请注意，对于标记为19和66的条目，分别使用Cityscapes和Vistas的语义类，并使用[42]中提供的方法进行训练。第三列详细说明了在训练期间使用的数据集：CS（Cityscapes），V（Vistas），E（Extra，即CMU用于CMU结果，RobotCar用于RobotCar结果）、0（其他额外的，即用于CMU结果的RobotCar和用于RobotCar结果的CMU第四列用C指示对应性丢失在训练期间是否活跃，而第五列指定网络的预训练（用于分段预训练的Seg和用于分类预训练的Class）。.方法/设置mdeg城市0.25/ 0.5 /510年2月5日郊区0.25 /0.5 /510年2月5日公园0.25 / 0.5 /510年2月5日SSMC（FGSN，100个群集，在CMU上训练）GSMC（FGSN，200个群集，在CMU上训练）85.3/ 91.0 /94.686.4 1998年12月至1999年12月，69.5/ 76.4 /83.777.0/82.9/88.751.4/ 57.6 /65.538.9/ 43.4 /50.0HF-Net [72]94.2/97.976.5/ 82.7 /92.757.4/ 64.4 /80.4[29]第二十九话65.7/ 82.7 /91.066.5/ 82.6 /92.954.3/71.6/84.1GSMC [86]84.3/ 89.4 /93.269.9/ 75.9 /83.037.8/ 42.0 /49.3城市规模本地化[84]71.2/ 74.6 /78.757.8/ 61.7 /67.534.5/ 37.0 /42.2DenseVLAD [87]14.7 1999年12月31日至36日5.3/ 18.7 /73.95.2/ 19.1 /62.0NetVLAD [3]12.2/ 31.5 /89.83.7 1999年12月13日至1999年7月31日2.6/ 10.4 /55.9PFSL（FGSN，200个集群，在CMU上训练）95.3/99.5/100.087.6/98.3/99.964.8/81.5/89.3[83]84.7/ 96.8 /100.076.6/ 91.2 /100.039.0/ 61.2 /95.6表3.与Extended CMU Seasons数据集上最先进的方法进行比较单独标记单次拍摄图像定位和顺序定位的最佳结果通过描述符匹配进行匹配[86]。在[86]之后，使用阈值为0.9的Lowe比率检验来过滤离群值。P3P RANSAC然后运行10，000次迭代以估计相机姿态。评价措施。我们遵循来自[74]的评估协议，并使用与[74]中相同的阈值报告在地面实况姿态的X米和Y集群数量的影响。在第一个实验中，我们评估了FGSNs学习的集群数量对本地化性能的影响。对于这个实验，我们专注于简单语义匹配一致性（SSMC）和比较SSMC的性能，使用不同数量的集群FGSN的性能与语义分割算法获得的性能。对于后者，我们使用在Cityscapes上联合训练的网络和Vistas以及Cityscapes，Vistas和相应的数据集[42]，使用19个Cityscapes类和66个Vistas类。请注意，标记为[42]的条目也使用了与我们类似的对应损失，但用于语义类。表2显示了RobotCar和CMU数据集的实验结果。可以看出，使用用超过20个簇训练的FGSN提高了定位性能。特别是在具有挑战性的条件下，即，在RobotCar上的Night和CMU上的Suburban和Park，与语义分割相比获得的改进是实质性的。当然，使用太多的聚类会导致图像的过分割，从而降低SSMC的定位精度。实验清楚地表明，SSMC受益于使用细粒度分割，即使38集群可能不一定39对应于标准语义概念。SSMC受益于更大数量的聚类的原因在于，对应的分割提供了查询图像和3D点云的更具区别性的表示。这允许SSMC通过强制标签一致性来过滤掉更多错误的匹配。这又增加了内点比率，从而增加了RANSAC找到正确姿势的概率在补充材料中提供了详细说明具有不同数目的簇的FGSN对内点数目和内点比率的影响的根据表2，添加Extra数据集会降低性能，这很可能是因为必须重新实现网络才能产生结果。预训练FGSN的影响。表2的列中标记有类别的条目示出了在分类而不是语义分割任务上预训练我们的FGSN的基础网络可以看出，与针对语义分割训练的网络相比，在分类任务上预训练的FGSN导致显著更低的性能这示出了使用保留一些语义信息的分割的重要性，与在分类上预训练的FGSN相比，在语义分割上预训练的FGSN的情况更是如此（参见图1）。秒5.1）。使用2D-2D点对应的影响在没有来自的附加数据集的情况下训练的网络的结果[42] 或禁用对应性丢失（其中仍然对来自CMU/RobotCar图像的特征进行聚类），如表2（第11-14行）所示。从结果中可以看出，使用细粒度分割比在扩展CMU季节数据集上使用语义类产生更好的结果（c.f.条目CS+V（19类）和V（66类）。然而，这些网络实现的结果低于用对应数据集训练的对应网络这表明对应损失对于定位性能是重要的。概括能力。表2进一步示出了当在不同数据集上训练FGSN时获得的结果。与在相同数据集上训练的FGSN相比，我们观察到性能大幅下降。这种行为并不意外，因为用于训练我们的FGSN的2D-2D对应鼓励网络学习特定于数据集的集群。虽然在其他数据集上训练的FGSN的性能与使用语义分割训练的网络相当，但我们的研究结果表明，FGSN仍有重复聚类遵循Caron等人开发的方法。[15]在设定数目的训练迭代之后重复聚类。有趣的是，我们注意到，不重置网络实际上会使每-请参见表2中标有 * 的条目。我们将此归因于预先训练用于语义分割的网络，更容易保留语义信息而无需重置。这方面的进一步调查将作为今后的工作。与最先进方法的比较。在最后的实验中，我们比较SSMC，GSMC和PFSL与FGSN的组合，以扩展CMU季节数据集上的最新技术。为此，我们比较了HF-Net [72]，一种基于CNN的分层定位方法，非对称Hy- percolumn匹配[29]，一种基于超列特征匹配的方法，DenseVLAD [87]，一种最先进的图像检索管道，及其可训练变体NetVLAD [3]，City Scale Localization [84]，一种基于2D-3D匹配的非语义方法，GSMC [使用来自[ 86 ]的语义分割网络的PFSL [86 ]，以及使用来自[ 42 ]的语义分割网络的PFSL [ 83 ]。可以在Tab中看到 3，使用具有更多标签的分割，如我们的FGSN所提供的，提高了定位性能，缩小了与当前最先进技术的性能差距。结果清楚地验证了FGSN背后的动机：使用更多的分割标签来创建更有区别的、但仍然鲁棒的语义视觉定位的表示。6. 结论在本文中，我们提出了细粒度分割网络（FGSN），一种新型的卷积神经网络，输出密集的细粒度分割。使用k均值聚类，我们可以以自监督的方式训练FGSN，使用图像特征的聚类分配作为标签。这使我们能够使用任意多个输出类，而不必手动创建注释。此外，我们还使用了2D-2D对应数据集[42]，以确保在海洋变化和视角变化下，类别是稳定的。通过大量的实验，我们已经表明，使用更细粒度的分割，我们的FGSNs，是有益的语义视觉定位的任务。重要的未来方向包括进一步使视觉定位方法适应于更大数量的集群，以确保正确使用输出分割的增加的细节水平。此外，进一步研究FGSN的推广也是有趣的，结合域自适应方法。致谢这项工作已由瑞典研究委员会资助（grant no. 2016-04445）、瑞典战略研究基金会（智能机器人的语义映射和视觉导航）和Vinova/ FFI（Perceptron，授权号：2017-01942）。40引用[1] Pulkit Agrawal、Joao Carreira和Jitendra Malik。通过移动来学习看东西。在ICCV，2015年。3[2] Asha Anoosheh、To

下载后可阅读完整内容，剩余1页未读，立即下载