基于语义描述符的视觉定位方法在工程科学与技术领域的研究及应用-2022年国际期刊101098.

110 浏览量更新于2024-01-07 收藏 2.46MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

工程科学与技术，国际期刊35（2022）101098完整文章利用学习的语义描述符Ibrahim Cinaroglua，b，10，1，Yalin BastanlarbaKaramanoglu Mehmetbey大学，计算机工程系，Karaman 70100，土耳其b伊兹密尔理工学院，计算机工程系，Urla，Izmir 35433，土耳其阿提奇莱因福奥文章历史记录：收到2021年2021年12月3日修订2022年1月19日接受2022年2月26日在线提供保留字：基于图像的定位图像匹配自动驾驶语义分割语义描述符A B S T R A C T用于车辆定位的基于视觉的解决方案最近变得流行。在这项研究中，我们采用了基于图像检索的视觉定位方法，其中数据库图像与GPS坐标保持一致，检索到的数据库图像的位置作为在城市规模的驾驶场景中的查询图像的位置估计。关于这种方法，大多数现有的研究只使用从RGB图像中提取的描述符，而不利用语义内容。我们表明，本地化可以提高通过从语义分割图像中提取的描述符，特别是当环境受到严重的光照，季节性或其他长期变化。我们在两个独立的视觉定位数据集上工作，其中一个（马拉加街景挑战）已经由我们生成并公开提供。在提取图像中的语义标签之后，我们训练了一个CNN模型，以弱监督的方式进行定位，并具有三重排序损失。优化的语义描述符可以单独用于定位，或者优选地，它可以以混合方式与现有技术的基于RGB图像的描述符一起使用，以提高准确性。我们的实验表明，所提出的混合方法是能够提高本地化性能的标准（RGB图像为基础）的方法高达7.7%的前1召回值。©2022 Karabuk University. Elsevier B.V.的出版服务。这是CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍视觉定位（VL）可以被定义为估计视觉查询材料在已知环境中的位置和方向。关于移动终端（可以是行人或车辆）的位置的信息对于城市规模的导航和其他基于位置的服务是至关重要的。此外，由于在城市环境中基于GPS的定位的限制（例如，信号故障在杂乱的环境中），视觉定位在过去十年中吸引了越来越多的关注[33]。在我们的工作中，一个基于图像检索的VL技术（图1）采用近似最近邻搜索算法。该方法利用地理标记图像的数据库，并且检索到的数据库图像的已知地理位置（最佳匹配）用作查询图像的位置估计。本文提出的方法是基于这样一个假设，即场景的语义分解可以增加本地化*通讯作者。电子邮件地址： ibrahimcinaroglu@kmu.edu.tr （ I.Cinaroglu ），yalinbastanlar@-iyte.edu.tr（Y。Bastanlar）。1本文作者刚刚转学，目前在卡拉曼诺格鲁·梅赫梅特贝大学工作。性能我们可以依赖语义标签，特别是当场景中有长期变化时。如图2所示，在光照条件下（晴天、多云等），和季节变化（夏季、冬季等）发生剧烈的外观基于标准外观的方法在这种情况下面临困难因此，利用语义知识的这种优越能力来理解场景一直是我们在这项研究中的主要动机一些相关研究[53，40，29，25，43]表明，语义线索可以用于提高定位精度，但没有一个直接使用从语义分割图像中提取的描述符进行定位。在我们的研究中，新颖的是，我们提高了本地化性能直接使用学习的语义描述符与语义分割的图像训练。更具体地说，我们采取了一个国家的最先进的外观为基础的本地化方法，从RGB图像（LD-VL）中提取本地描述符，并将其与我们新开发的基于语义描述符的方法（SD-VL）相结合，从而在一个新的混合本地化方法。我们已经在环境受到光照和其他长期变化的数据集上工作，并观察到所提出的混合方法的性能改善。我们将我们工作的主要贡献总结如下：https://doi.org/10.1016/j.jestch.2022.1010982215-0986/©2022 Karabuk University.出版社：Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页：www.elsevier.com/locate/jestchI. Cinaroglu和Y. 巴斯坦拉尔工程科学与技术，国际期刊35（2022）1010982Fig. 1.在左边，我们看到一个查询图像。在右边，我们看到一个区域，其中有一个已知GPS坐标的图像数据库。从数据库中检索是基于描述符向量的相似性。从数据库检索的图像的GPS位置用作查询图像的位置估计。如果估计在一定距离限制内，则认为定位成功。使用包含NetVLAD[3]层的CNN模型训练一种新的语义描述符，使用语义分割的图像作为输入。然后，这种优化的语义表示直接用于视觉定位（SD-VL）。我们基于Google街景生成了马拉加街景挑战数据集，该数据集提供了广泛的基线和严重的环境变化。这个新生成的测试集已经公开，我们相信它将是有用的研究人员在这一领域的研究。Hybrid-VL是在后处理阶段将新开发的SD-VL我们的实验表明，所提出的混合方法提高了定位性能测量与常用的评价指标Top-1召回@D和召回@N马拉加街景挑战和RobotCar季节（视觉定位的基准本文件其余部分的结构如下。第2节回顾了相关工作。第3节提供了有关我们的方法的详细信息。实验结果和数据集制备的详细信息见第4节，第5节为结论。2. 相关工作2.1. 基于外观描述符的定位基于定位的图像检索的经典方法主要依赖于特征袋[32，44]方法。此外，这种方法通常用从兴趣点创建的局部描述符来表达图像。尺度不变特征变换（SIFT[23]）可以作为这些局部描述符的常用示例。该局部描述符从图像中提取出具有显著性的不变特征，并可用于对目标或场景的变化视图进行可靠的匹配。在这种Bag-of-Features方法中，从数据库中的所有图像中提取的SIFT类描述符两幅图像之间的相似性通过它们的直方图向量之间的距离来度量。随着时间的推移，研究人员设法用更少的内存执行相同的任务[19]，并获得对重复结构[50]、照明、视点变化和长期变化的鲁棒性[49]。这种方法也已经被用于360度全景图像[17，30]。最近的研究考虑使用卷积神经网络（CNN）的深度卷积层的特征[46，9]。Arandjelovic等人[3]提出了一种可训练的CNN，NetVLAD，其中一个专门设计的层被添加到标准CNN中，以将最后一个卷积层转换为紧凑的描述符。在他们的研究中，NetVLAD的表现优于最先进的本地化图二.左边是同一场景的两幅图像，具有相当大的照明变化。在右边，它们的语义分割结果。标准方法在这种情况下性能较低，更稳定的语义分割可以提供帮助。●●●I. Cinaroglu和Y. 巴斯坦拉尔工程科学与技术，国际期刊35（2022）1010983一一基于在四个不同数据集上进行的实验的技术。还有其他强大的图像检索描述符，如区域MAC[48]，广义平均池[36]和局部纹理XOR模式[4]。然而，这些是专门为位置识别而开发的（例如，这是埃菲尔铁塔吗？）而不是本地化。当考虑定位（达到距离阈值）时，NetVLAD仍然是最佳方法之一[34]。因此，在我们的研究中，我们采用NetVLAD作为基线方法。上面给出的研究只从RGB图像中提取特征。我们将它们称为基于RGB图像或基于外观的方法。2.2. 使用语义标签进行长期本地化基于CNN的语义分割方法通过使用标准和更大的视场相机在不同的计算机视觉任务中取得了令人印象深刻的结果[20，16，7，31]。此外，使用语义标签来改进基于图像的定位的想法之前已经被探索在[25]中，定位基于标准特征点描述符，但不属于人造物体的特征点（例如，树）被认为是不可靠的，并且它们经由语义信息被消除在[29]中，从CNN的卷积层中提取特征，但基于语义标签应用加权方案（例如，增加建筑物的重量，Seymour等人[40]开发了一种基于深度学习的方法，用于融合外观和语义信息。他们提出了一个注意力模块来预测最可靠的外观和语义模态区域。在[43]中首次提出了从2D语义标签设计描述符的尝试，但不是本地化，描述符用于区分街道交叉口和其他场景。[53]中还提出了一个框架，该框架使用图像的语义边缘特征来实现道路定位。首先，在我们之前的工作中[11]，我们基于整个图像的语义标签优化了语义描述符，并使用该描述符进行定位，而不是将其用作线索。在本文中，我们扩展了我们以前的工作相结合，它与一个国家的最先进的外观为基础的方法（NetVLAD），并超过其性能。基于图像的虚拟现实的一些先前的工作属于基于3D结构的定位的类别，其采用场景的3D模型来与从图像中提取的信息相匹配Sten-borg等[45]当环境被3D重建和语义标记时，基于查询图像的语义内容执行定位这是一项创新性的研究，在执行本地化纯粹基于语义标签;然而，它需要语义标签的三维点云，这是不可避免的，在大多数情况下。在另一个示例中，2D-3D点匹配是检查它们的语义标签是否也匹配[47]。在[38]中，为语义内容开发了一个字典，并将场景表示为语义词袋。我们的方法是基于2D图像及其语义分割结果。它比需要对环境进行语义3D重建的本地化方法此外，在之前的几项研究中[51，6]报告称，2D方法与2D-3D匹配方法一样有效。2.3. 其他长期本地化以前的一些工作利用语义标签以外的方式来处理照明和长期变化。Piasco等人[34]使用几何信息，同时训练其新的球图像描述符。由于深度图属于每个查询图像，他们设法提高了本地化Germain等人[15]还通过向最先进的CNN添加特定条件的子网络来产生全局图像描述符的图像检索体系结构。它们的描述子是根据捕获条件计算的，并成功地克服了昼夜变化。再次为了应对夜间到日常的挑战，Anoosheh等人。[2]由于他们新颖的图像转换模型ToDayGAN，通过将夜间驾驶图像转换为白天表示来提高定位精度。此外，Porav等人。[35]提出了一种可逆生成器，能够将图像的条件转换为所需的相反条件。他们训练的网络输出合成图像来管理这种外观转移，这是为了帮助标准的局部特征匹配方法SURF。 Doan等人[13]介绍了一种新的基于图像检索的Monte Carlo定位算法。此外，他们提出了一种与角色扮演游戏一起工作的软件，以便从街道水平收集城市的超现实计算机生成图像，以提供不同的环境条件。3. 我们的方法3.1. 方法概述所提出的语义VL方法也基于先前在图1中描绘的图像检索技术。然而，我们引入语义描述符来寻找最佳匹配，而不是基于标准外观的描述符。因此，数据库由地理标记图像的像素级语义分割组成（图1）。 3）。与文献中的大多数视觉定位研究类似，我们的先验图（黄色路径）对应于数据集的参考遍历，而在同一路径上但在变化条件下收集的其他遍历的图像是我们的查询图像。为了学习最好的语义描述符，我们使用一段专门用于训练的路线来训练CNN模型。测试结果是用看不见的部分获得的，即训练样本和测试样本在地理上是不相交的。所提出的Hybrid-VL方法可以用图4中给出的伪代码逐步总结，该伪代码是在2D-2D匹配空间中基于图像检索构建的。这种简化的建议VL方法的代表还为我们提供了步骤对应于基于特征图像检索的定位系统（图像表示，图像匹配，杂交）的关键组成部分。此外，我们不仅能够显示本研究的新颖部分在何处发生及其相应步骤，还能够显示这些部分是如何（离线-在线）操作的。在本段中，介绍了所提出的将输入图像与地理标记图像进行匹配的算法。首先注意，关于实际驾驶任务，从第1行到第8行的算法可以并且应该离线计算。在这种表示中，提出的学习SD-VL方法采用查询图像Ia并返回k来自数据库图像的候选者的数目CSD，在从1到13的行中。在第一行中，对数据库图像I采用先前重新训练的语义分割方法DeepLabv3 +Retrained，这给了我们它们的分割版本S。在行2中，在S上训练CNN模型，其中对于VL任务具有三元组排名损失，然后从行3到6的部分对应于学习的语义描述符SDi提取过程。在第7行中使用我们的ANNS方法FLANN为数据库图像描述符集合SDT建立了鲁棒索引。接下来，针对行9和10中的语义分割的查询图像Sa从第11行到第13行，进行ANNS，并检索k此外，在没有分割的情况下重复用于SD-VL方法的相同步骤（2-行14和15，从而获得用于我们的LD-VL方法的最佳匹配k个候选CLD最后，第16至18行表示了有效的决策级杂交方法，I. Cinaroglu和Y. 巴斯坦拉尔工程科学与技术，国际期刊35（2022）1010984图三. 在所提出的基于语义内容的VL方法中，数据库由地理标记图像的逐像素语义分割组成。后处理水平的CLD和CSD。因此，在K数-重新训练的模型产生了令人满意的分割性能，a aHybrid-VL方法候选C杂交种的杂交种数最多的第一个I杂交种是其中的例子可以在图中看到。五、我们的模特课-一针对给定的查询图像Ia返回。1将像素划分为11个语义类（建筑物，汽车，道路，在下面的章节中，我们将进一步解释所提出的算法，并详细说明每个步骤的实现。3.2. 地理标记图像的语义分割数据库和查询图像的像素级语义标签是使用最先进的DeepLabv3+[8]模型提取的，该模型在CamVid数据集[14]上进行了预训练。为了提高预训练的DeepLabv3+的性能，我们对数据集中的图像进行了在重新训练时，RobotCar Seasons数据集缺少注释的地面实况图像，这促使我们采用弱监督方法。更具体地说，RobotCarSeasons数据集上预训练的DeepLabv3 +的成功分割结果被接受为注释，并用于重新训练模型。通过这种方式，我们在目标数据集中生成了足够数量的标记图像，而无需手动注释。这种监督薄弱的再培训的步骤如下：RobotCar Seasons数据集查询集中的所有图像（参见表1），除了夜晚和夜雨集，使用预训练的DeepLabv3 +模型进行语义分割。总共有2500多张图片。以最佳方式反映我们的语义类的分割结果是手动选择的。以这种方式选择每个查询集大约170个图像这些选定的图像被排除在定位实验（查询集）之外，因为它们已经被我们重新训练的分割CNN看到。DeepLabv3 +使用这1024张图像进行了重新训练，这个新模型被命名为DeepLabv3 + Retrained。人行道，天空，树，行人，自行车，杆，围栏，标志符号），如图所示。3.3. 训练用于本地化的在过去，我们已经实现了手动设计语义描述符的想法，我们将图像分成4个相等的部分，并将这些部分中的类频率放入向量[10]。结果不是很令人满意，很明显，理想的解决方案是使用包含目标长期变化和照明变化的数据集自动学习语义描述符。为此，我们将语义分割的数据库图像作为训练集提供给CNN，以最小化三重损失函数（图6）。在三重损失中，首先在FaceNet中引入[39]，给定的输入图像（锚），从相似位置拍摄的图像构成正集合，而来自遥远位置的图像构成负集合，如图7所示。通过使用三重丢失进行训练，描述符（CNN的最后一层）被优化，使得到正集合的距离最小化，到负集合的距离最大化。我们使用AlexNet[22]作为我们的骨干CNN，添加NetVLAD层，以获得我们学习的语义描述符。实际上，我们也检查了VGG 16[42]作为一个更深入和最新的网络，但我们更喜欢使用AlexNet，因为它的本地化性能更好。事实上，这是一个预期的结果，一个不太复杂的CNN，如AlexNet，在基于语义描述符的定位中给出了更好的结果，其中特征是从一个简单的表示（语义标签）中提取的。接下来将解释所采用的三元组排序损失期望位置感知描述符是表示为fhq2Rd哪里一查询图像q是嵌入式成一个d-●●●I. Cinaroglu和Y. 巴斯坦拉尔工程科学与技术，国际期刊35（2022）1010985JJJJð Þ ¼ ðÞHHJ见图4。提出了决策级混合虚拟现实算法。表1本研究中使用的两个基准数据集的详细统计数据pq¼argmindgpsq;tdb; 1数据集基线数据库图像条件（图像数量）查询图像条件（#images）这与原始的NetVLAD实现[3]略有不同，在原始的NetVLAD实现中，从一组可能的位置中选择最接近的图像。这是因为他们使用谷歌街景图片[37]第三十七话短基线马拉加街景宽挑战（我们的）基线天气预报-参考（6954）2014年参考（阴天/1561）黎明（ 483 ），黄昏（394），夜晚（ 483 ），夜晚 + 雨（440），雨（421），阴夏（463），冬季（390），雪（489），太阳（460）谷歌街景（436）：从2014年到2020年不同时间段和年份的所有短期长期变化看着不同的方向，不知道哪一个正确。定位图像实际上具有与查询图像重叠的视图。令dhq;pq=jjfhq-fhpqjj，则目标变为学习训练参数h，使得查询q和正图像pq之间的距离小于查询q和{nq}中所有负图像之间的距离：dhq;pqdhq;nq;8j：2<最后，三元组排序损失Lh被定义为：Lh¼Xh.d2q;pqm-d2q;nq;3J我们使用（RobotCar Seasons或Malaga Streetview Challenge），我们获取元组的训练集（q;pq，{nq}），其中对于每个训练查询图像q，我们具有正pq（最接近的图像）和确定的负数集{nq}（到查询的度量距离高于阈值）。我们选择pq作为数据库tdb中最接近的图像根据GPS坐标：其中h是铰链损失h x max x; 0，m是确定正对和负对之间的相异性量的裕度（图2）。 7）。根据等式（3）如果a的平方距离如果负像的距离大于正像的距离的平方（相差一定的距离），则损失为零。否则，损失将与违规数量成比例增加。通过这种方式，我们的上述亲-tdb维欧氏空间这里，h对应于待优化的为此，从数据集I. Cinaroglu和Y. 巴斯坦拉尔工程科学与技术，国际期刊35（2022）1010986图五. DeepLabv3 + Retrained在RobotCar Seasons（第1行）和Malaga Streetview Challenge（第2行）数据集的一些样本图像上的语义分割性能见图6。学习SD（16 k），在语义分割图像上使用三重排序损失训练VL任务。见图7。锚图像连同阳性（相同位置）和阴性（不同位置）样本一起用于训练定位CNN时的三重丢失。由于没有采用人工监督，注释被认为是弱监督训练，注释可能由于位置偏移而有噪声，并且视图之间的重叠可能受到限制。所描述的基于三元组排名损失的学习过程在语义标签被给出作为输入时为我们提供了学习的语义描述符，该输入进而用于SD-VL。3.4. 训练用于定位的基于外观的描述符我们应该注意到，在LD-VL方法的实现中，直接在RGB图像上遵循前一节中的相同训练过程我们再次检查了VGG16和AlexNet作为骨干，以获得我们基于外观的学习描述符。相反I. Cinaroglu和Y. 巴斯坦拉尔工程科学与技术，国际期刊35（2022）1010987ð Þ ð Þð-ÞK2个月对于语义描述符的情况，VGG16给出了更好的局部化性能。毫不奇怪，更复杂的CNN（如VGG 16）在LD-VL方法中给出了更好的结果，其中使用相对复杂的信息（RGB图像）作为输入。3.5. 杂交作为本研究的主要贡献，提出了一种新的混合-VL方法结合SD-VL和LD-VL的方法，旨在减轻这两种方法的缺点。3.5.1. 描述符匹配在解释我们的混合方法之前，我们首先需要介绍我们的描述符匹配方法。我们使用经过学习的参数（第3.3节）来提取所有数据库图像fIg的表示，这些表示可以离线完成并表示为由FI。在测试时，我们需要在集合fhI和给定的查询fhq之间执行有效的比较，以找到最近的数据库图像。这种比较任务是典型VL系统中最重要的步骤之一。为了有效地处理这个任务，引入了不同类型的快速近似最近邻搜索（ANNS）方法[12，52，18]，其中一些是基于CNN的[1]。简而言之，ANNS方法在计算机视觉应用中比较大型数据库的元素时，寻找近似最近邻而不是精确最近邻。此外，在ANNS中使用k维（k-d）树的优越性在以前的作品中得到了强调[41，21]。此外，Muja和Lowe[27，28]通过将这些k-d树随机化来改进它们，称为多重随机k-d树。此外，他们将他们的有效方法映射到一个紧凑的工具中，称为ANNS的快速库（FLANN，[26]）。在我们的研究中，LD-VL和SD-VL方法都是在FLANN上构造的，用于为给定的查询检索最相似的首先，FLANN通过多个随机k-d树在我们的数据库描述符集合上建立一个强大的索引。然后，通过使用先前创建的索引，对查询描述符集合中的每个给定元素应用ANNS最后，它返回k个最近的候选图像及其到相应查询图像的欧氏距离（L2范数）在我们的工作中，k被设置为10。令SDi和LDi表示最近候选者的列表对于给定的第i个查询图像，通过两种方法获得的图像。然后，DjSDi和DjLDi是对应的距离向量，其中j是指最近的候选图像的数据库索引。该距离值集合用于生成Hybrid-VL的最终列表，如下节所述3.5.2. 决策级混合VL在SD-VL和LD-VL方法通过ANNS获得k个匹配结果之后，根据候选图像的等级及其距离值将它们组合。首先，为了实现可靠的杂交，我们将距离值归一化到1/20-1]范围内，然后应用直方图均衡化。在该预处理阶段之后，我们将SDi和LDi结果组合，如图8所示。更具体地说，我们对每个查询的距离值（D jSD i和D jLDi）进行积分，这些距离值之前以升序返回。在积分时，距离值用它们自己的等级加权（较高等级的候选者被惩罚较少）并乘以W或1W，其中W表示来自基于SD的方法的候选者的权重。该混合距离更新方程如下所示：8>DjSDi·rnkjSDi·WDjLDi·rnkjLDi·1-W;ifj2SDi\LDi其中，rnkj=SDi，rnkj=LDi，表示候选图像j在SDi和LDi列表中的排名。在第一种情况下，在两种方法的10个最近邻列表中，jSDILD岛这里，W参数使我们能够调整SD-VL和LD-VL的贡献。例如，当W为0.5时，我们更信任LD-VL方法。<将距离直接与它们的排名rnk，j相乘（对于更高排名的候选者，距离值减小得更多）也可以被视为奖励在两个列表中都找到候选者的情况。作为更新过程的结果，我们获得了Dji最后，我们对这些图像进行重新排序，并接受新列表中的前10个图像作为Hybrid-VL方法的最终结果4. 实验4.1. 数据集我们在两个数据集上进行了实验，这两个数据集都包含光照变化和其他长期外观变化（如晴天/多云天气或新结构的出现）。其中之一是公开的2和常用的RobotCar Seasons数据集，最近的有效VL研究[15，40，34，2，35，6]评估了它们的性能。另一个是Malaga StreetviewChallenge数据集，由我们准备，以便测试我们的方法不仅在短期/长期变化上而且在宽基线上的性能，如图9所示。我们已经将这个数据集连同地理标记一起公开发布了.RobotCar Seasons Dataset[37]是RobotCar数据集的子集[24]这是在英国牛津收集的，在一年内通过100多次相同的10公里路线RobotCar Seasons数据集提供了较少的视点（基线）变化，但对于城市规模的城市驾驶场景，观察条件的变化较大，如表1所示。最初使用三摄像头（左，右，后）设置在这项研究中，我们只使用后方的图像，因为驾驶方向是在图像的中心。以这种方式，获得了6954个数据库图像（阴天参考）。对于查询集，我们使用由390张图像组成的冬季覆盖集，因为这些图像提供了足够的季节和照明变化。马拉加街景挑战数据集包含一个公开可用的马拉加市中心数据集的精简子集[5]作为数据库图像。这些都是在近8公里处收集的。城市路线可视化图3.为了能够包括视点多样性和长期变化，我们收集了来自Google街景的查询图像，在相同的8公里内，每10-20米。不同时间的路线（图9中的左栏）。马拉加街景挑战总共有436张查询图像和1561张数据库图像（表1）。4.2. 评估指标在这项研究中，基于GPS的度量误差计算的SD-VL，LD-VL和Hybrid-VL方法的性能进行评估。每个数据库和查询图像都与WGS 84地理坐标系中的GPS位置相关联。仅仅对度量误差值求和或求平均以测量定位精度是不可靠的，因为类似的描述符不匹配情况可能导致非常不同的基于GPS的度量误差。因此，为本地化任务提出了更可靠的评估指标，并在文献中频繁使用[3，49，51，34，33，15，38，37，53]。这些评价指标解释如下：我的天：K KDjLDi;其他j2LDiDjSDi;其他j2SDið4Þ2https://data.ciirc.cvut.cz/public/projects/2020VisualLocalization/RobotCar-季节/3https://github.com/ibrahimcinaroglu/Malaga-Streetview-Challenge>I. Cinaroglu和Y. 巴斯坦拉尔工程科学与技术，国际期刊35（2022）1010988¼1St4.3. 实验结果为我们的描述符调整三重排序损失需要将我们的驾驶路径分为三个地理上不相交的部分，作为训练集，验证集和测试集。例如，RobotCarSeasons的每个部门包含大约2300个数据库和130个查询图像。为了公平起见，所有检查的VL方法都是在RobotCar Seasons和Malaga StreetviewChallenge中的Overcast-Winter遍历的同一分区上进行检查的。作为训练的结果，我们获得了16个k维VLAD向量（图6），具有K64个聚类数[3]。该描述符大小用于SD-VL和LD-VL方法。最后，我们在RobotCar Seasons （ 130 个测试查询）和Malaga StreetviewChallenge（111个测试查询）的测试集上测试了我们提出的Hybrid-VL方法。如果我们检查所提出的方法在其效率方面，步骤从第1行到第8行的算法（图。 4）是离线计算的，关于我们的实际驾驶任务。然后，返回最佳见图8。决策级混合方法。对于给定的查询图像Ia，匹配数据库图像（步骤Top-1 Recall @D：计算排名最高的（1）返回的数据库图像位置与查询地面实况位置之间的距离。然后绘制距离小于固定阈值D（从5米变化到150米）的查询的百分比召回率@N：良好定位的百分比（6- 25 m距离误差）相对于N个返回的候选数据绘制查询即使这N个候选者中的一个被很好地定位，那么查询也被接受为正确地定位。从第9行到第18行）花费近1.5秒。大部分时间花在第9行和第10行之间，同时计算LD-VL和SD-VL方法的返回候选。可以忽略不计的时间花在其余步骤（11图10描绘了所提出的混合-VL方法经由先前给定的评估度量（Top-1Recall@D，Recall@N）的优越性。Hybrid-VL能够在RobotCar Seasons（左下图）和Malaga Streetview Challenge（右下图）上分别将LD-VL方法的Recall@1增加4%和3.6%。在这些图中，距离阈值D被设置为25m。这在相关研究中很常见。随着N的增加，所有方法的召回值都增加见图9。景观、照明等长期（新建建筑、道路等）马拉加街景挑战查询图像（左）和相应的马拉加市中心数据库图像（右）之间的变化●●I. Cinaroglu和Y. 巴斯坦拉尔工程科学与技术，国际期刊35（2022）1010989图10个。合并LD-VL和SD-VL方法的拟定Hybrid-VL方法的优先级结果表示为RobotCar Seasons Overcast-Winter遍历（第1列）和Malaga Streetview Challenge（第2列）上的Top-1 Recall@D（第1行）和Recall@N（第2行）评估指标但Hybrid-VL仍然是最好的。我们还能够观察图10中不同距离阈值的Top-1召回值。针对机器人-汽车季节（左上图），所提出的混合方法相对于LD-VL的改进对于较小的D值，召回率增加约5%。而对于较大值（D>30m.）的增加更为显著，达到7.7%。马拉加街景挑战（右上图）相对于LD-VL的改进相对较小，但它仍然提高了每个D值的性能。LD-VL失败但混合-VL方法检索正确位置的一些视觉示例可以在图11中查看。人们可以观察到具有挑战性的照明条件或外观差异（更换汽车）。稳定的语义内容有助于所提出的混合方法更好的检索性能。综上所述，实验结果表明，所提出的混合VL方法的性能优于最先进的基线LD-VL方法（NetVLAD与RGB图像）的检查数据集。因此，我们在第1节中描述的初始假设这些结果是通过选定的W参数获得的（RobotCar Seasons为0.2，Malaga Streetview Challenge为0.1）。下面的小节研究成功对W参数的敏感性。4.4. 对W参数我们已经解释过（第3.5.2节），所提出的混合- VL方法是基于W参数的。由于W参数（等式（4）），我们能够调节SD-VL和LD-VL在杂交中的贡献。从逻辑上讲，我们应该相信SD-VL和LD-VL方法中性能更好的VL方法，并且在大多数情况下LD-VL结果更好。这种直觉在图10中得到了证实，其中通过增加LD-VL（W0.5）的贡献获得了最佳的Hybrid-VL结果。图12给出了不同W值的结果。图中仅包括RobotCar Seasons的结果，但马拉加街景挑战赛也出现了同样的趋势。可以观察到接近0.2（例如0.1或0.3）的W值导致类似的性能。事实上，只要我们信任LD-VL而不是SD-VL，它对Hybrid-VL是有利的。相反，当我们给I. Cinaroglu和Y. 巴斯坦拉尔工程科学与技术，国际期刊35（2022）10109810图十一岁建议的Hybrid-VL方法的优先级与来自两个数据集的三个样本定位情况基于RGB图像的方法LD-VL（左）失败，但Hybrid-VL（右）为给定查询（中）检索正确的图像。I. Cinaroglu和Y. 巴斯坦拉尔工程科学与技术，国际期刊35（2022）10109811图12个。改变W参数方法对RobotCar Seasons数据集的影响W= 0.2获得最佳杂交结果（右上），但与W= 0.1和W= 0.3相比，差异可忽略不计与SD-VL相比，Hybrid-VL的重量更大（WP0.5），性能降低。5. 结论和今后的工作在这项研究中，我们提出了一个混合VL方法，利用语义分割，以提高本地化性能。为此，首先使用语义分割图像，使用基于三重排序损失的CNN模型训练一种新的SD。然后，这种优化的语义表示被直接用于视觉局部化，称为学习SD-VL方法。最后，Hybrid-VL方法是提出了结合新开发的学习SD-VL和基线LD-VL方法在决策层。改进的本地化性能通过基准RobotCar Seasons数据集和与研究社区共享的新生成的Malaga Streetview Challenge数据集上的常用评估指标进行测量这种性能的提高是由于将区分力的相对位置的对象在一个语义分割的图像。我们可以得出结论，所提出的Hybrid-VL方法能够减轻基于外观的方法的缺点。I. Cinaroglu和Y. 巴斯坦拉尔工程科学与技术，国际期刊35（2022）10109812至于未来的工作，采用不同类型的描述符（例如使用深度图）将有助于这项工作的成功。此外，在全向相机上执行所提出的方法还可以由于其宽视角而提高定位性能。竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。确认这项工作得到了土耳其科学技术研究委员会的支持（批准号120E500）。我们还感谢NVIDIA公司捐赠Titan Xp GPU用于本研究。引用[1] A. Alzu'bi，A. Abuarqoub，用于大规模图像搜索的低维随机投影深度学习模型，Eng. Sci.技术人员：Int.J.23（2020）911- 920。[2] A. Anoosheh，T.萨特勒河阿夫特，M.波勒费斯湖Van Gool，用于基于检索的定位的夜间到日常图像翻译，在：2019年国际机器人与自动化会议（ICRA），IEEE，2019年，pp. 5958-5964。[3] Arandjelovic ， R. ， Gronat ， P. ， Torii ， A. ， Pajdla ， T. ， Sivic ， J. ， 2016.Netvlad：弱监督位置识别的Cnn架构，在：CVPR..[4] A. Bala ， T. Kaur ， Local texton xor patterns ： A new feature descriptorforcontent-based image retrieval，Eng. Sci. 技术人员：Int.J. 19（2016）101-112.[5] J.L. Blanco-Claraco，F.A. Moreno-Duenas，马拉加城市数据集：现实城市场景中的高速率立体声和激光雷达，Int. J. 机器人Res. 33（2014）。[6] F. Camposeco，A. Cohen，M. Pollefeys，T. Sattler，混合相机姿态估计，在：IEEE计算机视觉和模式识别会议论文集，2018年，pp.136-144。[7] Chen，L.C.，Papandreou，G.，Schroff，F.，亚当，H.，2017年a。重新思考用于语义图像分割的atrous卷积。arXiv preprint arXiv：1706.05587..[8] Chen，L.C.，Zhu，Y.，中国科学院，Papandreou，G.，Schroff，F.，亚当，H.，2018年编码器-解码器与atrous可分离卷积的语义图像分割，在：ECCV..[9] 陈志，Jacobson，A.，Sunderhauf，N.，Upcroft，B.，刘，L.，Shen，C.，里德身份证米尔福德，M.， 2017年b。深度学习功能在视觉位置识别的规模，在：ICRA。[10] I. Cinaroglu，Y. Bastanlar，基于图像的本地化使用语义分割自动驾驶，在：2019年第27届信号处理和通信应用会议（SIU），IEEE，2019年，pp. 一比四[11] I. Cinaroglu，Y. Bastanlar，8月23日，训练基于图像的本地化语义描述符，在：ECCV自动驾驶感知研讨会（PAD），2020年。[12] M.达塔尔湾Immorlica，P. Indyk，V.S. Mirrokni，基于p-稳定分布的局部敏感散列方案，在：第二十届计算几何年会论文集，2004年，pp. 253-262。[13] 公元Doan，Y.T.J. Chin，Y.Liu，S.F.庄做，我。Reid，外观变化下的视觉定位：滤波方法，神经计算。（2020）1-14.[14] J. Fauzur，G.布罗斯托河Cipolla，通过区域和关键点的联合跟踪辅助视频对象标记，在：2007 IEEE第11届计算机视觉国际会议IEEE，2007，pp. 1-7号。[15] Germain，H.，Bourmaud，G.，Lepetit，V.，2018.有效的基于条件的长期视觉定位表示。arXiv preprint arXiv：1812.03707..[16] L. Huang，M.他，C.Tan，D.Jiang，G.Li，H.余，联合网络图像处理：基于cnn的室内场景多任务图像语义分割，IETImage Proc.14（2020）3689-3697。[17] A. Iscen

下载后可阅读完整内容，剩余1页未读，立即下载