TextPlace:高层次场景文本识别和定位在视觉任务中的有效性

181 浏览量更新于2023-10-13 收藏 2.32MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2861讨价还lebara希EvasVeroTextPlace：通过阅读场景文本的视觉位置识别和拓扑定位紫阳红1，Yvan Petillot1，David Lane1，Yishu Miao2，Sen Wang11爱丁堡机器人中心，赫瑞瓦特大学2牛津大学{zh9，y.r.petillot，d.m.lane，s.wang}@ hw.ac.uk，yshu. gmail.com摘要视觉位置识别是许多基于视觉的应用的基础。基于稀疏特征和深度学习的方法在过去十年中一直是成功的和占主导地位的然而，他们中的大多数人没有明确地杠杆年龄高层次的语义信息，以处理具有挑战性的情况下，他们可能会失败。本文提出了一种新的视觉位置识别算法，称为TextPlace，基于场景文本在野外。由于场景文本是高层次的信息不受光照变化的影响，并且在考虑空间相关性时对于不同的位置非常不同，因此它有利于在极端外观变化和感知混叠下的视觉位置识别任务。它还考虑到场景文本之间的时空依赖性大量的实验表明，TextPlace实现了最先进的性能，验证了使用高级场景文本在城市地区进行鲁棒视觉位置识别的有效性。1. 介绍视觉位置识别（VPR）是许多计算机视觉和机器人应用的基本要素之一，几十年来吸引了相当多的关注[15]。它的目标是通过使用视觉信息准确地识别重访的地方。大多数已建立的视觉位置识别系统依赖于局部视觉特征和所谓的视觉词袋（ Bag of Visual Words ，BoVW）技术[20，27]。其中一些已经通过使用单个图像匹配在大规模环境中显示出令人印象深刻的位置识别性能[4，5]。然而，对于长期运行，它们的性能可能会由于昼夜循环、天气和季节条件引起的极端外观变化而降低。例如，如图2所示。1、视觉外观的一种*通讯作者lebara讨价还价图1：场景文本的地点识别。上图：同一个地方，白天和晚上的视觉外观不同。底部：具有强感知混叠的不同位置。注意同一地点的场景文本是一致的，不同地点的场景文本是不同的。同一个地方在白天和晚上可能非常不同（顶部），而不同的地方可能在视觉上看起来相似，具有强烈的感知混叠（底部）。因此，基于稀疏局部特征的地点识别方法在遇到由于照明和季节变化而引起的大的外观变化时可能是脆弱的为了克服这些问题，基于序列的方法[17，19]使用全局图像描述符和图像序列进行匹配。当前最先进的VPR系统主要依赖于深度学习技术[2，7]来学习用于挑战场景中的地点识别的潜在表示然而，他们中的大多数没有显式地利用高层语义信息。人类在视觉位置识别任务中表现得非常出色。其中一个原因是人类可以充分利用高层语义信息进行场景理解和地点识别。文本作为高级语义的主要类型之一，是人类智慧的结晶，长期以来然而，尽管场景文本普遍存在于人造环境和城市区域中，例如，路标、街道名称和商店标牌。再看图中的例子1.一、可以看出，场景文本可以2862强大的处理具有挑战性的感知问题，因为它们对于同一个地方是一致的（顶部），而对于不同的地方是不同的（底部）。在本文中，我们将探讨如何利用高层次的文本信息的视觉位置识别和拓扑的本地化。提出了一种新的视觉场所识别系统TextPlace。给定在野外检测到的场景文本，TextPlace通过文本描述符表示地点，并构建拓扑图以封装文本的空间一致性。我们的主要贡献有三方面。首先，据我们所知，TextPlace是第一个视觉位置识别系统，其主要使用场景文本作为描述符来处理具有挑战性的场景中的位置识别，例如，严重的照明变化、感知混淆、动态遮挡和变化的视点。其次，我们开发了一个完整的管道使用高层次的文本信息的拓扑度量定位。最后，我们证明了第一次，可以有效地利用文本来解决上述具有挑战性的场景中的视觉位置识别和拓扑定位。本文的其余部分组织如下。第2节回顾了相关工作，随后在第3节中对TextPlace进行了算法描述。实验结果见第4节。结论见第5节。2. 相关工作视觉位置识别研究可以大致分为稀疏特征、序列和基于深度学习的技术。2.1. 基于稀疏特征的场所识别基于稀疏特征的地点识别算法取得了巨大的成功，并且在十年前占据主导地位它们依赖于本地特征，例如，SURF [3]和SIFT [14]以及BoVW技术。一种经典的方法是FAB-MAP，一种基于视觉外观的概率定位和映射模型[4]。类似地，[6]使用BoVW模型结合ORB特征进行快速位置识别。局部聚集描述符向量（VLAD）[11]和DenseVLAD [28]计算每个视觉词与相应聚类中心之间的残差之和然而，基于稀疏特征的方法在面对动态光照变化和动态场景时可能存在问题2.2. 基于序列的地点识别一些工作已经利用顺序信息进行位置识别。Milford和Wyeth [17]提出了SeqS-LAM，它使用一系列全局图像描述符进行位置识别。这是通过利用空间和时间信息来解决极端感知变化所引起的问题的第一次尝试之一。在[18，19，29]中，使用基于图的模型来表示查询序列和映射序列之间的数据关联。其中图内的网络流的成本被最小化以找到匹配。2.3. 基于深度学习的地点识别由于从深度神经网络学习的高级特征可以隐式地封装一些语义信息，因此它们可以用于变化环境中的地点识别。在NetVLAD [2]中，通过卷积神经网络学习单个图像的一组局部描述符，并且类似于VLAD [11]计算局部描述符的紧凑形式。在[9]中，训练了一个三流连体网络用于图像检索。而在[22]中，为每个图像集群构建3D模型，并用于指导图像检索。在[21]和[1]中，他们通过使用生成对抗网络（GAN）[8]执行从源域到目标域的图像到图像的翻译，以便他们可以在目标域中进行更简单的匹配。2.4. 基于文本的定位和地点识别由于场景文本，如街道标志、道路标记、广告牌和商店招牌，通常携带广泛的区分信息，它们可以被认为是本地化的地标。在[30]中提出了用于机器人导航的文本信息，其中使用合取文本特征将文本信息编码为用于环路闭合检测的地标。Radwan等人[23]通过使用在地图上观察到的多个文本，提出了一种全球Ranganathan等人[24]在测绘过程中将道路标记与精确的GPS位置配对，并通过将检测到的道路标记与地图匹配来执行定位。文本检测在野外的最新进展[10，13]为在开放的、具有挑战性的环境中使用文本信息进行定位和位置识别铺平了道路接下来，我们将探讨如何在野外使用这些高级信息进行位置识别和定位。3. 该算法在本节中，描述了所提出的TextPlace算法。它的目标是通过基于文本的位置识别和拓扑定位，相对于文本增强的拓扑地图鲁棒地跟踪摄像机。3.1. 系统概述TextPlace系统包含两个主要阶段：1）测绘阶段。给定一系列图像及其视觉里程估计，TextPlace构建识别的场景文本的拓扑度量图。2)地点识别和本地化阶段。查询图像序列或新相机相对于所构建的拓扑图被定位，这依赖于场景文本及其在环境中的时空一致性。图2示出了系统概览。接下来解释该系统的细节2863映射图像序列药房药房拓扑映射李维斯李维斯化妆品沃达丰图序列沃达丰李维斯郁郁葱葱郁郁葱葱沃达丰文本描述符查询图像序列药房李维斯药房李维李维斯回收回收查询序列回收沃达丰沃达丰沃达丰地方识别郁郁葱葱郁郁葱葱里程计图文并茂发现匹配搜索窗口图像序列文本识别文本过滤拓扑局部化图2：系统概述（顶部：映射阶段。底部：地点识别和定位阶段）。场景文本的检测和识别映射和查询图像序列。通过与预定义词典中的单词匹配来过滤一些文本串在映射阶段，产生文本描述符增强的拓扑图然后将其用于基于文本的地点识别和拓扑定位。3.2. 文本检测与识别与传统的使用稀疏或全局图像特征的VPR方法不同，TextPlace从场景中提取高层文本信息，并将其作为位置识别的基元。为了在野外发现文本，使用了基于深度学习的文本检测和识别模型TextBoxes++[13]它可以预测图像中出现的多个文本及其边界框。然后通过[26]中提出的深度神经网络模型将文本识别为文本字符串序列。在这项工作中，我们使用TextBoxes++的预训练模型来提取文本和识别文本和预定义词典中的单词。Levenshtein距离是将字符串A纠正为字符串B所需的最小操作，包括删除、插入和替换例如， “sitting” 和 “kitten” 之间的Levenshtein距离是3，因为需要三个操作来将“kitten”转换为“sitting”：将“k”改为“s”，将“e”改为“i”，并在后面插入一个“g”。“n”。表示|一|和|B|分别作为字符串A和B的长度。2.A、B、C之间的距离为d，A、B之间的距离为d，A、B之间的距离为d，|一|、|B|）在哪里max（i，j）如果min（i，j）=0，预测它们的边界框位置。dA，B（i，j）=埃克塞特甲乙丙（i−1，j）+13.3. 文本描述符否则，求出d A，B（i，j−1）+1。3.3.1文本过滤d甲乙丙（i−1，j−1）+ 1AiBj考虑到它们的地理相关性，野外的一些文本可以是独特的和信息丰富的另一方面，限定词，如指示词（例如，“this”）和所有格（例如，“我的”）提供非常有限的地理信息。因此，TextPlace使用预定义的字典来指定在映射和本地化阶段期间考虑的突出文本。在这项工作中，一个包含街道名称，商店招牌和广告牌的字典是通过抓取在线地图自动构建的。由于这些文本在很长一段时间内是合理稳定的，因此维护预定义的词典是有意义的。注意，由于拓扑映射和局部化引入的时空依赖性，字典不需要是全面的或最新的我们稍后再讨论这个问题。在实践中，一些文本识别结果可能由于图像质量差、字体样式异常等原因而不正确。因此，有必要过滤掉这些噪声文本，而不是在映射阶段考虑它们。我们在这里，要以一个比喻，来形容一个人的行为1Ai/=Bj表示当Ai与B j相同时指示函数等于0，否则等于1，并且d A，B（i，j）是A的第一个i字符与B的第一个j字符之间的距离。因此，我们可以过滤掉不正确的文本识别结果，其最小Levenshtein距离在整个字典大于一个阈值。3.3.2文本描述符在文本过滤之后，具有一些剩余文本的每个图像帧由文本描述符表示，从而促进位置识别的相似性检查（第3.5.2节中的细节）图像的文本描述符Y包括N个剩余文本串的集合S={s1，…，sN}和它们的边界框位置B={b1，.，bN}。3.4. 拓扑映射为了反映检测到的文本在环境中的时空依赖性，在TextPlace中采用拓扑度量图具体来说，拓扑结构的每个节点2864KMMMKMMMK嗯嗯K逻辑地图表示图像，包含其文本描述符和相机姿态。两个相邻节点之间的边缘表示通过视觉里程计估计的相对变换，其可以被累积以估计相机姿态。一旦摄像机移动了一定的距离（称为节点之间的位移），就会在地图中添加新节点。这种拓扑度量映射的机制对场景文本的空间一致性进行建模，并在用于地点识别的图中形成文本描述符的独特组合3.5. 地方识别一旦拓扑度量地图被建立，我们就可以对它进行位置识别和拓扑定位。与映射阶段类似，每个图像帧也使用第3.2节和第3.3节中描述的文本检测、识别和过滤进行处理。地方识别被制定为如何最好地关联查询帧与拓扑度量地图中的地图节点（表示图像），同时考虑时空约束和文本描述符。3.5.1时空依赖场景文本通常在地理上分布，在环境中具有很强的空间相关性。例如，三个相邻的商店标志在一个区域中可以是不同的查询图像汉堡店地图图像Borg店BURGER0123456B1012345O2112345R3221234G4332123E5443212并集上的边界框区域图3：相似性度量的示例。左：IoU测量。右：网格显示两对查询和映射字符串之间的Levenshtein距离测量。右下角的单元格（绿色）是每种情况下的最终Levenshtein距离其中N是查询描述符Yq中的文本串的数量，Lk是Yq中第k个文本串的长度，并且di是第k个字符串与Yi中所有字符串之间的最小Levenshtein距离。一旦一对查询和地图文本串之间的Levenshtein距离低于关联阈值，计算它们对应的边界框的Yq之间的平均IoU因此，TextPlace利用搜索窗口来限制匹配每个查询图像的映射节点。窗口具有自适应大小，其取决于相机姿态的不确定性（细节在第3.6.2节中）。这显著地提高了地点识别的效率和鲁棒性，特别是对于大规模环境。且Yi被定义为U（Yq，Yi）=1ΣNNk=1Ak∩AiAk ∪Ai（二）因为相似性匹配只能与其中，Ak是中第k个文本字符串的边界框区域，Yq，Ai是其匹配字符串在Yi中的边界框面积，窗口中的映射节点而不是整个拓扑-km标准地图3.5.2相似性匹配我们定义了一个相似性函数，以匹配查询图像的文本描述符与搜索窗口内的地图图像图3给出了关于如何计算每个相似性项的示例。它主要考虑以下两种方法。Levenshtein距离将查询的文本描述符及其在搜索窗口中的第i个映射节点分别表示为Yq和Yi。它们的文本串集合之间的归一化总Levenshtein距离D（Yq，Yi）可以计算为：∩和∪表示两个区域的交集和并集分别最后，搜索窗口中第i个地图节点的相似性得分是这两个度量的加权和：Ssim（Yq，Yi）=wd·D（Yq，Yi）+wu·U（Yq，Yi）（3）其中wd和wu（wd+wu=1）分别是Levenshtein距离和IoU的加权因子。因此，选择相似性得分最大的地图节点作为查询图像的识别匹配。3.6. 拓扑局部化在位置识别的基础上，通过对位置的时间依赖性建模，实现了位置的拓扑定位D（Yq，Yi）=1ΣNNk=1max（Lk−di，0）Lk（一）摄像机及其运动估计。它包括3个主要模块：1）初始化，2）姿态跟踪和更新，以及3）重新定位。SHOP01234S10123H21002O32101P43210286510.80.60.40.200 0.5 1召回图5：PR曲线和Street 1数据集的样本图像。这是一个昼夜设置。图4：全局搜索的示例。大小为4的滑动窗口沿着拓扑图移动，计算查询节点和图节点之间的一组相似性得分，以找到最大化相似性得分之和的最佳匹配序列。3.6.1初始化由于摄像机可以从一个未知的初始位置相对于拓扑地图，我们使用的地方recog-nation在最后一节中，以初始化其位置。特别地，一旦多个匹配连续地具有高相似性分数，则这些查询图像的序列作为滑动窗口在整个拓扑图然后将相机初始化为拓扑图中最佳匹配序列的最后一个节点的姿态。搜索窗口也设置为邻居地图节点。图中给出了全局搜索的一个例子。4.第一章3.6.2姿势跟踪和更新一旦摄像机的姿态在拓扑地图上被初始化，其位置可以通过视觉测距法来跟踪，同时与地图节点进行匹配。由于视觉里程计随时间累积漂移，因此相机姿势的不确定性增加。拓扑地图上的搜索窗口的大小相应地增长，因为其被设计成与姿态不确定性相关联。对于相似性得分高于阈值的匹配，TextPlace选择具有最高得分的映射节点。然后，所选择的地图节点的姿态被用来更新的相机的姿态在扩展卡尔曼滤波器的框架。姿态融合后，漂移得到纠正，搜索窗口的大小缩小。3.6.3再定位由于长时间的严重遮挡和动态对象，摄像机可能会在现实中失去跟踪为了从丢失跟踪中恢复，针对即将到来的帧引入重新定位模式。类似于初始化步骤，从检测到文本的第一个后续帧开始形成滑动窗口。然后执行全局搜索以在由来自视觉里程计的预测姿态定义的放大搜索区域内找到最佳局部匹配。如果重新定位的超时周期到期，则重新初始化定位系统。4. 实验结果在本节中，通过在各种场景中与最先进的位置识别算法进行比较来评估TextPlace4.1. 基线和评价选择作为基线的视觉地点识别算法包括ToDayGAN[1]、NetVLAD [2]、FAB-MAP [4]和SeqSLAM [17]。它们涵盖了备用特征（FAB- MAP），全局特征和序列（SeqSLAM）以及最先进的深度学习（ToDayGAN和 NetVLAD ）方法。我们使用 FAB-MAP1 、SeqSLAM2、ToDayGan3和NetVLAD4的开源实现。对于NetVLAD，通过比较NetVLAD描述符的余弦距离来选择前1个匹配假设。这与NetVLAD的原始论文中报告的前5名匹配的结果不同注意ToDayGAN只与夜间设置进行与大多数视觉位置识别工作类似，我们使用精确度和召回率（PR）作为评估的主要性能测量[15]。4.2. 公共可用数据集我们在两个公共可用数据集上评估了我们的算法：ETH V4RL Urban Place Recognition Dataset [16] 和SYNTHIA数据集[25]。V4RL被捕获用于放置1https://github.com/arrenglover/openfabmap2https://openslam-org.github.io/openseqslam.html网站3https://github.com/AAnoosheh/ToDayGAN网站4https://github.com/Relja/netvlad沃达丰李维斯汉堡串拓扑地图查询序列沃达丰回收李维斯汉堡带文本的视觉里程图像节点匹配当前搜索窗口上次搜索窗口下一个搜索窗口NetVLADToDayGANTextPlaceFAB-MAPSeqSLAM精度286610.80.60.40.20NetVLADTextPlaceFAB-MAPSeqSLAM0 0.51召回10.80.60.40.20NetVLADTextPlaceFAB-MAPSeqSLAM0 0.51召回图6：PR曲线和Street 2数据集的样本图像。例如，[ 25]是来自飞行无人机或视点变化较大的行人的识别任务，而[25 ]是针对汽车驾驶场景的不同季节和昼夜条件的合成我们将夏季和夜间数据集表示为SYNTHIA 1，将夏季和冬季数据集表示为SYN-THIA2。4.3. 自我收集的数据集为了评估TextPlace对极端感知变化、高动态和随机阻塞的性能，我们使用标准智能手机在室外街道和室内购物中心收集了由于严重的照明变化、遮挡和高动态（汽车、公共汽车和行人），同一地点的视觉外观可能会发生巨大变化，这使得数据集非常具有挑战性。图中给出了一些示例图像。图1、图5和图6。数据集分别命名为Street 1、Street 2和Mall。所有自我收集的数据集将公开5。4.4. 精确度和召回率性能本节讨论不同设置下的PR性能。昼夜设置。PR曲线和街道1数据集的一些样本图像如图所示。五、可以看出，当召回率小于0时，TextPlace优于其他方法。9 .第九条。它可以达到100%的准确率时，召回是0.7在这个白天和黑夜的环境中。 NetVLAD还展示了在这种情况下表现出色。但其准确率低于100%，而召回率高于 0.28 。由于环境具有严重的感知混淆，ToDayGAN没有表现出高性能。日-日设置三个数据集用于日-日设置：街2，商场和序列1在V4 RL。街道2的PR曲线如图所示。六、可以看出， SeqSLAM 的精度由于偶尔发生的严重遮挡NetVLAD由于TextPlace依赖于高级5数据集可在https://github.com/ziyanghong/dataset图7：Mall数据集的PR曲线和样本图像。文本，它仍然可以达到相对较高的精度。图7显示了Mall数据集上的PR结果。由于数据是在2个封闭期内收集的，因此挑战性较小FAB-MAP取得了与NetVLAD相当的效果.与以前的实验类似，一旦召回率设置为高于0.9，TextPlace这是因为Levenshtein距离的阈值需要设置得很大以具有非常高的召回率，这引入了许多误匹配。V4RL数据集的序列1具有类似的性能，如图所示。9（左）。视点设置。V4RL数据集的序列2在查询序列和地图序列之间的视点和图像曝光上有很大的变化，这使得视觉地点识别更具挑战性。如图9（右），TextPlace实现了良好的鲁棒性。这是因为TextPlace使用的高级文本信息即使在不同的视点和图像曝光下也保持不变。一个很好的例子是图中的第五个查询（列）。8.由于查询图像是从自上而下的视图捕获的，因此地图图像中的商店的第二层不再被保留。NetVLD、SeqSLAM或FAB-MAP都不匹配此查询的正确地图图像。合成设置。SYNTHIA 1评估夏季和夜间序列之间的匹配，而SYNTHIA 2涵盖冬季和夏季序列。结果示于图10 中。可以看出， TextPlace 实现了与 SeqSLAM 和NetVLAD相当的性能。讨论先前的实验结果验证了高级别文本信息可以有益于城市地区的视觉位置识别，即使具有挑战性的光照变化和严重的遮挡。在所有比较的算法中，NetVLAD在各种数据集上都取得了优异的性能然而，当匹配的图像在环境布局和结构方面与查询高度相似时，它可能产生图2中的第二个查询（列）。8是一个很好的例子。TextPlace依赖于高级文本及其时空依赖性来处理这个问题。精度精度2867NetVLADTextPlaceFAB-MAPSeqSLAMNetVLADTextPlaceFAB-MAPSeqSLAMNetVLADToDayGANTextPlaceFAB-MAPSeqSLAMStreet 1Street 1Street 2Street 2V4RLV4RLSynthia夜-夏Synthia冬夏查询图像FAB-MAPSeqSLAMNetVLAD今日GANTextPlace图8：查询和匹配示例。每一列表示一个查询和各种算法的匹配图像。带有绿色框架的图像是正确匹配，而带有红色框架的图像是不正确匹配。对于日-日设置中的序列，不比较ToDayGAN1 1110.80.80.80.80.60.60.60.60.40.40.40.40.20.20.20.200 0.51召回00 0.5 1召回00 0.51召回00 0.5 1召回图9：V4RL数据集的PR曲线左：序列1。右：序列2.4.5. 全局方法和先验方法的比较TextPlace的先验知识是通过VO在线构建并由文本更新的拓扑姿态图，而不是强全局先验（例如，GPS）。虽然杠杆的空间-时间的依赖性（拓扑姿态图）是TextPlace的新颖性之一，单独的评价之前和全球的方法提供进一步的比较。我们进行了两组实验：1. 在NetVLAD、FAB-MAP和ToDayGAN之前添加位置。这些方法的搜索空间被设置为10，20和30米w.r.t的查询图像位置。表1显示了Street 1数据集的结果。可以看出，除了召回率大于 0.9 时，TextPlace具有最高的精确度2. 将 TextPlace 调整为基于全局搜索的方法。TextPlace的VO跟踪和拓扑图图10：SYNTHIA数据集的PR曲线。左：SYNTHIA 1。右：SYNTHIA 2。被停用，并且对于每个查询，在整个地图上执行全局搜索。如表1所示，TextPlace优于其他全局方法。4.6. 闭塞的挑战性场景在现实中，对于基于视觉的应用或机器人技术，遮挡可能经常发生，特别是在偶尔出现大量公共汽车、汽车、卡车和行人的城市地区在严重遮挡情况下的持续操作对于提高基于视觉的算法的鲁棒性是非常重要的。图11示出了一些具有挑战性的成功案例-通过TextPlace完全匹配。可以看出，由动态对象引起的遮挡显著地改变同一地点在不同时间的图像表示因此，它是苛刻的，要求一个单一的图像为基础的地点识别系统，在这些情况下工作。TextPlace通过使用高级语义信息解决了这个问题NetVLADTextPlaceFAB-MAPSeqSLAM精度精度精度商精度不适用不适用不适用不适用不适用不适用2868现有方法召回1 1 10.960.91NetVLAD-10 1 1 0.950.93NetVLAD-20 1 1 0.91 0.87NetVLAD-30 1 1 0.97 0.85 0.83今日GAN-10 0.5 0.55 0.58 0.570.56今日GAN-20 0.4 0.4 0.4 0.380.38今日GAN-30 0.26 0.24 0.24 0.250.24FAB-MAP-10 0.79 0.69 0.67 0.65 0.63FAB-MAP-20 0.76 0.67 0.63 0.6FAB-MAP-30 0.68 0.67 0.67 0.62 0.58SeqSLAM 0.3 0.24 0.18 0.13 0.13表1：白天-夜晚设置的精确-回忆（Street 1数据集）。0.20.40.60.80.9图11：TextPlace成功匹配的一些挑战性案例。对于每个示例，左列和右列分别示出查询和地图图像。绿线连接匹配的文本。请注意，在映射和查询中可能会出现严重的遮挡全局方法0.2TextPlace（全局）1NetVLAD 0.98今日GAN 0.31FAB-MAP 0.40.410.940.240.42召回0.6 0.8 0.91 0.92 0.840.8 0.76 0.740.13 0.12 0.120.34 0.34 0.34表2：V4RL数据集序列2上TextPlace的不同系统参数设置的精密度比较。DBN（米）SSWLD0.511.5358152000.963 0.981110.596 0.596 0.981110.876 0.950.98710.685 0.577 0.95120.883 0.98810.860.622 0.848 0.988130.883 0.976 0.988 0.872 0.689 0.825 0.976 0.988问题，即，场景文本，这是独立的视觉外观上的变化。4.7. 不同的系统参数设置在本节中，我们研究了TextPlace的不同系统参数设置如何影响位置识别性能。这里研究的参数是Levenshtein 距离阈值（ LD ），节点之间的位移（DBN）和搜索窗口的大小（SSW）。这些参数的不同组合代表不同的召回。测试节点之间的位移时，窗口大小固定为15。改变窗大小时，节点之间的位移设置为1.5米。表2显示了V4RL数据集上不同系统参数设置的精度很明显，TextPlace同时，如果窗口尺寸较大，则可以显著减轻阈值对Levenshtein距离的影响。这表明，一个大的搜索窗口大小是首选。在实践中，窗口大小为15到20通常会提供相当不错的性能。还可以看出，密集的地图节点（小DBN）不会带来显著的益处，这意味着拓扑地图中的节点的密度可以是中等的。2869图12：左侧：SYNTHIA的拓扑定位结果1. 右：V4RL序列的拓扑定位结果1.蓝色和粉色轨迹分别表示地图和查询轨迹。它们之间的绿线是映射和查询节点之间的匹配。4.8. 定位性能除了执行位置识别任务外，TextPlace也适用于拓扑定位。图12显示了SYNTHIA 1和V4RL的序列1上的拓扑定位结果。可以看出，查询图像或相机可以相对于拓扑地图被准确地定位。在查询和地图之间找到的匹配（绿色链接）具有高精度，纠正了视觉里程计的定位漂移。一个很好的例子是SYNTHIA 1中在长时间没有匹配之后的姿态更新。5. 结论在这项工作中，我们提出了一种新的地方识别系统，并证明了利用高层次的语义信息，即，场景文本，解决城市区域的地点识别和拓扑定位问题。在不同环境下的实验表明，本文提出的TextPlace算法能够有效地克服视觉外观和感知混叠的极端变化。鸣谢：这项工作得到了EP- SRC机器人和人工智能ORCA Hub （授权号 EP/R 026173/1 ）和 EU-MarineRobots 项目下的 EU H2020 计划（授权 ID731103）的支持。2870引用[1] Asha Anoosheh、Torsten Sattler、Radu Timofte、MarcPolle-feys和Luc Van Gool。用于基于检索的定位的夜间到日常图像翻译。arXiv预印本arXiv：1809.09767，2018。二、五[2] Relja Arandjelovic，Petr Gronat，Akihiko Torii，TomasPa-jdla，and Josef Sivic. Netvlad：用于弱监督位置识别的CNN架构。在IEEE计算机视觉和模式识别会议，第5297-5307页，2016年。一、二、五[3] Herbert Bay，Andreas Ess，Tinne Tuytelaars，and LucVan Gool.加速健壮功能（冲浪）。欧洲计算机视觉会议，第404-417页，2008年。2[4] 马克·康明斯和保罗·纽曼。Fab-map：外观空间中的概率定位和映射。 The International Journal of RoboticsResearch，27（6）：647一、二、五[5] 马克·康明斯和保罗·纽曼。fab-map 2.0在大尺度TheInternational Journal of Robotics Research，30（9）：1100-1123，2011. 1[6] DorianGa'l v ez-Lo' pez和JuanDTardos。用于图像序列中快速位置识别的二进制字包 IEEE Transactions onRobotics，28（5）：1188-1197，2012. 2[7] Sourav Garg，Niko Suenderhauf，and Michael Milford.迷路了？使用视觉语义对相对视点的外观不变位置识别。机器人：科学与系统，2018年。1[8] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展，第2672-2680页，2014年。2[9] 阿尔伯特·戈多，乔恩·阿尔玛赞，杰罗姆·雷沃，和黛安·拉鲁斯.深度视觉表示的端到端学习，用于图像检索。 International Journal of Computer Vision ， 124（2）：237-254，2017。2[10] 马克斯·贾德伯格，凯伦·西蒙尼安，安德里亚·维达尔迪，和安德鲁·齐瑟曼.使用卷积神经网络在野外阅读文本International Journal of Computer Vision，116（1）：1-20，2016. 2[11] 她的名字是MatthijsDouzeCordeliaSchmid和Patrick Pérez。将局部描述符聚集成紧凑的图像表示。在IEEE Conferenceon Computer Vision and Pattern Recognition ，第 3304-3311页2[12] 弗拉基米尔一世·莱文施泰因。能够纠正删除、插入和反转的二进制代码。在苏联物理学杂志第10卷第707-710页1966年。3[13] Minghui Liao，Baogang Shi，and Xiang Bai.文本框++：一种面向单镜头的场景文本检测器。arXiv预印本arXiv：1801.02765，2018。二、三[14] David G. 洛基于局部尺度不变特征的目标识别。IEEEInternational Conference on Computer Vision ，第1150-1157页，1999年。2[15] Stepha nieLo wry，Nik oSünderhauf ，PaulNe wman，JohnJLeonard，David Cox，Peter Corke，and Michael JMilford.视觉位置识别：一个调查。IEEE Transactionson Robotics，32（1）：1-19，2016。一、五[16] Fabiola Maffra，Zetao Chen，and Margarita Chli.结合2维和3维信息的无人机导航的视角容限地点识别。在IEEE机器人和自动化国际会议上，第2542-2549页，2018年。5[17] Michael J Milford和Gordon F Wyeth。Seqslam：基于路径的视觉导航，适用于阳光明媚的夏日和暴风雨的冬夜。IEEE机器人与自动化国际会议，2012年。一、二、五[18] Tayyab Naseer、Wolfram Burgard和Cyrill Stachniss。跨季节的视觉定位。IEEE Transactions on Robotics，34（2）：289-302，2018。2[19] Tayyab Naseer，Luciano Spinello，Wolfram Burgard，and Cyrill Stachniss.鲁棒的视觉机器人定位跨越海洋-使用网络流的儿子。2014年AAAI人工智能会议。一、二[20] James Philbin、Ondrej Chum、Michael Isard、Josef Sivic和Andrew Zisserman。具有大词汇量和快速空间匹配的对象检索。在IEEE计算机视觉和模式识别上，第1-8页，2007年。1[21] Horia Porav，Will Maddern，and Paul Newman.针对不利条件的对抗训练：使用外观转移的鲁棒度量定位。在IEEE机器人与自动化国际上，第1011-1018页2[22] FilipRaden o v ic´ 、 Gio r gosTolias 和 Ond ˇrejChum 。CNN图像检索从bow学习：无监督微调与硬的例子。欧洲计算机视觉会议，第3-20页，2016年。2[23] Noha Radwan，Gian Diego Tipaldi，Luciano Spinello，and Wolfram Burgard.你看到面包店了吗？利用地理参考文本在公共地图中进行全球定位。在IEEE机器人和自动化国际会议上，第4837-4842页，2016年。2[24] Ananth Ranganathan、David Ilstrup和Tao Wu。使用道路标记的车辆的轻量化定位。IEEE/RSJ智能机器人和系统国际会议，第921-927页，2013年。2[25] German Ros、Laura Sellart、Joanna Materzynska、DavidVazquez和Antonio M.洛佩兹synthia数据集：用于城市场景语义分割的大量合成图像。在IEEE计算机视觉和模式识别会议，第3234-3243页，2016年。五、六[26] 石宝光、向白、丛瑶。基于图像序列识别的端到端可训练神经网络及其在场景文本识别中的应用。IEEETransactionsonPatternAnalysisandMachineIntelligence，39（11）：2298-2304，2017。3[27] 约瑟夫·西维克和安德鲁·齐瑟曼。视频google：一种用于视频对象匹配的文本检索方法。IEEEInternationalConference on Computer Vision，第1470- 1477页，2003年。1[28] Akihiko Torii ， Relja Arandjelovic ， Josef Sivic ，Masatoshi Okutomi，and Tomas Pajdla.通过视图合成进行24/7地点识别。在IEEE计算机视觉和模式识别会议上，第1808-1817页2[29] Olga Vysotska和Cyrill Stachniss。使用散列在大量外观变化下的重新定位。在IEEE/RSJ2871智能机器人和系统研讨会国际会议，第24卷，2017年。2[30] Hsueh-Cheng Wang ， Chelsea Finn ， Liam Paull ，Michael Kaess，R

下载后可阅读完整内容，剩余1页未读，立即下载