自动驾驶的位置识别技术论述及其潜力

198 浏览量更新于2023-10-11 收藏 2.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9319面向自动驾驶的Anh-Dzung Doan1、Yasir Latif1、Tat-Jun Chin1、Yu Liu1、Thanh-Toan Do2和IanReid12利物浦大学计算机科学系摘要自动驾驶的位置识别的一个主要挑战是对由于到短期（例如，天气、照明）和长期（海洋、植被生长等）环境变化一个有前途的解决方案是不断积累图像，以保持足够的样本的条件和公司的新变化到地点识别决策。然而，这需要一种在不断增长的数据集上可扩展为此，我们提出了一种新的位置识别技术，可以有效地重新训练和压缩，这样新查询的识别可以利用所有可用的数据（包括最近的变化），而不会受到计算成本的明显增长支撑我们的方法是一种新的时间poral图像匹配技术的基础上隐马尔可夫模型。我们的实验表明，与最先进的技术相比，我们的方法在自动驾驶的大规模地点识别方面具有更大的潜力。1. 介绍地点识别（PR）是基于视觉输入识别“地点”的广泛问题[26，6]。最近，它在自动驾驶研究中得到了积极的追求，其中PR形成了本地化的核心组件（即，估计车辆姿态）[34，21，4，9，35，5，7]和环路闭合检测[10，13]。许多现有的PR方法需要在样本图像的大型数据集上进行训练，通常具有地面实况定位标签，并且采用学习的方法报告了最先进的结果[21，20，7，9]。为了令人信服地执行，一个实用的PR算法必须对操作环境中的外观变化具有鲁棒性这些可能是由于更高频率的环境变化（例如天气、一天中的时间和足密度）以及更长期的变化（例如季节和植被生长）而发生的。一个现实的公共关系系统还必须与“周期性较小”的变化相抗衡以及影响交通流量的交通规则的突然变化（如果数据库包含仅从一个特定流量看到的图像，则这可能对PR产生巨大影响这样的外观变化在现实生活中总是会发生。为了应对外观变化带来的挑战，一个范例是开发固有地鲁棒性地抵抗变化的PR算法。在这种范式下的方法试图提取一个地方的“视觉本质”，这是独立的外观变化[1]。然而，这些方法大多已经在更“自然”的变化上得到证明，另一个范例是为PR算法配备在不同环境条件下采集的大型图像数据集[8]。然而，为了适应外观的长期演变，持续积累数据并更新PR算法至关重要。为了在大的区域上成本有效地实现连续的数据收集，可以使用服务车辆的车队（例如，出租车、送货车辆）和自动绘图机。事实上，有街道图像数据集通过众包视频不断增长[30，14]。在这种方法下，合理的是假设在不断增长的数据集中捕获外观变化（包括最近的变化）的百分采样。在数据集持续增长的情况下，持续准确PR的关键这就需要一种可扩展的PR算法。具体地，测试的计算成本（即，对查询输入执行PR）不应随着数据集大小的增加而明显增加。同样重要的是，在新数据上更新或重新训练PR算法也必须是高效的。可以说，基于深度学习的PR算法[7，9]可以通过简单地将其添加到数据集并微调网络参数来适应新数据。然而，正如我们稍后将展示的，这种微调过程仍然成本太高而不实用，并且测试序列中缺乏准确的标签可能是一个主要障碍。贡献我们提出了一个新的框架，PR的大规模数据集，不断增长，由于incor-9320我j=1数据集中新序列的穿孔。为了确保可扩展性，我们开发了一种新的 PR 技术的基础上隐马尔可夫模型（HMM），是轻量级的训练和测试。重要的是，我们的方法包括拓扑敏感的压缩过程，可以有效地更新系统，而不使用GNSS定位信息或计算视觉里程计。这导致PR不仅可以通过不断适应新数据来提高准确性，而且还可以保持计算效率。我们在从Map- illary [30]收集的数据集上展示了我们的技术，并且还表明它与基准数据集上的最近PR算法相比是有利的2. 问题设置我们首先描述一下我们的行为。用于自动驾驶的自动PR的ted设置。设D=V1，. . .，V，M是M个视频的数据集，其中每个视频在外观变化下正确。为了解决外观变化，SeqSLAM[28]提出将当前图像序列的统计数据与过去看到的图像序列进行最近的方法也着眼于外观转移[31][23]，以明确处理外观变化。在精神上与我们最接近的方法是[8]，他们基于定位失败来维护特定位置的多个视觉在他们的工作中，成功的定位导致丢弃数据，并且他们广泛地依赖于视觉里程计（VO），这可能是失败点。与文献[8]相比，我们的方法不依赖于VO;仅需要图像序列。此外，我们在成功和不成功的（新的地方）本地化情节更新外观，从而获得鲁棒性对外观变化的相同的地方。我们的方法也有一个新的mech-anism地图压缩导致可扩展的推理。一个相关的问题是视觉定位（VL）：Vi={Ii，1，Ii，2，. . . ，Ii，N}={Ii，j}Ni（一）在给定图像的情况下，推断相机的6自由度姿态给定是Ni个图像的时间顺序序列。在所提出的PR系统中，D以分布式方式使用装有摄像机的车队来收集。由于车辆可能来自业余制图者，因此准确校准/同步的GNSS定位可能不可用。然而，我们确实假设所有车辆上的相机正面。查询视频表示为Q={Q1，Q2，. . . ，QT}（2）其是T个查询图像的按时间排序的序列查询视频可以是来自贡献车辆之一的新记录（回想我们的数据库D是不断扩展的），或者它可以是来自PR系统的“用户”的输入，例如，自动驾驶汽车。对于每个Qt∈ Q，PR的目标是从D中检索从与Qt相似的位置拍摄的图像，即，所检索图像的FOV在很大程度上与Qt重叠。如上所述，使这具有挑战性的在我们所设想的公关系统中，当我们完成了亲-通过处理Q，它被附加到数据集D=D ∪ {Q}，（3）因此图像数据库可以无限增长。这对PR算法施加了很大的压力，以有效作为大小的指示，视频可以具有多达35，000个图像。2.1. 相关作品PR在文献中得到了广泛讨论[26]。然而，它已经被提出作为一个图像检索问题，使用通过BoW表示聚集的局部特征[10，13，11]。基于特征的方法无法匹配环境的模型，基于P2P [24]的解决方案使用2D-3D对应关系[34]计算姿态，这在大规模和外观变化下都变得困难[39]。一些方法解决了使用SfM本地创建模型的问题，查询图像针对该模型进行本地化[35]。给定地面实况姿态和相应的图像，VL也可以被公式化为图像到姿态回归问题，同时解决检索和姿态估计。最近，PoseNet [21]使用卷积神经网络（CNN）来学习此映射，并使用LSTM进一步改进以解决过拟合[41]，不确定性预测[19]和包含几何约束[20]。MapNet [7]表明，地图的表示可以作为网络学习，然后用于VL。基于深度学习的方法的一个缺点是训练/更新的计算成本很高。隐马尔可夫模型（HMM）[38，33]已被广泛用于室内空间中的机器人定位[22，2，37]。 Hansen等人[15]对于室外场景，使用HMM，但是它们必须维护数据库和查询序列之间的相似性矩阵，当数据连续累积时，该相似性矩阵是不可扩展的。因此，我们是第一批将HALGOR应用于大型城市规模PR的公司之一，这需要重大创新，例如基于快速图像检索的新型有效评估4.2 ）。此外，我们的方法明确地处理时间推理（Sec.4.1），这可能有助于对抗感知混叠问题造成的混淆[36]。请注意，我们的主要贡献是在第二节。5，其在持续增长的数据集D上处理PR。3. 地图表示当在道路网络上导航时，车辆的运动被限制在道路上，并且车辆的前进方向被限制在道路上。9321匹配匹配转移矩阵（一）0.40.200.40.200 200 400 600（b）第（1）款转移矩阵（c）第（1）款图1：我们使用HMM进行位置识别的想法概述。考虑数据集D={V1，V2}和查询Q。图1a：由于V1和V2是在不同的环境条件下记录的，V2无法与V1匹配，因此V1和V2之间没有联系。查询Q访问由V1和V2覆盖的地方，然后访问一个未知的地方.图1b：查询Q首先仅针对V1本地化。当其在时间t + 1处到达“重叠区域”时在每个时间步长t处对应于MaxAP的图像被返回作为匹配结果。图1c：阈值决定是否应该接受匹配结果，因此当Q是看不见的地方时，V1和V2的MaxAP很小，我们不确定匹配结果。一旦Q完成，Q发现的新地点将被添加到地图中以扩大覆盖区域。此外，由于Q与V1和V2都匹配，因此我们可以连接V1和V2。hicle也受到交通方向的限制。因此，相机的姿态变化相对较低[35，32]。以上激励我们将道路网络表示为图G= （N ，E），我们也称之为节点的集合N简单地是D中的所有图像的集合。为了减少混乱，我们N={1，. . . ，K}，⑷ΣM通过在不同地点之间转换的概率，即，w（k1，k2）=P（k2|k1）=P（k1|k2），（7）对于穿越道路网的车辆。简单地说‖k1，k2‖∈/Ei f fP（k2|k1）=P（k1|k2）=0.（八）从（7）中也可以清楚地看出，G是无向的。转移概率的具体定义将在第2节中给出。5.第一，Sec。4讨论了给定D和映射Q其中K=i=1Ni是图像的总数我们把一个索引k∈ N称为地图上的一个我们还维护了一个语料库C，它存储了在每个地方观察到的图像。目前，语料库只包含C（k）={1k}，k= 1，. . . ，K，（5）在每个单元格C（k）处。在第5，我们将随着视频数据集D的增长而递增地将图像附加到C。在G中，边缘集合E连接在其FOV中重叠的图像，即，是E中的一条边，如果I∈ C（k1）和（六）请注意，两个图像可以重叠，即使它们来自不同的视频和/或条件。边被加权020040060093224. 基于隐马尔可夫模型的为了对Q ={Q1，. . . ，QT}针对固定映射G=（N，E）和语料库C，我们使用HMM [33]对Q进行建模。我们把每一个图像Qt看作是一个潜在的位置状态stt的噪声对象（图像），其中stt∈ N。将HMM用于PR的主要原因是利用Q中的图像的时间顺序，以及由于受限运动而导致的时间和地点之间的高度相关性（第二节）。（3）第三章。为了给st赋值，我们估计信念P（st|Q1：t），其中Q1：t是{Q1，. . . ，Qt}。注意到9323KK不K信念是概率质量函数，因此其中，bm是特征向量xh的最近视觉词。ΣP（st|Q1：t）= 1。（十）s∈N为了获得单个向量，我们使用求和聚合：hk不基于HMM的结构，信念（9）可以是ψ（Ik）= φ（Xk）（15）i=1使用贝叶斯规则递归定义P（st|Q1：t）= ηP（Qt|st）为了减少背景特征的影响（例如，树，道路，天空），我们采用旋转和归一化（RN）[18]，然后进行L-2归一化。Σst−1∈NP（st|St−1）P（st−1|Q1:t−1），（十一）特别地，我们使用PCA来从D到D ′投影k（Ik），其中D′W，否则，ent条件。如果Q通过a下的子路径条件，同时接近于δ2其中α是归一化常数。边连接间隔≤W时间步长的帧，其权重基于步长距离上的高斯。W的选择可以基于车辆的最大速度。注意，这种创建边缘的简单方式将忽略复杂的轨迹（例如，环）。然而，后续步骤将通过连接类似的地方来纠正这个问题。5.2. 地图更新和压缩令D={Vi}M是具有地图G=（N，E）和语料库C的当前数据集。给定一个查询视频Q={Qt}T，使用我们在第二节中的方法。4我们基于下式对Q执行PRG. 这对于所有t产生置信向量pt（19）。我们现在希望将Q附加到D，并更新G以保持未来PR查询的计算可扩展性首先，为Q创建一个子图G′=（N′，E′），其中N ′={K +1，K+2，. . . ，K+ T}，（20）V1和V2，这可以用于压缩。为此，对于其中M（t）非空的每个t• k1= minM（t）。•F或每个k2∈M（t），其中k2/=k1且∈/E：–*创建带权重的边k1，k3w（k1，k3n）=w（k2，k3n）.从E中删除边–同样，一旦对M（t）/=1的所有t完成上述操作，我们从G中移除所有未连接的节点并删除rel。C中的evant细胞，以及相应的指数调整。图图2c、1a和1c示出了该组合步骤。5.3. 更新观测模型当Q被附加到数据集时，即，D=D ∪ Q，所有向量ψ（Qt）需要被索引到k-均值树。特别是，我们找到最近的叶节点，是长到。假设树是Σ平衡的，树的高度为（log N/logK），其中N=Ni，因此每个k（Qt）需要（回想一下，G中总共有K个位置），E′简单地跟随Sec。5.1对于Q。在准备地图压缩时，我们首先连接图形并扩展语料库N=N <$N′，E=E <$E′，C（K+t）={Qt}（21）对于t=1，. . .、T.有两个主要的后续步骤：剔除新的地方，合并旧的地方。9326检查（log N/logK）个内部节点和一个叶节点。在每个节点中，它需要通过以下方式找到最近的集群中心计算到所有中心的距离，其复杂度为O（K. D′）。因此，添加查询视频的Q为O TKD′（log N/logK），其中T= |Q|.假设它是一棵完全树，每个叶节点包含K个点，因此它有N/K个叶节点。对于每一个点k（Qt），它只需要检查log N/logK个节点，而不是预先扫描N/K个因此，这是一个可扩展的操作。932773GT上述Qt阈值阈值01 2 4 5 6 8地点（指数）(a) 匹配(b) 扑杀(c) 结合图2：我们对可扩展位置识别的想法的概述图G=G1∪G2，其中G1={1，2，3，4，5}和G2={6，7，8}是不交子图. 查询视频Q ={Q1，...，QT}与G匹配。图2a：Qt与节点k=3和7（绿虚线）匹配，因为pt（3），pt（7）>γ。图2b：将Qt添加到节点3和7，创建新的边（蓝线）以保持Qt−1，Qt+1和Qt之间的连接。图2c：节点3和7被组合。生成新边（蓝线）以保持图形内的连接。请注意，在匹配查询Q对G，我们提出的剔除和组合方法连接两个不相交的子图G1和G2在一起。5.4. 总体算法算法1总结了所提出的PR的可扩展方法。用我们的方法执行PR的关键益处是地图G不会随着新视频的包含而无限制地增长。此外，地图更新技术是简单和有效的，这允许它被进行用于每个新的视频添加。这使得在不断增长的视频数据集上实现可扩展的PR。节中6，我们将比较我们的技术与国家的最先进的公关方法。6. 实验我们使用来自Mapillary [30]的数据集，该数据集由街道级别的地理标记图像组成;请参阅示例材料。在Oxford RobotCar [27]上进行了基准测试，我们使用8种不同的序列沿着相同的路线;在补充材料中提供了细节，并且将序列缩写为Seq-1至Seq-8。初始数据库D用来自Oxford RobotCar数据集的Seq-1和Seq-2填充。Seq-3至Seq-8随后被顺序地用作查询视频。为了报告查询图像的6-DoF姿态，我们继承使用MaxAP估计匹配的图像的姿态。在[35]之后，将平移误差计算为欧几里得距离||cest− cgt||二、定向误差|θ|以度为单位测量的角度差2ωs（ |θ|）=trace（R−1Rest）−1在估计的和真实的相机旋转矩阵Rest和Rgt之间。接下来[21，20，7，42]，我们比较了平均误差和中位数有和没有更新数据库的性能我们研究了更新数据库对本地化精度和推理时间的影响在每个查询序列完成后，我们考虑三种策略：i）无更新：D总是仅包含初始2个序列，ii）剔除：用查询更新D并执行剔除，算法1大规模PR的可扩展算法要求：转移概率的阈值W，阈值γ 对于 PR ，具有一个视频的初始数据集D={V1}1：初始化地图G=（N，E）和语料库C（第二节）。5.1）。2 ：创建观测模型（第4.2）3：同时有一个新的查询视频Q做4：使用映射G对Q执行PR，然后将Q附加到D。5：为Q创建子图G′（第5.2）。6：将G′连接到G，用Q扩展C（Sec.5.2）。7：通过剔除新的位置来减少G（第7节）。5.2）。8：通过合并旧的位置来减少G（Sec. 5.2）。9：更新观测模型（第5.3）。10：结束时11：返回带有mapG和corpusC的DatasetD。没有更新扑杀剔除+合并Seq-36.59米，3.28米◦ ◦ ◦序列47.42米，4.64◦5.80米，3.24◦6.01米，3.11米◦Seq-516.21米，5.9715.07米，5.8915.88米，5.91米Seq-626.02米，9.02米18.88米，6.24米19.28米，6.28米Seq-731.83米，17.99◦30.06米，17.12米30.03米，17.05米Seq-825.62米，22.38米24.28米，21.99米24.26米，21.54◦没有更新扑杀剔除+合并Seq-36.06米，1.65米序列45.80米，1.40米5.54米，1.39◦5.65米，1.33◦Seq-513.70米，1.56◦13.12米，1.52◦13.05米，1.55◦Seq-66.65米，1.87米5.76米，1.75米6.60米，1.85米Seq-713.58米，3.52◦11.80米，2.81米10.87米，2.60米12843675Q1Qt-1QtQt+1QT12843Qt67Qt5Q1Qt-1Qt+1QT128467 3Qt5Q1Qt-1Qt+1QT信仰9328Seq-813.28米，4.93◦7.13米，2.31米7.15米，2.47米表1：我们技术的3种不同设置之间的比较。平均值（顶部）和中位数（底部）的错误，6自由度的牛津RobotCar的姿态报告。9329具有地图压缩（剔除+合并）无贴图压缩图3：使用和不使用压缩的映射维护说明。在每个查询视频Q完成之后，我们通过剔除Q中的已知地点并组合地图上表示相同地点的旧地点来压缩地图。因此，过渡矩阵的大小逐渐缩小相反，如果不进行压缩，则转移矩阵的大小将继续增加。序列没有更新扑杀剔除+合并Seq-34.03序列44.565.054.82Seq-54.245.064.87Seq-63.814.033.72Seq-73.824.183.78Seq-83.773.913.68培训序列VidLocMapNet我们方法Seq-1，214.1h11.6h98.9sSeq-3-6.2h256.3s序列4-6.3h232.3sSeq-5-6.8h155.1sSeq-6-5.7h176.5sSeq-7-6.0h195.4s表第二章：推理时间（毫秒）对牛津机器人车Cull+Combine具有可比的推理时间，同时提供更好的准确性（见表1）超过无更新。以及iii）剔除+组合：利用剔除和组合节点两者的完全更新。表1中报告了平均和中位6-DoF位姿误差一般来说，剔除提高了定位精度没有更新，因为剔除增加了外观变化的地图。事实上，有几种情况下，剔除+合并产生的结果优于剔除。这是因为我们整合了地图中的有用信息（组合代表同一地点的节点），同时丰富了地图拓扑（通过剔除将彼此靠近的节点连接起来）。表2中给出了使用不同更新策略的每个查询的推理时间在没有更新的情况下，由于图和数据库的大小没有改变，因此序列之间的推理时间稳定在（4ms/查询）。相比之下，剔除操作增加了约1毫秒/查询的推理时间，剔除+合并使其与无更新情况相当这表明，所提出的方法是能够压缩数据库的程度，在作为新的信息的相似后的查询时间保持可比的情况下，没有更新的数据库。地图维护和访问未知区域图3显示了使用和使用-表3：Oxford RobotCar上的培训/更新时间输出压缩。在没有压缩的情况下，当附加新的查询视频Q时，地图G（具体地，邻接矩阵E）的大小连续增长。相反，使用我们的压缩方案，剔除Q中的已知位置，并且G中的冗余节点（即，表示同一地点的节点）被组合。结果，图被压缩。访问未探索的区域使我们能够扩大地图的覆盖范围，正如我们使用Mapillary数据所展示的那样。我们设置γ=0。3，即，我们仅接受具有MaxAP置信度彡0的查询帧。3 .第三章。当车辆探索未知道路时，MaxAP的概率很小，并且没有定位结果被接受。一旦查询序列结束，地图覆盖范围也随之扩大;见图4.第一章与最先进的本地化方法进行比较我们的方法与最先进的本地化方法MapNet进行比较[7]”[9]《明史》：我们使用原作者VidLoc作者推荐使用MapNet中的VidLoc实现所有参数都是根据作者的建议设置的。1对于我们方法中的地图更新，剔除+合并步骤[1]由于缺乏公开的实施方案，因此没有与[8]进行比较。9330图4：通过更新地图扩大覆盖范围使用地面实况GPS绘制的位置仅用于可视化方法Seq-3序列4Seq-5Seq-6Seq-7Seq-8VidLoc38.86米，9.34米38.29米，8.47米36.05米，6.81米51.09米，10.75◦54.70米，18.74米47.64米，23.21◦MapNet9.31米，4.37米8.92米，4.09◦17.19米，5.72米26.31米，9.78◦33.68米，18.04米26.55米，21.97◦MapNet（更新+再培训）8.71米，3.31米18.44米，6.94◦28.69米，10.02◦36.68米，19.34米29.64米，22.86米我们的方法6.59米，3.28米6.01米，3.11米15.88米，5.91米19.28米，6.28米30.03米，17.05米24.26米，21.54◦方法Seq-3序列4Seq-5Seq-6Seq-7Seq-8VidLoc29.63米，1.59米29.86米，1.57米31.33米，1.39米47.75米，1.70◦48.53米，2.40米42.26米，1.94米MapNet4.69米，1.67米4.53米，1.54◦13.89米，1.17米8.69米，2.42◦12.49米，1.71◦8.08米，2.02米MapNet（更新+再培训）5.15米，1.44米17.39米，1.87◦11.45米，3.42米20.88米，4.02米11.01米，5.21◦我们的方法6.06米，1.65米5.65米，1.33◦13.05米，1.55◦6.60米，1.85米10.87米，2.60米7.15米，2.47米表4：我们的方法，MapNet和VidLoc之间的比较。报告了Oxford RobotCar数据集上的平均（顶部）和中位数（底部）6-DoF姿态误差图5：RobotCar数据集上的定性结果。都被使用了。MapNet在新的查询视频上重新训练，并使用先前预测的地面实况。由于VidLoc不能产生足够准确的预测，因此我们不会为后续的查询视频重新训练网络。我们的方法在平均误差方面优于MapNet和VidLoc（见表4），并且具有比MapNet更平滑的预测轨迹（见图4）。（五）。此外，虽然我们的方法在更新数据库后提高了定位精度（见表1），但MapNet这是因为MapNet是在嘈杂的地面实况上重新训练的。然而，尽管我们的方法在质量上优于MapNet，但中值误差的差异并不明显：这表明中值误差9331不是VL的好标准，因为忽略了粗差。注意，我们的方法主要执行PR;这里，比较-与VL方法的对比表明，正确的PR配对在存在外观变化的情况下，具有简单姿势继承的方法可以优于VL方法。我们的方法的定位误差可以通过在对应于最高置信度的一组图像上执行SfM来改善。表3报告了我们的方法以及MapNet和VidLoc的训练/更新时间。特别是，对于Seq-1和Seq- 2，我们的方法需要大约1.65分钟来构建k-means树和构建图，而MapNet和Vid-Loc分别需要11.6和14.1小时进行训练。为了更新一个新的查询序列，MapNet需要大约6个小时的重新训练网络，而我们的方法在不到5分钟的时间内挑选这使得我们的方法在现实的场景中更实用，其中训练数据是连续获取的7. 结论本文提出了一种新的可伸缩库所方法识别，这是轻量级的训练和测试时，数据不断积累，以保持所有的外观变化。从结果来看，我们的算法在可扩展推理和数据库更新方面显示出实现长期自治的巨大潜力。内存可扩展性是我们未来的工作。9332引用[1] Relja Arandjelovic，Petr Gronat，Akihiko Torii，TomasPa-jdla，and Josef Sivic. Netvlad：用于弱监督位置识别的CNN架构。在CVPR，2016年。[2] OlivierAycard，Franc.c.o.oisCharpillet，DominiqueFohr，andJ-FMari.使用隐马尔可夫模型的位置学习与识别。InIROS，1997.[3] Artem Babenko和Victor Lempitsky。用于大规模相似性搜索和分类的树量化。CVPR，2015。[4] Eric Brachmann、Alexander Krull、Sebastian Nowozin、Jamie Shotton、Frank Michel、Stefan Gumhold和CarstenRother 。用于相机定位的 DSAC 可微分 RANSAC 在CVPR，2017年。[5] Eric Brachmann和Carsten Rother。学习越少越好-通过3d表面回归的6d相机定位。在CVPR，2018年。[6] 埃里克Brachmann关于Torsten 萨特勒视觉本地化：基于地图的与学会了前处理。https://sites.google.com/view/visual-localization-eccv-2018/home，2018.[7] Samarth Brahmbhatt，Jinwei Gu，Kihwan Kim，JamesHays，and Jan Kautz.用于相机定位的地图的几何感知学习在CVPR，2018年。[8] 温斯顿·丘吉尔和保罗·纽曼基于经验的导航，实现长期本地化。国际机器人研究杂志，2013年。[9] Ronald Clark ， Sen Wang ， Andrew Markham ， NikiTrigoni，and Hongkai Wen. VidLoc：用于6-DoF视频剪辑重新定位的深度时空模型。在CVPR，2017年。[10] 马克·康明斯和保罗·纽曼。Fab-map：外观空间中的概率定位和映射。国际机器人研究杂志，2008年。[11] 马克·康明斯和保罗·纽曼。fab-map 2.0在大尺度国际机器人研究杂志，2011年。[12] 这是杜兹、赫维和杰古，还有弗洛朗·佩龙宁。多义代码。在ECCV，2016年。[13] DorianGa'l v ez-Lo' pez和JuanDTardos。用于图像序列中快速位置识别的二进制字包 IEEE Transactions onRobotics，2012。[14] 莫迪凯·哈克雷和帕特里克·韦伯OpenStreetMap：用户生成的街道地图。IEEE普适计算，2008年。[15] 彼得·汉森和布雷特·布朗宁。基于hmm序列匹配的视觉场所识别。InIROS，2014.[16] Herve Jegou、Matthijs Douze和Cordelia Schmid。最近邻搜索的乘积量化。TPAMI，2011年。[17] Herve 'Je'gou ， MatthijsDouze ， CordeliaSchmid ，andPatrick P e'rez. 将局部描述符聚集成紧凑的图像表示。CVPR，2010。[18] 她的ve'Je'gou和Andr e wZisserman。用于图像搜索的三角形嵌入和民主聚合CVPR，2014。[19] 亚历克斯·肯德尔和罗伯托·西波拉在深度学习中对相机重新定位的不确定性InICRA，2016.[20] 亚历克斯·肯德尔和罗伯托·西波拉使用深度学习进行相机姿态回归的几何损失在CVPR，2017年。[21] AlexKendallMatthewGrimes 和 RobertoCipollaPosenet ：用于实时 6-dof 相机重新定位的卷积网络CVPR，2015。[22] Jana Kosecka和Fayin Li。基于视觉的拓扑马尔可夫定位。InICRA，2004.[23] Yasir Baglif，Ravi Garg，Michael Milford，and Ian Reid.使用生成对抗网络的广告具有挑战性的地方识别任务在ICRA，2018年。[24] Vincent Lepetit ， Francesc Moreno-Noguer ， and PascalFua. Epnp：pnp问题的精确O（n）解。IJCV，2009年。[25] 大卫·G·洛从尺度不变关键点中提取独特的图像特征。IJCV，2004年。[26] Stephani eLo wry，Nik oSünderhauf ，PaulNe wman，JohnJLeonard，David Cox，Peter Corke，and Michael JMilford.视觉位置识别：一个调查。IEEE Transactionson Robotics，2016。[27] Will Maddern ， Geoffrey Pascoe ， Chris Linegar ， andPaul Newman. 1年，1000公里：牛津机器人汽车数据集。国际机器人研究杂志，2017年。[28] Michael J Milford和Gordon F Wyeth。SeqSLAM：基于路径的视觉导航，适用于晴朗的夏日和暴风雨的冬夜。InICRA，2012.[29] Marius Muja和David G Lowe。高维数据的可伸缩最近邻算法。TPAMI，2014年。[30] GerhardNeuhold ， TobiasOllmann ， SamuelRotaBulo` ，andPeter Kontschieder.街景语义理解的mapillary vistas数据集InICCV，2017.[31] Horia Porav，Will Maddern，and Paul Newman.针对不利条件的对抗训练：使用外观转移的鲁棒度量定位。在ICRA，2018年。[32] Cosimo Rubino，Alessio Del Bue和Tat-Jun Chin。城市街景场景的运动分割。在ICRA，2018年。[33] Stuart J Russell和Peter Norvig。人工智能：现代的方法。马来西亚;培生教育有限公司，，2016年。[34] Torsten Sattler，Bastian Leibe，and Leif Kobbelt. 大规模图像定位的高效优先匹配TPAMI，2017。[35] Torsten Sattler ， Will Maddern ， Ca

下载后可阅读完整内容，剩余1页未读，立即下载