没有合适的资源?快使用搜索试试~ 我知道了~
7383基于视觉特征和地图Janine Thoma1,Danda Pani Paudel1,Ajad Chhatkuli1,Thomas Probst1,Luc VanGool1,21瑞士苏黎世联邦理工学院计算机视觉实验室2VISICS,ESAT/PSI,KU Leuven,比利时摘要基于图像特征表示的图像定位技术在图像检索领域取得了很大的进展,引起了广泛的研究兴趣。基于图像的定位具有廉价和高效的优点,通常完全避免使用3D度量图。也就是说,需要维持大量的参考图像作为场景中定位的有效支持,然而要求将它们组织在某种地图结构中。定位问题通常作为导航过程的一部分出现因此,我们有兴趣总结的参考图像作为一组地标,这符合基于图像的导航的要求。本文的一个贡献是为所涉及的两个子任务制定这样一套要求:地图构建紧凑,自定位准确。这些要求,然后exploited紧凑的地图表示和准确的自我定位,使用网络流问题的框架。在这个过程中,我们制定的映射映射和自定位问题的凸二次和二阶锥规划,分别。我们在公开的室内和室外数据集上评估了我们的方法,它们显著优于现有方法1。1. 介绍基于视觉的导航是机器人、自动驾驶汽车和许多移动应用的关键组件之一。它可以通过使用3D地图表示来解决,例如基于运动恢复结构(SfM)的方法[11,17,23,22,29,7]和同步定位。测量和映射(SLAM)方法[20,8,6,5,10]或通过使用纯粹用地理标记图像表示的地图[3,24,4,12]。与基于SfM和SLAM的1代码:https://github.com/janinethoma/方法,通过图像检索定位(或简单地基于图像的定位)是廉价的,具有简单的地图表示,其在更大的空间中也更好地缩放[3,23]。基于图像的定位的问题被提出为在未知位置处拍摄的一个或多个查询图像与在地图中的已知位置处捕获的一组参考图像的匹配。最近在学习图像特征表示对象和地点识别[16,24,4,3]方面的发展使图像检索成为一种可行的本地化方法。尽管兴趣增加,但由于匹配不准确,基于图像的导航方法在很大程度上容易出错[1]。一些现有的方法通过学习更好的特征表示来解决这个问题[3,24,4,12]。尽管如此,在现实环境中,随着照明、相机姿势和动态对象的变化,匹配中的错误无法避免[1]。直接回归姿势的方法[26,14,13]自然会遇到类似的问题。我们认为,除了功能表示,在导航定位的成功是由其他几个关键因素。特别是,目前的方法不足以解决地图表示的问题。许多方法使用一个大的(甚至完整的)参考图像集,以便定位给定的查询图像[4,12,1]。虽然大的参考集具有相似(在姿态和照明方面)参考和查询图像对存在的较高机会在基于图像的定位中,另一个被忽视的重要方面是查询图像序列的顺序,这是视觉SLAM方法成功的关键。与SLAM不同,通过检索进行定位通常适用于稀疏得多的查询图像序列。从这样的交错图像序列中利用信息是非常具有挑战性的。在这种情况下,[19]通过假设特征随时间的线性变化来定位查询图像序列。然而,这个假设是相当天真的,因为一旦某些对象在图像中出现(或消失),它就失败了因此-7384⎩i=1i=1i=1我我因此,我们有兴趣回答这样的问题:对于基于图像检索的导航,良好的地图表示的期望标准是什么在图像定位过程中,我们如何从这种表示中受益?在本文中,我们解决了在地图上导航的任务利用最优运输理论对这些问题进行建模,并根据我们开发的规则解决问题。3. 预赛我们考虑一个图G =(V,E),它有一个顶点其中图像之间存在几何关系或地标。给定图像和图像的视觉特征V = {vi}和一组有向边E ={eij}i=/j. 为参考集的位置,我们确定了三个关键问题:通过图像选择、路径规划和使用多个图像的图像匹配历史的定位来进行地图构建。特别是,我们提供了新的方法,地图建设和匹配多个图像的参考图像的地图。我们提出的建设和表示的地图作为图像地标选择从一系列的图像使用的原则,最佳运输。为此,我们引入规则,指导图像应该如何选择的地图表示,并得出相应的成本。我们将规则建模为给定图像几何位置和视觉特征的从源图像到目标图像的计算流问题,并使用二次规划(QP)来解决它。我们的第二个贡献是关于地图上的多个查询图像的本地化我们通过计算二分图中作为源的地标图像和作为目标的查询图像之间的流来解决定位,使用第二在边 eij∈ E中,分别定义了流容量和流费用率 uij,cij∈R+。设yij∈ [0,uij]为eij∈ E的流,使得边的流是非负的且不能超过其容量.对于每个顶点vi∈ V,我们定义总流出流y=∑eijyij和总流入流yi=∑ejiyji,使得净流为yi=yi−yi并且绝对流是y_i=y+y_i。我们考虑两个集合S,T分别用于源顶点和目标顶点,使得S <$T =<$。对于每个源顶点vi∈ S,我们给出净流出流si∈R+。类似地,ti∈R+是目标顶点vi∈ T的给定净流入流.对其余对于顶点,我们应用流守恒规则:进入顶点的流的总和必须等于离开顶点的流的总和。我们还通过施加流约束∑vi∈Ssi=∑vi∈Tti来确保源和 目标之间的流是守 恒的。现在,我们希望通过解决以下优化问题,以最小的运输成本将源流{s i}运输到目标流{t i}。序锥规划(SOCP)。我们评估了地标图像的选择和本地化,minYijΣeij∈Ecijyij,室内和室外数据集,并表明,我们显着S.T. 0≤yij≤uij,eij∈ E超越最先进的技术埃克塞特岛⎪i∈ S(一)2. 相关工作我们简要介绍了一些相关的工作基于地图的定位图像检索。我们不讨论基于使用SfM或SLAM的预先构建的3D地图的导航的替代方法[11,17,23,7,22,29]。虽然地图构建和导航在图像检索的定位中起着重要作用,但大多数研究兴趣都是针对学习更好的特征[3,24,4,12]。尽管如此,在地图建模和匹配方面取得了一些进展。特别是,[15]通过对图像的视频流进行均匀采样来执行地图构建,并通过将地图解释为隐马尔可夫模型来改进匹配。然而,他们没有模型的时间关系的输入图像在匹配过程中。此外,用于地图构建的均匀采样可能不是最佳方法。[28]对查询图像序列进行建模,以将序列匹配映射为利用时间连续性的有向图问题。类似的战略也yi=−tivi∈ T<$0<$vi∈ V <$(S <$T)问题(1)是凸的,可以用线性规划(LP)来解决。存在各种提供非常有效的LP解决方案的非自解算器[2,25]。4. 图像导航我们只依赖于图像和场景拓扑,导航的所有三个子任务-地图表示、路径规划和自定位。在这些过程中,考虑图像的视觉特征及其在拓扑图上的位置。在下文中,我们提供了本文中解决的确切问题设置,然后是我们对三个子任务中每个子任务的解决方案。4.1. 问题设置我们考虑一个映射M∈R2和一组图像I=[19]追求然而,以前的作品并不完全符合-{i}n其位置坐标X = {xi∈M}n在处理和视觉特征F ={fi}n. 利用这些信息,地图构建、定位和路径规划问题。在下面的部分中,我们将为我们构造一个图G =(V,E),其中顶点V = {v i}表示图像Ii,i=1,. . .,n和7385我l=1Kxl′l′l′(i=1i i=1i i=1l′Ll +1l有向边E={eij}i=ij表示图像Ii和Ij之间的成对关系。有效的导航需要G的紧凑表示,支持路径规划和图像序列的自定位。4.2. 地图表示对于给定的顶点集V ={v i}n,我们希望将它们求和为界标集V′= {v′}m,使得V′≠ V。为此,我们首先定义以下度量,4.3. 路径规划路径规划的任务是选择一组有序的地标,这些地标有助于仅使用地标图像沿着最短路径从给定源行进到目标位置由于地图表示的规则已经确保了一组良好的地标,路径规划的任务简单地变成了沿着选定的地标找到最短路径的问题。这样的路径可以使用诸如Dijkstra算法的现有方法来找到kx= argmini =1,…Md(x,v′),(2)4.4. 自我定位给定沿着路径的一系列图像和地标其中d(x,vi)是顶点vi的x和xi之间的距离度量。这里,kx是V′中几何上最接近点x的顶点的索引。在总结地标时,我们考虑以下四个规则。规则4.1(几何表示)地标必须自定位的任务相当于找到最一致的我们假设给出了沿着路径捕获的图像的有序序列Ip={Il}q我们希望通过将这些图像与地标V′相匹配来定位它们。我们把自我定位公式化为图形匹配-P ={pl}q表示Ip和在几何上分布良好,即选定的土地-标记必须最小化以下内容,V′= {v′}m . 设B∶l→ ll=1“是一个地图,期望匹配对{p,v′}q序列图像,Ll′l=1minV′Maxx∈Md(x,v′)的情况。(三)标志性的图像。 为了自我定位,我们希望匹配过程支持以下两个规则。规则4.2(视觉表示)地标必须对使用其视觉特征定位图像有用。更准确地说,所有图像必须具有到几何上最接近的地标的小特征距离,即, 对于特征距离d(fi,fi),界标也必须遵守,规则4.5(视觉匹配)匹配对之间的视觉距离必须最小化,即如果{fl,f′l′}是来自对{p l,v′}的视觉特征,则对应于最佳匹配的映射被发现为minV′Max{x,f}∈Vdf f′Kx(四)minBd(fl,f′).(七)L规则4.3(导航保证)地标必须支持从任何源到任何目标位置的导航规则4.6(几何匹配)p l的邻域必须与v ′的邻域匹配,或者v′∈ V′本身。即仅使用视觉特征。换句话说,下一片土地-v′1,v′1∈ N(v′)<$v′,l∈ P.(八)沿着路径的标记不仅必须接近,还必须l′−l′+勒勒与当前的区别,以避免混淆,即。如果P ={v′}q<$V′是界标的有序序列5. 利用网络流构建地图ll=1沿着一条路径,两个连续的地标必须在距离α使得,d(x′,x′)≤α,(5)并且它们的视觉特征必须是不同的,为了仅使用图像来表示地图,我们定义图G = {V,E},如前一节中所讨论的,并且如图2所示。1.一、任何边eij∈ E表示Ii和Ij之间的关系,使用流量uij和成本率cij定义为,Maxmind(f′,f′).u ij=λ xd(xi,xj) 且cij=λf/d(fi,fj),(9)V′f′,f′∈P′LL+1(六)l l+1对于与几何和视觉权重λ x和λf,这确保了导航过程可以找到下一个地标,而不会与前一个混淆。)的情况。7386规则4.4(地图紧凑性)地标的数量必须少,即|V′|≤N,最多N个标志。基于图像导航的地标提取是一个多目标问题,它支持上述四个规则。措施 回想一下,d(xi,xj)和d(fi,fj)分别是图像Ii和Ij之间的几何距离和视觉距离。在这里,我们首先定义地标选择过程用于网络流上下文中的地图表示定义5.1(标志)绝对流量大于给定流量阈值τ的图形顶点是所需的标志。I. e. 界标为V′={vi ∶y∈i≥τ}。7387IJ邻居必须有显著的绝对流量。我们通过对每个边eij∈ E引入流灵敏度ρij来保证这种流.当流量接近容量时,流量灵敏度控制成本率,使得新的成本率由下式给出,B=c+yijρij,(12)ij ij1−yij /uij基本成本率c ij和敏感度ρ ij。 我们使用顶点周围的特征分布定义灵敏度,如下所示,d(fi,fj)ρij=1−∑d(f,f).(十三)k∈N(xi) iK图1. 图G ={V,E}的可视化,用于具有源si∈ S、目标ti∈ T、锚点ai∈ A和剩余图像顶点vi∈ V的地图构建。在下文中,我们在(1)的公式中使用(9),并附加限制,以便获得有利于规则4.1- 4.4的我们还提供了我们在(9)中表示的成本率和容量选择背后的5.1. 几何表示几何表示规则4.1实际上是众所周知的k-中心问题,其本身是NP-难的。然而,存在复杂度为O(n)的简单贪婪近似算法,其近似因子为2。我们使用类似的方法,灵敏度鼓励流在最便宜的边的最大容量被使用之前扩散。当一组不同的视觉特征以几何方式聚集在一起在这种情况下,风险在于流主要通过仅一个顶点,因此仅选择一个地标,因为进入和离开边缘都提供低成本和足够的容量。这违反了视觉表示规则。在这种情况下,灵敏度促使血流四处扩散,从而选择了一个以上的标志,有利于规则4.2。注意,对于更高的特征多样性,灵敏度是高的。另一方面,如果在一个邻域中只有一个明显的视觉特征,则该边对该顶点的流敏感度非常低。使用(12)和(13),对应于任何边eij∈ E的新成本可以表示为,y2ρij通过求解来选择一组锚点AMyijbij=yijcij+zij,与 zij≥IJ1−yij/uij,(14)min一|A|S.T.d(x,A)≤r/2,<$x∈M(10)其中不等式是旋转圆锥约束,对于半径r和点到集合距离d(x,A)。注意到(uij– Yij)(zij/(ρij国际新闻报))≥y2。(十五)距离受r/2约束以补偿近似因子2。使用所获得的锚点集合,我们对绝对流施加以下约束以有利于几何表示规则4.1,5.3.导航保证网络流的形式保证了所有的流都必须从源点转移到汇点。因此,网络流量问题已经为导航调好了Σvi∈N(a)y∈i≥tg,a∈A。(十一)任务在鼓励流量进行更大的几何跳跃的同时,通过保持容量与对于邻域流阈值 tg和锚点a在半径r内的相邻顶点N(a)∈ V。(11)中的约束确保每个锚点周围的流,从而促进界标良好分布。实际上,我们可以通过增加一个项来最大化tg,以保证网络流问题−λg tg到(1)的原始成本,对于恒定的权重λg。5.2.视觉表示视觉表征的规则要求图像在视觉上不离其几何上最接近的地标太远。因此,在局部区域中具有不同视觉特征的所有节点几何距离(使用(9)),我们通过构建图来确保所有跳跃都小于导航半径α,使得,d(xi,xj)≤α, e ij∈ E.(十六)此外,通过保持成本率与特征距离成反比(使用(9)),我们最小化了具有相似特征的这促使沿着流动路径选择不同的连续特征,从而有利于(6)的目的局部连通图的构造和我们对费用率和容量的选择支持导航保证规则4.3。t1v1v4t2S2v2v3v5v6v14v15的1vv1610v13v8一2v11v7v第十七节9v12t3S1v19v187388我IJ⎨−⎩我5.4. 地图紧凑性给定绝对流的阈值τ,通过控制源流和目标流{si}和{ti},确定一组地标V′={vi∶y∈i≥τ},使一个顶点成为地标.从输入/输出流′V = selectLandmarks(I,F,X,M,S,T)1. 使用I、F和X构造G ={V,E}(参考文献第4.1/(16)节)。2. 对于所有eij∈ E,使用(9)计算容量uij和速率cij3. 通过求解(10)的k中心来选择锚点A M4. 用公式(13)计算所有eij∈ E的流量灵敏度ρij5. 求解源S和目标T的流问题(17)。YG=∑∈Ssi=∑∈Tti,只要流问题保持可行,|V′|对于给定的上界,地标的数目在这个过程中,最重要的地标是在开始时生成的。因此,可以通过选择初始界标的期望数量来进一步控制紧凑性5.5. 地图构建算法在下文中,我们提出了构建我们的地标选择方法的核心的流程公式,并将我们的图表示总结为地图构建过程。6. Deriv eyi for allvi ∈ Vfromyij′.返回,V ={vi:y∈i≥τ}。以界标选择算法的形式的CESS。结果5.2给定一个图G = {V,E},其每条边eij ∈ E具有代价率、容量和灵敏度{cij,uij,ρ ij},一组锚点A,源顶点S和目标顶点T,以及一个邻域流阈值tg,通过求解下面的网络流问题,可以得到地图重建所需的流{yij}。图2.具有源s和目标t的二部图Gb。完全二部图Gb= {V′,P,Ep},其有向边eil∈Epfromv′∈ V′topl∈ P.此外,我们引入辅助源顶点和目标顶点s和t,re-分别为。 源s连接到所有顶点′∈ V有向边esi∈Ev. 同样,定向minyij,z ij(cijyij+zij),e ∈E边elt∈ Et将pl∈ P连接到t。 利用gb,s和t,我们使用图G = {V,E}表示流动网络,其中V =s<$V′<$P <$t和E = Ev <$Ep <$Et,如图所示二、在IJS.T.(uij– Yij)(zij/(ρij国际新闻报))≥y2,∈E,在本节中,我们使用(1)的网络流公式来解决二分图匹配问题,0≤yij≤uij,约束以获得遵守规则4.5和4.6的匹配。Σvi∈N(a)y∈i≥tg,6.1. 视觉匹配其中,yi=ti,ti∈T,其中,n ∈v ∈V ∈(S ∈T).(十七)为了获得视觉上相似的匹配,我们定义任何地标和查询图像之间的流量成本率使用它们之间的视觉距离。另一方面,从源到地标和从查询图像到目标的流没有增加成本。此外,我们引入了一个鲁棒的特征匹配损失,使得成本率为(17)的流动问题是凸的,可以求解二次规划(Quadratic Programming,QP)在算法1中,我们总结了从具有特征和位置的图像开始获得地标的完整过程。请注意,需要多次求解流问题以获得所需的紧凑性,如第5.4节。这可以通过逐渐增加输入/输出流YG(如前所述)或通过对参数YG执行二分搜索来完成。6.自定位我们将有序图像序列P关于界标V′的自定位问题表示为二分图匹配问题。为了完成这项任务,我们构建定义为,cij=h(d(fi,fj)),<$eij∈Ep;cij=0,<$eij ∈E<$Ep,(18)其中h(. Huber损失函数。为了确保图像不能与多个地标匹配,我们将每个查询图像的最大绝对流量限制为1。这意味着以下能力限制,u ij=q,?e ij∈ Ev; u ij=1,?e ij∈ E?Ev. (十九)我们允许许多查询图像被匹配到一个地标,通过设置x′4v′4e∈ E国际新闻报∑iyi3x′我x′p33v′3∑ii2yx′我x′p22不Sv′2∑iyi1x′我x′R1v′p11算法1vIJ7389源地标容量高于一。此外,(19)还确保每个查询图像的匹配。7390l=1“i=1l=1“K(6.2. 几何匹配回想一下,我们只给出了查询图像的视觉特征,以及地标的视觉特征和几何位置。在这方面,我们的任务是推断′L= selfLocalization(V,Ip)′1. 使用V和Ip构造G = {V,E}(参考图2)的情况。2. 使用(18)-(19)计算速率{cij}和容量{uij}3. 通过求解流问题(22)获得流{yij}4. 使用公式(20)计算位置xl返回,L = {xl}q。查询图像的几何位置。 为此,对于给定界标和查询图像之间的流,我们首先如下定义查询图像的位置,xl=0vi∈V′xiyil,其中pl∈ P。(二十)我们获得位置坐标X、视觉特征F和边E,如第4.1节中所介绍的。位置坐标。COLD-Freiburg序列请注意,每个查询图像的绝对流量为Σiy il=1。因此,(20)保证查询图像位于由地标位置定义的凸多面体内。现在,用于导航半径r和顺序查询图像对{pl,pl+1}的4.6的几何匹配规则可以表示为以下二次约束,直接提供位置坐标X。对于Oxford Robotcar数据集,我们使用UTM坐标,即北距和东距。我们排除了任何不准确或不完整的GPS和INS轨迹序列。考虑到OxfordRobotcar数据集的庞大规模和公共用户下载速度的限制,我们将自己限制在一个随机序列中。“““vi∈V′ xiyi(l+1)−vi∈V′xiyil“≤ r,且pl,pl+1∈ P.(二十一)“选择序列的子集,并且只看每次运行的大约视觉特征。 我们使用两种不同类型的图像有限元-6.3. 自定位算法图F ={fi}n. 第一种类型是基于VGG16 [24]的我们通过执行二分图匹配,使用网络流进行自定位。在下文中,我们首先提出了自定位的网络流公式最后,我们总结了我们的自定位算法。结果6.1考虑一个图G = {V,E},它是由顶点P ={pl}q(表示一个不连续的序列)构成的年龄Ip)和界标V′= {v′}m 在位置{xi}mNetVLAD [4]的现成功能,具有PCA和可扩展性,ing,其中VGG16层在ImageNet[9]和 NetVLAD 权 重 使 用 来 自 匹 兹 堡 250 k [ 27 ]的30'000个图像计算第二种类型的特征只是使用[24]中的权重的最后一个VGG16完全连接层所得到的特征向量具有NetVLAD的长度4096和VGG16 FC3的长度1000。边缘. 对于COLD-Freiburg数据集,我们查看任何con-i i=1i=1(as示于图2),成本率cij和容量uijde-(18)(19)(19)(19)给定导航半径r以及源和目标顶点{s,t},可以通过求解以下流问题来获得自定位所需的流{ y ij }。图像之间的连接小于2米。 如果连接不与给定楼层平面上的任何墙相交,我们将其添加到E。对于Oxford Robotcar数据集,如果图像之间的距离小于12 m的阈值,则将两个图像之间的连接添加到E到minYij请注意,eij∈E0≤yij≤uij,ys=q,yt= −q,yi =0, <$vi∈ V<$(s<$t),避免那些偷工减料的边,我们使用测地线距离。7.1.地标选择我们验证我们的地图建设的方法,介绍“““vi∈V′xiyi(l+1)– Σvi∈V′xiyil“≤ r,且pl,pl+1∈ P.“(二十二)第5章真实世界的数据从4853张图片从下雨的牛津机器人车序列的前1.25公里(2015-10-2912:18:17),我们建立了一个参考摘要V′,|V′|=250。 对于总共五个不同的设置,图。3显示了特征距离d(f,v′)和ge的分布。(22)的流动问题是凸的,可以用二阶锥规划(SOCP)进行优化求解我们度量距离dx,v′XKx在原始集合V中的点′使用(20)中的SOCP的解来获得由顶点pl∈ P表示的查询图像Il的位置xl。所提出的定位方法总结在算法2中。7. 实验我们在两个公开的真实世界数据集COLD-Freiburg[21]和Oxford Robot-car [18]数据库上进行实验。以下段落描述了如何算法2)7391的几何上最近的邻居vkx(2)的总和-Marized setV′.首先,我们研究了通过沿捕获的参考序列的路径均匀采样获得的基线设置。然后我们分析我们的方法。敬日-为了说明锚点(第5.1节)和敏感度(第5.2节)对几何和视觉表示的影响,我们选择性地关闭这两个约束。结果表明,该方法是可行的。3.清晰地显示出用网络流进行参考归纳具有较好的几何性和直观性7392Top-1 refinedTop-1 SeqSLAM地面实况第一章0.50.40.30.2(二)0.50.40.30.2第三章0.50.40.30.20.50.40.30.2(4)5)800.5600.4400.30.2200.10 50.10 50.10 50.10 50.100 5几何距离[m]图3.全参考集V中的点到几何最近点的归一化特征距离和几何距离的分布′在概括的参考集合V中的邻居,对于从左到右的以下设置:1)参考图像沿着序列路径2)网络流,不强加几何表示(锚)和视觉表示(敏感性)。3)网络流量不敏感。4)无锚网络流5)网络流的几何和视觉表示(我们的方法)。3003001002001000-100-200-3002001000-100-200-3002080406060408010020-400电话:+86-21 - 6666666传真:+86-21-66666666x位置[m]-400电话:+86-21 - 6666666传真:+86-21-66666666x位置[m]120100 200 300 400 500600参考索引00 100 200 300 400 500 600距离[m]图4.从左到右:下雨时均匀采样的参考和Oxford Robotcar数据集的阴天查询序列之间的初始top-1匹配。通过应用我们的自定位算法优化前1名匹配。用我们的方法和SeqS-LAM获得的匹配显示在视觉距离矩阵上。在没有序列信息的情况下,对于给定距离阈值的前1名和前5名定位的定位精度,SeqSLAM和我们的定位方法。与具有相同数量的图像的均匀采样的基线表示相比,具有更高的分辨率。我们观察到,引入锚点减少了具有高几何距离的点的数量,引入敏感性减少了具有高特征距离的点的数量。7.2. 自我定位在这一节中,我们说明了我们的自本地化算法的可行性。作为参考集,我们从与第7.1节相同的下雨牛津Robotcar序列(2015-10- 2912:18:17)中拍摄了600张图像。我们使用均匀采样作为基准来总结参考集。作为查询序列,我们使用20个图像的步长从覆盖的Oxford Robotcar序列(2015-02-13 09:16:26)中均匀地采样125个图像。图中最左边的子图。图4示出了查询序列图像和参考图像之间的未细化的前1个特征匹配。图2中的第二子图。4显示了应用我们的自定位算法后的前1个特征匹配。很明显,我们的方法通过删除不一致的匹配,大大提高了本例的本地化。图中的第三个子图。4示出了查询序列和参考集之间的视觉距离矩阵(根据拓扑排序,即最初行驶的路线)。它表明,匹配不是独立发生的,匹配图像的邻居也有低的特征距离。真正的匹配(即具有最小几何距离的匹配)是独立的。在黑色的cated。用红色表示的是自定位算法的精确匹配。作为比较,我们用绿色显示了SeqSLAM [19]产生的匹配,这是利用顺序信息改进图像匹配的最新技术最后,图中最右边的子图。4表示对于任何给定的距离阈值,正确定位的图像的百分比。作为示例,对于80m的公差,我们的方法具有68.7%的准确度,而SeqS-LAM达到60.9%。7.3. 定量评价我们对COLD- Freiburg和Oxford Robotcar数据集进行了定量评估。对于这两个数据集,我们随机选择一个参考和三个查询序列。对于Oxford Robotcar数据集,参考是2015-10-29 12:18:17的雨天序列在三种不同的条件下获取查询序列:太阳和云(2014-11-1813:20:12),雪(2015-02-03 08:45:10)(2015-02-13 09:16:26)从COLD-Freiburg数据集,我们使用扩展部分A的第二个阳光序列作为参考。作为查询序列,我们使用扩展部分A上的第一个晴天、多云和夜晚序列图5绘制了针对六个不同查询序列中的每一个的给定距离阈值的正确定位的参考集中的图像数量为Oxford Robotcar为415,COLD为50。250200150100-40-200查询图像位置参考图像位置前1个匹配图像250200150100-40-20 0查询图像位置参考图像位置前1个匹配图像前5名初始Top-1精炼Top-1 SeqSLAM前1名初始特征距离y位置[m]y位置[m]查询索引数量的图像准确度[%]7393SeqSlam准确度[%]牛津机器人车冷图5.精度与来自Oxford Robotcar数据集的三个部分序列和来自COLD-Freiburg数据集的三个全序列的距离图红色和深蓝色:未细化的top-1和top-10匹配统一汇总的参考集。黑色:在统一汇总的参考集上的SeqSLAM。紫色:我们在统一概括的参考集上的自定位。浅蓝色:SeqSLAM在我们基于网络流的地图上。Green:我们的方法,基于网络流的地图构建和自定位。弗莱堡5中的结果表明,通过合并序列信息,SeqSLAM在均匀汇总的参考集上明显优于未细化的top-1定位然而,我们的地图构建算法结合我们的自本地化实现的前1精度甚至更高。对于某些距离阈值,我们的方法的前1精度甚至超过了未细化的前10参考。我们的方法的好处是特别pro-nounced更具挑战性的牛津Robotcar数据集。虽然我们的方法在图1所示的所有序列上显示出显著的改进。5,它在具有非独特图像特征的序列上失败,例如Oxford Robotcar数据集中的户外夜间序列。如图所示。六、可以观察到,对于这些序列,使用SeqSLAM的基线方法也失败了。图7示出了在SeqSLAM失败时通过我们的方法正确局部化的查询图像的三个示例。参考集和查询序列与图1所用的相同。五、图中的图像7例使用NetVLAD匹配功能.8. 结论在本文中,我们已经制定了一套要求的地图建设和自我定位的背景下,基于图像的导航。基于这些要求,我们提出了一种方法来执行地图建设,通过选择最合适的图像进行导航。为了改进自局部化算法,提出了一种可以使用多个查询图像的方法。我们建模的方法,使用网络流和解决他们使用凸二次和二阶锥规划,分别。我们在真实世界数据集上的实验表明,我们的方法显着优于现有的方法。NetVLAD VGG16FC3100100100100808080806060606040404040202020200000距离[m]距离[m]图6.牛津Robotcar夜间(2014-12-16 18:44:24)和夜间,下雨(2014-12-17 18:18:43)序列的失败案例。图例和说明见图。五、图7.我们的方法正确定位的可视化示例,而SeqSLAM基线在Oxford Robotcar数据集上失败。鸣谢。这项研究是由欧盟的地平线2020计划资助的687757瑞 士 技 术 和 创 新 委 员 会 ( CTI ) 批 准 号 : 26253.1PFES-ES -已删除。太阳,云雪阴天多云晚上阳光明媚1001001001001001008080808080806060606060604040404040402020202020200000000 5010015005010015005010015001020010200102010010010010010010080808080808060606060606040404040404020202020202000000005010015005010015005010015001020010距离[m]2001020距离[m]Top-1我们的地图+我们的匹配Top-1我们的地图+SeqSLAM Top-1统一地图+我们的匹配Top-1 uniform map + SeqSLAM前1名初始VGG16 FC3准确度[%]查询我们SeqSLAMNetVLAD准确度[%]阴天雪太阳,云7394引用[1] Asha Anoosheh、Torsten Sattler、Radu Timofte、MarcPolle-feys和Luc Van Gool。 用于基于检索的定位的夜间到日常图像翻译。arXiv预印本arXiv:1809.09767,2018。1[2] MOSEK ApS. 用于MAT的MOSEK优化工具箱-实验室手册。版本7.1(修订版28)。,2015年。2[3] Relja Arandjelovic,Petr Gronat,Akihiko Torii,TomasPa-jdla,and Josef Sivic. Netvlad:用于弱监督位置识别的CNN架构。在CVPR中,第5297-5307页,2016年。一、二[4] Relja Arandjelovic和Andrew Zisserman脱位:用于位置识别的可缩放描述符独特性。在ACCV,第188-204页,2014年。一、二、六[5] GuillaumeBresson,ZayedAlsayed,LiYu,andSe'bastienGlaser.同时定位和地图:自动驾驶当前趋势的调查IEEE Transactions on Intelligent Vehicles,第194-220页,2017年。1[6] Robert Castle,Georg Klein,and David W Murray.用于可穿戴增强现实的多地图中的视频速率定位。2008年第12届IEEE可穿戴计算机国际研讨会,第15-22页。IEEE,2008年。1[7] Siddharth Choudhary和PJ Narayanan。从sfm数据集和应用程序可见性在ECCV中,第130-143页。Springer,2012. 一、二[8] Andrew J Davison,Ian D Reid,Nicholas D Molton,andOlivier Stasse. Monoslam:实时单摄像机猛击。PAMI,第1052-1067页,2007年。1[9] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,第248-255页,2009。6[10] 伊森·艾德和汤姆·德拉蒙德可扩展的单眼猛击。见CVPR,第469-476页,2006年。1[11] Arnold Irschara、Christopher Zach 、Jan-Michael Frahm和Horst Bischof。从运动恢复结构点云到快速位置识别。在CVPR,第2599-2606页一、二[12] Hyo Jin Kim,Enrique Dunn,and Jan-Michael Frahm.用于图像地理定位的学习上下文特征重加权。在CVPR中,第2136-2145页,2017年。一、二[13] 亚历克斯·肯德尔和罗伯托·西波拉使用深度学习进行相机姿态回归的几何损失在CVPR中,第5974-5983页,2017年。1[14] AlexKendallMatthewGrimes 和 RobertoCipollaPosenet:用于实时6-dof相机重新定位的卷积网络在CVPR,第2938-2946页,2015年。1[15] Jana Kosecka和Fayin Li。基于视觉的拓扑马尔可夫定位。ICRA,第1481-1486页,2004年。2[16] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展,第1097-1105页,2012年。1[17] Yunpeng Li,Noah Snavely,and Daniel P Huttenlocher.使用优先特征匹配的位置识别。ECCV,第791-804页,2010年。一、二7395[18] Will Maddern,Geoffrey Pascoe,Chris Linegar,andPaul Newman. 1年,1000公里:牛津机器人汽车数据集。国际机器人研究杂志,第36[19] Michael J Milford和Gordon F Wyeth。Seqslam:基于路径的视觉导航,适用于阳光明媚的夏日和暴风雨的冬夜。ICRA,第1643-1649页,2012年。一、二、七[20] EtienneMouragnon , MaximeLhuillier , MichelDhome,Fa- bien Dekeyser,and Patrick Sayd.实时定位和三维重建。在CVPR,第363-370页,2006年。1[21] 安杰伊·普罗诺比斯和芭芭拉·卡普托。COLD:COsy本地化数据库。国际机器人研究杂志,第588-594页,2009年5月。6[22] Torsten Sattler,Bastian Leibe,and Leif Kobbelt. 大规模图像定位的高效优先匹配PAMI,第1744-1756页,2017年。一、二[23] Torsten Sattler 、 Akihiko Torii 、 Josef Sivic 、 MarcPollefeys、Hajime Taira、Masatoshi Okutomi和TomasPajdla。大规模的3d模型对于精确的视觉定位真的是必要的在CVPR中,第1637-1646页,2017年。一、二[24] Karen Simonyan和Andrew Zisserman用于大规模图像识别 的 非 常 深 的 卷 积 网 络 。 arXiv 预 印 本 arXiv :1409.1556,2014。一、
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功