没有合适的资源?快使用搜索试试~ 我知道了~
混合特征的视觉位置识别技术
2998MixVPR:用于视觉位置识别的特征混合Amar Ali-bey,Brahim Chaib-draa,andPhilippeGigue`re Uni versite'Lav al,Quee' bec,CanadaAli-bey. ulaval.ca,{brahim.chaib-draa,philippe.giguere}@ ift.ulaval.ca摘要视觉位置识别(VPR)是移动机器人和自动驾驶以及其他计算机视觉任务的重要组成部分。它指的是仅使用计算机视觉识别查询图像中描绘的地点的过程。在大尺度上,重复的结构、天气和光照变化构成了真正的挑战,因为外观会随着时间的推移而发生巨大变化除了应对这些挑战,有效的VPR技术还必须在延迟很重要的现实场景中实用。为了解决这个问题,我们引入了MixVPR,这是一种新的整体特征聚合技术,它将来自预训练主干的特征图作为一组全局特征。 然后,它将每个特征图中的元素之间的全局关系合并到特征混合的级联中,从而消除了如在NetVLAD或TransVPR中所做的对局部或金字塔聚合的需要。我们证明了我们的技术的有效性,通过广泛的实验多- ple大规模的基准。我们的方法优于所有现有的技术,由一个大的利润率,同时有不到一半的参数数量相比,CosPlace 和 NetVLAD 。 我 们 实 现 了 新 的 历 史 最 高recall@1得分94. 6%,88。0%的MapillarySLS,更重要的是,58。4%的Nordland。最后,我们的方法优于两阶 段 检 索 技 术 , 如 Patch-NetVLAD , TransVPR 和SuperGLUE所有的同时,ING数量级更快。1. 介绍视觉位置识别(VPR)是许多机器人[11,9,10,15,18,22]和计算机视觉的重要组成部分。任务[2,23,27,16,17,45,6],如自主驾驶[12],SLAM [49],图像地理定位[38,7],虚拟现实[31]和3D重建[29]。视觉位置识别系统检索给定查询图像的位置,首先将其视觉信息收集到紧凑的描述符(图像表示)中,然后匹配图1.在具有挑战性的诺德-兰基准上的性能比较。所有方法都是在完全相同的数据集上使用相同的主干架构进行训练的将其与具有已知地理位置的参考数据库进行比对。由于短期外观变化(例如,照明、遮挡和天气)以及长期变化(例如,气候变化、建筑和植被)。因此,一个强大的VPR技术应该能够产生这些变化是不变的描述符。传统上,VPR技术使用手工制作的局部特征,如SIFT [30]和SURF [5],这些特征可以进一步聚合成表示整个图像的全局描述符,如Fisher Vectors [20,34],Bag of Words [35,44,14]和局部聚合描述符向量(VLAD)[21,3]。随着深度学习的发展,卷积神经网络(CNN)在几个计算机视觉任务中表现出出色的性能,包括图像分类[19],对象检测[28]和语义分割[25],许多研究人员提出将CNN用于VPR。例如,Sünderhauf等人[40]表明,从为图像分类而训练的CNN中间层中提取的特征作为2999因此,许多人提出通过设计端到端的可训练层来直接训练CNN用于位置识别任务[2,39,23,27,16],这些可训练层可以插入到预训练的网络(骨干)中,以将其丰富的特征映射聚合为鲁棒的表示。这些方法在大规模基准测试中取得了巨大成功[44,47],这要归功于预训练网络和用于微调的VPR特定数据集的可用性。尽管在视觉位置识别领域取得了所有进展,但大多数现有的最先进的技术要么使用NetVLAD [2,47,17,50],要么提供一种变体,评 价注 意力 [52], 上下 文[23], 语义[33]或 多尺 度[17]。这些技术强调对已被证明是不变的局部特征的聚集观点的改变。然而,众所周知,局部特征在严重光照和季节变化下会失效[31]。NetVLAD的替代方法集中在感兴趣的区域,而不是局部特征,通过空间池的主干的特征图这样的技术包括MAC(即,最大池化)、R-MAC [42]和广义平均值(GeM)[36]。尽管它们在图像检索中的性能[8],但这些方法在VPR任务中被反复证明表现不佳NetVLAD最近,Bertonet al. [6]建议CosPlace,这是一个基于GeM聚合器的变体,在多个VPR基准测试中表现出强大的性能。目前,所有现有的最先进的技术都提出了浅聚合层,这些浅聚合层被插入到在最后一个功能丰富的层处裁剪的非常深的预先训练的骨干中。相比之下,Wanget al. [45]提出了TransVPR,这是一种基于视觉变换器[13]的位置识别体系结构,并融合多级注意力以生成全局和局部描述符。TransVPR在局部特征匹配方面取得了很好的效果。然而,它的全球代表性表现并没有超过NetVLAD或CosPlace。随着各向同性架构的最新进展,已经证明自我注意力对于视觉变形器并不关键[26]。例如,Tolstikhinet al. [43]推出了MLP混合器,一种完全基于多级感知器的架构,在多个视觉任务上取得了有竞争力的结果。在本文中,我们提出了MixVPR,一种新的整体聚集技术,使用从预夹带骨干提取的特征图它通过一堆各向同性的块来实现这一点,我们称之为特征混合器,它只由多层感知器(MLP)组成。MixVPR的有效性通过几个定性和定量结果得到了证明,其中它在多个基准测试中实现了新的最先进的性能,大大超过了现有技术,同时非常轻量级。2. 相关作品视觉位置识别的任务长期以来一直被视为图像检索问题,其中查询图像的位置根据从参考数据库中检索的最相关图像的地理标签来确定。随着深度学习的成功,几乎所有最近的VPR技术都利用了学习的表示。这通常涉及使用从在图像分类数据集上预训练的骨干网络中提取的特征[24],然后是可训练的聚合层,将这些特征转换为鲁棒的紧凑表示。一种值得注意的聚合技术是NetVLAD [2],它是VLAD描述符的可训练变体,其中局部特征被柔和地分配给一组学习的聚类器。由于NetVLAD的成功,文献中提出了许多变体。Kim等人[23]引入了上下文重加权网络(CRN),它在将每个局部特征馈送到NetVLAD层之前估计来自主干的每个局部特征的权重;他们的方法引入了轻微但一致的性能提升。此外,还提出了SPE-VLAD [50],通过引 入 金 字 塔 结 构 来 增 强 具 有 空 间 和 区 域 特 征 的NetVLAD 。 最 近 , Zhanet al. [52] 提 出 了 门 控NetVLAD,它使用门控机制,将注意力纳入NetVLAD残差的计算其他技术集中于特征图中的感兴趣区域。第一种技术是MAC [4],这是一种简单的聚合方法,它在每个单独的特征图上应用最大池化,只选择最活跃的神经元。在此基础上,Toliaset al. [42]引入了R-MAC(卷积的区域最大激活),它包括直接从CNN特征图中提取多个感兴趣区域(RoI)以形成表示。这些技术表现出令人印象深刻的图像检索任务的性能,并已被用于VPR。另一个 值得注意的聚 合技术是通用平 均值(GeM)[36],这是一种可学习的通用形式的全局池。基于GeM,Bertonet al. [6]最近提出了CosPlace,这是一种将GeM与线性投影层相结合的轻量级聚合他们的方法在VPR任务上表现出了令人印象深刻的性能,超过了GeM和NetVLAD,并在多个基准测试中实现了最先进的结果。最近VPR工作[17,45]中的另一个趋势是考虑使用两阶段检索策略,其包括运行第一全局检索步骤以针对每个查询从参考数据库检索前k个候选项。这个步骤通常更有效,因为它在全局描述符上使用了k-NN。然后,执行计算量大的第二步骤,其中根据候选者的局部 特 征 对 候 选 者 例 如 , Patch-NetVLAD [17] 使 用NetVLAD描述符来进行全局。3000我∈我×∈∈图2.概述了我们新提出的位置识别体系结构。MixVPR将来自预训练骨干的中间层的扁平化特征图作为输入。它通过一系列的特征混合器块将空间关系合并到每个单独的特征图中。然后将得到的输出投影到一个紧凑的表示空间中,并用作全局描述符。描述,然后在稍后的阶段中,使用组成NetVLAD的本地特征,以便细化检索到的候选数据。当使用重新排序时,该方法表现出良好的性能最近,TransVPR [45]通过在浅CNN骨干上使用多头自注意(Transformer编码器)来使用CNN和Transformer的组合。他们的目标是将注意力纳入Transformer网络的结果令牌中。虽然它们的局部特征在重新排序方面表现出了很好的性能 , 但 Transformer 网 络 生 成 的 全 局 描 述 符 不 如NetVLAD或CosPlace强大。在本文中,我们遵循各向同性全MLP架构的最新进展 , 如 MLP 混 合 器 [43] 和 gMLP [26] , 并 提 出 了MixVPR,一种新的全MLP聚合技术,与TransVPR [45]和Patch-NetVLAD [17]相比,它不包含自注意力或区域特征池。虽然我们的方法MixVPR生成全局描述符并且不执行重新排序,但它优于两阶段技术,例如TransVPR [45] , Patch-NetVLAD [17] 和 SuperGlue[38],同时在延迟方面至少快500倍3. 方法我们的目标是学习全球紧凑表示,以整体的方式集成功能。给定一幅图像,我们首先从CNN主干的中间层F=CNN()中提取其特征映射FRc×h ×w。现有技术 , 例 如 TransVPR [45] 、 Patch-NetVLAD [17] 、NetVLAD [2],将F视为c维空间描述符的集合,其中每个描述符对应于输入图像中的接收场相比之下,我们认为3D张量F是一组大小为h×w的二维特征,例如:F={X i},i ={1,. . . ,c}(1)其中,X i对应于F中的第i个激活图,并且扫描所有图像(每个特征图携带关于整个图像的一定量的信息)。我们将每个2D特征X i重新塑造成1D表示(平坦化),从而产生平坦化的特征映射F Rc× n,其中n=h w。然后,我们将它们馈送到我们称之为混合器的东西中,混合器是具有相同结构的L个MLP块的级联,如图所二、混合器将一组平坦化的特征图作为输入,并将全局关系合并到每个XiF中,如下所示(省略归一化层):Xi ←W2(σ(W1Xi))+Xi, i ={1,. . . ,c}(2)其中W1和W2是组成MLP的两个全连接层的权重,σ是非线性(在我们的情况下是ReLU)。到MLP的输入被添加回到跳过连接中的结果投影。 这被证明有助于梯度流动并进一步提高性能[19]。Mixer背后的直觉是,我们利用全连接层的能力,以整体的方式自动聚合特征,而不是专注于局部特征,并迫使网络通过注意力机制。由于其完整的感受野,每个神经元都可以瞥见整个输入图像,因此Mixer取代了分层(金字塔)聚合我们使用了一系列的Feature-Mixer块,如图所示3001∈∈×××图2,以便迭代地将空间特征之间的关系合并到每个单独的特征图中。对于给定的输入FRc×n,特征混合器(FM)生成相同形状的输出ZRc×n(由于它的各向同性架构),我们将其馈送到第二个混合器块中,依此类推,直到我们达到L个连续块,如下所示:Z=FM L(FM L−1(. . . (第一届会议(法))(3)Z通常是高维度的(因为它具有与所提取的特征图F相同的维度)。为了进一步降低其维度,我们在其后面跟随两个完全连接的层,这两个层依次按深度(通道方向)和行方向降低其维度。这可以被视为加权池化操作,其使得能够控制最终全局描述符的大小。首先,我们应用一个深度投影,将Z从Rc×n映射到Rd×n,如下所示:Z′= Wd ( Transpose ( Z ) )(4)其中Wd是全连接层的权重。然后,我们应用行式投影,将输出Z′从Rd×n到Rd×r,例如:O=Wr(转置(Z′))(5)其中Wr是另一个全连接层的权重最终输出O的维数为dr,它被平坦化和L2归一化,如VPR [2,16,6]中通常所做的那样。与现有架构的连接 我们的技术与MLP混合器[43]相关,其中令牌混合操作应用于空间非重叠图像块。另一方面,我们使用CNN的特征,这些特征包含归纳偏差,并将由此产生的激活图视为全局特征。此外,MLP混合器执行跨单独的空间描述符共享的通道混合,我们不采用该通道混合。总的来说,MixVPR计算主要是(全连接层的)矩阵乘法,与自注意力相比,其计算效率更高,其中复杂性以二次方式缩放[43]。此外,在MixVPR中,我们从主干的中间层(而不是最后一层)提取特征图,这将参数的数量减少了一半以上,因为预训练主干的大多数参数都存在于最后一层中。4. 实验在本节中,我们运行了大量的实验,通过对多个chal-benchmark进行评估,来显示所提出的MixVPR与现有的最先进技术相比的有效性在下文中,我们介绍了实施细节、数据集、评价指标、性能比较和消融研究。4.1. 实现细节架构我们在PyTorch框架中实现了MixVPR [32],并使用了GeM [36],NetVLAD [2]和CosPlace [6]的现有实现。然而,对于没有现有实现的技术,例如SPE-NetVLAD [50]和门控NetVLAD [52],我们尽最大努力忠实地按照各自的论文重新实现它们。对于所有技术,CNN骨干在最后一个卷积层被裁剪,如作者所建议的那样。MixVPR使用中间裁剪的主干(即,在倒数第二个ResNet残差块处),使得特征混合器接收具有空间维度20 × 20的特征图。为了最大的公平性,我们对所有比较的技术使用完全相同的CNN主干(即,ResNet- 50 [19] ) 。 Mixture-Mixer 中 的 投 影 操 作 是PyTorch的Linear层,我们遵循一个relu非线性。对于归一化层,我们使用LayerNorm。最后,使用如3中所述的两个连续的全连接层将混合器-混合器的输出投影到较小的表示空间中,这使得MixVPR成为全MLP架构。除非另有说明,否则我们将堆叠的特征混合器块的数量固定为L=4训练使用在ImageNet [24]上预训练的ResNet [19]主干,我们在同一数据集上训练所有技术,遵循GSV-Cities [1]的标准框架,该框架提出了一个高度准确的67k位置数据集,由560k图像。对于损失函数,我们使用多相似性损失[46],因为它已被证明对视觉位置识别表现最好[1]。我们使用包含P=120个位置的批次,每个位置由4个图像描绘,从而产生480个图像的小批次我们使用随机梯度下降(SGD)进行优化,动量为0。9和重量衰减0的情况。001。初始学习率为0。05在每5个时期之后除以3。最后,我们使用大小调整为320 320的图像进行最多30个epoch的训练。评价 为了评估 ,我们使用以下5个基准. 250 k-test[44],包含8k查询和83k参考图像,从Google街景和250k-test [44]收集,它是250 k的子集,包括8k查询和8k参考。匹兹堡的两个数据集都显示出显著的视点变化。SPED [51]基准包含来自监控摄像机的607个查询和607个引用,这些查询和引用呈现出显著的季节性和非季节性。光照变化。MSLS [47]基准已经使用汽车仪表盘摄像头收集,并呈现了广泛的视角和照明变化。最后,Nordland [51]是一个极具挑战性的基准,它使用安装在火车前的相机在4个我们遵循[2,23,47,51,45,6]的相同评估指标,其中测量召回率@k。如果前k个查询图像中的至少一个被确定为被成功检索,则查询图像被确定为被3002†×联系我们检索到的参考图像位于距查询图像d=254.2. 与最新技术在本节中,我们比较了MixVPR与现有方法在视觉位置识别方面的4个挑战性基准测试的性能我们与AVG[2]、GeM [36]、NetVLAD [2]及其两个最近的变体SPE- VLAD [50]和门控NetVLAD [52]以及最近展示了最先进性能的CosPlace结果示于表1中。带有符号的线是在30 k- train数据集上训练的AVG、GeM和NetVLAD的性能。为了公平比较,我们使用与我们的技术相同的主干和数据集结果显示在表的其余部分中。可以看出,我们的方法令人信服地优于所有其他技术的所有基准与大幅度。例如,MixVPR实现了94个中的1个的新的历史最高召回。6%的250k测试,这是3。1个百分点,比最近的Cos- Place技术和超过4。与NetVLAD相比增加1点。在MSLS上,性能甚至更有趣,我们达到了88。0%recall@1,据我们所知,这是有史以来最好的分数。我是3号。5和5. 比CosPlace高出4个百分点,NetVLAD达到84。5%和82。6%召回@1次召回。这展示了我们的技术在呈现大量视点变化的数据集上的有效性。在SPED基准测试中,由于季节变化和昼夜光照,地方表现出剧烈的表观变化,我们的技术超过了所有其他技术,达到85。2% recall@1,即7。比NetVLAD多5分,是SPED上性能第二好的技术最后,也是最重要的一点,在非常复杂的Nordland基准测试中,MixVPR比CosPlace和NetVLAD分别提高了 69% 和 79% ( 58 。 4% 对 34 。 4% 和 32 。 分 别 为6%),与其他技术相比,它增加了一倍多。4.3. 与两阶段技术一些技术使用两阶段检索框架,其中执行第一遍以使用全局表示检索最佳M个候选数据,然后执行第二遍(重新排序)以对查询与M个候选数据中的每一个之间的局部特征执行几何验证[45]。这是已知的,以增加召回@N每秒钟在沉重的计算和复杂的开销为代价 。 我 们 与 Patch-NetVLAD [17] , DELG [7] ,SuperGlue [38]和TransVPR [17]进行比较,这些技术是执行两阶段视觉位置识别的最先进技术。表2显示了地图挑战的性能。虽然我们的技术不执行任何重新排名,它实现了更好的性能比现有的-使用两阶段技术,同时在存储器和计算方面更有效(超过500更快的检索时间)。我们相信MixVPR可以在时间和资源非常重要的应用中取代两阶段技术。例如,MixVPR仅需6毫秒即可生成图像表示,而第二快的方法 TransVPR 需 要 45 毫 秒 。 匹 配 延 迟 不 适 用 于MixVPR,因为它是一种不执行重新排序的全局技术。但是,从表2中可以明显看出,排序阶段花费大量时间,使得这种技术在实时应用中不可用。4.4. 消融研究我们进行了多次烧蚀实验,以进一步验证MixVPR的设计。4.4.1超参数为了展示混合器的效果,我们通过改变混合器块的数量 L 来 进 行 多 个 实 验 。 首 先 , 我 们 训 练 一 个 不 带mixure-mixer的基线网络(L=0),并比较它在使用多个堆叠mixure-mixer块(L1,2,4,8)训练时的性能。 结果如表3所示,其中我们看到,仅引入一个混合器层将recall@1性能提高了1。89人中有8人被召回@1分。5%到91。82 . 3%,MLS为4。9%至86。百分之九。总的来说,最好的结果是获得4个混合器层,虽然所有配置实现类似的性能。Mixer为网络增加了340k参数,因此我们可以参考表3来选择最佳折衷方案。4.4.2描述子维数MixVPR的架构允许通过固定最后两个投影操作的大小来配置在3中,我们展示了不同维度配置在300k测试中的recall@1性能。对于NetVLAD、GeM和AVG,我们使用在来自训练集的10与MixVPR一样,CosPlace允许配置输出维度。因此,我们为每个配置训练一次。从图中的图表。3,我们可以清楚地看到,MixVPR优于所有其他技术。4.4.3骨干架构在表4中,我们使用不同的骨架结构进行多个实验。因为我们在3003†×表1. 在流行的基准上比较不同的技术。是作者报告的结果,并使用他们经过训练的网络进行确认。然而,我们使用相同的骨干网络(ResNet-50)在相同的数据集上训练所有六种技术。NetVLAD及其变体在最近的CosPlace方法之后获得第三好的性能。我们的技术,MixVPR,获得了迄今为止最好的性能在所有的基准测试,并具有很大的利润。方法提取延迟(ms)匹配延迟(s)Mapillary挑战R@1R@5R@10超级胶水[38]1607 .第一次会议。550块6五十六9五十八3DELG [7]190三十五252岁2 61岁9六十五4[17]第十七话13007 .第一次会议。4四十八1五十九462. 3[45]第四十五话453 .第三章。263岁9 74岁0七十七。5NetVLAD [2]MixVPR(我们的)176−−三十五1六十四0四十七475. 951岁7八十6表2. 与两阶段检索技术的比较。前四种技术使用第二次细化(匹配)来重新排名前几名候选人,以提高检索性能。MixVPR(我们的)不使用重新排名,这使得它至少速度提高500倍,同时优于现有的最先进技术。(NVIDIATitan Xp已用于计算延迟)。×L#参数(男)延迟(毫秒)Pitts30k检验MSLS-valR@1R@5R@10R@1R@5R@1009 .第九条。6六、389岁。5九十五0九十六。282岁9九十791. 919 .第九条。9六、591. 3九十五6九十六。586岁。992. 894 3210个。2六、691. 3九十五8九十六。687岁6九十三194 6410个。9六、691. 9九十五9九十六。787岁6九十三5九十五0812个。27 .第一次会议。292.3九十五9九十六。687岁292. 6九十三9表3.消融的数量取决于导管-混合器块。 的图3.在不同维度配置下,1000000测试的召回@1性能。50,其中参数的数量(10. 9M)还不到NetVLAD或CosPlace的有趣的是,使用基线(L=0)不使用混合器。我们通过改变堆叠的Mixure-Mixer块的数量总的来说,L=4堆栈的Mixure-Mixer在所有基准测试中表现最好。在第4个剩余层(而不是最后一个),我们最终裁剪掉了参数总数的一半,从而加速了计算并减少了内存使用。如表4所示。使用ResNet-18 [19],我们最终只有3个。5M参数,这是CosPlace或NetVLAD中参数数量的15%,同时获得竞争性结果。我们相信ResNet-18可以用于实时优先的应用程序。重要的是,MixVPR仅使用ResNet-34就获得了最先进的性能,与Cos- Place相比,ResNet-34的参数减少了70%,同时性能优于Cos- Place2。在MSLS上3次召回@1分。最好的整体结果是使用ResNet获得的方法昏暗Pitts250k测试MSLS-val疾驰诺德兰R@1R@5R@10R@1R@5R@10R@1R@5R@10R@1R@5R@10AVG [2]†Gem [36]†NetVLAD [2]†204820483276862. 6七十二386岁。082岁787岁2九十三288岁491. 4九十五1五十九3六十五1五十九5七十一9七十六。8七十475. 581. 474岁7五十四755. 0七十一0七十二5七十287岁1七十七。1七十六。1九十44.第一章47 .第一次会议。44.第一章18. 4十三岁5六、610个。4十六岁68. 2美国[2]CosPlace [6]204820483276816384032768204878岁382岁9九十589岁。289岁。791. 589岁。892. 1九十六。2九十五3九十五9九十六。992. 694 3九十七4九十七0九十七1九十七9七十三。5七十六。582岁678岁282岁084. 583岁9八十五789岁。686岁。888岁9九十1八十五888岁292. 088岁891. 491. 8五十八8六十四678岁7七十三。175. 675. 3七十七。379岁。488岁3八十五587岁1八十五982岁783岁591. 488岁7九十888岁6十五岁320块8三十二6二十五5三十四4三十四4二十七岁4三十三岁。3四十七1四十150块4四十九9三十三岁。9四十0五十三3四十六岁。1五十七7五十六53004ResNeXt50 [48]与到ResNet-50。我们认为这是因为MixVPR的大部分性能来自于特征混合,而不是骨干网络。骨干#param.(男)Pitts30k检验MSLS-valR@1R@5R@10R@1R@5R@10ResNet-183 .第三章。589岁。5九十五0九十六。282岁789岁。191. 8ResNet-348. 2九十5九十五2九十六。3八十五391. 6九十三4ResNet-5010个。991.6九十六。0九十六。788岁092. 894 5ResNeXt-5010个。991.7九十五7九十六。587岁0九十三594 7表4. 比较不同的脊椎。每个骨架在第四个残差块(在最后一个之前)处被裁剪,这导致CosPlace或netVLAD中使用的相同骨架的参数数量的一半。MixVPR仅需要主干的中间特征。3005图4. MSLS和30k数据集上具有挑战性的检索场景的比较。MixVPR成功地检索了所有这些具有挑战性的查询,而所有其他技术都失败了。这一定性结果突出了MixVPR对极端情况的鲁棒性4.5. 定性结果图4示出了一些具有挑战性的查询的检索的定性结果。我们讨论了5种情况,所有其他技术都在努力检索正确的匹配,而MixVPR成功。重复结构:这是一个系列-VPR技术的一个重要问题是,由于不同的地方可能包含具有相同布局或纹理的相同类型的建筑物或结构,这可能会欺骗识别系统并导致大量误报,正如我们在图的4,其中只有MixVPR成功地检索了正确的参考,而所有其他技术都检索不到。3006×与查询过于相似的不同地点的年龄。观点转变:对于这种情况,集中于本地特征的技术,例如NetVLAD,往往执行得更好。然而,在图4的第3-4行中,只有MixVPR检索到了正确的引用,这突出了它处理极端视点变化的能力。天际线:一些环境中几乎没有静态结构,如建筑物和电线杆,使得图像缺乏独特的纹理。在这种情况下,天际线构成了这个地方的重要标志。正如我们在图4的第5行中所看到的,只有MixVPR成功地检索了最有可能基于天际线的正确引用,而忽略了云纹理。照明变化:我们相信这是鲁棒的VPR系统的最重要的方面,因为照明变化每天都发生,这样的例子在图4的行6- 7中示出,其中查询在夜间进行,而其引 用 在 白 天 进 行 。 CosPlace 、 NetVLAD 和 门 控NetVLAD都检索到了在夜间拍摄的位置的图像这突出了我们的方法在极具挑战性的情况下的鲁棒性。遮挡:当图像的一部分被可能影响图像的全局语义的对象遮挡时,这可能具有挑战性例如,图4的行8示出了在视场(FoV)的中间具有两个骑自行车者的查询,这欺骗了其他技术来检索在FoV的中间包含骑自行车者的错误引用。只有MixVPR忽略了骑自行车的人,并成功地检索了正确的参考。最后,我们展示了两种情况下,所有的技术失败,由于极端的环境变化和存在大量的闭塞。4.5.1可视化学习的权重图5示出了来自特征混合器的第一隐藏层的学习权重的子集(400个神经元中的24个)。每个单元的权重已重新调整为20 20,以匹配来自主干的特征图的空间大小。正如我们所看到的,Feature-Mixer中的隐藏单元学习了广泛的区域特征选择。我们观察到一些神经元专注于图像的一个或多个小点,而其他神经元则专注于整个输入。我们认为这些神经元的组合可以取代注意和锥体结构在VPR的深层模型中的作用。5. 结论在这项工作中,我们设计了一种新的全MLP聚合技术,该技术采用来自预训练网络的特征图,并在特征混合的级联中学习鲁棒表示MixVPR是由一堆特征混合器块组成的,其中每个块都包含各个特征映射之间的全局关系。我们恶魔-图5.来自第一个神经元-混合器块的24个神经元蓝色对应正权重,红色对应负权重。通过消融研究证明了特征混合的有效性,并表明MixVPR在我们测试的每个基准点上都大幅优于现有技术。最后,我们还比较了MixVPR和两阶段检索技术的性能如Patch-NetVLAD和TransVPR,并表明我们的方法是优越的,同时超过500倍的速度。鸣谢:这项工作得到了魁北克自然与技术研究基金会(FRQNT)的支持。我们非常感谢NVIDIA公司捐赠Quadro RTX 8000 GPU用于我们的实验。引用[1] 阿玛尔·阿里·贝伊,卜拉欣·柴布·德拉和菲利·吉古·埃雷。GSV-CITIES:走向适当的监督视觉位置识别。神经计算,513:194[2] Relja Arandjelovic,Petr Gronat,Akihiko Torii,TomasPa-jdla,and Josef Sivic. NetVLAD:用于弱监督位置识别的CNN架构。在IEEE计算机视觉和模式识别会议(CVPR)中,第5297-5307页[3] Relja Arandjelovic和Andrew Zisserman。关于VLAD在IEEE计算机视觉和模式识别会议(CVPR)中,第1578-1585页[4] Artem Babenko和Victor Lempitsky。聚合局部深度特征用于图像检索。在IEEE计算机视觉国际会议论文集,第1269- 1277页[5] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。Surf:加速健壮的功能。在欧洲计算机视觉会议上,第404-417页Springer,2006年。[6] 加布里埃尔·伯顿,卡洛·梅森,芭芭拉·卡普托。重新思考视觉地理定位的大规模应用。在IEEE/CVF计算机视觉和模式识别会议论文集,第4878-4888页3007[7] Bingyi Cao,Andre Araujo,and Jack Sim.统一图像搜索的深度局部和全局特征。在European Conference onComputer Vision,第726Springer,2020年。[8] Wei Chen,Yu Liu,Weiping Wang,Erwin Bakker,Theodoros Georgiou,Paul Fieguth,Li Liu,and MichaelS Lew.实例检索的深度学习:一个调查。arXiv预印本arXiv:2101.11282,2021。[9] 陈泽涛,亚当雅各布森,尼克·欧·桑德霍夫,本·厄普克罗夫特,刘凌桥,沈春华,伊恩·里德,迈克尔·米尔福德。大规模深度学习功能用于视觉位置识别。在IEEE机器人与自动化国际会议(ICRA),第3223-3230页[10] 陈泽涛,刘灵桥,萨英奎,葛宗元,李嘉玲.长期视觉地点辨识之学习情境弹性注意力模式。IEEE Roboticsand Automation Letters,3(4):4015[11] Zetao Chen,Fabiola Maffra,Inkyu Sa,and MargaritaChli.只看一次,从convnet中挖掘独特的地标进行视觉位置识别。2017年IEEE/RSJ智能机器人与系统国际会议(IROS),第9-16页IEEE,2017年。[12] Anh-Dzung Doan、Yasir Latif、Tat-Jun Chin、Yu Liu、Thanh-Toan Do和Ian Reid。用于自动驾驶的外观变化下的可扩展位置识别。在IEEE/CVF计算机视觉国际会议论文集,第9319-9328页[13] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Sylvain Gelly,et al.一张图片相当于16x16个单词:用于大规模图像识别的变换器. arXiv预印本arXiv:2010.11929,2020。[14] DorianGa'l v ez-Lo' pez和JuanDTardos。用于图像序列中快 速 位 置 识 别 的 二 进 制 字 包 IEEE Transactions onRobotics,28(5):1188[15] Sourav Garg,Niko Suenderhauf,and Michael Milford.语义-几何视觉位置识别:调和对立观点的新视角。国际机器人研究杂志,第0278364919839761页,2019年。[16] 葛一笑,王海波,朱峰,赵瑞,李洪生.用于大规模图像定位的自监督细粒度区域相似性。在欧洲计算机视觉会议(ECCV)中,第369Springer,2020年。[17] Stephen Hausler , Sourav Garg , Ming Xu , MichaelMilford,and Tobias Fischer. Patch-netvlad:多尺度融合局部-全局描述符的地点识别。在IEEE/CVF计算机视觉和模式识别会议论文集,第14141-14152页,2021年[18] 斯蒂芬·豪斯勒亚当·雅各布森和迈克尔·米尔福德多进程融合:基于多种图像处理方法的视觉场所识别。IEEERobotics and Automa- tion Letters,4(2):1924[19] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议(CVPR)中,第770-778页[20] Herve 'Je'gou , MatthijsDouze , CordeliaSchmid ,andPatrick P e'rez. 将局部描述符聚集成紧凑的图像表示。在IEEE计算机视觉和模式识别会议,第3304-3311页[21] Herve Jegou,Florent Perronnin,Matthijs Douze,JorgeS a'nchez,PatrickPerez和CordeliaSchmid。Aggregat-ing本地图像描述符到紧凑的代码。IEEE Transactions onPattern Analysis and Machine Intelligence,34(9 ):1704[22] Ahmad Khaliq 、 Shoaib Ehsan 、 Zetao Chen 、 MichaelMil- ford和Klaus McDonald-Maier。一种基于轻量级cnn的整体视觉地点识别方法,用于显著的视点和外观变化。IEEE transactions on robotics,36(2):561[23] Hyo Jin Kim,Enrique Dunn,and Jan-Michael Frahm.用于图像地理定位的学习上下文特征重加权。在IEEE计算机视觉和模式识别会议(CVPR),第3251-3260页[24] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展,25,2012。[25] 法赫德·拉蒂夫和亚辛·鲁契克。使用深度学习技术进行语义分割的研究综述神经计算,338:321[26] Hanxiao Liu,Zihang Dai,David So,and Quoc V Le.注意MLP。神经信息处理系统,34:9204[27] Liu Liu,Hongdong Li,and Yuchao Dai.大规模图像局部化的随机吸引-排斥嵌入。在IEEE/CVF计算机视觉国际会议(ICCV),第2570-2579页[28] 刘立,欧阳万里,王晓刚,保罗·费古思,陈洁,刘欣旺,马蒂·皮耶提克艾宁。用于通用对象检测的深度学习 : 一 项 调 查 。 Internation
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功