没有合适的资源?快使用搜索试试~ 我知道了~
13648TransVPR:基于变换器的多级注意力聚集王若彤* 沈艳清*左三平* 郑伟良*周南宁<$西安交通大学人工智能与机器人研究院{wrt072@stu.,qing1159364090@stu.,weiang.zuo@,spzhou@,nnzheng@mail.}xjtu.edu.cn摘要视觉位置识别在自动驾驶导航和移动机器人定位等应用中是一项具有挑战性的任务。复杂场景中的干扰因素往往会导致视觉场所感知的偏差。为了解决这个问题,关键是将仅来自任务相关区域的信息集成到图像表示中。本文提出了一种基于视觉变换器的全局位置识别模型TransVPR它得益于变压器中自我注意操作的理想属性,可以自然地聚集任务相关特征。来自关注不同感兴趣区域的Transformer的多个级别的注意力此外,从trans-former层的输出令牌过滤的融合的注意力掩模被视为关键补丁描述符,这是用来执行空间匹配,重新排序的候选人检索的全局图像特征。整个模型允许使用单个目标和图像级监督进行端到端训练。TransVPR在几个真实世界的基准测试中实现了最先进的性能,同时保持了较低的计算时间和存储要求。1. 介绍视觉位置识别(VPR)是自动驾驶和机器人定位系统中的一个基本和挑战性问题,通常被定义为图像检索问题[27]。给定一个查询图像,该算法必须确定它是否是从已经看到的地方拍摄的,并从数据库中识别相应的图像。VPR任务中通常使用两种类型的图像表示。全局图像特征[2,8,18,21,37,38,54]将整个图像抽象为一个没有几何信息的紧凑特征向量。补丁级描述符*同等贡献。†通讯作者。输入图像融合关注键补丁低层次关注中层次关注高层次关注图1. 从TransVPR可视化多层次的关注。低层注意力地图主要集中在建筑物表面的小物体和纹理区域。中层注意力集中在空中的物体上,如路灯和树冠,而高层注意力则倾向于勾勒出地面和车道线的轮廓。所有这些注意力掩模被组合以生成全局图像表示以及关键补丁描述符。[12,14,23,26,32,60]描述了图像中的特定块或关键点,并且可以用于使用交叉匹配算法(例如,RANSAC [16])。为了实现准确性和效率之间的良好权衡,常用的两阶段策略是检索具有全局特征的候选项,然后使用补丁级描述符匹配对其进行重新排名[40,51]。最近的几项研究[6,19,45,52]试图设计一个整体系统来提取这两种类型的特征。最近,Patch-NetVLAD [19]使用积分特征空间从全局图像特征中导出 补 丁 描 述 符 , 并 在 几 个 然 而 , 可 能 降 低 Patch-NetVLAD的鲁棒性的一个重要因素是,其前向特征无选择地编码来自图像的所有区域的信息。需要强调的是,识别图像中任务相关区域的能力对于VPR系统至关重要13649这是因为分散注意力的元素和场景中的动态对象(例如,天空、地面、无纹理的墙壁、汽车、行人等)对识别位置没有帮助,严重损害VPR性能[27]。为了检测感兴趣的关键点或区域,已经提出了几种基于CNN的方法[9,12,23,24,57,59,60]。最近,Transformer [56]架构在多个计算机视觉任务中获得了竞争性结果[7,13]。与CNN不同,视觉变换器中的自注意操作可以动态地聚合全局上下文信息,并隐式地选择任务相关信息。为了充分利用视觉变换器的这一特性,提高地点识别的鲁棒性,本文的主要工作如下:首先,提出了一种基于变换器的地点识别模型TransVPR,该模型能够自适应地从图像的特征区域中提取鲁棒的图像表示。其次,受之前CNN研究的启发,CNNs结合了多级特征映射来丰富图像表示[9,59,61],我们融合了多级关注,专注于不同的语义有意义的区域(见图1),以生成全局图像表示。定性和定量实验证明了该方法的有效性。最后,将融合注意力模板过滤后的各层输出标记作为块级描述符进行几何验证。TransVPR中的所有组件都是紧密耦合的,因此整个模型允许使用单个训练目标和仅图像级监督进行端到端优化。实验结果表明,该算法在VPR基准数据集上具有较好的性能,且计算时间和内存需求较低。它的性能优于最先进的VPR AP-通 过 显 著 的 边 界 ( 与 最 佳 基 线 方 法 DELG 相 比 ,Recall@1的绝对增加5.8%[6])接近[2,6,17,19,412. 相关工作我们回顾了以前的工作,图像描述技术,特别是有关的地方识别。修补程序级描述符。在早期的VPR系统[1,11,25,30,31,46]中,传统方法(如SIFT [26],SURF[4]和ORB [39])已被广泛用于表示以检测到的关键点为中心的小块。然而,这些手工制作的特征无法处理严重的外观变化。最近,基于CNN的方法已经实现了优异的性能[5,19,23,32,52]。为了提取稀疏块描述符,一些方法已经提出了首先基于局部结构检测关键点,然后用单独的CNN描述它们[34,43,48,60,63],而其他方法已经使用共享网络来进行检测和描述[12,14]。除了这些一般方法之外,还进行了一些尝试,一直致力于学习任务特定的补丁级功能的位置识别[6,32,62]。此外,Patch-NetVLAD [19]提供了一种使用全局描述符技术NetVLAD [2]的替代解决方案,以从预定义的图像块中提取描述符。在大多数先前的研究中,块级描述符被称为局部描述符,其将内容编码在关键点周围的局部块中。相比之下,我们的基于Transformer的补丁级描述符不是本地的,因为来自Transformer层的每个输出令牌具有全局感知场。以这种方式,补丁描述符能够捕获具有长范围依赖性的更语义上有意义的结构。全局图像表示。全局图像特征通常通过聚集局部描述符来获得。一些传统的技术,如词袋(BoW)[10,49]、Fisher Kernel [21,35,36]和局部聚合描述符向量(VLAD)[3,20],已被用于将视觉词分配给图像。同样,在深度学习背景下,一些作品[2,29]将这些聚类方法纳入CNN架构,而其他研究[18,22,37,53]则专注于从CNN特征图中进行池化。最近,已经开发了统一网络来联合提取全局特征和补丁级描述符[6,40,47,51]。以前基于CNN的方法从高级卷积层提取特征,需要具有下采样层的深度网络来整合足够的上下文信息。作为第一次尝试,El-Noubyet al. [15]通过使用来自最终层的[class]token [56]作为全局特征,将视觉变换器引入图像检索任务随后,我们聚集多层次的注意力,以产生全局特征,并明确学习相应的注意力地图,可以进一步用于检测关键补丁。地点识别注意事项 为了适应-为了有效地识别复杂场景图像中的任务相关区域,注意机制已被多种视觉感知方法所采用。其中,学习的注意力图可以被认为是补丁描述符过滤器[32,59,62]或权重图,其调制CNN特征图以生成全局特征[9,24]。基于CNN的方法中的注意力模块通常被实现为浅层CNN,其单独训练[32]或与骨干网络联合训练[6,9,59,62在我们的工作中,提出了一种新的配方,其中的注意力模块是简单的线性层解码的注意力信息从Transformer令牌。3. 方法TransVPR通过聚合视觉变形金刚中的多级注意力来联合提取块级和全局图像表示给定一幅输入图像,首先用浅层CNN提取其原始块描述符,然后用em.13650∈∈--2∈--我我∈Σ联系我们均p0PLPMPH图2. 补丁描述符提取。对于输入图像,金字塔特征图由CNN生成,并且每个特征图被重塑为一系列平坦的2D补丁。原始补丁级描述符是通过连接补丁嵌入在相同的位置,从每个特征图。然后将它们发送到Transformer编码器中以集成全局上下文信息。从低级、中级和高级Transformer层中选择输出补丁标记用于后续处理。作为视觉Transformer的输入标记。来自Transformer的浅、中、深层的注意被合并以生成全局图像特征并检测任务相关的补丁。图2和图3示出了整个特征提取流水线。3.1. 面片描述符提取四层CNN应用于输入图像以提取原始块级特征,如图所示二、给定一个图像或特征图F i−1RHi−1×Wi−1×Ci−1,卷积层的输出为:特征图被连接为原始块级局部描述器。我们将原始补丁描述符组表示为P0RN×D。补丁描述符的位置近似于对应图像补丁的中心坐标。最后,为了集成全局上下文信息,然后将原始补丁描述符作为输入令牌发送到Transformer编码器我们遵循Transformer编码器的标准实现,该编码器由多头自注意(MSA)和多层感知器(MLP)模块的堆栈组成[13,56]。在预训练中,在令牌序列的前面添加可学习的[类]令牌由于空间位置信息可以通过CNN架构隐式地编码在原始补丁描述符中,因此从Transformer块中移除位置嵌入,使得模型可以灵活地适应不同的输入大小。3.2. 多层次关注虽然Transformer具有来自最低层的全局感知场,但观察到其平均注意力距离随着深度增加而增加[13]。换句话说,由不同的Transformer层捕获的结构的比例存在一些差异为了跨多个级别集成信息,选择来自Transformer的低级、中级和高级层的三组输出补丁令牌,表示为PL、PM、PH。首先通过沿着通道级联这三组令牌来组成一组多级补丁令牌PP=Concat([PL,PM,PH])∈ RN×3D.(二)对于每个级别,在所有空间位置上单独估计注意力掩模,指示在每个特定补丁令牌中编码的信息对识别地点的贡献。 注意,在计算这些atten时,Fi= MaxPool(ReLU(BN(Conv(Fi−1)))),(1)Hi−1×Wi− 1×C在图3中,使用连接的补丁令牌P(参见图3)。形式上:其中Fi∈R22i. 在实践中,3×3卷积-一 =softmax(PWa)∈RN×1,(3)使用函数核,输出通道数为ii分别设置为64、128、256和512。通过这种方式,我们得到了一个特征金字塔F1,F2,F3,F4,其中特征图的大小按顺序减少了一半。然后,按照[13]中提出的过程在每个特征图上应用补丁嵌入将特征映射Fi ∈RHi×Wi×Ci整形为一系列平坦的二维面片F′iRN×(Ri·Ci),其中(Ri,Ri)是res-特征图块的解,N=Hi Wi/R2是特征图块的解。补丁的数量 为了在每个特征图上保持固定数量的补丁,将Ri设置为Ri−1/2。 展平的片被映射到D/4维,其中D是后续Transformer块的潜在嵌入维。接下来,在不同的图像的相同位置处的补丁嵌入被执行。其中i L,M,H和WaR3D×1将关联的补丁令牌映射到标量。然后,通过合并这三个注意力图,生成一个多层次的注意力图ARN×1A= MinMaxNorm(MinMaxNorm(a i))。(四)我3.3. 最终图像表示关键补丁描述符。理论上,来自任何Transformer层的输出令牌都可以用作补丁级描述符来执行几何验证。在实践中,我们选择了中间级别的补丁令牌(PM),它给出了最稳定的结果在实验中。注意力得分为A变平.N..Transformer编码器层.N..原始补丁描述符F4Concat均p0F3F2↑Conv↑Conv↑ConvTransformer编码器层.N..F1↑ConvTransformer编码器层.N..13651LMH我×∈∈D补丁描述符PL.N. .PMN. .PH.N. .ConcatP.N. .GLaLGMaMGHaH线性WGG输出图像分类数据集包含来自365个场景类别的180万张图像。来自最后一个Transformer层的[class]标记后面是用于分类的全连接然后,通过去除分类层,增加注意力和降维模块,将预训练的模型转移到图像检索任务中。采用常用的三重余量损失[44]作为训练目标,定义为:L(Gq,Gp,Gn)= max(d(Gq,Gp)−d(Gq,Gn)+m,0),(7)线性Wa线性Wa线性Wa全局特征其中Gq、Gp和Gn是查询的全局特征, 位置,位置aL aM aH过滤一数据库匹配VPR管道最终结果阳性和阴性样本。余量m是恒定的超参数。注意力和降维模块(Wa和Wg)中的参数通过在大规模VPR数据集(Mapillary Street Level Sequences(MSLS)[58]训练集)上训练几个时期来初始化,并冻结骨干参数。在初始化之后,整个TransVPR可以进一步被PM.N. .输出修补程序描述符在VPR数据集上以端到端的方式进行微调。4. 实验图3. 多层次注意力聚合。给定来自Transformer的三个不同层的补丁标记,通过在它们的关联上应用线性投影来生成三个注意力图。多级全局特征是通过组合单级全局特征来生成的,单级全局特征是通过对由相应的注意力图加权的补丁标记求和来计算的。多层次的注意力地图进一步融合,并用于选择任务相关的补丁描述符。在VPR流水线中,全局表示用于通过最近邻搜索来检索候选,而补丁描述符用于执行几何验证以重新排序这些候选。定义大于阈值τ的两个密钥块为密钥块,并在最终的几何验证阶段使用其对应的描述符。全局图像特征。如图3所示,通过聚合由相应的注意力图ai加权的补丁令牌Pi来计算单个级别Gi中的全局特征:Gi=aiTPi∈ R.(五)将多级全局图像特征GR3D定义为GL、GM和GH的级联,然后通过后处理G得到最终的全局表示G:G= L2范数(L2范数(G范数)Wg),(6)其中可学习矩阵WgR3D×D用于降维.3.4.培训战略首先,特征提取主干(CNN和Transformer)在Places365上联合进行预训练[64],在本节中,我们将在几个基准数据集上与一些最先进的VPR方法进行比较评估所提出的TransVPR模型。我们在下文中给出了实验设置、数据集、评价指标和比较方法的细节4.1. 实现细节模型设置。TransVPR在PyTorch框架中实现。基本TransVPR模型包含六个变压器编码器层的功能聚合。Transformer的潜在嵌入维数D为256。在不失一般性的情况下,来自第二、第四和第六Transformer层的输出令牌被选择为PL、PM和PH。TransVPR的总参数大小为19.86MB。关键补丁滤波阈值τ在实践中被设置为0.02原始图像上的补丁大小设置为16 16。输出补丁级和全局特征的维度都设置为256。在几何验证中,给定一个图像对,它们的关键块描述符以蛮力方式匹配。执行交叉检查以确保匹配的描述符是相互最近的邻居。利用RANSAC算法对匹配后的图像块进行单应性估计时,图像相似度定义为内点的个数内点的最大允许重投影误差被设置为补丁大小的1.5倍。训练 我们在MSLS训练集和匹兹堡30k(Pittsburgh30k)[55]训练集上微调了预训练的TransVPR模型。前者旨在处理包含不同场景的评估数据集(MSLS和NordlandConcat候选人13652召回率@N(%)×MSLS [58]诺尔兰[33,50][55]第五十五话✓ ✓ ✓✓ ✓✓9590858075正+ ++++70- -−+ −65+−− −+60[28,42]公司简介+++的表1. 用于评价的数据集总结。+表示数据集包含特定的环境变化,−则相反。[33,50]数据集),而后者特别适用于城市场景(30k和Robotcar Seasons V2 [28,42]数据集)。在MSLS训练集中,提供了GPS坐标和罗盘角度,因此正样本被选为与查询视场最相似的图像。对于未给出角度标签的300k数据集,采用[2]中提出的弱监督正挖掘策略。超参数和培训的更多详细信息见补充材料。4.2. 数据集我们在几个公共基准数据集上评估了我们的模型:MSLS [58] , Nordland [33 , 50] , RMB 30 k [55] 和RobotCar Seasons v2(RobotCar-S2)[28,42]。所有这些数据集都包含一些具有挑战性的环境变化。选项卡.1总结了它们的定性性质。数据集使用的更多细节在补充材料中给出。所有图像的大小调整为640 480,而evalu- ation。4.3. 度量对于MSLS、Nordland和30 k数据集,我们使用Re-call@N度量来计算被正确本地化的查询图像的百分比如果排名前N的参考图像中的至少一个在距查询的地面实况位置的阈值距离内,默认阈值定义用于所有数据集[33,55,58]。对于RobotCar-S2数据集,我们遵循[19]并直接使用最佳匹配参考图像的姿态作为查询的估计姿态,而不计 算 显 式 6-DOF 姿 态 。 三 个 默 认 误 差 容 限 下 的Recall@1分数用作评估指标。4.4. 比较方法我们将TransVPR与几种最先进的算法进行了比较,包括两种基于使用全局图像表示的最近邻搜索的VPR方法:NetVLAD[2]和SFRS[17],以及两种为两阶段555 10 15 20N:顶级候选数据库的数量图4. 调用MSLS val数据集上的@N曲线。仅使用全局表示的检索结果以虚线描绘,而重新排序后的结果以实线描绘TransVPR在全局检索阶段和重排序阶段都达到了最好的性能。流水线(即, 检索和重新排序):Patch-NetVLAD[19]对于Patch-NetVLAD,我们测试了其以速度为中心的配置和以性能为中心的配置,分别表示为Patch-NetVLAD-s 和 Patch-NetVLAD-p re-configuration 。 此外,我们还与一个强大的混合基线SP-SuperGlue进行了比较,SP-SuperGlue通过使用SuperGlue [41]匹配器匹 配 SuperPoint [12] 补 丁 级 别 描 述 符 来 重 新 排 序NetVLAD检索到的候选。对于所有两个阶段的方法,由全局特征检索的前100个图像进一步由几何验证结果重新排序。比较方法的更多安装细节在补充材料中解释。5. 结果和讨论5.1. 定量结果与其他方法相比,TransVPR的定量结果见表1。二 、 我 们 的 TransVPR 在 MSLS 验 证 、 MSLS 挑 战 和Nordland数据集上的表现优于所有比较方法,与最佳基线DELG相比,Recall@1的绝对增加分别为3.6%、11.7%和7.5%它还在300 k和Robotcar-S2数据集上取得了有竞争力的结果请注意,当在300k数据集上训练TransVPR时,我们只使用了[2]中的弱监督学习策略,并且我们可以使用[17]提出的细粒度监督来进一步提高TransVPR性能。取所有数据集的平均值,我们的完整模型大大超过了基于全局特征检索的方法,并且优于 两 阶 段 方 法 SP-SuperGlue , DELG 和 Patch-NetVLAD , 在 Recall@1 得 分 上 的 绝 对 增 益 分 别 为10.8%,5.9%和7.2%所有方法的Recall@N曲线,包括全局检索结果和重新 排 序 结 果 , 如 图 4 所 示 。 在 全 局 检 索 阶 段 ,TransVPR也取得了最好的效果。请注意,在所有比较的方法中,TransVPR是唯一一种在生成全局表示时选择性地集成任务相关信息的方法NetVLAD(dim=4096)SFRS(dim=4096)SP-SuperGlue(dim=256)DELG global(dim=2048)DELGpatch(dim=128)Patch-NetVLAD-p(dim=4096)TransVPR全局(dim=256)数据集环境变化城市郊区自然Viewpoint日/夜天气季节性动态13653方法MSLS值MSLS挑战诺德兰试验300000试验机器人车-S2测试R@1R@5R@10R@1R@5R@10R@1R@5R@10R@1R@5R@100.25米/2°0.5m/5°5.0米/10°NetVLAD [2]53.166.571.135.147.451.77.713.717.781.991.293.75.620.771.8SFRS [17]69.280.383.141.55256.318.832.839.889.494.795.98.027.380.4TransVPR(无重新评级)70.885.189.648.067.173.615.938.649.473.888.191.92.911.458.6SP-SuperGlue [12,41]78.181.984.350.656.958.329.133.534.387.294.896.49.535.485.4DELG [6]83.290.091.152.261.965.451.366.869.889.995.496.72.28.476.8[19]第十九话77.884.386.548.159.462.334.949.853.387.594.596.02.78.933.9[19]第十九话79.586.287.748.157.660.546.458.060.488.794.595.99.635.390.9TransVPR86.891.292.463.974.077.558.875.078.789.094.996.29.834.780.0表2.在基准数据集上与最先进的方法进行比较。查询我们的补丁-NetVLAD DELG SP-SuperGlueSFRS NetVLAD感知混淆季节性变化视角变化动态对象天气变化闭塞图5. MSLS验证数据集上检索结果的比较。在这些具有挑战性的例子中,TransVPR成功地检索了匹配的数据库图像,而所有其他方法都产生错误的结果。方法提取延迟(ms)匹配延迟(s)内存(MB)NetVLAD [2]SFRS [17]17203−7−0.83−1−0.93SP-SuperGlue [12,41]166DELG [6]19736.040.37[19]第十九话631.731.82[19]第十九话13367.6544.14TransVPR(我们的)453.191.17表3.所有方法的特征提取时间、描述符匹配时间和内存占用。延迟在NVIDIA GeForce RTX 2080 Ti GPU上测量。对于全局检索方法,匹配延迟和内存需求可以忽略不计。5.2. 定性结果图5示出了具有挑战性条件的硬示例的一些检索和匹配结果。在这些情况下,TransVPR产生正确的匹配,而所有其他方法失败。例如,观察第一行和第四行,其中存在严重的视点变化或遮挡在动态对象的情况下,TransVPR可以成功地进行基于特征区域的匹配,避免了干扰区域。然而,其他方法显示出检索具有与查询相似的全局布局的图像的趋势。为了进一步直观地解释由多级注意力捕获的语义线索,图6中呈现了学习的注意力图的一些可视化示例。这证实了不同层次的注意力地图倾向于关注具有不同语义信息的区域。例如,L主要关注建筑物表面的小物体和纹理区域。M着重于空中的物体,如路灯和树冠,而H则勾勒出地面和车道线的轮廓。所有这些注意力地图都避免了分散注意力的区域,如天空、地面、动态物体和无纹理的墙壁,这些区域可能会随着时间的推移而变化,或者对识别场景没有影响。请注意,我们在训练过程中没有添加任何语义约束。这些语义信息可以通过TransVPR中的注意机制在仅图像级监督下自动学习。13654输入图像aLaMaHA图6. 多层次注意力的一些可视化。从左到右:输入图像,每个级别的注意力地图,最终注意力地图,输出关键补丁。这里使用的所有图像都来自MSLS验证集,在网络训练阶段看不到。不同的语义线索被不同层次的注意力地图所捕获该网络只关注图像中的独特区域,并过滤掉令人困惑的信息。5.3. 时延和存储器在现实世界的VPR系统中,延迟和可扩展性是需要考虑的重要因素。选项卡. 3显示了所有比较技术处理单个查询图像的计算时间和内存要求。在特征编码方面,TransVPR比DELG和Patch-NetVLAD-p快4.4倍和29.7倍,在空间上比它们快11.3倍和2.4倍92.590.087.585.082.580.077.50123456层(a) MSLS值80706050400123456层(b) 诺德兰匹配.TransVPR的内存占用量为 1.17 MB/图像,与SP-SuperGlue和Patch-NetVLAD的数量级相同S. 考虑斑块特征占主要部分使用稀疏和低维的片特征可以显著降低存储器成本。补丁- NetVLAD-p由于其多尺度特征和高维度(dim = 4096)而具有极大的内存占用,而TransVPR由于相对低维的补丁特征(dim =256)而需要较少的内存。5.4. 消融和分析我们进行了几次消融实验,以进一步验证TransVPR的设计。补丁描述符集的选择。在图7中,我们显示了使用不同补丁描述符集时的TransVPR性能。从Transformer层输出的补丁描述符显著优于原始补丁描述符,表明编码在Transformer令牌中的全局上下文信息可以改善补丁表示。补丁令牌的性能是相似的,无论他们是从Transformer层。因为尽管在训练时没有补丁级的监督图7. 局部描述符集选择的消融。调用每个transVPR的本地描述符从不同的trans-former层。来自任何Transformer层的补丁描述符具有相似的性能并且显著优于原始补丁描述符(即,层0)。此外,在最后一层观察到性能的轻微下降。补丁标记保留了确保空间匹配的准确性的某些局部性。这可能是因为Transformers中的剩余连接使输出令牌能够保留原始信息。然而,当使用最后一层的补丁令牌时,性能略有下降多层次注意力的关键补丁检测。为了验证使用融合的多级注意力掩模A的关键补丁检测的有效性,我们评估了使用补丁描述符(PM)的TransVPR性能,其中没有过滤和过滤每个单独的注意力掩模或它们的组合。结果见表。五、当使用单独的注意力掩模时,低级别的注意力掩模L实现了最佳性能,而H的性能显著较差。它表明召回率@N(%)召回@1召回@5召回@10召回@20召回率@N(%)13655方法MSLS值诺德兰试验300000试验机器人车-S2测试R@1R@5R@10R@1R@5R@10R@1R@5R@100.25米/2°0.5m/5°5.0米/10°sL-sATT69.284.688.913.133.945.568.685.290.32.210.655.6全球mL-sATT70.784.388.013.734.745.671.286.590.82.511.054.9检索mL-mATT-plain71.585.789.913.232.743.071.287.091.33.312.056.2mL-mATT-标准70.885.189.615.938.649.473.888.191.92.911.458.6sL-sATT87.492.793.254.070.173.787.494.095.39.432.378.1重新排名mL-sATT87.791.593.055.770.874.288.694.796.09.433.077.3mL-mATT-plain84.789.691.554.168.471.788.194.395.59.534.278.3mL-mATT-标准86.891.292.458.875.078.789.094.996.29.834.780.0表4.多层次注意聚合策略的研究。建议的TransVPR配置(mL-mATT标准)达到最佳效果。注意面罩MSLs Val诺德兰试验R@1R@5R@10R@1R@5R@10没有一81.287.690.158.873.977.7aL86.491.192.255.172.976.9aM84.190.491.847.869.174.3aH61.277.382.823.540.748.6aLaM86.990.991.957.474.377.7一86.891.292.458.875.078.7表5.当使用从多个Transformer级别学习的注意力掩码的不同组合来选择键补丁描述符时,TransVPR的性能。融合的多级注意力掩模A表现最好。建筑物表面和固定物体对地点识别的贡献最大。将L和M相结合的注意力掩模比使用任何单一的注意力掩模都能获得更好的效果,但其性能仍然不如A。此外,与A.评价结果一般来说,从标准TransVPR(mL-mATT-standard)到mL-sATT然后到sL-sATT存在性能降级,并且在重新排序之后,mL-mATT-standard在所有数据集上大大优于mL-mATT-plain此外,标准的TransVPR在数据分布与训练集差异很大的数据集上具有更好的这些结果证明了跨Transformer层组合多级信息并估计每个级别的单独注意力图的有效性。此外,所有配置的结果显着改善,通过重新排序使用键补丁描述器,特别是在Nordland数据集,遭受严重的感知混淆,因此更多地依赖于细粒度的空间匹配。6. 结论在这项工作中,我们设计了一个新的视觉变换为基础的地方识别模型,TransVPR,多 层 次 注 意 力 聚 合 策 略 。 我 们 通 过 比 较 标 准TransVPR与三种退化配置来研究所提出的多级注意力聚合策略如何影响模型性能:• 多 层 次 多 注 意 力 地 图 平 面 连 接 ( mL-mATT-plain)。在计算注意力地图之前,我们删除了多级补丁令牌的串联操作这三个注意力图仅使用来自同一级别的补丁令牌来计算。• 多水平单注意力图(mL-sATT)。代替分别估计三个注意力图,基于级联的补丁令牌P计算单个注意力图A。全局特征表示为P与A的加权和。• 单水平单注意地图(sL-sATT)。只有来自最后一个Transformer层的补丁令牌被用于估计注意力图和全局特征。这些配置的详细架构在补充材料中进行了说明。选项卡. 4、介绍评价--它联合提取独特的全球和补丁级通过聚合多层次注意力的图像特征。TransVPR的所有组件都集成在一个轻量级网络中,通过映像级监控实现端到端优化TransVPR在几个基准数据集上的表现优于一些最先进的VPR技术,并在准确性和效率之间实现了卓越的权衡。烧蚀结果进一步验证了模型设计的有效性。这种TransVPR的演示仅限于VPR任务,其中主要的限制是当参考图像稀疏时,相机局部化将不够精确因此,未来工作的一个研究主题是通过利用TransVPR描述符在回归框架中估计相机姿态。确认本工作得到了国家自然科学基金项目号:62088102号62106192。13656引用[1] 阿德里安·安杰利,德·维德·菲利亚特,圣·埃法恩·东西厄和让·阿尔卡迪·迈耶。使用视觉字袋的快速和增量的循环闭合检测方法IEEE Trans. Robot. ,24(5):1027-1037,2008. 2[2] Relja Arandjelovic,Petr Gronat,Akihiko Torii,TomasPa-jdla,and Josef Sivic. Netvlad:用于弱监督位置识别的CNN架构。在CVPR中,第5297-5307页,2016年。一、二、五、六[3] Relja Arandjelovic和Andrew Zisserman。 关于Vlad在CVPR,第1578-1585页,2013中。2[4] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。Surf:加速健壮的功能。见ECCV,第4042[5] LuisGCamara和LiborP. 基于高阶cnn特征空间匹配的视觉地点识别机器人自动系统,133:103625,2020. 2[6] Bingyi Cao,Andre Araujo,and Jack Sim.统一深度局部和全局特征进行图像搜索。在ECCV,第726-743页,2020年。一、二、五、六[7] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。在ECCV,第213-229页,2020中。2[8] 陈泽涛,亚当雅各布森,尼克·欧·桑德霍夫,本·厄普克罗夫特,刘凌桥,沈春华,伊恩·里德,迈克尔·米尔福德。大规模深度学习功能用于视觉位置识别。在IEEE国际会议机器人。自动,第3223- 3230页,2017年。1[9] Zetao Chen,Lingqiao Liu,Inkyu Sa,Zongyuan Ge,and Margarita Chli.长期视觉地点辨识之学习情境弹性注意力模式。机器人自动lett. ,3(4):4015-4022,2018. 2[10] Gabriella Csurka,Christopher Dance,Lixin Fan,JuttaWillam o wski,andCe´dricBra y. 可视化的关键点包的猫进化ECCV,第1卷,第1-2页,2004年。2[11] 马克·康明斯和保罗·纽曼。Fab-map:外观空间中的概率定位和映射。 Int. J.罗伯Res. ,27(6):647-665,2008. 2[12] Daniel DeTone,Tomasz Malisiewicz,and Andrew Rabi-novich. Superpoint: 自 监 督 兴 趣 点 检 测 和 描 述 。 在CVPR,第224-236页,2018年。一、二、五、六[13] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Syl- vain Gelly,et al. An image is worth16x16 words : Trans- formers for image recognition atscale. 在ICLR,2020年。 二、三[14] Mihai Dusmanu、Ignacio Rocco、Tomas Pajdla、MarcPolle-feys、Josef Sivic、Akihiko Torii和Torsten Sattler。D2-net:一个可训练的cnn,用于联合描述和检测局部特征。在CVPR中,第8092-8101页,2019年。一、二[15] Alaaeldin El-Nouby,Natalia Neverova ,Ivan Laptev和Herv e'J e' gou。 训练视觉变换器进行图像检索。arXiv预印本arXiv:2102.05644,2021。2[16] Martin A Fischler和Robert C Bolles。随机样本一致性:模型拟合的范例及其应用13657图像分析和自动制图。Communications of the ACM,24(6):381-395,1981. 1[17] 葛一笑,王海波,朱峰,赵瑞,李洪生.用于大规模图像定位的自监督细粒度区域相似性。在ECCV,第369二、五、六[18] 阿尔伯特·戈多,乔恩·阿尔玛赞,杰罗姆·雷沃,和黛安·拉鲁斯.深度视觉表示的端到端学习,用于图像检索。IJCV,124(2):237-254,2017。一、二[19] Stephen Hausler , Sourav Garg , Ming Xu , MichaelMilford,and Tobias Fischer. Patch-netvlad:多尺度融合局部-全局描述符进行位置识别。在CVPR中,第14141-14152页,2021年。一、二、五、六[20] 她的名字是MatthijsDouzeCordeliaSchmid和Patrick Pérez。将局部描述符聚集成紧凑的图像表示。在CVPR,第3304-3311页,2010年。2[21] Her ve'J e' gou,FlorentPerronnin,MatthijsDouze,Jor rge S a'nchez,PatrickP e' rez,andCordeliaSchmid. 将局部图像描述符聚集IEEE TPAMI,34
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功