局部特征提取：ETR-一种有效的重排序Transformer（20字）

64 浏览量更新于2023-10-16 收藏 3.81MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5665.. ...........局部特征提取..局部描述符ETR：视觉位置识别中一种有效的重排序Transformer张浩1，陈欣1，景鹤鸣1，郑应斌2，袁武1，程进1*1复旦大学计算机科学学院，上海，中国2唯迪科技，上海，中国{zhanghao20，20210240337，20210240185，wuyuan，jc} @zyb@videt.cn fudan.edu.cn摘要视觉地点识别是对给定图像的地理位置进行估计，通常通过从数据库中识别与其相似的参考图像来解决。参考图像通常通过使用全局描述符的相似性搜索来检索，并且局部描述符用于对初始检索到的候选图像进行重新排序。局部描述符重排序可以显著提高全局检索的准确性，但计算代价较高。为了实现准确性和效率之间的良好权衡，我们提出了一个有效的Transformer重新排名（ETR），利用全局和局部描述符重新排名的前几名的候选人在一个单一的拍摄。与传统的重新排序方法相比我们表明，该模型可以被视为一个通用的重新排名算法显着提高，ING的性能，其他全球唯一的检索方法。大量的实验结果表明，我们的方法表现出最先进的，是数量级的计算效率方面更快。1. 介绍视觉位置识别（VPR）是自动驾驶和移动机器人定位等基于视频的导航系统中的一项具有挑战性的任务，它通常被视为图像检索的一种特殊情况给定查询图像，VPR算法通常通过图像表示从数据库中检索候选图像[47]。图像表示可以进一步细分为两个主要类别，即，全局描述符[6，45，1，37，28，36]和局部描述符[24，6，10，16，5]。全局描述符通过单个特征向量来描述整个图像，从而导致增强的紧凑表示。*通讯作者。全局描述符全局特征提取全局检索数据库全局/局部特征提取全局局部特征融合...该方法查询重新排列Top-k结果第一次第二次第三次...Top-k候选人第一次第二次第三次...图1.拟议的重新排序方法的管道对于查询图像，首先提取其全局和局部描述符，并通过全局描述符从数据库中检索前k个候选然后将查询的全局/局部描述符和可查询数据进行融合，构成模型的输入。因此，重新排序前k个候选者只需要一次射击，这比传统的重新排序方法（如几何验证）快了几个数量使用大规模搜索和对外观和照明变化的区分性表示。局部描述符关注于兴趣（例如地标）和不同于其邻域的高光模式，这被证明对提高检索精度更重要。为了进一步提高检索精度，VPR通常采用两个阶段的过程：该方法首先利用全局特征从数据库中检索候选项，然后利用成对局部描述符匹配对初始候选项进行重新排序。考虑到重新排序阶段，许多最先进的方法[6，16]仍然依赖于传统方法，例如几何验证[27]。几何验证通常以蛮力方式执行局部描述符匹配，即，两个地方描述之间的详尽比较-5666tors 集合来找到相互最近的邻居匹配。当基于与RANSAC [14]的匹配估计单应性利用局部描述符匹配来重新排序初始候选者可以显著提高检索性能，但是计算成本高，这对于时间敏感的系统是不友好的[2，26]。为了充分利用局部描述符来保证性能，同时减轻计算成本，我们设计了ETR，一种用于重新排序的高效Transformer，可以直接为图像对生成相似性得分，如图1所示。受Transformers [39]的成功以及SuperGlue[31]和LoFTR [33]等开创性工作的启发，我们使用Transformers来处理从预训练的CNN模型中提取的本地描述符。由于Transformer的注意机制和全局感受野，我们可以利用自我注意来捕捉编码在单个图像中的复杂空间关系。双向交叉注意可以代替相对昂贵的相互最近邻搜索过程，更有效地进行跨图像的局部特征匹配。与传统的重排序方法不同，该模型将查询和前k个候选的融合描述符作为输入，从而使重排序前k个候选的过程更加简单。k个邻居需要单个前向传递。较传统的几何验证方法只能串行处理图像对，所提出的模型可以很容易地并行化，并显着加快重新排序的过程，同时在多个基准上获得有竞争力的结果。本文的贡献如下：• 我们提出了一个有效的Transformer图像重新排序，利用自我和交叉注意力直接预测的相似性的图像对。ETR能够以低计算时间和内存要求并行处理图像对。• 我们表明，ETR可以被视为一个通用的重新排序算法，以提高检索性能的全球唯一的方法，并可以作为一个替代品，为其他重新排序方法。• 实验结果表明，ETR可以达到最先进的性能在几个VPR基准。2. 相关工作图像表示在视觉场所识别中起着重要的作用，可以进一步分为两类。局部描述符还可以被视为关键点描述符或区域描述符，包括传统的手工制作的局部特征（例如，SIFT [23]，SURF [4]）和最近的基于学习的特征（例如，DELF [24]、R2D2 [30]）。本地描述符可以是聚合以获得全局描述符或执行图像对之间的交叉匹配。为了学习任务特定的局部特征（例如，界标），已经提出了几种尝试[24，6]。为了更好地利用VPR先验知识，Patch-NetVLAD [16]直接从由VPR优化的聚合技术NetVLAD [1]生成的全局描述符中提取多尺度斑块特征，这逆转了传统的局部到全局的图像表示过程，并为局部特征提取提供了新的视角。全局描述符用于将图像概括为一个紧凑的表示，用于大规模图像检索，同时对外观，光照和视点变化具有鲁棒性。在传统机器学习时代，全局描述符主要是通过聚合手工制作的局部描述符来开发的[18，19，3]。如今，大多数高性能的全局特征都基于深度卷积神经网络[32，17]或视觉变换器[12，13]。提出了许多方法来优化如池化的操作（例如，GeM [28]和R-MAC [36]）或聚合（例如，NetVLAD [1]和NetBoW [25]），以创建更紧凑和更有区别的全局特征。为了训练深度CNN或视觉变压器模型，提出了基于排名的损失[8，42]和基于分类的损失[9]。在视觉位置识别中重新排名。重新排序的初始候选人已被证明是一种有效的方法，以提高性能。几何验证[16，24，6，20]是VPR中广泛使用的一种重新排序方法，可以生成稳定且可解释的结果。重新排序过程可分为两个步骤：特征匹配和一致性检查。特征匹配用于检测一对图像之间的特征对特征的对应关系已经开发了几种算法，如SuperGlue [31]和LoFTR [33]，以优化该过程。一致性检查用于分析空间变换的一致性并验证对应关系的可靠性，通常使用RANSAC [14]实现。已经提出了一些其他空间匹配尝试[16，5]来降低计算复杂性。尽管如此，这些方法仍然是计算密集型过程，并且需要大量的本地描述符来保证性能。视觉任务中的变形金刚。Transformers [39]最早出现在自然语言处理领域，已经成为序列建模的事实最近，变形金刚在纯视觉任务中引起了越来越多的关注[12，7]。作为变形金刚体系结构的关键部分与我们的工作最相关的是RRT [35]，RRT使用标准的Transformer结构来学习图像对的视觉关系。与RRT不同，我们利用自我-5667i=1∈K∈·联系我们CNNETR块池段编码SAETR块SA...ETR块SACCACACA池Z足球俱乐部相似性CNN图2. 所提出方法的概述。对于给定的输入图像对（Ia，Ib），从预先训练的CNN中提取的全局和局部描述符被级联以构成ETR的输入，表示为（Ia，Ib）。然后将它们与分段编码相加，并由N个ETR块处理，ETR块由自注意层和交叉注意层组成。该模型最终产生相似性得分（Ia，Ib）。该模型被训练以优化二进制交叉熵损失。注意层和交叉注意层用于两组描述符之间的消息传递，实验证明该方法具有较好的性能。3. 方法ETR的概述如图2所示对于一个给定的查询图像，我们的方法首先使用它的全局描述符检索前k个候选人。然后，对于查询图像和候选集中的每个图像，我们构造一个图像对，并将它们馈送到ETR中以获得相似性得分，该相似性得分将用于对初始候选进行重新排序。不同于先前的基于CNN的重新排序方法（例如，[34，20，6，16]），我们可以从全局和局部描述符中学习不同的知识，以直接计算图像网络（FFN）层。自注意层首先将输入向量转换为三个不同的矩阵，即Q，K和V，维度为dq=dk=dv=d模型。自注意力层的输出计算为：Q KTAttention（Q，K，V）=softmax（Kld ）V（1）MHA是一种提高香草自我注意力层性能的机制。Q、K、V分别线性投影h次到dq′、dk′和dv′维上。这里，h是磁头的数量，dq′=dk′=dv′=dmodel/h。MHA将Q、K、V作为输入，并包括多个自注意模块：MHA（Q，K，V）= Concat（head1，.，标题h）W O相似性。头（二）=注意力（Q，K，V）我我我3.1. 特征提取请注意，我们的ETR旨在关注基于全局和局部描述符的图像重新排名。从理论上讲，基于CNN的方法产生的描述符可以用作所提出的模型的输入。考虑到特征提取时间和描述符大小，我们提出了两个版本的ETR，分别使用DELG [6]和SuperPoint [10]作为特征提取器，命名为ETR-S和ETR-D。DELG是一个统一的全局和局部特征提取框架，而SuperPoint只关注局部特征提取。我们提出了这两个模型变量，蚂蚁证明架构的通用性，并为时间关键型应用程序提供实用的选择。3.2. ETR块在描述建议的ETR块之前，我们首先简要介绍Transformer架构作为背景。Transformer包含一个多头自注意（MHA）层和一个完全连接的前馈这里Q（以及类似的K和V）是Qih的级联，WORd模型× d模型是线性投影矩阵。FFN由两个线性变换层和一个非线性激活函数组成，可表示为：FFN（X）=W2σ（W1X），W1Rd模型× dh和W2Rdh× d模型是两个参数矩阵，dh是隐层维数. σ表示非线性激活函数。输出计算为：x=LN（x+MHA（Q，K，V））（3）y=LN（x+FFN（x））其中LN表示层归一化函数。现在我们介绍所提出的ETR块，如图3所示ETR块交织自注意（self-attn）层和交叉注意（cross-attn）层。对于自注意层，输入向量Qi（K，V）来自图像对（fa或fb）的相同输入。自我注意力负责捕捉图像本身的本地描述符，5668∈−nGi=1l和1l，L活泼地为了更好地利用Trans-former的注意力机制，我们将输入序列（f a，f b）排列如下：fa=[Hg（Xa）; Hl（Xa）;. ;Hl（Xa）]fb=[Hg（Xb）;Hl（Xb）;. ;Hl（Xb）]g l，1l，L（五）图3.所提出的ETR块由自注意层和交叉注意层组成。Hg（Xg）=XgWg+γH1（X1）=X1+S1+γWgRdg× dl是将Xg投影到dl维的参数矩阵，γ是BERT [11]中用于区分全局描述符和局部描述符的段嵌入。是以尺度指数Sl，i作为输入以获得对应尺度嵌入的线性嵌入函数[;]表示连接操作。与RRT [35]不同，我们不使用位置嵌入和类标记。对于位置嵌入，我们没有观察到性能增益的好处。对于类令牌，已进行了消融研究，更多详情见第4.4节。通过输入和ETR块，完整的流水线可以描述为：fa，fb=ETR-块i（fa，fb）个依赖项对于交叉注意层，Q′、（K′和V′）i+1i+1i ia bbfa，fb=fa，fb（六）来自（f）和f，用红色标记）或（fN N和fa，用绿色标记），取决于交叉注意力交叉注意力集中在学习跨图像的局部描述符之间的关系，探索图像对的相似性[40]。给定一个输入对（fa，fb），ETR块的输出（fa，fb）由下式获得：ya=self-attn（Qfa，Kfa，Vfa）z=Concat（[Pool（fa），Pool（fb）]）Wz其中i=0，...，N1（N为ETR块的个数），Pool为池化方法（本文采用平均池化），Wz∈ R2dl×1为线性投影矩阵。监管我们将图像重新排序视为分类任务，采用常用的BCE损失作为训练目标，定义如下：yb=自attn（Qfb，Kfb，Vfb）ˆa（四）L（z，y）=−1<$[y<$log（σ（z））+（1−y<$）log（1−σ（z））]Ffb=cross-attn（Qya，Kyb，Vyb）=cross-attn（Qyb，Kya，Vya）ni=0时y=I（Ia，I b）（7）其中自属性和交叉属性是标准的转换器层。3.3. 模型架构模型输入。对于输入图像I，其全局描述符和局部描述符表示为Xg∈Rdg，Xl=其中n是训练图像对的数量，I（Ia，Ib）是一个指示函数，当Ia和Ib表示相同的位置时等于1，否则等于0。σ（z）是将输出z转换为概率的sigmoid函数。4. 实验{Xl，i∈Rdl}L，其中L是本地描述符。对于利用DELG [6]作为特征提取器的ETR-D，需要额外的比例因子Sl，i列表。该列表包含一组预定义的图像尺度，它们中的每个元素是整数，表示从其导出对应的局部描述符Xl，i的尺度。对于利用SuperPoint [10]作为特征提取器的ETR-S，由于仅使用一个图像比例，因此不需要比例因子S1给定图像对（Ia，Ib），全局描述符和局部描述符可以是：描述符分别表示为（Xa，Xb）和（Xa，Xb）。训练数据集。 ETR 模型使用 Google Landmarks v2（GLDv 2，[44]）的“v2-clean”分割[46]的子集进行训练。GLDv2是大规模地点识别的基准，它包含超过400万个带有标签的图像。对于ETR-S，我们从GLDv 2-clean中随机抽取15，000个界标，其中每个界标至少有10个图像，最多有100个图像。这导致450，508张图像，这是“v2-clean”分割的30%。 ETR-D使用与RRT相同的训练集[35]，公平的比较本集包含322，008张图片，gg l lETR块SA层添加规范CA层添加规范前馈前馈添加规范添加规范多头注意多头注意KVYYY中文中文5669∈×2H√1表1.与最先进的基准进行比较方法MSLS值皮茨30k东京24/7MSLS挑战R@1R@5R@10R@1R@5R@10R@1R@5R@10R@1R@5R@10SFRS [15]69.280.383.189.494.795.985.491.193.342.553.758.0NetVLAD [1]58.671.276.181.991.293.767.077.880.335.147.451.7[29]第二十九话65.075.778.280.791.494.058.469.574.330.241.347.1DELG global [6]72.281.484.678.487.491.673.083.587.039.352.658.2RRT [35]72.486.589.080.790.793.986.794.094.939.155.463.0SP-SuperGlue [10，31]78.482.884.287.294.896.488.290.290.250.656.958.3本地DELG [6]83.289.389.589.895.396.686.492.493.052.261.965.4[16]第十六话77.884.386.587.594.594.870.278.782.248.159.462.3[16]第十六话79.586.287.788.794.595.986.088.690.548.157.660.5ETR-S（我们的）80.586.588.983.191.193.890.193.094.653.962.866.1ETR-D（我们的）79.388.089.684.291.693.889.294.395.250.662.165.8从一万二千个地标中随机抽取（每个地标最少有十幅图像）。测试数据集。为了验证我们提出的模型的泛化能力，我们直接在几个关键的基准数据集上评估我们的模型：MSLS [43]，E30 k [38]和Tokyo 24/7 [37]。30k包含6816个查询图像和1000个图库图像。东京24/7包含76 k图库图像和315个使用移动电话摄像头拍摄的查询图像。这两个数据集非常具有挑战性，因为查询图像是在不同条件下拍摄的，包括白天，日落和夜晚，而图库图像仅在白天拍摄MSLS是一个大规模的长期地点识别数据集，包含160万个街道级图像，其中特别包括以下所有方面的同步变化：地理多样性（全球30个主要城市）、季节、一天中的时间、日期（超过7年）、视角和天气[16]。我们在总共有1.9k个查询图像和57k个图库图像的MSLS值集和MSLS挑战集上评估我们的模型。评估指标。我们使用与[1]相同的评估Re-call @N度量，其中如果前N个检索到的参考图像中的至少一个在地面真值容限内，则查询图像被确定为被正确定位。对于300 k [38]和东京24/7 [37]，地面真值公差为25米平移误差。对于MSLS [43]，25 m平移和40°定向误差。召回率被定义为正确定位的查询图像的百分比4.1. 实现细节ETR-D设置。ETR-D使用DELG [6]作为预训练的特征提取器。利用ResNet 的DELG-50 [17]为主干。DELG将全局和局部特征提取统一到一个单一的深度模型中。在3个尺度上提取全局描述符{1，1，2}，维数dg= 2048。当地的德-到2.0），每个都具有维数dl= 128。原始的DELG模型为每个图像提取具有最高注意力分数的前1000个局部描述符。在RRT [35]之后，我们仅利用顶部L= 500个局部描述符。为了统一维度，我们使用额外的线性投影层WgRdg×dl将全局描述符投影到128维模型具有N = 3个ETR块，自attn和交叉attn具有h=4个头，dq、dk、dv和d模型被设置为128。FFN层中的隐藏层维度为dh=1024。该模型使用AdamW[22]优化器和余弦学习率衰减策略进行训练，初始学习率为1 10−3。我们用196的批量训练模型30个epoch，其中2个epoch用于学习率预热[21]。ETR-S设置。由于DELG的局部特征提取过程对于大规模系统来说仍然是一个高成本，我们提出了ETR-S，它使用了一个高效的特征提取器Su-perPoint [10]。在ETR-S中，我们不将全局描述符项g（Xg）并入等式中。 5. 我们还放弃了尺度嵌入法（ Sl ），因为SuperPoint仅在一个图像尺度上执行局部特征提取。我们提取了前1024个局部描述符，每个图像的注意力得分最高，每个图像的维数dl=256。在我们的实验中使用前500个描述符（L=500）。对于该架构，我们使用具有4个头部（h=4）的2个ETR块（N=2）。dq、dk、dv设置为256，FFN中的dh该模型使用AdamW [22]优化器训练100个epoch，学习率为1×10−3。模特训练在训练过程中，对于查询图像，我们首先使用全局描述符来检索前100个候选图像，从中随机抽取负图像，这些负图像具有与查询图像不同的标签。阳性样本从与查询共享相同标签的图像中请注意，与其他方法不同[1，16，15]，我们的模型不训练以7个图像尺度（范围从0.25到基准的任何训练集）提取脚本5670表2.将ETR-S和ETR-D与RRT [35]在20130 k和Tokyo 24/7数据集上进行比较。所有方法都对DELG global检索到的前k（k=10，50，100，200，300）个图像进行重新排序[6]。DELG global在2013年的原始指标为78.4% R@1、87.4% R@5、91.6% R@10，而在东京24/7上为73.0% R@1、83.5% R@5、87.0% R@10。数据集#重新排序图像R@1RRT [35]R@5 R@10ETR-S（我们的）R@1 R@5 R@10ETR-D（我们的）R@1 R@5 R@101081.189.591.682.889.691.683.889.691.65080.890.593.882.691.093.884.391.293.7皮茨30k10080.790.793.983.191.193.884.291.693.820080.590.693.982.991.093.784.291.793.930080.490.793.988.693.393.784.191.893.81083.285.787.086.089.587.084.186.087.05085.192.492.789.894.994.987.993.394.9东京24/710086.794.094.990.193.094.689.294.395.220087.694.095.688.993.093.389.294.996.530087.994.395.988.693.393.789.595.696.5图4.与东京24/7数据集上最先进的方法进行比较仅全局检索结果用实线表示，而重新排序结果用虚线表示我们的方法优于所有全局检索和重新排序方法。4.2. 与现有技术的我们比较ETR与几个国家的最先进的方法。其中，第一组包含仅全局检索方法，包括NetVLAD [1]，SFRS [15]，DELG global [6]和AP-GEM [29]。我们还比较了重新排序方法，包括Patch-NetVLAD [16]，SP-SpuerGlue [31，6]，RRT [35]和DELG local [6]。对于Patch-NetVLAD，我们测试了其面向速度和注重性能的配置，分别表示为 Patch-NetVLAD-s 和 Patch-NetVLAD-p 。对于 SP- SuperGlue ，其通过使用SuperGlue [31]来重新排列候选人，以从SuperPoint [10]等本地描述符中识别匹配。 Patch-NetVLAD 和 SP-SuperGlue对NetVLAD检索到的前100个图像进行重新排名，而RRT、DELG local、ETR-S和ETR-D对DELGglobal检索到的前100个图像进行重新排名。表1显示了我们方法的定量结果与其他方法相比。ETR-D在MSLS val、Tokyo 24/7和MSLS挑战数据集上的性能优于所有仅全局检索方法SFRS、NetVLAD、AP-GEM和DELG global，平均分别为7.3%、19.5%、21.8%和11.5%（所有百分比均为R@1的绝对增加）。ETR-S在MSLS val、Tokyo 24/7和20130 k测试数据集上获得了与ETR-D相似的结果，并且在MSLS挑战数据集上优于所有比较方法。对于300k数据集，我们的方法的性能不如强基线方法SFRS。请注意，SFRS是使用建议的自监督细粒度区域相似性在3000 k数据集上进行精细训练的，这可以大大提高性能，而我们的方法仅在GLDv2的一个子集上进行训练。与两阶段方法相比，ETR也产生了有竞争力的结果。与RRT相比，ETR-D在几乎所有四个数据集上都实现了最佳性能，特别是MSLS值集和MSLS挑战集，R@1回收率的绝对改善分别为6.9%和11.5%。值得注意的是，ETR-D和RRT是在相同的数据集下训练的，以进行公平的比较。ETR-D在MSLS val set、MSLSchallenge set 和 Tokyo 24/7 中的性能优于 Patch-NetVLAD ，而在 100000 中的性能较差。请注意，Patch-NetVLAD是在30 k和MSLS数据集上训练的，而我们的方法没有在这些数据集上进行微调。此外，Patch-NetVLAD由于其多尺度和高维的特点，需要巨大的存储空间和极大的计算代价，不适合于资源受限和时间敏感的系统。ETR-S在2.30k内实现了有竞争力的结果，并且在重新排序延迟方面比SP-SuperGlue和DELG local快633倍和12，183倍（见表3）。要更直观地比较ETR与其他方法，请参见图4。与RRT比较。RRT [35]也是一种基于Transformer的图像重新排序模型，因此我们将5671表3.特征提取和重新排序（前100名）延迟，不同重新排序方法的理论要求。延迟在NVIDIA GeForce RTX 3090 GPU上测量。我们在30k [38]测试数据集上进行这些实验。法提取重新排名存储器延迟（ms）延迟（ms）（MB）本地DELG [6]152731000.9[16]第十六话212001.9[16]第十六话487770044.2SP-SuperGlue [10，31]738000.7RRT [35]15280.5ETR-D（我们的）152140.5ETR-S（我们的）760.7表4.不同合并方法在ETR-D的MSLS val和Tokyo 24/7数据集上的性能。合并方法东京24/7MSLS值R@1R@5R@10R@1R@5R@10CLS58.970.684.755.771.577.5创业板84.894.394.676.485.587.7最大池66.787.992.166.779.183.9平均池89.595.696.579.388.089.6侧RRT作为主要基线进行更详细的比较。为了进行公平的比较，ETR-D和RRT是在相同的数据集上训练的，并且使用相同的数字（例如，500)R50-DELG [6]描述符。ETR-S使用500个Su- perPoint本地描述符。所有模型对DELG global检索到的前k（k= 10，50，100，200，300）幅图像进行重新排序。表2显示了两个基准数据集的结果，分别是 20130 k [38] 和 Tokyo 24/7[37]。与DELG global和RRT相比，ETR-D在两个数据集的几乎所有条件下都实现了最佳的重新排名性能。例如，当对前300个邻居重新排序时，我们的模型比DELG全局方法有了很大的改进，在R@1，R@5，R@10上的平均改进分别为11.1%，8.3%，5.9%，与RRT相比，绝对增加2.7%、1.2%、0.3%。ETR-S也超过了DELG全球的显著利润率，并实现了与ETR-D相当的结果取所有数据集的平均值，ETR-S在重新排序前50张图像时，在R@1，R@5，R@10得分上的绝对增益分别为3.3%，1.5%，2.2%，优于这些改进表明，与RRT中使用的原始Transformer体系结构相比，我们提出的自我和4.3. 时延和存储器在实际的VPR应用中，延迟和存储消耗是必须考虑的重要因素。表3显示了所有比较技术的计算时间和内存占用。提取延迟表示为单个图像提取特征的时间，而存储器是所提取的特征的大小。图5.我们的模型在东京24/7 [37]，MSLS val [43]，MLS 30 k[37]和MSLS挑战[43]上的重新排名性能分别基于NetVLAD[1]，SFRS [15]，AP-GEM [29]和DELG global [6]生成的全局检索结果。仅全局检索结果用虚线表示，而我们的重新排序结果用实线表示。我们的方法可以显着提高不同的全球唯一的检索方法的检索指标，表现出很强的泛化能力。重新排序延迟是重新排序查询图像的前100个邻居所需的时间。在重新排序延迟方面， ETR-D 比 Patch-NetVLAD-p [16]和SP-SuperGlue [10，31]快约550倍和271倍，内存消耗小88.4倍和1.4倍。Patch-NetVLAD-p在多尺度上提取高维（dim = 4096）斑块特征（例如，补丁大小= 2，5，8），这导致极大的存储器占用。ETR-S比RRT和Patch-NetVLAD-s快1.3倍和33.3倍。该方法比传统方法在重新排序延迟方面快了几个数量级，更适合于实际场景。ETR-D和RRT [35]都使用了DELG本地描述符的一半，因此内存消耗几乎是DELG本地方法的一半。RRT[35]比ETR-D快1.75倍，这是因为RRT将图像对中的两组描述符连接到一个序列中，因此可以在一个单一的前向传递中获得输出。我们的方法利用自我注意和交叉注意在两组描述符之间传递消息，这需要两次前向传递来获得输出。5672通过NetVLAD进行全局检索通过AP-GEM进行ETR-D重新排名查询ETR-D重新排名查询SFRS全局检索DELG全局检索ETR-D重新排名查询ETR-D重新排名查询图6.来自Tokyo 24/7 [37]、K30 k [38]、MSLS val [43]和MSLS挑战数据集的定性示例对于每个查询，前5个邻居排名的全球检索和重新排名的ETR-D。正确/不正确的邻居用绿色/红色边框标记。仅全局方法显示出检索具有与查询相似的全局布局的图像的趋势，而我们的完全重新排序方法可以捕获图像之间更细粒度的匹配。左上角的一个是最具代表性的例子，其中包含非常严重的昼夜变化。4.4. 消融研究重新排名的泛化能力。我们表明，ETR可以被认为是一个一般的重新排序方法。为了验证该方法的泛化能力，我们使用该模型对4种不同的方法（NetVLAD，SFRS，AP-GEM和DELG global）在4个不同的数据集（包括 Tokyo 24/7 ， MSLS val ， J2EE 30 k 和 MSLSchallenge）上检索的全局结果进行了重新排序。ETR-D和ETR-S在本实验中实现了类似的结果，我们仅显示了ETR-D的结果，详见图5。我们的模型可以显著地提高四种全局检索方法在所有四个数据集上的性能除此之外，通过重新排序更多的邻居（例如，top-200，top-300），性能可以进一步提高。实验结果表明，该模型具有良好的泛化能力，可以作为一个即插即用的模块来代替传统的耗时的重排序方法。图6说明了通过仅全局方法和我们的重新排序方法检索的定性示例如第一行所示，仅全局方法可以检索通常相似的图像，并且不能处理严重的昼夜和视点ETR可以成功地执行匹配，并表现出很大的鲁棒性的外观和illumination的变化，这可以显着提高性能比全球唯一的检索。合并方法的选择在表4中，我们提供了不同特征池方法之间的比较。我们得到了，服务器，利用平均池实现最佳性能东京24/7和MSLS值数据集。当用平均池化替换GeM（我们使用p = 3的池化指数值）时，性能略有下降。而使用类标记代替平均池时，性能会显著下降。这表明所有输出标记对于最终的特征表示都很重要。请注意，我们使用相同的训练设置进行这些实验。5. 结论我们提出了ETR，一种新的基于transformer的重新排序方法，利用自我和交叉注意力层直接探索图像对的相似性。ETR模型是轻量级的，并且可以容易地并行化，使得重新排名前k个图像仅需要单个镜头。我们表明，ETR优于国家的最先进的几个VPR数据集。此外，ETR可以被视为一个通用的重排序模型，以进一步提高性能的其他全球检索方法，而需要更少的计算时间和内存消耗。ETR是有效的，非常适合于系统强调计算效率和实时执行，如自主驾驶导航和移动机器人定位。6. 确认本工作得到了国家重点研究发展计划（批准号：200000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000& 2019YFB2102800 ）和上海市档案研究计划（2108）。5673引用[1] Relja Arandjelovic，Petr Gronat，Akihiko Torii，TomasPa-jdla，and Josef Sivic. Netvlad：用于弱监督位置识别的CNN架构。在CVPR中，第5297-5307页，2016年。[2] 亚尼斯·阿夫里西斯和乔治·托利亚斯。Hough金字塔匹配：加速大规模图像检索的几何重新排序。IJCV，107（1）：1[3] Artem Babenko和Victor Lempitsky。聚合局部深度特征用于图像检索。在ICCV，第1269- 1277页[4] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。Surf：加速健壮的功能。见ECCV，第404[5] LuisGCamara，CarlG？bert，andLiborP？reu c？基于cnn特征空间匹配的高鲁棒视觉场所识别在ICRA，第3748-3755页[6] Bingyi Cao，Andre Araujo，and Jack Sim.统一深度局部和全局特征进行图像搜索。在ECCV，第726-743页[7] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。在ECCV，第213-229页[8] Weihua Chen ， Xiaotang Chen ， Jianguo Zhang ， andKaiqi Huang.除了三重态损失：一个深度的四元组网络用于人的重新识别。在CVPR，第403-412页[9] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。在CVPR中，第4690-4699页[10] Daniel DeTone，Tomasz Malisiewicz，and Andrew Rabi-novich. Superpoint：自监督兴趣点检测和描述。在CVPR研讨会，第224[11] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：用于语言理解的深度双向变换器的预训练。在NAACL，2018年。[12] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. ICLR，2021年。[13] Alaaeldin El-Nouby，Natalia Neverova ，Ivan Laptev和Herv e'J e' gou。训练视觉变换器进行图像检索。arXiv：2102.05644，2021。[14] Martin A Fischler和Robert C Bolles。随机样本一致性：一个范例模型拟合与应用程序的图像分析和自动制图。Communications of the ACM，24（6）：381[15] 葛一笑，王海波，朱峰，赵瑞，李洪生.用于大规模图像定位的自监督细粒度区域相似性。在ECCV，第369[16] Stephen Hausler ， Sourav Garg ， Ming Xu ， MichaelMilford，and Tobias Fischer. Patch-netvlad：多尺度融合局部-全局描述符的地点识别。在CVPR中，第14141-14152页[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[18] 她的名字是MatthijsDouzeCordeliaSchmid和Patrick Pérez。将局部描述符聚集成紧凑的图像表示。在CVPR，第3304-3311页[19] Her ve'J e' gou，FlorentPerronnin，

下载后可阅读完整内容，剩余1页未读，立即下载