没有合适的资源?快使用搜索试试~ 我知道了~
72970NFormer:具有邻居Transformer的鲁棒人物再识别0Haochen Wang 1,Jiayi Shen 1,Yongtuo Liu 1,Yan Gao 2,Efstratios Gavves 10阿姆斯特丹大学1,小红书公司20{h.wang3, j.shen, y.liu6}@uva.nl, wanjianyi@xiaohongshu.com, egavves@uva.nl0摘要0人物再识别旨在在不同摄像头和场景中高度变化的环境中检索人物,其中鲁棒且具有辨别性的表示学习至关重要。大多数研究都考虑从单个图像中学习表示,忽略了它们之间的任何潜在交互作用。然而,由于身份内部变化较大,忽略这种交互通常会导致异常特征。为了解决这个问题,我们提出了一种邻居Transformer网络,即NFormer,它明确地建模了所有输入图像之间的交互,从而抑制了异常特征,并导致更鲁棒的表示。由于建模大量图像之间的交互是一项任务繁重且存在许多干扰因素的工作,NFormer引入了两个新模块,即Landmark Agent Attention和Reciprocal NeighborSoftmax。具体而言,Landmark AgentAttention通过在特征空间中的少数地标上进行低秩因式分解,高效地建模了图像之间的关系图。此外,ReciprocalNeighborSoftmax仅对相关的邻居进行稀疏注意力,而不是所有邻居,从而减轻了无关表示的干扰,并进一步减轻了计算负担。在四个大规模数据集上的实验证明,NFormer实现了最新的最佳性能。代码发布在https://github.com/haochenheheda/NFormer。01. 引言0基于图像的人物再识别(Re-ID)旨在从不同摄像头和场景捕获的大量图像中检索特定的人物。迄今为止,大多数研究都集中在如何从单个图像中获得更具辨别性的特征表示上,无论是通过注意力模块[17, 26, 32, 34],部分表示学习[6,14, 28, 41]还是GAN生成[20, 23,46]。然而,Re-ID面临的主要挑战之一是由于不同的摄像头设置、光照、视角、遮挡或固有因素等外部因素,任何个体的外观通常会发生显著变化。0没有NFormer的表示0身份10身份20身份3 使用NFormer的表示0图1.点表示特征空间中用于检索的人物表示向量。右上图示出通过从单个输入图像学习获得的人物表示分布,通常会出现由遮挡、着装变化、视角变化等引起的异常值(空心点)。右下图显示了通过NFormer获得的人物表示分布,它明确地建模了相关邻居人物之间的关系(灰色线),以减轻上述异常条件引起的异常特征,并保持每个身份最具辨别性的特征。0识别特定个体对应的表示通常存在高内部变化,导致匹配不稳定且对异常值敏感,如图1所示。解决高内部变化的一个可能方法是利用同一身份的不同图像中存在的知识。直观地说,可以鼓励模型将邻近的表示聚集在一起,因为它们很可能对应于相同的个体。一些研究提出在Re-ID中建模输入图像之间的关系,无论是通过条件随机场[3]还是来自训练批次的相似性图[21]。然而,这些工作仅关注仅在训练时建模少数图像之间的关系,在测试时,由于计算限制,它们独立地提取每个图像的表示,这不可避免地会导致训练和测试之间存在差距。此外,它们仅在每个训练批次中建立了一小组图像之间的关系,因此能够从彼此中学到的相关信息有限。总之,我们认为72980鼓励每个身份的较低表示变化在训练和测试中都是至关重要的。基于这个思路,我们提出了一种邻居变换网络,简称NFormer,以有效地模拟所有输入图像之间的关系,无论是在训练还是在测试时。如图2所示,NFormer计算一个表示个体之间关系的亲和矩阵,然后根据亲和矩阵进行表示聚合过程。关系建模的参与抑制了高内部身份变化,并产生了更强大的特征。不幸的是,计算亲和核矩阵的复杂度通常是样本数量的二次复杂度。在人物重识别设置中,这样的计算复杂度在推理过程中很难承受,输入图像的数量很容易增加到几千张。为此,我们提出了一个地标代理注意力模块(LAA),通过在表示空间中引入少量地标代理来减少亲和矩阵中的计算。地标代理将高维特征空间中的表示向量映射到低维编码空间,将大型亲和图分解为较低秩矩阵的乘积。类似地,表示聚合过程中的标准softmax会关注所有输入表示,这往往会因大量无关表示而分散注意力和消耗计算资源。我们引入了互惠邻居softmax函数(RNS)来实现只关注计算可管理的邻居的稀疏注意力。互惠邻居softmax显著限制了无关个体之间的噪声交互,使表示聚合过程更加有效和高效。我们的贡献总结如下:0•我们提出了使用邻居变换网络明确建模个人表示之间的关系,旨在产生强大且具有区分性的表示。0•我们设计了一个地标代理注意力模块,通过将表示映射到具有少量地标代理的低维空间,降低了大型亲和矩阵的计算成本。0•我们提出了一种互惠邻居softmax函数,只关注邻居,从而增强相关个体之间的交互并提高效率。0•我们在四个人物重识别数据集上进行了大量实验,以展示NFormer带来的普遍改进。结果表明,NFormer达到了新的最先进水平。我们进一步指出0NFormer很容易与其他最先进的方法相结合,并进一步提升性能。02. 相关工作0在本节中,我们首先简要回顾了两个主要的Re-ID方法家族:特征表示学习方法和排序优化方法。然后我们介绍了Transformer及其相关应用。02.1. 特征表示学习方法0学习具有区分性的特征表示对于Re-ID至关重要。现有方法中的大多数[17, 26, 28, 41,46]都集中在如何通过单个图像提取更好的表示上。一些方法引入了自动人体部分检测[28,41]或水平图像分割[29]来处理遮挡和错位问题。一些方法在单个图像中设计了注意力模块,以增强不同层次的表示学习。例如,方法[17]涉及像素级注意力,而方法[32,34]实现了通道级注意力以进行特征重新分配。方法[27]抑制背景区域以获得稳健的前景人物表示。另一种方法专注于增加训练数据的丰富性。[13,48]生成对抗遮挡样本以增加训练数据的变化。[20,46]利用GAN生成图像作为辅助信息来帮助训练。总的来说,这个方法家族充分利用了来自单个图像的信息来提取具有区分性的特征表示。02.2. 排名优化方法0排名优化是一种在测试阶段提高检索性能的策略。给定由查询和画廊集之间的距离矩阵得到的初始排名列表,方法[19,22, 37, 38,49]通过以下方法优化排名顺序。[38]提出了一种通过使用相似性和不相似性的排名聚合方法。[19]利用人类反馈来优化排名列表。方法[22,49]提出了查询自适应检索策略来提高性能。[37,47]还利用其他图像的上下文信息。这些方法直接在每个初始排名列表上进行后处理,而不是在表示分布上进行。我们提出的NFormer与这些重新排序方法兼容,以进一步提升性能。02.3. Transformer0Transformer[31]建立在多头自注意力(MHA)的思想上,允许模型共同关注不同的表示元素。Transformer最初是为解决序列问题而提出的。最近,Transformer被广泛用于72990特征提取器0GAP0RNS0×0NFormer0FF0��{�0��(��){��}�=10�{��}�=10�0样本0��0输入图像0��0图2. NFormer的示意图。GAP:全局平均池化。LAA:Landmark Agent Attention。RNS:Reciprocal NeighborSoftmax。FF:前馈网络。输入为N个图像{xi}Ni=1,通过卷积网络后跟GAP,得到表示向量{zi}Ni=1。{zi}Ni=1被馈送到NFormer中,其中提出了LAA将d维表示映射到具有采样的地标代理zi的l维编码空间,然后更高效地获得近似亲和矩阵�A。然后,提出了RNS来获取稀疏的注意权重s(�A),并通过加权聚合{zi}Ni=1来获得输出表示{ui}Ni=1。最后,在NFormer之后对表示向量执行排名算法进行检索过程。0由于其强大的获取长距离依赖性的能力,Transformer在许多视觉任务中被广泛使用,例如用于目标检测的DETR[1],用于目标跟踪的TT [5]和用于图像分类的ViT[8]。我们首先采用Transformer架构来学习Re-ID任务中输入人物之间的关系。03. 邻居Transformer网络0我们首先描述问题设置和所提方法的概述。然后,我们描述了Landmark Agent Attention和Reciprocal NeighborSoftmax。03.1. 问题设置0Re-ID通常被视为一项检索任务。我们从训练集T = {xi,yi}NTi =1开始,其中xi对应于具有身份yi∈ST的第i个图像,ST包含所有训练图像的身份。在训练过程中,我们学习一个模型zi= f(xi),该模型计算每个输入图像的判别特征表示zi [17, 26,32]。在测试时,我们有一个感兴趣的查询集U = {xi}NUi =1。然后,给定一个用于检索的画廊集G = {xi}NGi =1,我们在将查询图像与画廊集G中的图像进行比较时,检索具有正确身份的人。查询集SU中的人的身份与训练期间可用的身份不重叠,即SU∪ST = �。03.2. 学习NFormer0在所描述的设置中,我们对函数f(∙)的形式没有任何限制。通常,f(∙)是在单个输入图像上计算的,因此忽略了可能在不同摄像头和场景中的同一人的表示之间可能出现的任何关系。为了明确考虑这些关系,我们引入了一个函数来获取聚合表示向量ui:0u i = g ( z i , { z j } N j=1 ) = �0j w ij z j,(1)0其中{ z j } N j=1包含通过特征提取函数f(∙)获得的所有输入图像{x i } N i=1的表示向量。在训练过程中,{ x i } N i =1 �T是从训练集中采样得到的大批量数据。而在测试过程中,{x i } N i =1 = U ∪0j w ij = 1。最近,Transformer[31]在建模集合中元素之间的关系方面表现出特别的适应性。通过Transformer的形式,我们将方程(1)改写为:0u i = 0j s ( A ) ij φ v ( z j ),(2)0其中A∈RN×N是包含任意两对输入表示向量z i ,z j之间相似性的亲和矩阵,s(∙)是一个softmax函数,将亲和度转化为权重,φ v(∙)是一个线性投影函数。对于亲和矩阵A,我们有0A ij = K ( φ q ( z i ) , φ k ( z j)) / √0d = q � i k / √0d,(3)0其中φ q (∙)、φ k(∙)是两个线性投影,将输入表示向量z∈RN×d映射到查询和键矩阵q、k∈RN×d。N是输入图像的数量,d是表示向量的维度。K(∙,∙)通常是内积函数。不幸的是,考虑到传统的Transformer网络在建模Re-ID中的人物关系方面是计算上的难题。首先,计算方程(3)中的亲和矩阵A对于图像数量N具有二次O(N^2d)复杂度。因此,亲和矩阵的计算随着N的增加而变得低效,特别是当表示向量的维度d也很大时。为此,我们引入了地标代理注意力模块,将亲和计算分解为两个低维矩阵的乘积,从而减轻了亲和矩阵的计算负担。其次,在方程(2)中,对最终表示向量u i ,我们关注所有的z j,j∈{1,...,N}以进行加权聚合,这也随着N的增加而变得低效。重要的是,加权聚合往往会受到噪声和分散的影响,这是由大量主要是无关的图像引起的。为了解决这些问题,我们引入了互惠邻居softmax函数,实现对邻居的稀疏注意,减少与无关个体的噪声交互,使表示聚合更加有效和高效。我们在图2中展示了完整的流程。3.3. 地标代理注意力Aij = (qk⊤l )i(kq⊤l )⊤j /√d = qik⊤j /√d.(4)Mkij =73000�维0空间0�维0空间0�0��0RNS0� × � � × � � × � � × �0� × � � × �0� × �0� × �0� × � � × � � × �0图3.LAA的流程。矩形的水平边表示相应矩阵的第一维度,垂直边表示第二维度。输入具有表示向量z∈RN×d,查询、键和值矩阵q、k、v∈RN×d分别由三个线性投影函数生成。地标代理zl∈RN×l从z中采样,将d维的q、k映射到l维的�q、�k。然后通过�q和�k的乘积得到近似的亲和矩阵�A。这样,由于实践中l远小于d,获得亲和矩阵的时间复杂度从O(N^2d)降低到O(N^2l)。然后,将RNS应用于�A,并将亲和度转化为稀疏的注意权重。最终输出u通过对值矩阵v进行加权聚合得到。0计算加权聚合的同时,也随着N的增加而变得低效。重要的是,加权聚合往往会受到大量无关图像的噪声和分散的影响。为了解决这些问题,我们引入了互惠邻居softmax函数,实现对邻居的稀疏注意,减少与无关个体的噪声交互,使表示聚合更加有效和高效。我们在图2中展示了完整的流程。3.3. 地标代理注意力0我们提出了一种更高效的方法来获取近似的关联矩阵 � A,而不是测量高维表示向量之间的相似性。关键思想是将高维表示向量 z映射到一个低维编码空间中,使得方程(3)中的关联计算更加高效,受到随机傅里叶特征[24]的启发。如图3所示,按照Transformer [31]的方法,查询、键和值矩阵 q、k、v∈ R N × d 通过三个单独的线性投影 φ q ( ∙ )、φ k ( ∙ )、φv ( ∙ ) 使用表示向量 z ∈ R N × d作为输入获得。具体而言,我们从 z 中随机采样 l 个表示 z l∈ R l × d 作为地标代理,然后用 φ q ( ∙ ) 和 φ k ( ∙ ) 获得q l 和 k l 矩阵。因此,我们可以通过 � q = qk � l , � k = kq �l 将原始的查询和键矩阵 q、k ∈ R N × d 映射到一个 l维空间中,其中 � q、� k ∈ R N × l 。� q ij、� k ij表示表示向量 i ∈ {1, . . . , N} 之间的相似性0和地标代理 j ∈ { 1 , . . . , l }。然后方程(3)可以被替换为:0通过这种方式,我们将大的关联矩阵 A ∈ R N × N的计算分解为两个低秩矩阵 � q、� k的乘法。因此,获得关联矩阵的乘法复杂度从 O ( N 2 d )显著降低到 O ( N 2 l ),因为 l 通常比 d小得多(在我们的实验中,l = 5,d ≥256)。在补充材料的 A 部分,我们进一步证明了 A 和 � A的余弦相似性与 l 呈正相关,较大的 l产生接近1的余弦相似性0其中 l b > l a。事实上,正如我们在实验中在图6(a)中展示的那样,即使只有少量的地标代理,NFormer 也能够稳定地执行。03.4. 互补邻居Softmax0在获得近似的关联矩阵 � A 之后,通常在方程(2)中使用softmax 函数 s将关联转化为注意权重(概率)。我们可以将方程(2)重0j : 当 � A ij >ρ s ( � A ) ij φ v ( z j ) 时,其中 ρ是一个小的阈值。第一部分表示具有小注意权重的元素的总和,第二部分表示具有大注意权重的元素的总和。尽管在 �0j : 当 � A ij ≤ ρ s ( � A ) ij φ v ( z j ) 很小时,随着样本数量 N的增加,总和仍然会很大,并且与求和中的第二项相当,如图 4 (a)所示。因此,最终计算的 u i 将受到不相关样本的显著影响。除了对输出表示 u i的负面影响外,表示聚合的计算复杂度为 O ( N 2 d ),这是由于输入大小 N的原因造成的重要的计算负担。为了缓解上述问题,我们提出了互补邻居Softmax(RNS),以通过互补邻居掩码对少数相关的注意权重进行稀疏化。我们假设如果两个图像在特征空间中是互补邻居,则它们很可能是相关的。为此,我们提出计算一个 top-k 邻居掩码M k0从近似的关联矩阵 � A 中选择每行的前 k 个关联值:0� 1 , j ∈ topk( � A i, : ) 0 , 否则为 0.(6)0然后,我们可以通过使用Hadamard乘积将M k与其转置相乘来获得互逆邻居掩码M。0.20.150.10.10.10.10.50.2SoftmaxRNS0.00.00.00.00.10.00.150.30.51.00.5(a)(b)Mij = Mk ◦ Mk⊤=�1,j ∈ topk(Ai,:), i ∈ topk(A:,j)0,otherwise.(7)RNS(A)ij =Mijexp(−Aij)Mikexp( Aik),(8)73010图4. 互逆邻居Softmax的示意图。 (a)表示常规softmax,在其中对所有输入表示执行softmax,因此许多不相关的表示将对特征聚合产生贡献并分散注意力。 (b)表示互逆邻居Softmax,其中仅保留互逆邻居之间的关系。0对于每个元素M ij,如果i和j都是彼此的前k个邻居,则该值将设置为1,否则为0。通过将此掩码M添加到常规softmax函数中,我们实现了仅在邻居中发生稀疏注意力,从而增加了对更相关图像的关注。RNS的公式如下所示:0正如图4(b)所示,由于大多数注意力值被设置为零,关系被限制在相关邻居之间,使得方程(2)中的聚合更加集中和稳健。此外,由于不需要对权重为零的表示进行加法操作,特征聚合的时间复杂度从O(N^2d)显著降低到O(Nkd)。04. 实验0首先,我们描述数据集、评估协议和NFormer的实现细节。然后,我们进行了广泛的消融研究,以证明每个提出的模块带来的有效性和效率。最后,我们将NFormer与其他最先进的方法在四个大规模Re-ID数据集上进行比较。04.1. 数据集和评估协议0我们在四个广泛使用的大规模人员Re-ID数据集上进行实验:Market1501 [44],DukeMTMC-reID [25],MSMT17[35]和CUHK03[16],以验证NFormer的有效性和效率。上述所有数据集都包含来自不同摄像头或场景的每个身份的多个图像。我们遵循标准的人员Re-ID实验设置。我们使用0文献中的标准评估指标是累积匹配特征(CMC)曲线和平均精度(mAP)。CMC曲线显示排名列表中前K个人中的真正匹配数,mAP指标衡量了在画廊集中的整体重新识别准确性,而不仅仅考虑前K个人。04.2. 实现0我们采用在ImageNet上预训练的ResNet-50作为我们的特征提取器的骨干架构。为了保留空间信息,我们将ResNet的最后一阶段的步幅卷积改为扩张卷积,从而导致总的下采样比例为16。然后我们在ResNet-50骨干之后应用一个全连接层,将嵌入向量的维度从2048降低到256以提高效率。我们堆叠了四个LAA模块来构建NFormer。LAA模块中的地标代理数l设置为5,RNS中的邻居数k设置为20,根据实验结果在计算成本和性能之间取得良好的平衡。在推断过程中,为了公平比较,消除了不同查询图像之间的交互。对于所有实验,图像被调整为固定分辨率256×128。训练过程中采用随机水平翻转作为数据增强。我们结合了身份损失[45]、中心损失[36]和三元组损失[11]来构成总损失函数。这三个损失函数的权重分别为1、1和0.0005。我们使用随机梯度下降(SGD)作为优化器。初始学习率设置为3e-4,动量设置为5e-4。我们轮流训练ResNet-50和NFormer共160个epochs。批量大小设置为128用于训练ResNet-50特征提取器,设置为2048用于训练NFormer。在NFormer训练迭代期间冻结ResNet-50的参数,以实现如此大的批量大小。所有实验都在一台GeForce RTX 3090上使用PyTorch进行。04.3. 消融研究0我们在Market-1501和dukeMTMC-reID数据集上进行了全面的消融研究,以分析LAA和RNS在不同超参数下的有效性。我们将修改后的ResNet-50特征提取器(不包含NFormer)称为Res50,并将其用作基线。NFormer vs.Transformer vs. Res50.表1显示了NFormer、普通Transformer和Res50基线模型在Market-1501和dukeMTMC-reID数据集上的比较。普通Transformer在没有任何特殊设计的情况下,略微超过基线模型的0.5%/1.6%和0.5%/1.3%的top-1/mAP。通过L0图5显示了在Market-1501和dukeMTMC-reID上使用NFormer前后的表示向量的t-SNE可视化结果。我们观察到NFormer具有更好的特征区分能力,同时每个身份的异常值受到显著限制,因为邻居的相关和共同信息被整合到每个数据点中。我们得出结论,NFormer不仅有效地学习了输入人物之间的关系,而且效率也很高。地标代理注意力的影响。我们首先研究了计算近似亲和力图� A 的地标代理数量l的影响。图6(a)(b)(c)(d)𝑙𝑙𝑙𝑙𝑙𝑙cos(vec A , vec()A)(c)(a)(b)mAP𝑁𝑘𝐌𝑘𝐌𝑘Res5093.283.586.174.1+Transformer [31] 93.785.186.675.40.088+NFormer94.791.189.483.50.002573020Figure 5.表示向量的t-SNE可视化结果。图(a)/(b)显示了Market-1501上没有/使用NFormer的几个随机抽样身份。图(c)/(d)显示了dukeMTMC-reID上没有/使用NFormer的几个随机抽样身份。在这个图中,我们可以看到经过NFormer处理后,表示分布更加聚集和分离。具体而言,如果我们在图(a)中选择一个棕色点作为查询人物,排名列表的顶部将有很多青色点,如(a)中的棕色圈所示。相反,由于更聚集和分离的分布,相同查询人物的排名列表在(b)中包含较少的负面人物。图(c)和(d)中的蓝色圈显示了相同的结果。0图6. 图(a)显示余弦相似度cos(vec( A ) , vec( � A))随地标代理数量l的变化情况。图(b)显示mAP随l的变化情况,其中橙色和蓝色虚线表示没有LAA(使用普通亲和力矩阵)的mAP性能。图(c)显示在不同l下,总GFLOPs随输入数量N的变化情况。0图7.该图显示了RNS在Market-1501和dukeMTMC-reID上随邻居数量k变化的mAP情况。RNS-M k 表示使用top-k邻居掩码M k而不是互惠邻居掩码M的RNS。橙色和蓝色水平虚线表示使用普通softmax函数的mAP性能。0相对于Market-1501和dukeMTMC-reID,NFormer在top-1/mAP上分别具有1.5%/7.6%和3.3%/9.4%的较大优势。值得注意的是,NFormer所需的计算量比常规Transformer少了1.5个数量级(每个人的计算量为0.0025GFLOPs,而常规Transformer为0.088GFLOPs)。我们通过可视化表示分布来定性地展示NFormer的有效性。0方法 Market-1501 DukeMTMC GFLOPs T-1 mAP T-1mAP0表1.Res50基线模型、普通Transformer和NFormer在Market-1501和dukeMTMC-reID数据集上的mAP和GFLOPs比较。GFLOPs表示处理每个输入图像的平均浮点运算次数。0在图5中,我们展示了NFormer在Market-1501和dukeMTMC-reID数据集上的效果。我们观察到NFormer具有更好的特征区分能力,同时每个身份的异常值受到显著限制,因为邻居的相关和共同信息被整合到每个数据点中。我们得出结论,NFormer不仅有效地学习了输入人物之间的关系,而且效率也很高。地标代理注意力的影响。我们首先研究了计算近似亲和力图� A 的地标代理数量l的影响。图60(a) 显示余弦相似度cos(vec( A ) , vec( � A))与地标代理数量l呈正相关,并且单调递增,即使l很小也接近1。如图6(b)所示,当l=5时,Market-1501和dukeMTMC-reID上的mAP性能分别达到91.1%和83.5%,与没有LAA模块的原始亲和力图相比仅下降0.3%和0.3%。当l变大时,余弦相似度和mAP性能趋于饱和,而FLOPs继续增长,如图6(c)所示。因此,我们选择l=5作为效果和效率之间的良好平衡。也就是说,LAA模块只需要1.95%的计算量来获取近似亲和力图� A,同时基本保持与原始亲和力图A相比的性能。互惠邻居Softmax的影响。我们在图7中展示了互惠邻居数量k的影响。当k增加时,RNS的mAP性能也增加。n/p20151052015105Res50mAP83.7 83.9 84.1 85.5 74.4 74.4 75.2 76.1+NFormer91.0 90.6 90.1 87.8 83.6 83.0 81.7 79.9∆mAP +7.3 +6.7 +6.0 +2.3 +9.2 +8.6 +6.5 +3.873030方法 Market-1501 DukeMTMC0Res50 93.2 83.5 86.1 76.1 +NFormer 94.7 91.189.4 83.5 +NFormer+KR [47] 94.6 93.0 89.5 88.20� ABDNet [4] 95.4 88.2 88.7 78.6 +NFormer 95.793.0 90.6 85.7 +NFormer+KR [47] 95.7 94.1 91.189.40表2.NFormer、ABD-Net和KR重新排序方法在Market-1501和DukeMTMC数据集上的组合性能。�表示我们复现的性能。0Market-1501和dukeMTMC-reID首先在k=20时达到最大值,分别为91.1%和83.5%。这是因为更多的邻居信息有利于在早期阶段聚合个体表示。然后随着k的继续增加,性能逐渐下降,因为引入了无关的相互作用。因此,我们在所有RNS实验中将k设置为20。如图7所示,RNS在mAP方面优于普通的Softmax函数(图中的水平虚线),在Market-1501和dukeMTMC-reID上分别提高了7.3%和8.9%,这表明仅关注相关的互逆邻居相对于直接结合所有图像来说能够得到更好的特征表示。此外,RNS在不同数量的邻居k下始终优于RNS-Mk,这表明互逆邻居掩码M能够提供更好的学习输入图像之间关系的先验知识。与第三种方法的互补性。NFormer很容易与其他方法结合。我们通过选择SOTA特征提取器ABD-net [4]进行表示学习,并选择重新排序方法RP[47]与NFormer结合来展示这一点。如表2所示,NFormer与ABDNet和RP相结合,在Market-1501和dukeMTMC-reID上的top-1/mAP分别提高了1.0%/3.0%和1.7%/5.9%,这证明了NFormer的兼容性。局限性。NFormer从特征空间中的邻居人员中学习信息。如果测试集中每个身份的图像数量很少,那么个体将无法从彼此获得大量有用的信息。我们在Market-1501和dukeMTMC-reID数据集上进行了消融研究,以分析每个身份的平均图像数量的影响。具体而言,我们从Market-1501和dukeMTMC-reID的原始测试集中分别采样了4个子测试集。每个子测试集的每个身份的平均图像数量不同。然后我们在每个子测试集上评估NFormer和Res50基准模型。结果如表3所示,从中我们可以看出,随着每个身份的图像数量从20减少到5,NFormer带来的改进减少了0方法 数据集 Market-1501 DukeMTMC-reID0子集 0 1 2 3 0 1 2 30表3.NFormer和Res50基准模型在Market-1501和dukeMTMC-reID数据集的不同n/p采样子测试集上的mAP性能。n/p表示每个身份的平均图像数量。0NFormer(∆mAP)在Market-1501和dukeMTMC-reID数据集上从7.3%/9.2%下降到2.3%/3.8%。相比之下,Res50基准模型的性能几乎没有变化,甚至稍微增加。原因是随着图像数量的减少,更容易搜索新的和较小的测试集。因此,结果证实了NFormer的一个限制,即它期望有足够多的相同人物的图像。这使得NFormer在具有许多摄像头和人群的更复杂和大规模的环境中特别有趣,在较小的设置中则不太相关。04.4. 与SOTA方法的比较0最后,我们在Market1501、DukeMTMC-reID、MSMT17和CUHK03上与最新的SOTA方法进行了性能比较,结果如表4所示。总体而言,我们提出的NFormer在性能上优于其他SOTA方法或达到可比较的性能。在Market-1501上的结果。如表4所示,NFormer在所有SOTA竞争对手中实现了最佳的mAP和可比较的top-1准确率。具体而言,即使使用简单的特征提取器Res50,NFormer的mAP也优于第二好的方法ISP(使用HRNet-W30骨干)2.5%。当将NFormer与更好的特征提取器ABDNet[4]结合时,mAP/rank-1准确率进一步提高了1.9%/1.0%,在mAP方面超过了ISP [51]4.4%。值得注意的是,NFormer在mAP方面分别比STF[21]和GCS[3]方法提高了8.4%和9.5%,这两种方法在每个训练批次内建立关系。这表明在训练和测试期间在所有输入图像之间建立关系模型可以得到更好的表示。排名列表的可视化结果在补充材料B部分中展示,从中我们可以看出,NFormer可以帮助限制异常值并提高排名过程的鲁棒性。在DukeMTMC-reID上的结果。结果如表4所示,我们的方法在性能上明显优于其他SOTA方法。具体而言,NFormer与Res50特征提取器相结合,在mAP方面比第二好的方法提高了3.5%。73040方法 Market-1501 duke-reID MSMT17 CUHK03-L CUHK03-D0T-1 mAP T-1 mAP T-1 mAP T-1 mAP T-1 mAP0PCB+RPP (ECCV’18) [29] 93.8 81.6 83.3 69.2 68.2 40.4 - - 63.7 57.5 GCS (CVPR’18) [3] 93.5 81.6 84.9 69.5 -- - - - - MHN (ICCV’19) [2] 95.1 85.0 89.1 77.2 - - 77.2 72.4 71.7 76.5 OSNet (ICCV’19) [50] 94.8 84.9 88.673.5 78.7 52.9 - - 72.3 67.8 Pyramid (CVPR’19) [43] 95.7 88.2 89.0 79.0 - - 78.9 76.9 78.9 74.8 IANet(CVPR’19) [12] 94.4 83.1 87.1 73.4 75.5 46.8 - - - - STF (ICCV’19) [21] 93.4 82.7 86.9 73.2 73.6 47.6 68.262.4 - - BAT-net (ICCV’19) [9] 94.1 85.5 87.7 77.3 79.5 56.8 78.6 76.1 76.2 73.2 PISNet (ECCV’20) [42] 95.687.1 88.8 78.7 - - - - - - CBN (ECCV’20) [52] 94.3 83.6 84.8 70.1 - - - - - - RGA-SC (CVPR’20) [40] 96.1 88.4- - 80.3 57.5 81.1 77.4 79.6 74.5 ISP (ECCV’20) [51] 95.3 88.6 89.6 80.0 - - 76.5 74.1 75.2 71.4 CBDB-Net(TCSVT’21) [30] 94.4 85.0 87.7 74.3 - - 77.8 76.6 75.4 72.8 CDNet (CVPR’21) [15] 95.1 86.0 88.6 76.8 78.954.7 - - - - PAT (CVPR’21) [18] 95.4 88.0 88.8 78.2 - - - - - - C2F (CVPR’21) [39] 94.8 87.7 87.4 74.9 - - 80.679.3 81.3 84.10Res50 93.2 83.5 86.1 76.1 74.9 50.1 74.7 73.8 73.4 71.2 +NFormer 94.7 91.1 89.4 83.5 77.3 59.8 77.2 78.0 77.374.70� ABDNet(ICCV’19) [4] 95.4 88.2 88.7 78.6 78.4 55.5 78.7 75.8 77.3 73.2 +NFormer 95.7 93.0 90.6 85.7 80.862.2 80.6 79.1 79.0 76.40表4.Market-1501、DukeMTMC-reID、MSMT17和CUHK03数据集的定量结果。T-1表示top-1准确率,mAP表示平均精度。每列中最佳性能值用粗体标记,次佳性能值用下划线标记。符号“-”表示相应的值在相应的论文中未提供。�表示我们复现的性能。0ISP[51]。具有ABDNet特征提取器的NFormer在top-1/mAP方面优于ISP[51]的1.0%/5.7%。我们观察到,对于mAP而言,改进更为显著,而对于top-1指标而言,改进较小。原因是NFormer改变了所有输入人员的表示,并且通常对整体搜索产生积极影响,而不仅仅是顶级检索。0在MSMT17数据集上的结果。如表4所示,具有Res50特征提取器的NFormer在mAP方面优于第二好的方法RGA-SC[40](ResNet-50骨干)2.3%,而具有ABDNet特征提取器的NFormer在top-1/mAP方面优于RGA-SC[40]的0.5%/4.7%。NFormer相对于基线模型在top-1/mAP方面显著提高了2.4%/9.7%,这表明NFormer在更大的数据集上表现得更好,因为每个人员都有丰富的邻居信息。0在CUHK03数据集上的结果。我们对CUHK03数据集的手动标注版本和检测版本进行了实验。从表4可以看出,具有ABD-net的NFormer在标注和检测集上都达到了可比较的性能。具有Res50特征提取器的NFormer在标注和检测集上的top-1/mAP分别比基线模型提高了2.5%/4.2%和3.9%/3.5%。我们进一步阐述了改进较少的原因。0在CUHK03数据集上。我们统计得出,CUHK03中每个身份的平均图像数量为9.6,远小于Market-1501的25.7、DukeMTMC-reID的23.4和MSMT17的30.7。因此,NFormer无法从邻居中学习到太多相关信息。我们在消融研究的限制部分提供了详细的分析。05. 结论0在本文中,我们提出了一种新颖的邻居Transformer网络用于人员重识别,它在输入图像之间进行交互以产生稳健且具有区分性的表示。与大多数现有方法侧重于单个图像或训练批次中的少数图像不同,我们提出的方法模拟了所有输入图像之间的关系。具体而言,我们提出了一个LandmarkAgentAttention,以更有效地建模大量输入之间的关系,并提出了一种Reciprocal NeighborSoftmax,以实现对邻居的稀疏关注。因此,NFormer在大规模输入上具有良好的扩展性,并且对异常值具有鲁棒性。在广泛的消融研究中,我们展示了NFormer学习到的稳健、具有区分性的表示,易于
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功