基于Transformer的目标重识别框架

181 浏览量更新于2023-10-14 收藏 13.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

ID: 16CNN-basedmethodsID: 443Transformer-basedmethodsCNN-basedmethodsTransformer-basedmethods150130TransReID：基于Transformer的目标重识别0何舒婷1,2* 罗浩2 王丕超2 王帆2 李浩1†01 浙江大学 2 阿里巴巴集团0{shuting he,jiangwei zju}@zju.edu.cn {michuan.lh,pichao.wang,fan.w,lihao.lh}@alibaba-inc.com0摘要0提取稳健的特征表示是目标重识别（ReID）中的关键挑战之一。尽管基于卷积神经网络（CNN）的方法取得了巨大的成功，但它们一次只处理一个局部邻域，并且由于卷积和下采样操作（例如池化和步幅卷积）导致的细节信息丢失而受到影响。为了克服这些限制，我们提出了一种纯Transformer的目标ReID框架，名为TransReID。具体而言，我们首先将图像编码为一个补丁序列，并通过一些关键改进构建了一个基于Transformer的强基线，该基线在几个ReID基准上与基于CNN的方法取得了竞争性的结果。为了进一步增强Transformer上下文中的稳健特征学习，我们精心设计了两个新颖的模块。 (i)拼图补丁模块（JPM）通过移位和补丁重排操作重新排列补丁嵌入，生成具有改进的区分能力和更多多样化覆盖的稳健特征。 (ii)引入了辅助信息嵌入（SIE）来减轻特征对摄像机/视角变化的偏见，通过插入可学习的嵌入来融合这些非视觉线索。据我们所知，这是第一个采用纯Transformer进行ReID研究的工作。TransReID的实验结果非常有前景，在人物和车辆ReID基准上取得了最先进的性能。代码可在https://github.com/heshuting555/TransReID获得。01. 引言0目标重识别（ReID）旨在将特定对象与不同场景和摄像机视角关联起来，例如人物ReID和车辆ReID的应用。提取稳健和有区分性的特征是ReID的关键组成部分，并且一直被...0* 本工作是何舒婷在阿里巴巴实习期间，在罗浩和王丕超的指导下完成的。†通讯作者0(a) (b) (c) (d) (a) (b) (c) (d) (a) (b) (c) (d)0图1：注意力图的Grad-CAM [34]可视化：(a) 原始图像，(b)基于CNN的方法，(c) 基于CNN+注意力的方法，(d)基于Transformer的方法，捕捉全局上下文信息和更多有区分性的部分。0图2：具有相似外观的2个难样本的输出特征图可视化。与基于CNN的方法相比，基于Transformer的方法在输出特征图中保留了背包的细节，如红色框所示。为了更好的可视化，输入图像缩放到大小为1024 × 512。0长期以来，基于CNN的方法[19, 37, 36, 44, 42, 5, 12, 13,53,15]在目标ReID领域中存在两个未得到很好解决的重要问题。 (1)在全局范围内利用丰富的结构模式对目标ReID至关重要[54]。然而，由于有效感受野的高斯分布，基于CNN的方法主要关注小的有区分性的区域[29]。最近，引入了注意力模块[54, 6, 3, 21,1]来探索长程依赖关系[45]，但其中大部分嵌入在深层中，不能解决CNN的根本问题。因此，基于注意力的方法仍然更喜欢大的连续区域，难以提取多个多样化的有区分性部分（见图1）。 (2)具有详细信息的细粒度特征也很重要。然而，CNN的下采样操作（例如池化和步幅卷积）会降低输出特征图的空间分辨率，这极大地影响了区分外观相似的对象的能力[37,27]。如图2所示，基于CNN的特征图中丢失了背包的细节，使得难以区分这两个人。150140最近，Vision Transformer（ViT）[8]和Data-efficientimageTransformers（DeiT）[40]表明，纯Transformer在图像识别的特征提取上可以与基于CNN的方法一样有效。通过引入多头注意力模块并去除卷积和下采样运算符，基于Transformer的模型适合解决基于CNN的ReID中上述问题的原因如下：（1）多头自注意力捕捉长距离依赖关系，并驱使模型关注CNN模型中不同的人体部位（例如图1中的大腿、肩膀、腰部）。（2）没有下采样运算符，Transformer可以保留更多的详细信息。例如，可以观察到特征图上围绕背包的差异（在图2中用红框标记），可以帮助模型轻松区分两个人。这些优势激发了我们在物体ReID中引入纯Transformer。尽管如上所述，Transformer仍然需要针对物体ReID进行特定设计，以应对图像中的独特挑战，例如图像中的大变化（例如遮挡、姿势多样性、摄像机视角）。在基于CNN的方法中，已经付出了大量努力来缓解这一挑战。其中，局部部分特征[37,44,20,48,28]和辅助信息（例如摄像机和视角）[7,61,35,30]被证明对增强特征的鲁棒性至关重要和有效。学习部分/条带聚合特征使其对遮挡和错位具有鲁棒性[49]。然而，将基于CNN的刚性条带部分方法扩展到纯Transformer方法可能会破坏全局序列的长距离依赖关系，因为全局序列会分成几个孤立的子序列。此外，考虑到辅助信息，例如摄像机和视角特定信息，可以构建一个不变的特征空间，以减少辅助信息变化带来的偏差。然而，基于CNN的辅助信息的复杂设计，如果直接应用于Transformer，无法充分利用Transformer的固有编码能力。因此，为了使纯Transformer成功处理这些挑战，特定设计的模块是不可避免和必要的。因此，我们提出了一种名为TransReID的新型物体ReID框架，用于学习鲁棒的特征表示。首先，通过进行几个关键的适应性调整，我们构建了一个基于纯Transformer的强基线框架。其次，为了扩展长距离依赖关系并增强特征的鲁棒性，我们通过移动和重组补丁嵌入来重新排列补丁嵌入，并将其重新分组以进行进一步的特征学习，提出了一个拼图补丁模块（JPM）。JPM在模型的最后一层上使用，以并行提取鲁棒特征。0由于全局分支不包括这个特殊操作，因此网络倾向于提取具有全局上下文的扰动不变和鲁棒特征。其次，为了进一步增强鲁棒特征的学习，引入了一种辅助信息嵌入（SIE）。我们提出了一个统一的框架，通过可学习的嵌入有效地整合非视觉线索，以减轻由摄像机或视角引起的数据偏差。以摄像机为例，所提出的SIE有助于解决摄像机间和摄像机内匹配之间的巨大配对相似性差异（见图6）。SIE还可以轻松扩展以包括除我们已经演示的之外的任何非视觉线索。据我们所知，我们是第一个在物体ReID领域中研究纯Transformer应用的人。本文的贡献总结如下：0•我们首次提出了一种利用纯Transformer进行ReID任务的强基线，并取得了与基于CNN的框架相当的性能。0•我们设计了一个拼图补丁模块（JPM），包括平移和补丁洗牌操作，有助于对象的扰动不变和鲁棒特征表示。0•我们引入了一个辅助信息嵌入（SIE），通过可学习的嵌入来编码辅助信息，并且被证明可以有效地减轻特征偏差。0•最终的框架TransReID在人员和车辆ReID基准测试中，包括MSMT17[46]、Market-1501[55]、DukeMTMC-reID[33]、Occluded-Duke[31]、VeRi-776[25]和VehicleID[24]，取得了最先进的性能。02. 相关工作02.1. 目标ReID0目标ReID的研究主要集中在人员ReID和车辆ReID上，大多数最先进的方法都基于CNN结构。目标ReID的一个流行流程是设计适当的损失函数来训练CNN骨干（例如ResNet[11]），用于提取图像的特征。交叉熵损失（ID损失）[56]和三元组损失[23]在深度ReID中被广泛使用。Luo等人[27]提出了BNNeck来更好地结合ID损失和三元组损失。Sun等人[36]提出了一个统一的视角来看待ID损失和三元组损失。精细化特征。精细化特征被用来聚合来自不同部分/区域的信息。精细化部分可以通过大致的水平条带或语义解析自动生成。像PCB[37]、MGN[44]、AlignedReID++[28]、SAN等方法0 1278***!150150[32]等将图像分成几个条带，并为每个条带提取局部特征。使用解析或关键点估计来对齐不同部分或两个对象在人员和车辆ReID中也被证明是有效的[26, 30, 47,31]。侧信息。对于在交叉摄像头系统中捕获的图像，由于不同的摄像头设置和物体视点引起的姿势、方向、光照、分辨率等方面存在很大的变化。一些工作[61,7]使用侧信息，如摄像头ID或视点信息来学习不变特征。例如，基于摄像头的批量归一化（CBN）[61]强制将来自不同摄像头的图像数据投影到相同的子空间中，从而大大减小了跨摄像头对和内摄像头对之间的分布差距。视点/方向不变特征学习[7, 60]对于人员和车辆ReID也很重要。02.2. 视觉中的纯Transformer0Transformer模型是在自然语言处理（NLP）领域中提出的，用于处理序列数据[41]。许多研究还表明它在计算机视觉任务中的有效性。Han等人[9]和Salman等人[18]对Transformer在计算机视觉领域的应用进行了调查。纯Transformer模型越来越受欢迎。例如，图像处理Transformer（IPT）[2]利用transformer进行大规模预训练，并在超分辨率、去噪和去雨等几个图像处理任务上取得了最先进的性能。最近提出了ViT[8]，它直接将纯Transformer应用于图像块的序列。然而，ViT需要一个大规模的数据集来预训练模型。为了克服这个缺点，Touvron等人提出了一个名为DeiT的框架，该框架引入了一种特定于transformer的教师-学生策略，以加速ViT的训练，而无需大规模的预训练数据。03. 方法论0我们的目标ReID框架基于基于transformer的图像分类，但在捕捉鲁棒特征方面进行了几个关键改进（第3.1节）。为了进一步提升transformer上下文中的鲁棒特征学习，我们在第3.2节和第3.3节中精心设计了拼图补丁模块（JPM）和辅助信息嵌入（SIE）。这两个模块以端到端的方式进行联合训练，如图4所示。03.1. 基于变压器的强基线0我们为目标ReID构建了一个基于变压器的强基线，遵循目标ReID的通用强流程[27,44]。我们的方法有两个主要阶段，即特征提取和监督学习。0扁平化补丁的线性投影0变压器层0变压器层0� !0位置0嵌入0ID损失0三元组损失0BN0�0�0* 额外可学习的0[cls]嵌入0图3：基于变压器的强基线框架（显示了非重叠分区）。标有�的输出[cls]标记用作全局特征f。受[27]启发，我们在f之后引入了BNNeck。0提取和监督学习。如图3所示，给定图像x ∈ R H × W ×C，其中H，W，C分别表示其高度，宽度和通道数，我们将其分割为N个固定大小的补丁{x i p | i = 1, 2, ∙ ∙ ∙ ,N}。在输入序列之前，我们添加了一个额外的可学习的[cls]嵌入标记xcls。输出的[cls]标记用作全局特征表示f。通过添加可学习的位置嵌入来融合空间信息。然后，输入序列被馈送到变压器层中，可以表示为：0Z 0 = [ x cls ; F ( x 1 p ); F ( x 2 p ); ∙ ∙ ∙ ; F ( x N p )] + P ,(1)0其中Z 0 表示输入序列嵌入，P ∈ R (N+1) × D是位置嵌入。F是将补丁映射到D维的线性投影。此外，使用l个变压器层来学习特征表示。解决了基于CNN的方法的有限感受野问题，因为所有变压器层都具有全局感受野。也没有下采样操作，因此保留了详细信息。重叠补丁。纯变压器模型（例如ViT，DeiT）将图像分割为非重叠的补丁，丢失了补丁周围的局部邻近结构。相反，我们使用滑动窗口生成具有重叠像素的补丁。将步长表示为S，补丁大小为P（例如16），则两个相邻补丁重叠的区域的形状为（P−S）×P。具有分辨率H×W的输入图像将被分割成N个补丁。0N = N H × N W = � − P0S � × � W + S 0S � (2)0 *12345678*****Camera-1Camera-2Camera-3Camera-6Camera-5ViewPointRFLRLFLRRRRFCamera-4*****!!!"#!"$!"%!"< = log�1 + exp�∥fa − fp∥22 − ∥fa − fn∥22��(3)3.2. Jigsaw Patch Modulefeatures has been widely used for CNN-based methods totackle these challenges.Suppose the hidden features input to the last layerare denoted as Zl−1 = [z0l−1; z1l−1, z2l−1, ..., zNl−1].Tolearn ﬁne-grained local features, a straightforward solutionis splitting [z1l−1, z2l−1, ..., zNl−1] into k groups in orderwhich concatenate the shared token z0l−1 and then feed kfeature groups into a shared transformer layer to learn klocal features denoted as {f jl |j = 1, 2, · · · , k} and f jlis the output token of j-th group.But it may not takefull advantage of global dependencies for the transformerbecause each local segment only considers a part of thecontinuous patch embeddings.To address the aforementioned issues, we propose ajigsaw patch module (JPM) to shufﬂe the patch embeddingsand then re-group them into different parts, each of whichcontains several random patch embeddings of an entireimage. In addition, extra perturbation introduced in trainingalso helps improve the robustness of object ReID model.Inspired by ShufﬂeNet [52], the patch embeddings areshufﬂed via a shift operation and a patch shufﬂe operation.The sequences embeddingsl−1 are shufﬂed as follow:150160扁平化补丁的线性投影0变压器层0变压器层0�0变压器层0位置0嵌入0辅助信息嵌入0变压器层0拼图补丁模块0损失0全局分支0损失损失损失损失0拼图分支0! − 10* 额外可学习的0[cls]嵌入0图4：提出的TransReID框架。辅助信息嵌入（浅蓝色）将非视觉信息（如相机或视角）编码为嵌入表示。它与补丁嵌入和位置嵌入一起输入到变压器编码器中。最后一层包含两个独立的变压器层。一个是标准的用于编码全局特征。另一个包含拼图补丁模块（JPM），它将所有补丁进行洗牌并重新分组成几个组。所有这些组都输入到共享的变压器层中以学习局部特征。全局特征和局部特征都对ReID损失做出贡献。0其中�∙�是向下取整函数，S设置为小于P。NH和NW分别表示高度和宽度上分割补丁的数量。S越小，图像被分割成的补丁越多。直观上，更多的补丁通常会带来更好的性能，但计算成本更高。位置嵌入。由于ReID任务的图像分辨率可能与图像分类中的原始图像不同，因此无法直接加载在ImageNet上预训练的位置嵌入。因此，引入了双线性2D插值来帮助处理任何给定的输入分辨率。与ViT类似，位置嵌入也是可学习的。监督学习。我们通过构建全局特征的ID损失和三元组损失来优化网络。ID损失L ID是没有标签平滑的交叉熵损失。对于一个三元组集合{a, p,n}，带有软边界的三元组损失L T 如下所示：0尽管基于Transformer的强基线在对象ReID中可以取得令人印象深刻的性能，但它利用整个图像的信息进行对象ReID。然而，由于遮挡和错位等挑战，我们可能只能对对象进行部分观察。学习细粒度的局部特征，如条纹特征，已被广泛用于基于CNN的方法来解决这些挑战。假设输入到最后一层的隐藏特征被表示为Z l-1 = [z 0 l-1; z 1 l-1，z 2 l-1，...，z Nl-1]。为了学习细粒度的局部特征，一个直接的解决方案是将[z 1 l-1，z 2 l-1，...，z Nl-1]按顺序分成k组，其中连接共享标记z 0l-1，然后将k个特征组输入到共享的Transformer层中，学习k个局部特征，表示为{f j l | j = 1, 2, ..., k}，其中f jl是第j组的输出标记。但是，由于每个局部段仅考虑连续补丁嵌入的一部分，它可能无法充分利用Transformer的全局依赖性。为了解决上述问题，我们提出了一个拼图补丁模块（Jigsaw PatchModule，JPM），对补丁嵌入进行洗牌，然后将其重新分组为不同的部分，每个部分包含整个图像的几个随机补丁嵌入。此外，训练中引入的额外扰动还有助于提高对象ReID模型的鲁棒性。受ShuffleNet的启发，通过移位操作和补丁洗牌操作对补丁嵌入进行洗牌。序列嵌入Z l-1 的洗牌如下：0•第1步：移位操作。前m个补丁（除了[cls]标记）被移动到末尾，即[z 1 l-1，z 2 l-1，...，z N l-1]经过m步移位变为[z m+1 l-1，z m +2 l-1，...，z N l-1，z 1 l-1，z 2 l-1，...，z0• 第2步：补丁洗牌操作。移位后的3.3. Side Information EmbeddingsZ′0 = Z0 + λS(C,V )[r ∗ NV + q],(5)150170补丁通过k组进行进一步的洗牌操作。0通过移位和洗牌操作，局部特征f jl可以覆盖来自不同身体或车辆部位的补丁，这意味着局部特征具有全局判别能力。如图4所示，与拼图补丁平行的是另一个全局分支，它是一个标准的Transformer，将Z l-1编码为Z l = [f g; z 1 l, z 2 l, ..., z N l]，其中fg作为基于CNN的方法的全局特征。最后，全局特征f g和k个局部特征使用L ID 和L T进行训练。整体损失计算如下：0L = L ID(f g) + L T(f g) + 10j = 1 (L ID(f j l) + L T(f j l))(4)0在推断过程中，我们将全局特征和局部特征[f g，f 1 l，f 2l，...，f k l]连接在一起作为最终的特征表示。仅使用f g是一种计算成本较低且性能略有下降的变体。0在获得细粒度特征表示之后，特征仍然容易受到摄像机或视角变化的影响。换句话说，由于场景偏差，训练模型可能很容易无法区分来自不同视角的同一对象。因此，我们提出了一种侧信息嵌入（Side InformationEmbedding，SIE）方法，将非视觉信息（例如摄像机或视角）融入嵌入表示中，以学习不变的特征。受位置嵌入的启发，位置嵌入采用可学习的嵌入来编码位置信息，我们插入可学习的一维嵌入以保留侧信息。具体而言，如图4所示，SIE与补丁嵌入和位置嵌入一起插入到Transformer编码器中。假设总共有NC个摄像机ID，我们将可学习的侧信息嵌入初始化为SC ∈RNC×D。如果图像的摄像机ID是r，则其摄像机嵌入可以表示为SC[r]。与在补丁之间变化的位置嵌入不同，摄像机嵌入SC[r]对于图像的所有补丁都是相同的。此外，如果对象的视角可用，可以通过视角估计算法或人工注释将视角标签q编码为图像的所有补丁的SV[q]，其中SV ∈RNV×D，NV表示视角ID的数量。现在的问题是如何整合这两种不同类型的信息。一个简单的解决方案可能是直接将两个嵌入相加，如SC[r] +SV[q]。然而，由于冗余或对抗性，这可能使两个嵌入相互抵消0信息。我们提议将摄像机和视角联合编码为S（C，V）∈R（NC×NV）×D。最后，将具有摄像机ID r 和视角ID q的输入序列输入到Transformer层中，如下所示：0其中Z0是等式2中的原始输入序列，λ是平衡SIE权重的超参数。由于位置嵌入对于每个补丁是不同的，但在不同的图像之间是相同的，而S（C，V）对于每个补丁是相同的，但对于不同的图像可能具有不同的值。Transformer层能够直接添加具有不同分布特性的嵌入。这里我们仅演示了使用包含摄像机和视角信息的SIE的用法，这两者都是分类变量。在实践中，SIE可以进一步扩展以编码更多种类的信息，包括分类和数值变量。在我们对不同基准测试的实验中，无论何时都包含摄像机和视角信息。04. 实验04.1. 数据集0我们在四个人员ReID数据集上评估了我们提出的方法，包括Market-1501 [55]，DukeMTMC-reID [33]，MSMT17[46]，Occluded-Duke[31]，以及两个车辆ReID数据集，VeRi-776 [25]和VehicleID[24]。值得注意的是，与其他数据集不同，Occluded-Duke中的图像是从DukeMTMC-reID中选择的，训练/查询/库集分别包含9％/ 100％/10％的遮挡图像。除VehicleID外的所有数据集都为每个图像提供了摄像机ID，而只有VeRi-776和VehicleID数据集为每个图像提供了视角标签。这些数据集的详细信息总结在表1中。0数据集对象 #ID #图像 #摄像机 #视角0MSMT17 人员 4,101 126,441 15 - Market-1501 人员 1,501 32,6686 - DukeMTMC-reID 人员 1,404 36,441 8 - Occluded-Duke 人员1,404 36,441 8 - VeRi-776 车辆 776 49,357 20 8 VehicleID 车辆26,328 221,567 - 20表1：本文使用的数据集统计数据。04.2. 实现0除非另有规定，所有人员图像都调整大小为256×128，所有车辆图像都调整大小为256×256。训练图像使用随机水平翻转，填充，随机裁剪和随机擦除[57]进行增强。批量大小设置为每个ID4张图像。采用SGD优化器，动量为0.9，权重衰减为1e-4。学习率初始化为ResNet501x51.375.376.495.2ResNet1011.48x53.877.076.995.2ResNet1521.96x55.678.477.195.9ResNeSt501.86x61.282.077.696.2ResNeSt2003.12x63.583.577.996.4DeiT-S/160.97x55.276.376.395.5DeiT-B/161.79x61.481.978.495.9ViT-B/161.79x61.081.878.296.5ViT-B/16s=142.14x63.782.778.696.4ViT-B/16s=122.81x64.483.579.096.5150180推断MSMT17 VeRi-776 主干时间 mAP R1 mAP R10表2：不同主干的比较。推断时间是将每个模型与ResNet50进行比较的表示，因为只需要相对比较。所有实验都在同一台机器上进行，以进行公平比较。ViT-B/16被视为基准模型，并在本文的其余部分中缩写为Baseline。0以余弦学习率衰减为0.008。除非另有规定，我们设置m =5，k = 4，以及m = 8，k =4，分别用于人员和车辆ReID数据集。所有实验都是在一台Nvidia Tesla V100GPU上使用PyTorch工具箱1进行FP16训练。ViT的初始权重在ImageNet-21K上进行了预训练，然后在ImageNet-1K上进行了微调，而DeiT的初始权重仅在ImageNet-1K上进行了训练。评估协议。遵循ReID社区的惯例，我们使用累积匹配特征（CMC）曲线和平均精度（mAP）来评估所有方法。04.3. 基于变换的基准结果0在本节中，我们在表2中比较了基于CNN和Transformer的主干网络。为了展示计算和性能之间的权衡，选择了几种不同的主干网络。DeiT-small、DeiT-Base、ViT-Base分别表示DeiT-S、DeiT-B、ViT-B。ViT-B/16 s=14表示在重叠拼图设置中，ViT-Base的拼图大小为16，步长为S =14。为了进行全面比较，还包括了每个主干网络的推理时间消耗。我们可以观察到ResNet系列和DeiT/ViT之间在模型容量上存在很大差距。与ResNet50相比，DeiT-S/16在性能和速度上稍微更好。DeiT-B/16和ViT-B/16与ResNeSt50[50]主干网络的性能相似，推理时间比ResNeSt50少（1.79倍 vs1.86倍）。当我们减小滑动窗口的步长S时，基线的性能可以提高，但推理时间也在增加。ViT-B/16 s=12比ResNeSt200（2.81倍 vs3.12倍）更快，并且在ReID基准上的性能略优于ResNeSt200。因此，ViT-B/16 s=12取得了更好的速度-准确性权衡。01 http://pytorch.org0MSMT17 VeRi-776 主干网络 #组 mAP R1 mAP R10基线 - 61.0 81.8 78.2 96.5 +JPM 1 62.9 82.5 78.6 97.0 +JPM 262.8 82.1 79.1 96.4 +JPM 4 63.6 82.5 79.2 96.8 +JPM无重新排列4 63.1 82.4 79.0 96.7 +JPM无局部 4 63.5 82.5 79.1 96.60表3：拼图块模块的消融研究。'无重新排列'表示拼图特征被分成部分而没有进行重新排列，包括移动和洗牌操作。'无局部'表示我们评估全局特征而不是连接局部特征。0（a）（b）（c）（d）（a）（b）（c）（d）（a）（b）（c）（d）0图5：注意力图的Grad-CAM可视化。（a）输入图像，（b）基线，（c）无重新排列的JPM，（d）JPM。0与ResNeSt200相比，DeiT/ViT在速度-准确性权衡方面具有更好的表现。此外，我们相信DeiT/ViT在计算效率方面仍有很大的改进空间。04.4. JPM消融研究0在表3中验证了提出的JPM模块的有效性。与基线相比，JPM在MSMT17和VeRi-776上分别提供了+2.6%和+1.0%的mAP改进。增加组数k可以提高性能，同时稍微增加推理时间。在我们的实验中，k =4是在速度和性能之间进行权衡的选择。将JPM和无重新排列的JPM进行比较，我们可以观察到移动和洗牌操作有助于模型学习更具辨别力的特征，在MSMT17和VeRi-776上分别提高了+0.5%和+0.2%的mAP。还观察到，如果只在推理阶段使用全局特征fg（仍然使用完整的JPM进行训练），性能（表示为“无局部”）与完整特征集的版本几乎相当，这提示我们在推理阶段只使用全局特征作为一种具有较低存储成本和计算成本的高效变体。图5中可视化的注意力图显示，具有重新排列操作的JPM可以帮助模型学习更多的全局上下文信息和更具辨别力的部分，使模型对扰动更加鲁棒。04.5. SIE消融研究0性能分析。在表4中，我们评估了SIE在MSMT17和VeRi-776上的有效性。由于MSMT17不提供视点注释，所以Pairwise Distance (w/o SIE)0.00.020.050.080.10.12Probabilityintra_camerainter_camera0.20.40.60.81.0Pairwise Distance (w/ SIE)0.00.020.050.080.10.12Probabilityintra_camerainter_cameraPairwise Distance (w/o SIE)0.00.020.050.080.10.12Probabilityintra_viewpointinter_viewpoint0.10.20.30.40.50.60.70.8Pairwise Distance (w/ SIE)0.00.020.050.080.10.12Probabilityintra_viewpointinter_viewpoint0.51.01.52.02.53.0Value of 60.060.561.061.562.062.563.063.5mAP(%)60.962.262.463.060.860.5Performance on MSMT1780.080.581.081.582.082.5RanK-1(%)81.281.581.982.480.780.4mAPRank-10.51.01.52.02.53.0Value of 77.578.078.579.079.580.0mAP(%)78.279.079.379.479.979.6Performance on VeRi-77695.695.896.096.296.496.696.897.0RanK-1(%)96.196.496.196.696.396.6mAPRank-162.481.979.696.9TransReID64.983.380.696.9150190MSMT17 VeRi-776 方法摄像头视点 mAP R1 mAP R10基线 � � 61.0 81.8 78.2 96.5 + S C [ r ] � � 62.4 81.9 78.7 97.1 + S V [ q ] �� - - 78.5 96.9 + S ( C,V ) � � - - 79.6 96.90表4：SIE消融研究。由于人物ReID数据集不提供视点注释，视点信息只能在VeRi-776中进行编码。0（a）摄像头对的距离。0（b）视角对的距离。0图6：我们在VeRi-776上可视化了不同摄像头对和视角对的距离分布。（a）摄像头间和摄像头内的距离分布。（b）视角间和视角内的距离分布。0（a）MSMT170（b）VeRi-7760图7：超参数λ的影响。0仅编码摄像头信息的SIE结果显示在MSMT17上。VeRi-776不仅每个图像都有一个摄像头ID，而且根据车辆方向还有8个不同的视角标注。因此，结果显示了SIE编码摄像头ID和/或视角信息的各种组合。当SIE仅编码图像的摄像头ID时，模型在MSMT17上获得了1.4%的mAP和0.1%的rank-1准确率提升。在VeRi-776上也可以得出类似的结论。当SIE编码视角信息时，基准线获得了78.5%的mAP。当同时编码摄像头ID和视角标签时，准确率提高到了79.6%的mAP。如果将编码改为S C [ r ] + S V [ q]，这是次优的，如第3.3节所讨论的，我们只能在VeRi-776上达到78.3%的mAP。因此，提出的S (C,V)是一种更好的编码方式。0距离分布的可视化。如图6所示，图6a和图6b分别显示了不同摄像头和视角变化的分布差距。当我们将SIE模块引入基准线时，减小了摄像头/视角之间和摄像头/视角内的分布差距，这表明SIE模块减弱了由于各种摄像头和视角引起的场景偏差的负面影响。λ的消融研究。我们在图7中分析了SIE模块的权重λ对性能的影响。当λ=0时，基准线在MSMT17和VeRi-776上分别达到了61.0% mAP和78.2%mAP。随着λ的增加，mAP分别提高到了63.0%mAP（λ=2.0，对于MSMT17）和79.9%mAP（λ=2.5，对于VeRi-776），这意味着SIE模块现在有助于学习不变特征。继续增加λ，性能会下降，因为特征嵌入和位置嵌入的权重被削弱。04.6. TransReID的消融研究0最后，我们在表5中评估了引入JPM和SIE的好处。对于基准线，JPM和SIE分别在MSMT17/VeRi-776上提高了+2.6%/+1.0% mAP和+1.4%/+1.4%mAP的性能。当这两个模块一起使用时，TransReID在MSMT17和VeRi-776上分别达到了64.9%（+3.9%）mAP和80.6%（+2.4%）mAP。实验结果显示了我们提出的JPM、SIE和整体框架的有效性。0MSMT17 VeRi-776 方法 JPM SIE mAP R1 mAP R10基准线 � � 61.0 81.8 78.2 96.5 � � 63.6 82.5 79.2 96.80表5：TransReID的消融研究。04.7. 与最先进方法的比较0在表6中，我们将我们的TransReID与包括人员ReID、遮挡ReID和车辆ReID在内的六个基准方法进行了比较。在MSMT17和DukeMTMC-reID上，TransReID�（DeiT-B/16）的性能大幅超过了先前的最先进方法（+5.5%/+2.1%mAP）。在Market-1501上，TransReID�（256×128）在mAP上与最先进的方法表现相当。我们的方法在与CBN[61]等也整合了摄像头信息的方法进行比较时也显示出了优越性。在所有人员数据集中，我们还超过了一种名为PAT的典型的“CNN骨干+Transformer”方法。CNNCBN c⃝ [61]256×12842.972.877.391.367.382.5--PRReID[10]72.593.372.688.6OSNet [58]256×12852.978.784.994.873.588.6--SAN[32]72.593.379.794.3MGN [44]384×12852.176.986.995.778.488.7--UMTS [16]75.995.880.987.0RGA-SC [54]256×12857.580.388.496.1----VANet v⃝ [7]66.389.883.396.0SAN [17]256×12855.779.288.096.175.787.9--SPANv⃝[4]68.994.0--SCSN [6]384×12858.583.888.595.779.091.0--PGAN [51]79.396.578.093.2ABDNet [3]384×12860.882.388.395.678.689.0--PVEN v⃝ [30]79.595.684.797.0PGFA [31]256×128--76.891.265.582.637.351.4SAVER [19]79.696.479.995.2HOReID [43]256×128--84.994.275.686.943.855.1CFVMNet [38]77.195.381.494.1ISP [59]256×128--88.695.380.089.652.362.8GLAMOR[39]80.396.578.693.6PAT [22]256128--

下载后可阅读完整内容，剩余1页未读，立即下载