遮挡人员再识别中的特征擦除和扩散网络

9 浏览量更新于2023-10-25 收藏 13.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

47540遮挡人员再识别的特征擦除和扩散网络0Zhikang Wang 1,2* , Feng Zhu 2† , Shixiang Tang 3 , Rui Zhao 2,4 , Lihuo He 5 ‡ , Jiangning Song 101蒙纳士大学，2商汤研究，3悉尼大学，4清远研究院，上海交通大学，5西安电子科技大学0zkwang00@gmail.com, zhufeng@sensetime.com, stan3906@uni.sydney.edu.au, zhaorui@sensetime.com,0lihuo.he@gmail.com, jiangning.song@monash.edu0摘要0遮挡人员再识别（ReID）旨在将遮挡人员图像与整体图像在不同的摄像头视图下进行匹配。目标行人（TP）通常会受到非行人遮挡（NPO）和非目标行人（NTP）的干扰。以往的方法主要关注提高模型对NPO的鲁棒性，而忽视了来自NTP的特征污染。在本文中，我们提出了一种新颖的特征擦除和扩散网络（FED），以同时处理来自NPO和NTP的挑战。具体而言，借助模拟NPO的NPO增强策略在整体行人图像上生成精确的遮挡掩模，我们的提出的遮挡擦除模块（OEM）明确地消除了NPO特征。随后，我们通过新颖的特征扩散模块（FDM）将行人表示与其他记忆特征扩散在特征空间中合成NTP特征。在OEM的遮挡分数的指导下，特征扩散过程在可见的身体部位上进行，从而提高了合成NTP特征的质量。通过联合优化OEM和FDM，我们可以极大地提高模型对TP的感知能力，减轻NPO和NTP的影响。此外，所提出的FDM作为训练的辅助模块，在推理阶段不参与，具有很高的灵活性。在遮挡和整体人员ReID基准测试中的实验证明了FED相对于现有方法的优越性。01. 引言0人员再识别（ReID）旨在检索由不同摄像头捕捉到的相同行人，这些行人之间存在差异0* Zhikang Wang在商汤研究实习期间完成了这项工作。† 通讯作者。‡本研究部分得到了中国国家自然科学基金（批准号61876146）的支持。0（a）整体（b）非行人遮挡（c）非目标行人0图1.对行人图像进行姿势估计和人体解析的示意图。这两个模型在整体和物体遮挡的行人上表现良好，但在多行人图像上失败。同时，人体解析模型在识别个人物品（例如背包和雨伞）方面存在困难。0在不同的视角、光照条件和位置下，行人再识别（ReID）面临着各种挑战。随着深度学习领域的快速发展和大规模图像和视频ReID数据集的发布，基于深度神经网络的ReID方法取得了显著的性能[14, 19, 27,29]。这些方法大多假设每个行人的整体身体可用于特征提取。然而，在现实场景中，例如火车站、学校、医院和购物中心，行人不可避免地会受到非行人遮挡（NPO）和非目标行人（NTP）的干扰。因此，设计一个强大的网络用于遮挡人员的ReID是至关重要的。辅助人体关键点[5,21]和人体解析信息[15]的方法主导了遮挡ReID任务的最新性能。通常，辅助模型首先提取身体信息，然后提取的信息将辅助模型的训练。这种策略可以很大程度上避免错误地将NPO误认为人体部位。然而，这些方法有很多注意事项。首先，由于训练和测试数据之间的领域差异，辅助模型的性能无法保持一致。在图1中，我们采用官方姿势估计47550模型[22]和重新训练的人体解析模型[37]用于提取身体信息。显然，这两个模型在全局和对象遮挡的行人图像上表现良好，但在多行人图像上失败，这意味着NTP的噪声将污染最终的表示。与对象遮挡相比，NTP的特征由于语义指导的原因将导致更高的不匹配概率。其次，人体解析模型无法识别一些属于人物的物品，例如背包、雨伞，这可能导致有价值信息的不足。最后，辅助模型带来的巨大计算使其在实时视频监控中无法接受。0为了解决上述挑战，我们提出了特征擦除和扩散网络（FED），以模拟NPO在图像上的作用和NTP在特征空间中的作用，以增加模型对TP的感知能力。具体而言，我们通过提出NPO增强策略和遮挡擦除模块（OEM）来针对NPO特征擦除。增强策略将通过特定策略粘贴裁剪的补丁来生成行人的遮挡数据。同时，通过分析像素级的值差异，我们可以获得精确的部分标签，指示是否存在对象遮挡。我们将部分标签称为遮挡掩码。接下来，遮挡掩码将指导OEM分析语义信息并为部分特征生成最终的遮挡分数。为了减轻NTP的干扰，一种直接的方法是将其他行人粘贴到图像上进行数据增强。然而，具有多样化背景信息的行人图像可能会通过简单粘贴破坏原始图像的整体性。此外，调整大小操作需要仔细设计以保持纵横比。因此，对于NTP的图像级增强具有挑战性和复杂性。在这里，我们提出了一个可学习的结构，名为特征扩散模块（FDM），它将通过将NTP的特征扩散到原始特征中来模拟多行人图像。在OEM的遮挡分数的指导下，特征扩散操作将仅在身体部位上进行，确保模拟的特征更加真实。通过通过扩散特征优化模型，我们可以间接提高模型对TP的感知能力和对NTP的鲁棒性。0总之，我们提出了特征擦除和扩散网络（FED）来解决遮挡人物再识别中的NPO和NTP的干扰。FED包括三个创新组件：NPO增强策略、遮挡擦除模块（OEM）和特征扩散模块（FDM）。这些组件使网络能够准确感知TP，而不受NPO和NTP的影响。同时，在遮挡数据集（遮挡-DukeMTMC、Partial-REID）上进行了大量实验证明了我们的方法的有效性。0遮挡-DukeMTMC和遮挡-REID数据集（Market-1501和DukeMTMC-reID）证明了我们提出的方法的有效性。特别是在遮挡-DukeMTMC和遮挡-REID数据集上，我们的Rank-1和mAP准确度大大超过了其他最先进的方法。02. 相关工作0在本节中，我们简要概述了全局人物再识别和遮挡人物再识别的现有方法。02.1. 全局人物再识别0人物再识别（ReID）旨在在其他摄像头视图中检索感兴趣的人物，并在近年来取得了巨大进展。现有的ReID方法可以总结为三类，包括手工制作的描述符方法[20,34]，度量学习方法[3, 41]和深度学习方法[23, 28,32]。由于大规模数据集的发布和图形处理单元（GPU）的发展，基于深度学习的方法现在在人物再识别领域中占据主导地位。最近利用基于部分特征的方法已经实现了全局人物再识别的最新性能。张等人通过学习过程中的最短路径损失来执行自动部分特征对齐，而不需要额外的监督或明确的姿势信息。孙等人提出了一种通用的部分级特征学习方法，可以适应各种部分划分策略。注意机制也被采用以确保模型关注人体区域，从而提取更有效的特征。然而，当发生遮挡时，这些方法无法以高准确性检索人物。这个缺点限制了这些方法的实用性，特别是在常见的人群场景中。02.2. 遮挡人员再识别0遮挡人员再识别的研究是由Zhou等人提出的[43]。训练集和画廊集由整体行人图像构建，查询集由遮挡行人图像构建。该主题的最新研究方法可以分为两类：辅助姿势估计[10,12]和人体解析[15,35]。Gao等人提出了一种名为Pose-guidedVisible PartMatching（PVPM）的方法，该方法通过姿势引导的注意力和自我挖掘部分可见性来联合学习判别特征，并在端到端框架中挖掘部分可见性。He等人[10]提出了一种名为Pose-Guided FeatureAlignment（PGFA）的新方法，利用姿势地标来从遮挡噪声中解开有用信息。Huang等人提出了一种名为HPNet的模型，用于提取部分级特征并预测每个部分的可见性，基于人体解析。通过从语义中提取特征............47560特征扩散模块0部分0池化0部分0池化0特征扩散模块0遮挡擦除模块0遮挡擦除模块0ID损失0对比损失0ID损失0对比损失0对比损失0对比损失0ID损失0ID损失0MSE损失0MSE损失0�0�0�′0�′0NPO增强记忆库20ID损失0ID损失0图2.针对遮挡人员再识别提出的特征擦除和扩散网络的概述。两个分支共享相同的参数，网络由特征提取器、遮挡擦除模块（OEM）和特征扩散模块（FDM）组成。'NPOAug'表示NPO增强策略。与记忆库相连的实线表示特征参与记忆更新和损失计算。虚线表示仅损失计算。FDM是一个辅助模块，用于在特征级别上模拟NTP，不参与推理阶段。0通过考虑可见性，对部分区域进行比较，该方法不仅减少了背景噪音，还实现了身体对齐。0与上述方法不同，我们的方法不依赖于额外的模型，可以进行端到端的训练。我们在图像和特征级别上模拟NPO和NTP，从而大大提高了模型的鲁棒性。03. 特征擦除和扩散网络0在本节中，我们详细介绍了提出的特征擦除和扩散网络（FED）。网络的整体架构如图2所示。它始于NPO增强策略，产生图像对和遮挡掩码。根据[13]，我们简单地采用VisionTransformer（ViT）[4]作为特征提取器。位置嵌入和分类[cls]令牌被添加到输入图像中。每个图像的输出特征为f ∈R（n + 1）× c，其中n +1表示图像令牌和一个[cls]令牌，c是通道维度。在我们的设置下，n和c分别为128和768。接下来，我们对图像令牌进行部分池化操作，得到N个局部特征，将其输入到遮挡擦除模块（OEM）中。在这里，我们根据NPO增强策略将N设置为4。两个记忆库将在开始时初始化，并随着训练过程进行更新。辅助特征扩散模块（FDM）将图像特征和第一个记忆库作为输入进行多行人模拟。每个模块的详细信息将在下一节中介绍。03.1. NPO特征擦除0通常，NPO特征擦除需要辅助信息进行指导。在本节中，我们提出了NPO增强策略和遮挡擦除模块来明确学习NPO鲁棒特征。NPO增强策略。遮挡增强策略在遮挡的ReID中是有效的。通常有两种类别：（1）Zhong等人[42]在图像中随机选择一个矩形区域，并用随机值擦除其像素；（2）Chen等人[2]将选定的对象或背景粘贴到图像中。第一种方法有助于减少过拟合的风险，并使模型对遮挡具有鲁棒性。然而，面对多样化的遮挡时，训练的模型由于泛化能力较弱而无法识别它们。第二种方法通过模拟遮挡场景隐式地学习NPO鲁棒特征。然而，它未能充分利用增强带来的潜在信息，例如精确的遮挡区域。受到上述方法的启发，我们提出了NPO增强策略。该策略包括遮挡增强和遮挡掩码生成，分别用于生成用于遮挡模拟的增强图像和用于进一步语义分析的遮挡掩码。根据经验，遮挡发生在四个位置（顶部、底部、左侧、右侧），面积占四分之一至一半。我们的增强策略与Chen等人[2]类似，但有特定的修改。对于遮挡增强，一个重要的步骤是补丁集合的收集。为了避免在补丁集合中包含额外的身体部位，我们从训练集中选择的图像中手动裁剪背景和遮挡对象，并将这些补丁称为遮挡集合。我们正式描述遮挡增强的过程。Occlusion Erasing Module. Although the augmenta-tion strategy is employed while training, the NPO may stillcontaminate representations. To further eliminate the in-fluence of NPO, we propose the occlusion erasing mod-ule (OEM) for part feature erasing.As shown in Fig.2,the module is constructed by 4 sub-modules correspondingto each body part. For each sub-module, it is constructedby two fully connected (FC) layers, one layer normaliza-tion [1], and one Sigmoid function. The layer normaliza-tion is placed between the FC layers, and the Sigmoid func-tion is located at the end. The first FC layer compresses thechannel dimension to the quarter of the original one, aim-ing to wipe off the characteristic information and reserve theMemory Bank ∈ 𝑅!"#×%×('×()W_v𝑓′ ∈ 𝑅%×('×()𝑅*×%×+𝑅+×('×()FFN1W_kW_qMemory SearchingSoftmaxWeighted SumFFN2𝑓,- ∈ 𝑅%×('×()Figure 3. Illustration of the feature diffusion module. The modulediffuses characteristics of memory bank M to the features f ′ forsimulating NTP on feature level.semantic ones. The final Sigmoid function will output theregressed occlusion scores si for each part feature. We referto the multiplication between the occlusion scores and partfeatures as f ′. Functionally the progress can be representedbyf ′i = Sigmoid(WrgLN(Wcpfi)) · fi,(1)where Wcp ∈ Rc/4×c, Wrg ∈ R1×c/4, LN is the layernormalization and i indicates i th part feature.Here, the occlusion masks from the NPO augmentationstrategy are adopted to supervise the training of OEM. Wecalculate the Mean Square Error (MSE) Loss between oc-clusion masks and occlusion scores, and the function can beexpressed asLMSE = 1N4�i=1(si, maski).(2)3.2. Feature Diffusion ModulePrevious works have not focused on the challenges ofNPO. Apart from destroying the feature integrity of theTP, NTP also contaminates representations with realistic se-mantic noise. To solve this issue, we propose a learnablestructure named feature diffusion module (FDM) to simu-late multi-pedestrian images in the feature space. By opti-mizing the diffused features, we aim at indirectly enhancingthe model’s perception ability towards TP and robustnesstowards NTP. As shown in Fig.3, apart from the image fea-tures, an extra memory bankM, which is a collection of47570处理过程如下。首先，给定输入图像，我们对其进行常见的增强操作，例如调整大小、填充和随机裁剪，得到 x ∈ R 3× h × w，其中 h 和 w分别表示高度和宽度。其次，我们从遮挡集合中选择一个大小为 p h × p w 的补丁 p ∈ R 3 × p h × pw。我们认为只有合理的行人遮挡才能为训练生成有价值的数据，因此我们计算补丁的宽高比：α = p h / p w。当 α大于3时，表示补丁更像是垂直遮挡，否则是水平遮挡。我们还对补丁进行常见的增强操作，例如随机裁剪和颜色抖动，以增加其变化性。根据遮挡类型（水平或垂直），我们将补丁调整大小为 R (H/4 � H/2, W) 和 R (H, W/4 �W/2)。然后，我们随机选择 x的一个角作为起点，并将增强的补丁粘贴在上面。增强后的图像命名为 x'。0遮挡掩码生成是一个由精细到粗糙的过程。首先，我们通过减法和绝对值函数得到像素差异 d = |x -x'|。考虑到后续的基于部分的遮挡擦除模块，遮挡掩码的每个位置应该对应特定的身体部位。然而，不同图像之间存在语义（身体部位）的错位，细粒度的遮挡掩码会有许多错误的标签。因此，我们将图像大致分为4个水平条纹，并对其进行标记。如前所述，现实场景中存在垂直和水平遮挡。垂直遮挡只会破坏对称特征的部分。通常，ReID模型可以轻松区分行人和垂直遮挡，并获得有区分度的表示，而无需参考其他信息。因此，在遮挡掩码生成和条纹标记中，我们忽略垂直遮挡，并将条纹视为人体部位（值为1）。对于水平遮挡增强，我们进行软二值化操作。我们将被覆盖超过四分之三的条纹视为遮挡（值为0），否则视为人体部位（值为1）。通过这种方式，我们得到了图像对的精确遮挡掩码。characteristics, is taken as the input. In the following ses-sion, we will introduce M and FDM, respectively.Memory Bank. The generation of M includes mem-ory initialization and memory update. We follow the samestrategy as [7]. The memory is initialized with the ID cen-ters in the training set. We get the extracted features byperforming forward computation, and average features withidentical identities to get ID centers. Note that the mem-ory initialization is only operated at the beginning of thealgorithm and memory update is processed at each iterationin each mini-batch during training. The k-th center ck isupdated by the mean of the encoded features belonging toidentity k in the mini-batch as:ck = mck + (1 − m) 1|Bk|�f ′i∈Bkf ′i,(3)where Bk denotes the feature set belonging to identity kin the mini-batch, m is the momentum coefficient for up-dating, f ′ is the flattened features after OEM. Apart fromacting as the characteristic set, the memory bank M is alsoadopted for calculating the Contrastive Loss which will beintroduced in the following section. We set m as 0.2 in ourexperiments.Feature Diffusion Module. Essentially, FDM is a mod-ified cross attention module based on the standard archi-tecture of the transformer [25].Given the feature vec-tor, queries Q arise from the f ′, and keys K and valuesV arise from the memory bank M. The input feature isf ′ ∈ R1×(N×c), where N corresponds to the previous partpooling operation and is 4. Firstly, we conduct MemorySearching Operation between f ′ and M. It finds K near-est centers MK ∈ RK×(N×c) with different identities fromthe input image. Cosine distance is adopted for measure-ment. Here, we discard the center with an identical identityfor avoiding polarization of the attention matrix which iscalculated through cross-product. Formally,Q = f ′W 1, Ki = MKi W 2, Vi = MKi W 3,(4)mi =exp(βi)Kexp(βj),βi = QKi√dk,(5)fd = Att(Q, K, V ) =K�i=1miVi,(6)f ′d = FFN2(mask · FFN1(fd) + f ′),(7)LID = −yilog(exp(Wifi)IDsj=1 exp(Wjfj)),(8)LC = −logexp(< f, ci > /τ)�IDsjexp(< f, cj > /τ),(9)47580其中 i ∈ 1 , 2 , ..., K , 而 W 1 ∈ R d × d ′ , W 2 ∈ R d × d ′ ,W 3 ∈ R d × d ′是线性投影。然后我们计算注意力矩阵和相应的部分特征。形式上，0其中 √ d k是一个缩放因子。注意力矩阵的每个元素间接地指示了 Q和 K i 之间的连接，而 V和注意力矩阵之间的叉积操作将生成扩散特征。聚合过程可以定义为：0多头注意力操作在该模块中具有重要意义。由于 M K与输入图像具有许多相似的模式，并且这些模式随机分布在K个特征中心中。多头操作将每个中心分成多个部分，并为每个部分生成注意力权重，从而确保更多与 TP相似的模式和足够的 NTP的唯一模式可以聚合。通过这种方式，我们可以在特征级别上模拟多行人图像。在交叉注意力操作之后，我们利用后层归一化前馈神经网络（ FFN 1 ）[ 31 ] 进行非线性变换。FFN 1 ( ∙ )是一个具有两个全连接层和一个激活函数的简单神经网络。在层归一化之前应用残差连接。接下来，我们采用 OEM生成的遮挡分数对转换后的特征和 f ′进行加权求和。这确保了 NTP的特征只添加到人体部位，而不是预先识别的物体遮挡部位，提高了扩散特征的真实性和质量。此外，加权残差操作可以稳定训练过程。然后，我们利用另一个 FFN 2 [ 31 ]生成每个图像的最终扩散表示。形式上，0其中 FFN 2 与 FFN 1 结构相同。由于 FDM只是训练过程中的一个辅助模块，因此在推理阶段将被移除。这使得我们的模型更加简洁和灵活。03.3. 损失函数0我们的方法中有三种损失函数，包括均方误差（MSE）损失、交叉熵损失和对比损失。我们在本文中将交叉熵损失称为ID 损失。如图2所示，我们计算分类器 [cls]标记的输出特征、OEM 后的扁平特征和 FDM后的特征上的 ID损失。因此，特征之上有三个额外的全连接层来计算 ID概率。功能上，ID 损失可以表示为：0其中 W 是一个线性投影矩阵， y i 是相应的标签， IDs是身份总数。至于对比损失，关键组件是负样本和正样本。我们的算法中有两个记忆库，第一个是在 OEM之后生成的，第二个是在 FDM之后生成的。初始化和更新策略已在第3.2节中介绍。功能上，对比损失为：47590其中 τ 是预定义的温度参数， c i表示具有相同身份的特征中心。尽管训练策略是并行架构，但由于 NPO增强引起的特征不足，较低的分支不参与记忆初始化和更新。在图2中，我们使用实线表示联合记忆更新和损失计算，虚线表示仅损失计算。因此，最终的损失函数可以表示为：0L F inal =10i =1 L i MSE +10i =1 L i ID +10i =1 L i C .(10)04. 实验04.1. 数据集和评估设置0Occluded-DukeMTMC[21]包含702人的15,618张训练图像，519人的2,210张查询图像和1,110人的17,661张图库图像。由于场景和干扰的多样性，这是最具挑战性的遮挡人物ReID数据集。Occluded-REID[43]是由移动相机拍摄的遮挡人物ReID数据集。它包含属于200个身份的2,000张图像。每个身份都有五张完整身体人物图像和五张不同视角和不同类型的严重遮挡的人物图像。Partial-REID[39]是一个专门设计的ReID数据集，包含遮挡、部分和整体行人图像。它包含60个人的600张图像。我们对遮挡的查询集和整体的图库集进行实验。Market-1501[38]是一个著名的整体人物ReID数据集。它包含751人的12,936张训练图像，702人的2,228张查询图像和750人的3,368张图库图像，这些图像来自6个摄像头。该数据集中只有少数图像被遮挡。DukeMTMC-reID[40]包含702人的16,522张训练图像，702人的2,228个查询和702人的17,661张图库图像。这些图像由8个不同的摄像头拍摄，使其更具挑战性。由于它包含的整体图像比遮挡图像更多，这个数据集可以被视为一个整体ReID数据集。评估协议。为了与现有的人物ReID方法进行公平比较，所有方法都在累积匹配特征（CMC）和平均精度（mAP）下进行评估。所有实验都在单查询设置下进行。04.2. 实现细节0除非另有说明，所有图像都调整为256×128。我们使用动量为0.9和权重衰减为1e-4的SGD优化器对网络进行端到端的训练。我们初始化学习率0O-Duke O-REID P-REID 方法 R@1 mAP R@1mAP R@1 mAP0PCB [23] 42.6 33.7 41.3 38.9 66.3 63.8 RE [42] 40.530.0 - - 54.3 54.4 FD-GAN [6] 40.8 - - - - - DSR [9]40.8 30.4 72.8 62.8 73.7 68.07 SFR [11] 42.3 32 - -56.9 - FRR [12] - - 78.3 68.0 81.0 76.6 PVPM [5]47 37.7 70.4 61.2 - - PGFA [21] 51.4 37.3 - - 69.061.5 HOReID [26] 55.1 43.8 80.3 70.2 85.3 -OAMN [2] 62.6 46.1 - - 86.0 - PAT [17] 64.5 53.681.6 72.1 88.0 -0ViT Baseline [13] 60.5 53.1 81.2 76.7 73.3 74.0TransReID [13] 64.2 55.7 70.2 67.3 71.3 68.60FED（我们的方法）68.1 56.4 86.3 79.3 83.1 80.5FED*（我们的方法）67.9 56.3 87.0 79.4 84.6 82.30表1.在Occlude-DukeMTMC、Occluded-ReID和Partial-REID数据集上与最先进方法的性能比较。*表示结合OS 1和OS 2进行NPO增强。0Market-1501 DukeMTMC-reID 模型 Rank-1 mAPRank-1 mAP0PT [18] 87.7 68.9 78.5 56.9 PGFA [21] 91.2 76.8 82.665.5 PCB [23] 92.3 77.4 81.8 66.1 OAMN [2] 92.3 79.886.3 72.6 BoT [19] 94.1 85.7 86.4 76.4 HOReID [26]94.2 84.9 86.9 75.6 PAT [17] 95.4 88.0 88.8 78.20ViT Baseline [13] 94.7 86.8 88.8 79.3 TransReID [13]95.0 88.2 89.6 80.60FED（我们的方法）95.0 86.3 89.4 78.00表2.在Market-1501和DukeMTMC-reID数据集上与最先进方法的性能比较。0使用余弦学习率衰减，初始学习率为0.008。对于每个输入分支，批量大小为64，其中包含16个身份和每个身份4个样本。我们在两个RTX 1080TiGPU上进行所有实验。我们将Con- trastiveLoss中的温度τ设置为0.05，并将FDM中的头数设置为8。对于NPO增强的遮挡集，我们从Occluded-DukeMTMC和MSMT17[30]的训练数据中裁剪30个补丁，分别作为遮挡集1（OS1）和遮挡集2（OS 2）。如果没有指定，我们只采用OS1进行NPO增强。0与最先进的方法的比较0Comparisons on Holistic Datasets. We also experimenton holistic person ReID datasets, including Market-1501and DukeMTMC-reID. While training on the DukeMTMC-reID dataset, MSE Loss is not calculated. It is because hugeamounts NPO exist in the training set and we are unableto get precise occlusion masks. The results are shown inTable.2.We achieve comparable performance comparedwith other state-of-the-art methods. The same as Section4.3.1, the TransReID is without the sliding window settingand with 256 × 128 image size. It is clear that TransReIDgets better performance than our method on the holisticdatasets. This is because TransReID is specifically designedfor holistic ReID and encodes camera information duringthe training process. Besides, our proposed three compo-nents, which aim at tackling the occlusion issues, are notfully functional on holistic ReID datasets. However, we also[0.9757][0.9483][0.9786][0.9668][0.9836][0.9437][0.3737][0.2919][0.3272][0.9878][0.9864][0.9192][0.8618][0.9852][0.9820][0.3693][0.3247][0.9823][0.9814][0.9798][0.9872][0.9833][0.9856][0.9863][0.9732]47600在整体人物ReID数据集上的比较。我们还在包括Market-1501和DukeMTMC-reID在内的整体人物ReID数据集上进行了实验。在DukeMTMC-reID数据集上训练时，不计算MSE损失。这是因为训练集中存在大量的NPO，我们无法获得精确的遮挡掩码。结果如表2所示。与其他最先进的方法相比，我们取得了可比较的性能。与第4.3.1节相同，TransReID没有滑动窗口设置，并且图像大小为256×128。显然，TransReID在整体数据集上的性能优于我们的方法。这是因为TransReID专门为整体ReID设计，并在训练过程中编码了摄像机信息。此外，我们提出的三个组件旨在解决遮挡问题，在整体ReID数据集上功能不完全。然而，我们也0与最先进的方法相比，我们的FED（通过OS1进行增强）在O-Duke和O-REID数据集上都取得了最高的Rank-1和mAP。特别是在O-REID数据集上，我们的Rank-1/mAP达到了86.3%/79.3%，至少超过其他方法4.7%/2.6%。在O-Duke上，我们的Rank-1/mAP达到了68.1%/56.4%，至少超过其他方法3.6%/0.7%。在P-REID数据集上，我们的mAP准确率最高，达到了80.5%，超过其他方法3.9%。由于ViT骨干网络在小数据集上训练的泛化能力较低，我们未能在该数据集上取得最高的Rank-1准确率。同时，为了进一步展示FED的灵活性和可扩展性，我们为NPO增加了更多多样化的补丁（结合OS 1和OS2）。从表中可以看出，仅通过改善遮挡集的多样性，FED*在O-REID和P-REID上的Rank-1/mAP至少提高了0.7%。总之，我们在遮挡的ReID数据集上取得了很好的性能。0(a) (b) (c)0(d) (e) (f)0图4.OEM在水平遮挡、垂直遮挡和多行人图像上的遮挡分数。OEM能够识别关键的NPO，但在NTP上失败。0遮挡-DukeMTMC0指标 RE NPO Aug OEM FDM R@1 mAP00 � � � � 59.1 49.1 1 � � � � 60.3 53.1 2 � � � � 65.4 53.5 3 � � � � 66.555.4 4 � � � � 67.1 55.9 5 � � � � 68.1 56.40表3. FED中每个组件的性能分析。0在DukeMTMC-reID上达到了84.9%的Rank-1准确率，超过其他基于CNN的方法，接近TransReID。04.4. 消融研究0每个组件的分析。在表3中，我们展示了随机擦除（RE），NPO增强策略（NPOAug），遮挡擦除模块（OEM）和特征扩散模块（FDM）的消融研究。索引从0到5分别代表基线，基线+RE，基线+NPO Aug，基线+NPO Aug+OEM，基线+NPOAug+FDM和FE

下载后可阅读完整内容，剩余1页未读，立即下载