带噪声标签的人物再识别的大规模预训练

59 浏览量更新于2023-10-25 收藏 12.98MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Dengpan Fu1Dongdong Chen3Hao Yang2Jianmin Bao2*Lu Yuan3Lei Zhang4Houqiang Li1Fang Wen 2Dong Chen2fdpan@mail.ustc.edu.cncddlyf@gmail.comlihq@ustc.edu.cn{jianbao,haya,luyuan,fangwen,doch}@microsoft.com, leizhang@idea.edu.cn24760带有噪声标签的人物再识别的大规模预训练01 中国科学技术大学 2 微软研究院 3 微软云AI 4 IDEA0摘要0本文旨在解决带有噪声标签的人物再识别（Re-ID）的预训练问题。为了设置预训练任务，我们在现有的未标记的Re-ID数据集“LUPerson”的原始视频上应用了一个简单的在线多目标跟踪系统，并构建了名为“LUPerson-NL”的有噪声标签的变体。由于这些ID标签是从轨迹中自动推导出来的，不可避免地会包含噪声，因此我们开发了一个大规模的PNL（利用有噪声标签的预训练框架），它包括三个学习模块：监督式Re-ID学习、基于原型的对比学习和基于标签的对比学习。原则上，这三个模块的联合学习不仅可以将相似的样本聚类到一个原型中，还可以根据原型分配来纠正噪声标签。我们证明了直接从原始视频中学习是一种有前途的预训练替代方法，它利用空间和时间的相关性作为弱监督。这个简单的预训练任务为在“LUPerson-NL”上从头开始学习SOTARe-ID表示提供了一种可扩展的方式，而无需繁琐的操作。例如，通过在相同的监督式Re-ID方法MGN上应用，我们的预训练模型在CUHK03、DukeMTMC和MSMT17上的mAP分别比无监督预训练模型提高了5.7％、2.2％和2.3％。在小规模或少样本设置下，性能提升更为显著，表明学习表示的可迁移性更好。代码可在https://github.com/DengpanFu/LUPerson-NL上找到。01. 引言0为人物再识别（Re-ID）创建一个大规模高质量的标记数据集是费时费力的。现有的完全标记的数据集[25, 52, 58,61]相对于其他视觉任务来说，在规模和多样性上都有限。因此，模型的预训练是解决这个问题的关键方法之一。0* 通讯作者。0（a）Market1501与MGN0（b）Market1501与IDE0（c）DukeMTMC与MGN0（d）DukeMTMC与IDE0图1. 在两种方法（IDE [59]和MGN[51]）上比较三个预训练模型在Market1501和DukeMTC上的人物再识别性能。在小规模设置下，使用不同的尺度进行报告。IN.sup.指的是在ImageNet上进行监督预训练的模型，LUP.unsup.是在LUPserson上进行无监督预训练的模型，LUPnl.pnl.是使用我们提出的PNL在我们的LUPerson-NL数据集上进行预训练的模型。0成为实现良好Re-ID性能的关键方法之一。然而，由于缺乏大规模的Re-ID数据集，大多数先前的方法只是使用在众包标记的ImageNet数据集上进行预训练的模型，导致改进有限，因为ImageNet中的通用图像与Re-ID任务所需的以人为中心的图像之间存在很大的领域差距。为了缓解这个问题，最近的工作[12]证明了在一个规模庞大的未标记Re-ID图像数据集“LUPerson”上进行无监督预训练超过了在ImageNet上进行预训练。本文的假设是，直接从原始视频中学习的可扩展的ReID预训练方法可以生成更好的表示。为了验证这一点，我们提出了噪声标签引导的人物Re-ID预训练，利用视频中的空间和时间相关性作为弱监督。24770监督。这种监督几乎没有成本，并且可以通过任何多目标跟踪算法（例如[56]）从时间上的人物轨迹中派生出来。特别是，我们在连续的视频帧中跟踪每个人物，并自动将同一轨迹中的跟踪到的人物分配给相同的Re-ID标签，反之亦然。借助LUPerson[12]中的大量原始视频，以及互联网上公开可用的此类数据，我们创建了一个名为“LUPerson-NL”的新变体，其中的伪Re-ID标签是从轨迹中派生出来的，用于带有噪声标签的预训练。该变体总共包含来自21,000个场景的10,000,000个人物图像，具有约430,000个身份的噪声标签。我们证明了对比度预训练是从这种大规模弱监督中学习的一种有效方法。这种新的带有噪声标签的预训练框架（PNL）由三个学习模块组成：（1）一个简单的监督学习模块通过分类直接从Re-ID标签中学习；（2）一个基于原型的对比学习模块帮助将实例聚类到动态更新的原型上，通过移动平均实例特征的中心点，并逐步根据原型分配修正噪声标签；（3）一个基于标签引导的对比学习模块随后利用修正后的标签作为指导。与仅将来自同一实例的特征视为正样本的普通动量对比学习[7, 12,19]不同，我们的标签引导对比学习根据修正后的标签来区分正负样本，从而获得更好的性能。原则上，这三个模块的联合学习使得实例的原型分配与高置信度（修正后的）标签之间的一致性尽可能大。实验证明，我们的PNL模型在各种人物重识别基准上取得了显著的改进。图1表明，我们的预训练模型在不同规模的训练数据上的性能提升是一致的。例如，在强大的MGN[51]基线上，我们的预训练模型在Market1501和DukeMTMC上将mAP分别提高了4.4％、4.9％，相对于ImageNet监督基线提高了0.9％、2.2％，相对于无监督预训练基线[12]提高了0.9％、2.2％。此外，在数据量较小和少样本的情况下，增益更大，其中标记的Re-ID数据极为有限。据我们所知，我们是第一个展示大规模噪声标签引导预训练可以显著改善人物重识别任务的研究。我们的主要贡献可以总结如下：0•我们提出了噪声标签引导的人物重识别预训练方法，将监督学习、基于原型的对比学习、标签引导的对比学习和噪声标签修正融合到一个统一的框架中。0•我们构建了一个大规模的带有噪声标签的人物重识别数据集“LUPerson-NL”，作为“LUPerson”的一个新变体。0这是迄今为止最大的无需人工标注的噪声标签人物重识别数据集。0•我们在LUPerson-NL上预训练的模型将各种公共基准的最新结果推向了新的极限，没有任何花哨的技巧。2. 相关工作监督式人物重识别。大多数人物重识别的研究采用监督学习。一些研究[6, 21,55]在全局特征上引入了一个困难的三元组损失，确保相同身份的特征距离更近，而一些研究[45, 59,60]则通过分类损失来学习整个图像的全局特征。还有一些其他的工作通过单独的分类损失学习基于部分的局部特征。例如，Suh等人[46]提出了部分对齐的双线性表示，Sun等人[48]将特征表示为水平条带。最近的方法研究了关于视图[34]、分辨率[31]、姿势[32]、域[22,23]的不变特征学习，或者利用组内损失[36]或时间信息[18,27]来提高性能。MGN[51]通过学习全局和局部特征与多个损失相结合，实现了在公共基准上更有优势的结果。在[40]中，钱等人进一步证明了在归一化姿势条件下生成跨视图图像用于人物重识别的潜力。在本文中，我们专注于模型的预训练，我们的预训练模型可以应用于这些代表性的方法并提升它们的性能。无监督式人物重识别。为了缓解精确注释的缺乏，一些工作采用无监督训练的方式在无标签数据集上进行训练。例如，MMCL[49]将无监督人物重识别制定为逐步寻找真实标签的多标签分类。BUC[33]通过自下而上的层次聚类共同优化网络和样本关系。MMT[14]协同训练两个网络来改进硬伪标签和软伪标签。SpCL[15]设计了一个混合内存来统一聚类和实例级对比学习的表示。MMT[14]和SpCL[15]都依赖于对整个训练集的特征进行显式聚类，使它们在像MSMT17这样的大型数据集上效率低下。由于外观的模糊性难以在没有监督的情况下解决，这些无监督方法的性能有限。解决这个问题的一种替代方法是引入大规模数据的模型预训练。受到自我监督表示学习的成功启发，Fu等人[12]提出了一个大规模无标签的Re-ID数据集LUPerson，并证明了其无监督预训练模型的有效性。在这项工作中，我们进一步尝试利用来自视频轨迹的噪声标签，通过大规模弱监督预训练来提高预训练质量。弱监督人物重识别。一些方法也在人物重识别训练中采用弱监督。102030405060708090025507510024780与要求每个帧内的边界框不同，Meng等人[38]依赖于精确的视频级标签，这降低了注释成本，但仍需要手动努力来标记视频。相反，我们采用可以从大规模的轨迹中自动生成的噪声标签。一些[8, 29,50]也利用轨迹来监督Re-ID任务的训练。但与这些方法不同的是，我们提出了一种用于人员Re-ID的大规模预训练策略，既构建了一个比LU-Person[12]更大的数据集，又设计了一种新的预训练框架：新数据集LUPerson-NL甚至比LU-Person[12]更大，并且具有大量的噪声Re-ID标签；新框架PNL结合了监督学习、标签引导的对比学习和基于原型的对比学习，以利用大规模噪声标签下的知识。最重要的是，我们的预训练模型展示了卓越的性能和泛化能力，帮助在公共人员Re-ID基准测试中实现了优于所有现有方法的最新结果。3.LUPerson-NL：带有噪声标签的LUPerson监督模型基于深度网络始终需要大量的数据，但它们所依赖的标记数据是昂贵的。对于人员Re-ID任务来说，这是一个巨大的问题，因为人类标注者需要跨多个视图进行检查，以确保Re-ID标签的正确性。最近发布的数据集LUPerson[12]在一定程度上缓解了数据短缺问题，它是一个比以前的人员Re-ID数据集规模更大的未标记人员图像数据集。在LUPerson上进行的无监督预训练模型[12]在不使用额外手动注释的情况下展示了显著的有效性，这引起了我们的好奇心：我们能否通过利用时间相关性作为弱监督进一步提高预训练的性能？为了验证这一点，我们在LUPerson的原始视频上构建了一个新的变体，并为每个人员图像分配了标签，标签是通过自动生成的轨迹得到的。我们将其命名为LUPerson-NL，其中NL代表噪声标签。它由来自21,000个场景的大约430,000个身份的10,000,000个图像组成。据我们所知，这是迄今为止构建的最大的人员Re-ID数据集，而无需人工标注。我们的LUPerson-NL仅用于科学研究，禁止用于其他目的。3.1.构建LUPerson-NL我们利用现成的跟踪算法[56]1从[12]的原始视频中检测人员并提取人员轨迹。我们为每个轨迹分配一个唯一的类别标签。检测并不完美：例如，边界框可能只覆盖部分身体而没有头部或上半身。因此，我们附加了人体姿势估计[47]，通过预测关键点来帮助过滤掉不完美的边界框。01 FairMOT: https://github.com/ifzhang/FairMOT0人员图像数量0身份的百分比0图2. LUPerson-NL的身份分布。曲线上的一个点(X,Y)表示每个身份具有少于X个图像的Y%。0� � �0�0� � �0图3.除了如图(a)所示的正确标记的身份外，LUPerson-NL中存在两种类型的标记错误。噪声-I：同一个人被标记为不同的身份，例如图(b)中显示的D、E和F。噪声-II：不同的人被标记为相同的身份，例如图(c)中显示的G。0我们逐帧跟踪视频中的每个人员。为了保证充分性和多样性，我们采用以下策略：i）首先删除在太少的帧中出现的人员身份，即不超过200个；ii）在每个身份的轨迹中，我们以每20帧的速率进行采样，以减少重复图像的数量。因此，我们可以确保每个身份至少有10个相关联的图像。通过这个过滤过程，我们总共收集了433,997个身份的10,683,716个图像。它们属于21,697个视频，比[12]使用的视频少，因为我们对可靠的身份标签采取了额外的过滤策略。因此，LUPerson-NL与LUPerson非常不同，因为它采用了非常不同的采样和后处理策略，更不用说从时空信息中获得的噪声标签了。3.2.LUPerson-NL的特点LUPerson-NL在以下几个方面具有优势：大量的图像和身份。我们在表1中详细介绍了现有流行的人员Re-ID数据集的统计数据。正如我们所看到的，所提出的LUPerson-NL具有超过10,000,000个图像和433,000个噪声标记的身份，是列出的数据集中第二大的。的确，SYSU30K有更多的图像，但它只从1,000个电视节目视频中逐帧提取图像，使其在变异性上较差，在实践中也较不兼容，预训练性能比较可以在补充材料中找到。此外，LUPerson-NL是在没有人工标注的情况下构建的，使其更适合扩展。身份的平衡分布。我们说明了"𝒄", 𝒄#, … , 𝒄$ice =log(pi[ˆyi]).(1)24790数据集 #图像 #场景 #人物标记环境摄像头视图检测器裁剪尺寸0VIPeR [16] 1,264 2 632 是 - 固定手 128×48 GRID [35] 1,275 8 1,025 是地铁固定手变化 CUHK03 [30] 14,096 2 1,467 是校园固定DPM [11]+手变化 Market [58] 32,668 6 1,501 是校园固定DPM [11]+手 128×64 Airport [25] 39,902 6 9,651 是机场固定ACF [10] 128×64 DukeMTMC [61] 36,411 8 1,852 是校园固定手变化 MSMT17 [52] 126,441 15 4,101 是校园固定FasterRCNN [42] 变化 SYSU30K [50] 29,606,918 1,000 30,508 弱标记的电视节目动态YOLOv2 变化 LUPerson [12]4,180,243 46,260 > 200 k 否变化动态YOLOv5 变化0LUPerson-NL 10,683,716 21,697 � 433,997 噪声变化动态FairMOT [56]变化0表1.比较现有流行的Re-ID数据集的统计数据。LUPerson-NL是迄今为止最大的Re-ID数据集，具有更好的多样性，无需人工标注。SYSU30K部分由人工注释。0fc0�！�0�"0#�！0#�！0�#0�$0�！0！，�！"，…，�！#！，$�！"，…，$�！# &�！0原型0队列0�！0标签引导0对比损失0分类0损失0�！0标签更新0原型0基于0对比0损失0�！0更新原型入队动量更新w/梯度w/o梯度0�！0图4.我们PNL框架的概述。它包括一个监督分类模块，一个基于原型的对比学习模块和一个标签引导的对比学习模块。0在图2中，将其对应的人物图像数量的累积百分比作为曲线表示。曲线上的点（X，Y）表示在LUPerson-NL中总共有Y％的身份，每个身份的图像数量都小于X。可以观察到：i）LUPerson-NL中大约75％的身份的人物图像数量在[10，25]之间；ii）在LUPerson-NL中，每个身份拥有超过50个人物图像的身份所占的百分比仅占很小一部分，约为6.4％（27,767 /433,997）。所有这些观察结果都表明，我们的LUPerson-NL在身份分布方面是很平衡的，使其成为适用于人物再识别任务的数据集。尽管我们在第3.1节中提出了专门设计的跟踪和过滤策略，但由于当前跟踪方法的技术上限，我们获得的身份标签可能永远不会非常准确。图3可视化了LUPerson-NL中由不同标注错误引起的两种噪声类型，即噪声-I，同一个人被分成不同的轨迹并被误认为是不同的人；和噪声-II，不同的人被识别为同一个人。4.PNL：基于带有噪声标签的人物再识别的预训练基于新的LUPerson-NL数据集和大规模噪声标签，我们设计了一种新的预训练框架PNL。将LUPerson-NL中的所有数据样本表示为{(xi，yi)}ni =1，其中n是数据集的大小，xi是一个人物图像，yi∈{1，...，K}是其关联的身份标签。这里K表示在LUPerson-NL中记录的所有身份的数量。受到最近方法[4，5，7，17，19，28]的启发，我们的PNL框架采用了已经完全研究过对比表示学习的孪生网络。如图4所示，给定输入的人物图像xi，我们首先执行两个随机选择的增强（T，T'），产生两个增强图像（˜xi，˜x'i）。我们将其中之一˜xi输入编码器Eq以获得查询特征qi；而另一个˜x'i则输入另一个编码器Ek以获得键特征ki。根据[19]，我们设计Ek为Eq的动量版本，即两个编码器Ek和Eq共享相同的网络结构，但具有不同的权重。Ek中的权重是Eq中权重的指数移动平均值。在训练过程中，通过从Eq进行动量更新来刷新Ek的权重。详细的算法可以在补充材料中找到。4.1.监督分类由于LUPerson-NL中的原始标签{yi}ni =1包含大量噪声，如前一节所示，它们在训练过程中必须被纠正。让ˆyi是图像xi的纠正标签。只要给出ˆyi，我们就可以根据纠正后的标签ˆyi进行分类训练。特别地，我们将附加一个分类器，将来自Eq的特征转换为概率pi∈RK，其中K是类别的数量。然后我们施加一个分类损失0带有噪声标签的人物再识别，即PNL。将LUPerson-NL中的所有数据样本表示为{(xi，yi)}ni =1，其中n是数据集的大小，xi是一个人物图像，yi∈{1，...，K}是其关联的身份标签。这里K表示在LUPerson-NL中记录的所有身份的数量。受到最近方法[4，5，7，17，19，28]的启发，我们的PNL框架采用了已经完全研究过对比表示学习的孪生网络。如图4所示，给定输入的人物图像xi，我们首先执行两个随机选择的增强（T，T'），产生两个增强图像（˜xi，˜x'i）。我们将其中之一˜xi输入编码器Eq以获得查询特征qi；而另一个˜x'i则输入另一个编码器Ek以获得键特征ki。根据[19]，我们设计Ek为Eq的动量版本，即两个编码器Ek和Eq共享相同的网络结构，但具有不同的权重。Ek中的权重是Eq中权重的指数移动平均值。在训练过程中，通过从Eq进行动量更新来刷新Ek的权重。详细的算法可以在补充材料中找到。4.1.监督分类由于LUPerson-NL中的原始标签{yi}ni =1包含大量噪声，如前一节所示，它们在训练过程中必须被纠正。让ˆyi是图像xi的纠正标签。只要给出ˆyi，我们就可以根据纠正后的标签ˆyi进行分类训练。特别地，我们将附加一个分类器，将来自Eq的特征转换为概率pi∈RK，其中K是类别的数量。然后我们施加一个分类损失0然而，获取 ˆ y i并不是一件直接的事情。我们借助原型来完成这个任务，原型是训练实例特征的移动平均质心。4.2.利用原型进行标签修正如图 4所示，我们将原型作为特征向量 { c 1 , c 2 , . . . , c K }的字典进行维护，其中 K 是身份的数量，c k ∈ R d是代表类别特征质心的原型。在每个训练步骤中，我们会li = 1(pi + si),ˆyi =(3)cˆyi = mcˆyi + (1 − m)qi.(5)Liic = −log+Lilgc =−1|P(i)| log�k+∈P(i)exp�qi·k+τ��k+∈P(i)exp�qi·k+τ�+ �k−∈N (i)exp�qi·k−τ�,(7)withP(i) = {kjt|ˆyjt = ˆyi, ∀(kjt, ˆyjt) ∈ Q} ∪ {ki},N(i) = {kjt|ˆyjt ̸= ˆyi, ∀(kjt, ˆyjt) ∈ Q},(8)Li = Lice + λproLipro + λlgcLilgc.(9)24800首先计算查询特征 q i 与当前每个原型 c k之间的相似度得分 s k i ，计算公式如下0s k i = exp( q i ∙ c k /τ ) Σ K k =1 exp( q i ∙ c k /τ ) . (2)0设 p i是由上一步中更新的权重的分类器给出的分类概率。则该步骤的修正标签 ˆ y i 由原型分数 s i = { s k i } K k =1和分类概率 p i 组合生成，如下所示0如果 max j l j i > T ，则 ˆ y i =arg max j l j i ，否则 ˆ y i = y i。0在这里，我们计算一个软伪标签 l i ，并根据阈值 T将其转换为硬标签 ˆ y i 。如果 l i 中最高分数大于 T，则选择相应的类作为 ˆ y i ，否则保持原始原始标签 y i 。04.3. 基于原型的对比学习0然后，新的修正标签 ˆ y i 可以用于监督交叉熵损失 L i ce进行分类，如公式 1 所示。此外，它还有助于训练原型 c k。具体而言，我们提出了一种基于原型的对比损失 L i pro，用于约束每个样本的特征应该更接近它所属的原型。我们将损失公式表示为0L i pro = − log exp ( q i ∙ c ˆ y i /τ ) Σ K j=1 exp ( q i ∙ c j /τ ) , (4)0其中 q i 是来自 E q 的查询特征，τ是表示温度的超参数。所有的原型都作为一个字典进行维护，按照动量机制进行逐步更新，如下所示04.4. 标签引导的对比学习0实例级对比学习在自监督学习中被证明非常有效[4, 5, 7, 17,19]。它通过鼓励相同实例的特征之间的相似性，同时促进不同实例的特征之间的差异性，学习实例级特征判别。实例级对比损失可以表示为0exp ( q i ∙ k + i /τ ) + Σ M j =1 exp ( q i ∙k − j /τ ) , (6)0其中 q i 是当前实例 i 的查询特征。k + i (= k i )是从动量编码器 E k生成的正键特征。它被标记为正，因为它与0相反，与 q i . k − � ∈ R d相同的实例是存储在队列中的其余特征，代表着负样本。队列的大小为 M。在每个训练步骤的结束时，队列会通过将新的关键特征入队并出队最旧的特征来进行更新。这种实例级对比学习远非完美，因为它忽略了不同实例之间的关系。例如，即使两个实例描绘的是同一个人，它们之间的特征差异仍然会增强。相反，我们提出了一个标签引导的对比学习模块，利用修正后的标签 ˆ y i来确保对比对的更合理分组。我们重新设计了队列，除了记录关键特征 k i 外，还记录了其修正后的标签 ˆ y i。我们的新队列由 Q = [( k j t , ˆ y j t )] M t =1表示，它不仅接受关键特征 k i ，还接受其修正后的标签 ˆ yi进行更新。这些新记录的标签有助于更好地区分正负对。我们的标签引导对比损失可以表示为0其中k i和ˆ yi分别是当前实例i的关键特征和修正标签。最后，我们将上述所有组件组合起来，在LUPerson-NL上使用以下损失函数预训练模型。0我们在训练过程中设置λ pro = λ lgc = 1。05. 实验05.1. 实现0超参数设置。我们将超参数τ = 0.1和T =0.8。更新动量编码器Ek和原型的动量m设置为0.999。更多超参数探索和训练细节可以在补充材料中找到。数据集和协议。我们在四个流行的人物重识别数据集上进行了大量实验：CUHK03、Market、DukeMTMC和MSMT17。我们采用它们的官方设置，除了CUHK03，其中使用了[62]中提出的新协议的标记对应物。我们遵循标准的评估指标：平均精度（mAP）和累积匹配特性top-1（cmc1）。IN sup.45.2/63.850.6/55.970.5/71.2IN unsup.55.5/61.252.5/57.767.1/67.0LUP unsup.62.6/67.657.6/62.374.7/75.4LUPnl pnl.69.1/73.168.3/73.580.4/80.9(a) CUHK03IN sup.76.2/89.774.1/90.287.5/95.1IN unsup.75.1/88.574.5/89.388.2/95.3LUP unsup.79.8/71.577.9/91.091.0/96.4LUPnl pnl.81.2/91.482.4/92.891.9/96.6(b) Market1501IN sup.65.2/80.762.8/80.879.4/89.0IN unsup.65.4/81.163.4/81.679.5/89.1LUP unsup.69.8/83.165.9/82.282.1/91.0LUPnl pnl.71.0/84.770.3/85.084.3/92.0(c) DukeMTMCIN sup.34.3/54.836.2/66.263.7/85.1IN unsup.34.4/55.437.6/67.362.7/84.3LUP unsup.36.6/57.139.8/68.965.7/85.5LUPnl pnl.41.4/61.644.0/72.068.0/86.0(d) MSMT1770%90%IN sup.53.1/76.975.2/90.881.5/93.584.8/94.586.9/95.221.1/41.868.1/87.680.2/92.884.2/94.086.7/94.6IN unsup.58.4/81.776.6/91.982.0/94.185.4/94.587.4/95.518.6/36.169.3/87.878.3/90.984.4/94.187.1/95.2LUP unsup.64.6/85.581.9/93.785.8/94.988.8/95.990.5/96.426.4/47.578.3/92.184.2/93.988.4/95.590.4/96.3LUPnl pnl.72.4/88.885.2/94.288.3/95.590.1/96.291.3/96.442.0/61.683.7/94.088.1/95.290.5/96.391.6/96.4(a) Market150170%90%IN sup.45.1/65.364.7/80.271.8/84.675.5/86.878.0/88.331.5/47.165.4/79.873.9/85.777.2/87.879.1/88.8IN unsup.48.1/66.965.8/80.272.5/84.476.3/86.978.5/88.732.4/48.065.3/80.273.7/85.177.7/87.879.4/89.0LUP unsup.53.5/72.069.4/81.975.6/86.778.9/88.281.1/90.035.8/50.272.3/83.877.7/87.480.8/89.282.0/90.670%90%24810预训练 Trip [21] IDE [59] MGN [51]0预训练 Trip [21] IDE [59] MGN [51]0预训练 Trip [21] IDE [59] MGN [51]0预训练 Trip [21] IDE [59] MGN [51]0表2. 使用不同预训练模型比较三个有监督的Re-ID基线。“IN sup.”/“INunsup.”表示在ImageNet上有监督/无监督预训练的模型；“LUP unsup.”是在LUPerson上无监督预训练的模型；“LUPnlpnl.”是使用我们的PNL框架在LUPerson-NL上预训练的模型。所有结果都以mAP/cmc1的形式显示。0预训练小规模少样本0预训练小规模少样本0LUPnl pnl. 60.6/75.8 74.5/86.3 78.8/88.3 81.6/89.5 83.3/91.2 52.2/64.1 77.7/87.9 81.1/89.6 83.2/91.1 84.1/91.30（b）DukeMTMC0预训练小规模少样本0IN sup. 23.2/50.2 41.9/70.8 50.3/76.9 56.9/81.2 61.9/84.2 14.7/34.1 44.5/71.1 56.2/79.5 60.9/82.8 63.4/84.5 IN unsup.22.6/48.8 40.4/68.7 49.0/75.0 55.7/79.9 60.9/83.0 13.2/29.2 41.4/67.1 53.3/77.6 59.1/81.5 62.4/83.8 LUP unsup. 25.5/51.144.6/71.4 53.0/77.7 59.5/81.8 63.7/85.0 17.0/36.0 49.0/73.6 57.4/80.5 62.9/83.5 65.0/85.10LUPnl pnl. 28.2/51.1 47.7/71.2 55.5/77.2 61.6/81.8 66.1/84.8 24.5/42.7 53.2/74.4 62.2/81.0 65.8/83.8 67.4/85.30（c）MSMT170表3. 在三个标记的Re-ID数据集上比较预训练模型，在小规模设置和少样本设置下，使用不同可用数据百分比。 “LUPnlpnl。”是我们使用PNL在LUPerson-NL上预训练的模型。结果以mAP / cmc1显示。05.2. 改进监督Re-ID0为了评估基于LUPerson-NL的预训练模型在监督人员Re-ID任务上的性能，我们使用三种具有不同预训练模型的代表性监督Re-ID基线进行实验。这些基线方法包括仅使用三元组损失（Trip [21]）或分类损失（IDE[59]）驱动的两种较简单的方法，以及使用三元组和分类损失的更强大和更复杂的方法MGN [51]。0我们在表2中报告了结果，其中缩写词{“IN”，“LUP”，“LUPnl”}分别代表ImageNet [43]，LU-Person[12]和我们的LUPerson-NL；而{“sup。”，“unsup。”，“pnl。”}代表{“监督”，“无监督”和“带噪声标签预训练”}预训练。0方法。例如，表2底部行中的“LUPnlpnl。”都是指我们的模型，该模型是使用我们的PNL框架在我们的LUPerson-NL数据集上进行预训练的。0从表2中可以看出，对于所有三种基线方法，我们的预训练模型在四个流行的人员Re-ID数据集上都大大改善了它们的性能。具体而言，以mAP为指标，在CUHK03、Market1501、DukeMTMC和MSMT17上的改进至少为5.7％、0.9％、1.2％和2.3％。0请注意，尽管基准MGN在Market1501上的性能非常高，但我们的模型仍然带来了相当大的改进。反过来，我们的预训练模型在相对较弱的方法（Trip和24820IDE），揭示了模型初始化在人员Re-ID训练中的关键作用。我们的带噪声标签引导的预训练模型也比以前的“LUPersonunsup”模型具有明显优势，这强调了我们的PNL框架和我们的LUPerson-NL数据集的优越性。05.3. 改进无监督Re-ID方法0我们的预训练模型还可以使无监督的人员Re-ID方法受益。基于最先进的无监督方法SpCL[15]，我们探索了使用SpCL提出的两种设置的不同预训练模型：纯无监督学习（USL）和无监督领域自适应（UDA）。表4中的结果表明，在所有UDA任务以及DukeMTMC数据集上的USL任务中，我们的预训练模型在所有其他模型中表现更好。在Market1501的USL任务中，我们的得分略低于LUPerson模型[12]，但仍居第二位。05.4. 小规模和少样本对比0按照[12]提出的相同协议，我们在两个小数据设置下进行实验：小规模设置和少样本设置。小规模设置限制可用身份的百分比，而少样本设置限制每个身份可用的人员图像的百分比。在这两种设置下，我们将三个流行数据集的可用数据百分比从10％到100％进行变化。我们将不同的预训练模型与MGN作为基准方法在这些设置下进行比较。表3中的结果验证了我们的模型在这两种设置下对所有数据集的一致改进。此外，表3中的结果显示，我们的预训练模型在更有限的标记数据量下的增益更大。例如，在“小规模”设置下，我们的模型在Market1501、DukeMTMC和MSMT17上分别比“LUPersonunsup”提高了7.8％、7.1％和2.7％，使用10％的身份。在“少样本”设置下，这些改进分别提高到15.6％、16.4％和6.5％，使用10％的人员图像。最重要的是，我们的预训练“LUPnlpnl”模型仅使用Market1501训练集中的10％标记数据，就能够以mAP 72.4和cmc188.8取得有利的结果。考虑到训练集仅包含75个身份的1170张图像，而评估是在一个更大的测试集上进行的，该测试集包含750个身份的19281张图像，我们认为这些结果非常有吸引力，因为它们展示了我们的预训练模型在实际应用中的强大潜力。05.5. 与其他预训练方法的比较0我们将我们提出的PNL与其他一些流行的预训练方法在表5中进行比较。LUP[12]是基于无监督对比学习的MoCoV2的人物Re-ID变体。0预训练 USL UDA0M D D → M M → D0IN sup. 72.4/87.8 64.9/80.3 76.4/90.1 67.9/82.3 IN unsup.72.9/88.6 62.6/78.8 77.1/90.6 66.3/81.6 LUP unsup.76.2/90.2 67.1/81.6 79.2/91.7 69.1/83.20LUPnl pnl. 75.6/89.3 68.1/82.0 80.7/92.2 72.2/84.90表4.在两种无监督任务设置下，不同预训练模型在无监督Re-ID方法SpCL[15]上的性能表现：纯无监督学习（USL）和无监督领域自适应（UDA）。这里M和D分别指的是Market1501数据集和DukeMTMC数据集。0方法SupCont [26] LUP [12] PNL（我们的）0MSMT17 66.5/84.7 65.3/84.0 68.0/86.00表5. 在LUPerson-NL数据集上，不同预训练方法的性能比较。0# ce ic pro lgc 20% 40% 100%01 � 32.0/56.1 45.0/69.5 62.7/83.0 2 � 34.5/59.547.9/72.6 65.3/84.0 3 � � 37.6/62.6 49.6/73.5 66.5/84.74 � � 35.7/59.1 48.5/72.4 65.8/84.1 5 � � 38.5/63.050.9/74.5 67.1/85.2 6 � � � 39.0/63.4 51.7/74.4 67.4/85.47 � � � 39.6/63.7 51.9/75.0 68.0/86.00表6.在小规模设置下，使用PNL在MSMT数据集上以数据百分比20%、40%和100%进行割舍组件的效果对比。ce：监督分类；ic：实例级对比学习；pro：原型用于基于原型的对比学习和标签矫正；lgc：标签引导的对比学习。0对比学习，而SupCont[26]考虑了监督学习和对比学习。我们的PNL优于所有这些代表性的预训练方法，表明我们提出的方法的优越性。05.6. 割舍研究0我们还通过割舍实验研究了PNL中每个设计组件的有效性。表6中的结果说明了我们提出的组件的功效。我们有以下观察结果：i）使用实例级对比损失Liic（第2行）进行训练而不使用任何标签，比使用从LUPerson-NL中的标签得到的分类损失Lice（第1行）的性能更好，这意味着LUPerson-NL中的噪声标签如果直接用作监督会误导表示学习。ii）同时使用损失Li ce和Liic（第3行）进行联合训练比仅使用一个损失（第1行，第2行）的效果更好，这表明学习实例级有区分性的表示补充了标签监督。iii）原型既对基于原型的对比学习又对标签校正有贡献，在各种设置下都非常重要，通过将第1行与第4行进行比较，将第3行与第6行

下载后可阅读完整内容，剩余1页未读，立即下载