图学习方法处理标签噪声的自学习鲁棒人物再识别

181 浏览量更新于2023-10-16 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4789基于图的自学习鲁棒人物再识别Yuqiao Xian1人，Jinrui Yang2人，Fufu Yu2人，Jun Zhang2人，Xing Sun2人†1中山大学计算机科学与工程学院2腾讯优图实验室xianuyq3@mail2.sysu.edu.cn，{jinruiyang，fufuyu，bobbyjzhang，winfredsun}@tencent.com摘要现有的用于人员重新识别（Re-ID）的深度学习方法主要依赖于大规模且注释良好的训练数据。然而，人工标注的标签在现实世界的应用中容易出现标签噪声。前人的Re-ID工作主要集中在随机标签噪声上，离群值边界框生成错误轨迹片段..（c）第（1）款IDN..在实际人工标注过程中标注噪声。在这项工作中，我们发现视觉模糊噪声是更常见的（一）（b）第（1）款（d）（e）错标签和合理的噪声假设。为了处理这种噪声，我们提出了一个简单有效的鲁棒的人Re-ID框架，即基于图的自学习（GBSL），以迭代地学习区分性表示，并为每个身份使用有限的注释样本校正噪声标签。同时，考虑到Person Re-ID的实际标注过程，本文进一步扩展了视觉模糊噪声假设，提出了一种更实用的Person Re-ID标签噪声，即轨迹级标签噪声（tracklet level label noise，TLN）。在不修改网络结构或损失函数的情况下，我们的方法显著提高了Re-ID系统对标签噪声的鲁棒性。我们的模型在训练数据被各种类型的标签噪声破坏的情况下获得了有竞争力的性能，并且在公共基准测试中优于现有的鲁棒Re-ID方法。1. 介绍Person Re-ID[5，40，39，38]是一个细粒度的检索任务，旨在匹配非重叠摄像机视图中的人员最近随着深度卷积神经网络（deep CNNs）的发展，Re-ID任务取得了令人印象深刻的进展[43，4]。然而，他们的成功高度依赖于对干净标签数据的高质量监督在现实世界的工业应用中，由于人类注释的专业知识有限，标签噪声无处不在这份工作是于巧在腾讯优图实验室实习时完成的†通讯作者。图1. Re-ID数据集中不同噪声的图示。 (a)和(b)主要是由人体探测器引起的。箭头表示如何在注释中生成噪波人（c）误标为人（d）是类别条件噪声（CCN）的一个例子。将人（c）错标为人（e）是实例依赖噪声（IDN）的一个示例。(c)（d）和（e）是不同的人。行人的外观和模糊性，导致明显的性能下降，现有的监督方法的Re-ID。设计耐受标签噪声的Re-ID系统可以帮助我们避免劳动密集型和耗时的手动数据清理。噪声问题可以分为两大类。第一种是样本噪声。在当前的人物Re-ID数据集中，人物图像经常被现成的人物检测器裁剪。由于人探测器的作用，如图所示。1（a）和（b），它可能会产生一些离群值或不完美的人边界框。因此，随着人员检测算法的快速发展[46，13，18]，可以很容易地检测和纠正这种样本噪声。第二个噪声是标签噪声，这意味着人物图像可能被错误地标记为另一个身份。与样本噪声相比，标签噪声会对人的Re-ID模型造成明显的性能下降。更具体地，公共标签噪声具有两种类型：类条件噪声（CCN）[44，28，27]和实例相关噪声（IDN）[3，6，7]。CCN假设噪声独立于给定真实标签的图像特征。如图1，也就是说，人（c）被错误标记为人（d）和人（e）的概率是..CCN4790在CCN假设下相等以前的作品（例如，[42，41]）主要考虑CCN中的个人Re-ID。但我们发现CCN在实际的人类注释中所占的比例很小。很容易知道人（c）被错误地注释为人（d）的可能性相对较低。这是因为人（c）和（d）具有明显不同的视觉外观。另一方面，我们可以发现person（c）被错误地标记为person（e）是人类注释中常见的，因为它们具有相似的视觉外观。因此，我们认为IDN是实际人员Re-ID场景中的主要标签噪声。而且，在图像分类问题中，IDN主要发生在图像级别[3]。与图像分类相比，IDN可能会对人的Re-ID带来更严重的负面影响，这可能会导致一系列的图像错误标记。在实践中，Re-ID的训练图像是从监控视频中的连续帧中检测和采样的行人边界框，这被称为行人的轨迹[23]要求人类注释者匹配由非重叠相机捕获的交叉视图轨迹片段的身份。Re-ID中的标签噪声更可能是轨迹级而不是图像级。也就是说，如果人类注释者未能识别tracklet中的人，则整个tracklet（视频剪辑）中的图像将被分配错误的标签（如图 12 所示）。 1（c）、（d）和（e））。因此，仅考虑图像级的IDN可能无法反映真实人体标注过程中的标签噪声特性。为了解决这个问题，本文进一步扩展了IDN假设，提出了一种新的标签噪声，即轨迹级标签噪声（TLN），它可以更真实地描述真实世界中Re-ID系统中的人类标注的标签噪声。虽然已经开发了各种方法用于具有噪声标签的鲁棒深度学习，但其中大多数都集中在图像分类上[21，11，1，31]。两个基本假设限制了它们对Re-ID问题的应用1) 他们假设人为注释错误发生在图像级，这可能不符合Re-ID的注释过程。2）他们假设每个类都有足够的训练样本。相反，Re-ID是一个少数问题，通常具有更多的身份（ID）和更少的样本为每个类（即，身份），如表1所示。因此，基于上述分析，为了解决每个身份具有有限样本的人Re-ID中的标签噪声问题，我们提出了一种简单有效的框架，即基于图的自学习（GBSL），以在深度表示学习过程中迭代地检测和纠正错误注释。我们建立一个基于最近邻的关系图，并在模型训练的迭代中传播标签消息来纠正不一致的标签在标签校正之后，网络被提供有更高质量的标签，这有助于学习更多的区分特征以用于下一次迭代中的标签校正。表1. 一般图像分类（左）和人物Re-ID（右）中类别和标记训练图像数量的比较。分类#类#imgsRe-IDID编号#imgsCIFAR-10105K市场[47]75117.2CIFAR-1001000.5K杜克[48]70223.5服装1M1471.4KMSMT[36]104131.3食品-101N101750真实世界大规模几1）首次讨论了真实世界中一种更为实用的标签噪声--小规模标签噪声（tracklet-levellabelnoiseTLN是人Re-ID的轨迹段式注释过程2）放宽噪声率或辅助干净数据的约束3)在不同类型的严重标签噪声破坏的公共Re-ID基准上，所提出的方法明显优于所有比较方法的鲁棒性。1.1. 相关工作这项工作与噪声鲁棒人员Re-ID、tracklet人员Re-ID和具有噪声标签的鲁棒深度学习密切相关。噪声鲁棒Re-ID。开发抗噪声Re-ID是一个关键问题，因为开放世界Re-ID应用程序通常会在数据收集和人类注释中遭受不可避免的噪声[40]，包括样本噪声和标签噪声。样本噪声主要由不准确的检测或跟踪算法引起，包括边界框[30]内的外围区域（例如遮挡和背景）和每个轨迹片段[2]内的离群帧。注意力机制和姿势引导的方法被提出来处理图像中的噪声。对于视频序列中的离群帧，近年来研究了帧重加权和时空注意力。Re-ID中的标签噪声也在一些初步工作中进行了研究（即鲁棒性个人Re-ID）[42，41]。它们仅考虑图像级随机噪声（类似于CCN）。方法上，Yuet. al.[42]专注于健壮的架构设计，而Ye和Yuen[41]关注基于模型预测的标签细化和样本重新加权。相比之下，在图像级CCN之外，我们首次尝试研究更具现实性和挑战性的轨迹级噪声模型，并提出了基于图一致性的标签校正方法Tracklet Person Re-ID Pedes-Trian图像的tracklet关联对于未标记的数据集可以是有用的监督[22，23，37]。tracklet中的噪声帧，这是一种由检测算法产生的样本噪声，也在[24]中进行了研究。相反，我们专注于标签噪声在监督人Re-ID与TLN生成的虚假人类注释在本文中。标签噪声训练深度学习479112∃ ∈ ⇐⇒∀∈近年来，具有噪声标签的神经网络已被广泛研究[1，31]，包括鲁棒损失[44，27，25]，鲁棒模型架构[9，10]，样本重新加权1.4. Tracklet级标签噪声（TLN）给定tracklet S={x，x，. }，这是一组[45，17]，标签更正和其他。这些工作大多集中在图像分类的鲁棒深度学习上，这需要一组干净的标签[15，21，35]并依赖于噪声分布假设。网络架构或损失函数的特定设计也限制了其他视觉任务的应用。从噪声分布的角度来看，以往的许多方法只考虑了随机噪声或类条件噪声，而最近的研究[3，6]指出，标记真实世界中的噪声模式最有可能依赖于实例。在方法上，存在用于噪声标签学习的迭代自学习框架，其在表示学习过程中嵌入重新加权[41]，过滤[11，34]或标签校正[12]相比之下，我们提出了一个基于图的标签校正方法，采用消息传播来纠正嘈杂的标签。1.2. 初步在本节中，为了用噪声标签来公式化人员重新识别的问题，我们重新审视了通常研究的CCN和IDN。基于IDN的假设，我们进一步提出了一个更现实和更具挑战性的TLN在人的Re-ID。值得注意的是，我们假设标签噪声率ρ噪声是未知的，并且没有辅助的干净数据可用。1.3. 类别条件标签噪声（CCN）和实例相关标签噪声（IDN）传统上，引入噪声转移矩阵T（X）来对噪声标签的分布进行建模。X表示样本特征。CCN的转移矩阵被公式化为，Ti，j（X）=P（Y）=j|Y=i），（1）其中样本的标签以仅取决于它们的地面真值Y的概率被翻转为噪声标签Y。IDN描述了依赖于固有输入特征的标签翻转，其转换矩阵可以用公式表示为，Ti，j（X）=P（Y）=j|Y=i，X），（2）它是Y和X的函数。当Y=给定时，转移矩阵仅取决于X。由此我们可以直观地知道，人的Re-ID中的视觉歧义问题与IDN密切相关。转移矩阵对图像级标签翻转概率进行建模。在一般的图像分类任务中，我们通常没有不同样本之间的关联的先验知识。人类注释者通常对图像逐一标注。因此，产生图像级标签噪声用于图像分类是合理的。然而，CCN和IDN都不能很好地描述人Re-ID的人标注过程中的轨迹级标签噪声。从边界框序列中采样的图像，从监视视频的连续帧中检测，人类注释者将其与从其他摄像机捕获的另一轨迹片段进行匹配，并将相同的身份标签Y分配给所有图像。定义1（TLN模型）。如果人的边界框图像被标记有不正确的标签j，则同一轨迹片段内的所有图像将被分配相同的标签j，即，XiS′，y=jyixkS′，y=j.TLN模型制定了对生成的约束标签翻转，即跟踪内的图像应该具有连贯的注释。由于轨迹片段内的图像通常具有高相似性，因此TLN的分布是局部集中的。为了在数据集中对真实的TLN进行建模，我们首先在干净的数据集上预训练模型，并使用它来基于分类器的输出找到每个图像的除了地面真实身份（即次要身份）之外的最相似的身份这个过程类似于IDN[3]的生成。然后，轨迹片段的次要标识由轨迹片段中的所有图像的最频繁的次要标识确定。在生成TLN时，我们将同一tracklet中的所有图像标签更改为tracklet的次要标识。关于三种标签噪声的产生的详细信息，请参见补充资料。2. 方法2.1. 迭代自学习框架我们的目标是学习有噪声的人类注释的人Re-ID的判别特征。图2示出了所提出的基于图的自学习框架，其迭代地优化网络参数Θ并校正噪声数据集Y的标签。在网络优化中在第一阶段，我们训练一个深度网络来学习区分性表示，这有助于我们区分干净和嘈杂的标签。在标签校正阶段，我们构建了一个相似性图来检测和校正不一致的标签，这可以学习更好的区分特征。在网络优化和标签校正之间的几次迭代之后，标签收敛，然后我们可以继续用稳定的标签训练网络参数，直到模型收敛我们的方法是模型不可知和损失无关的，专注于标签校正。因此，我们采用了一种广泛使用的ResNet-50[14]架构，通过身份损失（即交叉熵损失）Lid和硬三重态损失[16]Ltri的组合进行优化，其公式为：Θ=argminLi d（X|Θ，Y）+Lt ri（X|Θ，Y）。（三）Θ4792|∈∈网络训练图构建噪声检测特征提取消息传递标签更正CNN骨干网Tran ingse t{��;}��已认证实验室��图2.基于图形的自学习（Graph-BasedSelf-Learning，GBSL）框架其中，Y是在每个iter中更新的经校正的标签。1 1在第一次迭代中，使用标签校正和Y=Y2.2. 基于图的消息传递现有的标签细化或噪声标签的校正方法依赖于模型分类器[41，3]或类原型[12]以细化噪声数据集的标签。然而，Re-ID的训练数据通常是少样本和长尾的，模型分类器对标签噪声敏感，很为了解决这个问题，我们构造了一个关系图来传播标签信息，以发现图中的不一致性，这可能会检测和纠正具有不正确标签的样本。基于聚类假设[51]，即附近的点可能具有相同的标签，我们检测具有噪声标签的不一致点，并通过聚合图上相邻点的消息来纠正标签。图构造给定一个具有参数Θ的网络，我们得到表示集Z =[z1，z2，.，zn]，其中zi=φ（xi θ）。我们通过以下方式构造稀疏亲和矩阵ARn×n：.1−d（zi，zj），zj∈Nk（zi）;L：=D−2（A+λI）D−2L（6）其中D是A_∞+λ_I的阶矩阵。样本xij测量样本x i和xj之间的连通性，并控制它们之间传递的消息的权重。传播模型是质量Aλ+λI的图拉普拉斯算子。I是单位矩阵，其中样本将其标签传播给自身。λ是一个超参数，它控制着修正阶段自我强化的程度。由于大多数标签在人工注释的数据集中是正确的，因此我们应该强调样本自己的标签，而不是纯粹依赖于其邻居的信息。我们的传播模型与GCN [20]中使用的谱图卷积的一阶近似有关。不同之处在于，我们传播的是标签消息，而不是节点特征。与半监督学习的标签传播[52，51]方法不同，该方法将标签从标记样本重复传播到未标记样本，直到收敛到稳定状态，我们方法中的标签我们在每个标签校正阶段只传播一次标签信息，并显式执行硬标签校正。路的准则Aij=0，否则。（四）这是为了在学习更多区别性表示之前抑制噪声信息的传播。此外，我们认为，其中d（zi，zj）[0，1]是归一化的距离度量（例如，余弦距离）。Nk（zi）表示zi一般来说，亲和矩阵应该是对称的。我们可以引入具有零对角的对称亲和矩阵A**为：求解我们的一阶传播模型也需要较低的计算成本。标签更正。通过消息传递进行邻域聚集后，如果argmaxjL ijyi，即样本当前的标号与图上的邻居标号不一致，则认为样本标注错误。然后，A=（A+AT）2）（5）我们明确纠正标签，yi：= arg max L ij，j = 1. C.（七）消息传递。在构造了k-最近邻图之后，我们的目标是优化标签空间，使其与特征空间中的上下文信息一致它通过在k-最近图邻居上传递标签消息来执行我们将标签矩阵表示为L，其对应于每个示例的标签的行是独热编码的（即，，如果yi=j，则Lij=1，否则Lij=0）。在每个标签校正迭代中，用于基于图的消息传递的传播模型被公式化为：J其中，C是单位数。在基于图的标签校正中，每个样本在标签校正之后，网络具有更高质量的标签。校正后的标签可以促进网络学习更多的区分特征，这有助于在下一次迭代中校正更多的标签。整个算法总结在算法1中。14793∈××--×算法1基于图的自学习（GBSL）输入：训练具有噪声标签Y的数据集X，初始化的网络参数Θ，校正时期T C的集合。输出：优化的网络参数Θ，校正的标签Y。1：对于t= 1;t<=纪元数;t++do2：如果t TC，则3：用网络编码器提取特征Z。4：通过等式2构造（更新）关系图A* （4-5）5：利用一阶消息传递由L：= D−1（A+ λI）D−1 L（等式（六））真实校正（TC）错误更正（FC）校正对象最近邻居2 2开关6：检测和纠正不一致的标签与方程。（七）7：如果结束8：用y1，y2，...， yn（等式（三））9：结束10：返回Y，Θ。3. 实验3.1. 数据集和评价方案基准数据集。为了遵循以前关于鲁棒的人Re-ID [42，41]的工作并分析不同类型的标签噪声，我们在两个大规模的人 Re-ID 基准数据集上评估我们的方法：Market-1501 和 DukeMTMC-reID 。 Market-1,501[47] 有32，688个标记的人物图像，从6个不同的相机收集了1，501个身份。DukeMTMC-reID[48，29]包含来自8个相机视图的1，404人的36，411张标记图像。两个基于图像的数据集中的图像包含来自其图像名称的摄像机id和tracklet的信息。以Market-1501为例，在图像名称“0001 c1 s1 001051 00.jpg”中，“0001”是标识。“c1” isthe camera 在TLN生成中，Market-1501的图像被划分为 3 ， 262 个 tracklet （ DukeMTMC-reID 为 2 ， 195 个tracklet）。评价指标。我们在[47，48]中报告了遵循标准方案的秩1准确度（R1）和平均平均精度（mAP）的结果，而没有后处理技术，如重新排序[49]或多查询检索[47]。我们还通过精度（Pre.）”（《礼记》）我们将校正操作分为三种类型：真校正、假校正和开关校正，如图所示。3.第三章。真校正（TC）意味着算法校正了噪声（不正确）标签。错误更正（FC）是指将干净的标签更改为错误的标签。切换校正（SC）是指将一个有噪声的标签修改为另一个不正确的标签。那么标签校正的查准率和召回率定义为：TC精密度=100%（8）TC+FC+SCTC−FC校正（SC）图3. 通过基于图的消息传递的真校正（TC）、假校正（FC）和开关校正（SC）的示例。绿色框表示对象图像的真标签，而红色框表示对象的假标签。3.2. 实现细节我们采用ImageNet[8]预训练的ResNet-50[14]作为特征编码器的骨干，并在网络的最后添加了一个带有BNNeck[26]的线性分类器所有图像的大小都调整为256128，随机翻转和随机擦除[50]用于论证。脊柱最后阶段的步幅为1.采用Adam优化器[19]，批量大小为64，初始学习率为3。5 10−4，在总共80个历元的第40和第70个我们在前40个历元中每2个历元执行标签校正，直到标签在第40个历元之后保持稳定（即，，T C=2，4，.，40）。采用k-倒数编码[49]作为等式中的距离度量。（五）、我们使用Pytorch 1.6在配备Tesla P40 GPU的普通PC上实现了我们的实验标签校正过程在GPU上实现，整个训练过程需要大约30分钟在简单的网格搜索之后，除非另有说明，否则我们在所有实验中设置k=8和λ=2为了公平比较，所有竞争方法的模型生成的标签噪声都是固定的。3.3. 与最新技术水平的我们将我们的方法与两种现有的鲁棒Re-ID方法（PurifyNet[41]和DistributionNet[42]）以及四种流行的方法（MeanTeacher[32]， Co-Teaching[11]， DSL[12]和SEAL[3]）进行了比较，用于在Re-ID基准上进行鲁棒的深度学习。为了进行公平的比较，我们实现了这些方法，并使用相同的主干（re-ID的强基线[26]）报告了结果，除了健壮的体系结构方法DistributionNet。The “noise-free”我们评估学习回忆=ρ噪声 × |我|× 100%（9）在Re-ID中具有三种不同类型的标签噪声，包括均匀分布的CCN、IDN和所提出的TLN。哪里|我|是图像数据集的大小。结果见表2-表4。0004794不同类型标签噪音的影响通过比较基线模型和表2 - 4中的无噪声模型，我们得到以下观察结果：（1）在各种标签噪声的影响下，基线方法的性能明显下降。(2)CCN噪声比IDN或TLN的相同比例对模型性能的破坏性更大。其原因是CCN具有更强的随机性，将随机标签分配给有噪声的样本，这可能导致严重的特征失真。(3)IDN和TLN的相同比例对基线有类似的影响。它们具有将相同的标签分配给具有相似外观的不同人的图像的共同操作对图像级标签噪声的鲁棒性。表2-4所示的结果表明，我们的GBSL在所有类型的噪声标签设置中实现了所有比较方法中的最佳性能。在具有图像级标签噪声（CCN和IDN）的学习设置中，我们的方法以明显的优势超越竞争对手，并且在标签校正方面具有高精度和召回率（如图所示）（五）。我们还观察到，Re-ID中的图像级实例相关标签噪声对于我们的方法来说并不比随机CCN更困难，这导致了与具有实例相关噪声标签的一般图像分类不同的结论。其主要原因是轨迹片段内的人物图像通常具有高视觉相似性，即，，位于特征空间的狭窄区域中如果tracklet中只有一小部分图像样本被意外地分配了错误的标签，则可以通过聚合GBSL中相邻图像样本的标签信息来容易地检测和纠正它们。除DSL外，所有比较方法都没有利用邻域关系，导致它们在标签噪声下的Re-ID任务中性能较差。Tracklet级标签噪声分析。虽然TLN对基线方法的破坏性较小，但它也容易被模型过度拟合，并且更难以通过强大的深度学习方法进行如表4所示，所有方法都对基线模型有小的改进我们的方法优于所有的竞争对手在这两个基准测试，但仍然获得较低的性能比在设置相同比例的CCN或IDN。由模型学习的中间表示不是视图不变的，这仅在纠正轨迹内的噪声样本时有效。标签校正评价。图4示出了在训练迭代期间的标签校正，以及图5示出了GBSL在标签校正上的精确度和召回率与朴素k-NN分类器和DSL相比的结果。我们可以观察到，我们的方法可以有效地校正CCN和IDN的标签，其中IDN仅比CCN稍微更难检测，即使生成非常不同。CCN和ICN的校正精度约为90%，召回率超过80%，这意味着我们的标签校正方法可以显着提高标签质量。表2. 与其他方法在具有均匀类条件（随机）标签噪声（CCN）的人Re-ID基准的噪声监督学习上的比较。市场-1501 DukeMTMC方法10%噪音20%噪音10%噪音20%噪音R1 mAP R1 mAP R1 mAP R1 mAP无噪声94.1 86.7 94.1 86.7 86.3 75.9 86.3 75.9基线87.7 72.8 78.1 58.2 77.3 63.2 65.8 51.2Dist.净收入[42]82.3 61.5 77.0 53.4 68.6 48.0 62.4 40.9[41] 2016年12月25日星期一联合教学[11]84.5 65.3 83.2 63.8 74.2 57.1 62.5 43.8平均教学[32]87.0 72.3 77.0 57.5 76.0 62.1 64.0 49.3密封件[3]90.2 79.1 84.6 68.7 80.1 66.2 78.2 65.8电话：+86-21 - 88888888传真：+86-21 - 88888888我们的93.7 84.8 92.2 82.2 85.9 74.5 85.2 73.9表3. 与其他方法在具有实例依赖（模式化）标签噪声（IDN）的人Re-ID基准的噪声监督学习上的比较。市场-1501 DukeMTMC方法10%噪音20%噪音10%噪音20%噪音R1 mAP R1 mAP R1 mAP R1 mAP无噪声94.1 86.7 94.1 86.7 86.3 75.9 86.3 75.9基线89.6 76.7 84.1 67.1 79.6 66.7 71.7 57.3Dist.净收入[42]52.4 27.0 49.3 24.4 37.7 20.8 34.5 18.5[41]2016年10月25日星期一[第11话] 85.2 67.0 84.2 65.3 74.8 58.3 68.3 53.0平均教学[32]88.7 75.3 83.2 64.6 78.7 65.9 69.9 55.6密封件[3]90.5 78.9 86.6 71.3 81.2 69.1 79.6 67.4DSL[12] 91.5 81.0 90.2 79.6 84.0 73.0 83.5 72.7我们的93.6 84.8 91.9 82.3 86.2 75.4 85.5 74.1表4. 与其他方法的噪声监督学习的人Re-ID基准与建议的轨迹级标签噪声（TLN）的比较。市场-1501 DukeMTMC方法10%噪音20%噪音10%噪音20%噪音R1 mAP R1 mAP R1 mAP R1 mAP无噪声94.1 86.7 94.1 86.7 86.3 75.9 86.3 75.9基线90.4 78.8 85.3 69.9 81.6 68.9 74.5 60.7[41]第四十一话 71.8 86.5 69.2 78.1 66.1 74.2 59.8[11]第十一话 68.8 83.3 64.7 75.1 60.2 71.2 57.6[32]第三十二话 76.8 84.3 66.8 80.2 68.3 73.4 58.9密封件[3]89.4 77.0 85.4 70.3 81.5 68.3 74.0 59.2DSL[12] 90.5 79.8 86.1 71.5 81.9 69.9 75.3 62.3我们的92.0 81.7 88.8 76.6 82.3 70.8 76.5 65.6损坏数据集的完整性。我们还可以看到，只有17%的损坏标签被GBSL成功纠正，其他两种方法的结果甚至更低，这表明这种类型的标签噪声比图像级标签噪声（即，、CCN和IDN）。479589.789.5我们k-NNDSL56.348.047.536.5133.023.036.84.281.2我们k-NN42.826.624.76.98.9017.39.0DSL（一级，mAP）-秩-1，nr=0.1 mAP，nr=0.2mAP，nr=0.1秩-1，nr=0.3秩-1，nr=0.2 mAP，nr=0.3%%≥表5.对Market-1501上两种标签噪声的传播模型进行烧蚀研究20% IDN噪声20% TLN噪声方法传播模型ReID标签更正ReID标签更正R1 mAP前Rec.R1 mAP预记录k-NN分类器argmax1[yi=y，xi∈Nk（x）]87.2L25002000累计更正10080更正的精确度和召回率（秩-1，mAP）-k959010090(Pre.、Rec.）-k1500100050000 10 20 3040时代60402000 10 20 30 40时代85807570654 6 8 10 12 1416K8070605040304 6 8 10 12 14 16K图4. Market-1501上的累积校正（左），校正精度和召回率（右），20% IDN噪声和TLN噪声在训练期间，通过所提出的方法。9590(a) k：最近邻1009010080604010085808080707560607050406520 201.01.52.02.53.03.54.01.01.52.02.53.03.54.000CCN IDN TLN标签噪声CCN IDN TLN标签噪声(b) λ：自发光图6. 不同噪声率下的超参数分析。图5.标签校正精密度评价（Pre.）和召回（Rec.）在市场上-1501与20%的不同类型的标签噪音。3.4. 组件评估和讨论传播模型我们进行了消融研究，在基于图的自学习框架中使用不同的传播模型，这可以被视为所提出的GBSL模型的变体。结果如表5所示。我们有以下观察结果：（1）依靠模型分类器预测或朴素k-NN分类器预测标签，没有考虑样本之间的相似性，容易受到噪声标签的影响，导致噪声标签的扩散，导致校正精度低。(2)我们的方法超越了半监督学习的标签传播扩散模型，它将标签信息从标记数据传递到未标记数据。原因在于，在集合迭代内重复传播标签消息也传播更多噪声标签，从而导致较低的校正精度。(3)自增强和对称亲和矩阵提高标签校正的性能。对K的敏感性图 6（a），我们改变k，即在10%~ 30%的不同噪声比下，最近邻数应该注意的是，k不应该太小，否则校正容易受到局部噪声样本的影响。我们观察到，当k8时，性能是鲁棒的。我们还观察到k的最佳选择是8，并且与噪声率无关。对λ的灵敏度。在图6（b）中，我们分析了我们方法中的另一个重要超参数，自强化程度λ。我们发现λ=2对于两个数据集上的所有噪声率都是最好的。使用较小的λ会产生更多的错误校正，导致标签校正的精度较低，并且召回率也较低，因为错误校正会产生大量新的噪声标签。使用较大的λ将具有高精度，因为我们仅在高度自信时才校正标签，但噪声校正的召回率较低与k类似，λ的最佳值也与噪声率无关。真校正（IDN）真校正（TLN）假校正（IDN）假校正（TLN）切换校正（IDN）切换校正（TLN）查准率（IDN）查准率（TLN）查全率（IDN）查全率（TLN）秩-1，nr=0.1 mAP，nr=0.2mAP，nr=0.1秩-1，nr=0.3秩-1，nr=0.2 mAP，nr=0.3precision，nr=0.1recall，n r =0.2回想一下，nr=0.1精密度，nr=0.3精确度，nr=0.2召回率，n r=0.3(Pre.、Rec.）- -一种精确度，nr=0.1召回率，nr=0.2回想一下nr=0.1精密度，nr=0.3精确度，nr=0.2召回率，nr=0.3图片数量精密度（%）%召回率（%）%%基线-84.1 67.1--85.3 69.9--模型预测argmaxjf（x|Θ）j85.1 68.4 32.522.185.6 71.4 25.65.4yi=173.9 36.526.684.9 67.0 23.06.9标签扩散[51]（I−αA）−1L90.5 79.5 68.571.286.4 71.2 43.211.2Ours w/oλID−1AD−1L88.12 275.8 40.228.985.6 71.0 25.17.81 1我们的w/o对称AD−2（A+λI）D−r2L90.879.7 70.274.686.9 73.2 47.816.3我们的D−1（A+λI）D−1L91.92 282.3 89.784.288.8 76.6 56.317.04796ΣIJIJ图7. IDN和TLN的t-SNE可视化。我们使用不同的颜色来表示不同的身份和交叉表示样本与不正确的标签。表6. 标签校正精密度评价（Pre.）和回忆（R ec.）在市场上-1501与20%的不同类型的标签噪音。方法CCNrank-1 mAPIDNrank-1 mAPTLNrank-1 mAP软重新标记85.368.286.270.585.268.8硬（我们的）92.282.291.982.388.876.6硬纠正与软重新标记。我们通过在消息传递后使用标签矩阵的 softmax logits 训练网络来验证效果（即，，Lid=表7.对Re-ID基准点的干净训练集进行稳健性测试。方法Market-1501rank-1 mAPdukemtmc-Reidrank-1 mAP基线94.186.786.375.9我们94.085.986.776.8-1个月plogf（xi|Θ），p=exp（Lij/τ），j =一...... C）的范围内。比较结果见表6。我们发现，使用软重新标记获得较差的性能比硬标签校正。我们认为原因是使用软重新标记可能会使模型更容易过拟合标签噪声，并丢失硬样本的有用信息。在我们的一阶传播模型中使用硬校正可以切断噪声标签的传输。可视化。我们从Market-1501中随机选择10个人，并在图7中使用t-SNE [33]可视化他们的特征。我们有以下观察结果：（1）基线方法过拟合IDN和TLN具有不同的模式。具有IDN的样本分布在具有相同身份的其他样本的外围区域，而具有TLN的样本更喜欢与具有相同身份的其他样本聚集在不同的区域(2)我们的GBSL模型可以产生比基线模型更紧凑的特征聚类，表明所提出的方法可以提高对标签噪声的鲁棒性。干净数据集的稳健性测试。我们还使用Market-1501和DukeMTMC-reID基准的原始标签评估了我们的方法，这些标签相对干净，注释错误有限。我们观察到，与基线模型相比，性能是稳定的。在DukeMTMC-reID上，性能略有改善，表明其训练集可能最初是嘈杂的。虽然GBSL可能会在原始的训练迭代中错误地修改一些干净的标签，但其中大部分将在以后的自学习过程中作为更具区分性的特征的学习而被纠正其余经过修正但最近没有修正的样本大多是每个恒等式的异常值。他们的标签将更改为与他们具有相似外观的行人的图8. 我们的方法检测到现有的Re-ID基准中具有不正确注释的示例。并且这样的错误不会对个人造成重大损害。值得注意的是，所提出的方法可以检测出一些原来不正确的标签在基准数据集与所提出的算法，如图所示。8. 例如，一个穿着黑色吊带包、白色胸片和白色鞋子的男子的图像被分配给Market- 1501的ID 0939，该ID 0939穿着具有类似外观的黑色鞋子。4. 结论在本文中，我们研究了鲁棒的人的Re-ID与噪声标签的问题。基于人的Re-ID的注释过程的特点，我们提出了一种更现实和具有挑战性的噪声，TLN。为了在每个身份的训练样本有限的情况下处理标签噪声，我们提出了一个基于图的自学习框架，用于鲁棒的人Re-ID，以迭代地学习区分表示并纠正不一致的标签。该方法可以有效地减少IDN和TLN的鲁棒的人Re-ID和显着提高了基线模型对标签噪声的鲁棒性虽然我们的方法可以很好地解决Re-ID中的图像级标签噪声，但所提出的TLN仍然具有挑战性，值得在未来进一步ni=1jexp（Lij/τ）4797引用[1] Goérk emAl g anandIlkayUlus oy. 在存在噪声标签的情况下使用深度学习进行图像分类：一个调查。基于知识的系统，215：106771，2021。[2] Dapeng Chen，Hongsheng Li，Tong Xiao，Shuai Yi，and Xiaogang Wang.利用竞争片段相似性聚合和共同关注片段嵌入的视频人重新识别。在IEEE计算机视觉和模式识别会议论文集，第1169-1178页[3] Pengfei Chen ， Junjie Ye ， Guangyong Chen ， JingweiZhao ， and Pheng-Ann Heng.Beyond class-conditionalassumption：对抗实例相关标签噪声的主要尝试在AAAI人工智能会议论文集，第35卷，第11442-11450页[4] Xuesong Chen ， Canmiao Fu ， Yong Zhao ， FengZheng，Jingkuan Song，Rongrong Ji，and Yi Yang.用于人物再识别的显著性引导级联抑制网络在IEEE/CVF计算机视觉和模式识别会议论文集，第3300-3310页[5] 陈颖聪，朱夏田，郑伟世，赖建煌。通过相机相关性感知特征增强的人重新识别。IEEE transactions on patternanalysis and machine intelligence，40（2）：392[6] Hao Cheng，Zhaowei Zhu，Xingyu Li，Yifei Gong，Xing Sun，and Yang Liu.使用实例相关标签噪声学习arXiv预印本arXiv：2010.02347，2020。[7] JiachengCheng，TongliangLiu，KotagiriRamamohanarao，and Dacheng Tao.有界实例和标签依赖标签噪声的学习《国际机器学习会议》，第1789-1799页。PMLR，2020年。[8] Jia Deng，Wei Dong，Richard S

下载后可阅读完整内容，剩余1页未读，立即下载