没有合适的资源?快使用搜索试试~ 我知道了~
{yzz6000,jinxustc,zkcys001}@mail.ustc.edu.cn,fzhao956@ustc.edu.cn............142980通过内部身份正则化释放无监督预训练的潜力,用于人物再识别0杨子铮 金鑫 郑可成 赵峰 * 中国科学技术大学0摘要0现有的人物再识别(ReID)方法通常直接加载预训练的ImageNet权重进行初始化。然而,作为一项细粒度分类任务,ReID更具挑战性,ImageNet分类之间存在较大的领域差距。受到具有对比目标的自监督表示学习的巨大成功的启发,本文设计了一种基于对比学习(CL)流程的人物再识别(UP-ReID)无监督预训练框架。在预训练过程中,我们试图解决学习细粒度ReID特征的两个关键问题:(1)CL流程中的增强通常会扭曲人物图像中的辨别线索,(2)未充分探索人物图像的细粒度局部特征。因此,我们在UP-ReID中引入了一个内部身份(I2-)正则化,它由全局图像和局部补丁方面的两个约束实例化。在增强和原始人物图像之间强制执行全局一致性约束,以增加对增强的鲁棒性,同时在每个图像的局部补丁之间使用内在对比约束来充分探索局部辨别线索。在多个流行的Re-ID数据集(PersonX,Market1501,CUHK03和MSMT17)上进行了大量实验,结果表明我们的UP-ReID预训练模型可以显著改善下游ReID微调并实现最先进的性能。01. 引言0作为一种细粒度分类问题,人物再识别(ReID)旨在在不重叠的摄像头视图中识别特定的人物。现有的ReID方法在监督[25, 27, 35, 37, 42, 46]和无监督[10, 13, 14, 26, 30,45]领域都取得了显著的成功。这些方法中的大多数直接利用预训练的ImageNet权重进行初始化。然而,作为一项细粒度分类任务,ReID更具挑战性,ImageNet分类之间存在较大的领域差距。受到具有对比目标的自监督表示学习的巨大成功的启发,本文设计了一种基于对比学习(CL)流程的人物再识别(UP-ReID)无监督预训练框架。在预训练过程中,我们试图解决学习细粒度ReID特征的两个关键问题:(1)CL流程中的增强通常会扭曲人物图像中的辨别线索,(2)未充分探索人物图像的细粒度局部特征。因此,我们在UP-ReID中引入了一个内部身份(I2-)正则化,它由全局图像和局部补丁方面的两个约束实例化。在增强和原始人物图像之间强制执行全局一致性约束,以增加对增强的鲁棒性,同时在每个图像的局部补丁之间使用内在对比约束来充分探索局部辨别线索。在多个流行的Re-ID数据集(PersonX,Market1501,CUHK03和MSMT17)上进行了大量实验,结果表明我们的UP-ReID预训练模型可以显著改善下游ReID微调并实现最先进的性能。0* 通讯作者。0辨别性 辨别性0增强0增强0原始图片 增强图片0辨别性0相似0增强0增强0原始图片 增强图片0(a)左:两个增强图像对于一般分类任务仍然具有辨别性。右:通过增强破坏了人物再识别的两个人物图像的辨别属性。0正样本 负样本0相似 不相似0锚点0正样本0相似...0负样本0不相似0锚点0(b)顶部:使用全局特征进行失败的ReID案例,其中正样本具有不相似的外观,而负样本则具有相似的外观。底部:使用细粒度的辨别属性(例如背包和包)进行成功的ReID案例,其中人物图像可区分且与服装独立。图1.现有对比学习为基础的预训练方法中存在的两个关键问题,这些问题应该在ReID特定的预训练框架中得到很好的解决。0现有的人物再识别(ReID)方法通常加载在ImageNet上预训练的权重进行模型初始化,这可能对ReID任务不是最优的,导致微调性能差和收敛速度慢[14,42]。主要原因有两个方面:不适用的预训练方法(ImageNet更像是一种粗粒度分类)和ImageNet与ReID数据集之间的较大领域差距。因此,如何高效地预训练一个良好的ReID特定初始化网络仍然未被充分探索。无监督预训练在对比学习的巨大成功下取得了快速发展[1, 4, 6,1429907 , 18],这被视为一种前提工作,用于为不同的下游监督或无监督的ReID微调算法提供服务。除了一般的预训练任务外,本文旨在提出一种ReID特定的预训练框架(例如,对于学习具有区分性的ReID表示而进行的ResNet50[19]的预训练)在大规模无标签数据集上。[12]中的开创性工作首次尝试了ReID预训练,并引入了一个新的大规模无标签ReID数据集LUPerson。然而,它直接将为ImageNet分类设计的对比学习的一般预训练过程转移到ReID任务中,忽视了ReID是一个细粒度分类问题的事实。这个解决方案面临以下两个关键问题:第一个问题来自现有对比学习流程中使用的数据增强操作,这可能会破坏人物图像的区分属性。如图1a所示,与ImageNet上的粗粒度分类问题不同,人物图像的区分属性容易被增强操作破坏。例如,在ImageNet分类中,尽管应用于图片(例如狗和船)的增强操作可能导致缺乏区域信息,但剩余部分仍足够区分它们以支持模型进行区分。然而,当将相同的增强操作应用于ReID中的人物图像时,将引发灾难,即人物图像的最具区分性的属性(例如裤子颜色)被破坏,使它们无法区分。第二个问题是以前的预训练方法没有充分探索人物图像的细粒度信息。它们通常只关注学习图像级全局特征表示。然而,作为细粒度分类任务,ReID除了全局特征外还需要详细的局部特征以进行准确的身份匹配[40, 42,45]。如图1b所示,与全局特征相比,局部细粒度线索(例如背包、斜挎包)对于区分不同的人更有帮助。为了解决上述问题,我们在提出的ReID特定预训练框架UP-ReID中引入了一个内部身份(I2-)正则化。它包括增强和原始人物图像之间的全局一致性约束,以及每个图像的局部补丁之间的内在对比约束。具体而言,我们首先强制进行全局一致性,使预训练模型对增强操作更加不变。我们将增强图像以及原始图像输入模型,然后在分布中缩小它们之间的相似性距离。其次,我们提出了一种内在对比约束来探索局部信息。我们将增强图像分割成多个补丁,然后将这些补丁与整体图像一起发送到网络中。然后,我们计算补丁之间的内在对比损失,以鼓励模型学习细粒度和语义感知的表示。此外,基于人体水平对称的先验知识,我们为该损失的计算建立了一种硬挖掘策略,使训练稳定,从而提高了预训练模型的泛化能力。我们总结我们的主要贡献如下:0•考虑到ReID任务的特殊性,我们在UP-ReID中引入了一种内部身份(I2-)正则化,它从全局图像级别和局部补丁级别实例化。0•根据我们的了解,提出的UP-ReID是第一个专门针对ReID的预训练框架,通过明确指出一般预训练和ReID预训练之间的差异来实现。0•考虑到ReID任务的特殊性,我们在UP-ReID中引入了一种内部身份(I2-)正则化,它从全局图像级别和局部补丁级别实例化。0•在I2正则化中,首先强制执行全局一致性,以增加预训练对数据增强的鲁棒性。然后,引入了一种基于先验的硬挖掘策略,用于在人员图像的局部块之间充分探索局部判别线索的内在对比约束。0在多个广泛使用的ReID基准测试上进行的大量实验证明了提出的UP-ReID的有效性,它以显著的优势超过了其他最先进的预训练方法,并且可以受益于一系列下游ReID相关任务。02. 相关工作02.1. 人员ReID0全监督ReID方法。全监督ReID方法基于带标签的数据集进行监督学习,并取得了巨大的成功[27, 28, 35,46]。这些方法可以分为两个主流分支。一种侧重于为人员ReID设计有效的优化度量(即度量学习),例如硬三元组损失[23]和圆形损失[39]。另一方面,学习细粒度特征也是一个流行的分支。PCB [40]和MGN[42]都通过将每个整体图像手动分割成多个子部分来利用行人图像的局部特征,以实现准确的人员ReID。无监督ReID方法。无监督人员ReID有两个典型的类别:无监督领域自适应(UDA)方法和领域泛化(DG)方法。1)当目标领域数据可访问时,UDA可以处理领域差异问题,旨在从带标签的源数据和无标签的目标数据中学习通用模型。基于UDA的方法可以进一步分为三个主要的...��������........................012M-1M......012M-1M...Stop Gradient......MoCo [18] and MoCo v2 [6] design a dynamic queue andintroduce a momentum update mechanism to optimize a keyencoder progressively. SimCLR [4] and SimCLR v2 [5]also achieve great performance with a large batch size, richdata augmentations and a simple but effective projectionhead. BYOL [16] and SimSiam [7] further achieve greatperformance even without negative pairs.SwAV [1] re-places comparison between pairwise samples with compar-ison between cluster assignments of multiple views.The work of [12] proposes a new large-scale unlabeleddataset “LUPerson” which is large enough to support pre-training and makes the first attempt to pre-train specificmodels for person ReID initialization. However, since thework merely migrates the approach of pre-training modelson ImageNet to ReID directly, it suffers from the instabilityissue (see Figure 1a) caused by augmentation and lacked ofthe exploration of fine-grained discriminative informationof pedestrian images (see Figure 1b). In this work, we studyhow to design a pre-training framework that avoids dataaugmentation interference while fully using fine-grained lo-cal information for discriminative representation learning.143000增强1和分区0编码器0EMA编码器0空0内在对比约束0一致性约束0更新0列库0增强2和分区0空0空0空0空0一约束0一致性损失0空0空0内在对比约束0空0空0空0空0对比损失0对比损失0增强图像的前向传播0原始图像0前向传播0图像级别特征0分块级别特征0队列库更新0图像级别0分块级别0空0空0空0空0空0空0空0空0空0空0空0图2.提出的UP-ReID的架构。给定输入图像,我们可以在两种不同的增强和分区后得到两组不同的增强实例。然后,我们将它们与原始图像一起输入在线编码器和EMA编码器。通过计算一致性损失来缩小增强图像的相似性分布与原始图像的相似性分布之间的差距。我们还根据精心设计的硬挖掘策略计算内在对比损失。EMA编码器特征用于更新队列库。在线编码器通过总损失的梯度进行优化,而EMA编码器则通过在线编码器的基于动量的移动平均进行更新。0类别:基于风格转移的工作[11, 44,50],基于属性识别的工作[34, 43]和基于伪标签的工作[13,14,36]。2)DG是为目标域数据不可用的更具挑战性的情况而设计的。Jin等人[26]设计了一个风格归一化和恢复(SNR)模块,以增强与身份相关的特征并过滤掉与身份无关的特征,以提高模型的泛化能力。此外,元学习[48]也被用作实现PersonReID特定领域泛化的一种流行方法。基于对比学习的方法[3,24]在小规模数据集上纯无监督ReID方面也取得了巨大成功。然而,所有这些方法通常加载预训练的ImageNet权重进行初始化,并忽略了ImageNet分类和细粒度ReID任务之间的差距。02.2.自监督表示学习0基于最近流行的对比学习,无监督预训练取得了巨大成功,许多代表性的工作取得了与监督工作相当甚至稍微更好的性能。Ltotal = Lconsist. + Linc.(1)A(q, k) = q · kT ,(2)A(qr, kr) = qr · kTr .(3)Lconsist. = MMD (A(q, k), A(qr, kr)) .(4)1430103. ReID的无监督预训练0PersonReID训练通常包含两个步骤:预训练和微调:(a)首先在大规模数据集上(例如LUPerson[12])上使用预训练任务对模型(例如ResNet50)进行无监督预训练,(b)然后使用预训练模型初始化骨干网络,并使用小规模标记或无标记的Person ReID数据集(例如Market1501[49])进行微调。在本文中,我们关注第一阶段,即如何以无监督的方式预训练ReID友好的模型。我们首先在第3.1节概述了我们UP-ReID的整个流程,然后介绍了用于预训练的提出的I2正则化,包括全局一致性约束(第3.2节)和内在对比约束(第3.3节)。最后但并非最不重要的是,我们讨论了一种基于先验的硬挖掘策略,用于增强局部特征,详细讨论在第3.4节中。03.1.概述0如图2所示,UP-ReID有两个编码器:在线编码器fq和基于动量的移动平均(EMA)更新编码器f k。f q和fk都由特征编码器和投影头组成。特征编码器是要预训练的模型(例如ResNet50),投影头是一个多层感知机。在线编码器f q将通过反向传播进行更新,而EMA编码器f k将通过fq的基于动量的移动平均缓慢进展,即θ k ← mθ k +(1 − m) θ q。θ k,θ q表示f k,fq的参数,m表示动量系数。给定输入图像x,我们可以在两种不同的增强后得到x的两个不同视图:查询视图xq,0和关键视图x k,0。与之前只将增强图像x q,0和xk,0作为输入的对比学习方法不同,我们还将原始图像x输入到网络中,如图2所示。然后,我们通过一致性损失Lconsist来缩小小批量中增强图像的相似性分布与原始图像的相似性分布之间的距离,详细描述在第3.2节中。此外,在将x q,0和xk,0输入到网络之前,我们将它们各自分成M个不重叠的块。注意,所有的2M个块实际上都是从同一个人的图像x中分割出来的。然后,我们将这些块连同整个增强图像一起输入到在线编码器和EMA编码器中。通过它们计算出一个内在的对比损失Linc,用于学习细粒度的局部表示和语义图像级别的表示,详细讨论在第3.3节中。为了更好地探索细粒度信息,进一步引入了一种硬挖掘策略来计算内在的对比损失,详细介绍在第3.4节中。最终,0总优化目标定义为:0此外,构建一个动态队列库来存储先前小批量的特征表示,并为当前小批量训练提供足够的负样本。在实践中,我们为图像级特征准备一个队列,即 Q 0,为每个补丁级局部特征准备一个队列,即 Q i ,其中 i ∈{ 1 , ..., M }。所有这些队列共同构成队列库,并且它们将使用EMA编码器提取的特征进行动态更新。03.2. 对增强-原始图像的一致性0数据增强在对比学习中起着至关重要的作用。然而,行人图像的区分属性很可能会被各种增强操作破坏(参见图1a)。由于增强引起的视觉扭曲,一个样本可能与其正样本相似度较低,但与其负样本相似度较高,这必然对预训练过程产生负面影响。为了缓解这个问题,我们求助于原始图像。尽管增强图像中可能破坏了与身份相关的特征,但那些区分性线索仍然存在于原始人物图像中,即增强之前的原始图像。因此,我们提出使用原始图像之间的相似性作为地面真实值来监督经过数据增强的图像,即在数据增强之前和之后保持一致性。对于输入的人物图像小批量 x r,在两种不同的增强之后生成两组图像 x q 和 x k,然后将它们输入网络分别产生在线编码器特征 q 和EMA编码器特征 k : q = f q ( x q ) 和 k = f k ( x k )。计算相似性分布如下:0其中 q 和 k已经通过归一化层和投影头进行了归一化,A(∙)表示两个经过两种不同增强的图像批次之间的实例间相似度计算函数。类似地,我们对原始输入图像 x r 进行相同操作,表示为 q r= f q ( x r ) 和 k r = f k ( x r )。然后,我们计算原始图像的实例间相似度分布:0然后,我们使用最大均值差异(MMD)[15]度量来衡量两个分布之间的差异,并基于此构建一致性损失:{xq,1, ..., xq,M} = P(xq,0),(5)xk,1, ..., xk,M= P(xk,0),(6))...123456781234567812345678127812781278143020注意,计算的原始图像上的相似性分布 A( q r , k r )仅用作监督增强图像 A( q, k )的相似性分布,并且不参与更新。因此,原始图像的特征没有梯度反向传播。一致性损失 L consist.帮助模型推导和恢复被数据增强破坏的区分性局部区域,并进一步鼓励模型学习不同实例之间的区分性特征表示。03.3. 内在对比约束0为了探索人物图像的内在属性,我们还在我们的UP-ReID框架中引入了一种内在对比约束。在将增强图像 x q, 0 和 x k,0输入网络之前(这里我们用下标‘0’表示整体人物图像),我们将它们分成 M 个不重叠的补丁,0其中P表示分割操作,xq,i表示从xq,0分割的第i个补丁,xk,i表示从xk,0分割的第i个补丁。然后,我们将它们组合在一起得到两个集合:Xq = {xq,i}Mi=0和Xk ={xk,i}Mi=0。以图像集Xq为例进行说明,它包括一个图像级整体实例xq,0和M个补丁级局部实例xq,i(i∈{1,...,M})。它们都来自同一输入图像x并属于同一实例,即输入x。简而言之,xq,0包含图像级全局信息,而xq,i(i∈{1,...,M})突出显示局部信息。如图2所示,我们将Xq和Xk分别输入在线编码器fq和EMA编码器fk,即qi = fq(xq,i)和k+i =fk(xk,i),i∈0,1,...,M。为了从整体图像中学习语义感知表示,我们对全局特征施加了InfoNCE[32]损失,其形式为:0Lg = -log 0exp(q0 ∙ k + 0 /τ1) + ΣN-1j=0 exp(q0 ∙ k -0(7)其中τ1是温度超参数,k-0,j是图像级特征队列Q0中的负样本,N是Q0中负样本的总数。对于局部细粒度表示学习,我们计算了对补丁级实例的逐补丁对比损失。对于特征qi,我们将其正样本表示为k+p,负队列表示为Qn。形式上,第i个补丁pi的补丁级对比损失定义为:0Lpi = -log e0exp(qi ∙ k + p /τ2) + ΣN-1j=0 exp(qi ∙ k -n,j /τ2),0硬正对从同一实例分割的,但位于水平对称位置的补丁0硬负对从不同实例分割的,但位于相同位置的补丁0分割0正对0负对0i 补丁位置0图3.我们的硬挖掘策略的示意图。我们选择两个水平对称的从同一实例分割的补丁作为正对,选择两个从不同实例但位于相同补丁位置的补丁作为负对。0其中k-n,j是Qn中的负样本,τ2是温度超参数。关于k+p和Qn的选择的详细信息将在第3.4节中描述。为了充分探索行人的每个身体部位中包含的区分信息,我们计算了每个补丁级特征的上述对比损失,并将它们的加权平均和作为最终的约束。也就是说,内在的对比损失是Lg和多个Lpi的加权和:0Linc = λg * Lg + λp * 10M0i=1 Lpi, (9)0其中λg和λp是加权参数。03.4. 用于局部特征探索的硬挖掘0对于方程8中的补丁级特征qi,k +i和Qi应该是正样本和负队列,即k + p = k + i,Qn =Qi,对应于qi的相同补丁区域。为了更好地表示学习,基于人体水平对称的先验知识,我们进一步开发了一种有效的硬挖掘方法来选择每个补丁级特征的正样本和负队列,如图3所示。硬负队列选择。不同人的相同身体部位可能具有区分性,例如头发颜色和鞋子颜色。因此,对于方程8中的qi,我们选择从不同实例分割的补丁,但位于相同位置作为负样本(即Qn =Qi)。硬正样本选择。考虑到人是水平对称的先验知识,我们Lpi = −log�k+p ∈P(i) exp(qi · k+p /τ2)k+(i) exp(qik+p /τ2) +N−1j=0 exp(qik−i,j/τ2),143030选择从同一实例中分区的两个水平对称补丁作为正对。具体而言,在公式8中,我们选择特征k + ihs(即与位置i对应的水平对称补丁特征)作为q i的正样本。直观上,人体结构和服装大多是水平对称的,这意味着同一人图像的两个对称补丁包含非常相似的视觉代表模式(例如颜色、纹理)。这对于人物ReID很重要。因此,选择它们作为正对以预训练模型是合理的。另一方面,由于由于摄像机角度或人体姿势引起的不同捕获环境,行人图像可能不完全对称,这意味着两个对称补丁在细节上仍然存在差异,但主要的视觉信息相似。因此,选择它们作为正对可以提高模型在不同情况下识别相似视觉表示模式的能力,进一步帮助模型在各种环境中识别相同的行人。鉴于仍然存在一些与行人图片的水平对称的先验知识完全不一致的极端情况(例如从侧面拍摄的行人图片),我们还选择另一个视图人物图像的相同位置补丁(即k + i)作为q i的正样本之一。因此,公式8中的补丁对比损失修改为:0(10) 其中P(i) = {k + i hs, k + i},k − i,j ∈ Qi。04. 实验04.1. 实现0训练细节。为了公平比较,我们使用ResNet50作为预训练的骨干模型,SGD作为优化器。输入图像的大小调整为256×128。小批量大小设置为800,初始学习率为0.1。在我们的实验中,M设置为8,N设置为65536,m设置为0.9,τ1和τ2都设置为0.1,λg和λp分别设置为0.8和0.2。预训练模型在PyTorch框架下使用8个2080TiGPU进行3周训练。数据增强和分区。数据增强在自监督对比学习中起着至关重要的作用。我们采用与[12]相同的增强操作。至于分区,我们采用图像级分区策略。具体而言,我们首先将整体图像分成多个水平条带,然后将每个条带垂直均匀地分成两个补丁。需要强调的是,我们应用全局级增强(即增强后的分区),而不是补丁级增强。0分区(即分区后的增强)。因为全局级增强更接近真实数据的变化,并且不会破坏从同一人图像分区的补丁之间的内在一致性。数据集。我们在“LUPerson”[12]数据集上预训练我们的模型。为了展示我们预训练模型的优越性,我们在四个公共ReID数据集上进行了广泛的下游实验,包括CUHK03[28],Market1501[49],PersonX[38]和MSMT17[44]。请注意,我们不使用DukeMTMC[51]以避免道德问题。评估协议。按照标准的评估指标,我们使用Rank1和平均精度(mAP)来评估性能。04.2. 改进的监督式ReID0在本节中,我们通过与在LUPerson上无监督预训练的MoCov2[12]模型和在ImageNet上常用的有监督预训练模型进行比较,展示了我们的UP-ReID的优越性。这三种代表性的有监督ReID方法分别是Batch DropBlockNetwork(BDB)[9],StrongBaseline(BOT)[31]和Multiple GranularityNetwork(MGN)[42]。BDB是基于开源代码重新实现的。至于BOT和MGN,我们在fast-reid[20]中实现它们。表1显示了在四个流行的人物ReID数据集上,这三种选择的有监督ReID方法的改进情况。可以看出,与使用MoCov2初始化相比,UP-ReID的MGN在CUHK03、Market1501、PersonX、MSMT17的Rank1方面分别取得了12.2%、0.7%、1.9%、0.4%的改进;BOT在这四个数据集上的Rank1方面分别取得了2.8%、0.2%、0.7%、2.7%的改进。图4显示了在微调的早期阶段应用不同预训练模型的收敛速度的比较。UP-ReID在所有三个数据集上都比MoCov2和INSUP具有更快的收敛速度。在PersonX上,性能提升更为明显(见图4c)。在Market1501上,优势不明显,UP-ReID仍然比MoCo v2领先1.7%的mAP改进(见图4b)。04.3. 无监督ReID的改进0我们的预训练模型也可以使无监督ReID方法受益。为了证明这一点,我们在SpCL[14]上测试了我们的预训练模型。我们在Mar-ket1501和PersonX上评估性能。在表2中,M表示在Market1501上进行纯无监督训练,而P →M表示无监督域自适应,其源数据集是PersonX,目标数据集是Market1501。如我们所见,UP-ReID在M和P →M方面的mAP和Rank1分别比MoCov2高2.9%、6.3%和2.2%、2.5%。它进一步验证了UP-ReID在人员ReID方面具有更好的优势和泛化能力。请注意,我们通过官方的OpenUnReid [14]实现了SpCL。INSUP76.7/79.462.0/63.970.5/71.2MoCo v278.9/81.566.7/66.374.7/75.4UP-ReID79.6/82.668.7/69.185.3/87.6(a) CUHK03INSUP86.7/95.385.7/94.387.5/95.1MoCo v288.1/95.387.6/94.991.0/96.4UP-ReID88.5/95.388.1/95.191.1/97.1(b) Market1501INSUP84.4/95.186.7/94.885.3/94.3MoCo v284.8/95.286.5/94.685.8/94.2UP-ReID86.1/95.388.0/95.389.7/96.1(c) PersonXINSUP49.2/77.453.4/76.861.5/84.0MoCo v251.2/78.153.2/75.462.9/83.9UP-ReID52.4/78.756.2/78.163.3/84.3(d) MSMT17���������������������UP-ReIDMoCo v2INSUP��������������������������������������UP-ReIDMoCo v2INSUP��������������������������������������UP-ReIDMoCo v2INSUP�������������INSUP73.188.173.888.0MoCo v272.287.872.488.4UP-ReID75.190.078.790.91143040表1. 使用不同预训练模型的三种代表性有监督ReID方法的比较,以mAP/Rank1(%)为指标。“INSUP”指的是在ImageNet上进行有监督预训练的模型,“MoCo v2”和“UP-ReID”分别指的是在LUPerson上进行MoCov2和UP-ReID预训练的模型。更多比较结果可以在附录中找到。0模型BDB [9] BOT [31] MGN [42]0模型BDB [9] BOT [31] MGN [42]0模型BDB [9] BOT [31] MGN [42]0模型BDB [9] BOT [31] MGN [42]0(a) CUHK03上的mAP学习曲线0(b) Market1501上的mAP学习曲线0(c) PersonX上的mAP学习曲线0图4. 在BDB上使用不同预训练模型的mAP学习曲线,三个数据集(CUHK03、Market1501和PersonX)具有相同的训练计划。更多比较结果可以在附录中找到。0这进一步验证了UP-ReID在人员ReID方面具有更好的优势和泛化能力。请注意,我们通过官方的OpenUnReid[14]实现了SpCL。0表2.使用不同预训练模型在无监督ReID方法SpCL上的性能(%)比较。0模型 M P → M0mAP 排名1 mAP 排名104.4. 与最先进的方法的比较0在本节中,我们将我们的结果与CUHK03和Market1501数据集上的最先进方法进行比较。请注意,我们没有使用任何额外的模块,如IBN-Net或后处理方法,如Re-Rank[52]。我们只是简单地将UP-ReID预训练的普通ResNet50应用于MGN。如表3所示,配备UP-ReIDResNet50的MGN在两个数据集上的性能优于所有比较方法。04.5. 消融研究0在本节中,我们进行了全面的消融研究,以证明我们设计的有效性。0表3.在CUHK03和Market1501上与最先进方法的性能(%)比较。最佳结果以粗体标记,次佳结果以下划线标记。我们在附录中展示了更多的比较结果。0方法 CUHK03 Market15010PCB [ 40 ](ECCV'18)57.5 63.7 81.6 93.8 OSNet [ 53](ICCV'19)67.8 72.3 84.9 94.8 P2Net [ 17](ICCV'19)73.6 78.3 85.6 95.2 SCAL [ 2 ](ICCV'19)72.374.8 89.3 95.8 DSA [ 46 ](CVPR'19)75.2 78.9 87.6 95.7GCP [ 33 ](AAAI'20)75.6 77.9 88.9 95.2 SAN [ 27](AAAI'20)76.4 80.1 88.0 96.10ISP [ 54 ](ECCV'20)74.1 76.5 88.6 95.3 GASM [ 21](ECCV'20)- - 84.7 95.3 RGA-SC [ 47 ](CVPR'20)77.481.1 88.4 96.10HOReID [ 41 ](CVPR'20)- - 84.9 94.2 AMD [ 8](ICCV'21)- - 87.1 94.8 TransReID [ 22 ](ICCV'21)- -89.5 95.2 PAT [ 29 ](CVPR'21)- - 88.0 95.40MGN+UP-ReID(我们的方法)85.3 87.6 91.1 97.10提出的UP-ReID。在CUHK03上,我们使用监督ReID方法MGN[ 42]对不同的预训练模型进行微调,以验证每个组件的有效性。���������������������������������������������������������������������������������������������������������UP-ReID w M = 481.383.192.6UP-ReID w M = 1280.782.292.4UP-ReID w M = 885.387.695.4143050一致性约束和内在对比约束的有效性。我们的UP-ReID包括两个关键约束:一致性约束(CC)和内在对比约束(ICC)。我们在表4中评估了它们的效果,其中“基线”代表“MoCov2”。具体而言,(b)带有CC的基线和(c)带有ICC的基线在CUHK03上的mAP/Rank1分别比(a)基线提高了4.4%/4.8%和6.7%/8.2%。同时使用这两个约束的(d)UP-ReID在CUHK03上实现了85.3%(+10.6%)的mAP和87.6%(+12.2%)的Rank1,这表明CC和ICC互补且对UP-ReID都至关重要,共同实现了更优越的性能。我们还评估了UP-ReID中每个组件在CUHK03上的收敛速度的有效性。图5绘制了使用MGN的四种不同预训练模型的mAP学习曲线。从图中可以看出,(b)带有CC的基线和(c)带有ICC的基线比(a)基线实现了更快的收敛。更重要的是,(d)同时具有两个约束(即ICC和CC)的UP-ReID比只有一个约束的(b)和(c)都实现了更快的收敛。实验结果表明,一致性约束和内在对比约束都有助于更好的视觉表示。前者旨在对抗数据增强的扰动,而后者旨在探索详细信息。0表4.在CUHK03上微调的几种UP-ReID预训练模型的消融结果。括号中的值是与基线相比的改进。0模型 CC ICC mAP Rank10(a)基线 × × 74.7 75.4 (b)带CC的基线 √ × 79.1(+4.4)80.2(+4.8) (c)带ICC的基线 × √ 81.4(+6.7) 83.6(+8.2)(d)UP-ReID √ √ 85.3 (+10.6) 87.6 (+12.2)0未知0未知0图5.在MGN中使用四种不同的预训练UP-ReID模型的CUHK03的mAP学习曲线。0硬挖掘策略的有效性。为了更好的表示学习,我们在内在对比约束中引入了一种硬挖掘(HM)策略。如表5所示,没有硬挖掘策略的UP-ReID(即用公式10替换公式8)的mAP/Rank1下降了4.6%/4.5%。显然,我们的硬挖掘策略提高了预训练模型的区分能力。与之前的工作[23]不同,我们根据人体水平对称性而不是在线方式选择正负对。我们进一步研究了不同硬挖掘策略的影响,并在附录中展示了更多结果。0表5. 我们UP-ReID在CUHK03上的ICC的硬挖掘策略的有效性.0模型 mAP Rank1 Rank50UP-ReID无HM 80.7 83.1 93.1UP-ReID有HM 85.3 87.6 95.40补丁级实例数量的影响.注意,每个补丁级实例是从相应的图像级实例中划分出来的.不同的补丁数量(M)意味着不同的补丁大小.我们研究了内在对比约束中补丁级实例数量的影响.如表6所述,M=8在CUHK03上的mAP/Rank1比M=4提高了4.0%/4.5%,也超过了M=12在mAP/Rank1上的4.6%/5.4%的提升.当M=8时,每个补丁级实例具有适当的大小,既不会忽略有区分性的属性,也不会引入不必要的噪声. 表6. ICC中不同补丁数量的结果.0模型 mAP Rank1 Rank505. 结论0在本文中,为了解决对ReID预训练任务应用对比学习的两个关键问题,我们提出了一种ReID特定的预训练框架UP-ReID,其中包括全局一致性约束和内在对比约束的内部身份正则化.此外,我们引入了一种硬挖掘策略,以探索更好的表示学习的局部信息.大量实验证明,UP-ReID可以提高下游任务的性能,具有更高的精度和更快的收敛速度.0致谢.本工作得到安徽省自然科学基金(编号2108085UD12)和JKW研究基金(编号20-163-14-LZ-001-004-01)的支持.我们感谢中国科学技术大学信息科学与技术学院MCC实验室搭建的GPU集群的支持.143060参考文献0[1] Mathilde Caron, Ishan Misra, Julien Mairal, Priya Goyal,Piotr Bojanowski和Armand Joulin.通过对比聚类分配进行无监督学习视觉特征.arXiv预印本arXiv:2006.09882 , 2020年. 1 , 30[2] Guangyi Chen, Ch
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功