没有合适的资源?快使用搜索试试~ 我知道了~
渐进增强的自训练无监督跨域人员再识别算法
8222基于渐进增强的自训练无监督跨域人员再识别算法张新宇1曹杰伟2沈春华2游明宇11同济大学2澳大利亚阿德莱德大学摘要65人员再识别(Re-ID)通过深度学习和大量标记的训练数据取得了很大的改进。然而,将在标记数据的源域中训练的模型适应于仅可用的未标记数据的目标域仍然是一项具有挑战性的任务在这项工作中,我们开发了一个自训练方法与渐进增强框架(PAST),以提高模型的性能逐步在目标数据集上。特别地,我们的PAST框架包括两个阶段,即保守阶段和促进阶段。保守阶段利用基于三元组的损失函数捕获目标域数据点的局部结构,从而改进特征表示。提升阶段通过在模型的最后一层添加可变的分类层来不断重要的是,我们提出了一种新的自训练策略,通过交替采用保守和促进阶段来渐进地增强模型的能力。此外,为了提高所选三重样本的可靠性,我们在保守阶段引入了一个基于排序的三重损失,这是一个基于数据对之间相似性的无标记目标函数。实验表明,该方法在无监督跨域环境下达到了最佳的人物代码可在:tinyurl. com/PASTReID1. 介绍人员再识别是监控和安全领域的一项重要任务,其目的是利用探测图像在不重叠的摄像机视图中定位目标行人。由于卷积神经网络(CNN)的优势,许多人的Re-ID工作专注于监督学习[14,32,39,5,48,4,6,20,31,7,26]并取得了令人满意的改进。尽管大X.章启月在澳大利亚阿德莱德大学访问.前两个作者对这项工作做出了同样的贡献。C. 沈是通讯作者:春华。shen @ adelaide。edu.au6055504540350 1 2 3 4迭代次数807060504030200 1 2 3 4迭代次数图1模型泛化伪标签预测的准确性(顶部)和不同方法在训练迭代中的性能比较(底部)这里我们使用Duke [45]作为源域,Market-1501 [44]作为目标域。成功,他们依赖于大型标记的数据集,这是昂贵的,有时不可能获得。为了解决这个问题,一些无监督学习方法[36,24,22]建议利用丰富的未标记数据,这些数据通常更容易收集。不幸的是,由于缺乏监督信息,无监督方法的性能通常较弱,因此在实际应用中效果较差。相比之下,无监督的跨域方法[38,10,36,47,18,27,12,25,21,30]建议使用标记的数据集(源域)和未标记的数据集(目标域)。然而,直接将在源域中训练的模型应用于CTLCTL+RTL过去CTL Rank1CTL+RTL Rank1PAST Rank1CTL mAPCTL+RTL mAPPAST mAP伪标签准确度(%)等级1和mAP(%)8223目标域由于两个域之间的不一致特性而导致不令人满意的性能,这被称为域移位问题[21]。在无监督跨域Re-ID中,问题变成如何以无监督的方式将预训练模型的学习信息从源域有效地转移到目标域一些域转移方法[47,18,27,12,25,21,30,24]已经做出了很大努力来解决这一挑战,其中大多数基于伪标签估计[12,30,25]。他们使用预训练的模型提取未标记目标数据集的嵌入特征,并应用无监督聚类方法(例如,k-means和DBSCAN [11])将数据分成不同的集群。同一类中的样本被假设为属于同一个人,这些样本被适配为用于监督学习的伪标签这些方法的缺点是,性能高度依赖于聚类质量,反映在是否具有相同的identity的样本被分配到一个集群。换句话说,性能依赖于伪标签与地面真实身份标签一致的程度由于损坏标签的百分比在很大程度上影响了目标数据集上的模型泛化[42],因此我们提出了一种方法来以渐进的方式提高标签的质量,从而大大提高了模型对未知目标数据集的泛化能力。本 文 提 出 了 一 种 新 的 渐 进 增 强 自 训 练 框 架(PAST),它的主要目的是:1)在训练初期伪标签质量较低时抑制错误放大;以及2)当标签质量变得更好时,逐渐地结合更有把握地标记的样本用于自训练。PAST有两个学习阶段,即,保守阶段和提升阶段,通过不同的学习策略考虑补充数据信息进行自我训练。保守阶段。如图1所示,由于域偏移,正确标记的数据的百分比最初很低。在这种情况下,我们需要选择自信的标签样本来减少标签噪音。我们认为图像之间的除了广泛使用的基于聚类的三元组损失(CTL)[17],它对聚类方法产生的伪标签的质量敏感,我们提出了一种新的无标签损失函数,基于排名的三元组损失(RTL),以更好地捕捉目标域中数据分布的特征。具体来说,我们计算整个目标数据集的排名得分矩阵,并通过从每个锚点的排名最高的图像中选择正面和负面示例来然后将三元组输入模型,并使用建议的RTL进行训练。在保守阶段,我们主要考虑数据分布的局部结构这对于在早期学习时期标签质量一般时避免模型崩溃是至关重要的提升阶段。然而,由于训练三元组的数量在大型数据集中急剧增长,并且三元组仅关注局部信息,因此使用三元组的学习过程损失不可避免地变得不稳定,并遭受次优结果,如图1中的“CTL”和“CTL+RTL”所示为了解决这个问题,我们建议在pro-moting阶段使用数据点的具体来说,我们把每个集群作为一个类,并转换成一个分类问题的学习过程。Softmax交叉熵损失用于强制不同类别保持分离,以鼓励类间分离。在提升阶段之后,模型倾向于更稳定,这有利于学习区分性特征。由于在使用softmax交叉熵损失对具有严重损坏的标签的图像进行训练时,错误很可能会被放大,因此我们在保守学习阶段之后使用此阶段,并可互换地执行这两个阶段。通过这种交替过程,我们提出的PAST框架可以稳定训练过程,并逐步提高模型在目标域上的泛化能力。总结起来,我们的主要贡献如下:1) 本 文 提 出 了 一 种 新 的 自 训 练 渐 进 增 强 框 架(PAST)来解决无监督跨领域人员Re-ID问题。通过执行两阶段的自训练过程,即交替进行保守和促进阶段,我们的方法大大提高了模型在未标记目标域数据集上的泛化能力。2) 我们提出了一个基于排名的三重损失(RTL),仅仅依赖于数据点的相似性分数,以避免选择不可靠的伪标签的三重样本。3) 我们利用全局数据分布的优势,使用softmax交叉熵损失进行模型训练,这有利于训练的稳定性和提高模型的泛化能力。4) 在三个大规模数据集上的实验结果表明了该方法在无监督跨领域人员身份识别中的有效性2. 相关工作监督人员重新识别。大多数现有的深度人Re-ID方法遵循监督设置。他们主要关注设计良好的模型架构[32,8,37,33,43,39,7,4],附加属性[5,29,48,6]和度量学习-ing [14,17,23,46].虽然这些方法已经取得了显著的进展,但它们都需要大量的标记训练数据,由于数据量巨大,不同人之间的外观变化剧烈,因此获得这些数据的成本很无人监督人员重新识别。为了减轻上述限制,8224标记源数据集嵌入特征评分矩阵嵌入特征重排序聚类模型预训练特征提取基于排名三重取样基于秩的三重态损耗估计批次硬三重取样未标记目标CNN模型Softmax交叉熵损失提升阶段数据集源数据集前向过程后向过程的模型预训练评价和抽样过程的交替学习之间的保守和促进阶段图2-我们的渐进式增强自我训练框架(PAST)概述。该模型在标记的源数据集上进行预训练。在训练过程中,我们首先进行一个采样过程,包括使用当前模型提取未标记目标数据集的嵌入特征(二)、然后,我们通过HDBSCAN [3]聚类方法为训练样本分配伪标签。在此基础上,我们进行保守阶段,使用基于聚类的三重损失(CTL)和提出的基于排名的三重损失(RTL)更新模型。在提升阶段,采用softmax交叉熵损失法进一步提高模型的性能。注意,在整个学习过程中,保守阶段和提升阶段迭代地交替。对于Re-ID评估,我们提取查询和图库图像的嵌入特征,并使用余弦距离进行排名。站,提出了无监督的人Re-ID方法[40,24,22,34,35],以充分利用大规模的未标记数据。他们中的大多数利用跨视图身份特定信息来捕获区别特征[40,35]或采用聚类方法将未标记的图像分成不同的类别[22,24]。然而,有监督的Re-ID方法和无监督的方法之间仍然存在很大的性能差距。无监督跨域人员重新ID。最近,研究人员非常关注无监督的跨域人员Re-ID算法[38,10,36,47,18,27,12,25,21,30],该算法利用了源域中的标记数据。它们都致力于克服领域移位,从而学习领域不变的特征表示。在这些现有的作品中,PTGAN [38]和SP-GAN [10]通过CycleGAN将源图像转换为目标域风格,然后使用转换后的图像来训练模型。另一种无监督的跨领域人员Re-ID作品[36,47,25,18]结合其他辅助信息作为辅助任务,以提高模型的泛化能力。例如,TFusion[25]集成了时空模式以提高Re-ID精度,而EANet [18]使用姿势分割。TJ-AIDL [36]同时学习属性-语义和身份区分特征表示空间,可以将其转移到任何新的目标域以进行re-id任务。与监督学习类似,这些领域自适应方法需要收集属性注释。除了上述方法之外,一般来说,一些方法[12,30,25,28]专注于估计目标域上的伪标识标签,以便以监督的方式学习深度模型。图像匹配[1,2]和聚类-使用嵌入方法来生成用于更新具有嵌入损失的网络的一系列训练数据(例如,三重损失[17]或对比损失)[30,25]或分类损失(例如,softmax交叉熵损失)[12]。然而,嵌入损失函数受到次优结果和收敛速度慢的限制,而分类损失高度依赖于伪标签的质量。虽然[41]中的工作引入了一个简单的域自适应框架,该框架也联合使用了三重损失和softmax交叉熵损失,但它旨在解决一次性学习问题。3. 我们的方法对于无监督的跨域人Re-ID,我们关注的问题是如何使用来自标记源数据集的先验知识来学习未标记目标数据集的在本节中,我们详细介绍了所提出的具有渐进增强框架(PAST)的3.1. 框架概述我们提出的PAST的概述如图2所示,它有两个主要组成部分:保守阶段和促进阶段。我们首先以监督的方式使用标记的源训练数据集S训练CNN模型M。然后,利用该预训练模型来提取目标域T上的所有训练图像的特征F。在保守阶段,基于对上述图像特征F计算的排名得分矩阵DR,我们可以通过HDBSCAN [3]聚类方法生成更可靠的训练集TU三······8225Σ˜˜˜ ˜˜PK(这里也可以采用其他聚类方法)。这个更新的训练集TU是整个训练数据T的子集。结合两个基于三元组的损失函数,基于聚类的三元组丢失(CTL)和所提出的基于排序的三元组丢失(RTL),可以从由当前训练集TU形成的三元组中捕获目标域中的局部关系以用于模型优化。之后,我们通过使用更新的模型M在更新的训练集TU上提取特征FU。在提升阶段,利用保守阶段的新特征FU,我们提出采用softmax交叉熵损失进一步优化网络。在这一阶段,考虑训练集的全局分布,以提高特征表示的区分度。最后,通过保守阶段和提升阶段交替训练模型,逐步提高模型的泛化能力。PAST的细节在算法1中描述。3.2. 保守期无监督跨域Re-ID的任务是开发一种能够在未标记的目标域上学习鲁棒特征的方法,其中目标是将相同的样本放在一起并将不同的样本推到彼此远离的地方。三元组丢失[47,30,25]已被证明能够通过生成目标数据的可靠三元组来发现数据分布的有意义的潜在局部结构。与监督环境不同的是,伪标签被分配给未标记的样本,这更难以构造高质量的三元组。我们的目标是设计其中DR(xi)是DJ(xi)的排序副本。给定一个特定的样本xi,dJ(xi,xj)中的xj表示第j个最相似的样本。然后,我们在DR上应用基于层次密度的聚类算法(HDBSCAN)[3]将整个训练图像分成不同的聚类。每个聚类被认为是一个特定的类,其中相同聚类的样本可以被分配到相同的伪标签。请注意,有些图像被丢弃,因为没有对应的集群。因此,具有分配的标签的图像被用作更新的训练集TU以进一步优化模型。我们结合两种类型的三重损失函数来更新模型,即,基于聚类的三元组丢失和基于排名的三元组丢失,如下所述。三重损失(CTL)。 批量硬三元组挖掘[17]被提出来挖掘小批量内样本之间的关系按照[17]中的设置,我们随机抽取P个聚类和每个聚类的K个实例,组成一个大小为PK的小批量。对于每个锚图像xa,选择该批内的对应的最硬正样本xp和最硬负样本xn以形成三元组。由于伪标签来自聚类方法,因此我们将该损失函数命名为基于聚类的三重损失(CTL),其公式如下:PKLCTL=[m+||f(xa)−f(xp)||2−||f(xa)−f(xn)||2]+a=1最硬正片=[m+max||f(xix,a`)−f(xi,p)||˛2一种学习策略,不仅可以生成可靠的样本,也提高了模型的性能。在实践中,我们在保守阶段进行以下程序。一开始,在整列火车上-i=1a=1- minn=1…Kj =1…Pj/=ip=1…K||f(xi,a)−f(xj,n)||2]+,将数据集T:{x1,x2,...,xN},我们提取特征F:{f(x1),f(x2),.,f(xN)},以及我不知道你在说什么(三)采用k-倒数编码[46],这是一种变体最近邻集之间的Jaccard距离,以生成距离矩阵D为:D=[D J(x1)D J(x2)。. . D J(xN)]T,DJ(xi)=[dJ(xi,xi)dJ(xi,x2). . .dJ(xi,xN)],(1)i ∈ {1,2,. . . ,N},其中,Dj(xi)表示一个特定人xi与所有训练图像的距离向量dJ(xi,xj)是样本xi和xj之间的Jaccard距离。由于距离越小意味着图像之间的相似性越大,因此我们以升序对每个距离向量DJ(xi)进行排序,从而产生排名得分矩阵DR:其中xi ,j是表示批中第i个聚类的第j个图像的数据点。 f(xi,j)是xi,j的特征向量。m是正负对之间的差值。基于排序的三重损失(RTL)。 然而,很明显,CTL的有效性在很大程度上取决于标签估计的质量,这取决于聚类结果是否正确。为了避免这种依赖性,我们提出了一种基于排序的三重损失(RTL),它只充分利用排序得分矩阵DR。由于不需要估计图像的标签,它是一种无标签的方法来反映数据对之间的关系。具体地,给定训练锚xa,正样本xp是从前η个最近邻中随机选择的DR= [DR(x1)DR(x2). . .D R(xN)]T,根据排序得分向量DR(xa),负样本xn来自位置(n,2n]。此外,相反DR(xi)=[dJ(xi,x1)dJ(xi,x2). . . dJ(xi,xN)],i∈ {1,2,. . . ,N},8226(二)针对CTL中硬保证金的不足,引入了基于xp和xn相对排名的软保证金,8227Σ伊伊河适应于不同尺度的类内变异。RTL的计算公式如下:PK算法一:渐进式自我训练框架(PAST)输入:标记的源域数据集S;整个未标记的目标LRTL =【日|Pp− Pn|M +ηa=1||f(xa)−f(xp)||2−||f(xa)−f(xn)||2]+,(四)领域训练数据集T; CNN模型M;最大迭代次数Imax;HDBSCAN聚类方法;每个聚类中的最小样本数输出:M型。C:在S上初始化模型M;初始化选定的训练集其中每批中的选定锚与CTL. m是与Eq相同的裕度(三)、η是正样本选择的排序位置的最大值Pp和Pn是xp和xn相对于xa的排序位置。总之,我们使用CTL和RTL的组合来优化网络,以更好地捕获数据分布的局部结构。我们在保守阶段的最终基于三重态的损失函数如等式所示。(五):TU=T。1 对于i= 1到Imax,2保守阶段:3从M中提取训练数据T上的嵌入特征F;4在整个训练数据T上计算排名得分矩阵DR根据Eq. (2);5使用HDBSCAN(DR;Smin)更新训练集TU;6.根据等式2使用TU更新模型M(5);7从M中提取TU上的嵌入特征FU;8提升阶段:LC=LRTL +λL CTL 、(五)9.根据等式(1),基于FU初始化分类器。(7);10根据等式11使用TU更新模型M(6);其中λ是权衡两个损失函数的影响的损失重量。实验结果表明,这种组合损失函数提高了模型的表示能力。3.3. 提升阶段由于基于三元组的损失函数仅关注每个三元组内的数据关系,因此模型将易于不稳定并陷入次优的局部最小值。为了缓解这个问题,我们提出了应用分类损失,以进一步提高模型的泛化能力,利用全局信息的数据分布的训练样本。在提升阶段,在模型的末尾增加一个全连接层作为分类层,并根据当前训练集的特征对全连接层进行初始化Softmax交叉熵损失被用作目标函数,其被公式化为:PKWTxi我11端部初始化是指我们可以利用先前的信息来避免随机初始化所带来的精度波动,这有利于模型训练的收敛。有关比较,请参阅附录。3.4. 交替训练在本文中,我们开发了一种简单而有效的自训练策略,可以捕获未标记训练图像的局部和也就是说,保护阶段和促进阶段交替进行。在训练模型时,只利用数据点之间的局部关系,避免了分类损失带来的误差放大的困难。在保守阶段经过多次训练后,模型的表示能力和聚类质量更加可靠。接下来,我们使用softmaxLP=−测井曲线、(6)eWT x交叉熵损失在提升阶段进一步增大i=1c=1c我模型的能力,这有助于避免模型其中y=i是样本xi的伪标签。C是来自HDBSCAN聚类方法的具有更新的训练集TU的聚类的数量。基于加权平均的为分类器 由于每次迭代中聚类结果的变化,在HDB-SCAN聚类之后,新添加的分类器需要重新训练。我们利用每个聚类的平均特征作为初始参数,而不是随机初始化。具体来说,对于每个聚类c,我们通过对其元素的所有嵌入特征进行平均来计算平均特征Fc分类器的参数W被初始化为以下公式:Wc= F c,c ∈ {1,2,. . . ,C},(7)其中W∈Rd×C。 Wc∈Rd是W的第c列d是特征维数。其优点在保守阶段由于基于三重态的损失函数而陷入局部最优然后将更新后的模型用作保守阶段的初始状态,并交替使用这两个阶段来训练模型。随着训练的进行,模型的泛化能力逐渐提高,可以学习更多的训练图像的区别特征表示。这种两阶段交替自训练方法的细节在算法1中给出在图3中,我们还提供了一个可视化的关于提高集群质量的替代4. 实验我们在无监督的跨域人员Re-ID任务上评估了所提出的PAST。测试了三个大规模的个人Re-ID数据集,即Market-1501 [44]、DukeMTMC-Re-ID [45]和CUHK03 [19]。Σ822814461617454 2015273743201745284123392415 11322264293425363515112938323010 23264436 232935 3931264 10263433 19 1233 19 124130141821 734018217828133743404425138221524 271694246保守期迭代1提升阶段迭代1保守期迭代4提升阶段迭代41 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1718 19 20 21 22 2324 25 26 27 28 29 30 31 32333435 36 37 38 39 40 41 42 43 44 45 46图3所有46张图像都属于同一个人,但在我们的场景中,它们的在每次迭代中,具有相同颜色的图像ID表示它们通过聚类方法被分配到相同的聚类(伪标签)。灰度图像ID意味着样本不属于任何聚类,因此不用于训练。从迭代1到迭代4,选择更多的样本用于训练,并且伪标签变得更可靠。Market-1,501[44]包含由6个摄像头拍摄的1,501个身份的32,668个标记图像,其中行人被可变形部分模型(Deformable Part Model,简称DEEP)[13]检测和裁剪。该数据集被分为一个训练集和一个测试集,训练集包含751个身份的12,936张图像,测试集包含750个身份的19,732张图像。DukeMTMC-Re-ID[45]由36,411个标记图像组成,属于通过8个相机视图观察到的1,404个身份。它有702个身份的16,522个图像用于训练集,剩余的19,889个图像用于测试集。在下文中,为了简单起见,术语CUHK03[19]由两台摄像机拍摄的14,096张来自1,467个身份的图像组成有两种类型的行人边界框可用:手动裁剪和自动检测[13]。在这里,我们在实验中只使用了一个公平的比较。遵循Market- 1501和Duke,使用CUHK 03的新培训/测试评估方案[46]:用于训练的767个身份的7,365个图像和用于测试的700个身份的6,732个图像。4.1. 实现细节模型和预处理。我们采用PCB [32]作为我们的特征提取器,其中ResNet-50 [16]在ImageNet [9]上预训练,而 没 有 最 后 一 个 分 类 层 作 为 骨 干 。 类 似 于 EANet[18],我们使用九个区域进行特征表示。为了简化,我们直接使用偶数部分池(如PCB),而不是使用部分对齐池每个嵌入层的维数被设置为256。此外,在提升阶段,我们在每个嵌入层之后附加了一个由一个全连通层组成的特定分类层。类的数量根据HDBSCAN聚类生成的聚类数量而变化。 所有输入图像大小调整为384×128×3。注意我们只使用随机翻转用于数据扩充。培训设置。我们使用SGD优化器,动量为0。9,重量衰减为5×10−4。除非另有说明,否则我们将所有实验的批次大小设置为64,迭代次数设置为4。而不是使用相同的学习率为保守和促进阶段,我们发现为这些阶段设置不同的学习率原因是来自保守阶段的参数应该缓慢地更新,以减轻由不正确的伪标签带来的负面影响。具体来说,学习率被初始化保守期骨干层为10- 4×10-4,嵌入层为2×10 -4新添加的分类层使用10-3的初始学习率,而所有其他层则使用5×10-5。在第三次迭代之后,所有的学习率都乘以0。1.一、Eq.的边缘m(3)和方程(4)设为0。3 .第三章。评估设置。对于性能评估,来自九个部分的嵌入层的特征向量被分别归一化,并被连接作为最终表示。给定一个查询图像,我们计算它与所有图库图像的余弦距离以进行排名。我们使用累积匹配特性(CMC)曲线[15]和平均精度(mAP)[44]作为评估指标。CMC曲线显示了查询出现在不同大小的候选列表对于单个查询,平均查准率(AP)是根据其查准率-查全率曲线下的面积计算的。然后,将mAP计算为所有查询的AP的平均值。请注意,所有实验均采用单次激发设置[32]。4.2. 消融研究在本小节中,我们的目标是彻底分析我们的PAST框架中每个组件的有效性。保守阶段的有效性。所示27224213381436 2329301 1110 23235 392461633 19 12153118217840412646920325434454417375284345372843201741233936351511293826410 232303433 19 1263144141821 7340825 2215424691324 271638318229方法阶段M→DD→M秩-1地图秩-1地图PCB板 [32](DT)-42.7325.7057.5729.01[46]第四十六话-49.6939.3859.7441.93PCB-R-CTLC68.1849.0671.8846.17PCB-R-RTLC70.6952.0272.6547.62PCB-R-CTL+RTLC71.6352.0574.2650.59PCB-R-PASTC+P72.3554.2678.3854.62表1-我们提出的渐进式增强自我训练框架(PAST)中保守阶段和促进阶段的有效性。D→M表示我们使用Duke [45]作为源域,Market-1501 [44]作为目标域。表示结果是由我们产生的。DT指直接从PCB转移,有9个区域。R表示应用k-倒数编码方法[46]。CTL表示基于聚类的三元组损失[17],而RTL是我们提出的基于排名的三元组损失。我们的PAST框架由保守阶段和促进阶段组成,分别用C和P表示。表 2 - 不 同 聚 类 方法 的 比 较 。 K 、 D 和 H 分 别 代 表 K-means、DBSCAN [11]和HDBSCANRank 1HDBSCAN聚类方法比较不同的聚类方法。我们评估了三种不同的聚类方法,即,k-均值,表1中,我们进行了几个实验来验证CTL、RTL以及这两个三联体损失函数的组合对M→D和D→M任务的有效性。第一、仅使用CTL,我们将性能提高了18。49%和12个。与k-倒数编码方法[46]分别在M→D和D→M上的结果相比,秩-1准确度为14%。 第二,我们注意到,提出RTL后,Rank-1准确率和mAP分别提高了21%和12.64%为M→D,12. 91%,5。69%在D→M。这一明显的改进表明CTL和RTL都有助于提高模型的泛化能力。和CTL的性能略低于RTL。然后,如在Eq.(5)在保守阶段,将CTL和RTL结合起来显然我们在M→D和D→M上都能得到更好的结果。特别是对于D→M,我们获得2。38%,4。与单独使用CTL相比,Rank-1和mAP为42%,这表明我们RTL的显著优势经过保守阶段后,模型更适合于目标领域。提升阶段的有效性。然而,如图1所示,当仅使用基于三元组的损失函数时,即使有更多的训练迭代,也没有进一步的增益。我们认为这是因为在保守阶段,模型只看到了三重样本带来的数据分布的局部结构。因此,在我们的PAST框架中,我们在促进阶段使用softmax交叉熵损失作为目标函数,交替训练模型和保守阶段。再次参考表1,与仅使用保守阶段相比,我们的PAST可以进一步将mAP和Rank-1提高2。21%和0。72%在M→D任务,以及4。03%,4。D→M为12%。同时,从图3中可以看出,我们过去的框架。这表明,促进阶段在模型推广中确实起着重要作用。通过上述实验,对我们的PAST中的不同成分我们表明,我们的PAST框架不仅有利于提高模型生成,而且有利于改进聚类质量。[11]和HDBSCAN [3]在保守阶段。表2中规定了在不同设置下利用这些聚类方法的性能。对于k-均值,在Market-1501和Duke的目标数据上分别将聚类质心的数量k设置为702和751,这与源训练数据的身份数量相同无 论 是 在 保 守 阶 段 还 是 在 整 个 PAST 框 架 下 ,HDBSCAN 的 性 能 都 优 于 k-means 和 DBSCAN 。 例如,使用HDBSCAN可以实现mAP 54。26%,一品72。百分之三十五对于PAST框架中的M→D任务,它们是4. 29%,3。比使用k-均值高41%,1。19%和0。比使用DBSCAN高45%。此外,我们还注意到,无论我们使用何种聚类方法,我们的PAST框架总是优于仅使用保守阶段的方法。这意味着,一方面,HDBSCAN聚类方法在我们的框架中具有更强的效果;另一方面,我们的PAST框架确实提供了目标域上的特征表示的改进。4.3. 与现有技术方法的根据[18,47]中的评估设置,我们将我们提出的PAST框架与最先进的未监督跨域方法进行了比较,如表3所示。可以看出,仅使用具有CTL和RTL的保守阶段进行训练,性能已经与其他跨域自适应方法竞争。例如,尽管EANet [18]提出了复杂的部分对齐池化并结合姿势分割以提供更多的自适应信息,但我们的保守阶段仍然优于它是3。一、四品,93%。在M→D上测试时,mAP中为05%。此外,我们的PAST框架超过了所有以前的方法,由一个大的利润率,达到54。26%,54. 62%,57.34%,51. 79%的mAP和72。35%,78. 百分之三十八79岁。48%,69. M→D、M→D、C→M、C→D的秩1准确率为88%。通过比较,证明了交替使用保守期和促进期的有效性表3中的最后两行特别是,我们的过去可以方法集群M→DD→M秩-1地图秩-1地图PCB-R-CTLKDH44.8453.7368.1826.9336.2749.0654.3967.4171.8829.9442.4246.17PCB-R-CTL+RTLKDH53.9967.9171.6334.4649.0852.0556.2672.5474.2632.7348.0650.59PCB-R-PASTKDH68.9471.9072.3549.9753.0754.2675.4875.6278.3851.3951.7054.628230方法M→DD→MC→MC→D秩-1地图秩-1地图秩-1地图秩-1地图UMDL [27日18.57.334.512.4----PUL [12月18日30.016.445.520.541.918.023.012.0PTGAN [3827.4-38.6-31.5-17.6-SPGAN [10月18日46.426.257.726.7----TJ-AIDL [3644.323.058.226.5----HHL [4746.927.262.231.456.829.842.723.4ARN [21日60.233.470.339.4----EANet [1867.748.078.051.666.440.645.026.4理论[3068.449.075.853.7----PCB板 [32](DT42.7325.7057.5729.0151.4327.2829.4016.72[46]第四十六话49.6939.3859.7441.9355.9138.9535.1926.89PCB-R-CTL+RTL(Ours)71.6352.0574.2650.5977.7054.3665.7146.58PCB-R-PAST(Ours)72.3554.2678.3854.6279.4857.3469.8851.79表3-在每一列中,第一和第二高分数分别用红色和蓝色标记D、M、C分别代表Duke [45]、Market-1501 [44]和CUHK 03 [19]。100908070605040100908070605040301000900800700600500300.1 0.2 0.5 1.0 2.0205 10 15204005 10 15 20每个聚类中的最小样本数(a)(b)(c)图4 -D→M设置下的超参数分析。(a)(b):HDBSCAN聚类方法中每个聚类处的最小样本数Smin的影响;(c):来自HDBSCAN的具有不同最小样本S min的聚类的数量。改进4. 71%,5。C→D的Rank-1和mAP为21%,与仅使用保守分期相比。4.4. 参数分析我们进行额外的实验来评估参数灵敏度。损失重量λ的分析。λ是一个超参数,用于权衡RTL和CTL的影响。我们评估λ的影响,λ从{0。1,0。2,0。五一0,2。0},关于D→M的任务。结果示于图4(a)中。 我们观察到,当λ设置为0时获得最佳结果。五、请注意,λ的值对模型性能的影响有限。最小样本分析Smin. 此外,我们分析了HDBSCAN聚类中每个聚类的最小样本数(Smin)对Re-ID结果的影响。 我们测试了{5,10,15,20}最小样本对我们的PAST框架在D→M设置上的性能的影响。如图4(b)所示,我们可以看到,S 最 小值为10时,精度更高。同时,不同的Smin对HDBSCAN的最终伪恒等式个数有较大的影响我们认为,这是因为当Smin太小时,来自同一类的样本将被分离成几个类,而如果Smin太大,则低密度类将 被 放 弃 这 可 以 从 图 4 ( c ) 中 得 到 验 证 ,HDBSCAN的身份号码最小样本10是625,这是Market-1501训练集上最接近真实值751的一个5. 结论在本文中,我们提出了一个自训练框架工作与渐进增强过程(PAST)的无监督跨域的人重新识别与两个学习阶段。在保守阶段,我们主要集中在挖掘局部信息,通过基于三元组的损失函数。特别地,提出的基于排序的三元组损失充分利用实例之间的相似性得分来选择置信三元组,这有利于避免模型退化所影响的不良伪标签质量上看不见的数据。在此基础上,提出了利用提升阶段的全局数据分布特性,通过分类损失来进一步缓解提升阶段带来的不稳定性这两个阶段交替迭代,以提高伪标签的质量和对未标记数据的模型泛化。大量的实验表明,我们的PAST实现了最先进的无监督跨域Re-ID性能。在未来,我们计划将所提出的方法扩展到其他无监督的跨领域应用,如人脸识别和图像检索。致谢本工作部分得到了中国上海市自然科学基金的资助,项目编号为Grand #17ZR1431500。地图Rank1Rank5Rank10地图Rank1Rank5Rank10CMC和MAP评分(%)CMC和MAP评分(%)身份号码984625598511身份号码8231引用[1] JiaWang Bian , Wen-Yan Lin , Yasuyuki Matsushita ,Sai-Kit Yeung,Tan-Dat Nguyen,and Ming-Ming Cheng.Gms:基于网格的运动统计,用于快速、超鲁棒的特征对应。 在proc IEEE会议Comp. 目视帕特识别,2017年。[2] Jia-Wang Bian,Yu-Huan Wu,Ji Zhao,Yun Liu,LeZhang,Ming-Ming Cheng,and Ian Reid.用于基本矩阵估 计的 特 征 匹配 器 的 评价 。 在 proc 英 国机 器 视 觉Conf. ,2019年。[3] RicardoJGBCampello , D av oudMoul a vi , andJ o¨rgSander. 基于层次密度估计的基于密度的聚类。《太平洋-亚洲方案》。知识发现&数据挖掘,第160-172页,2013年。[4] Xiaobin Chang,Timothy M Hospedales,and Tao Xiang.用于人员重新识别的多级分解网络。正在进行IEEE会议对比可见光帕特识别,第2109- 2118页[5] 帝尘、张珊珊、欧阳万里、杨剑、英台。基于掩码引导的双流cnn模型的人员搜索。 在proc EUR. Conf. Comp.目视,第734[6] Weihua Chen , Xiaotang Chen , Jianguo Zhang , andKaiqi Huang.一个多任务深度网络用于人员重新识别。在Proc. AAAI Conf.人工智能,2017年。[7] 陈燕北,朱夏天,龚少刚。通过深度学习多尺度表示进行人员重新识别。在proc IEEE国际Conf. Comp. 目视,第2590[8] De Cheng , Yihong Gong , Sanping Zhou , JinjunWang,and Nanning Zheng.基于改进三重丢失函数的多通道部件cnn的 正在进行IEEE会议对比可见光帕特识别第1335-1344页,2016年。[9] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年[10] Weijian Deng , Liang Zheng , Qixiang Ye , GuoliangKang,Yi Yang,and Jiabin Jiao.具有保留的自相似性和域不相似性的图像-图像域自适应用于人重新识别。 在proc IEEE会议Comp. 目视帕特识别,第994-1003页[11] Mart inEster , Hans-PeterKrie gel , Jo¨rgSander , XiaoweiXu , et al. A density-based algorithm for discoveringclusters in large spatial databases with noise.在Proc. ACMSIGKDD Int.知识发现&数据挖掘,第96卷,第226-231页,1996年。[12] 范呵
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功