没有合适的资源?快使用搜索试试~ 我知道了~
无监督的自相似分组方法用于跨域自适应身份识别
1自相似分组:一种简单的无监督跨域自适应身份识别方法杨福1,魏云超1,2,王冠硕3,周玉倩1,石红辉4,1,5,Thomas S.黄11伊利诺伊大学香槟分校,2ReLER,悉尼科技大学,3上海交通大学、4IBM研究院、5俄勒冈大学摘要在人的重新识别(re-ID)领域的适应一直是一个具有挑战性的任务。在这项工作中,我们探讨了如何利用存在于目标领域的样本中的相似自然特征,用于学习以无监督的方式进行人的重新识别。具体地说,我们提出了一个自相似性分组(SSG)的方法,它利用潜在的相似性(从全球机构的局部部分)的未标记的样本,建立多个集群从不同的视图自动。然后,这些独立的聚类被标记为标签,这些标签作为伪标识来监督训练过程。 我们反复交替地进行这样的分组和训练过程,直到模型稳定。 尽管表面上很简单,但我们的SSG在以下方面优于最先进的技术:在mAP中,DukeMTMC→Market1501和Market1501→DukeMTMC分别超过4.6%和4.4%。在我们的SSG上,我们进一步引入了一个聚类引导的半有监督的方法SSG++在开集设置(即,来自目标域的独立身份的数量是未知的)。在不花费太多精力标记的情况下,我们的SSG++可以分别将SSG上的mAP进一步促进10.7%和6.9%。我们的代码可在以下网址获得:https://github.com/OasisYang/SSG的网站。1. 介绍人物重新识别(re-ID)旨在将一个相机中的人物的图像与来自其他不同相机的该人物的图像进行匹配。由于其在安全和监控方面的重要尽管卷积神经网络[20,36,38]获得了显着的性能改善,但据报道,在源域上训练的深度re-ID模型目标数据集全身…上部底部部分……CNN模型自相似分组模型修正标签:自空间自空间C自空间B…自空间A1 ���…31 ���…3123图1.所提出的自相似性分组(SSG)的图示我们将目标图像分为三个线索,全身,上半部分和下半部分,独立地分配标签,根据相应的组。整体信息和局部信息的身体部位可以帮助我们学习一个更好的个人表示。由于源数据集和目标数据集之间存在的数据偏差,可能会在目标域[8,10]上产生显著的性能下降。由于对目标数据集中的所有图像进行标注的代价很高且不可行,因此最流行的解决方案之一是无监督域自适应(UDA)。目前,常用的UDA算法在图像分类、目标检测、人脸识别和语义分割等方面得到了广泛的研究.然而,传统的UDA方法[4,5,27]总是假设源域和目标域共享相同的类集合,这不适用于人员重新ID问题。值得注意的是,在人re-ID中,不同的数据集具有不同的标识(即,类)。最近,几个无监督领域61126113A BC已经提出了用于人重新ID的适应方法一些工作旨在通过保留源域的注释信息,基于生成对抗网络[8,40]将图像的外观从源域转换到目标域此外,摄像机的视差是影响re-ID性能的另一个关键因素,HHL [49]被提出来解决由不同摄像机配置引起的域内图像变化然而,这些UDA方法的性能仍然远远落后于其完全监督的同行。其主要原因是以往的研究大多集中在增加训练样本或比较源数据集和目标数据集之间的相似性或差异性,而忽略了目标领域训练样本中存在的相似的自然特征。为了解决上述问题,发现目标数据集中人物图像之间 的 相 似 性 , 提 出 了 无 监 督 自 相 似 性 挖 掘 算 法(SSG),从全局到局部挖掘人物图像之间的潜在相似性。SSG的关键思想源于最近一些基于部分匹配的重新ID工作,其中不同部分包含人的不同判别信息。图1说明了我们提出的SSG方法。特别地,我们提取目标数据集中的所有人的特征,并通过三个不同的线索(全身(A)、上半部分(B)和下半部分(C))独立地将它们分组然后,我们可以得到三组组:CACBCC通过为每个组分配一个伪标签,我们可以将每个人与不同的伪标签配对。例如,给定一个人xi,它应该由三个伪标签Ci,Ci和Ci分配。因此,我们可以建立一个新的具有伪标签的数据集,它可以被视为正常标签的数据集。由于具有相同伪标签的个体应该共享许多相似性,因此我们通过使用已建立的数据集微调预训练模型来迭代挖掘这些相似性在SSG的基础上,我们进一步提出了一种基于半监督解的对我们来说,最简单的半监督解决方案,即,一次性学习。特别地,传统的一次性学习是基于每个类别中仅标记一个样本的设置。然而,传统的一次性设置不适用于人员重新ID的情况。与通常基于闭集的图像识别问题不同,人物身份识别问题实际上是一个开集问题。换句话说,我们无法提前知道在给定的未标记目标数据集中包括多少身份。因此,来自传统单次激发设置的优越特性不能直接应用于re-ID情况。为了解决上述问题,我们创新地提供一种聚类引导的半监督解决方案。所提出的半监督训练策略是基于聚类引导的注释,其从每个聚类中采样单个图像。通过这样做,我们可以大大避免选择相同的身份作为两个不同的身份。因此,它允许我们利用传统的一次性学习方法并实现类似的性能。我们将我们的贡献总结如下:• 我们提出了自相似性聚类(SSG)方法,这是一种简单而有效的无监督方法,域自适应(UDA)框架的人重新识别,以恢复其完全监督的对手的性能。• 我们引入了一个相似性指导的半监督训练策略,用于人的重新识别,并将其集成到UDA框架,从而可以联合训练无监督分支和半监督分支,有效地推进领域自适应过程。• 我们对几个流行的基准进行了广泛的实验和消融研究,包括Market 1501 [45],DukeMTMC-ReID[31,46]和MSMT [40],以证明所提出的SSG和半监督解决方案的有效性。2. 相关工作无监督域自适应。我们的工作与无监督域自适应(UDA)密切相关,其中在训练过程中没有标记目标域中的数据。这个社区的一些作品试图通过减少源域和目标域之间的差异来解决这个问题[6,34,42]。例如,CORAL [34]学习线性变换,该变换对齐两个域之间特征分布的均值和协方差。Sun [35]提出了深度CORAL,将原始方法扩展到具有非线性变换的深度神经网络。其他一些方法旨在通过对抗学习方法学习转换以生成与目标域相似的样本[3,25,21]。最近,一些工作通过将源数据和目标数据映射到相同的特征空间以用于域不变表示来解决这个问题[16,17,27,37] 。 例 如 , Ganinet al. [16] 提 出 一 个 梯 度 反 转 层(GRL),并将其整合到标准深度神经网络,用于最小化分类损失,同时最大化域混淆损失。然而,大多数现有的无监督域自适应方法都是基于这样的假设,即跨域的类标签是相同的,而不同的re-ID数据集的个人身份是完全不同的。因此,上述方法不能直接用于人员重新ID任务。6114FC层三重损失间隙三重损失间隙三重损失间隙三重损失自相似分组自空间C自空间B自空间A标签标签(自空间C)(自空间B)(自空间A)重新分配标签卷积层特征图未标记样本GAP全球平均池化FC完全连接自空间中带双标记的样本图2.拟议的SSG方法概述。CNN模型是ResNet50,并在源数据集上进行了预训练。对于每次迭代,在特征提取之后,我们(1)将特征图分成上部分和下部分,并在整个上、下特征图上采用GAP。(2)然后,我们用不同的特征表示(蓝色,绿色和橙色)对人物图像进行分组,并通过分组结果(A,B,C)为每个人分配不同的自伪标签(3)接下来,我们通过最小化每个伪标签的三重损失来更新CNN模型(4)在测试过程中,我们将三个特征表示连接在一起作为查询person的最终表示无监督的重新识别。一些基于手工特征的方法[2,18,24]可以直接应用于无监督的人员重新识别。然而,这些方法在大规模数据集上的性能往往很差,因为它们忽略了样本在数据集中的分布。受益于深度学习的成功,最近的一些作品[8,29,39,40]试图基于深度学习框架解决无监督域自适应问题。Deng等[8]旨在通过提出的相似性保持生成对抗网络(SPGAN)将图像从源域转换到目标域。并利用翻译后的图像以有监督的方式训练re-ID模型。在[39]中,提出了一种可转移联合属性-身份深度在[49]中,Zhonget al.介绍了一种异构学习(HHL)方法,旨在提高-ID. Wu等人[41]提出了一种渐进采样方法,以逐渐预测可靠的伪标签并更新基于单次视频的re-ID的深度模型。然而,以前的一次拍摄重新识别工作实际上没有意义。如前所述,re-ID问题是一个开集问题,这意味着我们无法知道该数据集中有多少个身份,因此在这种情况下我们无法实现一次/几次射击设置。基于上述分析,本文提出了一种基于自相似性分组的人脸识别领域自适应算法,并通过聚类引导的半监督训练进一步提高人脸识别的性能。3. 该方法问题定义对于person re-ID中的无监督域自适应,我们有一个标记的源数据集{XS,YS},其中包含Ns个人物图像,并且每个图像xi 有一个对应的标号yi,其中yi∈证明了re-ID模型在tar-s上的推广能力通过同时实现相机不变性和域连通性来获得集合。虽然这些无监督的领域自适应方法取得了可喜的进展,但与完全监督的方法相比,性能仍不令人满意。半监督的重新鉴定。半监督学习的目的是从一个或很少的训练样本中学习任务[11],并且有一些工作是一个人重新识别[1,13,26,41]。在[1]中,Baket al.利用一个度量学习的方法,一对相机,可以分为纹理和颜色分量的一个拍摄图像为基础的重新,{1、2、…Ps}。Ps是源数据集。此外,我们还有另一个目标数据集{Xt},它由Nt个人的图像组成。 注意,目标数据集{Xt}中的每个图像Xt的身份是未知的。UDA人员重新ID的目标通过仅使用源数据集的监督信息来确定目标数据集。3.1. 全面监督的预培训许多现有的UDA方法都是基于在源数据集上预训练的模型,我们遵循类似的集合-6115不不不t tt upt tt至高HWt至高在[14,47,49,51]中运行以获得预训练模型。 在图和两个切片特征图,即, F i,F i和F i,特别是,我们首先利用ResNet50 [19]在Im上预训练。t t up为了获得三个特征向量fi、fi和fi,t低. 我们t t upt lowageNet [7]作为骨干网络。 最后一个完全连接的(FC)层被丢弃,并添加两个额外的FC层。第一个有2048个维度,命名为“FC- 2048”。 第二FC层的输出是P维度,在每个未标记的图像上重复上述步骤以生成三组特征向量。ft={f 1,…,f k,…f Nt}S其中Ps是源数据集中的标识数,名为阿勒特ftup={f1tt、...、fk、...、fNt}(一)作为给定源中的每个标记图像xsft至高={f1t至高、...、fkt至高、...、f Nt个文件夹数据集和它的地面实况识别ys,我们训练基础-具有交叉熵损失和硬批三重态的线模型t低t低t低t低[ 20 ]第20话。具体而言,交叉熵损失与“FC-#ID”一起使用本文将此模型称为基线模型。基线模型在完全标记的数据上实现了良好的性能,但在采用新数据集时总是失败基于这些特征向量集,我们利用无监督聚类算法[9]对每一个集合获得一系列的组,导致每一个人的图像可以根据它所属的组被分配一个伪标签,命名为自标签。如图2所示,我们根据三种特征向量对图像进行分组,因此我们可以为每个图像xi得到三个自标签,记为yi,yi和我t低. 因此,我们可以建立新的目标数据集3.2. 无监督自相似性虽然re-ID性能急剧下降其中每个图像具有基于分组的三个自标签三个特征向量的结果,如下所述。当直接采用到另一个数据集时,它仍然比直接应用ResNet50的性能要好得多XT={xi:(yi,yi我t低); 1≤i≤Nt}(2)在ImageNet上预先训练,几乎为零。从这一观察结果来看,我们相信在源数据集上训练的模型仍然可以学习到一些有用的人除了等式(1)中的特征集之外,在设置基线模型之后,我们还在fi之后使用一个FC层以获得全局嵌入向量fi,其为t t e重新识别身份的任务 它之所以表现得如此严峻,在目标数据集上的一个问题是不能正确地发现不同个体图像之间的相似性为了挖掘这些相似性,并利用它们 的 重 新 识 别 任 务 , 我 们 提 出 了 自 相 似 性 搜 索(SSG)的方法。所提出的SSG方法的概述如图2所示。SSG的动机是我们旨在鼓励模型通过自相似分组来发现目标数据集中存在的相似性然后,基于分组结果为每个未标记的人分配伪标签,该伪标签可以进一步用于重建目标数据集并微调基线模型。受最近重新识别工作的启发[15,38],2048-dims并与fi共享相同的self标签。注意该FC层也将在训练期间被更新。最后,我们使用自标签作为监督信息来微调预训练模型,以使用三元组损失L三元组进行交叉数据集自适应,这将在第3.4节中详细说明。具体地,给定图像,每个特征向量及其对应的自标签被用作L三元组的两个输入。SSG的完整目标函数如下所示,Lssg=L triple(f t,y t)+L triple(f t up,y t up)我们不仅通过从全身获得的全局信息来比较两个人之间的相似性,+L三元组(ft低,yt低 )+L三重(fte(三),yt)还通过从人的上部和下部获得更精细和局部的信息。通过结合全球和在培训过程中,我们按照上述步骤对基线模型,并在每次迭代中使用SSG。本地信息,我们可以获得一个更强大和区分-在测试过程中,我们连接fi,fi,fi一起作为t t upt low一个人的创造性表现,这是更信息化的-自相似分组的有效性。为了公式化提出的SSG算法,我们首先将目标数据集中的每个未标记图像xi馈送到由第3.1节中描述的配置训练的基线模型中对于特征提取,记为Fi∈IRH×W×C(蓝色每个图像的最终表示xi.3.3. 聚类引导的半监督训练尽管已经广泛地研究了用于人重新ID的无监督域适应[8,40,39,49],但是仍然存在不确定性。测试mAP性能下降超过25%和15%,在图2中)。然后,我们将Ft 水平分成两部分,每个部分包含上半身或下半身的信息体,记为Fi∈IR2×2×C(绿色),Fi∈IRH×W×C(橙色)。接下来,我们使用y,y6116Rank-1 的 准 确 性 相 比 , 他 们 的 完 全 监 督 的counterparts。为了缩小巨大的性能差距,我们进一步扩展我们的SGG的半监督设置。以前的半监督人重ID作品多为2 2t低全局平均池化(GAP)操作在一次设置下对整个特征进行,这实际上在6117不一个pytg自空间C自空间B自空间A卷积层特征图三重损失未标记样本目标空间C目标空间B目标空间A目标空间中分配的样本目标空间中标记的样本自空间中带双标记的样本图3.概述了提出的聚类指导的半监督训练策略与SSG相结合。给定一个目标数据集,我们根据聚类结果对一些图像进行注释。从这些标记的图像,我们采用逐步学习的方法来逐步利用数据集,并获得更强大的此外,由于SSG和聚类引导的半监督训练策略共享相同的特征空间,因此我们可以设计一种简单而有效的方式来联合地和端到端地训练整个框架,如图3所示。联合训练策略的优越性将在消融研究中得到体现3.4. 损失函数全程监督训练。如第3.1节所述,我们联合使用[20]中提出的批处理硬三重态损失和softmax损失。在[20]中首次提出了具有硬开采的三重态损失,作为原始半硬三重态损失的改进版本[32]。我们对每个小批随机抽取P个身份和K个实例,以满足批硬三重态丢失的要求。通常,损失函数的公式如下:最硬正片模型因为很难知道里面的人数L三重峰=ΣP ΣKi=1a=1[α+联系我们Max||x(i)−x(i)||2p =1…K为新数据集预先提供相关身份(如DIS-ID),-min||2] +(5)||2]+(5)在第2节中讨论)。因此,我们引入了一种新的基于聚类引导的符号的半监督训练策略,这对于现实世界的应用更实用和有用。如图3所示,我们采用f上的无监督聚类算法来生成N个组。n=1…Ka pj =1…Pj/=i联系我们最硬底片其中x(i)、x(i)、x(i)是从锚点提取的特征t ga p n然后,我们从每组中随机抽取一张图像,形成一个非常小的子数据集Xg,其中包含Ng张图像。接下来,我们手动标记这个小的子数据集,并基于此注释执行标签分配。我们特别正样本和负样本,α是边缘超参数。除了批处理硬三重损失之外,我们还使用softmax交叉熵损失进行区分学习,其公式如下:提取子数据集中所有图像的特征,P K WTxa,i与第3.2节中描述的相同操作,以获得三个Σ ΣLsoftmax=−e测井曲线是的,我WT x(六)特征向量集fg、fgup和fglow,并处理每个特征向量集fg、f g up和f glow。i=1a=1k=1eka,i作为身份字典。给定一个未标记的图像xi,我们从Xg中按不同线索、全身、上半身和下半身找到最相似的图像,并为xi分配相应的标签yi ,而yi,其中其中yi,a是样本{a,i}的真实身份,C是身份的数量。我们的优化损失函数是softmax loss和batch-hardttgtg uptg低三重态损失如下:可以用公式表示如下。吉吉阿勒特格= arg mindist{fi,fk}k=1:NgL基线=Lsoftmax+Ltriplet(7)无监督和半监督训练yi= argmindist{fi,fk }训练和半监督训练共享相同的损失tg up塞吉k=1:Ngt至高我g upK(四)函数,我们只是利用硬批处理的三元组丢失,度量学习 此外,每个损失函数都有四个分量,ytglow=argmindist{ftlow,fglow}k=1:Ng请注意,我们采用k-倒数编码[47],最近邻集之间Jaccard距离的变化,作为相似性测量的距离度量。器官、全身、上半身、下半身和整体植入,其可以如下公式表示:Lssg=Ltriple(ft,yt)+Ltriple(ft up,yt up)+L三重(ft低,yt低)+L三重(fte,yt)Xg中的每个图像来自不同的组,Lsemi=L 三重(ft, ytg) +L三重6118(ft up,ytg up)(八)允许我们采用一些一次性学习方法,并进一步提高性能。特别是,我们遵循[41]中提出的逐步学习方法,在训练阶段逐步利用整个数据集。+L三重(ft低,ytg低)+L三重(fte,ytg)因此,在联合训练策略中使用的目标函数是L共同=Lssg + Lsemi。(九)61194. 实验在本节中,我们在三个大规模的re-ID数据集上评估了 所 提 出 的 方 法 , 即 。 Market 1501 [45] ,DukeMTMC-ReID [31,46]和MSMT 17 [40]。4.1. 数据集和评价方案Market 1, 501[45]包含来自六个相机视图的1,501个标记人的32,668张图像。具体来说,使用了12,936张人脸图像,其中包含了751个身份识别信息[12]。为了测试,总共19,732个750个身份加上一些干扰物的人物图像形成图库集合,并且从750个身份手动裁剪的3,368个人物区域形成查询集合。DukeMTMC-ReID[46]是DukeMTMC数据集[31]的子集。里面有1,812个身份被8个摄像头拍到有16,522张训练图像,2,228张查询图像和17,661张图库图像,其中1,404个身份出现在两个以上的相机中。此外,类似于市场1501,其余408个身份被认为是干扰项。MSMT 17[40]是最大的re-ID数据集,其中包含15台摄像机在4天内拍摄的4,101个身份的126,441个边界框。这15台摄像机包括12台室外摄像机和3台室内摄像机。更快的RCNN [30]用于行人边界框检测。据作者评估方案在我们的实验中,我们使用累积匹配特性(CMC)曲线和平均精度(mAP)来评估re-ID的性能。对于Market-1501和DukeMTMC-ReID,我们分别使用[45]和[46]提供的评估包此外,为了简单起见,本文中报告的所有结果都是在单查询设置下,并且没有应用重新排名等后处理[47]。4.2. 实现细节基线训练如第3.1节所述,我们首先按照[51]中描述的训练策略具体来说,我们保持输入图像的大小,并将其调整为256×128。为数据增强,我们采用随机裁剪,翻转,[2018 - 04 -18][2018 - 04 - 18]为了满足硬批量三重丢失的要求,每个小批量用随机选择的P=16个身份进行采样,并且对于来自训练集的每个身份随机采样K=8个在我们的实验中,我们将边际参数设置为0.5。在训练中,我们用亚当[22 ]第22话重锤0005以优化150个时期的参数。初始学习率设置为3×10−4,100个epoch后衰减到3×10−5无监督和半监督训练。对于非监督分支和半监督分支,我们遵循相同的数据增强策略和三重丢失设置。我们将初始学习率从3×10−4降低到6×10−5,并将训练周期从150改为70。为了公平起见,我们从每个线索中随机选择一张图片注释并保存所有消融研究。此外,整个框架经过多次迭代训练,直到模型稳定。我们的模型在Pytorch [28]平台上实现,并使用两个NVIDIA TITAN X GPU进行训练。我们在不同数据集上的所有实验都遵循与上述相同的设置。4.3. 消融研究监督学习的比较,直接传输和最先进的无监督方法。监督基线法和直接转移法的性能见表1。当比较两种方法时,我们可以清楚地发现,在目标数据集上直接采用源训练模型时,有很大的性能下降例如,在Market 1501上测试的Market 1501上训练的基线模型在rank-1准确度上达到92.5%,在mAP上达到80.8%,但在DukeMTMC-reID上测试时下降到30.5%和16.1%,其中性能差距超过55%。此外,当DukeMTMC-reID用作训练集并在Market 1501上进行测试时,可以观察到类似的下降然而,许多最近提出的无监督域自适应方法不能很好地解决这个巨大的性能差距。例如,当从DukeMTMC-reID转移到Market 1501时,据我们所知,最好的UDA方法[8]仅达到53。7%,75。8%的mAP和rank-1的准确性,这是低于全监督方法约20%。自相似性的有效性 我们进行了几项消融研究,以证明其有效性建议的SSG,如表1所列。具体来说,使用SSG,我们将性能提高了21。2%,27。百分之一当模型从DukeMTMC-reID转移到Market 1501时,mAP和rank-1准确度。同样,当模型在Market1501上训练并在DukeMTMCreID上测试时,性能增益为+37。百分之九+42。rank-1准确性和mAP分别为9%此外,与最先进的UDA方法相比,SSG在Market 1501上可以提高5%以上的性能,在DukeMTMC-reID上可以提高3%以上。这是因为所提出的SSG从全局到精细的方式挖掘潜在的相似性,可以学习更鲁棒与[8]相比,判别模型更接近。因此,SSG是一种简单而有效的无监督方法,用于人re-ID中的域适应。此外,我们还比较了SSG在不同水平特征空间切片数量下的性能。表2表明,当我们只将特征图分成两部分时,SSG实现了最佳结果:上-6120方法DukeMTMC-Re-ID →市场1501Market1501 →DukeMTMC-ReID地图R1R5R10地图R1R5R10基线(上限)80.892.597.598.470.582.692.394.4直接转移26.654.671.177.116.130.545.051.8[33]第三十三话53.775.889.593.249.068.480.183.5基线+UDA53.074.786.990.350.569.380.283.1基线+SSG58.380.090.092.453.473.080.683.2基线+SSG+62.581.491.693.856.774.283.586.7基线+SSG++68.786.294.696.560.376.085.889.3表1.目标域上的各种方法的比较 当在DukeMTMC-reID上进行测试时,Market-1501被用作源反之亦然。“Baseline” denotes using the full identity labels on the corresponding target dataset(See Section “直接转移”意味着直接将源训练的模型应用于目标域。“UDA” stands for the state-of-art unsupervised domain“基线+xxx”是指在基线模型上使用“xxx”域适配方法。“SSG” means Self-similarity Grouping in Section “SSG方法地图R1R5R10UDA49.068.480.183.5SSG(2部分)53.473.080.683.2SSG(3部分)50.471.379.182.0SSG(4个零件)49.169.178.481.6表2.当训练DukeMTMC-reID数据集并在Market 1501数据集上测试时,具有不同数量分裂部分的拟议SSG的性能方法∗DukeMTMC-reID→Market1501地图R1R10公司简介66.868.784.586.295.396.5方法Market1501→DukeMTMC-reID地图R1R10公司简介SSG++57.660.374.476.088.189.3表3.在Market 1501数据集和DukeMTMC-reID数据集上比较所提出的聚类引导注释与随机抽样注释。SSG训练是带有随机抽样标注下半身。它推断上半身和下半身包含用于re-ID的最有区别的信息更多的特征片段可能破坏该信息并且产生更差的相似性挖掘和匹配。聚类引导的半监督训练的有效性。表1示出了所提出的聚类引导的半监督方法(SSG+)的性能。与无监督的SSG相比,SSG+的性能优于SSG 4。2%和1。在Market 1501上测试时,mAP和rank-1准确性为4%。此外,它比直接转移方法高出35。9%,26。1级准确率为8%这证明了聚类引导的半监督训练的有效性联合训练策略的有效性我们没有对SSG获得的SSG+模型进行微调,而是进行实验,使用SSG和SSG+损失联合训练模型参数,我们将其联合精度DukeMTMC-reID的测试性能也提高了3。6%和1。8%的mAP和rank-1的准确性。这表明联合训练策略在两种数据集上都有其优越性,训练效率也更高聚类引导注释的有效性直观地,与从目标区域随机采样相比,聚类引导注释(即从无监督聚类组中采样和注释)将增加样本集中的身份多样性,并在有限的监督信息下增强学习的特征表示能力。为了验证这种直觉,我们比较了联合学习的SSG++上的聚类引导和随机采样注释。为了公平起见,我们从后者的整个数据集中随机抽取了相同数量的图像。在表3中,当在DukeMTMC-reID上测试时,SSG++实验结果表明,提出的基于聚类的分类方法优于随机分类方法。总之,具有聚类指导注释的SSG++例如,我们达到42。1%,31。与直接适应相比,在Market 1501上测试时,mAP和rank-1准确性提高6%。4.4. 与最新技术在本节中,我们分别在表4、表5和表6中将所提出的方法与Market 1501、DukeMTMC-reID和MSMT 17上的最新无监督学习方法进行了比较。SSG优于现有的方法具有显着的优势。特别是,当在Market1501上测试时,我们的模型在mAP上的表现优于最好的公开方法ARN [23]近20%,训练模型为SSG++。 在表1中,当转移从DukeMTMC-reID到Market 1501,SSG ++比SSG+高6。2%和4。8%,在mAP和rank-1DukeMTMC-reID数据集。 此外,它还超越了未发表的UDAP [8]和MAR(CVPR2019)[44]大幅增加。6121方法地图R1R5R10LOMO [24]8.027.241.649.1弓[45]14.835.852.460.3UMDL [29]12.434.552.659.6PTGAN [40]-38.6-66.1PUL [10]20.545.560.766.7SPGAN [8]22.851.570.176.8骆驼[43]26.354.5--SPGAN+LMP [8]26.757.775.882.4TJ-AIDL [39]26.558.274.881.1HHL [49]31.462.278.884.0ARN [23]39.470.380.486.3UDAP [33]53.775.889.593.2三月[44]40.067.781.9-电子目录[50]43.075.187.691.6SSG58.380.090.092.4SSG++68.786.294.696.5方法地图R1R5R10LOMO [24]4.812.321.326.6弓[45]8.317.128.834.9UMDL [29]7.318.531.437.4PTGAN [40]-27.4-50.7PUL [10]16.430.043.448.5SPGAN [8]22.341.156.663.0骆驼[43]----SPGAN+LMP [8]26.246.462.368.0TJ-AIDL [39]23.044.359.665.0HHL [49]27.246.961.066.7ARN [23]33.460.273.979.5UDAP [33]49.068.480.183.5三月[44]48.067.179.8-电子目录[50]40.463.375.880.4SSG53.473.080.683.2SSG++60.376.085.889.3表4.建议的SSG方法与Arts unsupervised domain adaptive person re-ID methods onMarket1501 dataset.在Market-1501上,我们将我们的结果与两个手工制作的功能进行了比较,即。词袋(BoW)[45]和局部最大出现(LOMO)[24],三种无监督方法,包括UMDL [29],PUL [10]和CAMEL [43],以及六种无监督域自适应方法,包括PTGAN [40],SPGAN [8],TJ-AIDL [39],ARN [23],UDAP [33]和MAR [44].这两个手工制作的特征直接应用于测试数据集,没有任何训练过程,但很明显,这两个特征都未能获得有竞争力的结果。在目标集上训练时,无监督方法总是比手工特征获得更高的结果与无监督域自适应方法相比,我们提出的SSG是优越的。只有在无人监督的情况下,我们达到等级-1准确度=80。0%和mAP =58。3%,比最好的无监督方法[33]高出4。6%和4。百分之二。此外,通过聚类引导的半监督训练策略,我们进一步提高了mAP的10%和rank-1准确率的6%DukeMTMC-reID上的结果当我们在DukeMTMC-reID数据集上测试时,也可以观察到类似的改进具体来说,我们实现mAP =53。4%,秩-1准确度=73。0%,并获得mAP =60。3%,秩1准确度= 76。在半监督设置下为0%。与最好的无监督方法相比,我们的结果是4。4%/11。3%和4。6%/7. mAP 和rank-1 准确性高6%。因此,的建议SSG适应方法的人重新ID可以得出结论。此外,通过聚类引导的半监督训练策略,我们大幅度提高了性能,恢复了全监督方法约90%的此外,我们还在MSMT 17数据集上进一步评估了所提出的SSG方法,MSMT 17数据集是最大和最具挑战性的re-ID数据集。我们实现mAP = 13。6%,秩1准确度= 32。6%,当表5.建议的SSG方法与国家的比较DukeMTMC数据集上的现有技术无监督域自适应人员重新ID方法。方法DukeMTMC-reID→MSMT17地图R1R10PTGAN [40]3.311.827.4公司简介13.318.332.241.651.262.2方法市场1501 →MSMT17地图R1R10PTGAN [40]2.910.224.4SSGSGG++13.216.631.637.649.657.2表6.在MSMT17数据集上比较所提出的SSG方法与最先进的无监督域自适应人员重新识别方法经过训练的DukeMTMC-reID,将最先进的技术提高了10。0%和30。百分之四同样,在Market1501上训练时也可以观察到类似的改善,这进一步验证了我们所提出的方法的有效性。5. 结论在 这 项 工 作 中 , 我 们 提 出 了 自 相 似 性 分 组(SSG),它可以挖掘潜在的相似性存在于目标数据集中的不同的外观线索(从全局到局部)在一个无监督的方式,以解决具有挑战性的领域自适应人员重新ID。此外,我们引入了一个聚类引导的半监督方法,建议SSG采用传统的一次性学习方法的人重新识别,这是一个开放的集问题。大量的实验结果表明,我们的方法的性能优于国家的最先进的大幅度。鸣谢:这项工作得到了IBM-ILLINOIS认知计算系统研究中心(C3 SR)和ARC DECRA DE 190101315的部分支持。6122引用[1] Slawomir Bak和Peter Carr。用于人员重新识别的一次性度量学习。在IEEE CVPR,第1571-1580页,2017年。3[2] 洛里斯·巴扎尼马可·克里斯坦尼和维托里奥·穆里诺对称驱动的局部特征积累,用于人体表征和重新识别。计算机视觉和图像理解,2013年。3[3] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。在IEEE CVPR,2017年。2[4] Yuhua Chen , Wen Li , Christos Sakaridis , DengxinDai,and Luc Van Gool.领域自适应更快的r-cnn的对象检测在野外。在IEEE CVPR,2018年。1[5] Yuhua Chen,Wen Li,and Luc Van Gool.道路:面向现实的适应城市场景的语义分割。在IEEE CVPR,2018年。1[6] 布莱恩·朱,瓦什什特·马德哈万,奥斯卡·贝邦,朱迪·霍夫曼,和特雷弗·达雷尔.针对新领域微调视觉分类器的最佳实践在ECCV,第435-442页,2016年。2[7] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。在IEEE CVPR,第248-255页,2009中。4[8] 邓伟建,郑良,康国梁,杨毅,叶七江,焦晓.图像-图像域自适应与保留的自相似性和域相异度的人重新识别。在IEEE CVPR,2018年。一二三四六七八[9] 张文,张文,等.一种基于密度的聚类算法.北京:科学出版社,2000.在Kdd,1996中。4[10] 范呵呵,梁铮,严成刚,杨毅。无人监管人员重新识别 : 聚 类 和 微 调 。 ACM Transactions on MultimediaComputing,Communications ,andApplications(TOMM),2018年。1、8[11] 李飞飞,罗伯·费格斯,皮埃特罗·裴罗纳。对象类别的一次性IEEE TPAMI,2006年。3[12] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。IEEE TPAMI,2010。6[13] Dario Figueira,Loris Bazzani,Ha Quang Minh,MarcoCristani,Alexandre Bernardino,and Vittorio Murino
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功