没有合适的资源?快使用搜索试试~ 我知道了~
12006未标记基于区域Siamese网络的弱监督搜索韩楚楚1*、苏凯2、于冬冬2、袁泽焕2、常新高o1、农桑1†、杨毅3、王长虎21图像处理与智能控制教育部重点实验室,华中科技大学人工智能与自动化学院2字节跳动3悉尼科技大学{hcc,cgao,nsang} @ hust.edu.cnYi. uts.edu.au{sukai,yudongdong,yuanzehuan,wangchanghu} @ bytedance.com摘要监督学习在个人搜索中占主导地位,但它需要对边界框和身份进行精心标记。大规模标记的训练数据通常很难收集,特别是对于个人身份。一个自然的问题是,是否可以在不需要身份监督的情况下训练一个好的人员搜索模型。 本文在分析了现有文献的基础上,我们提出了一种弱监督设置,其中只有边界框注释可用。基于这种新的设置,丁,我们提供了一个有效的基线模型称为区域连体网络(R-SiamNets)。为了在没有识别标签的情况下学习有用的表示进行识别,我们用实例级一致性损失和聚类级对比损失来监督R-SiamNet。对于实例级一致性学习,R-SiamNet被约束为从具有或不具有区域外上下文的每个人区域对于聚类级的对比学习,我们在特征空间中执行最接近实例的聚合和不相似实例的分离。大量的实验验证了我们的弱监督方法的效用我们的模型在CUHK-SYSU基准上实现了87.1%的rank-1和86.0%的mAP,这明显超过了几种完全监督的方法,如OIM [36]和MGTS [4]。通过合并额外的训练数据,可以达到更好的我们希望这项工作能鼓励未来的研究在这一领域。1. 介绍人员搜索[36]旨在从不受约束的场景图像库中定位和识别查询人员。尽管最近的工作取得了巨大的进展[36,35,26,37,11,10,5,44],培训过程*这项工作是韩楚楚在字节跳动实习时完成的。†通讯作者ID5ID 6未标记(a) 全监督设置(b) 建议弱监督设置图1.两个设置之间的比较。(a)完全监督设置。用边界框和个人身份两者来注释图像。请注意,一些身份注释在原始人员搜索数据集中缺乏。(b)所提出的弱监督设置。图像只有边界框注释。需要在边界框和身份标签方面进行强有力的监督,如图所示第1(a)段。然而,大规模地获得这样的注释可能是耗时的并且在经济上是昂贵的。即使在最广泛使用的数据集CUHK-SYSU [36]中,几乎72.7%的行人边界框没有身份注释。它表明,标记身份是更困难的边界框。不可行的身份标注在很大程度上限制了监督方法的可扩展性。而不是依赖于昂贵的标签,很多研究人员一直致力于训练模型没有标签[17,7]或不完整的标签[27,45]在图像识别,对象检测等领域。然而,在人员搜索领域缺少相关的探索为了填补这一空白,我们研究了ID1ID 2ID 3ID 412007弱监督设置,其中仅需要边界框符号。如图如图1(b)所示,所提出的设置减轻了获得手动标记的身份的负担。然而,使用唯一的边界框注释来追求准确的人搜索更具挑战性。在本文中,我们建立了一个强弱监督的基线称为区域连体网络(R-SiamNets)。为了学习每个实例的有意义的特征表示,我们的模型最大限度地减少了从同一行人区域转换的两个编码特征之间的差异具体地,一个分支被馈送有整个场景图像并且提取人实例的RoI特征。另一分支从裁剪的人物图像提取特征。从两个权重共享分支获得的特征被约束为一致的。这种设计的动机是,从裁剪的图像区域提取的上下文无关的实例特征可以帮助网络将人与不相关的背景内容区分开。我们制定了一个自我实例的一致性损失和实例间的相似性一致性损失,以监督上下文不变的特征表示的学习。在此基础上,提出了一种聚类层次的对比学习方法,以达到分离与聚类之间的平衡聚类方法将最接近的实例聚合在一起,并将来自不同聚类器的实例推开。假设最接近的特征具有来自同一个体的高概率。通过聚类生成的伪标签用于对比学习。我们迭代地应用这种非参数聚类来细化训练过程。聚类水平的对比学习产生了显着的性能增益,与6。mAP绝对改善1%在中大-中山大学数据集上。我们的贡献可以概括为三个方面:• 我们引入了一个弱监督设置的人搜索。新的设置只需要边界框注释,减轻了获得手动标记身份的负担。利用这种设置,所开发的算法可以容易地用于现实世界场景中的大规模• 我们提出了R-SiamNet作为弱监督设置下的基线。利用Siamese网络,应用实例级一致性学习来鼓励上下文不变表示。此外,聚类层次的对比学习,以达到分离和聚类之间的平衡。• 我们的R-SiamNet在CUHK-SYSU和PRW数据集上分别达到了87.1%和75.2%的rank-1。结果优于几个监督方法的一个明确的保证金,例如。”[36],《说文》:“君子之道,焉可诬也?”[37]更有希望的是,当合并更多额外的数据集时,性能进一步提升2. 相关工作人员搜索。最近,人员搜索任务在计算机视觉社区中引起了很大的兴趣[36,43,4,3,21,5,42]。 在文献中,有两种方式来处理这个问题,即。、两步法和一步法。对于两步方法,行人检测和个人重新识别是用两个单独的模型[43,4,3,21,15]训练的。Zheng等人。[43]评估了不同检测器和re-ID网络的各种组合,并开发了置信加权相似度(CWS)来支持行人匹配。Chen等人 [4]通过引入掩模引导的双流模型来增强特征表示。 Han等人 [15]开发RoI转换层,以优化两个网络的端到端。这些方法参数较多,在保证性能的同时,评价效率较低一步法[36,35,16,5]在统一模型中联合训练检测和re-ID,表现出高效率。在这些方法中,[36,35]将Faster R-CNN [28]作为骨干网络,并且大多数层由两个任务共享。Munjal等人。 [26]首先介绍了一个查询引导的端到端人员搜索网络。利用来自查询和图库图像的全局上下文,精心设计的框架生成查询相关的propos- als并学习查询引导的re-ID分数。Yan等人。[37]探索了上下文信息并构建了一个图学习框架,以采用上下文对来更新目标相似性。Dong等人。 [10]开发了一个双向交互网络,并采用裁剪的人物补丁作为指导,以减少冗余的上下文影响。这些研究是完全监督的,并且需要每个人的精确注释,包括边界框和身份。由于昂贵的标记过程,在大规模场景中扩展这些方法是不切实际的。因此,我们引入了一个弱监督设置,并开发了一个仅用边界框训练的框架。Siamese Networks. 暹罗网络[2]由接受不同输入的孪生网络组成,并且可比较性由监督决定该架构被广泛应用于许多领域,包括对象跟踪[1],一次性学习[20],签名[2]和人脸验证[31]等。在本文中,我们探讨了上下文不变的嵌入基于区域连体网络的两种形式的输入,即。整个场景图像和裁剪图像。对比学习对比学习[14]旨在吸引正样本对并排斥负样本对,这在最近的无监督学习中得到了推广[19,34,39,17,7,8]。Wu等人 [34]将每个实例视为一个类,并使用内存库来存储实例嵌入。 [34]如:(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(1 [39]学习数据增强不变量和实例扩展-12008||·||insB||Fa||2我我||fb||1 2B1Xff一aaout features. MoCo [17]用队列和移动平均编码器维护字典,因此对比学习被视为字典查找。SimCLR [7]不赞成使用内存组,并直接使用当前批次中的负样本。在本文中,而不是只独立地惩罚不兼容的每个单一的积极对的时间,我们构建了更多的informative积极对的非参数聚类。无监督人员重新识别。传统的无监督方法可以归纳为三大类,设计手工特征,利用局部显着性统计,或基于字典学习的作品。然而,这些方法的性能不如监督的。在聚类算法的基础上,近年来的研究成果表现出了较高的性能. Lin等人。 [24]开发了一个自下而上的聚类框架,用伪标签迭代地训练网络。Zeng等人。 [40]将分层聚类方法与硬批处理三重丢失相结合。Ge等人。 [13]设计了一种具有新的聚类可靠性标准的自定进度对比学习策略,以使用DBSCAN [12]过滤不稳定的聚类。虽然基于聚类的方法实现了高性能,但它们需要仔细调整超参数,例如。、聚类数[24,40]或距离阈值[12]。在本文中,我们采用非参数聚类方法[29],通过图像信息进行过滤这种方式仅依赖于每个数据点的第一邻居,并且不需要超参数。3. 该方法在本节中,我们首先介绍第二节中的整体区域暹罗网络第3.1条然后我们将描述暹罗网络如图所示。二、有两个分支,称为搜索路径和实例路径。搜索路径以整个场景图像为输入,通过增加一个检测头,对检测和识别进行联合训练。每个行人的特征嵌入由感兴趣区域(RoI)对齐层生成。对于实例路径,将裁剪的图像作为输入。在较少的背景下,对应的输出可以集中在行人的区域。为了确保上下文不变的嵌入,我们应用实例级的一致性学习的两条路径的输出。它包括一个自实例一致性损失和一个实例间相似性一致性损失。此外,模型的集群级监管,我们采用了非参数聚类方法的基础上,每个样本的最近邻一个集群级的对比损失的开发,以计算之间的相似性,在当前批次的样本和内存库。在推理过程中,我们只使用搜索路径。3.2.实例级一致性学习在没有身份注释的情况下,观察到学习的实例特征涉及过多的上下文。作为一个细粒度的任务,检索过程容易受到周围人和噪声的干扰。为了缓解这个问题,我们输入包含较少上下文的裁剪的pedes-trians来构建监督。实例级一致性学习从两个方面增强上下文不变嵌入自实例一致性丢失。给定一个小批量的场景图像,我们获得B裁剪行人图像与边界框标签。对场景图像和裁剪后的图像进行区域连体网络处理 出去-put嵌入表示为Fa=[Fa,Fa,...,[a]T和1 2 B实例级一致性学习3.2.最后,在Sec.三点三3.1. 区域暹罗网络我们的主要目标是定位的人的位置和学习的代表性特征进行识别。在弱监督设置下,仅边界框注释被在培训过程中使用 无手动拉-Fb=[f b,f b,…分别用于搜索路径和实例路径。为了鼓励上下文不变的嵌入对于一个具体的例子,我们考虑最大化f a和f b之间的余弦相似性。然后,自实例一致性损失被定义为:BaBL=(1- ·),(1)i=1我我2由于身份的不同,设计监控信号用于训练网络。为了实现这一目标,我们从两个方面开发框架:1)基于暹罗网络,通过不同增广输入的监督来确定相似性。在本文中,整个场景的图像和裁剪图像作为输入。我们专注于实例级的一致性学习,以鼓励年龄上下文不变的嵌入。2)通过聚类生成的伪标签允许对聚类级监督进行建模。因此,我们应用集群级对比学习,达到分离和聚合之间的平衡。基于这些考虑,我们提出一个区域其中2是L2范数,并且损失在小批量中的所有实例上平均。实例间相似性一致性损失。每个路径中的特征嵌入可以被视为聚合特征空间。上述自实例一致性损失仅约束来自同一个人的嵌入对单独地更接近。我们进一步应用约束来扩大整个特征空间之间的相似性分布对于搜索路径,相似性矩阵Sa2RB B通过Sa=F FT获得,其中F通过Fa上的行式L2归一化产生。同理,Sb2RB B12009搜索路径FPN骨架实例特征Fa作物重量平衡的实例路径FPN骨架实例功能fb检测头P22由于每个分布都可以被认为是目标,我们我J我J我平均实例特征f存储体簇级对比损失图2.我们的R-SiamNet用于弱监督人员搜索的插图。给定整个场景图像,检测和识别与搜索路径中的骨干一起训练。行人的特征由RoI对齐层产生,表示为fa. 同时,我们引入了一个实例路径与裁剪的人作为输入。在此路径中,我们通过同样的层次。为了鼓励上下文不变的功能,自实例一致性损失和实例间相似性一致性损失之间的应用。此外,伪标签产生与非参数聚类。我们计算平均特征f和存储体中的嵌入之间的簇级对比损失。请注意,在测试中仅使用搜索路径。为实例路径计算。我们的目标是保持两个相似性分布之间的一致性。基于分歧,我们开发实例间相似性一致性损失如下:Lint= DKL(Sa||Sb)+DKL(Sb||Sa)、(2)其中DKL表示KL散度。它可以用公式表示为DKL(P||Q)=x2×P(x)log(P(x)/Q(x))。采取相互的方式。在聚类时可以过滤一些错误的聚合。在聚类之后,所有人被分配伪标签。具体地,在每个时期开始时,在提取所有实例的嵌入之后进行聚类过程假设存在N个样本,则相邻矩阵A(i,j)RN N可以在所有sam之间构造。ples,它被初始化为全零。为了设置A(i,j)=1,应同时满足两个条件1) j=1或1=i或1=1,其中1表示样本i的第一邻居。 除了最近的邻居之外,邻接矩阵还链接具有相同邻居的点,其中1=1。3.3. 集群级对比学习i j实例识别[34]将每个样本视为一个类别,以产生分离良好的样本。在个人搜索任务中,这种方法可能较差。我们的目的是探索人与人之间的相似性,并在分离与聚合之间取得平衡。采用非参数聚类方法来产生伪标签,并且在当前批次中的样本与存储体之间应用聚类级对比损失。非参数聚类。我们基于最相似的特征嵌入具有属于同一类的高概率的假设来构建集群级监督这激发了我们的聚类方式,其中仅每个样本的最近邻居被聚集。同时,同一场景图像中的行人具有不同身份的先验性。因此我们2) 第i个和第j个行人的整个场景图像应该是不同的。如果两个人来自同一场景图像,则不能对他们进行聚类。不同于需要仔细调整超参数的其他聚类算法[24,13,40],例如、聚类数或距离阈值时,采用非参数聚类方法。它很容易扩展到大规模的数据与最小的计算费用。簇级对比度损失。类似于以前的作品[36,5],我们保持一个内存库MRN d以存储所有实例的嵌入,其中d表示特征尺寸。在聚类之后,通过具有伪标签的新嵌入的特征来更新存储体。然后,可以计算存储体中的特征与当前批次中的特征之间的聚类级对比损失在小批处理中,特定的实例功能表示为自实例一致性丢失实例间相似性一致性损失C12010--←-pn联系我们npXX算法一:R-SiamNet的培训程序输入:未标记数据I=I1,I2,…IN0;比例因子ц;动量λ初始化:使用初始化主干4. 实验在本节中,我们首先介绍了两个基准数据集,然后是弱监督方式下的设置和Sec. 4.1.然后Sec。4.2为ImageNet预训练的ResNet-50。每一个时代都1:提取所有实例特征。2:进行非参数聚类。3:更新内存条中的功能。对于每个小批量操作1:通过R-SiamNet对两条路径的实例特征进行编码fa=Ф✓(I)fb=Ф✓(crop(I))f=平均值(fa,fb)2:计算自实例一致性损失描述了实现细节和可再现性。我们进行了一系列消融研究,以分析所提出的方法的有效性。四点三。最后,我们讨论了与第二节中的艺术状态的比较4.44.1.数据集和设置CUHK-SYSU数据集。CUHK-SYSU [36]是一个大规模的人物搜索数据集,由城市场景图片和电影快照组成。共有18184张图片端端等式13:用等式2计算实例间二个4:用等式2计算簇级对比损失35:在后退过程中,更新存储体中的特征:Mt←λM t+(1-λ)f具有96,143个注释的边界框,包括8,432个标记的标识。训练集由11206张图像组成,其中包含5532个身份和几个未标记的身份。测试集中有6,978个图库图像和2,900个探针图像PRW数据集。PRW [43]由大学中的六个空间不相交的相机捕获。它由11,816帧和43,110个带注释的边界框组成,其中34,304个被分配了932个身份标签,其余的是未标记的。训练集包含5,704帧,482个标识,测试集包含6,112个图库图像和2,057个查询,450个标识。f=平均值(fa,fb)。假设存储体中有K个正样本共享相同的伪标签与f。然后,M中的剩余J个样本被认为是负样本。余弦相似度是记为si(i=1,2,...,K)和sj(j=1,2,...,J),分别 受[30]的启发,我们应用集群级对比损失,使每个si大于sj:设置. 在完全监督设置下,训练数据的统计数据显示在Tab中。1.一、在本文中,我们提出了一个弱监督设置的人搜索,减少在训练过程中的强监督的需要。在弱监督设置下,我们的模型分别仅使用55,260和18,048个CUHK-SYSU和PRW数据集的边界框注释进行训练p nKJ评价方案。 我们的实验采用标准-Lclu=log[1+exp(ц(sj-si))],(3)i=1 j=1其中,ц是比例因子。在向后期间,用当前小批量中的样本更新存储器组MtλMt+(1λ)f. λ是动量因子,t表示存储体中的实例位置。3.4. 训练过程给定输入图像,我们的目标是学习深度卷积神经网络(CNN)模型Ø✓以实现精确的定位和识别。我们训练的细节在算法1中提供了程序。总而言之,我们的总培训目标修改为:L=Lins+Lint+Lclu+Ldet,⑷其中Ldet表示检测损失,包括回归损失和前景-背景分类损失。标准评价指标在个人搜索[36].一个是累积匹配治愈(CMC),其从人re-ID继承。如果与地面真值的交集大于并集(IoU)大于0.5,则对候选者进行计数另一个是平均精度(mAP),它的灵感来自目标检测任务。对于每个查询,我们根据查准率-查全率曲线计算平均查准率(AP)然后,通过对所有查询中的AP求平均来计算mAP。表1.在完全监督的设置中,对CUHK-SYSU和PRW数据集进行训练数据统计Bbox:边界框。数据集图像ID框已标记未标记中大中大11206553215080(27.3%)40180(72.7%)PRW570448214906(82.6%)3142(17.4%)12011⇥⇥⇥⇥4.2. 实现细节模型我们采用OpenMM-Lab [6]发布的RepPoints [38]作为我们的骨干网络,包含 ImageNet预训练的ResNet-50[18],特征金字塔网络(FPN)[22]和检测头。搜索路径以场景图像为输入,联合训练检测和认可。为了获得行人特征fa,在FPN上应用具有真实RoIs的ROI对齐,如下在平坦化之后由全连接(FC)层降低为将实例路径、裁剪和调整大小的图像作为输入。类似于fa,fb是用相同的网络产生的,除了RoI对齐,并且两个特征都是2048-d。训练 将场景图像的大小调整为1333800, 并将裁剪的图像重新缩放到192 × 64。批量随机梯度下降(SGD)优化器的动量为0。9 .第九条。L2正则化的权重衰减因子设置为5收到我们使用的小批量大小为9,初始学习率为1收到该模型训练了48个时期,学习率乘以0的情况。1在32和44个时期。比例因子α被设置为16并且动量λ被设置为0。两个数据集都是2。所有实验都在PyTorch框架上实现,并且网络在NVIDIA Tesla V100上训练。4.3. 消融研究为了评估所提出的框架的有效性请注意,每个实验中的所有设置与第2节中的实施相同。四点二。不同成分的有效性。为了验证每个组件的有效性,我们在训练过程中比较了不同设置下的性能。结果见表。二、实例识别(IR)[34]表示每个实例在训练中被视为一个类别一个内存库被维护来存储所有的实例特征,提供丰富的负样本来计算对比损失。搜索路径w/ IR意味着IR的监督仅应用于由搜索路径产生的实例特征。这种方法可以被看作是我们的方法的基线。在场景图像作为输入的情况下,实例特征可能包含过多的上下文以干扰匹配,因此mAP仅达到51。百分之八十五实例路径w/ IR指示IR被应用于由实例路径生成的特征,其将裁剪的人作为输入。在搜索路径中,在相同的主干内仅训练检测头在此设置下,结果可以达到63。79%的mAP。与搜索路径相比,实例路径包含的上下文更少,表现出更高的性能。R-SiamNet w/Lins以场景图像和裁剪的行人图像作为输入,融合输出具有超由IR。为了鼓励上下文不变的特征嵌入,我们应用两条路径之间的自实例一致性损失Lins 它最大化了配对的相似性两条路的智慧特征。mAP提升至76。06%,超过51.85%的大幅度增长。这证明了保持一致性的重要性。为了进一步的重新-限制,我们开发了实例间相似性一致性损失Lint,其应用于两条路径的小批量这进一步的保障-T的上下文不变的嵌入,并实现了增益3。96%在1级。此外,为了探索簇级监督,我们实现了非参数聚类来产生伪标签。因此,集群级对比损失Lclu代替IR用于监督从Tab。 2,我们可以看到,性能达到85. 72%的mAP和86。86%在1级。 结果表明了该方法的有效性我们的框架。表2.我们方法的成分分析IR:实例识别。显示了等级-1/5/10准确度(%)和mAP(%)方法CUHK-SYSU地图R1R5R10使用IR51.8559.6967.3169.03带IR的63.7965.5582.2186.83R-SiamNet w/LinsIR76.0678.2190.2892.90R-SiamNet w/LinsLintIR79.6282.1791.6994.03R-SiamNet w/LinsLintLclu85.7286.8695.2496.86不同规模的训练数据的可扩展性。我们的框架旨在学习歧视性身份嵌入下的弱监督设置。当给出更多的训练数据而没有身份标记时,可为了讨论可扩展性,我们从两个方面设计了实验。首先,我们单独评估不同百分比的训练数据的性能,如Tab中虚线上方所示。3 .第三章。具体来说,我们 将CUHK-SYSU/PRW 数 据 集 划分 为 20%, 40%,60%,80%,100%用于训练。可以看出,随着训练规模的增大,训练效果逐渐此外,增长趋势在两个数据集上都没有达到饱和,这表明所提出的框架可以利用更多的训练数据实现进一步的改进。其次,为了进一步评估我们的方法的可扩展性,我们通过组合不同的数据集来扩展训练集。结果显示在表中的虚线下方。3 .第三章。当使用CUHK-SYSU和PRW数据集进行训练时,两个数据集上的性能都得到了显著提高。特别是对于PRW数据集,由于增加的CUHK-SYSU拥有更大的数据规模,mAP被大幅提升。此外,我们还在行人检测任务中使用了一个名为INRIA [9]的数据集。有902个图像包含1,826个行人12012查询实例路径搜索路径我们的R-SiamNet(一)(b)第(1)款(c)第(1)款(d)其他事项图3.不同方法在中大-中山大学数据集上的可视化。给定查询图像,我们展示了三种训练方法的秩1搜索结果。第一列显示带有绿色框的查询人员。实例路径/搜索路径表示模型是用单个路径训练的。最后一列显示了我们区域暹罗网络的结果。红色/蓝色框分别代表错误/正确结果。边界框标注。当使用三个数据集一起训练时,我们的性能在CUHK-SYSU和PRW数据集上都得到了进一步提升。所有的实验证明,我们的框架有潜力达到有前途的性能,通过纳入更多的训练数据。表3.不同规模训练集的性能。在虚线上方,示出了具有不同百分比的训练数据的结果。在虚线下方,它展示了与更多训练数据集组合的性能。培训集CUHK-SYSU PRWR1 mAP R1 mAP20%数据78.34 76.71 66.94 15.61在R-SiamNet的秩-1上与其他两种方式进行了比较。具体地,第一列示出了具有绿色边界框的查询人员。实例路径/搜索路径表示模型采用裁剪图像/整个场景图像作为单个路径内的输入。最后一列是我们的R-SiamNet的结果。搜索结果以不同的颜色显示,即红色框表示错误匹配,而蓝色框显示正确匹配。有几个观察从可视化。首先,观察到搜索路径中的错误匹配肯定与查询不同,但具有相似的上下文。这验证了过度上下文的存在,中大-中山大学PRW 87.00 85.92 75.06 23.50中大深大PRW INRIA87.59 86.19 76.03 25.53可视化和分析。为了评估所提出的方法的有效性,我们说明了一些定性的CHUK-SYSU数据集上的搜索结果。如图三个与查询有关。这表明特征几乎不受上下文的干扰。第三,我们的R-SiamNet促进了这两条路径的互补,保持了有用的上下文来帮助人员搜索。实验结果也表明了该方法的有效性,在大多数情况下,该方法可以成功地定位和匹配查询人。40%数据60%数据82.41 80.5083.45 82.5269.32 17.5971.80 19.10其通过涉及更多表面而干扰匹配过程。80%数据100%的数据85.41 84.1586.86 85.7272.73 19.6473.36 21.16四舍五入的人/背景 第二,我们发现大多数在实例路径中的错误示例具有类似的外观-12013全监督设置:RCAA [3] 81.3 79.3--MGTS [4] 83.7 83.0 72.1 32.6里昂证券[21] 88.5 87.2 65.0 38.7RDLR [15] 94.2 93.0 70.2 42.9TCTS [33]95.1 93.9 87.5 46.8OIM [36] 78.7 75.5 49.9 21.3[35] 80.1 76.3 61.9 23.0NPSM [25] 81.2 77.9 53.1 24.2CTXGraph [37] 86.5 84.1 73.6 33.4DC-I-Net [41] 86.5 86.2 55.1 31.8QEEPS [26] 89.1 88.9 76.7 37.1净减排[5] 92.4 91.5 80.9 43.3净减排+[5] 92.9 92.1 81.1 44.0DMRNet [16] 94.2 93.2 83.3 46.9弱监督设置:我们的(1333*800)86.9 85.7 73.4 21.2我们的(1500*900)87.1 86.0 75.2 21.4⇥表4.实验比较与国家的最先进的方法对CUHK-SYSU和PRW数据集。方法中大-中山大学PRWR1 mAP R1 mAP1009080706050402urs5DL51A(+)0G765CAA1P60IA12I050 100 500 1000 2000 4000GDOOery 6ize4.4.与最先进技术的在本节中,我们将我们提出的框架与当前最先进的Tab中的人员搜索方法进行比较。4.第一章两步法[3,4,21,15,33]的结果示于上框,而一步法[3,4,21,15,33 ods [36,35,25,37,41,26,5]。中大中山大学评估我们的网络与CUHK-SYSU数据集上现有监督方法之间的比较如表1所示。4.第一章 当图库大小设置为100时,我们提出的方法达到85。7%的mAP和86. 9%,排名第一。其性能优于几种监督方法。当使用更大的分辨率1500 - 900时,我们的结果得到进一步的改进,达到86。0%的mAP和87. 1%,排名-1。为了评估性能的一致性,我们还在不同的画廊大小[50,100,500,1000,2000,4000]下与其他竞争方法进行了比较。图4示出了与一步法和两步法的比较。可以看出,所有方法的性能随着图库大小的增加而降低。这表明,当更多分散注意力的人参与身份匹配过程时,这是具有挑战性的,这接近于现实世界的应用。我们的方法优于一些监督的方法在不同的画廊大小。PRW的评价我们还在PRW数据集上评估了我们的方法,如Tab. 4.第一章按照基准测试[43]中的设置,库中包含了所有的6,112个测试图4.在中大-中山大学数据集上比较不同图库大小。我们的方法用虚线表示。图像.这是具有挑战性的,因为涉及大量检测到的边界框。与竞争对手的技术相比,我们的性能达到73。4%,并且其通过更大的分辨率进一步提升我们的方法超越了大多数作品在一步和两步的方式。然而,由于该数据集中的微小类间变化,结果表现出低mAP。5. 结论在本文中,我们引入了一个弱监督设置的人搜索任务,以减轻昂贵的标签的负担。在这种新的设置下,不需要行人的特定身份注释,并且我们仅利用可访问的边界框进行训练。同时,我们提出了一个基线称为R-SiamNet的本地化的人和学习的歧视性特征表示。为了鼓励年龄的上下文不变的功能,自我实例一致性损失和实例间的相似性一致性损失的开发。我们还探讨了分离和聚集之间的平衡,通过集群级对比损失。广泛的实验结果上广泛使用的基准标记证明了我们的框架的有效性结果还表明,随着更多的训练数据,与监督的最新技术水平的差距将进一步缩小。确认这项工作得到了项目的部分支持。国家自然科学基 金 No. 61876210 、 中 央 高 校 基 础 研 究 基 金2019kfyXKJC024、111计划“计算智能与智能控制”项目B18024。两步一步PAP(%)12014引用[1] Luca Bertinetto 、 Jack Valmadre 、 Joao F Henriques 、Andrea Vedaldi和Philip HS Torr。用于对象跟踪的全卷积连体网络。2016年欧洲计算机视觉会议[2] Jane Bromley、Isabelle Guyon、Yann LeCun、Eduard S ¨ckinge r和RoopakShah。使用“连体”时间延迟神经网络的签名验证神经信息处理系统进展,1994。[3] Xiaojun Chang , Po-Yao Huang , Yi-Dong Shen ,Xiaodan Liang,Yi Yang,and Alexander G Hauptmann.Rcaa:用于人员搜索的相对上下文感知代理。2018年欧洲计算机视觉会议[4] 帝尘、张珊珊、欧阳万里、杨剑、英台。基于掩码引导的双流cnn模型的人员搜索。2018年欧洲计算机视觉会议[5] 帝尘,张珊珊,杨健,Bernt Schiele。Norm-aware嵌入用于高效的人员搜索。在IEEE计算机视觉和模式识别会议上,2020。[6] Kai Chen,Jiaqi Wang,Jiangmiao Pang,Yuhang Cao,Yu Xiong,Xiaoxiao Li,Shuyang Sun,Wansen Feng,Ziwei Liu,Jiarui Xu,et al. MM检测:打开mmlab检测工 具 箱 和 基 准 。 arXiv 预 印 本 arXiv : 1906.07155 ,2019。[7] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架在2020年机器学习国际会议上[8] Xinlei Chen,Kaiming He.探索简单的连体表征学习。arXiv预印本arXiv:2011.10566,2020。[9] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图IEEE计算机视觉与模式识别会议,2005年。[10] 董文凯,张兆祥,宋春风,谭铁牛.双向交互网络,用于人员搜索。在IEEE计算机视觉和模式识别会议上,2020年。[11] 董文凯,张兆祥,宋春风,谭铁牛.用于人员搜索的实例引导建议网络在IEEE计算机视觉和模式识别会议上,2020年。[12] Mart inEster , Hans-PeterKrie gel , Jo¨rgSander , XiaoweiXu , et al. A density-based algorithm for discoveringclusters in large spatial databases with noise.在Kdd,1996中。[13] 葛一笑,陈大鹏,朱峰,赵瑞,李洪生.领域自适应目标识别的混合记忆自步调对比学习。 arXiv预印本arXiv:2006.02713,2020。[14] Raia Hadsell,Sumit Chopra,and Yann LeCun.通过学习不变映射进行降维在IEEE计算机视觉和模式识别会议上,2006年。[15] Chuchu Han、Jiacheng Ye、Yunshan Zhong、Xin Tan、Chi Zhang、Changxin Gao和Nong Sang。用于人员搜索的 Re-id 驱 动 的 本 地 化 细 化 。 IEEEInternationalConference on Computer Vision,2019。[16] 韩楚楚、郑哲东、高长信、桑农、杨毅。去耦和记忆增强网络:一步一个子搜索的有效特征学习。AAAI人工智能会议论文集,2021年。[17] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比在IEEE计算机视觉和模式识别上,2020。[18] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别上,2016年。[19] R Devon Hjelm 、 Alex Fedorov 、 Samuel Lavoie-Marchildon 、 Karan Grewal 、 Phil Bachman 、 AdamTrischler和Yoshua Bengio。通过互信息估计和最大化学习深度表示。在2018年国际学习表征会议[20] Gregory Koch Richard Zemel和Ruslan Salakhutdinov用于一次性图像识别的连体神经网络。ICML深度学习研讨会,2015。[21] 徐澜,朱夏天,龚少刚通过多尺度匹配进行人员搜索2018年欧洲计算机视觉会议[22] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。IEEE计算机视觉和模式识别会议,2017年。[23] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得 · 多 尔 · 拉 尔 。 密 集 目 标 检 测 的 焦 面 损 失 。IEEEInternational Conference on Computer Vision ,2017。[24] 林宇天,董宣义,郑良,严妍,杨毅。一种自底向上的聚类方法,用于无监督的个人重新识别。在AAAI人工智能会议上,2019年。[25] Hao Liu,Jiashi Feng,Zequn Jie,Karlekar Jayashree,Bo Zhao,Meibin Qi,Jianguo Jiang,and Shuicheng Yan.神 经 人 搜 索 机 器 。 IEEEInternational Conference onComputer Vision,2017。[26] Bharti Munjal 、 Sikandar Amin 、 Federico Tombari 和Fabio Galasso。查询引导的端到端人员搜索。在IEEE计算机视觉和模式识别会议,2019。[27] Max i meOquab,L e'onBottou,I v anLapt ev,andJosefS ivic. 对象本地化是免费的吗?-用卷积神经网络进行弱监督学习。IEEE计算机视觉和模式识别会议,2015。[28] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn:利用区域建议网络进行实时目标检测。在神经信息处理系统的进展,2015年。[29] 萨奎布·萨弗拉兹、维维克·夏尔马和雷纳·斯蒂费尔哈根。使用第一近邻关系的高效无参数聚类在IEEE计算机视觉和模式识别会议上,2019年。[30] Yifan Sun , Changmao Cheng , Yuhan Zhang , ChiZhang,Liang Zheng,Zhongdao Wang,and Yichen Wei.循环损失:对相似性优化的统一观点在IEEE120152020年计算机视觉与模式识别会议。[31] Yaniv Taigman、Ming Yang、MarcDeepface:缩小与人脸验证中IEEE计算机视觉与模式识别会议,2014年。[32] Laurens Van der Maaten和Geoffrey Hinton使用t-sne可视化数据。机器学习研究杂
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功