领域自适应人物搜索方法的提出及性能评估

139 浏览量更新于2023-12-01 收藏 1022KB PDF 举报

领域自适应

性能评估

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2255获取更多论文领域自适应人员搜索李俊杰1，2岁，YichaoYan1，GuanshuoWangg2，FuFuYu2，Qiong Jia2，Shouhong Ding21上海交通大学人工智能研究所MoE人工智能重点实验室2腾讯优图实验室serenitycapo@gmail.com，yanyichao@sjtu.edu.cn，{mediswang，fufuyu，boajia，ericshding} @tencent.com抽象的。人物搜索是一项具有挑战性的任务，旨在实现联合行人检测和人物重新识别（ReID）。以前的工作已经取得了显着的进步，充分和弱监督的设置。然而，现有的方法忽略了人的搜索模型的泛化能力在本文中，我们采取进一步的步骤，提出了领域自适应的人的搜索（DAPS），其目的是一般化的模型从一个标记的源域到未标记的目标域。在这种新的设置下出现了两个主要挑战：一个是如何同时解决检测和ReID任务的域不对齐问题，另一个是如何在没有目标域上的可靠检测结果的情况下为了应对这些挑战，我们提出了一个强大的基线框架，有两个专用的设计。1）设计了一个域对齐模块，包括图像级和任务敏感的实例级对齐，以最小化域差异。2）采用动态聚类策略，充分利用未标记数据，利用伪包围盒支持目标域上的ReID和检测训练通过上述设计，我们的框架在PRW数据集上的mAP和top-1中分别达到34.7%和 80.6%令人惊讶的是，我们的无监督DAPS模型的性能甚至超过了一些完全和弱监督的方法。该代码可在https://github.com/caposerenity/DAPS上获得。关键词：人物搜索，领域适应1介绍人物搜索[44，39]旨在从自然图像中检测和识别查询人物。解决这一任务的主流方法是以端到端的方式同时处理这两项任务，其中依赖于行人边界框注释和身份标签的监督学习[44，34，6，26]已经被积极研究。然而，这些监督的方法可能会遭受显着的性能下降看不见的领域，由于域间隙。这项工作是李在腾讯优图实验室实习期间完成的。†通讯作者：Yichao Yan.arXiv：2207.11898v1 [cs.CV] 2022年7+v：mala2255获取更多论文2J. Li等人来自源域的训练集来自目标域的训练+无可用注释(a)完全监督设置（b）弱监督设置（c）建议的域自适应设置图1：三人搜索设置的比较。(a)完全监督设置：边界框和身份注释可用。(b)弱监督设置：只有边界框注释可用。(c)域自适应设置：目标域上的边界框和标识注释都不可访问，并且不同域之间存在明显的域间隙，例如，人类作物的大小该网络使用标记的源域和未标记的目标域图像进行训练为了解决这个问题，最近的几项工作[40，20]提出了没有可访问ID注释的弱监督人员搜索（WSPS）设置，如图1所示。尽管如此，仍有一些局限性有待解决。首先，这些工作仍然需要手动注释的地面实况边界框的检测任务，这显然不是一个经济的选择，为现实世界的应用。第二，存在若干大规模注释的个人搜索数据集，例如，CUHK-SYSU [39]和PRW [44]，可以作为监督源域，并帮助提高未标记目标数据的性能。不幸的是，弱监督设置并没有充分释放可用训练数据的潜力。第三，这些方法采用有监督检测和无监督ReID的不一致训练策略，忽略了两个子任务之间的本质相关性。受无监督域自适应（UDA）[16，23，36]的启发，如图1所示，我们提出了域自适应人员搜索（DAPS）框架，其中在标记的源域上训练的人员搜索模型被转移到未标记的目标域。与弱监督搜索相比，DAPS中的身份标签和边界框都不可访问。我们的框架面临两个主要挑战：（1）检测和ReID子任务都存在域间隙。然而，检测关注的是人的共性，而不考虑身份，而ReID需要学习不同人的独特性这种冲突在领域适应中可能更加严重。(2)由于地面实况检测框不可用，因此在目标域中准确定位行人将极具挑战性，这进一步增加了ReID子任务的难度因此，直接扩展WSPS方法以利用目标域数据是不可行的。为了解决第一个挑战，我们探索了鲁棒的域对齐不变特征学习。在行人检测的背景下，这通常是通过对图像级和实例级特征进行域对抗训练[8]来实现的。根据这一研究思路，我们设计了一个域对齐-ID1 ID2 ID3ID1 ID2 ID3ID4无标识注释+v：mala2255获取更多论文领域自适应人员搜索3分段模块（DAM），以减轻不同领域之间的差异。具体来说，一方面，我们在中间骨干层引入域鉴别器另一方面，我们执行任务敏感的实例级对齐，以减轻两个子任务之间的冲突我们观察到，这样的域对齐操作对两个分支都是有益的。为了解决第二个挑战，我们迭代地在目标域图像上生成伪边界框，并使用GT和伪框进行域适应的训练过程。此外，我们提出了一种动态聚类策略来生成目标域上的伪身份标签。为了充分释放目标域训练数据的潜力，该框架使用选定的建议来细化检测任务，并使用混合硬案例挖掘来增强两个子任务之间的交互。实验结果表明，该设计令人惊讶地实现了与直接采用地面实况边界框的比较性能我们的贡献可归纳为三个方面：– 我们介绍了一种新的无监督域自适应范式的人搜索。此设置既不需要边界框，也不需要目标域上的标识注释，使其对于现实世界的应用程序更实用。– 我们提出了DAPS框架，以克服跨域差异和跨任务依赖所带来的挑战。我们提出了领域对齐的人搜索，以提高域不变的特征学习。同时，一个动态的聚类和混合的硬情况下挖掘策略，以促进无监督的目标领域学习。– 在目标域中没有任何辅助标签的情况下，我们的框架在两个目标人物搜索基准上取得了令人满意的性能，令人惊讶地优于几个弱监督和全监督模型。2相关工作2.1人检索随着深度学习和大规模基准测试的发展[39，44]，每个搜索[4]最近已经成为一个热门的研究主题。现有的完全监督的人物搜索模型可以分为两步和一步框架。两步框架通常由单独训练的检测和ReID模型组成[34，21]。 Zheng等人 [44]对检测和ReID模型的不同组合进行了系统评价。 Wang等人 [34]解决检测和人员ReID任务之间的不一致性。一步框架[6，26，41]设计了一个统一的模型，以端到端的方式联合解决检测和ReID任务，使管道更有效。Yan等人。 [43]引入了一个图模型来探索上下文信息对身份匹配的影响Chenet al. [6]将人称表征分解为规范和角度，以消除跨任务冲突。Li等人 [26]开发了一种顺序结构来减少低质量的提案。最近的几项研究[40，20]采用了弱监督设置，没有可访问的个人ID标签。在这项工作中，+v：mala2255获取更多论文4 J. Li等人。我们探索了一种新的个人搜索设置，将标记源推广到未标记的目标域，而无需任何边界框和ID标签注释。2.2Person ReID无监督域自适应（UDA）ReID [7，10，28，15，17，32，42]通常用标记的源域训练模型，并在无监督设置下转移到目标域。主流的UDAReID方法可以分为两类。第一类采用生成对抗网络[19]来缓解风格差异，并将标记的源域数据转换为目标域[7，10，28]。对于第二类，他们通过聚类[15，17，32]或在目标域上分配软标签[35]来生成伪标签，并使用这些伪标签来进一步监督目标域训练。近年来，基于伪标记的方法由于其优越的性能而受到越来越多的关注。然而，UDA ReID需要裁剪的图像，由于目标域上缺乏边界框，因此无法直接扩展到自适应人物搜索为了解决这个问题，我们提出了一种动态聚类策略来生成高质量的伪框，以促进目标域的训练。2.3域自适应目标检测现有的域自适应方法对象检测可以分为三个主要分支，包括基于对抗的方法[33，8，45，37，31]，基于差异的方法[24，2，3]和基于重建的方法[27，1，11]。基于对抗性的方法利用域训练来区分输入数据的域，执行对抗性训练以鼓励源域和目标域之间的域混淆。基于差异的策略利用未标记的目标域图像来微调检测器，并进一步跟随均值-教师学习[2]或自动注释[3]。基于重建的方法通过重建源或目标样本来弥合域间隙，这通常通过图像到图像的转换来实现[1，27]。在这项工作中，我们考虑的子任务之间的冲突的人搜索，并开发了一个任务敏感的对齐模块，以减轻这种冲突。3方法3.1框架概述所提出的DAPS框架的一般流水线如图2所示。给定来自源域和目标域的输入图像，使用骨干网络提取图像级特征图。然后，这些特征被输入到区域建议网络（RPN）中以生成候选边界框，这些边界框随后被馈送到ROI对齐层以表示实例级特征图。为了缩小下游检测和ReID任务的域差距，我们设计了一个域对齐模块（DAM）来对齐来自不同域的图像级和实例级特征。+v：mala2255获取更多论文无标签目标域训练刘Box update动态聚类硬采矿目标域李国王-国王-对齐对齐映像级实例级映像级实例级特征地图特征地图特征地图特征地图域对齐模块源域1−��李李任务敏感的实例对齐GRLGRLGRL检测头骨干NAE头RPN领域自适应人员搜索5图2：DAPS框架的体系结构主干遵循SeqNet [26]，我们采用域对齐模块来最小化图像级和实例级的域差异我们进一步采用动态聚类、混合硬案例挖掘和目标检测训练来充分利用未标记的目标领域数据。随后，域对齐的实例级特征映射被输入到检测和ReID分支中。由于地面实况边界框在目标域中不可用，因此模型将针对每个训练时期生成不同的足检测结果。因此，遵循传统的UDA ReID方法是不可行的，该方法通常对固定大小的实例执行聚类以生成伪标签。为了解决这个问题，我们设计了一种新的动态聚类策略，该策略连续关联从连续时期生成的边界框，以保证实例级ReID特征的稳定性。在动态聚类策略的基础上，我们进一步引入混合硬案例挖掘和目标域检测细化，以充分利用未标记的训练数据。3.2域对齐模块图像级对齐。如[36，8，7，10]中所讨论的，最小化域离散度对于人物搜索的两个子任务都是有益的，有效的方法是引导模型学习域不变表示。受域自适应检测器[8，45，37，31]的最新进展的启发，其中中间特征被施加了图像级对齐约束，我们将域对齐模块引入我们的DAPS框架。如图2、DAM采用基于块的域分类器来预测输入特征来自的域。采用最小最大公式来误导域分类器，并鼓励域不变表示学习。+v：mala2255获取更多论文Σ一，1i，Ki，Ki、ji、ji，ki，k我我}标准头NAE HeadROI-对齐Res 5GAP2048d256dL21d间隙小行星2048d规范实例级特征映射实例级特征图256d1 −��联系我们联系我们GRL李GRLCLSRegID ClsReg人/bg Cls6 J. Li等人。图3：两个头的详细信息和任务敏感的实例级对齐。假设我们有N个训练图像{I1，...，IN}与对应的域标签{d1，. dN}。具体地，di= 0表示图像Ii来自源域，而di= 1表示目标域。我们将DAPS的主干表示为Φ，将图像级域分类器表示为D g，并进一步将输入I i的域预测结果表示为pi。我们应用交叉熵损失以对抗训练方式执行域对齐：Limg= −[dilog pi+（1 − di）log（1 − pi）]。（一）我我们尝试过对不同的中间特征进行图像级对齐和多尺度对齐，但没有取得更好的效果。任务敏感的实例级对齐。如图3所示，我们的框架由两个头部网络组成，其中检测性能主要取决于第一个标准的Faster R-CNN [18]头部，而NAE[6]头与ReID高度相关当源域的尺度远小于未标记目标时，在源上训练的检测器预测的目标伪边界框当目标小得多时，可以通过聚类容易地获得伪目标ID标签，但是这些可能为ReID子任务提供不足的概括。根据上下游任务的特点，提出了任务敏感的实例级对齐模块，通过平衡两个子任务的实例级特征的对齐权重来实现。假设我们在标准头部中有K1个实例，在NAE头部中有K 2个实例，两个域分类器{Dd，Dr}以相同的方式构建，具有图像级对齐，并且两个局部分类器的域预测被表示为、...、 pd ，1ri，1、...、pr2}，分别。实例级损失可以公式化为：Lins=−λdilogpd+（1−di）log。1−pdΩi、j-（1−λ）dilogpr+（1 − di）log。1−pr好吧（二更）i，k{p+v：mala2255获取更多论文·我--不Smin（Ns，Nt）领域自适应人员搜索7建议混合硬套特征存储体得分在得分在 1999年，保存在框内存图4：动态聚类和硬案例挖掘的说明。在每个时期的开始，我们采用生成的建议，包括合格的和困难的情况下，更新内存库。采用符合条件的方案匹配伪盒内存，硬盒直接添加。其中j ∈ {1，.， K1}，且k ∈ {1，.， K2}。源域和目标域分别包含Ns和Nt幅图像，平衡因子λ由下式获得：λ=σ。4·sign（N-N）。max（Ns，Nt）−1。（三）其中σ（）是用于归一化域缩放比的Sigmoid函数。此外，我们施加一个L2范数正则化，以确保图像级和实例级分类器之间的一致性。3.3未标记目标域上的训练动态聚类。 UDA ReID模型通常采用聚类策略（例如，DBSCAN）为目标域实例生成伪标签，并采用基于内存的损失[17]进行度量学习。然而，如果没有目标域上的真实边界框，则只能从检测结果中生成实例，这会随着训练过程而变化。这使得直接将典型的聚类方法应用于DAPS是不可行的。为了解决这个问题，我们提出了一种新的动态聚类策略，充分利用检测结果进行连续的ReID训练。如图4所示，引入了一种简化的训练策略，用所选方案逐步更新伪边界框作为目标域上的地面实况框。具体来说，对于开始的αepoch，DAPS仅在标记有绑定框和ID标签的源数据集上进行训练。之后，我们维护一个边界框内存MB={B1，...，BNt}和特征向量存储器MV={V1，.，VNt}，对应于Nt个目标域图像中的每一个。在每个后续时期开始时，DAPS过滤出高置信度候选提案c1，...，cm从xt，并使用它们来匹配框内存中的伪边界框B1={b1，...， bn}，根据IOU得分。每个提案都被分配给正实例特征方框更新盒式存储器盒匹配伪盒动态聚类硬外壳功能推理刘别这样，别这样，…+v：mala2255获取更多论文不S·不不不不不8 J. Li等人。如果它们的IOU分数高于阈值，则将它们存储在存储器中最相关的框中，并且将不匹配任何合格提议的框从分类Bi中移除。在指数移动平均（EMA）方法中，内存中的剩余方框会不断更新。例如，假设建议cj1、cj2、cj3被映射到框bk，则bk被更新为：bk←γbk+（1−γ）avg（cj1，cj2，cj3），（4）其中γ∈[0，1]控制更新速率。最终，没有任何匹配框的建议也将被馈送到存储器Bi中，并且进一步地，以相同的方式更新特征存储器MV之后，我们对MV执行聚类以获得N c个聚类{C1，...， CNc}，其中质心W ={w1，...， wNc}，以及No个实例F ={f1，. fN0}不属于任何集群。通过提取在源域中标识特征V，最终构建统一的内存对于ReID训练，M={V，W，F}。损失函数可以表示为：exp（x·z+/τ）L=−logNc不 exp（x·w/τ）+Noexp（x·f/τ）+Nc、exp（x·v/τ）k=1kk=1kk=1K（五）其中w、f和v分别表示目标域簇、独立实例和源域类。 z+是输入特征x的对应类原型，并且表示用于度量特征相似性的内积。内存中的特征将在后退阶段以动量方式更新：zt←γzt+（1−γ）x，（6）其中zt是存储体M中的第t个原型。混合硬案例挖掘。动态聚类的一个重要挑战我们将置信度低于阈值的盒子视为阴性样本。为了充分利用目标域信息，我们探索了将这些“负”样本添加到ReID训练中的潜力。具有相对较低置信度分数的提案可以将其分为高度重叠的高置信度框、未检测到的人和背景杂波。通过将所有这些建议作为负样本来增强ReID子任务是不可取的。因此，我们设计对候选提案进行分类的分层方案，低置信度的人的建议和非平凡的背景杂波，以增强的ReID分支的歧视。具体而言，置信度得分在由上限阈值和下限阈值定义的（Wh，Wp）范围内的建议被视为非平凡情况。我们排除高度重叠的重复进一步筛选IOU与积极的建议，而未检测到的人和负杂波的混合物被保留用于训练。这些硬案例的特征将被添加到M中，并用于+v：mala2255获取更多论文NcN·ΣΣ领域自适应人员搜索9对比学习过程。在Eq中的记忆丧失。5修改为：exp（x·z+/τ）L=−logΩ拉克莱特z∈M、exp（x z/τ）O阿勒特z∈Mexp（x·z/τ）=k=1Ncexp（x·wk/τ）+k=1Nnexp（x·fk/τ）+（七）Sk=1exp（x·vk/τ）+不k=1exp（x·hk/τ），其中h表示混合硬情况。值得注意的是，在下一个历元之前，混合硬情况将被纳入动态聚类一旦一个棘手的案例与新的合格提案相匹配，它将被视为一个积极的样本，并以一种势头进行更新。目标探测训练。尽管DAM可以最小化域离散度，但是仍然可能发生向源域的过拟合，特别是当源域数据比目标域图像复杂度和综合度低得多时。为此，同时使用源域和目标域数据来训练检测，有利于模型的泛化能力。DAM和动态聚类提供了相对可靠的伪包围盒，具体地说，我们在α历元之后使用这样的通过这种方式，未标记的目标域图像的潜力被释放用于ReID和检测训练。4实验4.1数据集和评价方案数据集。我们在实验中使用了两个大规模的基准数据集，CUHK-SYSU[39]和PRW [44]。中大-中山大学是最大的公共数据集之一，由来自8，432个不同身份的18，184张图像和96，143个边界框组成。它被分为一个包含5,532个身份的11,206张图像的训练集，以及一个包含6,978张图库图像和2,900张查询图像的测试集。广泛使用的PRW数据集包含11，816张图像，来自932个身份的43，110个注释边界框。训练集包括5，704张图像和482个标记人，而其他6，112张图像和450个身份的2，057个探针人被用作测试集。评价方案。我们的实验采用了两个数据集的默认分割。对于域自适应设置，用作源域的数据集的注释是可访问的，而作为目标域的数据集的边界框和标识标签都不可所有的评估都是在目标域的测试集上进行的。我们采用广泛使用的平均平均精度（mAP）和累积匹配特征（CMC）top-1精度作为ReID子任务的评估指标，而平均精度（AP）和召回率作为检测指标。+v：mala2255获取更多论文××10J. Li等人表1：当组合不同组分时的比较结果DAM：主对齐模块.DC：动态聚类。混合硬情况下采矿。DTD：检测目标域。大坝 DC HM DTD目标：PRWmAP top-1召回AP目标：中大-中山大学mAP top-1召回AP✓×✓×× ×✓× ×✓××××××30.3 77.7 94.0 88.3 52.5 54.8 55.2 55.130.9 79.3 96.3 90.7 62.2 63.6 70.8 63.132.2 79.4 96.8 90.3 70.9 72.3 67.8 62.232.7 79.6 95.9 90.4 72.6 74.3 68.3 63.2✓✓✓✓ ✓✓×✓ ✓✓×✓34.533.134.780.779.980.697.096.697.291.091.290.973.276.877.674.878.779.670.464.179.4 71.177.7六十九点九表2：任务敏感的实例级对齐的比较结果实例数据目标：PRWmAP top-1召回AP目标：中大-中山大学mAP top-1召回AP正常21.7 76.0 96.7 91.1 58.2 60.566.3五十六点三任务敏感的 30.9 79.3 96.3九十点七62.2 63.6 70.8 63.14.2实现细节我们采用在ImageNet-1 k [9]上预训练的ResNet 50 [22]作为我们的默认骨干网络。采用具有自定进度学习策略[25]的DBSCAN[14]作为基本聚类方法，我们设置默认超参数p= 0。95，Δh= 0。8且λt= 0。1.在训练过程中，输入图像的大小调整为1500 - 900，并随机水平翻转应用于数据增强。我们的模型通过随机梯度下降（SGD）优化了20个时期。我们将minibatch大小设置为4，初始学习率为0.0024，减少了1倍。0.1，在第一个时期预热。动量和重量衰减分别设置为0.9和5 10−4我们将内存更新的动量因子γ设置为0.2。当选择PRW作为目标域时，α的起始历元设置为8所有的实验都是用一个NVIDIA Tesla A100 GPU来实现的。我们还计划在未来的工作中与MindSpore一起支持这个项目。4.3消融研究我们进行分析实验，以验证我们提出的框架中的每个详细组件的有效性。在表1中，我们比较了基线方法与不同组合的拟议组件，并报告了结果的CUHK-SYSU和PRW数据集。例如，当我们使用CUHK-SYSU作为目标域数据集时，+v：mala2255获取更多论文领域自适应人员搜索11表3：采用不同策略处理缺少边界框时的比较结果。“GT”指的是将真实边界框用于ReID的所有训练过程，而“GT for init”仅使用这些框来初始化内存库。“静态”意味着在每个时期之前直接采用合格的建议。战略目标：mAP top-1PRW召回AP目标：中大-中山大学mAP top-1召回APGT34.9 79.9 94.9 89.5 73.6 76.0 74.6 68.2GT用于初始化 33.5 79.6 92.9 88.5 73.5 75.4 64.4 60.8静态25.3 77.3 96.6 90.8 64.0 66.1 67.6 62.5动态更新32.7 79.6 95.9 90.4 72.6 74.3 68.3 63.2表4：何时开始接受培训的比较结果。起始时期目标：PRWmAP top-1召回AP目标：中大-中山大学mAP top-1召回AP031.5 79.7 95.8 89.4 77.6 79.6 77.7 69.9431.4 79.4 95.8 89.1 73.6 75.376.6六十七点七834.7 80.6 97.2 90.9 73.2 74.776.7六十九点零1033.4 80.6 97.5 90.7 71.4 73.374.8六十五点八模型实现了52.5%的mAP和54.8%的top-1。在分别加入主自适应模块（DAM）和动态分簇模块（DC）后，mAP性能分别提高了9.3%和18.4%。当结合DAM和DC时，mAP进一步提升至72.6%，大幅超过基线的52.5%。此外，为了充分利用未标记的目标数据，我们实现了混合硬案例挖掘（HM）和目标域检测（DTD）。HM在mAP中将ReID性能提高了0.6%，DTD在AP中显著增强了检测分支，增益为7.0%。最终，DAPS在所有设计的模块中实现了77.6%的mAP和79.6%的top-1，在mAP中超过基线25.1%，在top-1中超过基线24.8%，在召回中超过基线22.5%，在AP中超过基线14.8%。任务敏感的实例级对齐的有效性。为了验证我们的任务敏感的实例级对齐设计的有效性，我们将其与正常的实例级对齐进行比较，正常的实例级对齐在两个头部网络上进行实例对齐，而不在它们之间进行平衡。如表2所示，任务敏感设计成功地消除了内部任务冲突，执行正常策略的优势很大。动态聚类的有效性。如前所述，利用未标记目标域数据的关键是生成可靠的伪边界框。为了验证我们使用的伪边界框的质量，我们比较了获得边界框的不同策略，结果如表3所示。我们首先使用地面实况来衡量性能+v：mala2255获取更多论文12 J. Li等人。79787776750.92 0.950.98时代（一）876543210 1 2 3 4 5 6 7 8 9 10时代（b）第（1）款图5：在CUHK-SYSU数据集上使用不同的BMPp的(a)：ReID准确性结果;（b）：生成的积极建议的数量。地面实况实例数为55，260。用于训练ReID任务的边界框。此外，我们报告了通过在每个时期之前直接采用合格的建议所实现的性能，其在表3中表示为“静态”。结果表明，我们提出的动态聚类策略可以生成值得信赖的伪边界框，以实现与使用地面实况框相当的性能。强化培训效果。我们进行了训练阶段超参数α对最终性能影响的实验。如表4所示，当采用PRW作为目标域时，α = 8时达到最佳性能，而对于CUHK-SYSU，α=0。结果可能违反直觉，但确实验证了我们对任务敏感的动机。对于较小的源数据集，即使有限的额外目标信息也可能有助于跨域综合。相反，对于较大的源数据集，不可靠的目标建议可能对域间隙桥接有害超参数混沌分析我们在图5中可视化了超参数的影响。我们观察到，ReID的性能很大程度上受ReID值的影响，并且ReID的性能最好，0。95.从图5b中可以观察到，选择RNP是召回率和建议质量之间的权衡。将其设置为极高的值会导致丢弃有用的建议，而较低的阈值将导致混乱，从而破坏聚类的质量。4.4与最先进方法的由于没有具有这种域自适应设置的现有人员搜索方法可以直接比较，因此我们进一步比较了DAPS与表5中的完全监督方法，包括两步法和一步法。令人惊讶的是，我们的框架甚至超过了一些监督方法。例如，DAPS优于MGTS [5]，OIM [39]，IAN [38]，NPSM [29]和地图top-1准确度0.860.950.98No .阳性样本（10^4）+v：mala2255获取更多论文领域自适应人员搜索13表5：与完全监督的个人搜索模型的比较方法PRWmAP top-1香港中文大学mAP top-1[18]20.5 48.3--MGS [5]32.6 72.1 83.083.7RDLR [21]42.9 70.2 93.094.2[第13话]47.2 87.0 90.391.4TCTS [34]46.8 87.5 93.995.1OIM [39]21.3 49.9 75.578.7IAN [38]23.0 61.9 76.380.1NPSM [29]24.2 53.1 77.981.2[第43话]33.4 73.6 84.186.5QEEPS [30]37.1 76.7 88.989.1HOIM [4]39.8 80.4 89.790.8Binet [12]45.3 81.7 90.090.7NAE [6]44.0 81.1 92.192.9AlignPS [41]45.9 81.9 93.193.4SeqNet [26]46.7 83.4 93.894.6DAPS（我们的）34.7 80.6 77.679.6[43]第四十三话与最先进的完全监督方法的比较表明，存在很大的性能差距，我们希望我们的工作将鼓励更多的探索这种设置。此外，为了测量DAPS设置的理论上限，我们以监督的方式用两个数据集训练了一些最先进的方法，更多细节在补充材料中描述。与现有弱监督方法的比较如表6所示，我们还展示了以弱监督方式使用两个数据集训练R-SiamNet的结果。在PRW数据集上进行评估时，DAPS的性能明显优于所有现有的弱监督方法。对于CUHK-SYSU数据集，DAPS仍然不如最先进的弱监督模型，这主要是由于检测能力带来的限制。如SEC所述。4.1中，PRW中的图像和身份显著少于CUHK-SYSU中的图像和身份，这进一步导致采用CUHK-SYSU作为目标域的检测性能较差。4.5定性结果为了更好地说明我们的混合硬案例的分布，我们在图6中可视化了两个数据集的一些定性结果。如观察到的，混合物困难情况包括未检测到的人（列A）、高度重叠的人类作物（列B）和背景杂波（列C、D）。这些定性结果+v：mala2255获取更多论文14 J. Li等人。表6：与弱监督个人搜索模型的比较。* 表示与中大中山大学和PRW一起训练R-SiamNet。方法PRWmAP top-1香港中文大学mAP top-1CGPS [40]16.2 68.0 80.082.3[20]第二十话21.4 75.2 86.087.1R-SiamNet*[20] 23.5 76.0 86.287.6DAPS（我们的）34.7 80.6 77.679.6（一）（b）（c）（d）图6：一些困难情况的可视化，绿色的边界框表示合格的建议，而红色的表示未检测到的人。混合硬壳的作物显示在图像的右侧。展示了我们的混合硬案例的多样性，并验证了将此类案例添加到内存库中的合理性。5结论在本文中，我们介绍了一种新的域自适应的人搜索设置，既不需要边界框，也不需要身份标签的目标域基于这种新的设置，我们提出了一个强大的基线框架，通过investi- gating域对齐和利用未标记的目标域数据。两个大规模基准测试的结果表明，我们的框架取得了良好的性能和设计模块的有效性我们希望这项工作将鼓励在这方面进行更多的探索。致谢本工作得到上海市科技重大专项（2021 SHZDZX 0102）、CAAI-Huawei MindSpore开放基金的支持。（一）（b）（c）（d）+v：mala2255获取更多论文领域自适应人员搜索15引用1. Arruda，V.F.，Paixao，T. M.，Berriel，R. F.，Souza，A.F.D.，巴杜角，塞贝，北，Oliveira-Santos，T.：使用无监督图像到图像转换的跨域汽车检测：从白天到夜晚。在：IJCNN.pp. 12. Cai，Q.，Pan，Y.，Ngo，C.，Tian，X.，杜安湖，Yao，T.：探索对象关系用于跨域检测。在：CVPR。pp. 11457-11466（2019）3. 曹玉，Guan，D.，黄伟，杨杰，曹玉，乔，Y.：使用深度神经网络进行无监督多光谱特征学习的行人检测。Inf. Fusion46，2064. Chen，D.，中国农业科学院，Zhang，S.，（1991），中国农业科学院，Ouyang，W.，杨杰，Schiele，B.：用于人员搜索的分层在线在：AAAI。pp. 105185. Chen，D.，中国农业科学院，Zhang，S.，（1991），中国农业科学院，Ouyang，W.，杨杰，Tai，Y.：通过掩码引导的双流CNN模型进行人员搜索。In：ECCV（7）.第11211卷，第11211页。7646. Chen，D.，中国农业科学院，Zhang，S.，（1991），中国农业科学院，杨杰，Schiele，B.：Norm-aware嵌入用于高效的人物搜索。在：CVPR。pp.126127. 陈玉，Zhu，X.，龚，S.：基于实例引导的跨域人物再识别上下文渲染。In：ICCV. pp. 2328. 陈玉，李伟，萨卡拉角，Dai，D.，Gool，L.V.：域自适应更快的R-CNN用于野外目标检测。在：CVPR。pp. 33399. 邓，J.，Dong，W.，Socher河，Li，L.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。在：CVPR。pp. 24810. Deng，W.，郑湖，叶，Q.，Kang，G.，杨，Y.，Jiao，J.：图像-图像域自适应与保持自相似性和域相异性的人重新识别。在：CVPR。pp. 99411. Devaguptapu 角， Akolekar ， N. ， Sharma ， M.M. ， Balasubramanian ，V.N.：从任何地方借用：热成像中的伪多模态目标检测。在：CVPR研讨会。pp. 102912. Dong，W.，张志，宋，C.，Tan，T.：双向互动网络的人员搜索。在：CVPR。pp. 283613. Dong，W.，张志，宋，C.，Tan，T.：用于人员搜索的实例引导建议网络。在：CVPR。pp. 258214. Ester，M.，Kriegel，H.，Sander，J.，Xu，X.：一种基于密度的含噪声大型空间数据库聚类发现算法在：KDD. pp. 22615. 傅，Y.，魏，Y.，Wang，G.，Zhou，Y.，（1996年），中国科学院，施，H.，Huang，T.S.：自相似分组：一种简单的无监督跨域自适应方法，用于人员重新识别。In：ICCV. pp. 611116. Ganin，Y.，Lempitsky，V.S.：通过反向传播的无监督域自适应In：ICML.JMLR研讨会和会议记录，第一卷。37，pp.1180-1189（2015）17. Ge，Y.，Zhu，F.，Chen，D.，中国农业科学院，Zhao，R.，Li，H.：自步调对比学习与混合记忆域自适应对象re-id。在：NeurIPS（2020）18. Girshick，R.B.，Iandola，F.N.，Darrell，T.，Malik，J.：可变形零件模型是卷积神经网络。在：CVPR。pp. 43719. 古德费洛，I.J.，Pouget-Abadie，J.，米尔扎，M.，Xu，B.，Warde-Farley，D.，Ozair，S.，南卡罗来纳州科维尔Bengio，Y.：生成对抗网。在：NIPS。pp.第2672-2680号决议（2014年）20. 汉，C.，Su，K.，Yu，D.，袁，Z.，高氏C.，Sang，N.，杨，Y.，Wang，C. ：基于区域连体网络的弱监督人物搜索 In ： ICCV.pp. 12006-12015（2021）+v：mala2255获取更多论文16 J. Li等人。21. 汉，C.，是的，J，Zhong，Y.，中国农业大学出版社，谭，X.，张，C.，高氏C.，Sang，N.：Re-id驱动的人员搜索本地化细化。In：ICCV. pp. 2019年9月13日22. 他，K.，张，X.，Ren，S.，Sun，J.：深度残差学习用于图像识别。在：CVPR。pp. 77023. Kang，G.，江，L.杨，Y.，Hauptmann，A.G.：用于无监督域自适应的对比自适应网络。在：CVPR。pp. 489324. Khodabandeh，M.，Vahdat，A.，Ranjbar，M.，Macready，W.G.：强大的学习域自适应目标检测方法。In：ICCV. pp. 48025. 库马尔议员Packer，B.，科勒，D.：潜变量模型的自定进度学习。在：NIPS。pp. 118926. Li，Z.，Miao，D.：用于高效人员搜索的顺序端到端网络于：AAAI。pp. 201127. Lin，C.：使用多模态结构一致的图像到图像转换的道路上目标检测的跨域自适应。In：ICIP.pp. 302928. 刘，C.，张，X.，Shen，Y.：统一风格的人员重新识别转移于：CVPR。pp. 688629. 刘洪，冯杰，杰，Z.，Karlekar，J.，Zhao，B.，Qi，M.，姜杰，Yan，S.：神经人搜索机器。In：ICCV. pp. 49330. Munjal，B.，Amin，S.，Tombari，F.，加拉索，F.：查询引导的端到端人员搜索在：CVPR。pp. 81131. Saito，K.，Ushiku，Y.，Harada，T.，Saenko，K.：自适应目标检测的强弱分布对齐。在：CVPR。pp. 695632. 松湖，加-地Wang，C.，中国地质大学，张，L.，杜，B.，张，Q，Huang，C.，Wang，X.：不超级-域自适应再识别：理论与实践。模式识别。102，107173（2020）33. Tzeng，E.，霍夫曼，J.，Saenko，K.，达雷尔，T.：对抗性判别域自适应。在：CVPR。pp. 296234. Wang，C.，中国地质大学，妈妈，B.，张，H.，Shan，S.，Chen，X.：TCTS：任务一致的两个-用于人员搜索阶段框架在：CVPR。pp. 1194935. Wang，D.，中国科学院，Zhang，S.：通过多标签分类的无监督人员重新识别。在：CVPR。pp. 1097836. 王，M.，Deng，W.：深度视觉域适应：一项调查。神经计算312，13537. 王，T.，张，X.，Yuan，L.

下载后可阅读完整内容，剩余1页未读，立即下载