三阶段的增强型Transformer用于人员搜索的CAS方法

93 浏览量更新于2023-10-16 收藏 3.29MB PDF 举报

计算机视觉

性能优化

身份认证购VIP最低享 7 折!

30元优惠券

c2s2_125252c5s2_109902c3s2_0115126_c3s2_128444c5s2_128699c6s2_103368c4s4_0696161SAT：用于人员搜索的Mustansar Fiaz，Hisham Cholakkal，Rao Muhammad Anwer，Fahad ShahbazKhan计算机视觉系，穆罕默德·本·扎耶德人工智能大学，阿布扎比，阿联酋。（mustansar.fiaz，hisham.cholakkal，rao.anwer，fahad.khan）@ mbzuai.ac.ae摘要人物搜索是一个具有挑战性的计算机视觉问题，其目标是从多个摄像机捕获的整个场景图像库中同时检测和重新识别目标人物。在这里，与潜在的检测和重新识别任务相关的挑战需要与这两个任务的联合优化一起解决在本文中，我们提出了一个三阶段的cas-caded规模增强的Transformer（SAT）的人搜索框架。在我们的SAT框架的三阶段设计考虑到检测和重新识别的矛盾性质，在最后两个阶段，我们为这两个任务引入单独的范数特征嵌入，以调和它们之间的关系，在一个联合的人搜索模型。我们的SAT框架受益于卷积神经网络和变压器的属性，在每个阶段中引入这里，卷积编码器增加了模型的通用化能力，而尺度调制器以不同的粒度级别执行上下文聚合，以帮助处理感兴趣区域内的姿势/尺度变化。为了进一步提高性能dur- ing闭塞，我们应用移位扩增操作在每个粒度级别内的规模调制器。挑战CUHK-SYSU [35]和PRW的实验结果[47]数据集证明了我们的方法相比，国家的最先进的方法的良好性能我们的源代码和训练模型可以在这个https URL上找到。1. 介绍人员搜索[35]是一个有前途和具有挑战性的研究领域，它在真实世界场景帧的图库中定位和区分特定查询人员个人搜索问题可以被识别为一个统一的系统，其中两个孤立的目标（即，[2019 - 03 - 15][2019 - 03 -15][2019 - 03][2019 - 03 - 15][2019 - 03]比例变化姿势变化遮挡图1.人物搜索问题中的三大挑战，如尺度变化，姿势变化和遮挡。一起形成的。人物搜索是一个高度复杂的问题，因为人物检测和重新识别的挑战以及这些子任务的联合优化。在现实世界场景中，人员搜索算法必须从复杂场景（诸如姿势/视图变化、外观变化、尺度变化、遮挡或背景杂波）中定位和识别目标人员。各种致力于人搜索问题的努力可以大致分为两步[6，12，24]和一步[27，29，7]方法。在两步方法中，检测和重新识别（ReID）任务被解耦并顺序执行。行人首先用现成的检测器定位，然后输入到ReID网络中，以从裁剪的人补丁中识别行人。尽管这些方法的结果很有希望，但它们缺乏计算效率。相比之下，一步式方法使用单个网络统一了人员检测和重新识别。这种方法[7，26]通过采用额外的ReID损失来进行个人身份识别，扩展了两阶段检测器，例如Faster-RCNN。尽管如此，在以下讨论的三个主要问题上仍然缺乏上述办法• 人物搜索问题主要解决人物检测和人物重新识别之间的冲突[7，6]。检测的目标是使用共享特征嵌入将人从背景中分类出来，而ReID则区分人的身份。 Chen 等人。 [7] 引入了 Norm-AwareEmbedding（NAE）来分解48204821特征嵌入，在极坐标系中，为径向规范和角度的检测和ReID任务重新定位。后来，这种策略被用于各种作品[7，26，42，17]。然而，NAE的参数仍然在检测和ReID子任务之间共享，导致次优解决方案。• 一个人可以经历比例和姿势的变化，如图所示。1在一个具有挑战性的场景中，这增加了人物身份的复杂性。为了应对这些挑战，已经进行了各种尝试，使用特征pyramid或可变形卷积[38，7，46]然而，特征融合可能会增加背景噪声，导致ReID性能较差。• 此外，外观变形和闭塞，如图所示1，可能恶化感兴趣区域（ROI）特征质量，虽然，大多数以前的工作取得了提高的准确性，他们是在失败的分布，由于人的整体外观表示在一步[33，26]或两步的方法[38]。为了克服上述挑战，我们提出了一种混合上下文聚合器，将CNN和ViT的优点融合到级联的端到端人员搜索方法中。我们利用粗到细的策略，就像级联RCNN一样[1]以提高不同阶段的检测和再鉴定质量。在第一阶段中，我们在没有身份歧视的情况下对人们进行个人检测和概括。然而，在后面的阶段，我们根据前一阶段的回归估计来改进检测和ReID嵌入具体来说，为了解决第一个挑战，我们通过显式地解耦两个子任务的NAE特征表示来减少人员检测和人员ReID之间的矛盾目标。这种解耦的NAE特征表示减少了彼此的依赖性，并提高了检测以及身份相似性置信度。其次，我们提出了一个规模增强的Transformer（SAT）网络在每个阶段，以处理不同的规模/姿态的变化和闭塞。SAT网络将基本特征传递到卷积编码器中以增加泛化[36]，然后传递到Transformer以捕获全局级别的实例信息。具体地，卷积编码器的输出被分成两部分。我们在半组特征上应用不同粒度级别的深度卷积，并最终将调制特征融合到剩余的半组特征中。第三，为了应对外观变形和遮挡，我们将特征拆分，并通过在每个子特征上切换操作来在未对齐的标记处应用不同的增强。稍后，这些子特征在混合后通过深度卷积进行融合。实验-分类0输入主干Conv区域提案网络盒子0Class1RoIAlign第一阶段SATBox1NAEReID1RoIAlign第二阶段SATNAEClass2Box2NAEReID2RoIAlign第三阶段SATNAEClass3Box3图2.我们提出的级联人员搜索框架。输入被传递到主干网络以产生主干特征。使用Conv层将这些特征传递给RPN。骨干特征连同边界框也被转发到不同的阶段以获得RoIAlign池化特征。所有阶段都从前一阶段边界框估计中获取边界框，但第一阶段除外，第一阶段从RPN中获取边界框。RoIAlign池化特征在阶段1、阶段2和阶段3被馈送到所提出的SAT网络。所有三个阶段都通过类和盒头进行了优化，而阶段2和阶段3则通过额外的ReID头进行了优化。此外，通过为两个任务引入单独的NAE，检测和ReID任务在阶段2和阶段3被解耦。对PRW [47]和CUHK-SYSU [35]数据集的tal研究显示了所提出的PS系统的优越性。1.1. 出资额：• 我们显式地解耦检测和ReID之间的范数感知表示，这导致更高的检测置信度和更多的身份相似性。• 我们提出了一个上下文聚合器块，以利用CNN和变压器的优点进行人员搜索。• 为了处理尺度/姿态变化，我们提出了一个尺度感知网络，隐式地聚合来自不同尺度的每个ROI内的尺度信息。• 为了处理ROI内的遮挡/变形，我们通过移位和混合操作在未对齐的标记处采用不同的增强。• 在两个数据集上进行的大量实验表明，与现有方法相比，该方法具有很2. 相关工作2.1. 人检索人员重新识别已经在该领域取得了巨大的成就[40，37，34]，其中查询人员是4822与被裁剪的人物图片库相匹配。然而，将ReID问题应用到实际应用中还存在一个研究空白。因此，引入人员搜索，目的是从场景的全分辨率图像集合中定位和识别查询人员[35]。以往的工作可以大致分为两步和一步模型。在两步模型中，目标个体检测和重新识别以顺序方式独立执行[12，18，24，33]。例如，Wang等人[33]介绍了TCTS方法来处理检测与ReID之间的不一致关系。Lan等人。[24]提出了一种用于人员重新识别的多尺度特征金字塔。相比之下，一步模型在联合框架中进行检测和ReID，这使得它们更高效和有效[7，38]。自从引入Faster RCNN [32]以来，已经提出了许多单步人员搜索[7，11，26，17，5，29]。Chen等人。[7]使用norm-aware嵌入来分离用于检测和reID的人物嵌入。Munjal等人[29]使用了一个查询引导的连体挤压和激励块来利用人和画廊图像之间的关系。Dong等人。[11]提出了一种BINet，它将整个图像和裁剪的图像都带入Siamese网络，以实现更好的人物特征表示学习。Yan等人[38]介绍了一个无锚人物搜索框架。最近，Li和Miao [26]提出了一种SeqNet，它以顺序的方式使用两个更快的RCNN网络进行检测和ReID。虽然这些方法提供了令人满意的结果，但它们从检测和重新识别之间的冲突目标出发，并且共享相同的范数特征嵌入。相反，我们为两个子任务引入了一个单独的范数特征嵌入，以进一步释放冲突嵌入。此外，我们利用级联的方法来完善ROI池功能在多个阶段。2.2. 基于Transformer的方法自从用于图像识别任务的ViT模型[14]出现以来，它被用于几个计算机视觉应用，包括人员重新识别[34，25，43]。Wang等人[34]提出的邻居Transformer通过利用相邻特征来获得用于人重新识别的鲁棒表示。Zhang等人[43]使用提出了一种基于Transformer的特征校正方法，以底层特征信息作为全局先验信息，实现了个体的重新识别Li等人[25]提出了一种通过使用部分感知的Transformer来处理人ReID的遮挡的部分发现技术。最近，PSTR [2]和COAT[42]在人员搜索管道中引入了transformers。PSTR基于DETR [4]框架，该框架利用编码器-解码器架构进行检测，并利用解码器进行重新识别。另一方面，COAT[42]是基于级联RCNN [1]来学习区分性粗-到多个阶段的精细表示。它使用显式多尺度卷积变换器来处理每一阶段的尺度相反，我们提出了一个用于人员搜索的上下文聚合器，以受益于 CNN 和transformers的内在属性。我们提出了一个隐式的变压器为基础的架构，在每个阶段的规模变化的照顾此外，与COAT相比，我们在不同的未对齐标记处使用不同的增强技术，通过移位和混合操作来合成地减轻遮挡。3. 方法3.1. 整体架构所提出的具有三个阶段的个人搜索框架的总体架构在图1中示出。2.由于人员搜索在检测和ReID之间具有冲突的目标，因此我们为这两个子任务引入了单独的规范感知特征此外，我们的设计在每个阶段引入了一个混合上下文聚合器，以受益于CNN和转换器的继承特性。考虑到模型性能可能会由于尺度/姿态变化以及遮挡而恶化，我们提出了尺度增强的Transformer来在多个阶段连续地细化我们使用ResNet-50 [20]主干网络来生成1024个主干特征图，并将其传递到每个阶段。在第一阶段，我们从区域提案网络（RPN）获得提案[32]。此外，第一阶段通过使用检测和回归头来优化，而最后两个阶段通过基于前一阶段的回归估计采用检测、回归和重新识别头3.2. 解耦检测和ReID嵌入在基于快速RCNN的人物搜索框架中，检测的目标是对目标对象和背景进行类间区分，而ReID则负责类内区分以识别特定人物。这种方法遭受使用相同骨干网络的检测和ReID之间的冲突目标。因此，为了缓解上述冲突，我们明确地将ReID和检测的Norm-AwareEmbedding（NAE）表示具体来说，我们引入了一个独立的NAE表示检测以及ReID之间的关系，调和检测和ReID。3.3. 规模扩大的Transformer由于人可能在场景中经历若干比例和姿势为此，我们提出了一个混合上下文聚合器的人搜索称为规模-4823F∈ RM∈ RF∈ RF∈RM∈ R图3. (a)提出的规模增强型Transformer（SAT）网络的总体架构。它包括卷积编码器，两个范数层，两个线性层，尺度调制器（SM）和MLP块。我们的设计重点是利用CNN和Transformer。将输入的RoI池化特征馈送到卷积编码器以提高泛化和区分能力。卷积编码器的输出被传递到范数层，然后是线性层，并且是按信道划分的。半组特征¯h×w×c′被馈送到尺度调制器（c），以学习对象在各种粒度级别上的局部区域。比例调制器输入用深度方向卷积实现，并向前扩展混合（d）。在这里，我们将特征拆分，并通过在每个子特征上进行移位操作，在未对齐的令牌上应用不同的稍后，这些子特征在混合后通过深度卷积进行融合。在不同粒度级别上的扩增混合的输出与全局信息一起被收集并被融合，传递到modulato r。最后，将比例调制器的输出与另一半特征集融合，h×w×c<$并传递到线性层. 输出与卷积编码器的输出相加，并馈送到范数层，然后是mlp块。增强型Transformer（SAT），其由卷积编码器块、两个线性层、两个归一化层、缩放调制器（SM）块和MLP块组成。所提出的混合SAT网络力求明确地结合CNN的力量来捕获局部特征，以及Transformer来封装远程依赖性。受[22]的启发，我们在提出的SAT网络之前包括一个卷积卷积编码器的框图如图3-（b）所示。此外，由于深度卷积的固有特性，它降低了对传统位置嵌入层（称为ViTs中的标记化）的要求[13]，可以将其视为条件位置嵌入[9]。为此，使用两个卷积层和它们之间的归一化层来增强RoI输入特征，以获得所需的维度特征h×w ×c，它们被馈送到卷积编码器块fol。分为范数层和线性层。线性输出层在通道方向上分成两半。一个半功能集<$h×w×c被传递到尺度调制器，以学习不同粒度级别的人的尺度。尺度调制器根据经验充当持久网络，以明确的方式在各种尺度下的对象的局部区域之间对姿态和尺度变化进行编码。比例调制器的输出特性以及相同的另一半h×w×c连接并形成线性层。该输出使用跳过连接与卷积编码器块的输出融合。因此，如图3-（a）所示，使用范数层和MLP块来采用逐通道混合。最后将SAT网络的输出线性变换为期望维数。请注意，在SAT网络外部存在剩余连接。最终，在全局平均池化（GAP）之后，特征被转发到各个头中，即，回归因子、NAE检测和NAE ReID。（一）规模扩大的Transformer（b）第（1）款卷积编码器身份（c）第（1）款比例调制器（d）其他事项增强混音DWConv1x1增强混音DWConv1x1DWConv3x3增强混音Z完毕ConcatDWConv1x1DWConv5x5增强混音全球汇总信息SMConv. 编码器线性图层规范线性频道分散调制器线性图层规范MLP频道分散BNDW-Conv3x3SEConv1x14824查询/489/26/query查询/876/1822/query查询/617/621/queryQuery/916/2000/queryF∈ R3.4. 比例调制为了学习/编码ROI内查询人的比例和姿势变化，我们引入了如图3-（c）所示的比例调制器（SM）。Yu等人。[42]明确地首先利用具有不同内核的卷积层来获得不同尺度的特征，然后传递到变换器。虽然这种方法返回令人满意的结果，但由于图库图像中的不同变化，每个特征通道不能有效地处理尺度，这可能产生次优的解决方案。相比之下，我们特意提出了一个隐式规模调制器，利用调制操作的好处所提出的方法的另一个优点是，通道混合只需要一次所有的尺度，而不是应用于每个尺度，这也降低了模型的计算复杂度。特征<$h×w×c<$由线性层实现，并通过三个不同的内核进行深度卷积，以三个不同的尺度显示特征这些特征被传递到增强混合（在下一节3.5中讨论）。不同尺度的增强混合特征以及全局池化信息被融合并发送到由卷积层强制的调制器。3.5. 增强混音为了处理ROI中的外观变形，He et al.[21]打乱可能包含多个人的不同部分的人物部分。另一方面，Yu等人。[42]，在一个小批量中交换人的部分令牌，这可能会学习不同实例的不准确的部分信息相比之下，我们引入了一种专门的增强混合技术来学习鲁棒的表示对外观变形/遮挡和错位内的ROI。我们将输入特征分为通道并执行移位增强。准确地说，我们首先在特定方向上（例如，在左侧）填充零向量，在该方向上执行单个移位操作，并在相反方向上移除从右侧）以获得相同大小的特征图。类似地，我们在所有四个方向上执行这种移位增强。这些增强的特征使用深度卷积混合，并使用级联操作融合，如图3-（d）所示请注意，在增强混合中存在残余连接，从而产生针对部分遮挡的鲁棒表示4. 实验为了验证所提出的方法的有效性，我们评估我们的方法在两个著名的数据集PRW[47][35]《论语》：“以礼待人，以礼待人。以下部分讨论数据集、度量和实验细节。毛皮-姿态变化尺度变化闭塞图4.COAT [42]和我们的方法在三个不同的挑战性场景中的定性比较对于所有情况，我们的方法都显示了正确的top-1匹配结果。橙色、红色和绿色分别表示查询、失败和正确此外，性能比较与国家的最先进的（SOTA）在这些数据集上。最后，进行了消融研究，以支持所提出的算法的效力4.1. 数据集和设置4.1.1中大中大CUHK-SYSU [35]是一个大规模的人物搜索数据集，其中包含异构的现实世界的挑战，如照明变化，规模变化，姿势变化，分辨率，遮挡和不同的背景。总共有18，184张图像，其中96，143张是带有8，432个不同身份的注释行人。数据集采用标准的训练集和测试集。训练集包含5，532个身份和6，978个帧，而测试集包含2，900个查询人和6，978个帧。此外，该数据集提供了从50到4，000的图库大小范围，以报告模型的可扩展性。除非另有说明，否则我们报告标准图库大小为100的结果。4.1.2PRWPRW数据集[47]是在一所大学中使用六台静态相机采集的它包含总共11，816张图像，其中43，110个手动注释的边界框，其中34，304个被标记为具有932个身份的人，其余框被标记为未知身份。数据集被分成训练集和测试集。训练集包含5，704个图像，具有482个身份，测试集具有2，057个查询人，在6，112帧的图库中搜索因此，图库集明显大于CUHK-SYSU数据集。4.1.3评估协议我们遵循传统的协议来评估人的搜索，包括平均精度（mAP）和前1名。为了计算检测性能，我们还使用了平均精度（AP）和召回率。查询外套我们查询外套我们查询外套我们4825查询/218127/452/查询s18094s18060.jpg查询/218127/452/querys18094s15087.jpgs18060.jpg查询/218127/452/queryPrw/guery/92 7/2038s18094Prw/q uery/894/1901s15087.jpg500/72查询我们查询我们查询查询查询查询查询查询图5.对CUHK-SYSU [35]（上2行）和PRW [47]（下一行）数据集进行定性分析。我们显示了不同查询人的前两个匹配结果。我们的方法正确地检测和识别不同的室内和室外场景下的查询人。图6.PRW [47]数据集上的失败案例我们表明，我们的方法不正确地确定查询人严重闭塞。4.1.4实现细节我们使用ResNet-50 [20]在ImageNet数据集上训练的骨干网络该方法使用PyTorch [31]库在Python 我们采用COAT[42]作为我们的基线网络，使用三级级联框架，并在每个阶段提取128个检测建议。与基于更快RCNN [32]的方法类似，我们将宽度w和高度h设置为14 [7，26]。我们设置了门槛-95 9590 9085 8580 80我们TCTSRDLR75里昂证券MGTS分别为0.5、0.6和0.7，用于三个阶段的检测，活泼地此外，类似于COAT [42]，我们包括一个7050100500 1000 2000 4000图库大小7050100500 1000 2000 4000图库大小仅在第二和第三阶段用于身份监督的附加交叉熵损失该网络使用SGD优化器进行训练初始学习率被设置为0.003，在第一个时期预热，并在第10个时期降低。此外，在推理过程中，我们使用NMS，在三个连续的阶段分别使用0.4、0.4和0.5的阈值来消除冗余的边界盒。4.2. 与最新方法的在本节中，我们将我们的方法与表2中的两步和一步最先进的方法进行比较。图7.中大-中山大学不同画廊规模的性能比较虚线表示与两步和一步方法相比具有一致的更好性能，表示我们的方法。4.2.1与中大-中山大学数据集的使用图库大小为100的CUHK-SYSU数据集进行了性能比较。在两步法中，TCTS[33]表现最好，93.9%的mAP和95.1%的前1分。另一方面，AlignPS+ [38]和COAT [42]在一步法中表现更好，mAP评分分别为94.0%和94.2%。相比之下，我们的方法在mAP 94.4%和94.8%的top-1方面表现出色。相比我们的COATPSTRAlignPS+DKDNAE+CTXGOIM地图地图4826×最近引入的具有强对象检测器的PSTR [2]实现了93.5%的mAP，我们的方法在mAP方面超过了，并且使用top-1证明了可比较的结果。我们进一步在CUHK-SYSU数据集上进行实验，画廊设置从50到4000，由于更复杂的场景，如比例/姿态变化和遮挡，这增加了画廊的复杂性图7表明，与现有的两步以及一步方法相比，我们的方法在不同的图库大小上始终实现更好的准确性。虽然基于Transformer的COAT和PSTR以及基于CNN的AlignPS+和DKD表现出类似的性能，但我们的方法由混合上下文聚合器组成，在不同的图库集上表现出一致的性能改善。这证明了所提出的方法能够有效地处理大型图库集的尺度4.2.2PRW数据集与CUHK-SYSU数据集相比，PRW数据集具有较大的图库大小，可用的训练数据较少。因此，PRW数据集更具挑战性。在现有的两步方法中，我们的方法超过了表现最好的MGN+OR [39]和TCTS [33]，并实现了54.5%mAP和87.5%top-1。在一步SOTA，部分分类的AGWF [17]与最近引入的具有更强DETR对象检测器的PSTR [2]相比，我们的方法实现了5.0%的显著增益[4]。在top-1方面，我们的方法达到了87.5%，与PSTR[2]和AGWF [17]相当。4.2.3定性绩效我们首先在PRW数据集上将我们的方法与COAT[42]进行定性图4显示了我们的方法在各种具有挑战性的场景中成功地检测和识别了查询人。我们的方法表现出性能的改善，由于解耦NAE，混合上下文aggrer- gator和隐式规模增强Transformer处理规模/姿态变化。我们在图5中展示了CUHK-SYSU和PRW数据集的定性结果。这表明，我们的方法可以正确定位和识别查询人在具有挑战性的场景。我们还在图6中展示4.2.4效率比较在这里，我们评估不同的人搜索方法的效率在不同GPU上评估方法的情况下，很难进行公平的比较。因此，我们展示了每秒万亿次浮点运算表1.PRW数据集上的人员搜索方法的速度与准确性比较时间以毫秒为单位。方法GPU（TFLOPs）地图时间（ms）MGS [6]K800（4.1）32.61269[29]第二十九话P6000（12.6）37.1300DKD [45]1050钛（11.3）50.5124NAE [7]V100（14.1）43.383NAE+[7]V100（14.1）44.098SeqNet [26]V100（14.1）46.786AlignPS[38]V100（14.1）45.961PSTR [2]V100（14.1）49.556[42]第四十二话V100（14.1）53.390我们V100（14.1）54.5105表2.使用mAP和top-1准确度对CUHK和PRW测试集进行最先进的比较。与两步和一步最先进的方法相比，我们的SAT表现更好。方法中大中大PRW地图top-1地图top-1两步里昂证券[24]87.288.538.765.0[第12话]90.391.442.970.2RDLR [18]93.094.242.970.2MGS [6]83.083.732.672.1MGN+OR [39]93.293.852.371.5TCTS [33]93.995.146.887.5End-to-endOIM [35]75.578.721.349.9[29]第二十九话88.989.137.176.7HOIM [5]89.790.839.880.4BINet [11]90.090.745.381.7[23]第二十三话92.394.744.285.2DKD [45]93.194.250.587.1APNet [48]88.989.341.281.4[19]第十九话93.294.246.983.3[16]第十六话81.183.241.786.0ACCE [8]93.994.746.286.1AlignPS [38]93.193.445.981.9AlignPS +[38]94.094.546.185.8NAE [7]91.592.443.380.9NAE+[7]92.194.744.081.1[第17话]93.394.253.387.7SeqNet [26]93.894.646.783.4PSTR [2]93.595.049.587.8[42]第四十二话94.294.753.387.4[26]第26话：我的世界93.694.246.885.8AlignPS + [38] + CBGM [26]94.294.346.985.7[26]第二十六话94.895.747.687.6PSTR [2] + CBGM [26]--50.189.2[26]第二十六话94.895.254.089.1我们的（SAT）94.494.854.587.5Ours（SAT）+ CBGM [26]95.396.055.089.2对于每个GPU的ond（TFLOPs）为了与其他方法保持一致从表1中，我们看到我们的方法比实时MGTS和QEEPS方法快2倍。虽然我们的方法与新引入的PSTR和COAT方法相比速度稍慢，但它在mAP中实现了5.0%和1.3%的绝对增益。它还揭示了现实世界应用的潜力。4.3. 消融研究我们提出了一个广泛的消融研究PRW数据集，以验证我们的方法的有效性表3显示了4827∗表3.通过逐渐将我们的新贡献添加到基线，对PRW数据集进行消融研究虽然将我们的SAT网络添加到每个阶段而不使用卷积嵌入，但它增加了mAP，但减少了top-1。在SAT网络中加入卷积编码器，既可以利用CNN的固有特性，又可以利用Transformer的特性，从而得到最优解。表5. PRW数据集上不同上下文聚合器的比较。Res5Conv. 编码器Transformer地图Top-1✓--51.8085.27✓-53.3786.44---✓53.8485.51-✓✓54.4587.52召回（检测）NAESeqNet外套我们NAE*SeqNet*外套 *我们的*88.893.396.394.993.17100100100100表4.我们的SAT在PRW上的不同变体的比较AP（检测）八点九83.4 87.493.992.695.5100100100100数据集。在每一阶段引入SAT网络，可获得最佳性能。top-1（ReID）43.346.7五十三点三87.5284.485.18888.2mAP（ReID）46.947.954.4554.7我们对基线的增量贡献的表现。我们用res5块替换建议的SAT网络，以制定我们的基线，如[26，7]中的每个阶段。我们的基线提供了50.96%的mAP和85.56%的top-1。如前所述，首先，我们将检测和ReID NAE表示解耦以释放它们之间的冲突，它将ReID分数在mAP方面增加0.84%，并将检测分数在AP方面增加0.77%。之后，我们包括我们的尺度调制网络（不包括增强混合），它利用了不同粒度级别的尺度调制的好处。这将ReID性能提高到53.15% mAP和86.19% top-1。随后，我们引入了我们的尺度调制内的增强混合，导致总体mAP为53.84%，但它将top-1降低到85.51%。最后，为了进一步完善，我们引入了卷积编码器的规模调制器。这使得使用ReID mAP的性能提高了54.45%，使用top-1的性能提高了87.52%。阶段比较：我们进一步评估了我们在PRW数据集上不同阶段的贡献的有效性首先，我们用建议的卷积编码器代替 res 5 ，这导致性能提高了 53.37% 的 mAP 和86.44%的top-1。稍后，我们在多个阶段用我们提出的SAT替换卷积编码器。我们观察到，在所有阶段中包括 SAT 网络会产生最佳解决方案，其中 mAP 为54.45%，top-1为87.52%。上下文聚合器的分析我们在PRW上验证了所提出的混合上下文聚合器的有效性五十五点七一0 20 40 60 80 100图8.PRW数据集上的人员搜索和检测分数，有和没有地面实况检测框。使用地面实况框显示结果。53.84%的mAP和85.51%的top-1。最后，我们将卷积编码器与尺度增强的Transformer相结合，形成一个混合上下文聚合器，产生最好的54.45%的mAP和87.52%的top-1。这表明混合上下文聚合器受益于卷积编码器和变换器，从而提高了性能。检测与ReID之间的关系：在图8中，我们进一步验证了我们的方法处理检测和ReID目标的效力。我们比较了我们的方法，使用从模型预测的检测以及从地面实况的目标框。在更快的基于RCNN的方法中，如COAT[42]，SeqNet [26]和NAE [7]，我们的方法在有和没有地面实况框的情况下表现出一致的性能增益。5. 结论我们开发了一种称为SAT的三级级联人员搜索由粗到细的方式。我们的方法通过为两个子任务引入独立的特征嵌入来适应检测和重新识别之间的矛盾关系。此外，我们设计的枢轴共同受益于CNN和变压器的特性。提出的SAT网络采用卷积编码器，以提高模型的泛化能力。它以不同的粒度级别聚合功能，数据集。在表5中，第一行表示具有解耦NAE的基线方法，其中我们将res5放置在所有三个阶段。用建议的卷积编码器替换res 5导致性能提高了53.37%mAP和86.44%top-1。稍后，我们将res5替换为所提出的扩展规模的Transformer，这将导致处理ROI内的不同尺度变化，以及通过移位操作在未对准的标记处应用不同的增强以解决遮挡。在两个基准数据集上进行的大量实验证明了我们的新贡献和最先进性能的融合。方法里德检测地图top-1召回AP基线50.9685.5695.5192.62基线+去耦NAE51.8085.2793.2393.39基线+去耦NAE +比例调制器53.1586.1995.4693.09基线+去耦NAE+比例调制器+增强混频53.8485.5195.3893.02坐54.4587.5295.5093.17Stage1Stage2阶段3地图Top-1Res5Res5Res551.8085.27Conv. 编码器Conv. 编码器Conv. 编码器53.3786.44Conv. 编码器Conv. 编码器坐53.6386.56Conv. 编码器坐坐54.0386.78坐坐坐54.4587.524828引用[1] 赵伟蔡和努诺·瓦斯康塞洛斯。级联r-cnn：深入研究高质量的目标检测。在IEEE计算机视觉和模式识别会议论文集，第6154-6162页[2] Jiale Cao ， Yanwei Pang ， Rao Muhammad Anwer ，Hisham Cholakkal，Jin Xie，Mubarak Shah，and FahadShahbaz Khan. Pstr：端到端的一步人与变压器搜索。在IEEE/CVF计算机视觉和模式识别会议论文集，第9458-9467页[3] 曹佳乐、庞彦伟、谢晋、法赫德·沙巴兹汗、凌绍。从手工制作到用于行人检测的深度功能：调查。IEEEtransactionsonpatternanalysisandmachineintelligence，2021。[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。欧洲计算机视觉会议，2020年。[5] 帝尘，张珊珊，欧阳万里，杨健，Bernt Schiele。分层在线实例匹配的个性化搜索。在AAAI人工智能会议论文集，第34卷，第10518-10525页[6] 帝尘、张珊珊、欧阳万里、杨剑、英台。基于掩码引导的双流cnn模型的人员搜索。Proc.欧洲计算机视觉会议，2018年。[7] 帝尘，张珊珊，杨健，Bernt Schiele。Norm-aware嵌入用于高效的人员搜索。IEEE计算机视觉和模式识别会议，2020年。[8] Shihui Chen，Yuqing Zhuang，and Boxun Li.学习上下文感知嵌入的人搜索。arXiv预印本arXiv：2111.14316，2021。[9] 楚翔翔，田智，张波，王新龙，魏晓林，夏华夏，沈春华.视觉变换器的条件位置编码。arXiv预印本arXiv：2102.10882，2021。[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[11] 董文凯，张兆祥，宋春风，谭铁牛.双向交互网络，用于人员搜索。IEEE计算机视觉和模式识别会议，2020年。[12] 董文凯，张兆祥，宋春风，谭铁牛.用于人员搜索的实例引导建议网络IEEE计算机视觉和模式识别会议，2020年。[13] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。[14] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的变压器 Proc. 2020年学习代表国际会议。[15] Xinqian Gu，Hong Chang，Bingpeng Ma，Shutao Bai，Shiguang Shan，and Xilin Chen.仅以rgb模式重新识别换衣人。在IEEE/CVF计算机视觉和模式识别会议论文集，第1060-1069页[16] 韩秉柱高久贤沈在英用于人物搜索的上下文感知无监督聚类。arXiv预印本arXiv：2110.01341，2021。[17] 韩秉柱高久贤沈在英使用自适应梯度传播的端到端可训练三叉戟搜索网络。在IEEE国际计算机视觉会议集，第925-933页，2021年[18] Chuchu Han、Jiacheng Ye、Yunshan Zhong、Xin Tan、Chi Zhang、Changxin Gao和Nong Sang。用于人员搜索的Re-id驱动的本地化细化。Proc. IEEE InternationalConference on Computer Vision，2019。[19] 韩楚楚、郑哲东、高长信、桑农、杨毅。去耦和记忆增强网络：一步一个子搜索的有效特征学习。 Proc. 2021年AAAI人工智能会议。[20] Kaiming He，Xia

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

三阶段的增强型Transformer用于人员搜索的CAS方法

TransUnet-transformer 用于语义分割-二分类

Swin Transformer 实现图像分类

transformer用于异常检测

图像增强和transformer

swin transformer用于建模

transformer用于缺陷检测

transformer 用于目标检测

transformer用于图像融合

transformer用于目标检测实现过程

vision transformer 用于语义分割

transformer用于文本分类

transformer用于语义分割

transformer用于目标检测

swin transformer用于数据驱动建模

swin transformer可以用于哪些方面

transformer用于心电信号分类

Transformer和二进制分区方法有什么联系

transformer 用于人脸关键点检测

vision transformer 用于图像分割

扩散型Transformer

最新资源