级联遮挡注意力Transformer用于端到端人物搜索

16 浏览量更新于2023-10-25 收藏 18.75MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

72670级联Transformer用于端到端人物搜索0Rui Yu 1, 2 *，Dawei Du 1，Rodney LaLonde 1，Daniel Davila 1，Christopher Funk 1，AnthonyHoogs 1，Brian Clipp 101 Kitware，Inc.，NY＆NC，USA，2 Pennsylvania State University，PA，USA0https://github.com/Kitware/COAT0摘要0人物搜索的目标是从场景图像库中定位目标人物，这是一个极具挑战性的问题，由于尺度变化大、姿态/视角变化和遮挡。在本文中，我们提出了级联遮挡注意力Transformer（COAT）用于端到端人物搜索。我们的三阶段级联设计在第一阶段专注于检测人物，而后续阶段同时逐步改进人物检测和重新识别的表示。在每个阶段，遮挡注意力Transformer应用更严格的交并比阈值，迫使网络学习粗到细的姿态/尺度不变特征。同时，我们计算每个检测的遮挡注意力，以区分感兴趣的人物的标记与其他人或背景。通过这种方式，我们在标记级别上模拟了其他物体遮挡感兴趣的人物的效果。通过全面的实验，我们证明了我们的方法的优势，并在两个基准数据集上实现了最先进的性能。01. 引言0人物搜索旨在从场景图像库中定位特定目标人物，这是一个极其困难的细粒度识别和检索问题。人物搜索系统必须既能够将人物与背景区分开，又能够将身份与其他人区分开。在实际应用中，人物搜索系统必须在各种图像尺寸下检测人物，并在分辨率和视角发生大变化时重新识别人物。为此，现代人物搜索方法，无论是两步法还是一步法（即端到端法），都包括可靠的人物检测和有区分性的特征嵌入学习。两步法[5，10，13，18，30，38]在裁剪的人物补丁上进行人物重新识别（ReID）0* Rui Yu在本文中的工作是在Kitware实习期间完成的。0图1.人物搜索的主要挑战，例如尺度变化、姿态/视角变化和遮挡。相同颜色的框表示相同的ID。为了更好地观看，我们在右下角突出显示了小尺度的个体。0发现一个独立的目标检测器。相比之下，端到端的方法[2，20，32-34，39]在更高效的多任务学习框架中共同解决了检测和ReID子问题。然而，如图1所示，它们仍然面临三个主要挑战：•特征学习在人物检测和ReID之间存在冲突。人物检测旨在学习能够概括人物并将其与背景区分开的特征，而ReID旨在学习不能概括人物但可以区分彼此的特征。以前的工作遵循“ReID优先”[33]或“检测优先”[20]的原则，优先考虑其中一个子任务。然而，在依赖任一策略时，在不同情况下平衡两个子任务的重要性是困难的。0•显著的尺度或姿态变化增加了身份识别的难度；见图1。特征金字塔或可变形卷积[14，18，33]已被用于解决特征学习中的尺度、姿态或视角不匹配。然而，简单的特征融合策略可能会在特征嵌入中引入额外的背景噪声，导致较差的ReID性能。072680图2. 我们提出的用于人物搜索的级联框架。0目前，人物搜索方法主要集中在基于锚点的[20]或无锚点的[33]方法上，对人物的整体外观建模。尽管这些方法提高了人物搜索的准确性，但在复杂的遮挡情况下容易失败。为了应对上述挑战，如图2所示，我们提出了一种新的级联遮挡注意力变换器（COAT）用于端到端的人物搜索。首先，受到级联R-CNN[1]的启发，我们采用三个阶段的粗到细策略来改进人物检测和ReID质量。第一阶段专注于区分人物和背景（检测），但关键是不通过ReID损失来区分人物之间的差异（ReID）。后续阶段包括检测和ReID损失。这种设计改善了检测性能（见第4.3节），因为第一阶段可以在不区分人物的情况下推广到所有人物。随后的阶段同时改进了先前阶段的边界框估计和身份嵌入（见表1）。其次，我们在级联的每个阶段应用多尺度卷积变换器。基础特征图被分割成多个对应不同尺度的切片。变换器的注意力机制鼓励网络学习每个尺度上每个人物的区分性部分的嵌入，有助于克服区域错位的问题。第三，我们使用遮挡注意力机制增强了变换器学习到的特征嵌入，该机制可以合成模拟遮挡。我们随机混合mini-batch中实例的部分标记，并学习每个实例的标记库之间的交叉注意力。这样训练变换器可以区分前景和背景检测提案中的标记。在具有挑战性的CUHK-SYSU [32]和PRW[38]数据集上的实验证明，所提出的网络在端到端方法中表现优异，特别是在PRW数据集的跨摄像头设置方面。贡献：1）据我们所知，我们提出了第一个基于级联变换器的端到端人物搜索框架。这种渐进式设计有效地平衡了人物检测和ReID，并且变换器有助于关注尺度和姿态/视角变化。2）我们通过多尺度变换器中的遮挡注意力机制提高了性能，生成了具有区分性的细粒度遮挡场景中的人物表示。3）在两个数据集上进行的大量实验证明了我们的方法优于现有的人物搜索方法。0在遮挡场景中的人物表示。3）在两个数据集上进行的大量实验证明了我们的方法优于现有的人物搜索方法。02. 相关工作0人物搜索。人物搜索方法可以大致分为两步和端到端方法。两步方法[5, 10, 13, 18, 30]将人物检测器（如Faster R-CNN[27]、RetinaNet [22]或FCOS[28]）和人物ReID模型顺序组合。例如，Wang等人[30]构建了一个人物搜索系统，包括一个以身份为导向的查询检测器，后面跟着一个适应检测结果的ReID模型。另一方面，端到端方法[6, 20, 32,33]将这两个模型集成到一个统一的框架中，以提高效率。Chen等人[6]共享检测和ReID特征，但将它们分解为径向规范和角度的极坐标系。Yan等人[33]提出了第一个无锚点的人物搜索方法，解决了不同层次（即尺度、区域和任务）的错位问题。最近，Li和Miao[20]共享了人物检测和ReID的干部表示，但通过两个独立的网络依次解决了这两个子任务。相比之下，受到级联R-CNN[1]的启发，我们的方法采用端到端策略，通过三阶段级联框架逐步平衡人物检测和ReID。人物ReID中的视觉变换器。基于原始的transformer模型[29]用于自然语言处理，VisionTransformer (ViT)[11]是第一个纯transformer网络，用于提取图像识别的特征。CNN广泛应用于提取基础特征，从而减少了纯transformer方法所需的训练数据规模。Luo等人[25]开发了一个空间变换网络，从整体图像中采样一个仿射变换的图像，以匹配部分图像。Li等人[19]提出了部分感知变换器，通过多样化的部分发现进行遮挡人物Re-ID。Zhang等人[36]引入了基于transformer的特征校准，将大规模特征集成为全局先验。我们的论文是第一篇使用多尺度卷积变换器进行人物搜索的文献。它不仅学习了具有区分性的ReID特征，还通过级联流水线将人物与背景区分开来。transformer中的注意机制。注意机制在transformer中起着至关重要的作用。最近，许多ViT变体[3, 16, 21,35]使用各种标记注意力方法计算具有区分性的特征。Chen等人[3]提出了一个双分支transformer，其中包含基于交叉注意力的标记融合模块，用于组合两个尺度的补丁特征。Lin等人[21]在特征图补丁中交替使用注意力进行局部表示，并在单通道特征图上进行全局表示的注意力。Yuan等人[35]引入了标记到标记的过程，用于将大规模特征集成为全局先验。我们的论文是第一篇使用多尺度卷积变换器进行人物搜索的文献。它不仅学习了具有区分性的ReID特征，还通过级联流水线将人物与背景区分开来。transformer中的注意机制。注意机制在transformer中起着至关重要的作用。最近，许多ViT变体[3, 16, 21,35]使用各种标记注意力方法计算具有区分性的特征。Chen等人[3]提出了一个双分支transformer，其中包含基于交叉注意力的标记融合模块，用于组合两个尺度的补丁特征。Lin等人[21]在特征图补丁中交替使用注意力进行局部表示，并在单通道特征图上进行全局表示的注意力。Yuan等人[35]引入了标记到标记的过程，用于将大规模特征集成为全局先验。我们的论文是第一篇使用多尺度卷积变换器进行人物搜索的文献。它不仅学习了具有区分性的ReID特征，还通过级联流水线将人物与背景区分开来。+ 1⌋w+2pk̸72690逐渐将图像标记为令牌，同时保留结构信息。He等人[16]通过移位和补丁洗牌操作重新排列变换器层的补丁嵌入。与这些在实例内重新排列特征的方法不同，所提出的遮挡注意力模块考虑了小批量中正负实例之间的令牌交叉注意力。因此，我们的方法通过合成模拟遮挡来学习区分来自其他对象的令牌。03.级联Transformer0如前面的研究所讨论的[14, 20,33]，人物检测和人物ReID具有相互冲突的目标。因此，在主干网络的顶部很难共同学习用于两个子任务的有区别的统一表示。类似于级联R-CNN[1]，我们将特征学习分解为T个多尺度Transformer的顺序步骤。也就是说，变换器中的每个头逐步改进预测对象的检测和ReID准确性。因此，我们可以逐步学习粗到细的统一嵌入。然而，在其他人、物体或背景的遮挡情况下，网络可能会受到目标身份嘈杂表示的影响。为此，我们在多尺度Transformer中开发了遮挡注意力机制来学习一个抗遮挡的表示。如图2所示，我们的网络基于带有区域提议网络（RPN）的FasterR-CNN目标检测器主干。然而，我们通过引入一系列遮挡注意力Transformer（见图3）来扩展该框架，以端到端的方式进行训练。03.1. 粗到细的嵌入0从ResNet-50[15]主干网络中提取1024维的干细胞特征图后，我们使用RPN生成区域提议。对于每个提议，应用RoI-Align操作[27]来池化一个h ×w区域作为基础特征图F，其中h和w分别表示特征图的高度和宽度，c是通道数。然后，我们采用多阶级级联结构来学习人物检测和ReID的嵌入。RPN的输出提议在第一阶段用于重新采样正负实例。第一阶段的框输出然后被采用作为第二阶段的输入，依此类推。在每个阶段t中，每个提议的池化特征图被发送到该阶段的卷积变换器。为了获得高质量的实例，级联结构逐渐施加更严格的阶段性约束。在实践中，我们逐渐增加交并比（IoU）阈值ut。每个阶段的变换器后面跟着三个头，类似于NAE[6]，包括一个人/背景分类器，一个框回归器，0和一个ReID鉴别器。请注意，在第一阶段我们移除了ReID鉴别器，以便网络在细化之前首先检测场景中的所有人物。03.2. 遮挡注意力Transformer0接下来，我们将介绍遮挡注意力Transformer的详细信息，如图3所示。标记化。给定基础特征图F ∈ Rh × w ×c，我们将其在不同尺度上进行标记化以用于Transformer输入。对于多尺度表示，我们首先将F按通道分割为n个切片，¯F ∈ Rh × w × ˆc，其中ˆc = c0为了处理每个令牌的不同尺度，我们的Transformer与ViT[11]相比，通过一系列卷积层基于切片特征图¯F生成令牌。我们的方法受益于CNN的归纳偏差，并学习CNN的局部空间上下文。不同的尺度通过不同大小的卷积核实现。在将切片特征图¯F转换为R h × w × ˆc之后，我们的方法可以处理不同尺度的令牌。0通过一个卷积层将新的令牌映射 ˆ F ∈ R ˆ h × ˆ w × ˆ c转换为输入令牌 x ∈ R ˆ h ˆ w × ˆ c，其中令牌数量计算如下0N = ˆ h ˆ w d 2 = � h +2 p − k0d 2 ，（1）0其中卷积层的核大小为 k ，步长为 s ，填充为 p 。d是每个令牌的补丁大小。遮挡注意力。为了处理遮挡，我们在transformers中引入了一种新的基于令牌级别的遮挡注意力机制，以模拟真实应用中的遮挡。具体而言，我们首先收集一个小批量中所有检测提议中的令牌，表示为令牌库 X ={x 1 , x 2 , ∙ ∙ ∙ , x P }，其中 P是每个阶段批次中的检测提议数量。由于来自RPN的提议包含正负样本，令牌库由前景人体部分和背景对象组成。我们根据所有实例的相同交换索引集 M在令牌库中交换令牌。如图 3所示，交换的令牌对应于令牌映射中语义一致但随机选择的子区域。每个交换的令牌表示为0x i = {x i ( ¯ M ) , x j ( M ) }，i = 1 , 2 , ∙ ∙ ∙ , P，i � = j，（2）0其中 x j 表示从令牌库中随机选择的另一个样本。¯ M 表示M 的补集，即 x i = x i ( ¯ M ) � x i ( M )。给定交换的令牌库X，我们在它们之间计算多尺度自注意力，如图 3所示。对于每个尺度的令牌，我们运行两个transformers的子层（即多头自注意力（MSA）和前馈网络（FFN），如[29]所示）。具体而言，混合令牌 x 被转换为T72700图 3.遮挡注意力transformer的架构。在一个小批量中，令牌交换的随机选择区域是相同的。为了清晰起见，我们只显示一个小批量中的三个实例和一个尺度的遮挡注意力。最佳查看颜色。0通过三个独立的全连接（FC）层将查询矩阵 Q ∈ R ˆ h ˆ w × ˆc ，键矩阵 K ∈ R ˆ h ˆ w × ˆ c 和值矩阵 V ∈ R ˆ h ˆ w × ˆ c分解为多个矩阵。我们可以进一步计算多头注意力和所有值的加权和，如下所示0MSA(Q, K, V) = softmax(QK T0ˆ c/m ) V ，（3）0将查询、键和值拆分为 m 个头，以增加多样性，即从大小为 ˆ h ˆ w × ˆ c的张量拆分为大小为 ˆ h ˆ w × ˆ c 的 m 个片段0m。然后将独立的注意力输出连接并线性变换为期望的维度。在MSA模块之后，FFN模块对每个令牌进行非线性变换以增强其表示能力。增强的特征然后投影到 ˆ h × ˆ w × ˆ c的大小作为transformer的输出。最后，我们将 n个transformers的输出连接到原始的空间大小 ˆ h × ˆ w ×c上。注意，在每个transformer之外有一个残差连接。在全局平均池化（GAP）层之后，提取的特征被输入到后续的头部进行框回归、人物/背景分类和人物识别。与同时进行的工作的关系。在不同领域中有两个基于ViT的同时进行的工作[3,16]。陈等人[3]开发了一个包括两个独立分支的多尺度transformer，其中包括小补丁和大补丁令牌。基于交叉注意力令牌融合模块学习两个尺度的表示，其中每个分支的单个令牌被视为查询，与其他分支交换信息。相反，我们利用具有不同内核的一系列卷积层生成多尺度令牌。最后，我们将与transformers的特定切片中的每个尺度对应的增强特征图连接起来。0为了处理人员ReID中的遮挡和错位，He等人[16]对人员部分补丁嵌入进行洗牌和重新分组，每个分组包含一个个体实例的多个随机补丁嵌入。相反，我们的方法首先交换mini-batch中实例的部分令牌，然后基于混合令牌计算遮挡注意力。因此，最终的嵌入部分覆盖了目标人员，其中提取的特征来自不同的人员或背景对象，产生更具遮挡鲁棒性的表示。03.3. 训练和推理0在训练阶段，我们对提出的网络进行端到端的人员检测和人员ReID训练。人员检测损失Ldet包括回归和分类损失项。前者是前景框的回归向量的平滑L1损失，用于计算真实框和预测框之间的回归向量。后者计算估计框的预测分类概率的交叉熵损失。为了监督人员ReID，我们使用经典的非参数在线实例匹配（OIM）损失[32]LOIM，它维护一个查找表（LUT）和一个循环队列（CQ），分别用于存储最近小批量中所有标记和未标记身份的特征。我们可以高效地计算小批量样本与LUT/CQ之间的余弦相似度进行嵌入学习。此外，受[24]的启发，我们添加另一个交叉熵损失函数LID来预测人员的身份，以进行额外的ID-wise监督。总之，我们使用以下多阶段损失来训练提出的COAT：0L =0t =1 L t det + I ( t > 1)( λ OIM L t OIM + λ IDL t ID ) , (4)�43.581.2†��47.784.6†�†��48.485.2†��49.585.5��47.284.9�43.378.7†��50.884.9†�†��51.385.5†��53.387.4��50.384.00.50.50.552.586.00.60.60.652.686.20.70.70.751.085.50.50.60.652.686.30.50.60.753.387.472710其中t ∈ {1, 2, ...,T}表示阶段的索引，T是级联阶段的数量。系数λOIM和λID用于平衡OIM和ID损失项。I(t >1)是指示函数，用于指示我们在第一个阶段不考虑人员ReID损失。在推理阶段，我们通过在图3中去除令牌混合步骤，将遮挡注意机制替换为变压器中的经典自注意模块。我们在最后一个阶段输出相应的嵌入的检测边界框，并使用NMS操作去除冗余框。04. 实验0所有实验都在PyTorch中使用一块NVIDIA A100GPU进行。为了与之前的工作进行公平比较，我们使用ResNet-50[15]的前四个残差块（conv1�conv4）作为主干，并将图像调整为900×1500作为输入。04.1. 数据集0我们在两个公开可用的数据集上评估我们的方法。CUHK-SYSU数据集[32]在18,184张图像中注释了8,432个身份和96,143个边界框。对于6,978张图像中的2,900个测试身份，将默认画廊大小设置为100。PRW数据集[38]从6个摄像机收集数据，包括932个身份和43,110个行人框在11,816帧中。PRW被分为一个包含5,704帧和482个身份的训练集，以及一个包含2,057个查询人物和6,112帧的测试集。我们遵循人员搜索[32,38]的标准评估指标。如果预测框与具有相同身份的真实框之间的重叠比例大于0.5的IoU，则匹配一个框。对于人员检测，我们使用召回率和平均精度（AP）。对于人员ReID，我们使用平均精度（mAP）和累积匹配特性（top-1）分数。04.2. 实现细节0与Cascade R-CNN [1]类似，我们在级联框架中使用T =3个阶段，每个阶段对每个图像提取128个检测建议。根据[6, 20, 32]，基础特征图的尺度设置为h = w =14。在等式(2)中，交换令牌的索引设置为令牌图中的随机水平或垂直条带。在等式(3)中，头的数量设置为m =8。检测的IoU阈值ut设置为0.5、0.6、0.7，分别对应三个顺序阶段。用于计算令牌的卷积层的核大小在三个阶段中设置为k = {1×1, 3×3}，相应的步幅s = {1, 1}和填充p = {0,1}以保证输出特征图的尺寸相同。由于特征尺寸较小，我们在等式(2)中设置d = 1，即进行逐像素的令牌化。CQ0阶段1 阶段2 阶段3 mAP top-10（a）不使用变压器：0（b）使用变压器：0（c）IoU阈值：0表1. 在PRW [38]上与COAT不同级联变体的比较。'�'表示使用与[6,20,32]相同的ResNet块（conv5），而'�'表示在每个阶段使用提出的变压器。'†'表示没有ReID损失的头部。灰色高亮表示我们最终系统选择的参数。0CUHK-SYSU和PRW的OIM损失大小分别设置为5,000和500。方程（4）中的损失权重设置为λOIM = λID =0.5。我们使用带有0.9动量的SGD优化器对模型进行15个时期的训练，第一个时期的初始学习率为0.003，在第10个时期时减小10倍。在推理阶段，我们使用NMS和0.4 / 0.4 /0.5的阈值来消除第一/第二/第三阶段检测到的冗余框。04.3. 消融研究0我们在PRW数据集[38]上进行了一系列的消融研究，以分析我们的设计决策。级联结构的贡献。为了展示级联结构的贡献，我们根据级联阶段的数量和IoU阈值评估粗到细的约束。首先，我们将每个阶段的遮挡注意力变压器替换为与[6,20,32]相同的ResNet块（conv5）。如表1(a)所示，级联结构显著提高了人员搜索的准确性，当增加更多阶段时，即从43.5％提高到49.5％的mAP和81.2％提高到85.5％的top-1准确率。当我们引入提出的遮挡注意力变压器时，性能进一步提高（见表1(b)），这证明了我们的遮挡注意力变压器的有效性。此外，增加级联设计中的IoU阈值ut可以提高人员搜索性能。如表1(c)所述，相等的IoU阈值在每个阶段产生了更好的结果。Vanilla Attention52.986.4CrossViT [3]�49.986.1Jigsaw [16]�51.986.0Batch DropBlock [7]�52.786.7Cutout [8]�53.286.6Mixup [37]�52.886.6Occluded Attention�53.387.472720图4.在PRW数据集上，COAT和两种比较方法的检测和人员搜索结果，其中包括提供了（仅人员ReID）和未提供（人员搜索）地面实况检测框的情况。�表示使用地面实况框的理想结果。与我们的方法相比，其他方法可能会导致更低的准确性。例如，如果ut = 0.5或ut =0.7，则可能引入更多的误报或漏报。相比之下，我们的方法可以选择具有更高质量的检测提案以获得更好的性能，即在第一阶段生成更多的候选检测结果，并且在第三阶段仅选择高度重叠的检测结果。人员检测与ReID之间的关系。正如介绍中所讨论的，人员检测和ReID之间存在冲突。在图4中，我们探索了这两个子任务之间的关系。我们将我们的COAT与最先进的NAE [6]和SeqNet[20]进行了比较，它们共享相同的FasterR-CNN检测器。我们还构建了三个具有不同阶段的COAT变体，即COAT-t，其中t = 1, 2,3表示阶段的数量。当仅考虑人员ReID而不是人员搜索时，即当提供了地面实况检测框时，COAT在top-1准确率上优于这两个竞争对手，提高了超过3％，在mAP上提高了超过6％。与此同时，我们的人员检测准确性略低于SeqNet[20]。这些结果表明，我们改进的ReID性能来自于粗到细的人员嵌入，而不是更精确的检测结果。我们还观察到，从t= 1到t = 2，人员检测性能有所提高，但是在t =3时略有下降。我们推测，这是因为在权衡人员检测和ReID时，我们的方法更加注重学习用于人员ReID的判别性嵌入，而在一定程度上牺牲了检测性能。此外，从表1(a)(b)可以看出，具有ReID损失的COAT变体的性能比我们的方法差（mAP为50.3 vs.53.3）。同时学习人员检测和ReID的判别性表示非常困难。因此，我们在COAT方法的第1阶段中移除了ReID鉴别器头（参见图2）。如果我们继续在第二阶段移除ReID鉴别器，那么ReID性能将下降约2％。这表明ReID嵌入确实受益于多阶段的改进。与其他注意力机制的比较。为了验证我们在变压器中的遮挡注意力机制的有效性，我们应用了最近提出的Jigsaw [16]0方法 Tokens 特征 mAP top-10表2.我们的注意机制和其他相关模块的比较。“Tokens”和“特征”分别表示令牌级增强注意力和特征级增强。0和CrossViT [ 3]在我们的方法中。如第3.2节所讨论的，Jigsaw Patch [ 16]用于通过移位和补丁洗牌操作生成鲁棒的ReID特征。CrossViT [ 3]是一个双分支变压器，用于学习多尺度特征。值得注意的是，它们利用大的图像补丁作为纯视觉变压器的输入。我们还评估了COAT变体，即纯自注意机制，表示为vanillaattention。0在表2中，CrossViT [ 3]专注于在两个尺度的令牌之间交换信息，达到了较差的mAP。结果表明，Jigsaw [ 16]也会降低mAP。我们推测，无论是在CrossViT [ 3]中交换查询信息，还是在Jigsaw [ 16]中进行移位和洗牌特征操作，在如此小的14×14基础特征图中都存在歧义，限制了它们在人物搜索中的作用。相比之下，我们的遮挡注意力是为小特征图设计的，并获得了更好的性能，即mAP提高了0.4%，top-1得分提高了1.0%。我们有效地在一个小批次中学习了不同实例之间的上下文信息，并将人物与其他人或背景区分开来，以合成模拟遮挡。0与特征增强的比较。我们的方法与以前的人物ReID增强策略相关，例如Batch DropBlock Network [ 7 ]，Cutout [ 8]和Mixup [ 37]。如表2所示，通过使用特征增强，即简单地用零增加特征补丁，无法提高人物搜索准确性。0遮挡注意力机制的影响。如第3.2节所讨论的，我们使用遮挡注意力来计算有区别的人物嵌入。我们在表3中评估了使用遮挡注意力（令牌混合）和不同尺度的效果。请注意，使用遮挡注意力后，top-1得分从86.4提高到87.4，并且使用多个卷积核进行标记改进了性能。请注意，多个卷积不会增加模型的大小，因为特征图F是按通道切片的。72730图5. NAE [ 6 ]，SeqNet [ 20]和COAT在PRW（第一行）和CUHK-SYSU（第二行和第三行）数据集上的top-1人物搜索结果的定性示例，其中小查询、失败和正确案例分别用黄色、红色和绿色框突出显示。0方法令牌混合尺度 mAP top-10Vanilla Attention { 1 × 1 } 52.1 85.3 Vanilla Attention { 3 ×3 } 53.1 86.0 Vanilla Attention { 1 × 1 , 3 × 3 } 52.9 86.4遮挡注意力 { 1 × 1 } 52.2 86.5 遮挡注意力 { 3 × 3 } 52.5 86.4遮挡注意力 { 1 × 1 , 3 × 3 } 53.3 87.40表3.我们的注意机制和其他相关模块的比较。“尺度”表示使用的卷积核。04.4. 与最先进方法的比较0如表4所示，我们将我们的COAT与最先进的算法进行比较，包括两步法[ 5 , 10 , 13 , 18 , 30 , 38 ]和端到端方法[ 2 , 4 ,6 , 9 , 12 , 17 , 20 , 23 , 26 , 31 – 34 , 39]，在两个数据集上进行比较。在CUHK-SYSU上的结果。在画廊大小为100的情况下，我们的方法在mAP方面达到了最佳的94.2%，与最佳的两步法TCTS [ 30]（具有明确训练的边界框和ReID特征细化模块）相比，top-1得分为94.7%。在端到端方法中，我们的方法表现优于最先进的AlignPS+ [ 33 ]（具有多尺度无锚点表示[ 28]），SeqNet [ 20 ]（具有两阶段细化）和AGWF [ 12]（基于部分分类的子网络）。结果表明我们级联多尺度表示的有效性。使用后处理操作Context Bipartite GraphMatching (CBGM) [ 20]，我们的方法的mAP和top-1得分可以稍微提高。为了全面评估，如图6所示，我们比较了随着画廊大小的增加而增加的竞争方法的mAP得分。由于在画廊集中考虑更多干扰人员是具有挑战性的，性能0（a）端到端模型0（b）两步法模型0图6.在CUHK-SYSU上与（a）端到端模型和（b）两步法模型的比较，不同画廊大小。0随着画廊大小的增加，所有比较方法的性能都会降低。然而，我们的方法始终优于所有端到端方法和大多数两步法。当画廊大小大于1000时，我们的方法的性能略低于两步法TCTS[30]。在PRW数据集上的结果。尽管PRW数据集[38]比CUHK-SYSU数据集[32]更具挑战性，训练数据较少但画廊大小更大，但结果显示出类似的趋势。我们的方法在mAP和top-1得分方面与AGWF [12]相当，并且比SeqNet[20]获得了6.7%的mAP和4.0%的top-1得分的显著增益。DMRNet [14]和AlignPS[33]在我们的方法中使用了更强的目标检测器，如RetinaNet [22]和FCOS [28]，而不是Faster R-CNN[27]，但仍然表现出较差的性能。此外，我们还比较了PRW的多视图画廊上的性能（见表4中标有†的组）。我们的方法在mAP和Top-1得分方面都优于现有方法，并且有明显的差距。我们将这归因于我们的级联Transformer结构，它生成更具辨别性的ReID特征，特别是在具有显著姿态/视角变化的跨摄像头环境中。NAE [6]33.43287.3514.4843.380.9AlignPS [33]42.18189.9816.3945.981.9SeqNet [20]48.41275.1112.2346.783.4COAT37.00236.2911.1453.387.472740方法 CUHK-SYSU PRW0mAP top-1 mAP top-10两步法0DPM [38] - - 20.5 48.30MGTS [5] 83.0 83.7 32.6 72.10CLSA [18] 87.2 88.5 38.7 65.00RDLR [13] 93.0 94.2 42.9 70.20IGPN [10] 90.3 91.4 47.2 87.00TCTS [30] 93.9 95.1 46.8 87.50端到端0OIM [32] 75.5 78.7 21.3 49.90IAN [31] 76.3 80.1 23.0 61.90NPSM [23] 77.9 81.2 24.2 53.10RCAA [2] 79.3 81.3 - -0CTXG [34] 84.1 86.5 33.4 73.60QEEPS [26] 88.9 89.1 37.1 76.70HOIM [4] 89.7 90.8 39.8 80.40APNet [39] 88.9 89.3 41.9 81.40BINet [9] 90.0 90.7 45.3 81.70NAE [6] 91.5 92.4 43.3 80.90NAE+[6] 92.1 92.9 44.0 81.10DMRNet [14] 93.2 94.2 46.9 83.30PGS [17] 92.3 94.7 44.2 85.20AlignPS [33] 93.1 93.4 45.9 81.90AlignPS+[33] 94.0 94.5 46.1 82.10SeqNet [20] 93.8 94.6 46.7 83.40AGWF [12] 93.3 94.2 53.3 87.70COAT 94.2 94.7 53.3 87.40AlignPS [33]+CBGM [20] 93.6 94.2 46.8 85.80AlignPS+[33]+CBGM [20] 94.2 94.3 46.9 85.70SeqNet+CBGM [20] 94.8 95.7 47.6 87.60COAT+CBGM 94.8 95.2 54.0 89.10HOIM† [4] - - 36.5 65.00NAE+† [6] - - 40.0 67.50SeqNet† [20] - - 43.6 68.50SeqNet+CBGM† [20] - - 44.3 70.60AGWF† [12] - - 48.0 73.20COAT† - - 50.9 75.10COAT+CBGM† - - 51.7 76.10表4.与最先进方法的比较。†表示仅在多视图画廊上进行评估的性能。粗体表示组中最高得分。0定性结果。图5展示了两个数据集上一些示例人物搜索结果。我们的方法可以处理轻微/中度遮挡和尺度/姿态变化的情况，而其他最先进的方法如Se-qNet [20]和NAE[6]在这些场景中失败。效率比较。我们将我们的效率与包括NAE [6]、AlignPS [33]和SeqNet[20]在内的三个代表性端到端网络进行比较，这些网络都有公开发布的源代码。我们使用相同尺度的测试图像和相同的GPU来评估这些方法。从表5中，我们比较了参数数量、乘加操作（MACs）和每秒帧数（FPS）。我们的方法具有较低的计算复杂度和稍慢的速度，但在mAP和top-1准确率方面分别获得了+6.6%和+4.0%的增益。与[11,16]相比，我们在transformers中只使用了一个编码器层，并使用多尺度卷积来减少0方法参数(M) 计算量(G) FPS mAP top-10表5. 人员搜索效率比较.0通道数在标记化之前的数量，提高了COAT的效率.05. 结论0我们开发了一种新的级联遮挡注意力变换器（COAT），用于端到端的人员搜索。值得注意的是，COAT通过级联变换器框架学习了一种具有区分性的粗到细的人员检测和人员ReID表示。同时，遮挡注意机制从前景或背景对象中合成模拟遮挡。COAT优于最先进的方法，我们希望这将激发更多基于变换器的人员搜索方法的研究。伦理考虑。像大多数技术一样，人员搜索方法可能具有社会效益和负面影响。技术的应用方式至关重要。例如，人员搜索可以识别有助于执法和反恐行动的感兴趣的人员。然而，该技术只应在进入这些地点时放弃隐私期望的地方使用，例如公共区域、机场和有明确标识的私人建筑物。这些系统不应在没有合理理由的情况下使用，也不应由寻求获取所有公民运动普遍知识的不公正政府使用以进行迫害和压制。为了可比性，本研究使用了以前的作品中收集的人类主体图像。CUHK-SYSU [ 32 ]是从“街头快照”和“电影快照”中收集的，而PRW [ 38 ]是在大学校园的公共区域用视频摄像机收集的。这两篇论文都没有提到经伦理委员会（例如，机构审查委员会）的审查，但这些论文是在CVPR或大多数主要AI会议建立这一新标准之前发表的。我们更希望使用在伦理上收集的人员搜索数据集，并欢迎作者公开披露他们的伦理合规性。我们认为社区应该集中资源开发具有伦理道德的人员搜索数据集，并逐步淘汰使用遗留的、不符合伦理的数据集。致谢。本材料基于美国空军合同号FA8650-19-C-6036的支持进行。本材料中表达的任何意见、发现和结论或建议均属于作者个人，并不一定反映美国空军的观点。[1] Zhaowei Cai and Nuno Vasconcelos. Cascade R-CNN: delv-ing into high quality object detection. In CVPR, pages 6154–6162, 2018. 2, 3, 5[2] Xiaojun Chang, Po-Yao Huang, Yi-Dong Shen, XiaodanLiang, Yi Yang, and Alexander G. Hauptmann. RCAA: re-lational context-aware agents for person search. In ECCV,pages 86–102, 2018. 1, 7, 8[3] Chun-Fu Chen, Quanfu Fan, and Rameswar Panda. Crossvit:Cross-attention multi-scale vision transformer for imageclassification. In ICCV, 2021. 2, 4, 6[5] Di Chen, Shanshan Zhang, Wanli Ouyang, Jian Yang, andYing Tai. Person search via a mask-guided two-stream CNNmodel. In ECCV, pages 764–781, 2018. 1, 2, 7, 8[6] Di Chen, Shanshan Zhang, Jian Yang, and Bernt Schiele.Norm-aware embedding for efficien

下载后可阅读完整内容，剩余1页未读，立即下载