人物搜索的双向交互网络

176 浏览量更新于2023-10-25 收藏 12.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

DetRe-idDetRe-idDetRe-idRe-idShare28390人物搜索的双向交互网络0董文凯1,3，张兆翔1,2,3�，宋春峰1,3，谭铁牛1,2,3�01 中国科学院自动化研究所智能感知与计算研究中心 2中国科学院卓越脑科学与智能技术研究中心 3 中国科学院大学人工智能学院{dongwenkai2016, zhaoxiang.zhang}@ia.ac.cn, {chunfeng.song,tnt}@nlpr.ia.ac.cn0摘要0现有的工作已经基于Faster-RCNN设计了用于人物搜索的端到端框架。由于深度网络中的感受野较大，从干预特征图中裁剪的每个提议的特征图中包含了边界框外的冗余上下文信息。然而，人物搜索是一项需要准确外观信息的细粒度任务。这样的上下文信息可能导致模型无法集中在人物上，因此学习到的表示缺乏区分各种身份的能力。为了解决这个问题，我们提出了一个具有额外实例感知分支的孪生网络，名为双向交互网络（BINet）。在训练阶段，除了场景图像外，BINet还将人物补丁作为输入，这有助于模型根据人物外观来区分身份。此外，我们设计了两个交互损失，以实现两个级别之间的双向交互。这些损失迫使模型在两个级别上对配对数据做出一致的响应。我们在两个广泛使用的人物搜索基准CUHK-SYSU和PRW上进行了大量实验证明，我们的BINet在不损失效率的情况下实现了最先进的结果。01. 引言0人物搜索[28]旨在在无约束场景图像库中定位目标人物。与人物再识别（Re-id）相比，它包含从场景图像生成人物提议的过程，使其更适用于实际应用，如视频监控和安全、视频检索和人机交互。由于原始未经精炼的检测结果、摄像机视角变化、低分辨率等原因，这是一个具有挑战性的问题。0� 通讯作者。0端到端两阶段我们的0图1.人物搜索的三种方法的比较。（a）现有的端到端框架。（b）现有的两阶段框架。（c）我们的框架。0解决方案，背景杂波和遮挡等。人物搜索是一项需要准确的人物外观信息的细粒度任务。与通用物体检测中的分类任务相比，人物搜索更容易受到边界框外冗余上下文信息的影响。例如，在训练过程中，模型根据各种上下文而不是人物外观来区分一些身份。在推理过程中，模型可能仍然无法集中在人物上，因此身份特征缺乏区分能力。现有的人物搜索方法将此任务分为从场景图像生成人物提议和人物再识别两个子任务。如图1所示，它们在多任务框架（端到端方法）中一起处理两个子任务，或者通过两个独立网络（两阶段方法）分别处理两个子任务。对于端到端方法，现有的工作[26, 21,24]基于FasterR-CNN应用多任务框架来解决两个子任务。类似于FasterR-CNN的流程，RoI-Pooling层用于为每个提议池化相同大小的特征图。通常，深度CNN中的感受野（如ResNet）较大，因此每个提议的特征图中包含了从干预特征图中裁剪的冗余上下文信息。然而，人物搜索是一项需要准确外观信息的细粒度任务。这样的上下文信息可能导致模型无法集中在人物上，因此学习到的表示缺乏区分各种身份的能力。为了解决这个问题，我们提出了一个具有额外实例感知分支的孪生网络，名为双向交互网络（BINet）。在训练阶段，除了场景图像外，BINet还将人物补丁作为输入，这有助于模型根据人物外观来区分身份。此外，我们设计了两个交互损失，以实现两个级别之间的双向交互。交互可以帮助模型在场景中学习到更具区分性的人物特征。在推理阶段，只应用主要分支，因此BINet不引入额外的计算。在CUHK-SYSU和PRW这两个广泛使用的人物搜索基准上进行了大量实验证明，我们的BINet在不损失效率的情况下实现了最先进的结果。28400[12]的感受野较大，这意味着提议的池化特征图中包含了边界框外的上下文信息。尽管一些有用的上下文对于精确检测很重要，但周围仍然存在大量无关的上下文。如前所述，这样的无关上下文信息可能会影响人物搜索性能。此外，尽管QEEPS[21]取得了最先进的性能，但它是一种查询引导方法，因此它必须为不同的查询重新计算提议，这在实际中是不可行的。在两阶段方法[15,3]中，Re-id模型的训练数据是从场景图像中裁剪的一组人物补丁。因此，上下文信息几乎没有影响。然而，两阶段方法可能导致一个次优问题，因为检测网络和人物Re-id模型是分别训练的。上述观察结果激发了我们在以下几个方面改进现有的端到端人物搜索方法：（1）应减轻冗余上下文信息的负担，以便模型可以学习到更准确的人物外观信息；（2）模型需要人物补丁的指导，以区分人物外观信息和冗余上下文信息；（3）方法在推理阶段应具有高效性，即不是查询引导的。根据上述论述，我们提出了一个简单而有效的模型，名为双向交互网络（BINet），以学习更具区分性的人物表示。受到之前的工作[4]的启发，BINet由两个分支组成，分别以场景图像和从中裁剪的人物补丁作为输入。通过这种方式，模型可以访问不包含边界框外上下文信息的人物补丁，这有助于模型根据外观信息区分身份。此外，我们提出了两个交互损失，以实现两个分支之间的双向特征级和预测级交互。这些损失迫使模型在两个级别上对配对数据做出一致的响应。我们在广泛使用的两个人物搜索基准CUHK-SYSU和PRW上进行了大量实验证明，我们提出的BINet在不损失效率的情况下提高了人物搜索性能。本文的贡献有三个方面：0•我们提出了双向交互网络，可以在场景中的人物上下文的指导下学习关注人物。0•我们设计了两个交互损失，在反向过程中进行双向交互。交互可以使模型0学习更具辨别力的身份表示。0•我们的BINet在流行的基准测试中带来了显著的性能提升，而无需额外的参数或计算。特别是，与我们的基线[26]相比，在CUHK-SYSU和PRW的mAP准确性上分别提高了3.6%和10.3%。02. 相关工作0人员搜索。人员搜索[28]旨在在整个场景图像库中定位目标人员。自从两个大规模数据集CUHK-SYSU[26]和PRW[36]的发布以来，已经提出了许多解决这个问题的方法。这些方法将任务分为两个部分，人员提议生成和身份匹配，并分别或联合解决它们。对于两阶段方法，它们将人员搜索视为行人检测[9, 7, 30, 22, 8, 32, 33, 23]和人员重识别[35, 18, 34,14, 31, 17, 5,25]的组合，并使用两个单独的模型解决它们。例如，Lan等人[15]和Chen等人[3]应用FasterR-CNN从场景图像中检测人员提议，然后训练人员重识别模型来解决这个问题。具体而言，Lan等人[15]通过知识蒸馏来解决由检测器引起的多尺度匹配问题。Chen等人[3]通过双流模型为每个人提取更具代表性的特征。Han等人[11]引入ROI变换层来联合优化这两个网络。其他方法选择以端到端的方式解决这两个子任务。例如，在[26, 24, 29,21]中，它们都基于FasterR-CNN[23]开发了一个端到端的人员搜索框架，以共同处理这两个方面。除了基于检测的方法外，其他方法[19,2]通过查询的信息递归地缩小搜索区域，以更准确地定位场景中的目标人员。Liu等人[19]提出了基于Conv-LSTM[27]的神经人员搜索机器（NPSM）来执行搜索过程。Chang等人[2]将搜索过程视为条件决策过程，并将深度强化学习引入到人员搜索领域。上下文对实例表示学习的影响。在Faster-RCNN中，端到端网络的输入是场景图像，并且每个提议的特征图使用RoI-Pooling/Align层进行池化。由于深度CNN中具有大的感受野，这些特征图涉及感兴趣区域之外的大量上下文信息。人们普遍认为上下文信息对于精确的检测很重要[4]。然而，由于大的感受野引入的无关上下文可能导致错误的分类结果。因此，Cheng等人[4]训练了一个单独的RCNN[10]进行分类，称为DCR87.479.43732.9020406080100CUHK-SYSU-SCUHK-SYSU-RPRW-SPRW-R87.979.876.372.8020406080100CUHK-SYSU-SCUHK-SYSU-RPRW-SPRW-R28410模块，它以从完整图像中采样的一批RoIs作为输入，并合并DCR模块和FasterR-CNN的分类分数，以获得最终的分类分数。受此启发和特征模仿[1, 13,16]的影响，Zhu等人[37]也应用了类似的框架，其中两个分支共享参数，并引入了模仿损失以强制模型关注对象。对于人员搜索，尽管查询引导方法[2,21]可以在查询的指导下选择有用的上下文信息，但它们需要为不同的查询重新计算提议，这使得它们在实际应用中不实用。03. 双向交互网络03.1. 人物搜索的End-to-end框架0如前所述，我们的目标是通过端到端网络解决人物搜索问题。因此，我们采用基于FasterR-CNN的多任务网络[26]作为基线，并对其进行改进以提高效率。该基线的整体框架如图1所示。具体而言，如图3所示，我们采用ResNet-50[12]作为骨干网络，并将其分为两部分。第一部分（conv1到conv4）处理场景图像并输出1024通道的特征图。然后，在这些特征图上构建一个区域提议网络（RPN）以生成感兴趣区域（RoIs）。经过非极大值抑制后，我们保留128个RoIs，并利用RoI-Align从干扰特征图中为每个RoI池化一个1024×14×6的区域。然后，这些RoIs经过ResNet-50的第二部分（conv5）处理，接着是一个全局平均池化层。最后，特征被输入到三个分支中。与之前的工作一样，我们采用在线实例匹配（OIM）损失[26]来监督每个身份的特征学习。有关OIM损失的详细信息，请参考这篇论文[26]。与原始的端到端网络相比，我们减少了第二部分（[26]中的conv4 4到conv53）的层数，并修改了RoI-Align层的输出大小（[26]中的14×14）。由于注释边界框的长宽比大多在0.5到0.25之间，将RoI-Align层的输出大小修改为14×6是合理的。通过以上修改，我们减少了整体计算成本，使得模型在推理过程中更加高效。03.2. End-to-end框架的问题0尽管基线方法可以以端到端的方式处理人物搜索任务，但该方法存在一个主要缺点，可能成为性能的瓶颈。为了为每个提议生成特征图，应用了一个RoI-Pooling/Align层来从干扰特征图中池化一个区域。由于深度CNN中具有大的感受野，这些特征图包含了边界框外的冗余上下文信息。尽管上下文信息对于精确定位是有帮助的，但对于需要细粒度外观信息的身份匹配来说，它可能使学习到的特征不够具有区分性。为了研究上下文的影响，我们使用场景图像作为输入训练基线模型，并在图2中报告了两种不同评估设置下的结果。为了排除检测的影响，模型在两个数据集上使用真实边界框进行测试。第一个测试设置（CUHK-SYSU-S和PRW-S）与[26]相同，即训练模型以场景图像作为输入，并从干扰特征图中池化提议的特征。在第二个设置（CUHK-SYSU-R和PRW-R）中，我们从基线模型中删除与检测相关的部分（如图3中的上部分）。网络的输入是使用真实边界框从场景图像中裁剪的人物补丁。因此，提议的特征不包含边界框外的上下文信息。mAP和top-1的结果分别以蓝色和黄色显示。我们观察到，使用裁剪的补丁在两个数据集上都显著降低了性能。我们认为在训练过程中，模型基于边界框外的不同上下文信息来区分一些身份，而不是准确的外观信息。在推理过程中，从场景图像中提取的身份特征不够具有区分性，因为模型在一定程度上仍然基于上下文来区分人物。因此，我们认为为了学习更具区分性的特征，模型需要关注人的外观而不是上下文。0(a) mAP0(b) top-10图2.上下文信息对CUHK-SYSU和PRW数据集上搜索性能的影响。符号“S”和“R”分别表示身份特征是从场景图像和裁剪的人物补丁中提取的。前者包含边界框外的上下文信息，而后者仅包含边界框内的信息。0深度CNN中的这些特征图包含了边界框外的冗余上下文信息。尽管上下文信息对于精确定位是有帮助的，但对于需要细粒度外观信息的身份匹配来说，它可能使学习到的特征不够具有区分性。为了研究上下文的影响，我们使用场景图像作为输入训练基线模型，并在图2中报告了两种不同评估设置下的结果。为了排除检测的影响，模型在两个数据集上使用真实边界框进行测试。第一个测试设置（CUHK-SYSU-S和PRW-S）与[26]相同，即训练模型以场景图像作为输入，并从干扰特征图中池化提议的特征。在第二个设置（CUHK-SYSU-R和PRW-R）中，我们从基线模型中删除与检测相关的部分（如图3中的上部分）。网络的输入是使用真实边界框从场景图像中裁剪的人物补丁。因此，提议的特征不包含边界框外的上下文信息。mAP和top-1的结果分别以蓝色和黄色显示。我们观察到，使用裁剪的补丁在两个数据集上都显著降低了性能。我们认为在训练过程中，模型基于边界框外的不同上下文信息来区分一些身份，而不是准确的外观信息。在推理过程中，从场景图像中提取的身份特征不够具有区分性，因为模型在一定程度上仍然基于上下文来区分人物。因此，我们认为为了学习更具区分性的特征，模型需要关注人的外观而不是上下文。03.3. 实例感知分支0Re-idRPNREGCLSRe-idb∈ΩLpi = DKL(˜pr(b)||˜ps(b)) + DKL(˜ps(b)||˜pr(b)),(2)28420第二部分0第二部分0实例感知分支0搜索分支（基准）0特征级交互0预测级交互0图3.我们提出的框架。BINet的输入是场景图像和裁剪的人物补丁。两个分支的共同部分共享参数。通过交互损失实现两个分支之间的双向交互。在推理过程中，我们只应用搜索分支。虚线表示梯度的方向。0在一个小批量中，孪生网络的输入是场景图像和相应的裁剪补丁。因此，对于一个正RoI，两个分支应该具有一致的响应。03.4. 双向交互0N (Ω)0我们认为一致性存在于两个层面，包括特征级和预测级。对于一个正RoI，前者意味着在特征空间中，它应该被嵌入得很近，而后者意味着两个分支输出相同的身份预测。特征级交互。对于特征级一致性，定义了特征级交互损失，即两个分支中特征之间的余弦相似度，计算公式为 L fi = 10其中Ω表示采样的正RoI集合，f r ( b )和f s ( b)分别表示实例感知分支和搜索分支中的特征。预测级交互。对于预测级一致性，定义了预测级交互损失，即KullbackLeibler（KL）散度：0KL散度从p s ( b )到p r ( b )的计算结果为0D_KL(˜p_r(b) || ˜p_s(b)) =Σ0b ∈ Ω0Σ_c=1 ˜ p_c r(b) log ˜p_c r(b) / ˜ p_c s(b), (3)0其中C是OIM损失中查找表的长度。软化的概率分布计算如下：0˜ p_i = exp(p_i/T) / Σ_c=1 exp(p_c/T),(4)0其中T是温度。p_c表示b属于类别c的概率，由OIM损失计算得到。28430通过交互损失L_fi和L_pi，BINet实现了两个分支之间的双向交互，并学习到更具辨别力的身份特征。整体的学习目标函数如下所示：0L = L_det + L_i + 0.5 * (L_soim + L_roim), (5)0其中L_det表示Faster-RCNN中使用的检测损失。损失L_i是L_fi和L_pi的总和。搜索分支和实例感知分支中的身份特征的学习由L_soim和L_roim分别监督。03.5. 讨论0所提出的BINet与之前的工作[4,37]具有相似的动机，因为它们都旨在通过一个双分支框架减轻边界框外的上下文信息的负担。然而，BINet与它们在以下几个方面有显著不同：(a)BINet旨在减轻上下文对人物再识别的负面影响，而不是对通用目标检测中的分类任务的影响。与通用分类相比，人物再识别是一项细粒度任务，更容易受到影响。(b)在[4]中，作者除了FasterR-CNN分支外还训练了一个额外的R-CNN分支，并合并两者的分类得分以提高检测性能。由于一些争议，这两个网络的参数不共享。因此，在推理过程中，应用这两个分支需要更多的时间。然而，BINet是一个孪生网络，只有主要分支在推理过程中应用。(c) 在Deformable-v2[37]中，作者引入了一个特征模拟损失，强制DeformableFasterR-CNN的特征与从裁剪图像中提取的R-CNN特征相似。在训练过程中，两个分支之间的梯度是单向的。不同的是，我们的交互是双向的，并且除了特征级别的约束外，我们还应用了预测级别的约束。04. 实验04.1. 数据集0CUHK-SYSU：CUHK-SYSU[26]是一个大规模的人物搜索数据集，包含由手持相机拍摄的街景照片和从电影中收集的快照。它包含18,184个场景图像，8,432个标记的身份和96,143个标注的边界框。每个标记的身份被分配一个类别ID，并在至少两个不同的场景图像中以不同的视角出现。未标记的身份被标记为未知人物。训练集包含11,206个场景图像和5,532个查询人物，而测试集包含6,978个画廊图像和2,900个查询人物。0在测试集中，对于每个查询人物，有一组协议，画廊大小从50到4,000不等。PRW：PRW数据集[36]包含从一所大学校园拍摄的一段10小时视频中提取的11,816帧视频。它包含932个身份和34,304个标注的边界框。与CUHK-SYSU类似，所有的提议被分为两组，标记的身份和未标记的身份。训练集包括5,704张图像和482个不同的人物，而测试集包含6,112张图像和来自450个不同身份的2,057个探测人物。对于测试集中的每个查询人物，搜索空间是整个画廊集。04.2. 评估协议0我们采用累积匹配特征（CMC）和平均准确率（mAP）作为性能指标，这与之前的工作[21,3]相同。第一个指标在分类中被广泛使用，如果预测的前K个边界框中至少有一个与真实边界框的IoU大于或等于0.5，则计为匹配。第二个指标在目标检测中被广泛使用。我们通过计算每个查询人物的Precision-Recall曲线下的面积来计算平均准确率（AP），然后对所有查询的AP取平均得到mAP。04.3. 实现细节0我们使用PyTorch实现了我们的模型，并在NVIDIA 1080TiGPU上运行实验。基于ResNet-50的BINet使用ImageNet[6]预训练模型进行初始化。对于训练端到端模型，我们采用动量设置为0.9的SGD算法，权重衰减设置为0.0001，批量大小设置为2。对于CUHK-SYSU，场景图像的短边至少调整为600像素，长边至多调整为1000像素。学习率初始化为0.001，在40K次迭代后降至0.0001，并保持不变直到50K次迭代。对于PRW，图像的短边至少调整为900像素，长边至多调整为1500像素。学习率初始化为0.001，在20K次迭代后降至其1/10，并保持不变直到30K次迭代。循环队列大小分别设置为5000和500，用于训练CUHK-SYSU和PRW。其他细节与之前的工作[26]相同。04.4. 消融研究0在本小节中，我们对CUHK-SYSU和PRW进行了几个分析实验，以探索我们提出的BINet中每个组件的贡献，包括实例感知分支和双向交互损失。BINet的有效性。在表1中，我们展示了我们提出的BINet中两个关键组件的有效性，从28440表1. CUHK-SYSU和PRW上两个关键组件的结果。图例：检测：在测试阶段，多任务框架检测到了提议；标记：模型使用了地面真实边界框进行测试。0数据集 CUHK-SYSU PRW0画廊大小 100 4000 61120方法 mAP(%) top-1(%) mAP(%) top-1(%) mAP(%) top-1(%)0检测到的0基准 86.4 87.2 66.4 68.8 35.0 74.1 + 实例感知 88.3 88.9 70.2 72.4 39.7 77.8 +交互（BINet） 90.0 90.7 74.6 77.2 45.3 81.70标记的0基准 87.4 87.9 67.6 70.0 37.0 76.3 + 实例感知 89.2 89.8 71.2 73.7 41.6 79.6 +交互（BINet） 90.8 91.6 75.4 78.1 47.2 83.40总体视图。如前所述，我们修改了OIM[26]中的框架，并将其作为我们的基准。在名为“+实例感知”的方法中，框架是一个没有交互的孪生网络，它以场景图像和从中裁剪的人物补丁作为输入。结果表明，“干净”的数据可以显著提高两个数据集上的人物搜索性能。例如，在CUHK-SYSU数据集上，使用4000个画廊大小设置，孪生网络将mAP提高了3.8％，top-1提高了3.6％。在PRW数据集上，它将mAP提高了4.7％，top-1提高了3.7％。这些结果证明了我们的动机，即模型需要人物补丁的指导，以将人类外观信息与冗余上下文信息区分开来。在名为“+交互（BINet）”的方法中，我们将第3.4节中提出的交互损失引入到孪生网络中。通过这些损失，BINet可以在孪生网络的基础上进行两个分支之间的信息交互，并取得进一步的改进。与基准相比，BINet在两个数据集上的mAP提高了8％以上（66.4％→74.6％，35.0％→45.3％）。使用地面真实边界框的结果与使用检测到的提议的结果一致。这些结果表明，通过裁剪补丁的指导和两个分支之间的信息交互，BINet可以将注意力集中在人物上而不是上下文，从而可以从场景图像中学习到实例的区分特征。关于不同交互设置的消融研究。在BINet中，我们引入了两个交互损失，实现了特征级和预测级之间的双向交互，特征级交互损失是在嵌入层之前的2048维特征上计算的。我们比较了在训练BINet时不同交互设置的结果：0- BINet-0：我们去除了两个交互损失。0- BINet-1：交互是单向的，即从实例感知分支到搜索分支。0表2. CUHK-SYSU和PRW上不同交互设置的结果0数据集 CUHK-SYSU PRW0方法 mAP（%） top-1（%） mAP（%） top-1（%）0BINet 74.6 77.2 45.3 81.7 BINet-0 70.2 72.4 39.777.8 BINet-1 73.5 76.1 43.3 80.3 BINet-2 69.3 71.836.0 75.3 BINet-3 73.3 76.1 42.3 78.8 BINet-4 72.274.7 42.9 80.90- BINet-2：交互是单向的，即从搜索分支到实例感知分支。0- BINet-3：仅保留特征级别的交互。0- BINet-4：仅保留预测级别的交互。0结果如表2所示，我们得出以下观察结果：(a)BINet、BINet-0、BINet-3和BINet-4的实验探索了个别交互损失的有效性。我们发现特征级别或预测级别的交互都可以提高性能。两者结合时，模型在两个数据集上都达到最佳性能。这是因为这两个交互损失在不同层次传递不同的信息。(b)在BINet-1中，从实例感知分支到搜索分支的单向交互在CUHK-SYSU上的mAP上增加了3.3%，而相反的交互在BINet-2中损害了性能。这些结果还表明，上下文信息使模型无法学习到有区分性的特征。BINet取得的最佳结果表明，双向交互有助于模型学习到最有区分性的特征。不同温度的影响。我们在公式4中评估了温度设置在0.3到3.0范围内的影响。表3中的结果显示，在CUHK-SYSU上，T =0.3取得了最佳性能，而在PRW上，T的最佳选择是1.0。这是因为CUHK-SUSY中的身份数量是PRW的10倍。0.374.777.443.980.90.574.677.245.081.41.074.677.245.381.73.073.776.444.581.750607080900100030004000OIMNPSMIANRCAAContextBINet (ours)28450表3. CUHK-SYSU和PRW上不同温度设置的结果0数据集 CUHK-SYSU PRW0T mAP（%） top-1（%） mAP（%） top-1（%）0因此，在CUHK-SYSU上，由OIM损失计算得出的原始概率分布非常软，预测级别的交互损失需要较低的温度。04.5. 与现有技术的比较0表4. 在100个图库大小设置下，与CUHK-SYSU的性能比较。0方法 mAP（%） top-1（%）0OIM [26] 75.5 78.7 IAN [24] 76.3 80.1NPSM [19] 77.9 81.2 RCAA [2] 79.3 81.3CNN v + MGTS [3] 83.0 83.7 CNN +CLSA [15] 87.2 88.5 CNN + Re�nement[11] 93.0 94.2 Context [29] 84.1 86.5QEEPS [21] 88.9 89.10OIM（我们的）86.4 87.2BINet（我们的）90.0 90.70在CUHK-SYSU上的评估。表4显示了在图库大小为100的CUHK-SYSU上的人物搜索结果。符号“CNNv”和“CNN”分别表示基于VGGNet和ResNet-50的FasterR-CNN检测器。我们修改的OIM优于大多数先前的方法，包括两阶段方法“CNN v +MGTS”。这证明了联合训练检测和人物重识别的有效性。与修改的OIM相比，我们提出的BINet在mAP/top-1方面分别获得了3.6%/3.5%的性能提升，并且在推理过程中不引入额外的计算，这证明了在端到端方法的训练过程中去除边界框外的上下文信息的重要性。与之前的最佳查询引导方法QEEPS相比，我们的BINet也表现出色。此外，我们的方法不是查询引导的，在推理过程中更加高效。我们观察到[11]中的结果比我们的结果好。[11]应用了两个基于ResNet50的模型分别处理行人检测和人物重识别，并在基线方法中采用了许多技巧[20]。然而，在我们的基线方法中，我们需要在单个多任务网络中解决检测和重识别，所以由于检测部分，我们无法应用这些技巧。0mAP（％）0画廊大小0图4. 在CUHK-SYSU上使用不同的画廊大小进行评估。0他们基线的mAP性能比我们的基线在CUHK-SYSU上好5.8％（92.2％对86.4％）。因此，[11]中的结果比我们的结果更好是可以接受的。与[11]相比，我们的方法不仅可以简化训练过程，还可以节省参数。为了评估我们方法的可扩展性，我们在画廊大小从50到4000的范围内与其他端到端方法进行比较。如图4所示，所有方法在画廊大小增加时都会降低性能。这是因为画廊变得更大时涉及更多干扰者。我们可以观察到，在所有画廊大小下，我们的BINet仍然优于其他方法。此外，当将画廊大小从50增加到4000时，修改后的OIM的mAP性能从89.0％下降到66.4％，而我们的BINet的mAP性能从91.8％下降到74.6％。这验证了我们方法的鲁棒性。0表5. PRW上性能比较。0方法 mAP（％） top-1（％）0OIM [26] 21.3 49.9 IAN [24] 23.0 61.9NPSM [19] 24.2 53.1 CNN v + MGTS [3]32.6 72.1 CNN + CLSA [15] 38.7 65.0CNN + Re�nement [11] 42.9 70.2 Context[29] 33.4 73.6 QEEPS [21] 37.1 76.70OIM（我们的） 35.0 74.1BINet（我们的） 45.3 81.70在PRW数据集上的评估。我们进一步评估了PRW数据集上的BINet。总体而言，我们观察到与CUHK-SYSU上的最先进方法相比，性能比较相似。具体而言，我们的BINet在这些方法中仍然实现了最佳的人物搜索性能，mAP和top-1分别超过了之前最好的模型QEEPS的8.2％和5.0％。这一点始终证明了我们提出的方法的优越性。284604.6. 进一步分析0在本节中，我们进一步分析裁剪补丁和交互对表示学习的影响。为了排除不同检测的影响，模型使用真实边界框进行评估。裁剪补丁的分析。在训练BINet的过程中，对于从RPN获得的正RoI，将相应的补丁裁剪并调整大小为224×96，然后输入到实例感知分支中。对于我们提出的框架的特征学习部分，增加了人的尺度变化。因此，裁剪补丁带来的改进可能来自两个方面：尺度增强和去除上下文信息。为了弄清每个部分的影响，我们去除了尺度增强，并在表6中报告了结果。在方法Re-id-O和BINet-O中，我们保持裁剪补丁的原始尺寸不变，并在实例感知分支的第一部分之后应用RoI-Align层。这样，对于每个RoI，在两个分支中尺度是相同的，因此在训练阶段去除了尺度增强。从Re-id-O和BINet-O的性能中，我们观察到我们的方法仍然显著提高了搜索性能。例如，BINet-O在PRW上将mAP提高了9.9％，top-1提高了7.6％。当比较使用调整大小的补丁的方法（Re-id-R和BINet-R）时，我们发现在PRW上几乎没有性能提升。在CUHK-SYSU上，与去除上下文信息带来的改进相比，收益也很小。基于上述观察，我们可以得出结论，在训练BINet的过程中，去除边界框外的上下文信息的数据比尺度增强更重要。0表6.不同尺度设置对CUHK-SYSU和PRW性能的影响，其中“Re-id”代0数据集CUHK-SYSU PRW0方法 mAP（％） top-1（％） mAP（％） top-1（％）0基线 67.6 70.0 37.0 76.30Re-id-O 70.9 ↑ 3.3 73.3 ↑ 3.3 41.8 ↑ 4.8 79.8 ↑ 3.5 Re-id-R 71.2 ↑ 3.6 73.7 ↑ 3.741.6 ↑ 4.6 79.6 ↑ 3.30BINet-O 73.8 ↑ 6.2 76.4 ↑ 6.4 46.9 ↑ 9.9 83.9 ↑ 7.6 BINet-R 75.4 ↑ 7.8 78.1 ↑ 8.147.2 ↑ 10.2 83.4 ↑ 7.10双向 vs单向。为了更好地理解双向交互带来的效果，我们评估了从原始场景图像中裁剪的调整大小的人物补丁的实例感知分支，并报告了mAP。如表7所示，比较结果与表2中的结果一致。通过双向交互，两个分支都达到了最佳性能。这些结果表明，具有双向交互的模型学习到了最具辨别力的特征。0表7.不同交互方向的实验比较。箭头表示两个分支之间的梯度方向。图例“S”和“R”分别表示搜索和实例感知分支的性能。0数据集 CUHK-SYSU PRW0交互 S R S R0否 71.2 72.3 41.6 45.7 S −→ R 70.472.0 38.3 42.3 R −→ S 74.2 74.6 45.147.1 S ←→ R 75.4 75.6 47.2 49.90运行时间比较。在表8中，我们报告了QEEPS[21]，原始OIM[26]，修改后的OIM*和BINet处理画廊图像所需的时间。由于我们减小了RoI-Align层和第二部分中的残差块的输出大小，修改后的OIM*（基线）更加高效，即比QEEPS快3倍以上。此外，我们的BINet不是查询引导的，因此所有查询都可以共享从画廊场景图像生成的建议，这使得它在实际应用中比QEEPS更实用。0表8. BINet与其他方法在图像尺寸为900 ×1500时的运行时间比较。*表示我们的修改版本。0方法 GPU时间（秒）0QEEPS [21] P6000 0.30 OIM [26]1080Ti 0.17 OIM*(ours) 1080Ti 0.08BINet(ours) 1080Ti 0.0805. 结论0在本文中，我们提出了一种名为双向交互网络（BINet）的孪生网络，它以场景图像和裁剪的人物补丁作为输入。在裁剪补丁的指导下，BINet可以专注于场景中的人物。我们还设计了交互损失来实现分支之间的双向信息交互。大量实验证明我们的方法可以在推理过程中显著提高性能而无需额外计算。0致谢0本工作部分得到了中国国家重点研发计划（No.2018YFB1402600），中国国家自然科学基金（No.61836014，No.61761146004，No.61773375，No.61602481），山东省重点研发计划（重大科技创新项目）（NO.2019JZZY010119）和中国科学院人工智能研究院的支持。[7] Piotr Doll´ar, Ron Appel, Serge Belongie, and Pietro Per-ona.Fast feature pyramids for object detection.IEEETransactions on Pattern Analysis and Machine Intelligence,36(8):1532–1545, 2014. 2[8] Piotr Doll´ar, Zhuowen Tu, Pietro Perona, and Serge Be-longie. Integral channel features. 2009. 2[9] Pedro F Felzenszwalb, Ross B Girshick, David McAllester,and Deva Ramanan. Object detection with discriminativelytrained part-based models.IEEE Transactions on PatternAnalysis and Machine Intelligence, 32(9):1627–1645, 2010.2[13] Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distilling theknowledge in a neural network. stat, 1050:9, 2015. 3[14] Martin Koestinger, Martin Hirzer, Paul Wohlhart, Peter MRoth, and Horst Bischof. Large scale metric learning from[15] Xu Lan, Xiatian Zhu, and Shaogang Gong. Person searchby multi-scale matching. In Proceedings of the EuropeanConference on Computer Vision, pages 553–569, 2018. 2, 7[21] Bharti Munjal, Sikandar Amin, Federico Tombari, and FabioGalasso. Query-guided end-to-end person search. In Pro-ceedings of the IEEE Conference on Computer Vision andPattern Recognition, 2019. 1, 2, 3, 5, 7, 828470参考文献0[1] Jimmy Ba和Rich Caruana.深度网络真的需要很深吗？在神经信息处理系统进展中，第2654-2662页，2014年。 30[2] Xiaojun Chang, Po-Yao Huang, Yi-Dong Shen, XiaodanLiang, Yi Yang, and Alexander G Hauptmann. RCAA:关系感知的人物搜索代理.在欧洲计算机视觉会议论文集中，第84-100页，2018年。 2, 3, 70[3] Di Chen，Shanshan Zhang，Wanli Ouyang，JianYang和Ying Tai.通过基于掩码的双流CNN模型进行人物搜索。在欧洲计算机视觉会议论文集中，第734-750页，2018年。 2, 5, 70[4]

下载后可阅读完整内容，剩余1页未读，立即下载