基于掩码引导的双流CNN模型的人员搜索

140 浏览量更新于2023-10-13 收藏 1.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

通过掩码引导的双流CNN模型进行人员搜索翟晨1、张珊珊1、欧阳万里2、杨健1、英太31PCA实验室、高维信息智能感知与系统教育部重点实验室、图像与视频理解江苏省重点实验室社会保障，南京理工大学计算机科学与工程学院2悉尼大学，SenseTime计算机视觉研究小组，悉尼，澳大利亚3腾讯优图实验室{迪晨，shanshan.zhang，csjyang}@ njust.edu.cn，wanli.sydney.edu.au，yingtai@tencent.com抽象。在这项工作中，我们解决的问题，人的搜索，这是一个挑战性的任务，包括行人检测和人的重新识别（重新ID）。而不是在一个单一的联合模型共享表示，我们发现，分离检测器和重新ID特征提取产生更好的性能。为了提取每个身份的更多代表性特征，我们提出了一种简单而有效的re-ID方法，该方法分别对前景人物和原始图像块进行建模，并从两个单独的CNN流中获得丰富的表示。在标准的个人搜索基准数据集上，我们实现了83的mAP。0%，32。中大-中山大学和PRW分别为6%，大大超过最先进水平（超过5 pp）。关键词：人物搜索;行人检测;人员重新鉴定;前地1介绍人搜索的任务首先由[1]引入，其将行人检测和人重新识别统一在相干系统中典型的人再识别方法旨在找到查询探针与来自图库的裁剪的人图像块之间的匹配，因此需要完美的人检测结果，这在实践中很难获得相比之下，人物搜索，搜索查询的人在整个图像，而不是比较手动裁剪的人的图像本地，更接近现实世界的应用。然而，将检测和重新ID的任务一起考虑会带来特定领域的困难：跨相机的大的外观变化、低分辨率、遮挡等。此外，在检测和重新识别之间共享特征也会累积来自它们中的每一个的错误，例如，错误警报、未对准和无表达的人描述符，这进一步危害最终的人搜索性能。通讯作者。2D. Chen等人在[1]之后，一些其他的工作[2，3，4，5]也被提出用于人员搜索。他们中的大多数[3，4，5]专注于基于Faster R-CNN的端到端解决方案[6]。具体来说，在Faster R-CNN的顶部卷积层上添加了一个腋状全连接（FC）层在训练过程中，他们优化了由Faster R-CNN损失组成的联合损失和一个人的分类损失。然而，我们认为，这是不合适的检测和重新ID任务之间共享表示，因为他们的目标相互矛盾。对于检测任务，所有人都被当作一个班，目标是以将它们与背景区分开，因此，表示集中在不同人的共同性上，例如：体型;而对于re-ID任务，不同的人被认为是不同的类别，并且目标是最大化之间的差异，因此表征集中于每个身份的特征，例如。服装、发型等。换句话说，检测和重新识别任务的目标是分别对人的类间和类内差异进行建模。因此，将这两个任务分开而不是联合解决它们更有意义。在人的重新识别的社区中，人们普遍认为，歧视性信息位于前景，而背景是有害因素之一，在特征提取过程中应该被忽略或去除[7，8]。一个直观的想法是只提取前景人物补丁上的特征，而忽略背景区域。然而，简单地放弃所有背景信息可能从两个方面损害re-ID首先，特征提取过程可能会从不完美或有噪声的分割掩模中收集错误，即，识别信息丢失造成的身体形状的分数。第二，背景信息有时也能作为有用的上下文，例如随身行李、手提包或同伴。投射出所有背景区域将忽略重新ID问题的一些信息线索。因此，我们认为，它是更适合考虑一个折衷的策略，支付额外的注意力在前景的人，同时也使用背景作为补充线索。受上述讨论的启发，我们提出了一种新的方法的人搜索。它包括两个阶段：行人检测和人的重新识别。我们分别求解它们，而不共享任何表示。此外，我们提出了一种双流CNN来独立地对前景人物和原始图像进行建模，其目的是为每个身份提取更多的信息特征，并且仍然考虑背景的互补性。整个框架如图所示。1，我们将在SEC中讨论更多细节。3 .第三章。总之，我们的贡献有三个方面：• 据我们所知，本文是第一个工作表明，对于per-son搜索问题，更好的性能可以通过单独解决行人检测和人重新识别任务，而不是联合。• 我们提出了一种用于人re-id的掩码引导双流CNN模型（MGTS），该模型明确地使用前景中的一个流作为重点。形成并通过从原始图像并入另一个单独的流来丰富表示• 我们提出的方法实现了83的mAP。0%，32。中大-中山大学6%[3]及PRW [2]基准测试，其相对于最先进的大幅度（超过5pp）。通过掩码引导的双流CNN模型进行人员搜索3输入分割掩码原始前景第一阶段：检测和分割第二阶段：重新识别图1.一、个人搜索的建议框架。它由两个阶段组成：1）检测和分割。我们使用自适应的Faster R-CNN [9]作为我们的行人检测器;分割掩码由MS COCO预训练的FCIS模型生成[10]，无需任何微调; 2）重新识别。特征提取器由在线实例匹配（OIM）损失监督[3]。请注意，检测器和re-ID特征提取器独立训练。2相关工作我们首先回顾现有的工作人员搜索，这是最近提出的主题。由于我们的人员搜索方法由两个阶段组成：行人检测和人的重新识别，我们还回顾了一些最近的工作在这两个领域。人员搜索。自从两个大规模数据集发表以来，人物搜索引起了人们的广泛研究兴趣：[ 2 ]《易经》：“三经”。Zheng等[2]对各种分离模型进行详细调研，提出解决人员搜索问题在两个单独的模型中，一个用于检测，另一个用于重新识别。其他工作提出通过采用更快的R-CNN检测器[6]进行行人检测并在检测和重新识别之间共享基础网络[3]，以端到端的方式解决这个问题。在[4]中，通过在训练期间引入中心损失[11]来增加特征区分能力。Liu等[5]改进Faster R-CNN的定位策略，递归地缩小整个图像的搜索区域，直到实现目标人的精确定位。本文首先对分离模型和联合模型进行了系统的比较，并指出分离模型的解能改善检测和再识别的结果。行人检测。行人检测是规范的目标检测，特别是当手工制作的功能被广泛使用时。经典的HOG描述符[12]是基于局部图像差异，并成功地表示特殊的头肩形状的行人。提出了一种可变形零件模型（DPM）[13]来处理变形，并且仍然使用HOG作为基本特征。最近，积分通道特征（ICF）检测器[14，15，16]变得流行，因为它们在快速运行的同时实现了显着的改进。近年来，convnets也被用于行人检测，并进一步推动了这一进程[17，18，19，20]。一些作品使用R-CNN架构，其依赖于ICF来生成提案[17，18]。针对端到端的过程，采用了更快的R-CNN[6]，并且通过应用适当的自适应[9，21]实现了最佳结果。因此，我们在本文中使用自适应的Faster R-CNN检测器检测器作物昂纳通道连接信道重加权间隙&FC损失OIM作物NF-NetSEBlock特征向量⒩⒩4D. Chen等人人员重新识别早期的人员重新识别方法专注于手动设计区分特征[22，23，24，25，26]，使用显著区域[27]和学习距离度量[28，29，30，31，32]。例如，Zhaoet al. [25]建议密集地组合颜色直方图和SIFT特征作为最终的多维描述符向量。Kostinger等人[28]提出了KISS方法，以从等价约束学习距离度量。基于CNN的模型已经引起了广泛的关注，因为成功的应用，由两个先驱作品[33，34]。大多数CNN模型都可以可分为两组。第一组使用暹罗模型，图像对[33，34，35，36，37，38]或三元组[39，40]作为输入。这些作品的主要思想是尽量缩小同一个人之间的特征距离，尽量扩大不同人之间的距离。第二组作品将重新识别任务制定为分类问题[41，42，2]。分类模型的主要缺点是它们需要更多的训练数据。Xiao等[41]建议组合多个数据集进行训练，并通过域引导的丢弃来改进特征学习。Zheng等[42，2]指出，即使没有仔细的样本选择，分类模型也能够达到比siamese模型更高的准确性。最近，注意力机制[43，37，44，45，46]已被采用来学习更好的特征以用于人的重新识别。例如，HydraPlus-Net [43]在从网络中的多个层提取的空间关注区域内聚合多个特征层PDC模型[46]用姿势归一化图像丰富了人的表示，并通过通道注意力对特征进行重新加权。在本文中，我们还将个人重新识别制定为分类问题，并且我们建议通过添加具有空间注意力（实例掩码）和通道重新加权（SEBlock）的腋流来强调聚合表示中的前期信息，这类似于HydraPlus-Net和PDC模型。然而，我们的工作与他们的不同之处在于，我们的工作中的注意机制是以不同的动机引入的，这是考虑前景-背景关系，而不是局部-全局或部分-整体关系。此外，我们的模型的架构更加清晰和简洁，以及更实用的训练策略，而无需多阶段的微调。3方法如图1，我们提出的人搜索方法包括两个阶段：足部检测和重新识别。在本节中，我们首先概述我们的框架，然后分别描述这两个阶段的更多细节。3.1概述首先将全景图像馈送到行人检测器中，行人检测器输出几个绑定框以及它们的置信度分数。我们移除置信度分数低于给定阈值的边界框。只有剩余的被re-ID网络使用。在将检测到的人发送到重新识别阶段之前，对检测到的人进行后处理。具体来说，我们以γ（γ>1）的比率扩展每个RoI（感兴趣区域）以包括更多上下文并从整个图像中裁剪出人在通过掩码引导的双流CNN模型进行人员搜索5为了将前景人与背景分离，我们对整个图像应用现成的实例分割方法FCIS[10]，然后通过多数投票将人指定到正确的掩模之后，对于每个人，我们获得一对图像，一个仅包含前景人，另一个包含前景和背景。图1示出了一个示例。二、接下来，在re-ID模型中，成对图像经过两个不同的路径，即F-Net和O-Net，用于个体建模。然后，来自两个路径的特征图被SEBlock连接并重新加权[47]。在通道重新加权之后，我们使用全局平均池化（GAP）将二维特征图池化为特征向量最后，将特征向量投影到L2归一化d维子空间作为最终身份描述符。行人检测器和re-ID模型是独立训练为了避免检测器导致的错误，我们使用地面实况注释而不是检测来训练re-ID模型。3.2行人检测我们使用更快的R-CNN [6]检测器进行行人检测。Faster R-CNN架构由用于特征提取的基础网络、用于建议生成的区域建议网络（RPN）和用于最终预测的分类网络在本文中，我们使用VGG16 [48]作为我们的基础网络。顶部卷积层“conv53”产生512个通道的特征图，其中图像分辨率降低了16倍根据[9]，对输入图像进行上采样是用于补偿的合理方式。RPN建立在'conv5 3'上以预测行人候选框。我们遵循[6]中的锚点设置，并设置统一的尺度，从我们想要检测的最小和最大的人。RPN产生了大量的建议，因此我们应用了一个简单的非最大抑制（NMS），其交集超过并集（IoU）阈值为0.7，以去除重复的建议，并通过给定的阈值切断低得分的建议。然后，剩余的建议被发送到分类网络，其中RoI池化层（512×7×7）用于为每个建议生成相同长度的特征。最终的检测置信度和相应的边界盒回归参数由全连接层回归在边界框回归之后，应用具有0.45的IoU阈值的另一NMS，并且切割低得分检测关闭.基础网络，RPN和分类网络使用随机梯度下降（SGD）进行联合训练。3.3通过掩码引导的双流CNN模型进行在获得每个人的ROI（从检测器或地面实况）之后，我们的目标是提取有区别的特征。首先，我们以γ的比率扩展每个RoI以包括更多上下文。然后，我们提出了一个两个流的结构，分别提取前景的人和整个图像的特征。两个流中的要素包括6D. Chen等人BbçMBBMF操！F0WGAP FC ReLU FC Sigmoid算法1前景分离I0输入：RoIb∈N4，扩展比γ∈R，图像I∈Rh×w×3，实例掩码M∈Nh×w输出：实例I′0的掩蔽图像M∈Rh′×w′×31：bγ←将b扩展为γ2：根据bγ从图像I裁剪出图像块I’。3：根据bγ从掩模M裁剪出掩模片M’4：通过多数表决找到M′内部的支配实例k5：通过M′←（M′==k）二进制化M ′6：通过逐元素投影简介：图二. 前景分离′←（M′⊙I′）图三. [47]第四十七话在一个实施例中，将多个特征级联为RoI的丰富表示，并且应用重新加权操作以突出更多信息特征，同时抑制不太有用的特征。前景分离关键步骤是为每个ROI分离前景和背景。我们首先在整个图像上应用实例分割方法FCIS [10]以获得人的分割掩模之后，我们通过多数投票将每个RoI在掩模边界内和外的那些像素分别被认为是前景和背景。我们在算法1中描述了详细的分离过程，并在图1中示出了示例。二、双流建模。前景分离后，每个人的图像对被送入MGTS模型。具体地，前景图像通过F-Net，原始图像通过O-Net。F-Net和O-Net共享相同的架构，但它们的网络参数不共享。对应的特征图，表示为′′ ′′F，F ∈Rc×h×w ，是单独生产的。这里c表示改变的数量。F Onels，h′′，w′′是FF和FO的高度和宽度。然后沿通道轴将特征图关联为F∈R2c×h′′×w′′。特征重新加权。我们进一步使用SEBlock [ 47 ]对所有特征图进行重新加权，SEBlock [47]对卷积特征通道之间的相互依赖性进行建模。SEBlock的架构如图1B所示3 .第三章。它被定义为从F到F′的变换：F′=F·w，其中（1）w=[w1，w2，. . . ，w2c]， wi∈ [0，1]=σ（W2δ（W1fGAP（F）），σ和δ分别指Sigmoid激活和ReLU [49]函数W1和W2是两个FC层的权重矩阵。fGAP是GAP的操作，我B通过掩码引导的双流CNN模型进行人员搜索7JK图4.第一章开源版FCIS生成的中大-中山大学（第一行）和PRW（第二行）实例分割结果[10]·表示逐通道乘法。SEBlock通过使用加权向量w重新加权通道特征来学习选择性地强调信息特征并抑制不太有用的特征。以这种方式，前景和背景信息被充分探索和重新校准，因此有助于优化用于人重新识别的最终特征描述符。然后，重新加权的特征图F’通过GAP汇集到特征向量f∈R2c，并且通过FC层进一步投影到L2归一化的d维子空间WT fTxT = WTfT，W ∈ R2c×d.（二）整个MGTS模型使用地面真实ROI进行训练，并由在线实例匹配损失（OIM）[3]进行监督OIM的目标是最大化预期对数似然：L=Ex[logpt]，其中（3）exp（vT x/τ）pt=ΣLj=1tΣexp（vTx/τ）+Qk=1、exp（uTx/τ）表示x属于类别t的概率。τ是与Softmax函数中的温度因子相似的温度因子。是第t个类的类中心特征向量。它存储在大小为L的查找表中，并在训练期间以η的动量递增更新：vt←ηvt+（1−η）x，（4）其中u，k是未标记人的特征向量。大小为Q的循环队列用于存储u，k个向量。它在训练过程中弹出旧功能并推送新功能。4实验在本节中，我们首先介绍我们在实验中使用的数据集和评估协议，然后是一些实现细节。之后，我们展示实验性的8D. Chen等人结果与比较国家的最先进的方法，其次是消融研究，以验证我们的方法的设计。4.1数据集香港中文大学中大-中山大学[3]是一个大规模的人物搜索数据库，由手持摄像机捕获的街道/城市场景图像或从电影快照中选择的图像它包含18184幅图像和96143个行人边界框。共有8，432个标记身份，其余行人作为阴性样本进行识别。我们采用数据集提供的标准训练/测试分割，其中训练集包括11，206个图像和5，532个身份，而测试集包含2，900个探测人员和6，978个图库图像。此外，每个探针每个子对应于在数据集中定义的具有不同大小的若干图库子集PRW。 PRW数据集[2]是从大学校园中的六个摄像机捕获的视频帧中提取的。有11，816个帧被标注了34，304个边界框。在所有行人中，有932人的身份被标记，其余的人被标记为类似中大中山大学的未知人士训练集包括5，134张图像，其中包括482个不同的人。测试集包含2，057个探测人员和6，112个图库图像。与中大中山大学不同的是，整个画廊集作为搜索空间每一个探测者。4.2评价方案行人检测。用平均查准率（AP）和查全率来衡量行人检测的性能.当且仅当检测边界框与任何地面实况注释的重叠率大于0时，检测边界框才被视为真阳性。五、人员搜索。我们采用平均精度（mAP）和累积匹配特征（CMC top-K）作为重新识别和个人搜索的性能度量。mAP度量反映了从图库图像中搜索探针人CMC top-K被广泛用于人员重新识别任务，其中如果存在具有大于或等于阈值的IoU的与地面实况重叠的前K个预测的边界框中的至少一个，则对匹配进行在整篇论文中，阈值设置为0.5。4.3实现细节我们用Pytorch实现了我们的系统。基于VGG的行人检测器使用ImageNet预训练模型进行初始化它使用批大小为1的SGD进行训练输入图像的大小调整为短边至少有900个像素，长边最多有1500个初始学习率为0.001，衰减系数为0.1 分别在60K和80K次迭代时，并保持不变，直到模型在100K次迭代时收敛。前两个卷积块RoI膨胀比γ被设定为1.3。我们的MGTS模型的F-Net和O-Net都基于ResNet 50[50]，并在最后一个卷积层（'conv 5 3'）截断的通过掩码引导的双流CNN模型进行人员搜索9将输入图像块重新缩放为256×128的任意大小，并将批大小设置为128。该模型以0.001的初始学习率进行训练，在11个时期后衰减到温度标量τ、循环队列大小Q和OIM损耗中的动量η被设置为1/30、5000和0。5的比例。如果不是，则特征尺寸d被设置为128遍及纸张指定的.至于前景提取，我们使用在COCO trainval35k [51]上训练的现成实例分割方法FCIS，无需任何微调1。来自CUHK-SYSU和PRW的实例掩码的样本结果如图所示。4，其中我们可以看到FCIS很好地推广到两个数据集。4.4与最新方法的比较在本小节中，我们报告了我们在CUHK-SYSU和PRW数据集上的人员搜索结果，并与几种最先进的方法进行了比较，包括OIM [3]，IAN [4]，NPSM [5]和IDE [2]。除了上述联合方法之外，我们还与一些方法进行了比较，这些方法也在行人检测和人重新识别的两个步骤中解决了人搜索问题，类似于我们的方法。这些方法使用不同的行人检测器（DPM [13]、ACF [52]、CCF [53]、LDCF[54]）、人描述符（BoW [55]，LOMO [26]，DSIFT [25]）和距离度量（KISSME [28]，XQDA [26]）。中大-中山大学的成绩。表1显示中大中山大学以图库大小为100的个人搜寻结果。我们遵循[3]中定义的符号，其中我们的基于VGG的检测器被标记为ID-NetOIM是一个重新识别网络，使用地面真实ROI进行训练，并由OIM损失进行监督。与OIM相比，CNNv + IDNetOIM通过解决两个独立模型中的检测和重新识别任务，略微提高了通过进一步采用我们提出的MGTS模型，我们实现了83。0%mAP。我们的最终模型比最先进的方法性能高出5pp w.r.t.以上。mAP和2.5页w.r.t. CMC top-1.此外，我们评估了所提出的方法（CNNv + MGTS）在不同的画廊大小以及其他有竞争力的方法。图5示出了mAP如何随着[50，100，500，1000，2000，4000]的不同图库大小而变化我们可以看到，所有的方法遭受性能退化的画廊大小的增加。然而，我们的方法优于其他在不同的设置，这表明我们的方法的鲁棒性。此外，我们注意到，我们的方法和其他人之间的差距变得更大，画廊大小的增加。我们还展示了我们的方法和竞争基线OIM图中的一些定性结果。7.第一次会议。如在图中可以看到的，我们的方法在其中画廊人员穿着与探测人员相似的衣服的困难情况下执行得更好，可能在扩展的RoI中的上下文信息的帮助下，例如陪同人员（图）7（a）、7（d））、扶手（图7（d）），婴儿车（图。7（e））等。在图库条目与探测器1https://github.com/msracver/FCIS10D. Chen等人表. 1. 中大中山大学与100名858075706560555005001000150020002500300035004000图库大小图五. 性能比较在中大-具有不同图库大小的人（图）7（b）、7（c）），其中，从强调的前景人物中挖掘出更细微的差异，如发型和性别。图7（f）示出了OIM和MGTS都遭受不良照明条件的故障情况，这是相当具有挑战性的，并且在未来的工作中需要更多的努力。PRW上的结果。在表2中，我们报告了PRW数据集的评估结果。在[2]中探索了检测方法和重新识别模型的许多组合其中，基于R-CNN的ID-discriminativeEmbedding（IDEdet）和置信加权相似度（CWS）的R-CNN [13] + AlexNet [56]实现了最佳性能。相比之下，包括OIM，IAN和NPSM在内的联合方法都取得了更好的结果。但目前尚不清楚这种改进是来自联合解决方案，还是来自更深层次的网络（ResNet 50/ResNet 101）和性能更好的检测器（Faster R-CNN）的使用为了公平比较，我们还在我们的框架中使用了ResNet 50和Faster R-CNN，并且与联合方法相比实现了显着改进。具体来说，我们的表现比最先进的水平高出8。4页和10。2页w.r.t.mAP和top-1精度。这些结果再次证明了我们所提出的方法的有效性。4.5消融研究根据Sec. 4.4，我们在两个标准基准上都获得了对我们的基线方法OIM [3]的本文方法与OIM方法的主要区别在于：（1）我们将行人检测和重新识别任务分开解决，而不是联合解决。我们在它们之间不共享特征。(2)在重新识别网络中，我们在两个并行流中对前景和原始图像进行建模，以获得丰富的表示。为了了解上述两个变化的影响，我们在中大中山大学进行了分析实验，画廊大小为100，并在下面提供讨论。整合与分居我们研究了检测和再识别任务之间的共享特征对两者绩效的影响。我们NPSMIANOIM最大平均接入点方法最大平均接入点（%）前1名（%）CNN + DSIFT +欧氏34.539.4CNN + DSIFT + KISSME47.853.6CNN + BoW +余弦56.962.3CNN + LOMO + XQDA68.974.1CNN + IDNet68.674.8OIM [3]75.578.7伊恩[4]76.380.1NPSM [5]77.981.2通过掩码引导的双流CNN模型进行人员搜索11方法联合AP（%）召回率（%）OIM-ours✓69.575.6美国有线✗78.075.7方法联合最大平均接入点（%）前1名（%）表. 2. PRW结果比较方法最大平均接入点（%）前1名（%）DPM-Alex + LOMO + XQDADPM-Alex + IDE检测DPM-Alex + IDE检测 + CWS13.020.320.534.147.448.3ACF-Alex + LOMO + XQDAACF-Alex + IDE检测器ACF-Alex + IDE检测器 + CWS10.317.517.830.643.645.2LDCF + LOMO +XQDA LDCF + IDE检测LDCF + IDE检测 + CWS11.018.318.331.144.645.5OIM [3]21.349.9伊恩[4]23.061.9NPSM [5]24.253.1我们的（CNN v +IDNetOIM）28.266.7我们的（CNNv + MGTS）32.672.1表. 3. 中大中山大学的整合/分离研究，画廊规模为100。(a)：联合训练模型和普通检测器之间的检测器性能比较;OIM-ours是我们对OIM的重新实现。(b)：集成人员搜索模型和简单re-ID模型(a)（b）第（1）款在表3（a）中，我们比较了联合训练模型和普通检测器的检测性能我们可以看到，联合训练的检测器比普通检测器的性能低8倍。5页w.r.t.当达到相同的召回。类似地，我们在表3（b）中对联合训练模型和普通re-ID网络之间的re-ID性能进行了比较。联合训练的OIM方法的人搜索性能为0。6页和1。在mAP和top-1准确性方面比vanilla re-ID net（IDNetOIM）低2从以上比较，我们得出结论，联合训练损害检测和re-ID性能，因此它是一个更好的解决方案，分别解决它们。视觉组件研究。在这一部分中，我们研究了前景和原始图像信息的贡献，一个重新识别系统。为了排除检测器的影响，所有以下模型都使用CUHK-SYSU上的地面真实ROI进行训练和测试，画廊大小为100。它们基于ResNet50，并由OIM损失进行监督考虑输入RoI块的四个变体及其组合：（1）原始RoI（0）;（2）掩蔽的前景12D. Chen等人（F）;（3）掩蔽的背景（B）;（4）具有比率γ的扩展RoI（E）。通过掩码引导的双流CNN模型进行人员搜索13表. 4. 视觉组件研究。图例：0：原始图像; F：仅具有前景人物的掩蔽图像; B ：仅具有背景的掩蔽图像;E：以γ的比率扩展RoI60.0k50.0k40.0k30.0k20.0k10.0k0.0k91011121314（一）25.0k20.0k15.0k10.0k5.0k0.0k91011121314(b)见图6。CUHK-SYSU（a）和PRW（b）的SEBlock权重统计。x轴表示N20（F）：前20个最大权重中的前景相关权重y轴表示训练实例比较结果如表4所示，从中我们得到以下观察结果：1. 背景是重新识别的重要线索 mAP下降2。8pp时，只使用前景，而放弃所有的背景。更有趣的是，仅使用背景信息产生34的mAP。2%，可进一步推高至38. 7%，如果ROI扩大。2. 在两个流中对前景和原始图像进行建模改善了结果sig。非常漂亮双流模型O + F + E达到89. 1%mAP，超过单流模型O + E 11. 4页4.6模型复核为了进一步理解两个流的各自影响，我们提供了对前景与前景的SEBlock权重的分析。原始图像表示。该分析基于第2节中的训练模型来实现。4.4，我们喂所有的火车-分别在中大中山大学（96，143份建议书）和PRW（42，871份建议书）进行了抽样调查。对于样本i，我们计算三个度量：（1）F-Net通道的平均权重，Avgi（F）;（2）O-Net通道的平均权重，Avgi（O）;（3）整个网络的前20个通道中来自F-Net的通道数，N20（F），两个数据集的所有训练样本的N20（F）的直方图如图所示。六、根据上述统计数字的分析，我们有以下发现：1. 不等式Avgi（F）> Avgi（O）对于所有样本成立。它表明，一般来说，前景补丁比原始补丁对最终特征向量的贡献更大，因为它涉及每个身份的更多信息线索。2. 从图6中，对于大多数样本，前20个声道中的大多数来自前景流。这一观察结果表明，最翔实的线索是来自前景补丁。3. 尽管前20个通道中的大多数由前景补丁表示，但我们仍然观察到相当多的顶部通道来自原始补丁。这是一个很好的证据，表明包含在原始图像块的上下文信息是有帮助的重新识别任务。OFBE最大平均接入点（%）前1名（%）✓✓✓✓✓✓✓78.581.775.378.734.235.977.781.114D. Chen等人表. 5. 不同γγ值1.01.11.21.31.41.5最大平均接入点（%）85.685.488.989.187.887.1前1名（%）86.686.289.890.088.287.8表. 6. 中大中山大学与画廊大小为100的比较结果。这三个模型都是用地面实况边界框训练和测试的。整体运行时间包括行人检测、遮罩生成（如果使用）和人物特征提取掩模mAP（%）前1名（%）总体百分比-78.581.70.65FCIS89.190.01.27边界框85.186.00.69此外，通过改变RoI扩展值γ来检查上下文信息量的影响。我们在CUHK-SYSU上进行了一组实验，画廊大小为100，并在表5中列出了结果，从中我们可以得出直观的结论：1）当γ ∈ [1]时，γ相对稳定。21. 5];以及2）适量的上下文信息比没有上下文好，而太多的背景可能会有害4.7运行时分析和加速我们在Tesla K80 GPU上实现了我们的运行时分析对于1500×900的输入图像，我们提出的方法平均需要1.3秒，包括626毫秒对于行人检测，579ms用于分割掩模生成，另外64ms用于人重新识别。我们注意到一半的计算时间用于生成分割掩码。为了加速，我们提出了一种替代方案，使用紧密的地面实况边界框作为“弱”掩模，而不是“准确”的FCIS掩模。结果见表。6，从中我们可以看出，使用但是，使用边界框因为弱掩模仍然实现了有希望的结果，其在相当的时间成本下以较大的裕度（7pp mAP）优于不使用任何掩模的单流模型。因此，我们提出的方法可以加速到2倍，性能下降可接受，同时仍然超过了最先进的结果。5结论在本文中，我们提出了一种新的基于深度学习的个人搜索方法。该任务分两步完成：首先，我们应用Faster R-CNN检测器在图库图像上进行行人检测;然后通过重新识别网络在探针图像和输出检测之间进行匹配。我们通过分别训练检测器和重新识别网络来获得更好的结果通过对前景和原始图像进行建模，进一步提高了重新识别的准确率通过掩码引导的双流CNN模型进行人员搜索15ra0n. 7k6- 1ra0n. 6k5- 2ra0n. 4k6-3ra0n. 8k1- 1ra0n. 8k0-2ra0n. 6k4- 1ra0n. 5K5-2ra0n. 8k4-1ra0n. 6k4- 1ra0n. 4k3-4ra0n. 8k7-1ra0n。8k6-2mm探针（一）探针（b）第（1）款探针（c）第（1）款探针探针探针（d）其他事项ra0n. 4k1-2ra0n. 3k9-3（e）（f）第（1）款见图7。OIM [3]（每个子图中的上排）和我们的方法（下排）的定性搜索结果。排名和相似性得分显示在每个图像块下;OIM会错误地将高相似性分配给一个穿着与探针相似衣服的错误的人，而我们的模型成功地将其排名下降。当面对相似的(f)是具有低可见性的故障情况。对两个子网中的图像块进行成像以获得丰富的表示。实验结果表明，我们提出的方法显着优于国家的最先进的方法在两个标准的基准。受成功利用分割的前景补丁进行额外的特征提取的启发，对于未来的工作，我们将探索在联合框架中优化分割掩模和识别精度，以获得更精细的掩模。致谢本工作得到了国家自然科学基金项目的资助。 U1713208 、 61472187 和61702262，973计划编号2014CB349303，计划ra0n. 7k5-1ra0n. 6k6-2ra0n。6k0-3ra0n. 7k4-1ra0n。7k1-2ra0n. 6k5-1ra0n。6k1-2ra0n. 5k4-1ra0n。5k3-2ra0n。5k2-3ra0n. 5k6-1ra0n。5k4-2ra0n. 7k7-1ra0n。7k6-216D. Chen等人“长江学者基金”和通过掩码引导的双流CNN模型进行人员搜索17引用1. 徐，Y.，妈妈，B.，黄河，巴西-地Lin，L.：通过对人物共性和人物独特性进行联合建模，实现场景中的人物搜索。In：ACM2. 郑湖，张洪，孙，S.，Chandraker，M.，杨，Y.，Tian，Q.：在野外进行人员重新鉴定。在：CVPR中。（2017）2，3，4，8，9，103. Xiao，T.，Li，S.，王，B.，林，L.，Wang，X.：联合检测和识别特征学习的人员搜索。在：CVPR中。（2017）2，3，7，8，9，10，11，144. 肖，J.，Xie，Y.，（1986 - 1990），中国科学院，Tillo，T. Huang，K.，魏，Y.，Feng，J.：Ian：个人搜索的个人聚合网络。arXiv预印本arXiv：1705.05552（2017）2，3，9，10，115. 刘洪，冯杰，杰，Z. Jayashree，K.，Zhao，B.，Qi，M.，姜杰，Yan，S.：神经人搜索机器。In：ICCV.（2017）2，3，9，10，116. Ren，S.，他，K.，格尔希克河孙杰：更快的R-CNN：利用区域建议网络进行实时目标检测。TPAMI39（6）（2017）2，3，57. Le，C.V.，Hong，Q.N.，Quang，T. T.，Trung，N.D.：基于超像素的背景去除准确性显著者再识别。In：ICCE-Asia.（2017年）28. 阮T.B.范副总统Le，T.L.，Le，C.V.：背景去除以改善基于显著性的在：KSE。（2016年）29. Zhang，S.，（1991），中国农业科学院，Benenson河Schiele，B.：Citypersons：用于行人检测的多样化数据集在：CVPR中。（2017）3，510. 李，Y.，Qi，H.，Dai，J.，吉，X.，魏云：完全卷积的实例感知语义分割。在：CVPR中。（2017）3，5，6，711. Wen，Y.，张，K.，Li，Z.，Qiao，Y.：一种用于深度人脸识别的区分性特征学习方法。In：ECCV.（2016年）312. Dalal，N.，Triggs，B.：用于人体检测的定向梯度直方图。在：CVPR中。（2005年）313. Felzenszwalb，P.F.，Girshick，R.B.，McAllester，D. Ramanan，D.：使用区分性训练的基于部分的模型进行对象检测。TPAMI（2010）3、9、1014. Dollar，P.，Tu，Z.，Perona，P.，Belongie，S.：集成通道功能。在：BMVC.（2009年）315. Zhang，S.，（1991），中国农业科学院，Bauckhage，C. Cremers，A.B.：知情的haar特征改善行人检测。在：CVPR中。（2014年）316. Zhang，S.，（1991），中国农业科学院，Benenson河Schiele，B.：用于行人检测的过滤通道特征。在：CVPR中。（2015年）317. Zhang，S.，（1991），中国农业科学院，Benenson河Omran，M.，Hosang，J.，Schiele，B.：我们离解决行人检测问题还有多远？在：CVPR中。（2016年）318. Zhang，S.，（1991），中国农业科学院，Benenson河Omran，M.，Hosang，J.，Schiele，B.：在行人检测中达到人的性能。TPAMI（2018）319. 欧阳，W. Wang，X.：联合深度学习用于行人检测。In：ICCV. （2013年）320. 欧阳，W.Wang，X.：一种用于行人检测和遮挡处理的判别式深度模型在：CVPR中。（2012年）321. Zhang，S.，（1991），中国农业科学院，杨杰，Schiele，B.：cnns中基于引导注意的遮挡行人检测。在：CVPR中。（2018年）322. 王，X.，Doretto，G. Sebastian，T. Rittscher，J.，Tu，P.：形状和外观上下文建模。In：ICCV.（2007年）418D. Chen等人23. Gray，D.，陶，H.：具有局部特征集合的视点不变行人识别In：ECCV.（2008年）424. Farenzena，M.，巴扎尼湖Perina，A.，Murino，V.，Cristani，M.：通过对称驱动的局部特征累积的人再识别在：CVPR中。（2010年）425. 赵，R.，欧阳，W.Wang，X.：无监督显着性学习用于人员重新识别。在：CVPR中。（2013年）4、9通过掩码引导的双流CNN模型进行人员搜索1926. Liao，S.，Hu，Y.，Zhu，X.，李S.Z.：基于

下载后可阅读完整内容，剩余1页未读，立即下载