多尺度匹配下的人物搜索

33 浏览量更新于2023-10-13 收藏 2.22MB PDF 举报

文件标签

深度学习

身份认证购VIP最低享 7 折!

30元优惠券

基于多尺度匹配的人物搜索徐兰1、下田朱2、龚绍刚11伦敦玛丽女王大学x. qmul.ac.uk，s. qmul.ac.uk2VisionSemantics Ltdeddy@visionsemantics.com抽象。我们考虑在无约束的场景图像的人搜索的问题。现有的方法通常集中在提高人检测的准确性，以减轻由噪声人自动检测导致的不对准、误检测和误报警所施加的负面影响。与之前的研究相比，我们表明，通过稍微改进的最先进的深度学习对象检测器（例如，深度学习对象检测器）可以实现足够可靠的人实例裁剪。Faster-RCNN），而人物搜索中研究不足的多尺度匹配问题是一个更严重的障碍。在这项工作中，我们通过提出一种跨级别语义对齐（CLSA）深度学习方法来解决这种多尺度人员搜索挑战，该方法能够在统一的端到端模型中学习更具鉴别力的身份特征表示。这是通过利用深度神经网络的网络内特征金字塔结构来实现的，该深度神经网络由新颖的跨金字塔级语义对齐损失函数增强。这有利地消除了对构建计算上昂贵的图像金字塔和复杂的多分支网络架构的需要。广泛的实验显示了CLSA在两个大型人物搜索基准数据集上优于最先进的人物搜索和多尺度匹配方法的建模优势和性能优势：中大中山大学及PRW.关键词：人物搜索;人的检测与再识别多尺度匹配;特征金字塔;图像金字塔;语义对齐。1介绍人员搜索旨在在整个不受约束的场景图像库中找到探测人员[41]。它是人员重新识别（re-id）[12]的扩展形式，除了匹配身份类别之外，还考虑了自动检测场景图像中的人员的要求与传统的人re-id问题不同，假设图库图像是手动裁剪或仔细过滤的自动检测的边界框[40，24，3，15，20，44，25，39，37，2，44]，人搜索处理具有许多错误裁剪和未知程度的未精确检测这产生了一个更具挑战性的匹配问题，特别是在人的re-id的过程此外，自动检测的人框通常在尺度（分辨率）上比常规的人框变化更显著。2A.作者和B。作者P@yc@µ$pg@3person re-id benchmarks（Fig. 1（b）），由于人与摄像机之间固有的不受控制的距离（图1（a））。因此，它本质上是一个多尺度匹配问题。然而，这个问题目前在个人搜索中研究不足[41，47，28]。（a）比额表差异探头图库(b)0.4CUHK03中文大学0.30.20.10<5050-100100-150150-200200-250250-300300-350350-400四百到四百五十450-500500-550550-600>600P@y3oµ bo µdjµg box h@jgh$（pjx@l3）图1.一、个人搜索中固有的多尺度匹配挑战的说明（a）自动检测的人边界框在尺度上显著变化（二）中大-中山大学的人员规模分布（人员搜寻基准）较人手修订的中大-03（人员重新识别基准）涵盖的范围广泛得多。在这项工作中，我们的目标是解决多尺度匹配问题的人搜索。我们表明，这是一个重要的因素，在提高模型匹配的性能，给定的任意和未知的大小变化的人在自动检测的边界框。然而，现有的方法[41，47，28]专注于场景图像中的人检测和定位，这并不是整体搜索性能的严重瓶颈，如我们的实验所示例如，使用地面真实人物边界框仅带来1.5%的Rank-1增益，同时使用ResNet-50 [14]进行CUHK-SYSU基准[41]上的人物搜索相比之下，使用相同的ResNet-50模型，我们提出的多尺度匹配学习在相同的基准测试中将人员搜索Rank-1率提高了6.0%（图2）。（六）。在这项研究中，我们做了三个贡献：（1）我们确定了多尺度匹配问题的人搜索-一个元素在文献中丢失，但发现是显着的提高模型的性能。（2）我们提出了一种跨层次语义对齐（CLSA）深度学习方法来解决多尺度匹配的挑战。这是基于学习端到端的网络内特征金字塔表示，其在应对自动检测的人边界框的可变尺度方面具有优异的鲁棒性。（3）我们改进了Faster-RCNN模型，以便在不受控制的场景中进行更可靠的人员定位，从而促进整体搜索性能。在两个实验台上进行了大量实验基于多尺度匹配的3标记CUHK-SYSU [41]和PRW [47]显示了所提出的CLSA相对于最先进方法的人员搜索优势，在排名-1的准确度上，CUHK-SYSU上的最佳竞争对手2相关工作人检索人物搜索是最近引入的匹配问题针对一组图库全场景图像的探测人边界框[41，47]。由于在自动检测过程中出现的不受控制的假警报、误检测和未对准，这是具有挑战性的在文献中，只有少数人搜索作品[41，47，28]。Xiao等[41]提出联合检测和re-id深度学习模型，以寻求其互补优势。Zheng等人[47]研究了人物检测对身份匹配性能的影响。Liu等人。[28]考虑递归搜索细化，以更准确地定位场景中的目标人物。虽然现有的方法专注于检测增强，但我们表明，通过最先进的深度学习对象检测器进行小的改进，人员定位并不是一个很大的限制。相反，多尺度匹配问题变成了一个更严峻的挑战，在人的搜索。换句话说，解决多尺度问题可能会带来更多的性能增益，而不是改善人检测（图2）。6（c））。人员重新识别人员搜索本质上是传统人员重新识别问题[12]的扩展，具有场景中自动人员检测的附加要求鉴于re-id数据集的手动构造性质，图库图像的尺度多样性往往受到限制。人类很难验证和标记小边界框的人身份，因此导致对大框的选择和标记偏向（图2）。（b）款。因此，固有的多尺度匹配挑战在re-id基准中被人为地抑制，因此失去了测试真实世界模型鲁棒性的机会。现有的re-id方法在算法设计中大多忽略了虽然已经做出了广泛的努力来解决re-id问题[39，23，7，36，40，24，3，46、20、48、37、17、25、22、38、5、6]，仅存在有限的考虑多尺度匹配的工作[5、29]。除了所有这些现有的方法之外，我们的CLSA是专门设计用于探索深度学习中的网络内特征金字塔，以更有效地解决人员搜索中研究不足的多尺度挑战。3面向人员搜索的跨层次语义对齐我们希望建立一个人搜索系统，能够自动检测和匹配的人在不受约束的场景与任何探头的人。由于公共空间中人与摄像机之间的任意距离，人的图像固有地以不同的尺度和分辨率被捕获。这提出了多尺度匹配的挑战。为了克服这个问题，我们制定了一个跨级别语义对齐（CLSA）深度学习方法。里昂证券概览4A.作者和B。作者无约束场景图像帧(a)人物检测人物检测(b)多尺度自动检测的人物边界框比例要素表达(c)通过多重身份匹配用CLSA重新识别网络示于图二、CLSA包含两个组件：（1）人检测，其定位图库场景图像中的所有人实例以促进后续身份匹配。(2)人员重新识别，其将探测图像与大量任意比例图库人员边界框（CLSA的关键组成部分我们在下面提供组件详细信息图二.提出的多尺度学习人员搜索框架的概述。(a)用于以（b）变化的尺度（分辨率）从整个场景图像裁剪人的人检测(c)然后通过re-id模型进行人员身份匹配。3.1人物检测作为预处理步骤，人员检测对于实现准确搜索很重要[41，47]。我们采用Faster-RCNN模型[35]作为CLSA检测组件，因为它具有检测不同大小物体的强大能力在不受约束的场景中。为了进一步提高人检测的性能和效率，我们引入了一些设计改进的原始模型。(1) 我们没有使用传统的RoI（感兴趣区域）池化层，而是将区域特征映射裁剪并调整为14×14像素，并进一步将其最大池化为7× 7，以获得更好的效率[4]。(2)在预训练图像Ne t -1 K上的背基ResNet-50n之后，在对目标人员搜索数据进行微调时，我们确定了构建块（4层）。这允许保留从较大大小的源数据学习的共享低级特征，同时使模型适应目标数据。(3)我们保持和利用所有大小的建议，以减少错误检测率在极端规模的非最大抑制（NMS）操作之前在部署中，我们考虑得分高于0的所有检测框。5，而不是从每个场景图像中提取固定数量的框[47]。这是因为图库场景图像可以包含变化的（先验未知的）数量的人。3.2基于跨层次语义对齐的鉴于自动检测的人边界框在任意尺度从画廊场景图像，我们的目标是建立一个人的身份搜索模型鲁棒性的多基于多尺度匹配的5尺度匹配为此，我们探索了开创性的图像/特征金字塔概念[1，21，31，8]。我们的动机是，单尺度特征表示模糊了在不同尺度下对个人身份识别有用的显著和有区别的信息;并且，在特征金字塔内的尺度偏移抵消了在个人身份识别尺度上的“尺度变化”（更多的“尺度变化”）内置特征金字塔我们研究了深度卷积神经网络（CNN）中的多尺度特征表示学习，以利用在单个输入图像尺度上形成的内置特征金字塔结构虽然CNN特征对图像尺度的变化更鲁棒，但金字塔在寻求更准确的检测和识别结果方面仍然有效[27]。对于CNN架构，我们采用了最先进的ResNet-50 [14]作为骨干网络（图1）。3）身份匹配组件。在这项研究中，我们特别利用了特征金字塔层次结构，从底层到顶层具有从低到高的语义级别，在模型学习优化中自动建立给定ResNet-50中的分块网络结构，我们使用顶部K（在我们的实验中K= 3）块的最后一个conv层来构建计算高效的K级特征金字塔。每个块的最深层应该具有最多的语义特征。尽管如此，利用ResNet-50特征分层结构并不简单。这是因为内置金字塔由于层的不同深度而在各个级别之间具有很大的语义间隙来自较低层的特征对于人匹配来说不太具有区分性，因此如果与来自较高层的特征联合应用，则可能损害整体为了解决上述问题，我们通过引入跨级别语义对齐（CLSA）学习机制来改进网络内特征金字塔。我们的目标是实现一个功能金字塔的所有级别编码所需的高层次的人的身份语义。形式上，为了训练我们的个人身份匹配模型，我们采用softmax交叉熵（CE）损失函数来优化身份分类任务。训练人员边界框（I，y）上的CE损失计算为：. ex p （W x）ΣLce=−logyΣ| Y| exp（Wx）（一）i=1i其中，X指定最后一层的I的特征向量，Y指定训练恒等类空间，并且Wy指定第y（y∈ Y）个类预测函数参数。在我们的例子中，x是金字塔的顶层，也表示为xK。对于前K个ResNet块中的任何一个，我们通过在输出特征图上应用平均池化层和FC层来获得x（图12）。第3（b）段）。考虑到跨层的不同特征尺度分布[30]，我们通过批量归一化和ReLU非线性进一步归一化x。以这种方式，我们计算所有K个金字塔层{x1，...，xK}的特征表示。回想一下，我们的目标是使所有级别的特征表示具有同一性。为此，我们首先通过FC层将这些特征中的每一个{x1，...，xK}投影到具有与Y相同维度的身份语义空间中。的6A.作者和B。作者里昂证券损失（I）里昂证券损失（二）a㈠a（II）a（III）跨层的地面实况b（一）低层特征图b（II）中级特征图b（III）高级特征图a（III）a（II）a㈠JJJJJJ低层语义ReLU批次正常FC平均池化中级语义ReLU批次正常FC平均池化高层语义ReLU批次正常FC平均池化Conv1Res2XRes3XRes4XRes5X图3.第三章。在基于ResNet-50的实现中提出的跨级别语义对齐（CLSA）方法的概述所得到的语义类概率向量被表示为{pi，···，pK}，其中pk=[pk，···，pk]，k∈{1，· · ·，K}。将最强语义从1| Y|顶部（K-th）金字塔水平到较低（s-th）水平，我们引入Kullback-Leibler基于发散的跨级语义对齐（CLSA）损失公式化-受知识蒸馏的启发[16]：Lclsa（s）= Σ|Y|j=1p~Klog p~Kp~s.（二）当p~k是一个由特定对象提供的对象时p~k=Σ exp（pk/T）、（3）J| Y|j=1 exp（pk/T）其中温度参数T控制软化程度（较高的值意味着更多的软化预测）。我们按照[16]中的建议设置T=3。为了实现端到端的深度学习，我们在传统的CE损失之上添加这个CLSA损失（等式（1））：L=Lce+T2KΣ−1Lclsa（s）（4）s=1基于多尺度匹配的7其中T2用作两个损失项之间的加权参数。通过CLSA特征金字塔进行身份匹配在部署中，我们首先通过向前传播任何给定的人边界框图像来计算CLSA特征金字塔。然后，我们将所有金字塔级别的特征向量连接起来，作为人员re-id匹配的最终表示。备注CLSA在精神上类似于少数人re-id匹配方法[5，29]。然而，这些方法采用图像金字塔方案，与在单个图像尺度上利用网络内特征金字塔的CLSA相比，因此更有效。FPN模型[27]也利用了内置金字塔。CLSA在许多基本方面不同于FPN：（1）FPN专注于对象检测和分割，而CLSA旨在解决细粒度身份识别和匹配。(2)FPN还执行特征图去采样，因此效率低于CLSA。（3）CLSA在低维类空间中执行语义对齐和转移，相比于更扩展的FPN的精确对齐。我们将在我们的实验中评估和比较针对CLSA的小规模学习方法（表4）。4实验数据集为了评估里昂证券，我们选择了两个人搜索基准：[41][47][48][49][49][49] 我们采用了表1中总结的标准评估设置具体而言，CUHK-SYSU数据集包含18，184个场景图像，8，432个标记的人物ID和96，143个注释的人物边界框。每个探测人员出现在从不同位置捕获的两个或更多个场景图库图像训练集有11，206张图像和5，532个探测人。在测试集内，探针集包括2，900个人物边界框，并且图库包含总共6，978个全场景图像。PRW数据集总共提供了11，816个视频帧和43，110个人物边界框。训练集具有来自5，704帧的482个不同的ID测试集包含2，057个探测人员以及6，112个场景图像的图库在边界框尺度方面， CUHK-SYSU 和 PRW 的范围分别为 37×13 至793×297和58×21至777×574这表明两个人搜索数据集存在固有的多尺度挑战。示例图像示于图1中。4.第一章对于人员检测，如果与地面实况重叠超过50%，则人员框被认为是正确的[41，47]。对于个人身份匹配或 re-id ，我们采用累积匹配特征（ CMC ）和平均平均精度（mAP）。CMC在每个单独的秩k上计算，作为在秩≤k处出现的真值匹配的探测累积百分比。mAP测量多个真值匹配的召回率，通过首先计算每个探针的精度-召回率曲线下的面积，然后计算所有探针的平均精度的平均值来计算[46]。实现细节我们采用Pytorch框架[33]进行以下所有实验。为了训练人员检测器组件，我们采用了SGD算法，动量设置为0.9，权重衰减为0.0001，迭代次数为110，000，批量大小为256。我们初始化了8A.作者和B。作者（b）第（1）款（一）画廊探针见图4。（a）CUHK-SYSU[41]（2）（3）（4）（5）（6）（7）（8）（9）（10）（11）（12）（13）（14）（15）（16）（17）（18）（19）（10）（19）（绿色边界框：现场的地面实况探测员✓ ：控制探头人员。：不包含探头人员。表1.中大-中山大学和PRW基准的评估设置、数据统计和人物边界框尺度。Bbox：边界框。数据集图像BboxesIDsBbox比例ID拆分Bbox Split火车测试火车测试中大中大18,18496,143 8,432 37×13∼793×297 5,532 2,900 55,272 40,871PRW11,81643,11093258×21∼777×57448245018,048 25,062学习率为0.001，每30，000次迭代的衰减因子为10为了训练身份匹配组件，我们使用了注释和检测（超过50%的交集超过并集（IoU）与注释和共享身份标签）框[47]。我们将动量设置为0.9，权重衰减设置为0.00001，批大小设置为64，epoch设置为100。初始学习率被设置为0.01，并且每40个时期衰减10将所有人物边界框的大小调整为256× 128像素。为了构建网络内特征金字塔，我们在我们的最终模型实现中利用了前3个（Res3x、Res4x、Res5x）块，即K= 3，等式（四）、我们还评估了成分分析中的其他金字塔构建4.3）。4.1与最先进的人员搜索方法的比较我们将所提出的CLSA方法与两组现有的人员搜索方法进行了比较：（1）三种最新的最先进的方法（NPSM [28]，OIM [41]，CWS [47]）;以及（2）五种流行的人检测器（NPSM [10]，ACF [9]，CCF [42]，LDCF [32]和R-CNN [11]）与手工制作（BoW [46]，LOMO[26]，DenseSIFT-ColorHist（DSIFT）[45]）或基于深度学习（IDNet[41]）特征的re-id度量学习方法（KISSME [18]，XQDA [26]）。对中大-中山大学的评估表2报告了在标准图库大小为100个场景图像的情况下，中大-中山大学的人员搜索性能。显然基于多尺度匹配的9图五、中大中山大学不同图库搜索大小的模型可扩展性评估里昂证券的表现明显优于其他竞争对手。例如，里昂证券在Rank-1中超过前2名的替代模型NPSM和OIM（两者都是端到端深度学习模型）7.3%（88.5-81.2）和9.8%（88.5-78.7）在mAP中分别为9.3%（87.2-77.9）和11.7%（87.2-75.5）CLSA相对于其他非深度学习方法的性能裕度甚至更大，因为这些模型依赖于较少区分的手工特征，而没有联合学习更强的表示和匹配度量模型的建模优势。这显示了CLSA相对于当前最先进方法的整体性能优势，这要归功于改进的人检测模型（参见下面的更多细节）和所提出的多尺度深度特征表示学习机制的联合贡献。为了评估模型的效率，我们在中大中山大学的100个图库图像我们部署了一个带有Nvidia Titan X GPU的台式机应用CLSA、OIM和NPSM分别需要1.2、0.8和120秒。这表明，我们的CLSA的性能优势不牺牲模型的效率。为了测试模型性能的可扩展性，我们进一步评估了在100到4,000（整个测试图库集）范围内的不同图库大小下的前3种方法。我们在图中观察。5所有的方法都会降低性能，给出更大的图库搜索池。当图库大小从 100增加到 4,000时， NPSM 的 mAP性能从 77.9%下降到53.0%，即，-24.9%降解（未报告Rank-1结果）。相比之下，CLSA对图库大小更稳健，mAP/Rank-1下降-9.7%（77.5-87.2）和-9.1%（79.4-88.5）。这主要是因为更多分散注意力的人参与了身份匹配过程，提出了更具挑战性的任务。重要的是，里昂证券的性能增益超过其他竞争对手变得更高，在更大的搜索规模，在现实世界中的应用程序。这表明CLSA在解决大规模人员搜索问题方面优于传统方法的部署可扩展性和鲁棒性，进一步显示了在人员搜索中自动检测噪声边界框的情况下解决先前被忽视的多尺度匹配挑战的重要性10A.作者和B。作者表2.中大中山大学评估画廊大小：100个场景图像。最好和第二好的结果以红色和蓝色表示。方法等级-1（%）最大平均接入点（%）ACF[9]+DSIFT[45]+EuclideanACF[9]+DSIFT[45]+KISSME[18][26]第26话：我的世界25.938.163.121.732.355.5CCF[42]+DSIFT[45]+欧几里得11.711.3[18]第42话：我的世界13.913.4CCF[42]+LOMO[26]+XQDA[26]46.441.2[41]第四十二话：一个人57.150.9CNN[35]+DSIFT[45]+欧几里得39.434.5[18]第18届中国国际汽车工业展览会53.647.8[26]第26话：我的世界74.168.9[41]第41话：我的世界74.868.6OIM[41]78.775.5NPSM[28]81.277.9CLSA88.587.2PRW的评估我们进一步评估了CLSA与PRW数据集上11个现有竞争对手在基准设置下的11，816个画廊场景图像。总体而言，我们观察到类似的性能比较与国家的最先进的方法，中大中山大学。特别是，里昂证券仍然是最好的人搜索性能与其他替代方法的显着准确率利润，超过第二个最好的模型NPSM的11.9%（65.0- 53.1）和14.5%（38.7-24.2）在排名1和mAP，分别。这一致地表明了在不同的视频监控场景中，CLSA的模型设计优于现有的人员搜索表3. PRW的评价最好和第二好的结果以红色和蓝色表示。方法等级-1（%）最大平均接入点（%）ACF-Alex [9]+LOMO[26]+XQDA[26]ACF-Alex[9]+IDE检测 [47] +CWS [47]30.643.645.210.317.517.8DPM-Alex[10]+LOMO[26]+XQDA[26]DPM-Alex[10]+IDE检测 [47][47]第四十七话：一个人的世界34.147.448.313.020.320.5最不发达国家基金[32]+LOMO[26]+XQDA31.111.0LDCF[32]+IDE检测 [47]44.618.3最不发达国家基金[32]+发展中国家检测[47]+化学武器条约[47]45.518.3OIM[41]49.921.3NPSM[28]53.124.2CLSA65.038.7基于多尺度匹配的11表4.在标准的100个大小的画廊设置中评估CUHK-SYSU上不同的多尺度深度学习方法。FLOPs：浮动点操作。方法等级-1（%）最大平均接入点（%）FLOPs（×109）ResNet-50网络内金字塔82.581.181.680.22.6782.678DeepMu [34]78.375.8-MST [13]82.781.98.034DPFL [5]84.783.85.400FPN [27]85.585.04.519CLSA88.587.22.6804.2与其他多尺度学习方法的比较除了现有的人员搜索方法外，我们还通过与网络内特征金字塔（基线）和四种最先进的多尺度深度学习方法（包括DeepMu [34]，MST[13]，DPFL [5]和FPN [27]）在CUHK-SYSU基准上进行比较，进一步评估了CLSA我们在这个测试中使用了标准的100大小的画廊设置。对于所有比较的方法，我们使用与CLSA相同的人员检测模型和相同的骨干身份匹配网络（除了利用特别提出的CNN架构的DeepMu）进行公平比较。表4表明，提出的CLSA是更有效的比其他多尺度学习算法在个人搜索。特别地，我们有这些观察结果：（1）与使用标准ResNet-50特征（无金字塔）相比，网络内特征金字塔在Rank-1中降低了1.4%（82.5-81.1）的整体性能，在mAP中降低了1.4%（81.6-80.2）。这验证了我们的假设，即直接应用CNN特征层次结构可能会由于不同金字塔级别之间的内在语义差异而损害模型性能。(2)CLSA在Rank-1中提高了基线网络内特征金字塔7.4%（88.5-81.1），在mAP中提高了7.0%（87.2-80.2）。这表明所提出的跨级别语义对齐机制在以端到端学习方式增强CNN特征表示的个人身份匹配能力方面的确切有效性。(3)三个基于ResNet-50的竞争对手都带来了人员搜索性能的改善，尽管不如里昂证券显着这共同表明了在人员搜索中解决多尺度匹配问题的重要性（4）对于每个边界框的FLOP（浮动点操作）中的模型计算效率，与其他最先进的多尺度学习方法相比，CLSA具有最小（边际）成本增加。这表明，除了其准确性的优势，CLSA的成本效益优于替代方法。4.3进一步分析和讨论我们使用中大-中山大学基准测试分析了人物检测对人物搜索性能的影响。我们开始12A.作者和B。作者使用Faster-RCNN的三个定制组件（第3.1节）。表5示出了：（1）区域建议调整大小和最大池操作不会损害模型性能。实际上，这是ROI池的替代。在随后的平均池化到1×1特征图的上下文中，这样的设计仍然具有检测小对象的能力，因此不会产生负面影响。(2) 由于低级特征模式中的源域数据和目标域数据的共同性，在fin-uning检测中对第一个块的部件进行识别。（3）使用所有大小的提议改进结果。值得注意的是，这不会降低模型效率，因为在非最大值抑制操作之后，每个图像仅保留前256个框，类似于选择较大建议的常规中大中山大学的每张图像平均有6.04个边界框表5.中大中山大学检测模型分量分析充分不调整最大池大小St未修复1块并非所有大小的提案公制（%）秩-1地图秩-1地图秩-1地图秩-1地图CLSA88.587.288.387.387.786.887.986.9排名-1（%）地图（%）里昂证券+里昂证券GT9088.588.187.22.263.42.20.35.6法国里昂证券0.23地图（%排名-1（%召回（a）60 70 80 90100（b）第（1）款0 3 6 9（c）第（1）款见图6。在标准100人画廊环境中评估中大中山大学的人员检测。(a)人物检测查全率性能。(b)CLSA基于自动检测或地面实况人约束框图像的人搜索性能（c）人员检测与多尺度学习对人员搜索性能的影响然后，我们评估了整体人员检测性能，并与其他两个检测模型（ACF [9]和CCF [42]）进行了比较。对于人检测，如图所示。6（a）当提高召回率时，ACF和CCF的精确度性能快速下降，而我们改进的Faster-RCNN保持更稳定。这显示了深度学习检测器的有效性以及我们的CLSA的其他模型改进这符合精度基于多尺度匹配的13表2和表3中的结果是，在秩-1和mAP中，CLSA都比基于ACF或CCF的方法好20+%。我们进一步测试了我们的检测模型的人的搜索效果，通过比较与地面实况边界框的基础上的结果。它在Fig. 6(b)在完美的人检测中，CLSA在mAP中仅获得0.9%（88.1-87.2）的增益，在Rank-1中仅获得1.5%（90.0-88.5）这表明，由于现代对象检测模型，人员另一方面，表4还表明，解决多尺度挑战对于人员搜索的整体模型性能更为关键，例如。与基线网络ResNet-50相比，CLSA在Rank-1中带来了6.0%（88.5-82.5%）的性能提升，在mAP中带来了5.6%（87.2-81.6）的性能提升。特征金字塔的影响我们评估了里昂证券的特征金字塔对中大中山大学的绩效影响。回想一下，网络内特征金字塔的构建是基于ResNet块的选择（参见第2节）。3.2和图3）。我们测试了三种块选择方案：5-4、5-4-3（用于最终的CLSA溶液）和5-4-3-2。表6显示三层金字塔是最佳的。它还表明，执行语义对齐直接与基本特征，如那些从Res2X块提取可能会降低整体表示的好处，在金字塔中，由于难以弥合的语义差距。表6.网络内特征金字塔构建对中大中山大学的影响块选择5-45-4-35-4-3-2等级-1（%）87.388.585.3最大平均接入点（%）86.287.284.3温度柔软度的影响我们评估了方程中温度参数设置的影响。(3)在1至7的范围内。表7表明，该参数不敏感，最佳值为3。表7.温度软度的影响（等式(3))关于中大-中山大学温度T1357等级-1（%）88.388.588.388.1最大平均接入点（%）87.087.287.386.9评估人员Re-ID和对象分类我们评估了CLSA对人员Re-ID（Market1501 [46]，CUHK 03 [23]）和对象图像分类（CIFAR 100 [19]）的影响，与ResNet-50相比表8显示了我们的CLSA方法在两个任务上的积极性能增益例如，里昂证券将个人re-id提高了3。1级和4级为5%（88.9-85.4）。5%（73.1-68.6），市售mAP-1501。该增益小于相同源视频上的增益14A.作者和B。作者基于PRW（参见表3）的人边界框的可能性，这是由于Market-1501的人边界框已经以有限的和人为的尺度变化被手动处理的潜在原因此外，我们的方法也有利于CIFAR目标分类与1。5%（76.2-74.7）最高1次心率增益。这些观察表明，除了在不受约束的场景图像中进行人员搜索外，我们的模型具有表8.在re-id和对象分类基准上评估CLSA。数据集市场-1501 [46]香港中文大学03 [23]数据集[19]第十九话公制（%）秩-1地图秩-1地图公制（%）最高-1率ResNet-5085.468.648.847.5ResNet-11074.7CLSA88.973.152.350.9CLSA76.25结论在这项工作中，我们提出了一种新的跨级别语义对齐（CLSA）深度学习框架，用于在不受约束的场景图像中进行人员搜索与专注于提高人员检测性能的现有人员搜索方法相比，我们的实验表明，解决多尺度匹配挑战对于提高人员搜索结果反而更有意义。为了解决这个研究不足的跨尺度人员搜索挑战，我们提出了一种端到端的CLSA深度学习方法，通过构建网络内特征金字塔结构表示，并使用语义对齐学习损失函数增强其表示能力这是专门设计的，以使所有特征金字塔级别的身份歧视，因此导致一个更有效的分层表示匹配的人的图像与大的和不受约束的规模变化。在两个大型人物搜索基准数据集CUHK-SYSU和PRW上进行了广泛的比较评估。结果验证了所提出的CLSA模型的性能优越性和优势，在各种国家的最先进的人的搜索，人re-id和多尺度学习方法。我们还提供全面深入的CLSA组件评估和分析，以了解模型性能增益和设计考虑因素。此外，我们进一步验证了CLSA方法在人员重新识别和对象分类任务上的更一般的性能优势。确认这项工作得到了国家留学基金管理委员会、Vision Semantics Limited、英国皇家学会牛顿高级奖学金计划（NA 150459）和Innovate UK Industrial ChallengeProject on Developing and Commercialising Intelligent Video Analytics Solutions forPublic Safety（98111-571149）的部分支持。基于多尺度匹配的15引用1. 阿德尔森E.H.安德森，C.H.，Bergen，J.R.伯特PJ奥格登，J.M.：金字塔式结构是一种信息处理方法。RCAEngineer29（6），332. 张，X.，医院特姆Xiang，T.：用于人员重新识别的多级分解网络。IEEE计算机视觉与模式识别会议。第1卷，第2页（2018年）3. 陈伟，陈旭，张杰，Huang，K.：除了三重态损失：一个深度的四元组网络用于人的重新识别。IEEE计算机视觉和模式识别会议（CVPR）。卷2017年第24. 陈旭，Gupta，A.：快速区域抽样的rcnn实现与研究。ArXiv（2017）5. 陈玉，Zhu，X.，龚，S.：通过深度学习多尺度表示进行人员重新识别。在：IEEE计算机虚拟现实国际会议研讨会. pp. 25906. Chen，Y.C.，Zhu，X.，Zheng，W.S.，Lai，J.H.：通过相机相关性感知特征增强的人重新识别。IEEETransactionsonPatternAnalysisandMachineIntelligence40（2），3927. 郑，D.，Gong，Y.，Zhou，S.，王杰，Zheng，N.：基于改进三重丢失函数的多通道部件cnn的人员再识别。IEEE计算机视觉和模式识别会议（CVPR）。pp. 13358. Dalal，N.，Triggs，B.：用于人体检测的定向梯度直方图。IEEE计算机视觉与模式识别会议（2005）9. 做吧，P Ap pel，R.， Belongie，S.， Perona，P. ：对于对象检测而言，F是一种有效的方法。 IEEE Transactions on Pattern Analysis and MachineIntelligence 36（8），1532- 1545（2014）10. Felzenszwalb，P.F.，Girshick，R.B.，McAllester，D. Ramanan，D.：使用区分性训练的基于部分的模型进行对象检测。 IEEE Transactions onPatternAnalysisandMachineIntelligence32（9），162711. 格尔希克河Donahue，J.，Darrell，T.，Malik，J.：丰富的功能层次结构，用于准确的对象检测和语义分割。在： IEEE ConferenceonComputerVision andPatternRe cognition。pp. 第58012. 龚，S.，Cristani，M.，Yan，S.，Loy，C.C.：人员重新识别。Spuringer（2014）13. 他，K.，张，X.，Ren，S.，孙杰：用于视觉识别的深度卷积网络中的空间金字塔池。欧洲计算机视觉会议。pp. 34614. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。I：IEEEConferenceonConputerVisionandPater nRecognition。pp. 77015. Hermans，A.拜尔湖莱贝B：在三胞胎丢失的辩护中重新进行了人的鉴定。ArXiv（2017）16. Hinton，G. Vinyals，O.，Dean，J.：在神经网络中提取知识。05 The Fall（2015）17. 焦，J.，Zheng，W.S.，Wu，A.，Zhu，X.，龚，S.：深度低分辨率人物重新识别。在：AAAI人工智能会议（2018）18. Koestinger，M.，Hirzer，M.，Wohlhart，P.，罗斯下午Bischof，H.：基于等价约束的大规模度量学习。在：IEEE计算机Visin和Pater nRec gnitin会议上。pp. 第228816A.作者和B。作者19. Krizhevsky，A.，Hinton，G.：从微小的图像中学习多层特征。技术报告，多伦多大学（2009年）20. 兰，X.，王，H.，龚，S.，Zhu，X.：深度强化学习注意力选择用于人员重新识别。ArXiv（2017）21. Lazebnik，S.，施密德角Ponce，J.：除了功能袋之外：用于识别自然场景类别的空间金字塔匹配。在：IEEE计算机视觉和模式识别会议（2006年）22. Li，M.，Zhu，X.，龚，S.：通过深度学习轨迹关联的无监督人员重新识别。在：欧洲计算机视觉会议（2018）23. 李伟，赵，R.，Xiao，T.，Wang，X.：Deepreid：深度过滤配对神经网络，用于人员重新识别。在：CVPR（2014）24. 李伟，Zhu，X.，龚，S.：通过多损失分类的深度联合学习进行人员重新识别。ArXiv（2017）25. 李伟，Zhu，X.，龚，S.：和谐关注网络对人的再认同。在：IEEE计算机视觉和模式识别会议（2018）26. Liao，S.，Hu，Y.，Zhu，X.，李S.Z.：基于局部最大发生表示和度量学习的人物再识别。在：IEEE国际会议上的C〇mputerrV i sision. pp. 21 9727. 林， T. 是的，做吧， PGir shi ck ， R. ， He ， K. ， Hariharan ， B.Belongie，S. ：用于对象检测的Fetur金字塔网络。IEEE计算机视觉与模式识别会议（2017）28. 刘洪，冯杰，杰，Z.Jayashree，K.，Zhao，B.，Qi，M.，姜杰，Yan，S.：神经人搜索机器。IEEE International Conference on Computer Vision（2017）29. 刘杰，Zha，Z.J.，田，Q，Liu，D.，中国科学院，Yao，T

下载后可阅读完整内容，剩余1页未读，立即下载