Re-ID驱动的人员搜索本地化

41 浏览量更新于2023-10-12 收藏 963KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

9814Re-ID驱动的人员搜索本地化韩楚楚1，叶嘉成2，钟云山2，谭新3，张驰4，高长新1，农桑11图像处理与智能控制教育部重点实验室，华中科技大学人工智能与自动化学院2北京大学3上海交通大学4旷视科技{hcc，cgao，nsang}@ hust.edu.cn{yejiacheng，Zhongyunshan}@pku.edu.cntanxin2017@sjtu.edu.cnzhangchi@megvii.com摘要人物搜索的目的是从一组未裁剪的场景图像中定位和识别查询不同于人的重新识别（重新ID），其性能还取决于定位精度的行人检测器。现有技术的方法单独地训练检测器，并且检测到的边界框对于随后的re-ID任务可能是次优的。为了缓解这个问题，我们提出了一个重新ID驱动的本地化细化框架，为个人搜索提供细化的检测框。具体来说，我们开发了一个可区分的ROI转换层，以有效地转换从原始图像的边界框因此，框坐标可以由re-ID训练而不是原始检测任务来监督。通过这种监督，检测器可以生成更可靠的边界框，并且下游的re-ID模型可以基于细化的人员定位来生成更具区别性的嵌入。在广泛使用的基准测试上的大量实验结果表明，我们提出的方法对最先进的人物搜索方法表现良好。1. 介绍虽然人re-ID已经取得了显着的检索性能[40，4，31]，它仍然有实际应用的主要限制，因为它缺乏人检测阶段。为了进一步探索现实世界应用中的行人识别，研究人员提出了个人搜索任务[34，41，3，17，11，33]，其目标是同时从原始图像中定位和识别人而不是只匹配手动裁剪或*同等缴款。†通讯作者：cgao@hust.edu.cn(a)(b)（c）第（1）款图1.人员搜索的检测结果。(a)是地面实况，（b）由通用检测器检测，以及（c）由所提出的方法细化。我们可以看到，单独训练的一般检测器实际上它包含了更多的噪音，并且缺少一些重要的细节。通过比较，我们的方法可以通过去除过多的背景和增加有用的属性来改进定位，这可以为个人搜索任务产生更多的区分嵌入。通过预先检测行人，person search旨在将行人检测和person re-ID的任务结合到一个统一的系统中。当前最先进的方法[3，17]独立地训练检测器和re-ID模型，其将每个搜索任务分成两个单独的阶段。然而，检测阶段的目的是检测人。它9815不能覆盖某些关键属性（例如，袋）并且甚至带来一些干扰（例如，附近的人），如图所第1段（b）分段。因此，非相干框架具有检测阶段不能为下游人员重新ID阶段提供最佳保护的在次优建议的情况下，后续人员重新ID阶段的性能受到影响。因此，个人搜索的结果也不尽人意。为了解决上述问题，我们提出了一种重新ID驱动的定位细化网络，该网络在端到端框架中联合行人检测和人员重新识别的任务。我们的主要目的是在re-ID损失的监督下优化检测器，以产生可靠的边界框。具体来说，我们开发了一个可区分的ROI变换层，通过仿射变换实现裁剪操作。基于该层，由检测器生成的绑定框可以被转换成相应的图像，然后将其馈送到重新ID网络。因此，可以以端到端的方式优化框架。在re-ID丢失的指导下，原始边界框将被细化，以便为人re-ID提供更可靠的边界框。如图1（c），与分离检测器相比，我们的方法可以明显地去除附近的人和背景等干扰。此外，可以注意一些细粒度的细节，例如袋子，其包含用于下游人员重新ID的区别性信息。此外，我们提出了一个代理三元组损失，因为它是intractable构建标准三元组的人搜索管道。综上所述，本文的贡献主要包括：• 我们提出了一个端到端的本地化细化框架的人搜索。由于监督，在re-ID丢失的情况下，检测器可以为人员搜索任务产生更可靠的边界框。• 为了从原始图像中裁剪边界框，我们引入了一个可微分的ROI变换层。• 在CUHK-SYSU和PRW两个基准测试中，mAP的性能分别达到93.0%和42.9%。Ttively，其性能大大优于最先进的方法。2. 相关作品行人检测。在传统的行人检测中有几种常用的检测器，包括可变形部分模型（DPM）[8]、聚合通道特征（ACF）[6]、局部解相关通道特征（LDCF）[24]和集成通道特征（ICF）[7]。近年来，随着CNN的发展，出现了许多基于CNN的方法，这些方法可以大致分为一阶段[21，25，23]和两阶段方式[9，26，5，12]。的主要区别是否要提出建议。在一个阶段的方式中，Lin等人。 [21]提出了具有焦点损失的RetinaNet，用于解决类别不平衡的问题。在两阶段的方式中，突出的代表是更快的R-CNN [26]，它提出了一个区域建议网络（RPN）。它在保持骨干网特点的同时，大大减少了计算量。Lin等人 [20]设计了一种具有横向连接的自顶向下架构，用于在多个尺度上构建多级语义特征映射，称为特征金字塔网络（FPN）。在基本检测网络中使用FPN可以帮助检测不同尺度的物体。我们的检测网络基于Faster R-CNN+FPN的框架，并对结构进行了一些改进，使检测对行人而不是通用对象更可靠。人员重新识别。最近，深度学习在re-ID研究社区中占据主导地位，在检索准确性方面具有显着大多数方法[36，30，2，29，37，18]旨在产生鲁棒和有区别的图像表示。 Sun等人[30]提出了基于部分的卷积基线（PCB）来提取多个身体部位特征。Si等人。 [28]利用注意力机制来关注最具鉴别力的特征。同时，一些深度度量学习方法[14，4]也广泛用于人员重新识别。Hermans等人。[14]开发了一种三重硬损失，其在小批量中应用在线三重硬负挖掘方法。它能使效果不断提高。Chen等人 [4]提出了一种基于三重态损失的四重态损失，其目的是进一步减少类内变化并扩大类间变化。在本文中，我们提出了一种新的代理三元组损失，它解决了问题，标准三元组损失无法构建的人搜索管道。个人搜索。人物搜索是最近开发的任务[34，41，33，3，17，1]，其目的是在大量的整个场景图像中匹配特定的人。在文献中，有两种方法来处理这个问题。一些作品[34，33]以端到端的方式训练检测和重新识别模型。Xiao等人。[34]使用Faster R-CNN作为骨干网络，并在检测和re-ID之间共享基础层。同时，提出了一种在线实例匹配（OIM）算法，该算法能够在大而稀疏的标识下更好地收敛。 Xiao等[33]将中心损失应用于该任务，增强特征区分能力。其他方法[3，17]分别训练检测器和重新ID模型。Chen等人 [3]认为，检测任务关注的是人的共性，而重新识别任务关注的是人的差异所以这是不合理的-9816检测网络CNN分类损失ROI变换层双线性采样器仿射参数边界框（1，1，m2，2）网格Re-ID网络代理表CNN代理三重丢失图2.我们方法的框架由检测网络生成的边界框被发送到ROI变换层，用于原始图像中的裁剪操作然后，re-ID网络提取特征并生成re-ID损失，包括分类损失和代理三元组损失。请注意，我们使用re-ID损失而不是回归损失来监督边界框，并且我们仅以一个检测到的图像为例。能够在两个任务之间共享功能。通过分别训练检测器和re-ID模型，获得了更好的性能。通过在两个子网中对前景和原始图像块进行建模，进一步提高了准确性。 Lan 等人。 [17] 提出了一种跨级别语义对齐（CLSA）网络来解决多尺度匹配问题。在检测之后，跨不同层计算Kullback-Leibler散度以监督re-ID模型。Chan等人。 [1]通过不断尝试以各种方式调整边界框以找到完美匹配，将强化学习引入检测网络。与上述方法不同，我们在端到端框架中联合这两个任务，而不共享功能。3. 方法我们提出了一个新的本地化细化框架的人搜索任务，它可以在一个端到端的方式进行训练。我们的模型的概述如图所示。二、传统的检测网络通常由两个损失来监督。分类损失用于区分对象类别或背景。使用回归损失来调整边界框。然而，对于人员搜索任务，不能保证由回归损失监督的边界框可以为下游人员re-ID任务产生最合适的边界框，如图所示。1.一、所以我们重新设计了探测器的监管在我们的个人搜索框架中。具体来说，我们开发了一个可微分的ROI变换层（Sec.3.1)以实现从原始图像中检测到的边界框的裁剪操作。然后，将裁剪的图像发送到具有代理三元组丢失的固定re-ID模型（第二节）。3.3)软-最大损失。因为整个过程是可微的。框坐标，检测网络可以通过端到端框架中的re-ID丢失来优化（第二节）3.2）。3.1. ROI变换层在检测网络的基础上，设计了一个可裁剪的ROI变换层，实现了对原始图像边界框的裁剪它旨在使框架具有端到端的可训练性。裁剪边界框的图像有两个原因。首先，虽然边界框的相应特征在一般检测网络中可用，但这导致两个任务的共享特征嵌入。这可能会导致冲突[3]。其次，特征图中的感受野足够大因此，裁剪操作可能引入冗余上下文，这对重新识别是有害的。因此，它优于裁剪边界框的图像。假设边界框的左上和右下坐标在原始图像中是（m1，n1，m2，n2）。为了从原始图像变换边界框，如图1B所示。39817我我S（2001年，2001年）（s ，s）（1、1）V图3.从源图像U采样网格以产生目标图像V的图示。如图所示，我们首先需要计算仿射变换，端到端框架中的损失在我们的方法中，我们将回归损失替换为re-ID损失，包含代理三元组损失和softmax损失（在某些情况下）。基于ROI变换层，可以从原始图像变换边界框的图像。因此，在两个任务之间建立连接，允许梯度从re-ID丢失反向传播到边界框的坐标。因此，检测器的定位可以被细化，并且它与人搜索一致。具体来说，我们的框架中的检测器和re-ID模型在训练集上进行了预训练。将原始图像输入检测网络生成边界框，将边界框输入ROI变换层进行裁剪，然后获得相应的图像。以下是如下所示：.xsΣtXire-ID模型，参数固定。因此，可以在re-ID丢失的监督下细化i=Aθyt，（1）I1其中（xs，ys）表示原始坐标可以计算re-ID损失相对于边界框坐标（m1，n1，m2，n2）的导数。这里我们以m1为例，其导数如下：我我形象（xt，yt）表示规则的目标坐标我iLreid=Lreid·I、（四）网格在输出图像与H×W。我们使用归一化height和width目标坐标，所以xt，yt∈[−1，1]。第1章I′第1章我我相应的坐标如图所示3.第三章。 Aθ是仿射变换矩阵，由于缺乏监督信息，在某些方法中，它在网络中自适应学习[15]然而，我们有源坐标（m1，n1，m2，n2）和相应的正常坐标。目标坐标（−1，−1，1，1）。因此，PA-变换矩阵的参数可以计算为：如下所示：其中I'表示由ROI变换层导出的图像由于I′相对于边界框坐标的导数是可微的，如第2节所述第3.1条因此，Eq。4是完全可导出的。3.3. 代理三重丢失为了确认我们框架的可扩展性，我们还采用了在其他数据集上预训练的re-ID模型。因此Aθ=Σ1米2 -m10米2Σ+m1.（二）softmax由于不同的标识符而被丢弃关系的有必要开发一个度量损失用于求解20n2−n1n2+n1目标图像V上的像素网格由下式表示：P t={（x t，y t），i=1，2. N}，N是像素的数量。这个问题最近，使用硬挖掘方法的三重丢失（TripHard loss）已被广泛用于人员重新ID [14，31，32]，其可以实现优异的性能。我我对于V上的每一点，我们计算上对应的一点。使用Eq.1.一、所以我们可以得到U上的网格，当P s={（x s，y s），i=1，2. N}个。这个过程可以回溯-然而，TripHard损失在人员搜索中是不可行的任务有两个因素。首先，在TripHard损失中，小批量由N个身份组成，并且每个身份具有Kim。我我传播梯度，因为方程2是可微的。（xt，yt）的像素值是从下式双线性内插的：年龄，其中K和N通常分别设置为4和8，活泼地但对于个人搜索，只有少数高分辨率我我在源图像U上靠近（xs，ys）的像素。通过设置可以将原始图像输入网络进行训练，因此我我所有像素值，我们得到目标图像V：V=B（Ps，U），（3）其中B表示双线性采样器[15]，它也是一个可微模块。3.2.本地化优化考虑到分离检测器的优化目标与人员搜索任务的优化目标不同，本文在re-ID的监督下对检测器的定位进行了（−1，−1）（2002年，2002年）（i，i）不Uy9818检测到的图像可能不足。第二，检测到的人通常没有正对，因此不可能构建三联体。因此，我们建议构建一个三元组，由锚（样本），通过代理表选择的正代理和负代理组成我们将该方法称为代理三元组丢失，描述如下。为了在每次迭代中构造三元组，我们需要分配prox-每个样品的。参见图4.构造一个代理表T∈RN× K来存储代理特征。N和K分别表示标记标识的数量和每个标识的体积要素中填充有9819我J1……拉吉吉中……吉吉正锚负中DapD是……更新图4.代理三元组丢失示意图。在小批量中，所有检测到的样本都被视为锚点，我们以其中一个为例。假设身份是IDi。因此，表的i行存储正代理，而其余的是负代理。然后我们可以选择最难的正和最难的负代理来构建一个三元组。在后向过程中，样本用于通过先进先出规则更新正代理。初始化时为零。在前向传播期间，计算代理三元组损失，而在后向传播中，用样本更新表。具体来说，我们使用最新的样本特征，通过先进先出规则替换具有相同身份的相应代理4. 实验在本节中，我们首先描述两个大型数据集和评估协议，以及一些实现细节。然后，我们比较我们的方法与国家的最先进的方法。之后，我们进行了几项消融研究，以探索不同成分的影响。4.1. 数据集和方案香港中文大学 [34]这是一个很大的规模。子搜索数据集由手持摄像机在街道/城市场景中捕获或从电影快照中选择，其由18，184幅图像和96，143个注释边界框组成。有8，432个标记的身份，其余的注释的被认为是负样本。训练集包含11206张图片和5532个身份，而测试集包含6978个图库图像和2，900个探头图像。PRW。PRW [41]数据集由六个空间不相交的相机捕获。有11，816个帧，其中有43，110个带注释的边界框。这些标识的范围从1到932，其余的被视为标识为-2的未知个体。训练集包含5，704帧和482个身份，而测试集包括6，112个图库图像和2，057个查询图像，450个身份评价方案。在我们的实验中，我们采用了[34]中的评估指标，即累积匹配治愈（CMC）和平均平均精度（mAP）。第一种方法广泛用于个人身份识别。第二个是受目标检测任务的启发。我们使用ILSVRC对象检测标准[27]来测量基于代理表，我们考虑为每个样本分配代理，以在每次迭代时构建三元组。具体地，假设存在b个检测到的样本I i，i=1. B，每个都被视为锚。如图4所示，对于指定的样本，我们从以下各项中选择正代理：表中对应的身份，其余为负代理。通过采用硬挖掘，我们选择最难的正代理和最难的负代理来构建三元组。代理三元组损失可以计算如下：布预测边界框的正确性。根据查准率-查全率曲线，计算每个查询的平均查准率，然后对所有查询的平均查准率进行平均，得到最终结果。4.2. 实现细节对于检测网络，我们使用Facebook research1发布的Faster R-CNN [26]的最新PyTorch实现。主干网络是带有FPN的ResNet-50。我们的检测器在SYSU和PRW上进行了预训练，Ltri=i=1[m+maxp=1…K- minj=1…Bn=1…Kj/=iD（f（Ii），f（Ip））D（f（Ii），f（In））]+、（五）91的mAP。1%，94。9%，分别。对于re-ID网络，我们采用基于Resnet-50的流行基线2预训练模型在SYSU和PRW数据集上的测试结果达到了91. 8%，76。2%，排名第一。对于我们的端到端优化框架，其中f（·）表示从识别网络输出的特征嵌入，D（·）测量两个特征之间的平方欧几里得m控制负样本对和正样本对之间的裕度。原始回归损失，并使用代理三元组损失以及softmax损失来监督整个网络。由于GPU内存的限制，批处理大小设置为41https://github.com/facebookresearch/Detectron2https://github.com/L1aoXingyu/reid_baseline9820表1.中大-中山大学和PRW数据集的数据统计和评价设置Bbox：边界框。方法所有火车测试图像BboxesIDs图像BboxesIDs图像BboxesIDs香港中文大学[34]18184961438432112065527255326978408712900PRW [41]1181643110932570418048482611225062450表2.与中大中山大学最先进方法的实验比较。10095908580757065605550OIMNPSM伊恩MGTSCLSA我们50 100 500 1000 20004000图库大小图5.中大中山大学不同画廊规模的绩效比较。表3.实验比较与国家的最先进的方法对PRW。方法等级-1（%）最大平均接入点（%）[19]第19话：我的世界ACF-Alex [6]+IDE检测 [41]ACF-Alex [6]+IDEdet [41]+CWS [41]30.643.645.210.317.517.8[19]第十八话：一个人的世界[41]第四十一话：一个人DPM-Alex [8]+IDEdeter [41]+CWS[41]34.147.448.313.020.320.5最不发达国家基金[24]+LOMO+XQDA [19]最不发达国家基金[24]+发展中国家检测[41]最不发达国家基金[24]+发展中国家检测[41]+化学武器条约[41]31.144.645.511.018.318.3OIM [34]49.921.3NPSM [22]53.124.2里昂证券[17]65.038.7MGS [3]72.132.6我们70.242.9代理三元组丢失的量被设置为2，因此它可以以很少的开销满足三元组硬构造。我们将三重边距设置为0。五、我们选择了批量随机梯度下降（SGD）优化器，动量为0。9 .第九条。 L2正则化设置为5×10−4。至于学习率策略，我们使用热身时间表。基本学习率为0，在前500次迭代中升温到5 ×10−5，然后在1×104次迭代后衰减到5×10−6我们的模型总共训练了4×104次迭代。所有实验都在公开的PyTorch平台上进行，该网络在4个NVIDIA TITAN XP GPU上训练在评估图库大小对中大-中山大学数据集的影响时，我们使用不同的图库大小，{50，100，500，1000，2000，4000}。在下面的实验中，结果用图库大小表示，默认值为1004.3. 与最先进方法的比较我们将我们提出的网络与当前最先进的方法进行了比较，包括 OIM [34] ， NPSM [22] ， RCAA [24] 和RCAA [25]。[1]、I-Net[13]、MGTS[3]、CLSA [17]对两个流行的数据集CUHK-SYSU [34]和PRW [41]。除了这些方法之外，我们还比较了联合不同行人检测器的方法（[8]， ACF [6]， CCF [35]， [24]， R-CNN [10]）和人物描述符（BoW [39]，LOMO [19]，DenseSIFT-ColorHist （ DSIFT ） [38] ）和距离度量（KISSME [16]，XQDA [19]）。中大-中山大学评价选项卡. 2显示了我们的网络和现有竞争方法在CUHK-SYSU数据集上的性能比较。画廊大小设置为100。我们遵循[34]中的符号定义可以看出，我们的方法明显优于所有其他竞争对手，包括端到端和分离的方法。与最先进的方法CLSA相比，我们的方法在Rank-1/mAP度量方面获得了5.8%/5.7%的性能增益为了评估我们的模型的性能可扩展性，我们比较了其他竞争的方法，最大平均接入方法等级-1（%）最大平均接入点（%）ACF [6]+DSIFT+欧几里得[19]第六届中国国际纺织品服装展览会[2019 -25.938.163.121.732.355.5CCF [35]+DSIFT [38]+欧几里得11.711.3[16]第35话：我的世界，我的世界13.913.4[19]第19话：我的世界46.441.2[35]第三十五话57.150.9CNN [26]+DSIFT [38]+欧几里得39.434.5[16]第26话：我的世界53.647.8[39]第26话：我的世界62.356.9[19]第二十六话：一个人的世界74.168.9[26]第二十六话74.868.6OIM [34]78.775.5NPSM [22]81.277.9RCAA [1]81.379.3I-NeT [13]81.579.5MGS [3]83.783.09821基线我们969492908886848250 1005001000 20004000图库大小基线我们949290888684828050 1005001000 20004000图库大小基线我们70656055504540353050 1005001000 20004000图库大小基线我们706560555045403530501005001000 20004000图库大小(a) 相同数据集(b) 同一数据集(c) 交叉数据集(d) 交叉数据集图6.在中大中山大学不同画廊大小的基线和我们的方法之间的性能比较（a）（b）在同一数据集上进行，而（c）（d）在交叉数据集上进行不同之处在于，re-ID模型分别在CUHK-SYSU和Market-1501数据集上进行了预训练评价方案为CMC Rank-1和mAP。在不同的画廊大小的ODS。如图5所示，我们使用不同的图库大小[50，100，500，1000，2000，4000]来评估mAP。我们可以看到，除了CLSA之外，所有方法都会随着图库大小的增加而降低性能。然而，我们的方法在不同的设置下都有很大的优势，这表明我们的模型具有鲁棒性。当图库规模从50增加到4000时，该方法的下降幅度随着规模的增大，身份匹配过程中涉及的分散注意力的人越来越多，越来越接近实际应用。这表明细化边界框的重要性。PRW的评价我们进一步评估我们的方法与竞争的PRW数据集，结果显示在表。3.第三章。请注意，在基准设置[41]下可以看出，我们的方法在Rank-1和mAP上的表现优于CLSA 5.2%/4.2%与MGTS相比，我们在mAP上获得了10.3%的提升这证实了我们的方法在人员搜索任务中的有效性。4.4. 消融研究在本节中，我们首先展示了通过改进我们的方法在不同检测器上的提升。其次，我们分别使用在相同数据集和交叉数据集上训练的re-ID模型来分析结果第三，我们证明了我们提出的代理三重损失的有效性。实验在中大-中山大学数据集上进行。表4.用不同的探测器对CUHK-SYSU的结果不同的探测器。为了评估我们方法的可扩展性，我们在模型中结合了不同的检测网络，包括Faster R-CNN[26]和Reti- naNet [21]。结果见表。4、当检测器单独训练时，re-ID的结果达到了最先进的水平。然后，我们用re-ID损失代替原始回归损失来监督在我们的方法改进之后，Rank-1的性能再次提高了1.0%/1.76%，使用Faster R-CNN和RetinaNet的mAP的性能分别提高了0.86%/0.94%。结果证实，我们的方法是强大的，可以扩展到多个检测器。相同数据集和交叉数据集。检测器在CUHK-SYSU上进行预训练，而 re-ID 模型分别在 CUHK-SYSU 和Market-1501上针对相同数据集和跨数据集人员搜索进行预训练。基线采用单独训练的检测器生成包围盒图像，然后输入到训练好的re-ID模型进行测试。我们的方法将这两个模型结合在一个框架中，用固定的re-ID模型优化检测器。不同图库大小的结果如图所示。六、对于相同的数据集，我们可以观察到我们的强基线超过了最先进的方法。此外，我们的方法优于基线与所有画廊的大小，尤其是在一个大画廊。Rank-1和mAP如图所示。6（a）和图第6（b）段。实验结果表明，该方法在大规模数据集上是有效的。对于交叉数据集，结果如图所示。6（c）和图。第6（d）段。Rank-1/mAP 的基本值为 60.59%/61.87% ，经过优化后，在图库大小为100的情况下，结果可以提升到62.34%/64.15%。可视化和分析。为了直观地展示我们的方法的效果，在测试中的可视化如图所示7.第一次会议。在（a）（b）中，由单独训练的检测器检测基线从（a）可以看出，我们的方法可以等级-1最大平等级-1最大平方法等级-1（%）最大平均接入点（%）Faster R-CNN93.2492.23更快的R-CNN+我们的94.2493.099822groundtruthbaseline我们的groundtruthbaseline我们的query baseline排名：2排名：1排名：57排名：1(a)（b）（c）图7.比较单独训练的检测器和我们的方法。在（a）（b）中，地面实况被手动标记，并且基线由单独训练的检测器检测，而最后一个由我们的方法改进。在（c）中，第一个是查询;第二个是与单个检测器的匹配结果，最后是我们的方法的结果。我们省略了排名列表，排名显示在图像下方。与单个检测器相比，去除了干扰人包括鞋子和包包等一些属性，甚至优于地面真相。在（b）中，可以通过我们的方法去除地面真实中的过多背景。在（c）中，给定查询，可以看出我们的匹配结果优于基线，因为改进的检测器对于人员搜索任务更可靠。不同损失的影响。我们对不同的损失进行了广泛的实验，注意到分类损失是在re-ID模型中，而不是在检测网络中。基线表示单独训练的检测器和re-ID模型。其他的是基于我们的方法，使用re-ID损失而不是回归损失来监督检测器。从Tab中可以看出。5，我们所有的方法都可以超越基线。此外，当将两种损失结合在一起时，我们可以在Rank-1/mAP上获得94.24%/93.09%的优异性能这证实了我们的代理三元组的有效性。表5.监督不同的损失。 L cls和L tri分别表示分类损失和我们提出的代理三元组损失。方法等级-1（%）最大平均接入点（%）基线93.2492.23我们的（Lcls）93.5292.34我们的（L三）93.4892.49我们的（Lcls+Ltri）94.2493.095. 结论在本文中，我们提出了一个本地化的细化网络，关节行人检测和人重新身份识别的任务，在一个端到端的框架。为了解决个体检测器产生的一个次优的边界框的人re-ID的问题，我们优化检测器与re-ID丢失的监督，以产生一个可靠的边界框的人搜索。具体来说，我们开发了一个可微分的ROI变换层进行裁剪操作的检测到的边界框。然后将裁剪的图像馈送到re-ID模型，并监督re-ID丢失。因为整个过程是可微的。框坐标，检测网络可以通过端到端框架中的re-ID丢失来优化此外，我们还设计了一个代理三元组丢失机制，解决了标准三元组硬丢失机制不能在个人搜索管道中进行的问题。在两个大规模的人物搜索数据集CUHK-SYSU和PRW上进行了广泛的比较评估结果验证了该方法的性能优越性。确认本工作得到了国家自然科学基金项目（ No.61876210 ）、中央大学基础研究基金项目（No.2019kfyXKJC 024）和“111”计划项目（B18024）“计算智能与智能控制”的资助。9823引用[1] Xiaojun Chang ， Po-Yao Huang ， Yi-Dong Shen ，Xiaodan Liang，Yi Yang，and Alexander G Hauptmann.Rcaa：用于人员搜索的相对上下文感知代理。2018年欧洲计算机视觉会议[2] 陈大鹏，徐丹，李洪生，Nicu Sebe，王晓刚.基于深度crf的群体一致性相似性学习方法。在IEEE计算机视觉和模式识别会议上，2018年。[3] 帝尘、张珊珊、欧阳万里、杨剑、英台。基于掩码引导的双流cnn模型的人员搜索。2018年欧洲计算机视觉会议[4] Weihua Chen ， Xiaotang Chen ， Jianguo Zhang ， andKaiqi Huang.除了三重态损失：一个深度的四元组网络用于人的重新识别。2017年在IEEE计算机视觉和模式识别会议上发表[5] 戴纪峰，易力，何开明，孙建。R-fcn：通过基于区域的全卷积网络的目标检测。神经信息处理系统进展，2016。[6] 皮奥特·多尔，罗恩·阿佩尔，贝隆吉先生和皮埃特罗·佩洛纳。用于对象检测的快速特征金字塔。 IEEETransactionsonPatternAnalysisandMachineIntelligence，2014。[7] PiotrDolla'r，Zhuo wenTu，PietroPerona，andSerr geBe-longie.集成通道功能。2009年英国机器视觉会议[8] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。IEEE Transactions on PatternAnalysis and Machine Intelligence，2010。[9] 罗斯·格希克。快速R-CNN。IEEE国际计算机视觉会议，2015。[10] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在IEEE计算机视觉和模式识别会议上，2014年。[11] 刘浩、冯佳石、杰泽群、卡勒卡尔·贾亚什里、赵波、齐美斌、蒋建国、严水成。神经人搜索机器。2017年。[12] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick. 面具 R-CNN 。 IEEEInternationalConference on Computer Vision，2017。[13] 何振伟，张磊，魏佳。用于人员搜索的端到端检测和再识别集成网络。arXiv，2018年。[14] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为了防止三重丢失，进行人员重新鉴定。arXiv，2017.[15] Max Jaderberg，Karen Simonyan，Andrew Zisserman，等.空间Transformer网络。神经信息处理系统的进展，2015年。[16] Martin Koestinger、Martin Hirzer、Paul Wohlhart、PeterM Roth和Horst Bischof。基于等价约束的大规模度量学习。IEEE计算机视觉和模式识别会议，2012。[17] 徐澜，朱夏天，龚少刚通过多尺度匹配进行人员搜索2018年欧洲计算机视觉会议[18] Wei Li，Xiatian Zhu，and Shaogang Gong.和谐的关注网络，人的再认同。在IEEE计算机视觉和模式识别上，2018年。[19] Shengcai Liao，Yang Hu，Xiangyu Zhu，and Stan Z Li.通过局部最大发生表示和度量学习进行个体再识别。IEEE计算机视觉和模式识别会议，2015。[20] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。IEEE计算机视觉和模式识别会议，2017年。[21] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得 · 多尔 · 拉尔。密集目标检测的焦面损失。IEEEInternational Conference on Computer Vision ，2017。[22] Hao Liu，Jiashi Feng，Zequn Jie，Karlekar Jayashree，Bo Zhao，Meibin Qi，Jianguo Jiang，and Shuicheng Yan.神经人搜索机器。 IEEEInternational Conference onComputer Vision，2017。[23] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在欧洲计算机视觉会议上，2016年。[24] 尹云南，彼得多尔和韩俊熙。改进行人检测的局部去相关神经信息处理系统进展，2014年。[25] Joseph Redmon，Santosh Divvala，Ross Girshick，andAli Farhadi.你只看一次：统一的实时对象检测。2016年在IEEE计算机视觉和模式识别会议上发表[26] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。在神经信息处理系统的进展，2015年。[27] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，et al.图像网大规模视觉识别挑战。国际计算机视觉杂志，2015年。[28] Jianlou Si ， Honggang Zhang ， Chun-Guang Li ， JasonKuen，Xiangfei Kong，Alex C Kot，and Gang Wang.基于上下文感知特征序列的双重在IEEE计算机视觉和模式识别会议上，2018。[29] Chi Su，Jianing Li，Shiliang Zhang，Junliang Xing，Wen Gao，and Qi Tian.用于个人重新识别的姿势驱动的深度卷积模型。 IEEEInternational Conference onComputer Vision，2017。[30] 孙一凡、郑良、杨毅、齐天、王胜金。超越零件模型：使用改进的部分池（和强大的卷积基线）的人员检索。2018年欧洲计算机视觉会议[31] Cheng Wang，Qian Zhang，Chang Huang，Wenyu Liu，and Xinggang Wang. Mancs：一个多任务注意网络与课程抽样的人重新识别。2018年欧洲计算机视觉会议[32] Guanshuang Wang，Yufeng Yuan，Beiong Chen，JiweiLi，Xi Zhou.学习具有多个粒度的鉴别特征以用于人的重新识别。2018年。9824[33] Jimin Xiao ， Yanchun Xie ， Tammam Tillo ， KaizhuHuang，Yunchao Wei，and Jiashi Feng.伊恩：个人搜索的个人聚合网络。模式识别，2019年。[34] 肖彤，李爽，王博超，林亮，王晓刚.用于人员搜索的联合检测和识别特征学习。IEEE计算机视觉和模式识别会议，2017年。[35] 杨斌，严俊杰，雷震，李志成。卷积通道特性。IEEE国际计算机视觉会议，2015。[36] 张璇、罗昊、樊星、向蔚来、孙一笑对齐- dreid：超越人类水平的表现在人的重新识别。arXiv，201

下载后可阅读完整内容，剩余1页未读，立即下载