鲁棒的部分匹配算法在人员搜索中的应用

110 浏览量更新于2023-10-23 收藏 963KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6827一种鲁棒的部分匹配算法钟英吉1，王晓宇2，3，张世良11北京大学、2智睿、3香港中文大学、深圳1{zhongyj，slzhang.jdl}@ pku.edu.cn，2，3fanghuaxue@gmail.com摘要像遮挡、背景等各种因素，将导致未对准的检测到的边界框，例如仅覆盖人体的部分。这个问题很常见，但被以前的人员搜索工程所忽视为了解决这个问题，本文提出了一个对齐到部分网络（APNet）的人检测和重新识别（reID）。APNet细化检测到的边界框，以覆盖估计的整体身体区域，从中可以提取和对齐有区别的部分特征对齐的零件特征自然地将reID制定为部分特征匹配过程，其中选择有效的零件特征进行相似性计算，而遮挡或噪声区域上的零件特征被丢弃。该设计增强了人员搜索的鲁棒性，以应对现实世界的挑战，并具有边际计算开销。本文还提供了一个大规模的个人搜索数据集（LSPS），这是迄今为止最大的和最具挑战性的个人搜索数据集。实验表明，APNet对LSPS的性能有显著的改善.同时，它在现有的人员搜索基准（如CUHK-SYSU和PRW）上取得了竞争力1. 介绍图1.未对齐的人员边界框和与全局特征匹配的人员边界框的在人员搜索中经常会出现不对齐现象，并且不能通过训练更强的检测器来消除本文通过边界框对齐和部分匹配来解决这个问题。虽然对reID很有帮助，但它们仍然可能产生不对齐的人物边界框。如图1、遮挡和有限的摄像机视场导致许多准确但未对准的边界框覆盖行人的部分。无论是联合模型[24，15]还是分离模型[1，28，3]，大多数现有的人搜索方法都从检测到的边界框中提取全局如图1，未对准降低了全局特征的性能，因为将局部特征与全局特征匹配是不合理的。更详细的审查，以每个儿子的搜索作品可以找到在第二节。二、由于最近的研究努力[27，17，10，8，25，22，30，34，31]，人员重新识别（reID）的性能得到了显着改善。然而，当前reID设置的一个潜在问题是，它将人员检测和reID视为两个孤立的步骤。这个问题可以通过人员搜索来补偿[24，33，1，28，3，15]，以联合完成人员检测和reID。由于能够联合优化人员检测和reID，人员搜索正吸引越来越多的关注，并有可能在灵活性，效率和准确性方面表现出优势与reID相比，人物搜索需要设计对尺度、光照、背景、遮挡等变化鲁棒的行人检测器。一些人搜索工作通过联合训练检测器和reID模型来改进检测器[24，15，4，3]。虽然强大的探测器是Gen-本文的目标是设计一个统一的人搜索框架的不对齐的边界框鲁棒性。如图1，基本思想是细化检测到的边界框以覆盖估计的整体身体区域，以消除未对准误差。然后，对齐的零件特征可以提取从细化的包围盒与简单的区域划分。因此，零件特征允许跨边界框的鲁棒部分匹配，其中相互可见区域上的特征被匹配用于相似性计算，并且噪声区域上的特征不被考虑用于匹配。换句话说，我们的策略提高了特征分辨率和对未对准误差的鲁棒性。上述想法导致了用于人员搜索的对齐到部件网络（AP- Net）。建立在OIM [24]之上，APNet由额外的Bounding Box Aligner（BBA）和Region画廊全局匹配查询部分匹配完全身体区域对齐部分身体区域6828敏感特征提取器（RSFE）。BBA模块通过预测4个边界框偏移值来实现。它可以通过自动数据增强来训练，而无需手动注释。由于特征提取CNN层中神经元的感受野扩大，噪声或遮挡部分会影响同一边界框中相邻部分的特征。进一步设计了RSFE模块，实现了零件特征的提取。RSFE增强了零件特征中的局部线索，从而有效地消除了零件特征学习中相邻噪声的负面影响。我们测试我们的方法对当前的人搜索基准，即。[33]《易经》：“君子之道，焉可诬也？有始有卒者，其惟圣人乎！实验结果表明，我们的APNet取得了竞争力的性能相比，最近的作品。为了在更具挑战性的场景中测试我们的方法，我们贡献了一个新的个人搜索数据集，名为LSPS（Large-Scale dataset for Person Searchin the wild）。与PRW和中大中山大学相比，LSPS提出了几个新的功能，将鼓励研究朝着更现实的个人搜索：1）规模大：它包含大量的行人和边界框;（2）自动检测边界框，区别于PRW和CUHK-SYSU中人工标注的边界框; 3）在具有遮挡和拥挤的场景中收集。在这个具有挑战性的LSPS，我们的方法表现出显着的优势。与reID相比，个人搜索仍然相对不足。如何应对人物识别和身份识别中的挑战是至关重要的。到达贝斯特据我们所知，所提出的APNet是一个早期的尝试，在提高鲁棒性的错位问题，在人的搜索。实验结果表明，AP- Net带来了可观的性能提升.拟议的LSPS数据集模拟现实场景，并提出了一个更具挑战性的人搜索任务比现有的数据集。我们相信，所提出的方法和贡献的LSPS可以激发更多的研究工作，在人的搜索。2. 相关工作这篇论文与person reID和person search密切相关。下面的部分回顾这两个系列的作品。Person reID从给定的人边界框中提取鲁棒和有区别的特征。当前完全监督的reID方法可以简要地总结为以下几类。1)利用离线检测器学习区域的局部特征，将身体分割成多个区域[27，17，10，11]，或均匀地将身体分割成多个区域。eral stripes [31，22，26]; 2）利用-添加额外的属性注释[19，18，20，23]; 3）通过注意力机制增强特征的区分度[12，9，25]; 4）使用损失函数对特征空间施加约束，如验证损失[36]和三重损失[8]。在上述方法中，PCB [22]及其变体[31，26]主导了最先进的性能。PCB将特征图均匀地分割成条带并对其进行监督以确保其区分能力。然而，PCB需要输入图像的严格对准，因为未对准破坏了相同空间位置上的条纹的对应性。因此，当存在未对准时，PCB的性能大幅下降[21]。有一些reID作品专注于部分reID。Zheng等人 [35]提出AMC+SWM来解决部分reID。AMC从所有图库图像中收集补丁，并为补丁级别匹配建立字典。He等人 [7]提出了DSR，通过整体图像重建部分图像，并利用重建误差作为相似性。AMC [35]和DSR [7]都是基于优化的，因此获得每个查询-图库对的相似性是昂贵的。PGFA [14]对对齐的输入图像应用部分匹配方案，其被遮挡部分由昂贵的离线关键点检测器指示 Sun等人 [21]提出了一种VPM来提取局部特征，同时同时知道每个身体部位的可见性。然而，VPM没有考虑DSR中提到的变形我们的方法通过一个显式的对齐步骤来解决变形问题，并在推理阶段摆脱了每个查询-图库对的耗时比较。人员搜索在reID之前考虑原始视频帧中的检测阶段目前的人员搜索方法可以分为两类。一种是将检测和reID集成到一个统一的框架中[24，15，4，29]。基于Faster-RCNN [16]，Xiao等人提出的OIM。 [24]在探测器头的顶部插入了一个额外的特征提取分支，这是第一个用于人员搜索的端到端学习框架。与Liu等人的NPSM类似。[4]，Munjal等人。 [15]应用查询引导的方法进行人员搜索，同时与NPSM相比，它是端到端优化的另一类解决了检测和重新识别两个独立的模型，即。，以顺序方式执行人员搜索[1，28，3]。Chen等人。 [1]提出了一种掩码引导的特征学习方法，使reID网络更加关注前景。Lan等人。 [28]提出了CLSA，它利用reID网络的多级特征来解决多尺度匹配问题。Han等人。 [3]声称检测器的边界框可能不是重新识别的最佳选择，因此他们改进了由重新识别损失驱动的我们的工作属于第一类人员搜索，将检测和reID集成到一个统一的框架中。与现有的人物搜索方法不同，该方法进一步解决了检测到的边界框的错位问题，并优化了对齐部分特征学习，实现了人物搜索中的鲁棒部分匹配。3. 问题公式化给定查询人物图像q和图库集合G={gi}i=1：N，包含N个帧，人物搜索的目标是6829F区域敏感特征提取器RoI对齐拔出器头说唱干{f（k）}k=1：K间隙FRSMlign检测器头高×宽×深高×宽×深区域敏感地图F检测器RPN RoI A埃斯蒂利角ROI奥托博洛尔边界框对齐器图2.提出了一种基于零件定位网络（APNet）的体系结构，该网络由人检测器、边界框定位器（BBA）和区域敏感特征提取器（RSFE）组成。检测分支返回边界框B和全局特征F。 BBA将检测到的块B细化为对齐的块，即。e. ，B. 红色和绿色边界框表示检测到的框B和细化的框B。RSFEe提取物部分特征{f（k）}k=1：K从细化框和消除相邻噪声的负面影响RAP和GAP表示区域平均值Pooling和Global Average Pooling。 FRSM是来自区域敏感地图的全局特征，仅用于训练RSFE。检测人边界框的集合B={bi}i=1：M来自G，则匹配qag表示B中的边界盒.假设一个人可以被分成K个身体部位，我们可以将边界框表示为bicon，目标是，ΣKL= LD+ LP+k=1Lf（k），（2）把一个完整的人看成是K个部分的集合，即、Pi={p（k）}k=1：K，其中p（k）表示第k部分。其中LD表示检测器的损耗，其被优化我我利用上述公式，期望人检测返回包含具有K个部分的完整人的边界框Person reID的目标是提取区分特征以识别B中q的相同身份。大多数已有的工作都是提取全局特征F并进行reIDL2距离由于遮挡或背景遮挡，某些边界框仅包含身体部位的部分，使得全局特征退化为部分特征，即，从l，1K个可见部分中提取全局特征。当与全局特征相比时，这样的部分特征导致不准确的人匹配。我们的解决方案是引入部件标识符E（·）来识别每个检测到的边界框中的可见部件，即，Pi=E（bi）.通过识别的部分，可以将人图像匹配视为部分特征匹配任务，其中匹配两个边界框的相互可见部分上的特征。q和bi之间的距离可以表示为，即、D（f（k），f（k））边界框位置和人员reID。LPde-注意到部件标识丢失 L（k）评估第k个部分特征的区分能力，其可以是独立的。并伴有reID丢失。接下来的部分详细介绍了我们对人物检测器，部分识别器，部分特征提取，以及网络优化的实现。4. 提出方法我们建议使用零件对齐网络（APNet）来实现第2节中的公式。3 .第三章。AP-Net的体系结构如图所示.二、APNet由一个人检测器，边界框对齐器（BBA）和区域敏感特征提取器（RSFE），分别。以下部分介绍了这些组件的详细信息。该检测器基于OIM [24]构建，OIM是一个端到端的人员检测器，返回边界框B及其相应的全局特征F。如图二、检测器使用RPN损失（Lrpncls，Lrpnreg）进行训练[16]，Distk∈Pq<$Pi（q，b）=QI、（1）ROI头部损失（Lcls，Lreg）以及reID损失。我们表示Pi| PqPi|其中f（k）和f（k）是从第k部分提取的特征检测器训练损失为LD=Lcls+L reg+L rpncls+L rpnreg+L ID，（3）QI由q和bi，D（·）表示L2距离。我们的人搜索模型的训练应该保证一个准确的人检测器，可靠的零件识别器，和区分的零件特征。我们制定我们的训练Σ6830其中Lcls和Lreg表示ROI头部中的人分类损失和边界框回归损失。Lrpncls和Lrpnreg表示RPN中的客观性损失和建议回归损失。LID是在6831我F011110t> 0111110到<01111110101ob> 0o b<0ymax−ymin。类似的计算可以应用于计算具有o l和o r的xmin和xmax。我们将细化的边界框表示为bxb，以提取水平和垂直条纹作为部分。如图3、细化可能会将遮挡部分和噪声引入到DRB中。为了提取K个水平条纹，我们引入了一个K维有效向量v来记录每个条纹的可见性。第k条被认为是有效的，即，，v[k]= 1，如果图3. BBA用于边界框细化的插图。红色和绿色框分别指检测到的框和细化的框。BBA预测四个边界框偏移值ot、ob、ol和or，其使检测到的边界框移位以覆盖估计的整体身体区域。0、1表示各部分有效。全局特征我们建议读者参考OIM [24]，以了解损失计算的更多细节。如图1，训练有素的检测器可能会产生未对齐的人边界框。因此，我们设计了一个部分估计与BBA估计可见的身体部位，每个检测到的盒子。4.1. 边界框对齐器B B A实现了第节中的部件标识符E（·）。3以识别每个边界框中的可见部分。这可以通过各种方法来实现，例如：通过对人前-<$K·max（0，o t）<$≤k ≤K− <$K·max（0，ob）<$。（五）应用类似的计算来提取有效的垂直条纹。每个边界框的最终有效部分集合P收集有效条纹。如图2、BBA基于用ROIAlign提取的边界框特征预测OBBA可以通过自动生成训练数据来训练。我们首先通过它们的地面实况坐标从帧中裁剪边界框，我们将其表示为Bgt。AlphaPose [2]用于估计每个边界框的关键点，提供关于身体缺失部位的线索。然后，我们将Bgt转换为Bbgt，以涵盖整体身体区域。比较Bgt和Bgt生成fset标签O gt={o gt−t，o gt−b，o gt−l，o gt−r}的基础真值。因此，BBA的训练可以通过以下损失来监督Σ[13]或估计身体关键点[2]。然而，在这方面，这些方法需要额外的注释，LP=i∈{t，b，l，r}smoothl1（oi，ogt−i），（6）计算我们以更有效的方式溶液由于大多数行人在监控视频中表现出直立的姿势，因此可以通过将整体身体区域划分为水平和垂直条纹来提取对齐的身体部位。该操作生成对齐的部分区域，例如顶部和底部水平条纹分别对应于头部和脚部。有了这种直觉，BBA首先细化检测到的边界框，然后提取水平和垂直条纹是身体的一部分我们在图中说明了这一过程。3.第三章。BBA估计偏移向量O={ot，ob，ol，or}以细化每个检测到的边界框以覆盖整体身体区域，其中每个偏移值在[-1，1]的范围内。这四个偏移值将上下左右每个边界框的边界。图3示出了将边界移动ot和ob的示例。假设共同-其中SmoothL1计算预测偏移值和地面实况值之间的差。smoothl1的更多细节可以在[16]中找到。4.2. 区域敏感特征提取器零件集合P使得可以提取零件特征用于部分匹配。以下部分显示了我们的方法来提取水平条纹特征。垂直条纹特征可以用类似的方法提取。Vanilla部分特征提取器：通过对视频帧的特征图进行区域平均池化（RAP），可以提取部分特征。如图2的一个细化的边界框b_i，我们首先提取它的特征图从具有ROIAlign的帧特征图M，其然后被输入到卷积块中以生成特征边界框b的纵坐标是{xmin，ymin，xmax，ymax}，映射T∈RH×W×D。 We表示bex的部分特征，由RAP作为，在用O细化之后，其坐标可以表示为{xmin，ymin，xmax，ymax}，e. G. 、{f<$（k）}k=1：l=RAP（T，Pi），l=|Pi|、（7）ymin=yminh·ot−1−ot−ob（四）其中，L表示边界框b_i的有效水平条纹的数量。ymax=ymaxh·ob +、1−ot−ob6832零件特征学习可以通过计算每个有效零件特征上的reID损失来实现，即、其中h是检测到的边界框的高度，计算L（k）=LID（f<$（k），y），（8）6833我1×11×1（一）(b)（c）第（1）款（一）(b)（c）第（1）款经过EQ训练后（10），其中有效地抑制无效区域从M，条纹特征可以通过RAP提取为，{f（k）}k= l：l= RAP（M，Pi），l =|Pi|、（11）其中每个零件特征可以用等式（1）中的零件特征损失来训练（七）、当量（9）在T的空间位置上应用不同的1×1卷积核。这使得更具体的细化对于每个部件特征。除此之外，不同的空间位置显示不同的遮挡概率，例如，，脚部区域更可能被遮挡。此属性使图4.检测到的框（红色）和细化框的图示（绿色），以及它们的特征图。(b)以及（c）示出了用vanilla部分特征提取器和我们的RSFE训练的精炼盒的特征图。很明显，RSFE在噪声和无效区域上抑制噪声。其中，LID是指与OIM损失一起实施的reID损失[24]。y是地面实况人物ID标签。图图4（b）示出了由上述特征提取器训练的对齐的边界框的特征图很明显，噪声或不可见的区域仍然具有强烈的响应。这可能是因为Eq.（8）聚焦于可见的身体部分，并且不能调谐噪声部分上的特征由于特征提取CNN层中神经元的感受野扩大，噪声或遮挡部分的CNN强烈激活会影响其相邻有效部分的特征。这可能降低上述特征提取器的有效性。因此，需要对遮挡和噪声鲁棒的零件特征提取器。使用区域敏感地图进行特征提取：我们的RSFE引入了一个区域敏感地图（RSM）来抑制无效区域的响应。为了调整每个特征条带的响应，我们生成响应面M∈RH×W×d通过对每个水平特征应用1× 1卷积条纹T[i]∈RW×D，i=1：H. 的计算M[i]∈RW×d可以表示为，当量（9）比学习全局1 ×1卷积核更有效地抑制遮挡和噪声。上述方法从水平方向条纹类似的过程可以应用于从垂直条纹提取特征。给定要比较的查询人图像q和检测到的图库边界框bi，我们使用人reID的全局和局部特征。零件特征距离可以用等式（1）计算（一）. 我们还使用检测器分支的全局特征Fq和bi之间的总距离可以计算为：dist（q，bi）=distP（q，bi）+λ·D（Fq，Fi），（12）其中Fq和Fi对应于q的全局特征，bi分别。在下面的实验中，我们将λ5. LSPS数据集5.1. 以前的数据集CUHK-SYSU[24]包含5，694帧电影快照和12，490帧街道快照。边界框和标识都是手动标记的。该数据集提供了8，432个标记身份和23，430个标记边界框。总共提供了96，143个边界框。11，206帧，5，532个身份，M[i]=conv（i）（T[i]），i=1：H，（9）训练集。中大-中山大学不使用部分实体注释边界框。其中conv（i）是指第i个卷积核。不同于全局1×1卷积，等式中的H个卷积（9）不共享参数，处理复杂不同空间位置的遮挡。为了抑制噪声区域，我们用全局特征监督M损失可以通过对M应用平均池化来计算，并监督所得到的特征FRSM，即、LRSM=LID（FRSM，y）。（十）这种损失迫使网络抑制噪声区域的激活，以生成更好的FRSM，然后将其用于条纹特征提取。图4（c）示出了特征图6834PRW[33]由部署在校园的六台摄像机捕获，包含11，816帧，总共932个身份。选取了5,134帧作为训练集，具有432个iden。tities，而其余的6，112帧组成测试集。总共有34，304个边界框被标注了身份。与CUHK-SYSU类似，PRW中的边界框位置也是手动标记的。PRW在查询和图库中都包含一些未对齐的边界框。5.2. 对LSPS本文提供了一个新的大规模数据集，用于野外人员搜索（LSPS），它具有以下特点：6835数据集的lspPRW [33]香港中文大学[24]帧51,83611,81618,184身份4,0679328,432anno 盒60,43334,30423,430相机176-检测器Faster-RCNN手手inc.query约60%6%10%表1. LSPS和其他两个人搜索数据集之间的比较。“检测器”指的是获得包围盒位置的地面实况的方法。“inc.query” meansthe percentage of query bounding boxes with partial100806040200>0.90.8-0.90.7-0.80.6-0.70.5 -0.6之间0.4-0.5<0.4查询图像（一）（b）第（1）款复杂的场景和外观变化：视频帧是从17个摄像头收集的，部署在室内和室外场景。不同的摄像机表现出不同的背景、视点、视场、照明、行人密度等。这些因素导致同一个人的外观差异很大。同时，由于每个摄像机的视场有限，以及高的人密度，大量的行人被遮挡，导致包围盒覆盖部分身体区域。LSPS将部分边界框包含到查询集和图库集中。图5（a）比较了LSPS和PRW之间查询中的主体完整性。很明显，LSPS具有大量的不完整查询边界框。与现有的人物搜索数据集相比，LSPS呈现了更复杂的场景和外观变化。更大规模：与以前的基准测试不同，边界框是手动标记的。LSPS利用Faster-RCNN [16]检测到的边界框，基于此，我们设法收集具有大量边界框的数据集。我们在表1中显示了LSPS和其他两个数据集之间的比较。在LSPS中，总共收集了51，836帧，其中注释了60，433个边界框和4，067个身份。表1示出了LSPS分别呈现较大数量的帧、注释的人边界框、相机。此外，LSPS中约60%的查询覆盖部分身体。更大规模和不完整的查询边界框使LSPS成为比表1中的其他数据集更具挑战性和现实性的数据集。5.3. 评价方案LSPS被拆分为具有18，154帧的训练集和具有33，673帧的测试集。训练集和测试集分别包含1，041和3，026个身份。表2总结了训练集和测试集的统计数据。我们利用平均精度（mAP）和rank-1准确度作为评估指标，这在person reID中被广泛采用[24，15，1，28，3]。在个人搜索中，如果检索到的绑定框与查询共享相同的ID标签，并且重叠率大于0.5与地面实况边界框。因此无论图5. (a)比较LSPS和PRW之间查询的主体完整性。（b）示出了若干查询和图库边界框。可以观察到，在查询和图库边界框两者中发生未对准。分裂帧身份盒anno 盒培训测试18,16333,6731,0413,02671,563116,17018,92841,505表2.统计LSPS上的训练/测试集。“安。框”是指用个人ID注释的边界框。“框”表示所提供的边界框的数量。在人搜索中的mAP和rank-1准确度受检测器性能的影响。6. 实验接下来的部分在中大中山大学[24]、PRW [33]和新的LSPS上进行了实验。6.1. 实现细节我们的APNet是基于OIM实现的[24]。我们使用使用ImageNet预训练模型初始化的ResNet50 [6]作为骨干。主干采用与[15]中的设置类似的设置，并且它使用RoIAlign [5]而不是 RoIPooling [16] 。对于所有的实验，我们训练的AP-网络与SGD优化器。我们将培训分为两个阶段，即，第一阶段训练检测器分支，LD. 第二阶段确定检测器的参数，分别用LP和LF训练BBA和RSFE对于水平条纹，我们将K设置为7对于PRW和CUHK-SYSU，我们不使用垂直条纹的特征，因为这两个数据集中的未对齐主要发生在垂直方向上。在CUHK-SYSU上，第一阶段持续40 k次迭代。我们将初始学习率设置为1 e-3，并在30 k时衰减0.1RSFE以1 e-3的学习率训练40 k，在30 k时衰减。在PRW上，第一阶段持续80k。我们将学习率设置为1 e-4，衰减到60 k。RSFE以1 e-3的学习率训练40 k，在30 k时衰减在LSPS上，94.9LSPS PRW40.627.313.24.91.62.20.53.6 0.750.045.4 0百分比（%）6836特征PRW的lsp地图秩-1地图秩-1全球34.275.814.447.7条纹39.179.113.041.6VPM [21]40.080.216.049.5条纹（BBA）40.881.016.450.2RSFE（BBA）41.981.417.151.6表3.通过添加人工遮挡修改了Market1501上部分匹配的有效性。“上限”是指原始Market-1501上的全局特征的性能。其他方法在修改的Market-1501上进行测试。有效区域是指两个匹配包围盒的共同可见区域。表4. BBA和RSFE在条纹特征提取中的有效性全局是指从检测到的边界框中提取的全局特征。 “RSFE (BBA)” de- notesstripe feature extracted byBBA的有效性：BBA执行边界框优化-50.55049.54949.24950.2 16.415.9十六岁416.115.8估计和有效部分。我们继续核实BBA在搜查个人方面的有效性。表4显示了应用前全局特征和条带特征的性能。48.548四十八点八K=1 K=3 K=5 K=715.415.6K=1 K=3 K=5 K=7工商管理学士。很明显，提取有效的条带特征从BBA细化的边界框，大大提高了reID的性能。例如，图6.不同条带数K的LSPS上的性能。阶段持续120 K，学习率为1 e-4，在80 K和100 K时分别衰减0.1。RSFE以1 e-3的学习率训练60 k，在30 k和50 k下衰减，重新训练。三个数据集上的BBA以1 e-3的学习率训练30 k，并在20 k处衰减。6.2. 消融研究部分匹配的有效性。APNet通过基于条带特征的部分匹配解决了未对准问题.这一部分论证了该策略的有效性。我们首先修改Market-1501 [32]，为查询和图库图像添加随机遮挡。基于该修改后的数据集，我们比较了不同的特征匹配策略，并在表3中总结了结果，其中表3显示，遮挡对reID有害，例如，，使全局特征的mAP从53.5%下降到13.6%。从整个边界框中提取条纹特征可以提高reID的性能。这表明零件特征的有效性由于部分匹配从可见区域提取特征，因此它比全局匹配具有更好的性能。在用于部分匹配的三种特征中，从互条纹中提取的特征性能最好。它比来自共同区域的特征性能好得多，例如。，30.9%，21.4%在mAP。它也显着优于全局特征的全局匹配。因此，上述实验表明了图1所示思想的有效性。1，其中相互可见区域上的特征被匹配用于相似性计算。PRW上的mAP为40.8%，优于原始全局特征和条纹特征的mAP分别为34.2%和39.1%。我们还展示了再现的VPM [21]的性能，这是一种最近的部分匹配方法。如表4所示，在PRW和LSPS上，用BBA提取的条纹特征比VPM性能更好。实验结果表明了BBA在边界框细化和有效部分提取方面的有效性RSFE的有效性：RSFE旨在减轻图1所示的噪声区域的负面影响。第4（b）段。它还被设计为细化每个零件特征。表4比较了RSFE提取的条纹特征，即、“RSFE（ BBA ） ” 与由香草部分特征提取器提取的 RSFE（BBA）进行比较，即，可以观察到，RSFE在提高条纹特征性能方面是例如，RSFE在PRW和LSPS上分别将mAP提高1.1%和0.7%。BBA和RSFE的组合实现了最佳性能，并且大幅优于VPM更多与人物搜索作品的比较将在下一节中介绍。零件编号K的影响：我们继续研究零件编号K的影响，并在图6中总结结果。K=1使局部特征退化为全局特征。最大水平条纹数K等于T的高度，即，7在我们的实验中。如图所示，具有更精细尺度的条带有助于提高性能。这可能是由于较大的K提高了特征分辨率以及对遮挡和噪声的鲁棒性讨论：为了显示BBA在边界框细化中的效果，我们在图1中对细化前后的边界框进行了可视化。7.第一次会议。结果表明，BBA算法有效地移动了原有的包围盒，使其覆盖了人体的整体区域.该过程消除了错位误差，并保证对齐条纹特征提取。方法地图秩-1特征上界全球53.574.6全球全球13.630.4匹配条纹23.152.5部分有效区域23.946.7匹配互区21.448.6互条纹30.970.06837的lspOIM [24]VPM [21]APNetAPNet+v地图秩-114.447.716.049.517.151.618.855.7图7.基于BBA的细化包围盒可视化。红色和绿色框表示细化前后的边界框。BBA有效地估计整体身体区域，以消除未对准误差。方法# params（M）速度（秒）TFLOPSOIM360.2540.383APNet670.2560.397表5. APNet和基线OIM之间的参数和计算复杂度比较[24]。速度和TFLOPS是在NVIDIA 2080Ti GPU上测量的。方法参考中大中大PRW地图秩-1地图秩-1OIM [24]CVPR201775.578.721.349.9NPSM [4]ICCV201777.981.224.253.1里昂证券[28]ECCV201887.288.538.765.0MGS [1]ECCV201883.083.732.672.1CGPS [29]CVPR201984.186.533.473.6QEEPS [15] CVPR201988.989.137.176.7RDLR [3]ICCV201993.094.242.972.1APNet88.989.341.981.4表6.分别与中大-中山大学和PRW的近期工作进行比较除了基于基线OIM的检测器分支之外，AP- Net还引入了额外的BBA和RSFE模块。我们比较了OIM和APNet之间的参数和计算复杂度，见表5。比较表明，APNet实现了有前途的性能，与基线OIM，例如相当的速度。， 0.397 TFLOPs 的 APNet vs.0.383 TFOLPs 的OIM。虽然BBA和RSFE模块为APNet带来了更多的参数，但它们并没有大幅降低其计算速度APNet可能比在单独步骤中处理检测和reID的人员搜索工作更快，并且比QEEPS [15]等一些工作更快，后者比较每个查询-图库对进行人员搜索。6.3. 与近期作品的比较香港中文大学我们在中大中山大学进行实验，表 7. 与 LSPS 最近的作品比较 APNet 表示我们的方法。APNet+v考虑额外的垂直条纹特征。NET是一个统一的模型，可能会提供更好的计算和内存效率。PRW。在PRW上，APNet实现了具有竞争力的性能，例如一级准确率为81.4%，mAP为41.9%，优于大多数近期研究成果。APNet还表示，cantly优于RDLR [3]的秩1精度与较弱的骨干，即。1级准确率提高了9.3%。由于PRW中的某些查询图像覆盖了部分身体部位，因此APNet在部分匹配方面表现出更大的优势。它也比CGPS [29]和QEEPS [15]在秩1中分别高出7.8%和4.7%。请注意，CGPS [29]和QEEPS[15]将每个查询库对输入到CNN中进行相似性计算，因此与APNet相比，检索效率也较差LSPS。最后给出了LSPS的实验结果。[24]《易经》中的“道”是指“道”。APNet带来了3.9%的rank-1改进，达到51.6%，rank-1和mAP分别为17.1%APNet也优于最近的VPM[21]，它解决了部分reID问题。为了考虑水平方向上的未对准，我们进一步应用额外的垂直条纹特征。相应的方法，即APNet+v的性能最好，在rank-1和mAP中分别达到55.7%和18.8%。同样清楚的是，在LSPS上的APNet 的性能大大低于 PRW 和 CUHK-SYSU ，表明LSPS的挑战7. 结论本文提出了一种APNet来解决人物搜索中的边界APNet细化检测框以覆盖估计的整体身体区域，同时从可见身体部位提取部位特征。这公式化的reID作为一个部分特征匹配过程，其中有效的部分特征被选择用于相似性计算，而被遮挡或噪声区域的部分特征被丢弃。本文还提供了一个LSPS数据集，这是迄今为止最大和最具挑战性的实验结果表明，APNet对LSPS算法的性能有显著的改善.此外，它在现有的基础画廊大小100.APNet实现了rank-1的准确性，89.3 %和mAP为88.9%，优于大多数最近的作品。请注意，RDLR [3]使用更强大的骨干ResNet 50-FPN以及基于排名的损失。CLSA [28]、MGTS [1]和RDLR等方法使用两个单独的模型解决检测和reID问题，这在计算和存储方面都很昂贵与这些作品相比，我们的AP-个人搜索基准，如中大-中山大学和PRW。致谢本工作得到国家重点研究发展计划项目的部分支持，批准号：2018YFE0118400，部分由北京自然科学基金资助，批准号：JQ18012，国家自然科学基金项目，批准号：61936011、61425025、61620106009、61572050、91538111。6838引用[1] 帝尘、张珊珊、欧阳万里、杨剑、英台。基于掩码引导的双流cnn模型的人员搜索。在ECCV，2018。[2] 方浩树，谢淑琴，戴玉荣，陆策武。RMPE：区域多人姿势估计。InICCV，2017.[3] Chuchu Han、Jiacheng Ye、Yunshan Zhong、Xin Tan、Chi Zhang、Changxin Gao和Nong Sang。用于人员搜索的Re-id驱动的本地化细化。在ICCV，2019年。[4] 刘浩、冯佳石、杰泽群、卡勒卡尔·贾亚什里、赵波、齐美斌、蒋建国、严水成。神经人搜索机器。InICCV，2017.[5] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。InICCV，2017.[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[7] 何凌霄，梁健，李海青，孙振安。用于部分人重新识别的深度空间特征重建：无对准方法。在CVPR，2018年。[8] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为了防止三重丢失，进行人员重新鉴定。arXiv预印本arXiv：1703.07737，2017。[9] Ruibing Hou ， Bingpeng Ma ， Hong Chang ， XinqianGu，Shiguang Shan，and Xilin Chen.用于人员重新识别的交互和聚合网络。在CVPR，2019年。[10] MahdiMKalayeh 、 EmrahBasaran 、 MuhittinGo¨kmen 、Mustafa E Kamasak和Mubarak Shah。人的语义分析，用于人的重新识别。在CVPR，2018年。[11] 李嘉宁、张世良、齐天、王梦、高文。姿势引导的表征学习用于人的再识别。IEEE Transactions on PatternAnalysis and Machine Intelligence，2019。[12] Wei Li，Xiatian Zhu，and Shaogang Gong.和谐的关注网络，人的再认同。在CVPR，2018年。[13] 李毅、齐昊之、戴季风、季向阳、魏一完全卷积的实例感知语义分割。在ECCV，2016年。[14] 苗佳旭、吴宇、刘平、丁宇航、杨毅。用于被遮挡人重新识别的姿势引导特征对准。在ICCV，2019年。[15] Bharti Munjal 、 Sikandar Amin 、 Federico Tombari 和Fabio Galasso 。查询引导的端到端人员搜索。在CVPR，2019年。[16] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。2015年，在NIPS[17] Chi Su，Jianing Li，Shiliang Zhang，Junliang Xing，Wen Gao，and Qi Tian.用于个人重新识别的姿势驱动的深度卷积模型。InICCV，2017.[18] Chi Su，Fan Yang，Shiliang Zhang，Qi Tian，Larry SDavis，and Wen Gao.多任务学习与低秩属性嵌入的人重新识别。CVPR，2015。[19] 迟苏，张世良，邢俊良，高文，齐天。深层属性驱动的多摄像机人物重新识别。在ECCV，2016年。[20] Chi Su，Shiliang Zhang，Fan Yang，Guang

下载后可阅读完整内容，剩余1页未读，立即下载