无对齐遮挡条件下的前景感知金字塔重建与人重新识别

38 浏览量更新于2023-10-12 收藏 1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

18450前景感知金字塔重建的无对齐遮挡人重新识别何凌霄1、 2、王英刚1、刘武1、何钊1、孙振安2、冯佳诗31JD AI Research，2CRIPAC NLPR，CASIA，3新加坡国立大学&{lxhe，wyg19970408}@ gmail.com，liuwu@live.cn，zhaohe5@jd.com，znsun@nlpr.ia.ac.cn，elefjia@nus.edu.sg摘要跨多个不相交的摄像机视图重新识别人对于智能视频监控、智能零售和许多其他应用是重要的。然而，现有的人重新识别（ReID）方法受到普遍存在的人上的遮挡的挑战并且遭受性能下降。本文提出了一种新的遮挡鲁棒和无遮挡的人ReID模型，并将其应用扩展到现实和拥挤的场景。该模型首先利用全卷积网络（FCN）和金字塔池提取空间金字塔特征。然后，提出了一种无需对齐的匹配方法，即前景感知金字塔重建（FPR），用于精确计算被遮挡人之间的匹配分数，尽管他们的尺度和大小不同。FPR使用来自空间金字塔特征的鲁棒重建的误差来测量两个人之间的相似性。更重要的是，我们设计了一个遮挡敏感的前景概率生成器，更侧重于干净的人体部位，以改善相似性计算，减少污染的遮挡。FPR可轻松嵌入任何端到端人员ReID模型。所提出的方法的有效性清楚地证明了实验结果（秩-1精度）在三个闭塞的人数据集：部分性REID（78.30%）、部分性iLIDS（68.08%）和阻塞性REID（81.00%）;三个基准数据集：Market 1501（95.42%），DukeMTMC（88.64%）和香港中文大学03（76.08%）。1. 介绍Person ReID是一个重要的任务，具有广泛的现实应用，如智能视频监控，智能零售等，旨在匹配从非重叠相机捕获的人物图像。一个主要的问题是，查尔-* 孙振安为通讯作者。图1.遮挡人员ReID问题的图示。这里，ReID系统旨在从由相机B捕获的不同尺寸监视操作员捕获的大多数人都被遮挡。认为这一任务是无处不在的遮挡在captured的人。例如，如图2所示。1、无人超市中的人被商品、货架或其他人遮挡，使得难以跟踪他们的移动。现有的方法[4，6，8，12]大多利用外部线索，例如人的面具，语义解析或姿势估计，以对齐检测到的人。然而，这些方法可能无法在严重遮挡的情况下生成准确的外部线索，例如被遮挡对象的半边身体。此外，它不可避免地招致更多的处理时间来推断这些外部线索。其他一些方法[15，21]通过使用基于部分的模型，通过部分到部分匹配实现了更好的性能，但它们需要预先进行严格的人员对齐。在本文中，我们提出了一种新的无障碍方法，该方法可以在前景感知的帮助下，即使在存在严重遮挡的摄像机A匹配谁？摄像机B18451基于金字塔重构的相似性度量。特别地，我们首先利用全卷积网络（FCN）生成包含空间坐标信息的判别性空间特征然后，我们开发了一种新的匹配分数计算方法，可以很容易地纳入任何端到端的人ReID模型。更具体地说，所提出的计算方法鼓励探针特征图中的每个空间特征从图库特征图内的基础空间特征线性重建，并且平均重建误差被用作最终匹配得分。通过这种方式，该模型与图像的大小无关，并且自然地跳过耗时的对齐步骤。我们还设计了一个前景概率生成器来学习前景概率图（FPM），它可以通过为身体部位分配较大的权重和为遮挡部位分配较小的权重来指导空间重建，所提出的方法鼓励从同一个人提取的空间特征图的重建我们进行了大量的实验来验证我们提出的方法的有效性，结果清楚地证明，即使在存在严重遮挡的情况下，它也可以实现准确的人ReID性能。综上所述，本工作做出了以下贡献：• 我们介绍了一种新的端到端的空间金字塔特征学习架构，可以处理不同大小和尺度的输入，并生成不同大小和尺度的数据。犯罪特征• 我们提出了一种遮挡敏感的无遮挡方法，即前景感知金字塔重建（FPR），它利用前景概率生成器，用于指导遮挡人ReID的金字塔重建。与以前的方法不同，它在测试阶段不需要任何外部线索。• 实验结果表明，该方法取得了令人印象深刻的结果，对多个oc-包括 Partial REID [21] 、 Partial iLIDS [20] 和Occluded REID [3]的clusion数据集。它在Rank 1精度方面超过了一些遮挡ReID方法30%以上此外，FPR在多个基准人员数据集（包括Market1501[19]、DukeMTMC [23]和香港中文大学03 [22]。2. 相关工作闭塞人ReID由于其重要的实际意义而受到越来越多的一般来说，以前的冰毒-表1.遮挡人ReID方法与所提出的FPR的比较。方法对准要求外部线索要求掩模导引基于姿势引导的部件需要要求Require需要要求不要求FPR（我们的）非比对不需要用于解决该问题的ODS利用诸如掩模和姿态的外部线索，或者采用部件到部件匹配。与外部线索联系起来。面具引导模型[4，8，12]使用包含体型信息的人物面具来帮助去除像素处的背景杂波，人员重新识别级别。例如，Kalayeh等人。 [4]提出了一个模型，将人类语义解析集成到人的重新识别中。它类似于[4]，Qi等人。 [8]将源图像与人物面具作为输入组合，以消除外观变化（照明，姿势，遮挡等）。姿势引导模型[6，13，14]利用骨架作为外部线索，通过使用人物地标定位每个部分，有效地缓解了部分错位问题。例如，Su等人。 [13]提出了一种姿势驱动的深度卷积（PDC）模型，以端到端的方式学习改进的特征提取器和匹配模型。PDC可以显式地利用人体部位线索来减轻姿势变化引起的识别困难。Suh等人。[14]提出了一个双流网络，它由外观地图提取流和身体部位地图提取流组成。在这两个流之后，通过相应的局部外观和身体部位描述符的双线性映射来获得部分对齐的特征图。虽然这些方法确实可以解决遮挡问题，但它们严重依赖于准确的行人分割，并且花费大量时间来推断外部线索。基于部件的模型[15，16，18]采用部件到部件匹配策略来处理遮挡，并且主要是目标当嫌疑人部分外出时，摄像机Zheng等人 [21]提出了一个提出了一种基于字典学习的块级匹配模型--模糊敏感匹配分类器（Ambiguity-sensitive Matching Classifier，AMC），并给出了一种全局的基于部件的匹配模型--滑动窗口匹配（Sliding Window Matching，SWM），该模型能够提供互补的空间布局信息。然而，AMC+SWM的计算成本相当昂贵，因为特征被重复计算而没有进一步加速。Sun等人。 [15]提出了一种基于部件的卷积基线（PCB）网络，该网络输出由几个部件级特征组成的卷积特征。PCB专注于每个部分内的内容一致性，以解决遮挡问题。然而，所有这些方法都不能跳过对齐步骤. Heet al. [2]建议重建特征图18452前景感知金字塔重建重建MNYddE加权和距离画廊：$yNXDHH前景概率图探头：2. 金字塔池化x金字塔功能Softmax（2-D）（1×1）Conv（256-3. 前景概率发生器1. FCN池化层8x8/2池化层6x6/2池化层4x4/2池化层2x2/2图2.所提出的前景感知金字塔重建方法的架构。它由三个部分组成：1.全卷积网络（FCN），2.a金字塔池化和3.前景概率生成器。该结构可以产生不同大小的输入的空间金字塔特征和前景概率图h。第二部分是前景感知的金字塔重建，用于测量两个人图像之间的相似性。给定探测器x，前景概率向量H和空间特征X分别通过前景概率生成器和金字塔池化的FCN获得。给定图库y，也可以获得空间特征Y。然后，我们使用线性重建过程，得到重建误差ε2（E）。最后，我们在x2（E）和H上执行加权求和运算，以获得探针x和图库y之间的相似性得分。从可见部分对整体行人进行套索回归，解决部分人ReID问题。表1比较了最先进的算法与我们关于对齐和外部线索要求的方法。应注意，基于外部线索的方法是被遮挡人ReID的主流然而，当半身被遮挡时，用于人对齐的准确和稳定的与以往的方法不同，我们所提出的方法是无障碍的，更有效的，当它涉及到被遮挡的人的ReID问题。它不依赖于任何外部线索，同时仍然达到更高的准确性。3. 该方法在本节中，我们详细介绍了所提出的无对齐被遮挡人重新识别方法。我们首先介绍网络架构。之后，我们介绍了前景感知金字塔重建计算匹配分数之间的两个人的遮挡。然后，我们解释了我们的模型的训练策略。3.1. 建议模型的体系结构所提出的ReID模型的架构如图所示。二、在结构上，它由一个全卷积网络（FCN），一个金字塔池层和一个前景概率生成器组成。我们现在逐一解释。FCN。涉及全连接层的常规CNN需要固定大小的输入图像作为输入。事实上，该要求来自要求固定长度向量作为输入的全连接层。卷积层以滑动窗口方式操作，并生成相应大小的空间输出。为了处理不同大小的人物图像，我们放弃了所有全连接层，以实现全卷积网络（FCN），仅保留卷积和池化层因此，全卷积网络仍然保留了空间坐标信息，能够从不同大小的人物图像中提取空间特征。提出的FCN基于ResNet-50 [1]，它只包含1个卷积层和4个Resblock层，最后一个Resblock输出空间特征图。金字塔池。用于重新识别的检测到的人可能具有不同的尺度，这使得难以对齐他们的空间特征并且给他们的相似性度量带来误差。为了获得鲁棒的空间特征，而不管尺度变化如何，来自FCN的特征由金字塔池化层进一步处理以生成空间金字塔特征。金字塔池化层由不同内核大小的多个最大池化层组成，因此它在输入图像上具有更全面的感受野。如图2、小核池化层的输出空间特征捕捉了局部小区域的外观信息。来自大核大小的池化层的输出空间特征从图像中相对大的区域捕获外观信息。最后，我们连接的空间金字塔功能，以获得最终的空间特征，包含多尺度信息的输入，从而尺度变化的问题得到了很好的解决。前景概率生成器。目标人物被重新识别的人被提供有人检测边界………18453n=1k=1n=1n=12k=1W2yyx x xx箱.检测到的人的边界框是粗糙的，十个包含背景和遮挡。因此，输出的空间特征被遮挡和背景污染。为了保证后续的空间特征匹配能够避免遮挡污染，我们设计了一个前景概率生成器来生成前景概率图。这样的FPM将从背景中分离出前景，并指导随后的金字塔重建以用于鲁棒的匹配分数计算。我们将在下一小节中详细解释此模块。如图2、前景概率map generator由1×1卷积层和softmax层组成。算法1前景感知金字塔重建（FPR）输入：探测人员图像x;图库人员图像y。输出：重建误差FPR。1：提取探针多尺度空间特征X、多尺度热图H和图库多尺度空间特征Y。第二章：求解方程（2）求取重构系数W。3、根据Eq。（3）计算重建探头图X，进而得到残差图E。4：求解方程（5）获得最终FPR距离。令残差空间特征E={En}N=X-X。3.2. 前景感知金字塔重建我们提出的模型执行前景感知金字塔重建（FPR）计算匹配分数的输入人，而不需要提前对齐。图2示出FPR的工作流程。假设存在一对人物图像x（probe：被遮挡的人物图像）和y（gallery：未被遮挡的人物图像），其可以具有不同的大小。将来自FCN的x的空间金字塔映射表示为x= [xk]K，其中x由从K金字塔池化层中的最大池化层。而xk是一个向量化的wk×hk×d张量，wk，hk和d是张量的宽度，高度和通道。如图2，来自N个位置的总共N个空间特征，然后，平均重建误差被计算为：ΣN距离=102（E）/N，（4）i=1其中，ε2（E）={en}N∈R1×N，en是第n个空间特征的空间重构误差。平均重建可以看作是两个之间的距离，人物形象利用上述得分计算，可以有利地避免先前方法中的比对步骤然而，它有一个明显的局限性：由于背景和遮挡空间特征都被合并到X中，背景或遮挡空间特征的重建误差很大。因此，平均侦察-元素聚合成矩阵X=[xn]N∈Rd×N，ΣK其中N=n=1wk×hk.同样，我们构建结构错误增加，导致不可靠的相似性k=1X x得分并导致不匹配。为了解决这个问题，图库特征矩阵Y=[ym]M∈Rd×M，以及M=10000Km=1wk× hk. 然后，表示局部特征的xn我们建议减少背景的影响，在提高功效的同时，也要注意小的功效一个人的部分应该由一个线性组合表示Y国换句话说，Y中的一些空间特征应该能够线性地重建Xn，并且它们之间的相似性可以被计算为重建残差。因此，我们首先尝试获得xn关于Y的线性表示系数wn，其中wn∈RN。对于wn上的一个2-范数正则化，通过自适应地为这些区域分配大的权重来进行地面因此，我们考虑使用空间前景概率图来指导空间金字塔重建，以进一步获得FPR模型。具体地，给定探测人图像，如上所述的前景概率生成器输出空间概率图h。那么前景概率线性表示公式是向量H =[hn]N可以得到，这表明min||Xnwn-Ywn ||wn||wn||2.（一）空间特征的不同贡献，探头图像空间重建。对于前景空间特征，FPM中的输出值相对较小对于X中的N个空间特征，等式（1）可以重写作为min||X-YW||2+β||W||F，（2）其中W ={w1，. . . ，wN} ∈ RM×N，β控制编码向量W的平滑度。我们使用最小二乘算法来求解W，即 W =（YTY+ β·I）−1YTX。然后，重建探头空间特征可以表示为X=Y（YTY+β·I）−1YTX。（三）大，而对于背景空间特征，FPM中的输出值相对较小。因此，ReID模型可以利用空间矢量H来指导空间重建。我们对重建误差ε2（E）和前景概率向量H执行加权和运算。然后，两个人图像的FPR距离可以被定义为：距离=102（E）10H。（5）在算法1中概述了总体FPR。18454PnFPM发电机损耗三重损失FPR嵌入里德模型0.03 0.17 0.18 0.030.12 0.38 0.32 0.090.140.240.45 0.39 0.43 0.140.34 0.130.2 0.120.17 0.160.15 0.130.15 0.130.17 0.150.2 0.120.020.20.17 0.320.60.420.18 0.460.40.050.05 0.180.110.25 0.370.34n=1批前景概率图图3.模特训练我们的网络由一批输入层和一个ReID模型组成，其中FPR嵌入在ReID网络之后，然后在训练过程中丢失三元组。然后前景概率生成器损失学习前景概率图（FPM）。3.3. 模型训练我们现在解释前景概率生成器的训练策略以及整个模型。两损失函数，三元组损失Ltri和前景概率生成器损失Lfpgas在图中示出。3、对整个ReID模型进行优化。TripletLossLtri是一个很难理解的三重损失函数，它确保特定人物的图像与同一人物的所有其他图像之间的距离比其他任何图像都要近。一个不同的人的形象。三元组嵌入学习的目标是学习函数f（x）。在这里，我们要做一个图像xa（锚）零点三八0.490.40.40.02 0.28 0.0500.23 0.51 0.310.52 0.63 0.420.31 0.34 0.190.420.10.390.120.39 0.190.39 0.130.41 0.370.37 0.550.430.420.430.480.250.220.240.520.480.290.450.420.250.170.110.150.140.140.20.080.120.080.090.02 0.07 0.13 0.020.2 0.42 0.39 0.150.11 0.49 0.49 0.140.19零点五一0.50.450.17 0.24 0.33 0.330.16 0.19 0.19 0.110.16 0.15 0.16 0.120.14 0.12 0.13 0.130.12 0.13 0.14 0.140.13 0.15 0.15 0.110.14 0.16 0.16 0.120.09 0.15 0.16 0.080.02 0.25 0.17 0.070.16 0.420.29 0.10.3 0.48 0.47 0.210.44 0.42 0.47 0.410.140.3 0.250.12 0.33 0.290.17 0.19 0.170.06 0.080.09 0.090.22 0.260.090.140.110.040.210.240.180.180.140.26 0.240.27 0.250.360.340.120.050.10.200.140.260.50.10.150.670.70.30.280.60.60.50.270.450.50.30.340.510.50.30.460.370.40.40.380.360.50.40.18 0.110.10.10.29 0.410.50.30.30.5 0.290.30.30.29 0.240.20.10.20.240.20.30.20.550.50.530.50.410.30.40.20.30.30.40.380.50.50.680.70.60.50.180.330.250.240.220.280.310.3700.090.30.10.120.30.20.20.650.60.20.630.50.20.10.10.620.60.10.440.50.10.260.380.30.10.250.260.30.20.40.40.440.440.210.340.280.30.340.340.310.260.20.10.140.370.30.40.16 0.210.17 0.170.14 0.160.13 0.160.17 0.190.1 0.230.330.160.130.120.120.430.220.160.170.180.75 0.510.59 0.660.490.520.530.540.460.410.140.140.130.280.190.160.590.430.40.370.220.20.20.220.090.460.520.180.34 0.670.70.410.69 0.580.550.690.59 0.540.490.550.37 0.430.440.350.51 0.410.560.530.30.420.20.240.160.150.23 0.210.20.20.1 0.060.040.010.41 0.290.15 0.160.16 0.140.090.12图4.前景概率发生器产生的被遮挡人物图像的前景概率图前景概率发生器损失Lfpg 是空间背景-前景分类器，其目标是以分类背景/遮挡部分和人物部分。我们把这个问题作为一个二元分类问题。给定一幅人物图像，提取相应的空间特征X ={xn}N。x n的标签由语义分割得到的人物掩码确定θi模型[7]。空间特征xn对应于掩模一个特定的人更接近所有其他图像xp（正）ni区域Pn。我们计算Pn的平均像素值，同一个人比任何图像xi（负）的任何图像嵌入空间中的其他人。因此，我们希望D（xa，xp）+m D（xa，xn），其中D（：，：）是FPR测度获得其掩模标签mn：W我我我mn =w=1h =1i，（7）在一对人物形象之间。然后是三重损失，宽×高N个样本定义为N[m+D（ga，gp）−D（ga，gn）]，i=1我我我其中W、H是掩模贴片的宽度和高度其中，m是在一对位置之间强制执行的裕度积极和消极。为了有效地选择三重态样品，采用了由三重态损失修正的批量硬三重态损失其核心思想是通过随机抽样PPn.然后设置一个标签阈值τ（0≤τ≤1），得到空间特征的标签。空间背景/前景标签可以定义为.受试者，然后随机采集每例受试者的K张图像，从而得到一批PK图像。现在对于yn=0，mn≤τ1，mn>τ，（八）对于批次中的每个锚样本，当形成用于计算损失的三元组时，我们可以选择批次中最难的正样本和最难的负样本，这被称为批次硬三重态损失：其中τ是标签阈值，0≤τ≤1。然后，由下式给出前方概率发生器损失函数：ΣN所有锚钉联系我们最硬正片Lfpg=n=1[ynlog（fθ（xn））+（1−yn）log（1−fθ（xn））]，（九）Ltri（θ）=ΣP ΣKi=1a =1[m+联系我们max D（ga，gp）p=1，.，K i i（六）其中yn=0和yn=1分别指示背景和前景空间特征标签。图4示出了被遮挡的人图像的一些FPM，00.080.100.13 0.450.30.10.25 0.630.70.30.34 0.480.50.30.24 0.380.40.20.25 0.370.40.20.17 0.340.40.20.29 0.120.20.30.13 0.160.20.20.170.20.20.10.22 0.190.20.20.15 0.230.30.10.12 0.280.30.20.31 0.420.40.50.33 0.640.70.50.52 0.690.60.40.45 0.490.30.30.38 0.580.40.20.24 0.370.20.10.13 0.160.10.10.19 0.250.30.20.17 0.140.20.20.13 0.150.20.20.11 0.170.30.200.10.10.120.430.3...0.10.1.058072060.660.550.3010.20.20.10.10.10.41零点三七0.32零点二八0.20.20.20.20.270.250.40.370.260.30.20.210.360.30.10.10.62 0.520.5318455- minD（ga，gn）]由softmax层生成我们可以看到温泉-n =1，…Ki i联系我们最硬底片最终的背景-前景分类器能够准确地检测出人体部位。18456表2.数据库用于封闭的人ReID实验。Market1501数据集用于训练ReID模型，三个被遮挡的人数据集用于测试。数据库培训（#id/#imgs）测试（#id/#imgs）画廊探针部分REID-60/30060/300部分iLIDS-119/238119/238闭塞REID-200/1,000200/1,000(a)(b)（c）第（1）款图5.在（a）部分REID、（b）部分iLIDS和（c）被遮挡的REID数据集中被遮挡的人的示例。最终总损失函数定义为Ltotal=Ltri+αL fpg，（10）其中α控制空间前景概率生成器损失函数的重要性。4. 实验在这一节中，我们首先验证了我们提出的方法的有效性的任务，闭塞的人重新识别，然后在非闭塞的数据集上进行实验，以测试其泛化能力。此外，我们还进行了参数分析，研究了权重α和阈值τ在训练和测试阶段的影响4.1. 实验设置实施详情。我们的实现基于PyTorch的公开代码。所有模型都在Linux上使用GTX TITAN X GPU进行训练和测试。在训练过程中，所有训练样本都被重新缩放到384×128。不使用数据扩充。此外，我们经验性地在等式中设置α= 0.02。（10）中，在等式（11）中τ= 0.35。（8）β=0。01在Eq.（二）、对于批硬三重损失函数，一个批由16个对象组成，并且每个对象具有4个不同的图像。因此，每批返回64组硬三元组。该模型使用200个epochs进行训练。表3. Partial REID、Partial-iLIDS和Occluded REID数据集的性能比较。R1：等级-1。mAP：平均准确度和精密度。闭塞里德R1地图MaskReID [8]26.8025.00PCB [15]41.3038.90AMC+SWM [21]31.1227.33DSR [2]72.8062.83基线42.1237.24FPR（我们的）78.3068.00部分REID部分iLIDSR1地图R1地图MaskReID [8]28.7032.2033.0030.40PCB [15]56.3054.7046.8040.20AMC+SWM [21]34.2731.3338.6731.33DSR [2]73.6768.0764.2958.12基线53.3350.2052.9443.53FPR（我们的）81.0076.6068.0861.78每人5张全身图像和5张遮挡图像。这些图像是在大学校园内由6台相机从不同的视角、背景和不同类型的遮挡下采集的。部分REID数据集中的部分人的例子如图所示。第五条（a）款。我们遵循[19]中的评估协议，其中60个身份的300个全身图像用作图库集，并且相同60个身份的300个遮挡体图像用作探针集。PartialiLIDS[2]包含由4个非重叠相机拍摄的119人的476张图像。有些图片中的人被其他人或行李挡住了.图5（b）示出了来自iLIDS数据集的个体图像的一些示例。对于图库集，由第一、第二相机捕获的119个个体的238个图像被用作图库集，并且由第三、第四相机捕获的119个个体的238个图像被用作探测集。闭塞REID[3]是由移动摄像机捕获的被遮挡的人数据集，由200个被遮挡的人的2，000张图像组成（见图2）。5（c））。每个身份有5个全身的人的形象和5个闭塞的人的形象与不同类型的闭塞。所有具有不同视角和背景的图像尺寸为384×128。训练集和测试集的详细信息见表2。评价方案。对于性能评估，我们采用了大多数人ReID文献中的标准度量，即累积匹配治愈（CMC）和平均平均精度（mAP）。为了评估我们的方法，我们重新-在Python中实现[19]提供的评估代码4.2. 对被遮挡人数据集的评价数据集。部分REID[21]是一个专门设计的部分人数据集，包括来自60个人的600张图像基准算法。现有的几部分比较了基于个体的ReID方法，包括模糊度敏感匹配（AMC）与滑动窗口匹配（ SWM ） [21] （ AMC + SWM ）、 PCB [15] 和 DSR[2]，这是两种基于部分的匹配方法;和掩模引导的ReID模型MaskReID [8]。对于AMC + SWM，从32×32个支持区域提取特征这些样本被密集地采样，支撑区域的高度/宽度，18457表4.Market1501、CHUK03和DukeMTMC数据集的性能比较R1：等级-1。mAP：平均准确度和精密度。方法Market1501CUHK03DukeMTMCR1地图R1地图R1地图PCB（ECCV 18）[15]92.3077.4061.3054.2081.8066.10基于零件PCB+RPP（ECCV 18）[15]93.8081.6063.7057.5083.3069.20DSR（CVPR 18）[2]94.7185.7875.2471.1588.1477.07SPReID（CVPR 18）[4]92.5481.34---掩模导引MGCAM（CVPR 18）[12]83.7974.3350.1450.2146.7146.87MaskReID（Arxiv18）[8]90.0275.30----[13]第13届世界卫生大会84.1463.41----姿态导引PABR（Arxiv 18）[14]90.2076.00----姿势转移（CVPR 18）[6]87.6568.9233.8030.5030.1028.20PSE（CVPR 18）[10]87.7069.00--27.3030.20DuATM（CVPR 18）[11]91.4276.62----基于注意HA-CNN（CVPR18）[5]91.2075.7044.4041.0041.7038.60美国有线电视新闻网（CVPR 18）85.9066.87----基线94.0684.6273.5769.3587.3076.18FPR（我们的）95.4286.5876.0872.3188.6478.42DSR表5.数据库中使用的无遮挡的人ReID实验。46/526/223/346/146/311/240/406/440/140/526/4DSR++0.41960.42120.42760.4321 0.437640/10.45100.45620.45730.4610 0.463226/246/523/346/126/540/440/140/511/227/20.42950.45030.45450.4605 0.46160.47790.47950.48020.4805 0.4825通过为它们分配小的权重来遮挡。对于这些COM-图6.DSR和FPR的闭塞人员检索红色边界表示正确的检索结果，我们发现FPR可以解决DSR不能得到正确结果的情况，具有较小的重建误差。垂直方向。每个区域的代表如下[21]。此外，AMC和SWM的权重分别为0.7和0.3。对于PCB和MaskReID，我们遵循其原始参数设置。我们的ReID模型是用Market1501训练的我们遵循[19]中的标准训练协议，其中使用751个身份进行训练。因此，它也是一个跨域设置。结果表3示出了实验结果。我们发现Partial REID、Partial iLIDS和Occluded REID的结果相似。所提出的方法FPR优于MaskReID，PCB，AMC-SWM和DSR，R1 分别为 76.33% ， 68.07% 和 76.30% ， mAP 分别为76.60%，61.78%，68.00%。在三个被遮挡的人数据集上进行搜索。请注意，FPR和DSR之间的差距很大。我们的方法FPR在三个被遮挡的人数据集上分别将R1 准确率从73.67%提高到81.00%，从64.29%提高到68.07%，从72.80%提高到78.30%。这是因为背景和遮挡对重建误差影响较大，从而导致较大的平均误差.值得注意的是，FPR有效地降低了背景的影响，尽管采用了这种方法，但PCB无法消除遮挡和背景的影响，因为它将遮挡/背景部分特征和人体部分特征融合到最终特征中。虽然MaskReID非常适合解决人遮挡问题，但它在推理期间依赖于外部线索，例如面具。所提出的FPR是一种无约束的方法，因此它不依赖于外部线索来对齐人的图像。检索结果见图。六、使用跨域设置进行实验，并且三个部分数据集中没有图像用于训练（Market1501训练集用于获得ReID模型）。FPR实现了良好的跨域性能相比，其他approaches。4.3. 非遮挡人数据集我们还在非遮挡的人数据集上进行了实验，以测试我们所提出的方法的通用性。数据集。使用三个人重新识别数据集 Market1501[19]、CUHK 03[22]和DukeMTMC-reID[23]Market1, 501有12，936张训练图像和19，732张测试图像，总共有1，501个身份，来自6个摄像头。采用可变形零件模型（Deformable Part Model，简称DEPM）作为人体检测器.我们遵循标准的培训和评估原型-数据库培训（#id/#imgs）测试（#id/#imgs）画廊探针Market1501751/12,936750/15,913750/3,368DukeMTMC702/16,5221,110/17,661702/2,228CUHK03767/7,365700/5,332700/1,40018458其中751个身份用于训练，其余750个身份用于测试。香港中文大学03由两部摄影机在校园内拍摄的13，164张图片组成，涉及1，467个科目。提供手动标记和DFM检测的人员边界框。我们采用了新的训练/测试协议[22]，因为它定义了一个更现实和更具挑战性的ReID任务。其中767个身份用于训练，其余700个身份用于测试。DukeMTMC-reID 是 Duke 数据集 [9]的子集，它由来自702个身份的16，522个训练图像，2，228个查询图像和来自其他身份的17，661个图库图像组成。它提供手动标记的人物边界框。我们在这里遵循[23]中的设置。训练集和测试集的详细信息见表5。结果比较了FPR和四类10种最先进的方法，包括部分-部分REID部分iLIDS闭塞REID8580757065600.01 0.02 0.03 0.04！部分REID部分iLIDS闭塞REID8580757065600.30.350.40.450.50.550.6R部分REID部分iLIDS闭塞REID807570656055500.01 0.02 0.03 0.04！部分REID部分iLIDS闭塞REID807570656055500.3 0.4 0.5 0.6R基于模型：PCB [15]，掩模引导模型：SPReID [4]、MGCAM [12] 、 MaskReID [8] 、姿势引导模型：[13][ 14 ][15][16][17][18][19基于模型：DuATM [11]，HA-CNN [5]，AACN [17]，Market 1501，CUHK 03，DukeMTMC数据集。结果示于表4中。从表中可以看出，拟议的FPR在所有评价中都取得了有竞争力的业绩FRP和DSR之间的差距很大。FPR使Martket1501、CUHK03和DukeMTMC的R1准确度分别从94.71%增加至95.42%、从75.24%增加至76.08%、从88.14%增加至88.64% 。 FPR 使 mAP 从 85.78% 增加到 86.58% ，从71.15%增加到86.58%。72.31%，由77.07%至78.42%，市场1501，中大03和DukeMTMC，分别。这些结果表明，所设计的前景概率发生器在深度空间重建中是非常有用的。此外，FPR的性能优于基于部分的模型PCB，因为部分级特征不能消除遮挡和背景的影响。此外，建议FPR是优于一些方法与外部线索。掩模引导和姿态引导方法严重依赖于外部线索来进行个体对准，但是在严重遮挡的情况下，它们不能总是推断出准确的外部线索，从而导致失配。FPR利用前景概率图来引导空间重建，其自然地避免对齐并且即使在存在严重遮挡的情况下也可以处理人物图像。该方法不仅在R1精度上有很好的性能，而且在mAP精度上优于其他方法。4.4. 参数分析我们在建模中评估了两个关键参数，方程中的标签阈值τ（10）和方程（11）中的空间前地概率发生器损失的权重α（八）、这两个参数将影响拟议图 7. 评价的不同参数的 FPR（方程式（8）（10））在三个遮挡数据集上使用秩1和mAP准确度。FPR为了探索α对FPR的影响，我们固定τ= 0。35，并将α的值设置为0.01到0.04，步长为0.01。我们在图中显示了三个被遮挡的人数据集的结果。7，我们发现当我们设置α = 0时，所提出的FPR实现了最佳性能。02.为了进一步探索τ对FPR的影响，我们固定α=0。02，并将τ的值设置为从0到1，步长为0.1。如图7，当τ约为0.35时，所提出的FPR实现了最佳性能。5. 结论我们提出了一种新的方法称为前景感知金字塔重建（FPR）的遮挡人的ReID。该方法提供了一种可行的方案，其中探针空间特征可以由图库空间特征线性重建，以实现有效的无对齐匹配。更重要的是，在重建过程中使用的空间前景此外，该方法是一种端到端的方法，将特征表示和特征匹配集成到一个统一的框架中，通过最小化来自同一目标的图像对的重建误差和最大化来自不同目标的图像对的重建误差来学习更多的区分特征。在三个遮挡数据集上的实验结果验证了FPR算法的有效性此外，所提出的方法在基准人员数据集上也具有本工作得到国家自然科学基金（批准号：61427811、61573360、61602049）。R1准确度（%）R1准确度（%）最大平最大平18459引用[1] Kaiming He，Xiangyu Zhang，Shaoying Ren，andJian Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR），2016年。3[2] 何凌霄，梁健，李海青，孙振安用于部分人重新识别的深度空间特征重构：无对准方法。在IEEE计算机视觉和模式识别会议（CVPR）中，第7073-7082页，2018年

下载后可阅读完整内容，剩余1页未读，立即下载