主轴网：基于人体区域引导的人体再识别

168 浏览量更新于2023-10-15 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1主轴网：基于人体区域引导的特征分解与融合的人体再识别HaiyuZhao，MaoqingTian，Shuyang Sun，JingShao，JunjieYan，ShuaiYi，XiaogangWang，XiaoouTang商汤集团有限公司商汤香港中文大学{赵海宇，田茂庆，孙树洋，李静，严俊杰，易帅}@ sensetime.com{xgwang@ee.cuhk.edu.hk，xtang@ie.cuhk.edu.hk}摘要人物再识别（ReID）是视频监控中的一项重要任务，具有广泛的应用前景。由于复杂的背景杂波、变化的照明条件和不可控的相机设置，它是不平凡的。此外，由检测器或姿态变化引起的人体未对准有时对于跨图像的特征匹配来说太严重。在这项研究中，我们提出了一种新的卷积神经网络（CNN），称为主轴网络，基于人体区域引导的多阶段特征提取。（一）（c）第（1）款（b）第（1）款（d）其他事项合成和树形结构的竞争特征融合。这是第一次在CNN框架中考虑人体结构信息拟议的主轴网具有独特的优势：1）它分别从不同的身体区域捕获语义特征，因此宏观和微观身体特征可以在图像之间很好地对齐，2）来自不同语义区域的学习区域特征与竞争方案合并，并且可以很好地保留区分特征。最先进的性能可以在多个数据集上大幅度实现。我们进一步证明了我们提出的数据集SenseReID上所提出的主轴网络的鲁棒性和有效性，而无需进行微调。11. 介绍人物再识别（ReID）旨在将跨相机和时间段的个人图像相给定一个特定人的一个查询图像，期望人ReID系统从大型图库数据库中提供同一个人的所有图像它具有很大的安全性，可用于各种监视应用。例如，当孩子在繁忙的街道上迷路时，ReID系统可以自动1 小时 Zhao 和 M. 田平摊 . 源代码和数据集可以从https://github.com/yokattame/SpindleNet找到。图1.人的挑战ReID。（a-b）身体区域对齐跨图像。利用人体标志信息，蓝色框中所示的身体区域可以在图像之间很好地对齐。然而，如果没有这些信息，直接基于位置进行匹配可能会导致歧义（红框）。(c)详细信息。利用从蓝框中提取的局部区域特征，可以捕获详细信息，并且可以容易地区分两个人，即使他们的整体外观非常相似。(d)闭塞。右图像的下半身区域被遮挡，相应特征的影响所有示例均选自Market-1501数据集[33]。搜索附近所有的监控录像，马上找到这个孩子。如果一台监控摄像机能够捕捉到事故的发生，那么通过一个人的身份识别系统，就可以成功地追踪到事故的所有细节，从而帮助警察了解更多的事故信息，节省大量的人力。虽然个人ReID问题已经研究了多年，但它仍然具有相当大的挑战性。首先，人体区域不能跨图像很好地对准。同一个人的两个检测边界框如图所示。 1（a），右框不准确。左侧图像的头肩区域（蓝色框）与右侧图像的背景区域（红色框）未对齐。CNN的10771078这两个区域的特征图应该是非常不同的，不能直接比较。即使边界框是准确的，由于人体姿势的大变化，身体区域对齐仍然是相当具有挑战性的。如图所示。1（b），左图像的右腿区域（蓝框）与右图像中的左腿区域（红框）未对准，其中不能观察到黑包。在大多数现有方法中，从整个图像[13，29]或手动设计的水平窗口[14]中提取特征在我们的ReID管道中，使用人体地标信息，并从身体区域建议网络（RPN）中获得身体区域。我们的ReID特征可以通过多阶段ROI池化管道从七个身体区域中提取。以这种方式，不同身体区域的特征可以跨图像很好地对准。如图1，基于身体区域信息，可以很好地对准（a）中的头肩区域（蓝框）和（b）中的右腿区域（蓝框），并且可以直接比较它们的区域特征而不会产生歧义。其次，一些细节信息对于区分不同的个体是非常重要的。如图1（c），这两个人的一般外观是相当相似的。如果不关注头部区域，很难区分它们。然而，大多数现有的ReID方法采用整个图像上的全局特征[13，29]，并且很难捕获如此详细的信息。在我们的方法中，与区域特征，很多细节信息可以更好地表示，这应该是非常有帮助的识别个体略有差异。最后，闭塞是另一个主要挑战。在一些图像中，一些身体部位可能被遮挡，这使得关联过程更加困难。如何区分好的和坏的特征对ReID来说也是非常重要的。如图1（d）中，右图像的下半身区域被一个白色物体遮挡，因此在特征比较过程中应该削弱该区域的特征重要性然而，在大多数现有的ReID方法中没有采用特征选择和过滤策略，并且所有特征分量都被认为是同样有用的。实际上，不同的身体区域在用于识别人时应该具有不同的重要性。为了更好地利用区域特征，在我们的方法中采用了一种树结构的特征融合策略，而不是直接连接在一起的区域特征。不同语义层次的区域特征在不同阶段分别进行融合。在早期阶段合并微观特征，然后合并宏观特征。此外，在特征融合过程中有了这样的策略，好的功能可以赢得竞争，从而可以保留。与现有的ReID方法相比，我们的方法可以在大多数标准数据集上使用标准CMC评估指标实现最先进的性能。例如，我们的模型可以达到76的Top-1精度。9%在Market-1501数据集上[33]，11. 0%，高于最佳结果（65。9%）的文献[25]。为了测试学习模型的泛化能力，我们提出了一个新的数据集（SenseReID），仅用于测试目的它是从真实的监控摄像机捕获的，并且人绑定框是从最先进的检测算法获得的[20]。所提出的SenseReID数据集总共包含1717个身份，与最近的ReID方法相比，我们的模型可以实现更好的性能。这项工作的贡献可以概括为以下三个方面。1)这是第一次在ReID管道中考虑人体结构信息。它可以帮助在图像中对齐身体区域特征，并且可以更好地描述局部细节信息。2)Spin- dle Net是为ReID任务设计的。首先通过多阶段ROI池框架提取不同身体区域的特征，然后在不同阶段分别池出不同语义层次的特征然后采用一种具有竞争策略的树状融合网络对不同语义层次的区域特征进行融合。3)一个真实的监控ReID数据集，即SenseReID仅用于性能评估目的。我们提出的方法可以在建议的数据集和多个标准数据集上实现最先进的性能。2. 相关工作大多数ReID管道由两个主要步骤组成，特征学习和度量学习。至于特征学习步骤，传统特征[5，6，12，14，17，21，33]在现有管道中广泛使用。例如，使用显式多项式核特征映射来表征两个图像之间的所有补丁对的相似性信息[6]。Liao等人[14]提出了一种有效的特征表示，称为局部最大出现（LOMO）。随着CNN功能的巨大成功，许多最近的ReID方法[7，13，22，24，25，28，29]都是基于CNN结构设计例如，Liet al. [13]采用过滤器配对神经网络（FPNN）用于人的ReID。Cheng等人[7]引入了多通道CNN来从输入图像中学习身体特征。在[29]中，开发了一个管道来学习来自多个域的通用特征表示，并采用域引导丢弃来丢弃一个特定域的无用神经元。然而，以前文献中使用的所有CNN特征都是从整个图像或手动设计的水平窗口中提取的这样的特征不能很好地跨图像对准，并且不能准确地聚焦在每个身体部位上。如第1节所介绍的，准确的身体区域特征对于区分每个人来说非常重要。至于度量学习步骤，Liaoet al.[14]亲-10791S43（一）1576811121314109243（b）第（1）款（c）第（1）款该方法以人体图像为输入，计算一个响应图Fi∈RX×Y（i∈1，.， 14）对于每一个十四个身体关节。 X和Y是特征图的水平和垂直维度。受卷积姿态机（CPM）[26]的启发，我们采用顺序框架以粗到细的方式生成这些响应图。在每个阶段中，卷积网络用于提取图像特征，然后组合来自前一阶段的响应图，以产生对身体关节位置的日益精细的估计。然而，CPM [26]中的模型是计算昂贵的。进行了三项修改，以减少图2.区域提案网络的图示（a）一个样本图像和14个身体关节。(b)十四个身体关节被指定到七个集合。(c)由RPN从相应的身体关节集合中提出的七个身体子区域。提出了一种基于子空间的度量学习方法，称为交叉视图二次判别分析（XQDA）。在[11]中，Joseet al.引入了一个度量学习公式，称为加权近似秩分量分析（WARCA）。Liao等人提出了一种逻辑度量学习算法。[15] PSD约束和非对称样本加权策略。Xiong等[31]提出了四种基于核的远程学习方法。Cheng等人[7]提出了一种改进的三重损失函数，要求类内特征距离小于类间特征距离，并预先定义阈值。在本文中，我们主要针对特征学习步骤，模型复杂性还产生高质量的身体关节响应图。• 早期的卷积层在我们的框架中的不同阶段之间共享，以提取图像特征。• 池化层被步长为2的卷积层取代，以减小特征图的大小。• 该算法减少了输入图像的大小、框架层数和卷积层的通道数，以提高计算速度。RPN的详细结构和参数见补充材料。利用特征图，可以通过找到具有最大特征值的坐标来定位十四个身体关节。Softmax分类损失直接用于度量学习步骤。性能可能会进一步提高，Pi=[xi，yi]= arg maxx∈[1，X]，y∈[1，Y]Fi（x，y）（1）采用先进的计量术语。近年来，基于视频的ReID问题被提出，并在这一领域进行了大量的研究 [4、8、18、27]。在基于视频的ReID问题中，使用序列数据而不是图像。在这项工作中，我们只针对基于图像的ReID问题。3. 身体区域建议网络图中显示了所定位的十四个身体关节的示例。第2段（a）分段。RPN的第二步是基于身体关节位置P1获得七个身体子区域，包括三个宏观子区域（头-肩、上身、下身）和四个微观子区域（两个手臂、两条腿）。如图2（b），14个定位的身体关节被分配给三个宏集合SA=[1，2，3，4]，SA=[3，4，5，6，7，8，9，10]，SA=[9，10，11，12，13，14]如图所示。1（a-c），人体标志信息-2B3B信息可以帮助在图像上对准身体区域，并且局部细节可以由区域特征更好地描述。因此，人体区域信息被包括在以及四个微集合S1=[3，5，6]，S2 =[4，7，8]，B=[9，11，12]，SB=[10，13，14]。对于每个身体关节集合S ∈{SA，SA，SA，SB，SB，SB，SB}，的相应的子拟议的ReID管道和区域提案网-1 2 3 12 3 4区域边界框B ∈ {BA，BA，BA，BB，BB，BB，BB}工作（RPN）用于提取身体区域。给予在输入图像中，RPN生成表示图像中的人体的七个子区域的七个矩形区域RPN包含两个主要步骤，即：1 2 3 1 2 3 4可以基于所有在每个宏/微集合中的身体关节。B=[x最小值，x最大值，y最小值，y最大值]=[min（xi），max（xi），min（yi），max（yi）]（2）身体关节定位和身体区域生成。i∈Si∈Si∈Si∈SRPN的第一步是从一幅输入图像中定位14个人体关节全卷积所提出的七个身体子区域的示例在图中可视化。第2段（c）分段。1080输入RPNFFN-4乐融合融合FFN-3谁身体身体身体FFN-2腿武器低上FFN-1特征融合网络CNNCNNCNNCNNCNNCNNCNNCNNFEN-C3CNNROI池化FEN-P2CNNCNNCNNFEN-C2CNNROI池化FEN-P1FEN-C1CNN特征提取网络0我0我我我图3. 提出的主轴网络的流程图，包括特征提取网络（FEN）和特征融合网络（FFN）。为了训练RPN，使用MPII人体姿势数据集[2]，其涵盖各种人体姿势。目标响应图被生成为围绕地面真实身体关节位置的高斯核。每个阶段输出的损失函数被定义为估计响应图和目标响应图之间的L24. 身体区域引导纺锤网在本节中，详细介绍了所提出的主轴网，其包含两个主要组件，即：特征提取网络（FEN）和特征融合网络（FFN）。主轴网的一般流程图如图所示。3.第三章。FEN将人物图像与区域建议一起作为输入，并计算一个全局特征次区域。FEN结构如图左所示。3，其包含三个卷积阶段（FEN-C1，FEN-C2，FEN-C3）和两个ROI合并阶段（FEN-P1，FEN-P2）。这七个次区域具有不同的语义层次。因此，在不同阶段从全身特征图中裁剪子区域特征，即，在第一卷积阶段（FEN-C1）之后汇集三个宏观特征，并且在第二卷积阶段（FEN-C2）之后汇集四个微观特征。在FEN-C1中，输入图像被调整为96×96，并通过三个卷积层和一个初始模块进行卷积[23]。FEN-C1的输出特征图表示为FC1，空间大小为24×24。在FEN-P1中，三个特征映射FP1（i=1，2，3）从FC1中汇集出来，i0全图像的矢量和七个子区域特征矢量。与拟议的七个身体次区域相对应的区域利用FFN，可以通过将全图像特征向量和子区域特征向量合并在一起来计算最终特征向量。最终的特征向量可以用于区分不同的人。这两个组件的更多细节在第4.1节和第4.2节中介绍。培训详情见第4.3节。RPN 提出的三个宏子区域FEN-P1 的输出尺寸为24×24。三个合并的特征图FP1（i=1，2，3）被用作FEN-C2的输入，以与FC1一起使用。在FEN-C2中，四个输入特征图通过一个初始模块，输出四个空间大小为12×12的输出特征图FC2（i = 0，1，2，3）。这四个输出特征图对应于整个图像区域和三个宏观子区域。之后，在FEN-P2中，四个特征图FP2（i=4，5，6，7）从4.1. 特征提取网络（FEN）iC2利用FEN，可以从八个区域中的每一个提取一个256维特征向量，包括全身区域和由RPN提出的七个子区域，对应于三个宏观子区域和四个微观子区域。基于四微体的全图像特征图F0区域方案网络提议的分区域FEN-P2的输出尺寸为12×12。与FC2（i=0，1，2，3）一起，四个池化特征图FP2（i=4，5，6，7）也用作最后一个卷积级FEN-C3的输入。在FEN-C3中，1081D = 4.52 D = 1.03 D = 0.11 D = 0.31（一）（b）第（1）款（c）第（1）款（d）其他事项（e）（f）第（1）款图5. 特征融合的图示。特征条目被排序以更好地可视化。(a)输入图像。(b-d)人体融合单元的三个输入特征向量。头肩特征图4. 通过两个实例验证了所提子区域特征的有效性。（a）同一个人的两个图像(b) FEN-C1之后的相应特征图。(c)FEN-P1之后的特征图2.两个相似的人。（b）FEN-C1之后的相应(c)FEN-P1之后的特征图。还列出了特征图之间的平均L2距离。每个输入特征图首先经过一个初始化模块，空间维数降为6×6。然后采用一个全局池层和一个内部产品层将初始结果转换为256维的特征向量。FEN-C3的输出为对应于全图像区域、三个宏观身体子区域和四个微观身体子区域的八个256维特征向量图中示出了两个示例4证明了所提出的身体子区域特征的有效性在第一个例子中，同一个人的两幅图像和FEN-C1之后的相应特征图如图所示。4（a-b）。由于身体区域的错位，图1中的特征图4（b）差异很大，平均两个特征图的L2距离为D=4. 52岁然而，在FEN-P1之后，头肩区域的合并特征图（如图1所示）。4（c））可以很好地对准，并且平均距离减小到D=1。03. 这意味着合并的子区域特征可以帮助更好地识别该个体。另一个例子如图所示。4（d-f），图4中所示的两个不同的人的特征图。4（e）非常相似。这两者基于完整图像的特征图的人。然而，如果我们把重点放在头肩区域（图。（4）（f），差异可能更加明显。4.2. 特征融合网络在FFN中，8个特征向量被组合在一起，生成一个紧凑的256维特征向量，可以很好地代表整个图像。在特征融合过程中，提出了一种融合单元，它以两个或两个以上的相同大小的特征向量作为输入，并输出一个合并的特征向量。FFN的结构示于图的右部。3，每个融合单元由一个绿色块表示。区域、上身区域和下身区域分别用红色、绿色和蓝色标记。(f)最大操作的结果。头肩特征赢得了46.1%的竞争，远远超过其他两个区域特征的绿色和蓝色。聚变装置有两个主要过程。1)特征竞争和选择过程是通过元素最大化操作进行的。具有较大值的特征条目可以被保留，而较小的特征被移除。2)特征变换过程由内积层进行，使得变换结果可用于后续的融合单元。类似于其中不同身体子区域的特征从不同阶段汇集出来的特征提取网络，不同身体子区域的特征向量也基于它们的语义级别和关系在不同阶段中被合并。提出了一种树形结构的融合策略，在融合的前期融合代表人体微观子区域的特征，后期融合部分宏观特征。如图3.在第一阶段中，两个腿部区域的特征和两个手臂区域的特征分别由两个融合单元融合。然后，将第一阶段的两个融合结果分别与下半身特征和上半身特征进一步融合然后，融合单元将前一阶段的两个融合结果与头肩区域的特征向量一起作为输入，并计算整个身体的合并特征向量。最后，将合并后的特征向量与完整图像的特征向量连接，然后转换为最终的256维特征。一个例子如图所示5.提出了基于逐元素极大运算的特征竞争与融合策略。在这个例子中，我们关注融合单元，它采用三个特征向量，即头肩特征（红色）、上身特征（绿色）和下身特征（蓝色）作为输入，并得到最大响应。即使是同样的白色，戴上白色的面纱也比穿白色的衣服更有辨识度。因此，头肩的特点赢得了更多的竞争，最大操作和46. 在输出特征向量中保留1%的（b）第（1）款（c）第（1）款Max46.1% 28.5%25.4%（（一）（d）其他事项1082数据集编号ID编号Trn/Val img编号Prb/Gal ID编号Prb/Galimg（一）（b）第（1）款(c)（d）其他事项表1. 在我们的实验中评估的八个数据集的细节。列出了训练/验证图像的数量以及查询/图库标识和图像的数量（e）（f）第（1）款（g）（h）和PSDB [30]数据集也用于训练，但不进行评估。在我们的实施中，培训和验证-图6.本文评估了八个数据集，包括现有的数据集，即。（a）CUHK03 [13]，（b）CUHK01 [12]，（c）PRID [10]，(d)VIPeR [9]，（e）3DPeS [3]，（f）i-LIDS [34]，（g）Market-1501 [33]和（h）我们提出的SenseReID测试数据集。4.3. 培训详细信息采用渐进式策略训练主轴网络，即：首先训练特征提取网络（ FEN ），然后训练特征融合网络（FFN）。模型参数随机初始化，无需预训练。FEN按以下三个步骤进行培训。1)通过对全图像区域的特征进行监督来训练全图像分支。2）固定FEN-C1中的参数，通过对三个宏区域特征进行监督来训练对应于三个宏子区域的以下三个分支3）固定FEN-C1和FEN-C2中的参数，通过对四个微区域特征进行监督，训练出对应于四个微子区域的最后四个分支然后，通过对最终特征向量进行监督来训练FFN。在训练FEN和FFN时，使用现有的ReID数据集在计算损失函数之前，将特征向量转换为概率向量。5. 实验5.1. 数据集为了评估所提出的Spindle Net的性能，在我们的实验中评估了七个现有的标准人ReID数据集，包括CUHK 03 [13]， CUHK 01 [12] ， PRID [10] ， VIPeR[9]，3DPeS [3]，i-LIDS [34]和市场-1501。为了进行公平的比较，我们对Market-1501数据集采用了标准的数据分离策略[33]。对于其他数据集，我们遵循与JSTL [29]相同的设置来生成训练，验证和测试探针/图库样本。香港中文大学02 [12]1083对于所有数据集，任务标识与测试标识没有重叠。类似于JSTL [29]，我们将这些数据集中的所有训练样本合并为一个ReID模型，该模型可以直接在所有测试数据集上进行评估。除了现有的数据集，SenseReID数据集被提出来评估训练的ReID模型的泛化能力。与传统的在校园内或从一些设计的摄像机视图捕获的数据集不同，我们提出的数据是从12个真实世界的监控摄像机捕获的建议的数据集不包含训练数据，仅用于测试目的。对于由多个摄像机捕获的人，根据摄像机索引将该个人的图像分成探测集和图库集。探测集包含522个身份，而图库集包含1717个身份，其中包括仅由一个相机捕获的1195个附加身份这些数据集的选定样本如图所示6，数据集的统计信息见表1。5.2. 比较结果将提出的主轴网络与近两年来几种最先进的ReID方法进行了比较，包括度量学习方法 WARCA-χ2[11]，零空间半监督学习方法NFST [32]，深度神经网络PersonNet [28]，具有可学习门的Siamese CNN S-CNN [25]，多域CNN JSTL [29]，联合Re-id方法[1]，时间自适应模型 TMA [16] 、分层高斯模型GOG+XQDA [17]、相似性学习方法SCSP [5]、深度属性模型SSDAL+XQDA [22]、分层发生模型LOMO-XQDA [14]、逻辑度量学习模型MLAPG [15]、三重丢失模型 TCP [7] 、基于内核的远程学习方法 MFA[31]、结构化学习模型CMC-top [19]和词袋模型BoW-best [33]。采用常用的累积匹配曲线（CMC）度量对各种方法进行了定量评价.从所有评估的重复图库标签中随机选择一个样本1084SenseReID数据集Top-1Top-5前10前20JSTL [29]23.034.840.646.3[33]第三十三话22.4---主轴（我们的）34.652.759.966.7表2. 在七个现有数据集上的拟议纺锤网和其他比较的实验结果。报告了CMC Top-1- 5-10-20精度两种最佳性能方法的前1精度由于空间限制，两个表中仅显示了一些性能最佳的方法。表3. 在我们提出的SenseReID数据集上提出的纺锤网和其他比较的报告了CMC Top-1-5-10-20精度重复测试程序100次，平均结果报告于表2和3中。从表2中，我们可以观察到，所提出的主轴网络可以在大多数现有ReID数据集上实现最佳Top-1精度。特别是，我们的模型在CUHK 03数据集上可以达到88.5Top- 1的准确率[13]，比最佳比较方法高出10.1%[11]。此外，我们的模型可以在chal-market-1501数据集上实现76.9%的Top-1 准确度[33]，比最佳比较[25]高出11.0%。这是因为我们的Spindle Net考虑了身体标志信息，并且在ReID管道中使用了区域特征。此外，特征选择和融合策略也有助于获得良好的紧凑功能。对于 PRID 数据集 [10] ，我们的模型实现了比GOG+XQDA [17]略低的Top-1准确度。这也是合理的，因为只有一个训练模型直接在所有数据集上进行评估。强大的泛化能力可能会损害特定数据集上的性能。为了进一步证明泛化能力，我们在SenseReID数据集上测试了我们的模型，没有进行微调，结果列于表3中。我们可以观察到，我们的模型可以获得比比较更好的准确性。6. 关于纺锤网的在本节中，我们将从特征提取网络（FEN）和特征融合网络（FFN）的角度对所提出的主轴网络进行深入研究。调查是在最大和最具挑战性的Market-1501数据集上进行评估的[33]。6.1. 关于FEN的我们首先调查的最佳位置汇集出的宏观区域特征和微观区域特征。有三个潜在的合并位置，即。在FEN-C1之后、在FEN-C2之后和在FEN-C3之后。对于每个位置，测试了合并的宏观和微观特征，并在图1中报告了性能。7.第一次会议。我们可以观察到，FEN-C1生成的特征图最适合汇集宏观特征，而微观特征应该从FEN-C2特征中汇集出来。宏区域包含更复杂的身份信息，因此宏特征应该在早期阶段被汇集出来，以具有更独立的可学习参数。CUHK03Top-1Top-5前10前20[11]第十一话78.494.6--NFST [32]62.690.194.898.1[28]第二十八话64.889.494.998.2[25]第二十五话61.880.988.3-JSTL [29]75.3---主轴（我们的）88.597.898.699.2中大01Top-1Top-5前10前20NFST [32]69.186.991.895.4[28]第二十八话71.190.195.098.1TCP [7]53.784.391.096.3JSTL [29]66.6---[1]第一次见面65.0---主轴（我们的）79.994.497.198.6PRIDTop-1Top-5前10前20TMA [16]54.273.883.190.2NFST [32]40.964.773.281.0GOG+XQDA [17]68.488.894.597.8JSTL [29]64.0---主轴（我们的）67.089.089.092.0ViperTop-1Top-5前10前20TMA [16]48.2-87.795.5NFST [32]51.282.190.596.0SCSP [5]53.582.691.596.7[22]第二十二话43.571.881.589.0[14]第十四话40.0-80.591.1MLAPG [15]40.782.3-92.4GOG+XQDA [17]49.779.788.794.5TCP [7]47.874.784.891.1主轴（我们的）53.874.183.292.13DPeSTop-1Top-5前10前20[11]第十一话51.975.6--SCSP [5]57.379.0-91.5MFA [31]41.865.575.785.2JSTL [29]56.0---主轴（我们的）62.183.490.595.7I-lidsTop-1Top-5前10前20[11]第十一话36.666.1--CMC-top [19]50.3---MFA [31]32.158.872.285.9TCP [7]60.482.790.797.8JSTL [29]64.6---主轴（我们的）66.386.691.895.3Market-1501Top-1Top-5前10前20NFST [32]55.4---[28]第二十八话48.2---[25]第二十五话65.9---[33]第三十三话44.463.972.279.0主轴（我们的）76.991.594.696.710859080706050六十点四63.46165.769.370.9前10 名前5名Top-1100宏微图7. Market-1501 [33]数据集上宏观区域特征（左）和微观区域特征（右）的不同合并位置的评估性能Market-1501前1名前5名前10名前20名(a)仅限满载72.188.992.995.6完整+FEN-C1/C174.390.594.196.5(b)全+FEN-C2/C273.190.093.896.2全+FEN-C3/C367.885.990.693.9完整+FEN-C1/C274.790.894.396.6(c)完整+FEN-C1/C373.790.093.796.2完整+FEN-C2/C372.589.393.295.8完整+FEN-C2/C174.090.594.196.5(d)完整+FEN-C3/C172.289.493.395.9完整+FEN-C3/C272.089.293.295.9表4. 完整图像特征和从Market-1501 [33]数据集的不同阶段提取的宏观/微观特征的不同组合的评估性能。FEN-C1/C2意味着宏观特征从FEN-C1汇集，微观特征从FEN-C2汇集。除了池化特征的有效性之外，互补性对于选择好的特征组合也是非常重要的。通过对全图像特征、宏观特征和微观特征的不同组合进行联合测试，进行了实验从表4中的结果，我们发现Full+FEN-C1/C2的组合实现了最佳精度。即使没有特征融合网络，与表4（a）的结果相比，通过引入宏观和微观区域特征，Top-1准确度也可以此外，与表4（d）中的结果相比，（c）的更好性能也表明宏观特征应早于微观特征被汇集出来。6.2. 关于FFN的建议的FFN有两个关键因素，即，树型融合结构和特征竞争策略。对于树融合结构，评估仅使用一个区域特征的结果并在表5中列出。结果表明，全图像特征比宏观区域特征具有更高的识别精度，而宏观区域特征比微观区域特征具有更高的识别精度。因此，采用树型融合技术，在后期融合更好的特征。另一方面，这样的融合结构也符合表5.每个单一功能组件在Market-1501 [33]数据集上的测试性能Market-1501前1名前5名前10名前20名线性+连续72.889.193.095.6线性+平均值62.782.087.391.4线性+最大值62.882.087.291.3i-Tree + Concat.66.586.491.394.7i-Tree +平均值68.687.491.995.0i-Tree + Max.41.966.476.284.1树+Concat。67.184.788.992.1树+平均值74.390.493.996.3树+最大值（我们的）76.391.194.596.5微调（我们的）76.991.494.696.7表6.Market-1501 [33]数据集上不同融合结构和竞争策略的比较结果人体结构。首先合并肢体特征，然后合并一些更高级别的信息将提出的融合结构（Tree）与其他一些可能的融合结构进行了比较，包括线性结构（特征逐个合并）和逆树（i-Tree）结构（首先合并宏特征）。我们还比较了拟议的竞争战略（最大）。其中一些基线包括直接级联（Concat.），和元素平均值（Avg.）。表6中报告了不同融合结构和竞争策略的性能。 FFN（Tree+Max.）达到最佳性能。全局微调整个主轴网络可以进一步提高性能。7. 结论在本文中，一个新的主轴网络提出了人的ReID。不同身体区域的特征通过多级ROI池化网络分离，并通过树结构融合网络合并。我们表明，多层次的身体特征是信息，以帮助对齐不同图像的身体区域，并捕捉个人的歧视性细节。实验结果也验证了所提出的特征竞争与融合网络的强大能力可以在多个数据集上实现最先进的性能，并且在所提出的SenseReID数据集上证明了所提出的主轴网络的鲁棒性，而无需微调。精度Market-1501Top-1 Top-5前10前20充分72.188.992.995.6头肩41.064.574.182.7上身59.581.888.292.8下半身61.381.987.691.9右臂33.055.365.475.2左臂33.355.765.775.1右腿49.772.780.486.5左腿49.172.380.086.51086引用[1] E.艾哈迈德，M。Jones和T. K.标记.一种用于人员重新识别的改进的深度学习架构。CVPR，2015。六、七[2] M.安德里卢卡湖Pishchulin，P. Gehler和B.席勒2D人体姿态估计：新的基准和最先进的分析。CVPR，2014。4[3] D.巴尔铁里河Vezzani和R.库奇亚拉3dpes：用于监视和取证的3d人物数据集。在2011年联合ACM人类手势和行为理解研讨会上，2011年。6[4] L. Bazzani，M.Cristani，A.Perina，M.Farenzena，以及诉穆里诺利用hpe特征对多镜头人物进行再识别国际公民权利和政治权利委员会，2010年。3[5] D. Chen，Z.袁湾，澳-地Chen和N.郑具有空间约束的相似性学习用于人的重新识别。在CVPR，2016年。二六七[6] D. Chen，Z. Yuan，G. Hua，N. Zheng和J.王.基于显式多项式核特征映射的相似性学习用于人员重新识别。CVPR，2015。2[7] D.郑，Y.贡，S. Zhou，J. Wang，and N.郑基于改进三重损失函数的多通道部分cnn的个体再识别。在CVPR，2016年。二三六七[8] M. 法伦泽纳，L. 巴扎尼，A. 佩里娜，V.Murino，以及M. 克里斯塔尼通过局部特征的累积进行人员重新识别CVPR，2010。3[9] D. Gray，S. Brennan和H.涛.评估识别、重新获取和跟踪的外观模型。 IEEEInternationalWorkshoponPerformance Evaluation for Tracking and Surveillance（PETS），2007年。6[10] M.希尔策角，澳-地别列兹奈山口M. Roth和H.比肖夫通过描述性和判别性分类进行人员再识别斯堪的纳维亚图像分析会议，2011年。六、七[11] C. Jose和F.弗勒特通过加权近似秩分量分析的可扩展度量学习arXiv预印本arXiv：1603.00370，2016年。三六七[12] W. Li和X.王.局部对齐的特征在视图间变换。CVPR，2013。二、六[13] W. 利河，巴西-地Zhao，T.萧，还有X。王. Deepreid：深度过滤配对神经网络，用于人员重新识别。CVPR，2014。二六七[14] S. 廖，Y.Hu，X.zhu和S.Z. 李基于局部最大发生表示和度量学习的人物CVPR，2015。二六七[15] S. Liao和S. Z.李有效的psd约束非对称度量学习用于人员再识别。在ICCV，2015年。三六七[16] N. Martinel，A.达斯角，澳-地Micheloni和A. K.罗伊-乔杜里。用于人员重新识别的时间模型适应。在ECCV，2016年。六、七[17] T. Matsukawa，T. Okabe、E. Suzuki和Y.佐藤用于人员重新识别的层次高斯描述符在CVPR，2016年。二六七[18] N. McLaughlin，J. Martinez del Rincon，和P.米勒用于基于视频的人物再识别的回流卷积网络。2016. 3[19] S.派西特克良格赖角Shen和A.范登亨格尔。学习-ing排名的人重新识别与度量合奏。CVPR，2015。六、七[20] S. Ren，K.赫利河Girshick和J.太阳Faster r-cnn：Towardsreal-timeobjectdetectionwithregionproposalnetworks.2015年，在NIPS中。2[21] Z.施，T. M. Hospedales和T.翔传输语义表示用于人员重新识别和搜索。CVPR，2015。2[22] C. Su，S. Zhang，J. Xing，W. Gao和Q.田深度致敬驱动多摄像机人物再识别。 arXiv 预印本 arXiv ：1605.03259，2016。二六七[23] C.塞格迪W.刘先生，Y.贾，P.SermanetS.里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A. 拉比诺维奇。更深的回旋。CVPR，2015。4[24] E. Ustinova，Y. Ganin和V. Lempitsky 多区域双线性卷积神经网络用于人员再识别。arXiv预印本arXiv：1512.05300，2015年。2[25] R. R. Varior，M. Haloi和G.王.用于人类重新识别的门控连体卷积神经网络架构。在ECCV，2016年。二六七[26] S.- E. Wei，V.Ramakrishna，T.Kanade和Y.酋长卷积姿态机器。arXiv预印本arXiv：1602.00134，2016。3[27] L.吴角，加-地Shen和A. v. d.亨格尔用于基于视频的人员重新识别的深度递归卷积网络：端到端的方法。arXiv预印本arXiv：1606

下载后可阅读完整内容，剩余1页未读，立即下载