深度学习方法用于人员重识别中身体和潜在部位的上下文感知特征

150 浏览量更新于2023-10-16 收藏 703KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

384学习身体和潜在部位的深度上下文感知特征，用于人员重新识别李党伟1，2，陈晓堂1，2，张章1，2，黄凯琪1，2，31中国科学院大学脑科学与智能技术卓越中心2&{dangwei.li，xtchen，zhzhang，kaiqi.huang}@ nlpr.ia.ac.cn摘要人员重新识别（ReID）是在不同的摄像机上识别同一个人。这是一个具有挑战性的任务，由于在人的姿态，遮挡，背景杂波等大的变化。如何提取功能强大的特征是ReID中的一个基本问题，至今仍是一个悬而未决的问题。本文设计了一个多尺度上下文感知网络（Multi-Scale Context- Aware Network，MSCAN），通过在每一层中堆叠多尺度卷积，可以很好地捕获局部上下文知识，从而学习身体和身体部位的强大特征。此外，而不是使用预定义的刚性零件，我们提出了学习和本地化的可变形pedes- trian部分使用空间Transformer网络（SVM）与新的空间约束。学过的身体部位可以缓解一些困难，例如.姿势变化和背景杂波，在基于零件的表示。最后，我们通过多类人物识别任务，将全身和身体部位的表征学习过程整合到一个统一的人物ReI-D框架中。对当前具有挑战性的大规模人ReID数据集（包括基于图像的Market1501、CUHK03和基于序列的MARS数据集）的广泛评估表明，所提出的方法达到了最先进的结果。1. 介绍人员重新识别旨在使用给定的探头图像在不同的摄像机中搜索相同的人员。由于其在视频监控、基于内容的图像检索等实际应用中的重要性，近年来受到了广泛的关注。尽管经过多年的努力，它仍然有许多挑战，如人的姿势，照明和背景杂波的大变化。此外，行人之间服装外观相似性和行人检测结果不完善等问题进一步增加了其在实际应用中的难度。大多数现有的ReID方法都集中在开发一个强大的表示来处理视图的变化全身刚体零件我们图1.深度学习的典型特征学习框架示意图。如黑色虚线框所示，当前-测试方法集中于用于特征学习的整个身体或刚性身体部分。与之不同的是，我们使用空间Transformer网络来学习和定位行人部位，并使用多尺度上下文感知卷积网络来提取ReID的全身和身体部位表示最好用彩色观看点、身体姿势、背景杂波等。[第7、10、18、19、22、27， 41-ric [2，16，21，22，29，47，57].一些现有的方法两人都有共同的经历[1，20，31，44]。近日，深基于特征学习的方法[5，6，34，35]，其学习全局行人特征并使用欧几里德度量来测量两个样本，已经获得了最先进的结果-S.随着ReID数据集样本量的增加，从多类人员识别任务中学习特征[30，39，40，52，55]，表示为ID区分性Em- bedding（IDE）[55]，在当前大规模人员ReID数据集上显示出巨大的潜力，例如MARS [52]和PRW [55]，其中IDE特征取自深度卷积神经网络（D-CNN）的最后一个隐藏层。在本文中，我们的目标是使用DCNN学习人员ReID的IDE功能。用于人ReID的现有DCNN模型通常学习输入人图像ConvConvConvFCConvFCConcatConvConvConvConvConvConvConvConvConvFCFCFCConcatFCConvConvMSCANConvConv ConcatConv转换转换MSCANFCConcatFCConcat潜在部分定位MSCANFCConcatFCMSCANFC385(Full图1中的刚体），或者学习预定义的刚体部件（图1中的刚体部件）的基于部件的表示，或者学习两者的特征嵌入。尽管这些DCNN模型在现有的ReID数据集上取得了令人印象深刻的结果，但仍然存在两个问题。首先，对于特征学习，当前流行的DCNN模型通常堆叠单尺度卷积和最大池化层以生成深度网络。随着层数的增加，这些DCNN模型很容易错过一些小尺度的视觉线索，如太阳镜和鞋子。然而，这些细粒度属性对于区分具有小的类间变化的行人对非常有用。因此，这些DCNN模型不是Pedestri的最佳选择。特征学习。第二，由于姿态变化和不完善的行人检测器，行人图像样本可能会错位。有时他们可能有一些背景或缺乏一些部分，例如。腿在这些情况下，对于基于部分的表示，预定义的刚性网格可能无法捕获两个足图像之间的正确对应。因此，刚性的预定义网格对于有效的基于零件的特征学习来说远远不够鲁棒。在本文中，我们提出了学习的特点，全身和身体部位联合。为了解决第一个问题，我们提出了一个多尺度上下文感知网络（MSCAN）。如图1所示，对于M-SCAN的每个卷积层，我们采用具有不同接收场的多个卷积核来获得多个来自不同卷积核的特征图被连接为当前层为了降低不同卷积核之间的相关性，使用扩张卷积[45]而不是一般的卷积核。通过这种方法，在同一层获得多尺度的上下文知识。因此，用于细粒度区分的局部视觉线索得到增强。此外，通过逐层嵌入上下文特征（跨层卷积操作），MSCAN可以获得更多的上下文感知表示输入图像。为了解决第二个问题，我们建议通过空间变换网络（ Spatial Transform Networks ，简称ANN）[13]来定位潜在的足部部分，而不是使用刚体部分，这最初是为了学习图像变换而提出的。为了使其适应行人部分定位任务，我们提出了三个新的限制学习的转换参数。利用这些约束条件，可以将更多的可扩展部分定位在信息区域，从而减少背景内容的干扰。通常，全身和身体部位的特征是彼此互补的。全身特征更关注全局信息，而身体部位特征更关注局部区域信息。为了更好地利用这两种类型的表示，在本文中，连接全身和身体部位的特征以形成最终的行人表示。在测试阶段，采用欧氏距离计算两个L2之间的距离人ReID的标准化人表示。本文的贡献总结如下：（a）我们提出了一个多尺度上下文感知网络，以增强视觉上下文信息，从而更好地表征细粒度视觉线索。(b)而不是使用- ING刚性部件，我们建议学习和本地化行人的部分，使用空间Transformer网络与新的先验空间约束。实验结果表明，融合了全局和局部的身体表征，大大提高了人体ReID的性能。2. 相关工作典型的个人ReID方法集中在两个关键点：开发了一个强大的图像表示功能，并学习了一个有效的度量，使同一个人接近，不同的人远离。最近，深度学习方法已经实现了人ReID的最新结果[34，39，48，52，54]。在这里，我们主要回顾相关的深度学习方法。用于人员ReID的深度学习方法倾向于联合学习人员表示和相似性（距离）度量。给定一对人物图像，先前的深度学习方法学习每个人20]或完全连接（FC）功能[31，37，44]。除了深度度量学习之外，一些工作通过成对对比损失或三重排序损失直接学习图像表示，并使用欧几里德度量进行比较[5，6，34，35]。随着ReID数据集样本量的增加，通过多类人员识别任务学习的IDE功能在当前大规模人员ReID数据集上显示出巨大的潜力。Xiao等[39]提出了do-main引导的dropout，以同时学习多个数据集的特征，同时丢失身份分类。Zheng等[52]了解IDE中基于视频的人员重新识别功能。Xiao等[40] Zhenget al. [55]学习IDE功能，共同解决行人检测和人员ReID任务。Schumann等人[30]了解领域自适应人员ReID的IDE功能。类似的现象也在人脸识别中得到了验证[33]。如我们所知，以前的DCNN模型通常采用逐层单尺度卷积核来学习上下文信息。一些DCNN模型[5，31，44]采用刚体部分来学习局部行人特征。与之不同的是，我们从两个方面对经典模型进行了改进。首先，我们提出通过在同一层进行多尺度卷积来增强上下文知识。通过逐层嵌入特征映射（卷积或FC操作）来学习不同上下文知识之间的关系。其次，我们利用空间Transformer网络，而不是使用刚性的部分，提出了先验约束的学习和定位潜在的人体部位。386图2.拟议模式的总体框架。拟议模型由三个部分组成：基于MSCAN的全局人体特征学习、基于空间Transformer网络的潜在行人部位定位和局部特征嵌入、全身和身体部位融合的多类身份识别任务。3. 该方法这种方法的重点是学习强大的特征表示来描述行人。所提出的方法的总体框架如图2所示。在本节中，我们从四个方面介绍我们的模型：用于有效特征学习的多尺度上下文感知网络（第3.1节），用于更好的基于局部部分的特征表示的潜在部分学习和定位（第3.2节），人ReID的全局全身和局部身体部分特征的融合（第3.3节），以及第3.4节中的最终目标函数。3.1. 多尺度上下文感知网络视觉上下文是辅助视觉相关任务的重要组成部分，例如对象识别[24]和对象检测[46，56]。典型的卷积神经网络通过分层卷积和池化来建模上下文信息[11，17]。对于人的ReID任务，最重要的视觉线索是视觉属性知识，如衣服的颜色和类型。然而，它们在规模、形状和位置上有很大的变化，例如小规模的帽子/眼镜和大规模的衣服颜色。直接使用自底向上的单尺度卷积和池化可能无法有效地处理这些复杂的变化。特别是随着层数的增加，帽子等小的视觉区域在顶层容易被遗漏。为了更好地学习这些不同的视觉线索，我们提出了多尺度上下文感知网络。建议的MSCAN的架构如表1所示。它有一个内核大小为5×5的初始卷积层来捕获低级视觉特征。然后我们使用四个多尺度卷积层来获得复表1.MSCAN的模型结构图像上下文信息。在每个多尺度卷积层中，我们使用大小为3×3的卷积核。为了获得多尺度感受场，我们采用卷积滤波器的扩张卷积[45]。我们使用三种不同的膨胀率，即。1、2和3，以捕获不同尺度的上下文信息。来自不同膨胀率的特征图沿着通道轴连接，以形成当前卷积层的最终输出。因此，视觉上下文信息被显式地增强。为了将不同的上下文信息集成在一起，通过逐层卷积或FC操作嵌入当前卷积层的特征图。结果，不同尺度的视觉线索以潜在的方式融合。此外，我们在每个卷积层之后采用批量归一化[12]和ReLU神经激活单元。在本文中，我们使用扩张比为1，2和3的扩张卷积来代替核大小为3×3，5×5和7×7的经典卷积滤波器。主要原因是核大小为3×3、5×5和7×7的经典卷积滤波器在相同的输出位置相互重叠，产生冗余信息。为了使其更清楚，我们显示了具有膨胀的膨胀卷积核（大小为3×3）Conv1_1Conv2_1Conv3_1Conv4_1Conv0Conv1_2Conv2_2Conv3_2Conv4_2Conv1_3Conv2_3Conv3_3Conv4_3MSCANFC_体MSCAN FC_locomo_part1网格生成器部分#1MSCANFC_part1空间Transformer网络MSCAN FC_locomo_part2网格生成器MSCAN FC_part2FC部分部件#2空间Transformer网络MSCAN FC_locomo_part3网格生成器MSCAN FC_part3零件#3空间Transformer网络先验约束识别特征融合ConcatConcatConcatConcat层扩张内核垫滤器数量输出输入----3× 160× 64conv015× 523232× 160×64pool0-2× 2--32× 80× 32conv11/2/33× 31/2/332/32/3296× 80× 32pool1-2× 2--96× 40× 16conv21/2/33× 31/2/332/32/3296× 40× 16池2-2× 2--96× 20× 8conv31/2/33× 31/2/332/32/3296× 20× 8游泳池3-2× 2--96× 10× 4Concat387XX我我将变换应用为逆扭曲以生成输出身体部位区域：.在……in=我Σsx0tx0sy ty阿图什乌特（1）1图3.相同输入特征映射的扩张卷积示例。卷积核是3×3，从左到右的膨胀比是1、2和3。蓝框是红圈处卷积的有效位置最好用彩色观看在图3中，比率范围为1至3。对于红色圆圈所示的相同输出位置，具有较大膨胀率的卷积核具有较大的接收场，而只有中心位置与其他卷积核重叠。这可以减少具有不同接收域的滤波器之间的冗余信息。总之，如图2所示，我们使用MSCAN来学习全身和身体部位的多尺度上下文表示。此外，它还用于下面提到的空间Transformer网络中的特征学习。3.2. 潜在部分定位行人部分在人ReID中很重要。一些实验工作[5，10，22，44]已经探索了刚体部件以开发鲁棒特征。然而，由于行人检测算法不令人满意和大的姿态变化，使用刚体部位的局部特征学习的方法不是最佳的解决方案。如图1所示，当使用刚体部件时，顶部部分由大量背景组成。这促使我们自动学习和定位行人部分。我们在我们提出的模型中集成了[13]作为零件本地化网络。原始的学习算法被提出来显式地学习图像变换参数，例如translation和scale。它有两个主要优点：（1）它是完全可区分的，并且可以容易地集成到现有的深度学习框架中，（2）它可以学习在没有显式区域注释的情况下翻译、缩放、裁剪或扭曲感兴趣的区域。这些事实使它非常适合行人部分其中xin和yin是输入图像坐标，xout和yout是输出部分图像坐标，并且i索引输出身体部分图像中的像素在本文中，我们希望学习三个部分，分别对应于头肩，上身和下身。每个部分都是由一个独立的神经网络从原始行人图像中学习的。对于空间定位网络，首先使用MSCAN提取全局图像特征图。然后，我们通过一个128维的FC层（图2中的FC位置）来学习高级抽象表示。最后，我们学习的转换参数θ与4维FC层的基础上FC loc。MSCAN和FC loc在三个空间定位网络之间共享-S.网格生成器可以基于所学习的变换参数来裁剪所学习的行人部分。本文中裁剪后的零件图像分辨率为96×64。对于局部定位网来说，学习三难用于零件定位的参数组。有三个问题。首先，来自预测器的预测部分可以容易地落入相同的区域，例如，中心区域的一个儿子，并导致redundance。第二，比例参数可以容易地变为负值，并且行人部分将被垂直或水平或两者镜像。这与人类的一般认知是不一致的。因为很少有人会在监控场景中倒立。最后，裁剪后的部分可能会从人物图像中掉出来，这样网络就很难收敛。针对上述问题，提出了局部定位网络中变换参数的三个先验约束。第一个约束是预测零件的位置。我们希望预测的部分靠近先前的中心点，这样学习的部分就会相互补充。这被称为中心约束，其形式化如下：本地化空间定位包括两个组成部分，12Lcen=2 max{0，（tx−Cx）+（ty−Cy）2-α}（2）网络学习变换参数，网格生成器，用于使用图像插值内核对输入图像进行采样更多的细节可以在[13]中看到在该算法的实现中，采用双线性插值核函数对输入图像进行采样采用四个变换参数θ=[sx，tx，sy，ty]，其中sx和sy是水平和垂直尺度变换参数，tx和ty是水平和垂直平移参数。图像的高度和宽度被归一化为[-1，1]。只学习缩放和平移参数，因为这两种类型的变换足以有效地裁剪行人部分。的其中Cx和Cy是每个零件的先验中心点。 α是控制估计中心点和先前中心点之间的平移的阈值。在我们的实验中，我们将先验中心点（Cx，Cy）设置为（0，0. 6），（0，0），和（0，-0。（6）各部分。阈值α被设置为0。五、第二个是对预测尺度参数的取值范围约束。我们希望尺度是正的，这样预测的部分就有一个合理的范围。对标度参数的值范围约束形式化如下：Lpos=max{0，β−sx}+max{0，β−sy}（3）y3882J其中β是阈值参数，本文将其设置为0.1最后一个是使定位网络聚焦于图像的内部区域。其形式如下：Lin=1max{0，||sx±tx||2−γ}4. 实验在本段中，数据集和评价方案在第4.1节中介绍。实施细节在第4.2节中描述。与最新技术水平的2+1max{0，||sy± ty||2− γ}（四）方法在4.3节中讨论。的有效性在第4.4节和第4.5节中分析了所提出的模型。交叉数据集评价见第4.6节。其中γ是边界参数。在我们的论文中，γ被设置为1.0，这意味着裁剪的部分应该在行人图像内。最后，零件定位网络中的变换参数的损失描述如下：Lloc=Lcen+1Lpos+2L在（5）中，其中1和2是超参数。超参数在我们的实验中，1.1和1.23.3. 特征提取与融合整个身体和身体部位的特征由单独的网络学习，然后融合在一个统一的框架中，用于多类别的个人识别任务。对于基于身体的表示，我们使用MSCAN来提取全局特征映射，然后学习128维特征嵌入（在图2中表示为FC body）。对于基于部位的表示，首先，对于每个身体部位，我们使用MSCAN提取其特征图并学习64维特征嵌入（表示为FC部分1、FC部分2、FC部分3）。然后，我们学习一个128维的特征嵌入（表示为FC部分）的基础上，每个身体部位的特征。在每个FC层之后采用Dropout [ 32 ]以防止过度拟合。最后，介绍了全球化的特点，所有的全身和局部身体部位被连接成256维特征作为最终的人表示。3.4. 目标函数在本文中，我们采用softmax损失作为多类人员识别任务的目标函数。Nexp（WTxi+by）4.1. 数据集和方案数据集。在本文中，我们在当前最大的人ReID数据集上评估了我们提出的方法，包括Market1501 [53]，CUHK03 [20]和MARS [52]。我们不要直接在小数据集上训练我们的模型，比如VIPeR[9]。它很容易过度拟合和不足-t从头开始在小数据集上学习如此大容量的网络。然而，我们通过将模型从Market1501微调到VIPeR并在VIPeR上制作跨数据集ReID进行泛化验证，给出了一些结果。相关的实验结果在4.6节中讨论。Market 1, 501：它包含1，501个身份，由六个手动设置的摄像机捕获。共有32，368幅图片。每个人在每个视点平均有3.6张图像。它提供了两种类型的图像，包括裁剪和基于可变形部分的模型（Deformable Part basedModel，简称DEPM）自动检测的行人[8]。在[53]之后，751个身份用于训练，其余750个身份用于测试。CUHK03：它包含1，360个身份，由校园内的六个监控摄像头捕获。每个身份都由两个不相交的摄像机捕获。它由13，164个人物图像组成，每个身份在每个视角下约有4.8个图像。该数据集提供两种类型的注释，包括手动注释的边界框和使用XML检测的边界框。我们验证我们提出的模型对这两种类型的数据。在[20]之后，我们使用1，260个人的身份进行训练，其余100个身份进行测试。实验进行20次，并报告平均结果。MARS：它是最大的基于序列的人ReIDLcls =−i=1对数ΣCj=1yiexp（WTxi我+bj）（六）数据集。它包含1，261个身份，每个身份至少由两台摄像机拍摄。它由20，478个tracklet其中i是人物图像的索引，xi是第i个样本的特征，yi是第i个样本的身份，N是人物图像的数量，C是人物身份的数量，Wj是第j个身份的分类器。对于整个网络训练，我们联合使用分类和定位损失。最终目标函数如下。L=Lcls+λLloc（7）其中λ是超参数，在我们的实验中设置为0.1。和1,191,003个边界框。在[52]之后，我们使用625个身份进行训练，其余631个身份进行测试。协议. 根据每个数据集的原始评估协议，我们采用三种评估协议与现有方法进行公平比较。第一个是累积匹配特征（CMC），用于CUHK03和MARS数据集。第二个是Market 1501数据集上的Rank- 1识别率。第三个是Market1501和MARS数据集的平均精度（mAP）。mAP同时考虑了精确度和重呼率，可以作为CMC的补充。3894.2. 实现细节模型：我们尝试通过使用完整的身体和身体部位的多类人识别任务来学习行人表示。为了独立地评估完整身体和身体部位的有效性，我们从图2的整个网络中提取两个子模型。第一个只使用全身来学习身份分类损失的人表示。第二种方法只使用身体部位来学习人的表征，身份分类和身体部位定位损失。对于人的重新识别，我们使用L2归一化的人表示和欧几里得度量来测量两个行人样本之间的距离。最佳化：我们的模型是基于Caffe实现的[14]。我们使用所有可用的训练身份进行训练，并为每个身份随机选择一个样本进行验证。由于数据集可能相当大，在实践中，我们使用目标函数的随机近似训练数据被随机分成小批量，批量大小为64。该模型对每个小批量执行前向然后使用反向传播来计算每个小批量上的梯度，并使用随机梯度下降来更新权重我们从基本学习率η = 0开始。每1×104次迭代后，逐渐减小该值值得注意的是，零件定位网络的学习率是特征学习网络的 1% 我们使用 μ = 0的动量。 9 和重量衰减λ=5×10−3。对于整体网络训练，我们使用预训练的基于身体和基于部分的模型初始化网络，然后遵循与上述相同的我们使用5×104次迭代的模型进行测试。数据预处理：对于每个图像，我们将其调整为160×64，减去每个通道（B，G和R）的平均值，然后使用比例1对其进行归一化。0/256用于网络训练。为了防止过度拟合，我们在训练阶段随机水平地接收每个图像。4.3. 与最先进方法的Market1501：对于Market1501数据集，比较了几种最先进的方法，包括单词袋（BOW）[53]，加权近似排名，t分析（WARCA）[15]，判别空间（DNS）[47] ，多项式特征映射上的空间约束相似性函数（SCSP）[2]，以及基于深度学习的方法，如PersonNet[38]，比较注意力网络（CAN）[25]，暹罗长短期记忆（ S-LSTM ） [35] ，门控暹罗卷积神经网络（ Gate-SCNN）[34]。实验结果如表2所示。与现有的基于全身的卷积神经网络，如CAN和Gate-SCNN相比，所提出的网络结构可以更好地捕捉行人特征。查询单个查询多查询评估指标R1地图R1地图BOW [53]34.3814.142.6419.47BOW + HS [53]--47.2521.88[第15话]45.16---[第38话]37.21 26.35--S-LSTM [35]- -61.635.3SCSP [2]51.9 26.35--加拿大[25]48.24 24.43--DNS [47]55.43 29.8771.5646.03Gate-SCNN [34]65.88 39.5576.0448.45我们的一部分76.2553.3384.1262.90身体75.4552.4183.4362.03我们的融合80.3157.5386.7966.70表2.在Market1501数据集上的实验结果- 表示没有报告的结果可用。具有多类人员识别任务的任务。我们的全身表示将Gate-CNN在单个查询中产生的最先进结果的Rank-1识别率提高了9.57%。与全身相比，我们的身体部分表示增加了0.80%。其主要原因是，基于局部的行人检测方法检测到的行人包含了更多的背景信息，而基于局部的行人检测方法可以更好地减少背景杂波的影响。全身和身体部位表示彼此是互补的。全身表示更关心全局信息，如背景和身体形状。身体部位表示更加关注身体部位，如头部、上半身和下半身。如表2所示，在单次查询中，全身和身体部位的融合模型与分别基于身体和部位的模型相比，Rank-1识别率提高了4.00%以上。与Gate-CNN产生的最佳结果相比，mAP提高了约17.98%。CUHK 03：对于CUHK 03数据集，我们将我们的方法与许多现有方法进行了比较，包括过滤器对神经网络（FPNN）[20]，改进的深度学习架构（IDLA）[1]，交叉视图二次分类分析（XQDA）[22]，PSD约束的非对称度量学习（表示为MLAPG）[23]，样本特定SVM（SS）[49]，单个图像和交叉图像表示（SI-CI）[36]，嵌入深度度量（ED-M）[31]，域引导丢弃（DGD）[39]，DNS，S-LSTM和Gate-SCNN。在这个数据集上，我们对检测到的数据集和标记的数据集进行实验。如在先前的工作[20]中所呈现的，我们使用单次激发情况下的CMC曲线来评估性能。总体结果见表3和表4。完整的CMC曲线见补充资料。与度量学习方法，如国家的最先进的方法DNS相比，建议的融合模型，el在标记数据集和检测数据集上的秩1识别率分别提高了11.66%和13.29%。与类似的多类人识别网络DGD相比，使用我们的融合模型在标记数据集上的Rank-1识别率提高了1.63%。应该注意的是，我们只使用标记集进行训练-390查询单个查询评估指标1520地图[52]第五十二话58.7077.1086.8040.40[52]第五十二话65.0081.1088.9045.60[52]第五十二话65.3082.0089.0047.60Our-Fusion+Eulidean68.3884.1991.5251.13Our-Fusion+KISSME69.2485.1592.1753.00Our-Part+XQDA66.6282.0790.7649.74我们的身体+XQDA68.2383.9992.1751.82Our-Fusion+XQDA71.7786.5793.0856.05表3.CUHK03检测数据集上的实验结果数据集CUHK03 标记秩151020FNN [20]20.6551.5066.5080.00[1]54.7486.5093.8898.10XQDA [22]52.2082.2392.1496.25MLAPG [23]57.9687.0994.7498.00[第28话]62.1089.1094.8098.10SS-SVM [49]57.0085.7094.3097.80DNS [47]62.5590.0594.8098.10EDM [31]61.3288.9096.4499.94决定指导文件[39]72.5891.5995.2197.72我们的一部分69.4192.6896.6899.02身体71.8893.6697.4699.18我们的融合74.2194.3397.5499.25表4.CUHK03标记数据集上的实验结果ing，而DGD在标记和检测数据集上训练。这证明了所提出的模型的有效性。MARS：该数据集是最大的基于序列的个人ReID数据集。在这个数据集上，我们将所提出的方法与几种经典方法进行了比较，包括保持简单和直接度量（KISSME）[16]，XQ-[22 ][23][24][25][26][27][27]与以前的工作类似[52]，在MARS上评估单个查询和多个查询。MARS的总体实验结果见表5和表6。完整的CMC曲线见补充资料。与CaffeNet（一个类似的多类身份识别网络）相比，我们的基于身体的模型在单次查询中使用XQDA将Rank-1识别率提高了2.93%，mAP提高了4.22%。应该注意的是，我们的网络不使用任何额外数据的预训练。通常，深度学习网络在使用ImageNet分类任务进行预训练时可以获得更好的结果。我们的融合模型在单次查询中将Rank-1识别率和mAP提高了6.47%和8.45%。这说明了我们模型的有效性。4.4. MSCAN的有效性为了确定MSCAN的有效性，我们探索了MSCAN的四种变体，以基于全身图像，其被表示为MSCAN-k，k={1，2，3，4}。k是扩张比的数量。例如，MSCAN-3意味着对于每个卷积层，表5.MARS上的实验结果与单一查询。查询多个查询评估指标1520地图美国有线电视新闻网+KISSME+MQ [52]68.3082.6089.4049.30我们的融合+欧几里德+MQ78.2891.9796.8761.62Our-Fusion+KISSME+MQ80.5193.1897.2263.50Our-Fusion+XQDA+MQ83.0393.6997.6366.43表6.在MARS上的多查询实验结果Conv 1-Conv 4，有三个卷积核，分别具有扩张比1、2和3。随着k的增加，MSCAN在同一卷积层捕获更大的上下文信息。基于Market1501数据集上的这四种类型的MSCAN的实验结果如表7所示。可以看出，随着膨胀率的增加，单次查询情况下的Rank-1识别率和mAP稳定提高。对于多个查询的情况，这意味着通过特征空间中的平均池化来融合同一相机处属于同一查询人的然而，当K从3增加到4时，Rank-1识别率和mAP增加不多。我们认为特征学习有一个合适的膨胀率。考虑到模型复杂度和Rank-1识别率的准确性提高，本文采用MSCAN-3作为最终的MSCAN模型。查询类型单个查询多个查询评估指标秩-1地图秩-1地图MSCAN-165.3841.8575.2151.14MSCAN-272.2149.1982.2259.03MSCAN-375.4552.4183.4362.03MSCAN-476.2553.1484.0962.95表7.在Market1501数据集上使用基于身体的ReID表示的四种MSCAN的实验结果4.5. 潜在部分定位的有效性学过的部分vs.刚性部分为了与流行的刚性行人部分进行比较，我们将行人划分为三个重叠区域作为预定义的刚性部分。我们使用的刚体部分，而不是学习潜在的身体部位的部分为基础的特征学习。刚性和学习身体部位的实验结果如表8所示。与刚体部位相比，学习后的身体部位在单次查询中提高了Rank- 1识别率和mAP3.27%和3.73%，在多次查询中提高了1.70%和2.67%。这验证了学习者部分的有效性。数据集CUHK03 检测秩151020FNN [20]19.8950.0064.0078.50[1]44.9676.0183.4793.15XQDA [22]46.2578.9088.5594.25MLAPG [23]51.1583.5592.0596.90SS-SVM [49]51.2080.8089.6095.50SI-CI [36]52.1784.3092.3095.00DNS [47]54.7084.7594.8095.20S-LSTM [35]57.3080.1088.30-Gate-SCNN [34]61.8080.9088.30-EDM [31]52.0982.8791.7897.17我们的一部分62.7488.5393.9797.21身体64.9589.8294.5897.56我们的融合67.9991.0495.3697.83391查询类型单个查询多个查询评估指标1级mAP1级mAPLcls67.22 45.2777.55 55.40Lcls+L loc76.25 53.3384.12 62.90表9.Lloc对基于部件的网络在Market1501数据集上的影响原始刚性潜原始刚性潜原始刚性第四章潜图原始图像、刚性预定义部分和学习的潜在行人部分的六个样本。每列中的样本为同一个人不同的背景。最好用彩色观看为了更好地理解学习的行人部分，我们使用我们的融合模型将图4中的局部潜在部分可视化。对于这些检测到的具有大背景的人（图4中的第一行），所提出的模型可以学习具有互补的潜在行人部分的前景信息。我们可以看到，学习部分由三个主要部分组成，包括上身、中身（上身和下身的组合）和下身。当原始检测行人包含较少的背景或遮挡时，可以实现类似的结果（图4中的第二行）。很容易看出，自动学习的行人部分不是严格的头-肩、上身和下身。但它确实由这三个部分组成，有很大的重叠。与刚性零件相比，该模型可以自动定位合适的潜在零件进行特征学习。查询类型单个查询多个查询评估指标1级mAP1级mAP刚性部件72.98 49.6082.42 60.23潜在部分76.25 53.3384.12 62.90表8. ReID在Market1501数据集上的刚性零件和学习零件的实验结果。为了评估所提出的约束对潜在部位定位网络的有效性，我们通过在ReID的身体部位网络的训练阶段添加或删除所提出的Lloc来实验结果示于表9中。正如我们所看到的，随着Lloc的增加，Rank-1的准确率提高了9.03%。我们欠-promations的有效性，提出的约束的部分定位网络。4.6. 跨数据集评价与典型的CN-N图像分类任务类似，我们的方法需要大规模的数据，不仅需要更多的身份，而且需要每个身份的更多实例。因此，我们不会在每个小人物ReID数据集（如VIPeR）上训练所提出的模型。相反，我们从预训练模型对表10.VIPeR数据集上的跨数据集人员ReID方法秩-1秩-5十阶二十阶我们的一部分32.7057.4967.6278.90身体33.1260.2372.0582.59我们的融合38.0864.1473.5282.91表11.通过将模型从Market1501微调到VIPeR的VIPeR实验结果Market1501 、 CUHK03 和 MARS 数据集到 VIPeR 数据集。实验结果示于表10中。与其他方法相比，如DomainTransfer Rank Support Vector Machines [26] 和 DML[44]，在大规模数据集上训练的模型具有更好的泛化能力，并且具有更好的Rank-1识别率。为了进一步分析所提出的方法，我们还将模型从大型数据集Market1501微调到小型数据集VIPeR。实验结果示于表11中。我们基于融合的模型获得了比现有深度模型更好的Rank-1识别率，例如，IDLA [1]（34.8%），门-SCNN [34]（37.8%），SI-CI [36]（35.8%），并达到结果与DGD [39]相当（38.6%）。5. 结论在这项工作中，我们在三个层次上研究了人的ReI-D问题：1）一个多尺度的上下文感知网络，以捕获行人特征学习的上下文知识，2）三个新的约束条件，以有效的潜伏期， t部位定位和身体部位特征表示; 3）融合全身和身体部位身份鉴别特征，实现了强大的行人表示。我们已经验证了所提出的方法在当前大规模的人ReID数据集的有效性。实验结果表明，该方法达到了最先进的结果。致谢本工作得到国家重点研究发展计划（2016 YFB1001005）、国家自然科学基金（批准号：61673375，批准号：61403383和批准号61473290）和中国科学院项目（批准号： QYZDB-SSW-JSC 006 ，批准号：173211KYSB 20160008）。方法训练集1102030DTRSVM [26]I-lids8.2631.3944.8353.88DTRSVM [26]PRID10.9028.2037.6944.87[44]第四十四话香港中文大学校园16.1745.8257.5664.24我们的融合检出CUHK0317.3044.5855.5161.77我们的融合CHUK03标记19.4449.9960.7866.74我们的融合MRAs18.4643.6552.9659.34我们的融合Market150122.2147.2457.1362.26392引用[1] E.艾哈迈德，M。Jones和T. K.标记.一种改进的深度学习架构，用于人员重新识别。在procCVPR，2015年。一二六七八[2] D. Chen，Z.袁湾，澳-地Chen和N.郑具有空间约束的相似性在Proc. CVPR，2016中。1、6[3] W. Chen，X. Chen，J. Zhang，and K.煌超越三重丢失：一个深度四重网络的人重新识别。在Proc. CVPR，2017中。2[4] W. Chen，X. Chen，J. Zhang，and K.煌一个多任务深度网络，用于人员重新识别。InAAAI，2017.2[5] D.郑，Y.贡，S. Zhou，J. Wang，and N.郑基于改进三重损失函数的多通道部分cnn的个人再识别在procCVPR，2016年。一、二

下载后可阅读完整内容，剩余1页未读，立即下载