基于课程抽样的人的重新识别网络Mancs

15 浏览量更新于2023-10-13 收藏 942KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Mancs：一个基于课程抽样的重新识别陈旺1*、秦张2、陈胡2、刘文玉1、王兴刚11华中科技大学启德学院，武汉，中国{wangcheng，liuwy，xgwang}@ hust.edu.cn地平线机器人公司中国{qian01.zhang，chang.huang}@ hobot.cc抽象。我们提出了一种新的深度网络Mancs，它从以下几个方面解决了人的重新识别问题：充分利用人错位问题的注意力机制和适当的排名损失采样，以获得更稳定的人表示。从技术上讲，我们贡献了一种新的完全注意力块，它是深度监督的，可以插入任何CNN，以及一种新的课程采样方法，它对训练排名损失是有效的。将学习任务整合到统一的框架中，共同优化。在Market1501、CUHK03和DukeMTMC上进行了实验。所有的结果表明，Mancs可以显着地表现出以前的国家的艺术。此外，新提出的想法的有效性已被广泛的消融研究所证实。关键词：人的再识别·注意力·课程抽样·多任务学习1介绍人员重新识别（re-ID）旨在发现摄像机网络中的感兴趣人员，是计算机视觉中一个成熟的研究问题[40]。由于其在视频监控应用中的巨大影响[17]，以及公众可用的大规模re-ID数据集和深度学习系统的令人鼓舞的re-ID结果，人员re-ID在计算机视觉中越来越受欢迎。然而，在大视点变化、大未对准和遮挡等情况下，人的重新ID问题是相当具有挑战性的。因此，[1]这项工作是王成在地平线机器人公司实习时完成王兴刚为通讯作者。22C. 王，英-地Zhang C.，中国古猿科黄，W.刘X.王已经提出了基于具有个人身份的训练图像来学习有效的个人表示的工作。学习问题自然地被公式化为距离度量学习问题[6，41]。它的目的是找到一个新的距离度量，将原始的人特征（如HOG [9]和SIFT[25]）转换到一个新的空间中，其中具有相同身份的示例在深度学习人员重新识别系统中，距离度量学习的思想通常被公式化为排名损失，并且已被证明是有效的。一个典型的排名损失是三重损失，如[28]。给定锚点示例，其中正示例具有与锚点相同的标识，并且负示例具有与锚点不同的标识。t同一性，三重态损失强制锚点-正距离小于锚点-负距离。除了三重损失之外，还提出了其他类型的度量学习损失，例如直方图损失[31]和四重损失[6]。由于正负样本对的数量不平衡，在度量学习损失下进行训练时，样本采样策略是一个关键问题。最近的研究表明，挖掘硬否定有利于学习鲁棒的深度人物表示[11，28]。此外，另一个损失函数，直接将人物图像分类到自己的身份类别的分类损失函数，仍然非常有用[20]。深度re-ID网络可以提供很好的全局深度人物表示。然而，由于不准确的人检测、人姿态变化等，用于人重新ID的对准和匹配鉴别性局部特征仍然是非常为了实现这一目标，有不同的方法，例如使用空间注意力的非显式特征对齐和匹配[38]和使用LSTM的显式特征对齐[4]或通过找到最短路径进行对齐[36]。通过回顾当前的人再识别研究工作，我们可以发现，由于问题的挑战性，至少存在以下问题需要处理：（1）损失函数的选择;（2）错位问题;（3）寻找有鉴别力的局部特征;（4）识别问题。以及（4）如何在排序损失函数的优化过程中对训练样本进行采样。在目前的人的再身份认同研究中，很少有人在同一个框架内对这些问题进行研究。因此，在本文中，我们提出了Mancs，一个统一的人重新ID深度网络，同时处理上述问题。Mancs有以下构建块。它有一个主干网络，如ResNet-50，用于为输入的人物图像提取深层特征层次。骨干网络的监督与排名损失和分类损失。排名亏损是三连亏;我们提出了一种新的课程抽样策略来训练三重丢失;课程采样方法的动机是课程学习[5]，它有助于通过从容易到困难的采样示例来训练网络。分类损失是一种焦点损失，已被证明有助于密集对象检测[22]。为了处理错位问题和本地化的歧视性的局部特征，我们提出了一个新的全attentional块（FAB），它创建通道和空间的注意力信息，挖掘有用的功能re-ID。为了更好地学习我们网络中的FAB，我们进一步提出通过添加深度监督思想[14]来使用深度监督思想。Mancs：一个基于课程抽样的多任务注意网络3每个FAB的分类损失函数;因此，分类损失函数被称为注意力损失。最后，三重损失，焦点损失和注意力损失相结合，以多任务的方式训练我们的人重新识别网络在实验中，我们研究了三个大规模人员re-ID数据集上的Manc，这些数据集是Market-1501 [39]，CUHK 03 [18]和DukeMTMC-reID [43]。结果清楚地表明了新提出的三重损失与课程抽样，深度监督完全注意力块，焦点损失，和统一的多任务学习框架的贡献。此外，Mancs在所有数据集上都获得了比以前的最新技术更好的精度。2相关工作注意力网络最近，许多工作已经采用注意力深度学习方法来解决人re-ID中的错位问题。通常，它们使用额外的子网来获得感兴趣区域并从这些关注区域提取特征。 MSCAN [15] 使用空间变换网络（STN）[13]来获得几个关注区域，然后从这些区域中提取局部特征HA-CNN [20]结合了软注意力方法和硬注意力方法。除了获得硬注意区域外，它们还依赖于通道注意和空间注意，这是对先前硬注意的补充CAN [24]将注意力方法与LSTM相结合，以获得整个图像的区分性注意力特征提出的Mancs采用1× 1卷积来获得与特征图形状相同的注意掩模度量学习。它广泛用于学习图像嵌入，例如[3、4、6、28、36、41]。在人脸识别中，[28]使用三重丢失来进一步推动除了三重丢失，对比丢失[41]和四重丢失[6]也用于人的重新识别任务。对于三元组丢失，在线硬示例挖掘（OHEM）是重要的，即选择最远的正示例和最近的负示例进行训练。在提出的Mancs框架中，我们以课程的方式抽取训练样本.多任务学习。由于度量学习和表示学习都可以应用于人员重新识别任务，[4，10]将softmax损失与三重损失相结合来训练模型以获得鲁棒的性能。[1]采用两种损失，但将其分为两个阶段。所提出的Mancs将焦点损失与三重损失相结合，并且可以以端到端的方式进行训练。3方法在本节中，我们首先描述了训练框架及其构建块，然后描述了多任务学习策略，最后描述了推理网络，从而提出了所提出的Mancs personre-ID框架。4C. 王，英-地Zhang C.，中国古猿科黄，W.刘X.王1792 1792身份concatFCFC注意力丢失2565121024池池池正锚负ResNet骨干FAB掩模FAB掩模FAB掩模20482048*8*4conv池convconvconv转换池三重损失64*64*32256*64*32512*32*161024*32*16池256*128*32048FC2048FC特征图层损失身份焦点损失图1.一、 Mancs训练架构：其骨干网络是ResNet-50;池化层都是空间平均池化; FAB块是图1中描述的注意力模块。它有三个损失函数：注意力丧失、三联体丧失和焦点丧失3.1培训架构用于训练的网络架构如图1所示。基本上，它有三个主要组成部分。骨干网络、注意力模块和损失函数，其描述如下。骨干网络被用作多尺度特征提取器。在不失一般性的情况下，这里我们应用流行的ResNet-50。如图1，我们采用conv-2，conv-3和conv-4特征图来生成注意力掩码，这些注意力掩码被添加回主流。最后的conv-5特征图用于生成最终的个人身份特征。3.2完全注意力阻滞注意力在人的再识别中非常有用，这在以前的研究中已经得到了证明[15，16，20]。在我们的理解中，注意力可以定位最具歧视性的局部区域的人重新识别。为了充分说明注意的使用，我们提出了一个完全注意的块（FAB）。FAB的动机是最近的挤压和激励网络（SENet）[12]方法，该方法说明了特征映射的不同通道在指定对象时扮演不同的角色考虑到这一点，SE块（图2（a））利用通道的偏好，并对特征图的每个通道给出加权系数然而，初始SE块仅在通道方向上重新校准特征响应，而由于使用全局池化而忽略空间方向响应，这导致丢失空间结构信息。为了解决这个问题，建议的FAB放弃池化层，并采用1×1卷积Mancs：一个基于课程抽样的多任务注意网络5H×W×CCC输入乙状FCReLUFC池（一）特征图层（b）第（1）款图二. （a）是SE块，并且缩减因子r被设置为16;（b）是我们的完全注意障碍，其中r = 16层而不是完全连接的层来重新获得空间信息。因此，我们可以得到一个与输入特征图大小相同的注意掩模，这种注意模型被称为完全注意块。FAB在图1中示出。2（b），并按如下公式表示。给定卷积特征图Fi，其注意力图被计算为：M= Sigmoid（Conv（ReLU（Conv（Fi），（1）其中两个Conv算子是1× 1卷积。内部Conv用于挤压，外部Conv用于激励。在获得注意力图M之后，Fi的输出特征图被计算为：Fo=Fi*M+Fi，（2）其中运算符*和+以逐元素的方式执行。这意味着将注意力诱导特征图添加到原始特征图中以强调区分性特征。值得注意的是，所提出的FAB是可插拔的，可以应用于任何现有的CNN，因为FAB不会改变卷积特征图的大小。3.3ReID任务#1：课程抽样的三重损失排名损失对于人员重新识别深度网络是必不可少的，因为它具有比收缩/分类损失更好的泛化能力，特别是当训练数据集不够大时。因此，我们首先引入一个排名分支与三重损失我们的模型。为了清楚地描述所提出的三元组丢失方法，我们将三元组丢失的图像Ii的特征表示为frank（Ii），其中frank（·）表示对于每个像素，与k之间的最小距离。就像在电影里一样。在图1中，frank（·）具有具有多个分组的分组网络，并且具有由其自身拥有的池化层和FC层。当应用三元组损失时，其采样算法很重要。H×W×C高×宽×H×W×C输入掩模乙状Conv1x1ReLUConv1x16C. 王，英-地Zhang C.，中国古猿科黄，W.刘X.王i=1距离(a) t=0距离(b) t= 0。5吨0距离(c) t=t0距离(d) t > t0图3.第三章。在给定的t下，不同的反例选择概率。X轴代表反面例子和锚点之间的距离，而Y轴代表反面例子被选中大多数人重新ID作品[4，11，36]采用[28]提出的三重损失。[28]的主要思想是通过所谓的PK抽样方法进行在线硬三联体抽样，该方法随机抽样P个身份，然后为每个身份随机K个图像，以形成大小为P×K的小批量。在小批量I={Ii}PK中，对于每个图像，其被认为是表示为Ia的锚图像，并且锚的最硬正图像和最硬负图像是我pn apn在I中找到，分别表示为Ii和Ii。因此，Ti={Ii，Ii，Ii}是三重态，并且可以获得PK上述取样程序也在线硬示例挖掘（OHEM）它被广泛应用于许多视觉应用问题中。然而，根据[26]，它很容易崩溃受课程学习[5]的启发，我们提出了一种新的抽样方法--课程抽样。这个想法是训练一个人重新识别网络，从简单的三胞胎到困难的三胞胎。更具体地说，我们放弃了在训练开始时对最难的实例进行采样的方法，并从简单的实例开始给定一个锚实例首先，我们随机选择它的一个正实例作为Ip;其次，我们我我根据它们到锚点的距离从小到大大，这意味着底片从难到易排序;第三，我们给每个否定实例一个被选择的概率。这些概率服从高斯分布N（μ，σ），其中μ和σ定义如下：µ=[Nn-Nnt]t0+[t−t0]、（3）σ=a×bt1−t0+，（4）概率概率概率概率Mancs：一个基于课程抽样的多任务注意网络7我当[·]+=max（·，0）时，Nn是n个整数倍的整数倍。 a是t的初始值，b是当t > t0时的衰减指数。t0和t1是控制从容易到困难的学习过程的速度上述过程选择锚、正实例和负实例以形成三元组。接下来，目标还是一样;我们随机选择另一个不同的正实例，如第二过程所做的那样。然后，我们根据之前的概率分布选择另一个负例（因为锚点仍然相同）。现在，我们已经选择了第二个三元组。当这个锚点的所有正实例都被选中时，我们移动到下一个锚点。上面描述的过程完全给出了PK（K−1）三联体。PK是锚的数量。K-1是每个锚点的正实例数。基于课程抽样方法，排名分支的最终损失可以定义为：L秩=1P（KΣ−1）K[m+D（frank（Ia），frank（Ip））−D（frank（Ia），frank（In））]+，P（K−1）Ki=1我我我我（五）其中D（·，·）是两个特征向量之间的欧几里得距离In被选择的概率定义如下：Pr（In）= In|Ia）N（μ，σ）（6）我我我3.4ReID任务#2：伴有局灶性丢失的人员分类最近的研究表明，结合排名损失和分类损失有助于人的重新识别[4]。在Mancs中，我们也有一个分类分支。由于硬样本挖掘在排名损失中是必不可少的，我们认为它也可以应用于分类任务。既然在学习中困难的例子比简单的例子更重要，我们决定增加负例子在总损失中所占显然，新提出的用于密集对象检测的焦点损失[22]是一个合适的选择，因为它能够让硬示例具有比简单示例更高的权重。我们不确定该分类的关键字，因为该分类的关键字为 fcl（·）。给定图像Ii及其地面真实身份Ci，Ii属于第Ci类的概率表示如下：pi= Sigmoidci（FC（fcls（Ii），（7）其中Sigmoid的下标ci表示在其第ci个维度中获取输出值。然后，用于分类的焦点损失可以定义如下：1Lcls=−PKΣPKi=1（1 −pi）γlog（pi）。（八）8C. 王，英-地Zhang C.，中国古猿科黄，W.刘X.王我3.5ReID任务#3：深度监管更好关注如图1、基于不同层次的中间特征可以获得不同尺度的注意反应。此外，为了获得准确的注意力地图，我们使用人的身份信息进行深度监督。这个想法受到深度监督网络工作的启发[14]。深度监测有助于缓解梯度消失问题为了实现这一目标，多尺度注意力图在空间上和平均地汇集成一维特征向量;然后将特征向量连接成注意力特征向量。我们将注意力特征表示为fatt（·）。在第三个选区中，这是一个很好的选择。在图4中，属于第c类的Ii的概率被给出为：qc=Sigmoidc （ FC （ fatt （ Ii ）。（9）然后，我们将注意力分支的损失函数定义为：1Latt=−ΣPKΣCyclog（qc）+（1−yc）log（1−qc）（10）PKC我我我i=1c =1其中，如果Ii属于c类，则yc= l，否则yc= 0。我我3.6多任务学习如图1、三项任务共用同一骨干网。在训练中，相应的三个损失函数被联合优化最终损失由下式给出：L=λrankL rank+λ clsL cls+λ attL att，（11）其中，λ r是k、λc是s，并且λa是用于损失函数的函数。3.7推理在测试中，推理网络非常简单，如图所示。4.第一章我们选择深度特征用于对损失进行排名，即，frank，作为每个实例的最终re-ID特征。这主要是因为所提出的具有课程采样的三元组损失可以产生具有更好的泛化能力的深度特征使用排名特征的选择已经在许多其他研究工作中得到证实，例如[4，33]。4实验4.1数据集我们主要关注三个大规模的reID数据集，分别是Market 1501，CUHK03和DukeMTMC-reID。给出了三个数据集的详细情况如下Mancs：一个基于课程抽样的多任务注意网络9FAB掩模FAB掩模ResNet骨干FAB掩模2048*8*42048池convconvconvconv池64*64*32256*64*32512*32*161024*32*16conv256*128*3要素地图图层图4.第一章Mancs中推理网络的体系结构。Market-1501 [39]：它包含了由六个摄像头拍摄的1501个身份的32668张图像整个数据集被分成包含751个身份的12，936个图像的训练集和包含750个身份的19，732个图像的测试集。对于测试集中的每个身份，我们从每个相机中选择一个图像作为查询图像，按照[39]中CUHK03 [18]：它包含14，097张1，467个身份的图像。它提供了从可变形零件模型检测器和手动标记中检测到的每个边界框。我们在标记数据集和检测数据集上进行实验。该数据集提供了20个分割，产生具有1，367个身份的训练集和具有100个身份的测试集。采用20次分割的平均性能作为该数据集的最终结果。与[45]类似，我们也评估了一种划分方法，训练集为767个恒等式，测试集为700个恒等式。DukeMTMC-reID [43]：与Market-1501类似，DukeMTMC-reID包含由8台摄像机拍摄的1， 812个身份的36，411张图像，其中只有1， 404个身份出现在超过2台摄像机中。其他408个身份被视为干扰物。训练集包含702个身份的16，522个图像，而测试集包含702个身份的2，228个查询图像和17，661个图库图像。4.2评价方案我们遵循Market-1501、CUHK 03和DukeMTMC-reID中的官方培训和评估方案我们使用累积匹配特征（CM-C）和平均平均精度（mAP）度量。我们在Market-1501上进行了单查询和多查询模式下的而在CUHK03和DukeMTMC-reID上，我们只在单查询模式下进行实验。特别是在CUHK03中，有两种不同的方法来划分训练集和测试集。一种是分割为1367/100分割，另一种是分割为767/700分割。前者需要运行20轮，并得到一个平均结果，我们使用rank1，rank5和rank10匹配率来评估。后者类似于Market-1501和DukeMTMC-reID，只需要运行一次，通过rank 1匹配率和mAP进行我们对这两种分裂进行实验。10C. 王，英-地Zhang C.，中国古猿科黄，W.刘X.王4.3实现细节我们基于Pytorch实现Mancs [27]。我们将在ImageNet上预训练的ResNet-50模型作为骨干。如上所述，我们在最后一个分类层之前插入通道号为2048的全连接层数据增强。我们首先将训练图像调整为256× 128。然后，我们随机裁剪每个图像，在区间[0. 64，1. 0]和[2， 3]中的纵横比。第三，我们将这些裁剪后的图像重新调整为256 × 128的大小，并以0的概率随机水平翻转它们。5. 最后，我们添加了一个随机擦除数据增强方法，如[46]所述。在发送到网络之前，当使用ImageNet上的预训练模型时，根据标准归一化过程，每个图像都减去平均值并除以标准差。培训配置。如第3.3节所述，我们采用PK采样策略来形成每个小批次。P和K两者的值在不同的数据集之间被区分设置。对于Market1501，P和K分别设置为16和对于CUHK03，P被设置为32，K被设置为8。DukeMTMC-ReID与Market 1501共享相同的配置每个时期包括[Nc/P]个小批次。我们训练模型160个epoch。t0、t1、a和b，如等式（3）和方程（4）的值被设置为30、60、15和0。001，分别。将λrank、λcls和λatt设置为1、1和0。2所示的序列。等式中的裕度m（5）被设置为0。5.式中的γ（11）被设置为2。在实验中，我们采用初始学习率为3× 10- 4的Adam优化器来最小化这三个损失。此外，我们加入梯度裁剪，以防止模型碰撞。最后一个卷积层的激活函数从ReLU变为PReLU，这可以丰富最终特征的表现力。所有实验都在具有4个TITAN XP GPU的服务器上运行。4.4与最新方法的第1501章.我们评估了我们提出的Mancs对13个现有的方法市场-1501。如表1所示，我们的模型比同样使用注意力子网络的HA-CNN的性能高出6倍。6%的mAP和1. 单次查询模式下的秩1匹配率分别为9%。与同样采用多任务学习的Deep-Person相比，我们的Mancs性能优于它2.7%，在mAP和0. 8%的rank1匹配率。在多查询模式下，Mancs的性能优于Deep-Person 2. 4%的mAP和0. 9%的rank1匹配率。结合重排序方法，可以进一步提高性能。在单查询模式下，mAP和rank1可以提升到92 。 3% ， 94 。 9% 。而在多查询模式下，其准确率可达 94.5% 和95.8%。香港中文大学03.如第4.1，有两种方法将CUHK03数据集分为训练集和测试集。通常，767/700分割设置比1367/100设置更难。因为前者比后者具有更少的训练图像和更多的测试图像我们在这两种情况下评估Mancs在没有重新排序的帮助下，在检测到的分裂中，Mancs：一个基于课程抽样的多任务注意网络11表1. Market-1501与现有技术方法的比较。SQ：单次查询，MQ：多个查询。Mancs获得了最好的结果。方法平方等级1mAPMQ等级1mAP加拿大[24]60.3三十五点九72.147.9DNS [35]61.035.671.546.0Gated S-CNN [32]65.9三十九点六76.048.4手工艺[8]68.7四十二点三77.050.3主轴[37]76.9---MSCAN [16]80.3五十七点五86.866.7SVDNet [30]82.362.1--PDC [29]84.1六十三点四--TriNet [11]84.9六十九点一90.576.4JLML [19]85.1六十五点五89.774.5美国有线电视新闻网[20]91.275.793.882.8[4]第四话92.3七十九点六94.585.1[36]第三十六话92.6八十二三--Mancs（我们的）93.1 82.3 95.4 87.5Mancs可以达到92。4%，1367/100分割和65。在767/700的1级目标分割下，分别为5%特别是在767/700的分割下，曼奇是23岁。8%，高于HA-CNN和10. 比随机擦除的TriNet高0%。DukeMTMC-reID的评价与Market-1501类似，与相关方法的比较见表4。与最先进的方法Deep-Person [4]相比，Mancs实现了7. 0%的mAP和4. 0%的Rank1性能。从以上实验结果中，我们可以观察到Mancs获得了优秀的人再识别性能。然而，为了将来发现局限性，我们在图中可视化了一些随机选择的Mancs失败案例。图5中列出了DukeMTMC-reID中4个探针的结果。从第二行和第三行的结果中，我们可以观察到Mancs可能会受到一些不寻常情况的影响，例如一个图像中有多个人，一辆汽车占据了图像，这在训练集中是非常不寻常的。因此，在实际应用中应用Mancs时，最好有一个准确的人物检测器。从第一行和第四行的结果可以看出，仍然有一些非常相似的干扰物可能影响Mancs，这将在未来的研究中进行深入的探讨。然而，这些失败情况可以通过重新排序后处理来补救。4.5消融研究我们进一步进行了几个额外的实验，以验证我们提出的模型的每个单独的组件的有效性Market-1501和CUHK 03是12C. 王，英-地Zhang C.，中国古猿科黄，W.刘X.王设置767/700分流表2.在767/700分割设置下，使用手动标记的人边界框和DPM自动检测，在CUHK 03数据集上比较mAP和rank 1匹配率Mancs得到了最好的结果。方法标记的rank1 mAP检出的rank1 mAPBoW+XQDA [34]7.97.36.46.4LOMO+XQDA [21]14.813.612.811.5国际开发协会（C）[45]15.614.915.114.2IDE（C）+XQDA [45]21.920.021.119.0国际开发署（注册）[45]22.221.021.319.7IDE（R）+XQDA [45]32.029.631.128.2DPFL [7]43.040.540.737.0SVDNet-ResNet50--41.537.6美国有线电视新闻网[20]44.441.041.738.6TriNet+随机擦除[11，46]58.153.855.550.7Mancs（我们的）69.0 63.9 65.5 60.5用于消融研究的实验。具体来说，我们在单一查询模式下进行所有实验。此外，我们使用的767/700分裂CUHK 03与DPM提取的边界框。表5显示了每个组件的结果和有效性。课程抽样的有效性。通过与流行的OHEM采样方法的比较，我们进一步评估了CS的效果。从表5中可以看出，在Market-1501的情况下，CS的表现优于OHEM 0。6%，0。1级匹配率为2% 改善甚至可以达到0。4%和1. 1%。这表明，所提出的课程抽样可以帮助模型学习更好的表示。完全注意力阻断的效果。我们在表5中验证了注意力分支的有效性。mAP/rank 1提高0. 7%/0。2%和0。9%/0。Market-1501和CUHK 03分别为5% FAB提供了一种细粒度的注意力，以端到端的方式强调行人对象的不规则区分部分。它也是可插拔的，可以添加到任何现有的模型。焦点丢失的有效性。如表5所示，在Market-1501上，焦点损失超过交叉熵损失0。6%/0。mAP/rank 1分别为3%。在CUHK03中，效益达到0。8%/0。mAP/rank 1分别为1%与三重丢失中的OHM类似，焦点丢失也可以从难以分类的示例中挖掘更多信息，这对于提高模型的泛化能力至关重要随机擦除的有效性。随机擦除不仅是数据增强的一种方法，而且通过人为地向初始图像添加遮挡块来这使得我们的模型对遮挡更加鲁棒Mancs：一个基于课程抽样的多任务注意网络13设置1367/100分割表3.在1367/100分割的设置下，比较CUHK 03在rank 1，rank 5，rank 10匹配率方面，使用手动标记的人边界框和自动检测的人边界框Mancs获得了最好的结果。模型标记r1 r5 r10检测到r1r5r10DNS [35]62.5九十94.8 54.7八十四点七94.8Gated-SCNN [32]- --68.1八十八点一94.6MSCAN [16]74.2九十四点三97.5 68.0九十一点零95.4四胞胎[6]75.5九十五点二99.2- --SSM [2]76.6九十四点六98.0 72.7九十二点四96.1SVDNet [30]- --81.8九十五点二97.2手工艺[8]- --84.397.198.3JLML [19]83.2九十八点零99.4 80.696.998.7DPFL [7]86.7--82.0--PDC [29]88.7九十八点六99.2 78.3九十四点八97.2[4]第四话91.5九十九点零99.5 89.4九十八点二99.1[36]第三十六话91.9九十八点七99.4- --Mancs（我们的）93.8九十九点三九十九点八92.4 98.899.4表4.与DukeMTMC-reID的最新结果进行比较方法rank1 地图BoW+XQDA [34]25.112.2LOMO+XQDA [21]30.817.0LSRO [44]67.747.1AttIDNet [23]70.751.9潘[42]71.651.5SVDNet [30]76.756.8DPFL [7]79.260.6美国有线电视新闻网[20]80.563.8[4]第四话80.964.8Mancs（我们的） 84.9 71.8形势图5还示出，当与简单分类分支组合时，随机擦除仍然可以获得明显的改善。5结论在本文中，我们介绍了一种名为Mancs的新型深度网络，用于学习人员重新识别的稳定特征。在三个流行数据集上的实验结果表明，Mancs优于以前的最先进的方法。此外，建议充分注意与深度监督块的有效性和14C. 王，英-地Zhang C.，中国古猿科黄，W.刘X.王图五、DukeMTMC-reID上的一些失败案例（在rank 1匹配中左边是探针，右边是排名结果。被绿色盒子包围的人与他们的探针具有相同的身份。表5. Mancs模块的消融研究，基于Market-1501和CUHK 03数据集。具体而言，以下结果是在单一查询模式下，检测到的部件和767/ 700分割用于CUHK03。f cls：全局分支，RE：随机擦除，f rank：排名分支，FL：使用焦点损失而不是交叉熵损失，fatt：完全注意力阻滞，OHEM：在线硬例挖掘，CS：课程抽样组件基线fclsREfrankOHEMFL法阿特CS√√√√√√√√√√√√√√√√√√√√√√√√rank1/mAP Market-1501 69.5/46.1 71.6/47.6 92.4/80.4 92.7/81.0 92.9/81.7 93.1/82.3CUHK0333.9/30.8 42.2/38.9 63.8/58.4 63.9/59.2 64.4/60.1 65.5/60.5消融研究证实了课程取样。在未来，我们将共同研究排名损失和数据增强方法的采样问题，以获得更普遍的人重新身份证功能。鸣谢。本工作得到了华中科技大学地平线计算机视觉研究中心和国家自然科学基金（No.61733007，61503145和61572207）的部分资助。王兴刚是华中科技大学学术前沿青年团队项目资助人Mancs：一个基于课程抽样的多任务注意网络15引用1. Almazan，J.，Gajic，B.，Murray，N. Larlus，D.：正确进行重新识别：制定人员重新识别的良好做法。ArXiv电子打印（2018年1月）2. Bai，S.，Bai，X.，Tian，Q.：监督平滑流形上的可扩展人员再识别。在：CVPR中。第6卷，第7页（2017年）3. Bai，S.，Bai，X.，田，Q，Latecki，L.J.：用于对象检索的双向上下文上的正则化扩散过程。TPAMI（2018）4. Bai，X.，杨，M.，黄，T.，窦志，字，尤河Xu，Y.：深度人：学习区分性深度特征以用于人员重新识别。ArXiv电子版（2017年11月）5. Bengio，Y.，Louradour，J.，科洛伯特河Weston，J.：课程学习。在：处理 26 小时的设计中，自动化计算的所有成本。 pp. 41ACM（2009）6. 陈伟，陈旭，张杰，Huang，K.：除了三重态损失：一个深度的四元组网络用于人的重新识别。In：Proc.CVPR。卷2017年第27. 陈玉，Zhu，X.，龚，S.：通过深度学习多尺度表示进行人员重新识别。在：IEEE计算机视觉和图像处理会议论文集中。pp. 25908. Chen，Y.C.，Zhu，X.，Zheng，W.S.，Lai，J.H.：通过相机相关性感知特征增强的人重新识别。 IEEETransactionsonpatternanalysisandmachineintelligence40（2），3929. Dalal，N.，Triggs，B.：用于人体检测的定向梯度直方图。计算机视觉与模式识别，2005年。CVPR 2005。IEEE计算机科学委员会。 vol. 第1页。886-893 05The Dog（2005）10. Geng，M.，王玉，Xiang，T.，田某：用于人员重新识别的深度迁移学习。ArXiv电子版（2016年11月）11. Hermans，A.拜尔湖莱贝B：在三胞胎丢失的辩护中重新进行了人的鉴定。arXiv预印本arXiv：1703.07737（2017）12. 胡，J，Shen，L.，Sun，G.：压缩-激励网络。在：IEEE计算机视觉和模式识别会议（2018）13. Jaderberg，M.，西蒙尼扬，K.，Zisserman，A.，等：空间Transformer网络。在：Avancesi ne uralin ner mato n pocessssysssin。pp. 201714. Lee，C.Y.，Xie，S.，Gallagher，P.，张志，图，Z.：深度监督网络。In：ArtificialIntelligenceandStatis i c iti pp. 第56215. Li，D.，陈旭，张志，Huang，K.：在身体和潜在部位上学习深度上下文感知特征，用于人员重新识别。 In ： ProceedingsoftheIEEEConferenceonComuterVis isinandPater nRecognitin. pp. 38416. Li，D.，陈旭，张志，Huang，K.：在身体和潜在部位上学习深度上下文感知特征，用于人员重新识别。 In ： ProceedingsoftheIEEEConferenceonComuterVis isinandPater nRecognitin. pp. 38417. 李杰，Zhang，S.，（1991），中国农业科学院，王杰，Gao，W.，Tian，Q.：LVreID：使用长序列视频进行人员重新识别。ArXiv电子版（2017年12月）18. 李伟，赵，R.，Xiao，T.，Wang，X.：Deepreid：深度过滤配对神经网络，用于人员重新识别。在： Proceedings of the IEEE Conference onComputerVisionandPatternRecognition中。pp. 15219. 李伟，Zhu，X.，龚，S.：通过多损失分类的深度联合学习进行人员重新识别。 In ： Proceedings of the Twenty-Sixth International Joint Confer-en-céonArtificialIntelligencé，IJCAI2017. pp. 219416C. 王，英-地Zhang C.，中国古猿科黄，W.刘X.王20. 李伟，Zhu，X.，龚，S.：和谐关注网络对人的再认同。在：CVPR中。第1卷，第2页（2018年）21. Liao，S.，Hu，Y.，Zhu，X.，李S.Z.：通过局部最大发生率进行人员重新识别-证据表示和度量学习。在：Proceedings of the IEEE Conference onC〇mputerVisisi n andPatterm Rec 〇 g niti n中。pp. 219722. 林，T.，再见，P.， Girshi ck，R. B、 He，K.，我会的，P。：Focallossforrdenseobjec-测试检测。IEEE International Conference on Computer Vision，ICCV。pp.299923. Lin，Y.，（1996年），郑湖，Zheng，Z.，吴，Y.，Yang，Y.：改进人员重新识别通过属性和身份学习。arXiv预印本arXiv：1703.07220（2017）24. 刘洪，冯杰，Qi，M.，姜杰，Yan，S.：端到端的比较注意力网络，用于人员重新识别。IEEE Transactions on Image Processing 26（7），349225. Lowe，D.G.：基于局部尺度不变特征的目标识别。在：计算机vision，1999.第七届IEEE.vol. 第2页。 1150- 1157年03The Dark（1999）26. M ANMATHAR Wu，C.， Smola，A. J. Kr¨ahenb u¨hl，P. ：Sampl ingmaters indeepem-床上用品学习IEEE International Conference on Computer Vision，ICCV。pp.285927. Paszke，A.，格罗斯，S.，Chintala，S.，Chanan，G.，Yang，E.，DeVito，Z.，林芝，Desmaison，A.，安蒂加湖Lerer，A.：pytorch中的自动区分（2017）28. Schroff，F.，Kalenichenko，D. Philbin

下载后可阅读完整内容，剩余1页未读，立即下载