二阶非局部注意力网络在人物再识别中的应用

20 浏览量更新于2023-10-12 收藏 1.35MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3760二阶非局部注意力网络用于人物再识别Bryan（Ning）Xia，Yuan Gong，Yizhe Zhang，ChristianPoellabauer圣母大学Notre Dame，IN 46556美国{nxia，ygong1，yzhang29，cpoellab}@ nd.edu摘要最近的努力已经显示出通过设计基于部件的架构以允许神经网络从语义上连贯的部件学习区分性表示来进行人员重新识别的有希望的结果。一些努力使用软注意重新分配遥远的离群值到他们最相似的部分，而另一些调整部分粒度incorpo-率更远的位置学习的关系。其他人试图通过在特征图的连续区域上引入dropout机制来然而，只有少数先前的努力直接为人重新ID任务对特征图的远距离或非局部位置进行建模。在本文中，我们提出了一种新的注意力机制，直接通过二阶特征统计模型的长期关系当与通用化的DropBlock模块相结合时，我们的方法与主流人员重新识别数据集（包括 Market 1501 ， CUHK 03 和DukeMTMC-reID）的最新结果相同1. 介绍人的再识别（re-ID）是智能监控系统的一个重要组成部分，引起了计算机视觉界越来越多的关注。将具有非重叠视点的相机捕获的多个图像与同一感兴趣的人相关联是具有挑战性的。具体地，由于相对于照明、遮挡、分辨率、人体姿势、视角、布料和背景的显著变化，该任务是具有挑战性的。人重新识别研究社区提出了各种有效的手工制作的功能[2，20，26，28，24，6，21，25]来解决这些挑战。还引入了基于深度卷积网络的方法来学习对这些变化具有鲁棒性的区分特征和表示，从而将多个re-ID基准推向一个全新的水平。在这些方法中，有几种努力[30，35，39，49]学习图1.二阶非局部注意对个体再识别的影响。我们展示了一个人的两个视图的图像我们的二阶非局部注意力图允许模型学习编码非局部部分到部分的相关性（用橙色标记）。从一个人的图像的局部细节特征最近，基于部分的模型[35，39，49]在学习有效的部分信息表示以进行人员重新识别方面取得了很大进展通过将骨干网络的特征图水平分区为多个部分，深度神经网络可以集中精力学习每个局部部分中更细粒度的显著特征。这些来自各个部分的特征的集合为每个身份作为一个整体提供了区别性的线索。然而，这些模型，一方面，遭受一个共同的缺点：它们需要同一个人的相对良好对准的身体部位，以便学习显著的部位特征。另一方面，特征图的严格统一划分会破坏部分内的一致性。最近的一些努力提出了不同的补救措施来补偿部分划分的副作用，这在下面描述。当相关图像区域落入其他部分时，基于部分3761卷积基线（PCB）[35]通过使用软注意力强制部分一致性来重新排列部分分区，从而解决了未对齐问题尽管这种处理允许更鲁棒的部分划分，但是特征图的初始刚性均匀正如PCB作者[35]所观察到的，当部件数量增加时，精度不会单调增加。当零件数量增加时，它会破坏零件的连贯性，使深度神经网络难以从零件中捕获有意义的信息，从而损害性能。PCB还忽略了全局特征学习，该学习捕获最显著的特征以表示不同的身份[39]，从而失去了将特征图视为语义部分（与不相关的背景区分开）的机会。多粒度网络（MGN）[39]通过添加一个全局分支来将整个特征图视为语义一致的部分来改进PCB，并通过添加更多具有不同粒度的分区来处理未对齐。放大的区域允许模型对更远的图像区域的特征之间的关系进行编码。金字塔网络（Pyramid-Net）[49]通过设计金字塔分区方案来解决部分对齐错误。该方案类似于MGN，其中主要区别在于，对于MGN的每个通过这种方法，一些基本部分可以包含在几个不同的分支中，以帮助形成连贯的语义相关区域，同时为深度神经网络提供可能更丰富的信息。提出的批量特征擦除（BFE）技术，[5]提供了另一种方法来迫使深度网络学习内部和部分之间的信息。在特征擦除分支中使用批量特征擦除块，模型训练过程隐式地要求模型学习更鲁棒的部件级特征表示和关系。除了使用批量特征擦除块之外，也可以使用Drop- Block [10].上述方法中的大多数旨在使深度学习模型能够对原始图像中的局部和全局、部分内那么问题就变成了：我们能否有一个模型设计，使深度学习模型能够以更少的手工制作和更多的数据驱动方式学习本地和非本地信息和关系？在本文中，我们提出了我们的观点，将非局部操作与卷积神经网络（CNN）中的二阶统计相结合，作为第一次尝试直接为人物识别问题建模特征映射相关性，并提出了二阶非局部Atten- tion（SONA）作为一个有效而高效的模块，用于识别通过使用非局部操作对特征图中的位置的相关性进行建模，所提出的模块可以将由卷积操作捕获的局部信息集成到长范围依赖性建模中[40，46，38]。这个想法在图1中解释。这个特性很吸引人，因为我们在局部卷积运算捕获的显著特征之间建立了相关性。最近的工作表明，配备高阶统计量的深度卷积网络可以提高分类性能[15]，全局二阶池（GSoP）方法用于表示图像[22，16]。然而，所有这些方法都为下面的全连接层产生非常高维的表示，并且它们不能像其他一阶（平均/最大）池化方法那样容易地用作构建块。我们克服了这一缺点，采用协方差矩阵，结果- ING从非本地位置明智的操作，并使用矩阵作为注意力地图。我们工作的主要贡献可归纳如下：为了克服对齐良好的身体部位限制并推广基于部位的模型，我们提出了一种新的SONA模块来直接将特征图二阶相关性建模为注意力图，不仅捕获非局部（也是局部）相关性，而且还捕获用于人重新识别的详细显著特征。为了最大限度地提高DropBlock机制的灵活性，并鼓励SONA捕获更多的距离和变化的特征映射相关性，我们通过允许可变的丢弃块大小来推广DropBlock。为了给SONA模块提供一个大的空间视图来捕获更详细的空间相关性，并让DropBlock的通用版本进一步捕获灵活的空间相关性，我们使用扩张卷积修改了我们的DropBlock版本和膨胀卷积的使用补充了所提出的SONA模块，以获得最先进的人员重新识别性能2. 二阶非局部注意网络在本节中，我们描述了我们提出的 SONA 网络（SONA-Net）。该网络包括：（1）一个类似于BFE[ 5 ]中使用的骨干结构;（2）提出的二阶非局部注意模块;（3 ）一个广义的DropBlock模块，我们称之为DropBlock+（DB+）。非局部注意力能够显式地编码非局部位置到位置特征级关系。DropBlock+在鼓励非本地模块学习更有用的远距离关系方面发挥了作用。····3762××××二阶非局部注意第1章（3）5=1（3）871（3）9s;<=>a3（@）批次硬三重丢失标签平滑交叉熵损失批次硬三重丢失标签平滑交叉熵损失c1：1×1×0g：1×1×c0Wg（3）c/c+B：1×1×cW特征嵌入1（）×1&12×1102#×1全局平均池化20#$×120#$×1全局最大池ResNet50第1ResNet50阶段2ResNet50阶段3ResNet50阶段4BottleNeck DropBlock+图2.用于人员重新识别任务的拟议SONA-Net的总体架构橙色的流充当蓝色特征映射区域DropBlock+分支的全局SONA模块可以在ResNet50的浅阶段之后注入在测试过程中，从全局分支和DropBlock+连接的特征嵌入用于最终的匹配距离计算。2.1. 网络架构图2显示了整个网络架构，其中包括骨干网络、全局分支（橙色箭头）和本地分支（蓝色箭头），后者与BFE [5]共享类似的通用架构。对于骨干网络，我们使用ResNet50 [11]作为特征映射提取的构建基础。我们进一步修改了原始的ResNet50，调整了阶段，并删除了原始的全连接层进行多损失训练，类似于之前的工作[35，20，5]。为了给SONA模块提供一个大的空间视图，以捕获更详细的空间相关性，并让DropBlock+下降，我们修改了原始的ResNet50第3阶段和第4阶段，使用一些扩张卷积[45]，并得到一个更大的特征图：48162048给定输入大小：3841283 .第三章。请注意，我们修改后的阶段3和阶段4的原始级2共享相同的空间大小，ResNet50，但输出通道数加倍。这对于需要定位信息（如身体部位）的任务特别有用。由于一组特征图的每个空间位置对应于特征向量，并且该位置仅提供粗略位置，而特征向量编码更精细的定位信息。通过保持相同的空间大小，当通道数量加倍时，不同阶段的特征图上的相同位置编码更丰富的定位信息。全局分支由一个全局平均池（GAP）层和一个包含1×1卷积的特征缩减模块组成，GAP层层、批归一化层和ReLU层，以将维度减少到512，从而为三元组损失和交叉熵损失提供紧凑的全局特征表示本地分支包含一个ResNet瓶颈块[11]，它由一系列卷积和批量归一化层组成骨干网络生成的特征图直接馈送到瓶颈层。DropBlock+层修改了DropBlock [10]层，以允许拖放块区域的高度和宽度可变。我们将DropBlock+模块计算的掩码应用于瓶颈块产生的特征映射。我们使用全局最大池化（GMP）的掩码特征映射，以获得2048维的最大向量和一个类似的减少模块遵循GMP层，以进一步减少三重损失和交叉熵损失的维数为1024。将来自全局和局部分支的特征向量连接起来，作为人员re-ID任务的最终特征嵌入。作为网络体系结构的重要组成部分，SONA模块被应用于骨干网的早期阶段，以模拟二阶统计相关。通过SONA引入的增强，网络能够学习更丰富，更强大的个人身份相关特征。在我们的工作中，我们采用批量硬三重损失[12]和标签平滑交叉熵损失[36，42]来分别训练全局分支和局部分支��′+3763∈××××××2.2. 二阶非局部注意模块SONA模块的概述如图2所示。设x Rh×w ×c表示SONA模块的输入特征图，其中c是通道数，h和w是张量的空间高度和宽度。我们将空间维度折叠成一个单一的维度，这产生了一个大小为hw乘c的张量x。我们使用11卷积，然后是批量归一化层和LeakyRectified Linear Unit（LeakyReLU），Leaky RectifiedLinear Unit（LeakyReLU）形成称为θ的函数，以将输入x的通道数c减少到c/r。我们使用一个11卷积，形成g，其作用与函数类似作用θ这导致θ（x）的形状为hw×c，g（x）的形状为人1人2视点-1输入图像注意，热图w.r.t.绿点上头脚背景视点-2注意，热图w.r.t.绿点上头脚背景形状hwcr人3R. 在我们的实验中，我们设置了还原因子-r= 2。协方差矩阵使用θ（x）计算为：其中<$I=1（I−11），遵循实践人4C/RC/R1[15]。与[38]类似，我们采用了Δdc/r作为比例因子对于协方差矩阵，在应用softmax之前，Σz=softmax（x）g（x）（2）C/R最后，我们使用简单的可学习变换p（在我们的情况下为11卷积）来将关注张量的通道维度从c/r恢复到c，并且我们将二阶非局部关注模块定义为：SONA（x）=x+p（z）（3）通过适当的整形，我们有形状为h的SONA（x）Wc作为以下ResNet50阶段的输入如图2所示。我们用一个例子来说明所提出的二阶非局部注意编码图像的位置到位置，人体部分到部分的关系的影响。给定行人图像I，假设在图像区域I（p，q）周围，存在明显的信号（例如，具有高对比度的区域），并且在图像区域I（p′，q′）周围，存在另一个明显的信号。在ResNet计算的前两个/三个阶段之后，作为SONA模块输入张量x的一部分，这两个信号显示为特征x（p，q，：）和x（p′，q′，：）。然后，通过计算协方差矩阵来捕获这两个信号/特征之间的相关性，作为特征张量x的注意力。使用这种机制，我们明确地告诉深度网络：(1)这两个地点的特征之间存在相关性。(2)对于更深层的后续计算，应更多地关注这些位置（及其关系）。（3）深度学习中的后一层图3.不同视角的非局部协变注意力热图示例每个热图中的绿色点是参考点，红色点是顶部相关点。我们可以看到，当参考点（绿色）位于身体区域内时，它们高度相关的红色点也位于身体区域内，捕获显著特征，例如鞋子或手表上的徽标。背景参考点与背景点更相关。数据集Market1501CUHK03标记检测dukemtmc-Reid身份150114671812图像32668140961409736411相机628列车ID751767702试验id7507001110火车图像129367368736516522查询图像336814002228图库图像197325328533217661表1.三个评价的re-ID数据集的统计数据模型将学习在何种情况下这种描述与图像中所示的人的身份信息相关（或不相关）。我们还使用来自多个人的不同相机视图图像和来自训练过程的注意力权重来可视化图33. 实验为了评估所提出的方法在人员re-ID任务中的有效性，我们使用三个公共人员re-ID数据集进行了大量实验： Market 1501 [50] 、 CUHK 03 [17 ， 53] 和DukeMTMC-reID [51]和com-输入图像3764×用最先进的方法验证结果。为了研究每个组件的有效性和设计选择，我们还使用新方案对CUHK03数据集进行了消融研究[53]。表1显示了每个数据集的统计数据。3.1. 数据集Market 1, 501数据集包含由5个高分辨率相机和1个低分辨率相机收集的1，501个身份，其中不同的相机视点可以捕获相同的身份。总共有32，668幅行人图像由可变形部分模型（ Deformable Part Model ，简称DEM）行人检测器生成。根据之前的工作[35，39，49]，我们将数据集分为具有751个身份的12，936个图像的训练集和具有3，368个查询图像和750个身份的15，913个图库图像的测试集请注意，原始测试集包含19，732个图像，其中包括3，819个垃圾图像（文件名以“-1”开头）。我们在按照数据集网站的指示进行匹配时忽略这些垃圾图像1CUHK03数据集包含手动标记的14，096张图像，并在总共1，467张图像中检测到14，097张通过两个摄像机视图捕捉到的身份。我们遵循一个类似于Market1501设置的新协议[53标记数据集包含7，368个训练图像，5，328个图库和1，400个用于测试的查询图像，而检测数据集包含7，365个用于训练的图像，5，332个图库和1，400个用于测试的查询图像。DukeMTMC-reID数据集[51]是DukeMTMC数据集[29]的子集。它包含了1,404个被两个以上的摄像头捕捉到的身份。虽然408个身份只出现在一个摄像头中，但它们被视为干扰物身份。关系的我们遵循类似于Market1501的新协议[51]，该协议将1，404个身份分成702个身份，其中16，522个图像用于训练，其他702个身份以及408个分心物身份用于测试。测试集包含17，661个图库图像和2，228个查询图像。3.2. 执行为了从每个图像中捕获更详细的信息，我们将所有图像的分辨率调整为384 128，类似于PCB。对于训练，我们还对图像应用以下数据增强：水平翻转，归一化和剪切[8]。为了测试，我们应用水平翻转和归一化，并使用原始特征和翻转特征的平均值来生成最终的特征嵌入。我们使用ResNet-50 [8]，使用ImageNet[7]上的预训练权重初始化，作为我们的骨干网络，并进行了上述修改。在可变大小的DropBlock层中，我们将γ设置为0.1，块高度为5，块宽度为8。我们1http://www.liangzheng.org/Project/projectreid.html随机采样32个身份，每个身份在每次训练迭代中具有用于小批量的4个图像。我们选择亚当优化器[14]与热身策略。初始学习率设置为1 e-4，并且在前50个epoch中每5个epoch增加1 e-4。在预热之后，学习速率保持在1 e-3，然后在epoch 200处衰减到1 e-4，并且在epoch300处进一步衰减到1 e-5，直到总共400个epoch。整个训练过程大约需要2.5小时，使用4个基于PyTorch框架的GTX1080Ti GPU [27]。我们所有的实验结果都是在所有数据集上使用相同的设置报告的3.3. 与最新技术为了评估所提出的方法的人员重新识别性能并将结果与最先进的方法进行比较，我们使用Rank-1，Rank-5，Rank-10的累积匹配特征（CMC）和平均平均精度（mAP）作为我们的评估指标。我们将我们提出的方法（SONA-Net）与最近使用Market 1501，DukeMTMC-reID和CUHK 03的最先进方法进行比较。对于CUHK03，我们采用与其他方法类似的新方案[53]来简化评价程序。所有报告的结果均不应用任何重新排序[53]或多查询融合[50]技术。请注意，大多数以前的努力只报告了一次运行的结果;然而，由于深度神经网络的训练过程的随机性，训练的模型和相应的测试性能可能会有所不同。因此，为了更公平地评估所提出的方法的有效性，我们将每个实验配置运行四次，并报告所有四个评估指标的平均值和标准差值。我们将结果的平均值与现有的最先进的结果进行比较，并使用粗体字我们使用“*”表示依赖于辅助信息的方法。比较的方法按特征类型可分为两类：非零件特征和零件特征。我们还列出了模型变化的结果： SONA 2-Net 、 SONA 3-Net 和 SONA 2+3-Net，表示SONA模块在ResNet 50第2阶段、第3阶段或第2阶段和第3阶段之后应用，并且所有变体共享相同的骨干网络和DropBlock+模块。市场1501. 表2显示了Market1501的详细比较。对于这个数据集，我们根据特征类型将组合方法分为两组，也就是说，探索全局或局部特征的方法以及利用零件信息的方法。结果表明，基于局部的方法通常优于基于全局特征的方法。通过将全局特征与批量删除局部特征相结合，BFE显示出与大多数基于部分的方法相比具有竞争力的结果。我们的方法与BFE具有类似的网络架构，但3765方法地图秩-1秩-5十阶SVDNet [34]56.876.786.489.9AOS [13]62.179.2--[19]第十九话63.880.5--GSRW [31]66.480.788.590.8DuATM [32]64.5881.8290.1795.38[43]第四十三话66.0482.23--PCB+RPP [35]69.283.390.592.5Deep-CRF [3]BFE256+512 [5]69.571.584.986.892.3---BFE [5]75.888.7--MGN [39]78.488.7--Pyramid-Net [49]79.089.094.796.3SONA2-净µ78.0589.2595.2396.50SONA2-NetσSONA3-Netµ±0.3878.18±0.3289.55±0.4195.13±0.3196.50SONA3-NetσSONA2+3-Netµ0.2978.28±0.3889.38±0.1595.350.2296.55SONA2+3-Netσ±0.11±0.36±0.15±0.11表2.我们提出的方法与Market-1501数据集的最新方法的比较µ和σ分别代表性能的平均值和标准差BFE缺乏对特征图不同位置的信息进行建模的机制，我们的模型变体SONA2+3-Net分别将mAP和Rank-1BFE的一个优点（激励我们的方法）是它的简单性，而基于部分的方法采用复杂的分支设置或训练过程来协调不同部分的学习过程。与BFEDukeMTMC-reID. 对于该数据集，表3显示，与最先进的基线方法（如Pyramid-Net和MGN）相比，所提出的方法实现了略好或可比较的结果。与Market1501的比较类似，我们的模型变体的性能优于 BFE 和BFE256+512，并且我们所有的模型变体都实现了几乎相同的性能。进一步地，所述组合物的性能表3.所提出的方法与DukeMTMC-reID数据集的最新方法的比较所提出的方法对超参数设置不像BFE变体那样敏感BFE 和 BFE256+512 达到 71.5% ， mAP 为 75.8% ，一级88.7%。CUHK03。由于采用了具有如上所述的两种类型的人边界框的新协议，该数据集是最具挑战性的人重新ID数据集之一。从表4中可以看出，我们为CUHK03标记数据集提出的与之前在Market 1501数据集上与BFE及其变体进行的比较类似，我们提出的SONA2-Net模型变体在mAP和Rank-1上分别以8.03%和6.45%优于BFE256+512我们的方法实现了显着更好的性能比最先进的结果w.r.t. mAP，Rank-1，Rank-5，并且在Rank-10中仅比Pyramind-Net稍差。我们的SONA2+3-Net模型变体在指标mAP和Rank-1上超过BFE256+5126.47%和5.50%。到目前为止，我们分别讨论了每个数据集的实验结果。我们还可以从这些实验中得出以下一般性结论：1. 虽然我们观察到每个数据集都存在一个最佳设置，但不同设置的性能特别是，即使我们随机地固定一个设置（或使用SONA2- Net的设置，它具有最少的参数），我们仍然可以在大多数指标上超过基线。二阶非局部注意模型在不同环境下的稳定性使其具有灵活性和易应用性方法地图秩-1秩-5十阶SOMAnet [1]47.973.9--SVDNet [34]62.182.392.395.2[52]第五十二话63.482.8--转移[9]65.583.7--[47]第四十七话68.887.7--[12]第十二话69.184.994.2-DuATM [32]76.6291.4297.0998.96Deep-CRF [3]BFE256+512 [5]81.682.893.593.597.7---BFE [5]85.094.4--多区域[37]41.266.485.090.2[23]第二十三话-76.991.394.5[48]63.481.092.094.7[33]第三十三话63.484.492.794.9[18]第十八话64.483.9--[44]第四十四话69.388.2--多尺度[4]73.188.9--GLAD*[41]73.989.9--PCB [35]77.492.397.298.2PCB+RPP [35]81.693.897.598.5MGN [39]86.995.7--[43]第四十三话87.495.9--Pyramid-Net [49]88.295.798.499.0SONA2-净µ88.67±0.0888.63±0.0888.83±0.0495.68±0.1895.53±0.0895.58±0.1598.42±0.0898.48±0.1198.500.0799.03±0.0499.150.05±0.0599.18±0.13SONA2-NetσSONA3-NetµSONA3-NetσSONA2+3-NetµSONA2+3-Netσ3766方法标记检测地图秩-1地图秩-1[52]第五十二话35.036.93436.3SVDNet [34]37.840.937.341.5[19]第十九话41.044.438.641.7[43]第四十三话53.8358.6951.5556.76PCB+RPP [35]--57.563.7MGN [39]67.468.066.068.0BFE [5]BFE256+512 [5]70.971.275.075.467.970.872.174.4Pyramid-Net [49]76.978.974.878.9SONA2-净µSONA2-NetσSONA3-NetµSONA3-NetσSONA2+3-NetµSONA2+3-Netσ79.23±0.7879.18±0.1979.23±0.2381.85±0.8481.05±0.3681.40±0.8076.35±0.6876.38±0.8877.27±0.4379.10±0.5678.90±0.8079.90±0.67表4.我们提出的方法与使用新方案的CUHK03数据集的最先进方法的比较[53]。对于标记集，秩5和秩10的模型变异SONA2-Net 的结果分别为 92.55% （ ±0.56 ）和 95.58%（±0.61）。与Pyramid-Net的91.0%和94.4%相比为检测数据集，模型变体 SONA2+3-Net 的结果为 91.00%（±0.37）和94.48%（±0.13），与Pyramid-Net到另一个不同的网络架构，而不需要额外的超参数调整。2. 我们的方法实现了四个数据集的一致改进。然而，我们发现，与最接近的已知模型相比，我们在mAP处获得了CUHK03（2.33%）的最大改善，而我们看到Market1501（0.63%）的改善最小这是可以理解的，因为数据集的不同大多数先前的方法在不同的数据集上也具有较大的性能差异，例如， MGN 在 CUHK03 标记数据集上的表现比Market1501数据集差得多（分别比mAP的拟议方法差11.83%和1.93%），这可能是由于其基于部件的机制对边界框检测的准确性和准确的部件对齐敏感。Pyramid-Net通过在相邻部分之间共享公共基本部分来缓解这个问题3.4. 消融研究为了进一步研究每个组件对于所有四个指标。整体设置保持完全相同，而只有正在调查的模块被添加或从整个网络中删除。具体而言，在表5中，基线网络是具有主干、全局分支和本地分支的网络。请注意，基线网络也是基于BFE的改进架构，如第2.1节所述。DropBlock+代表Baseline网络和DropBlock+模块的变体。SONA-Net变体包含Baseline网络和DropBlock+模块。如表5所示，我们观察到：1. Baseline网络具有简单的两个分支结构，但它非常有效，表明我们对BFE的结构修改是有用的。在CUHK 03 Labeled 数据集上，它甚至略优于Pyramid-Net。当将DropBlock+添加到Baseline网络时，它可以从总体上改善Baseline对于其他数据集，我们的Baseline网络实现了与Pyramid-Net相当的结果;只有DukeMTMC-reID上的mAP比Pyramid-Net差。2. 当除了Drop-Block+模块之外还添加所提出的二阶非局部注意力模块时，整体深度网络可以进一步实现比最先进的金字塔网络更好的结果。但是，不同的数据集有其自身的特点，SONA模块在这些数据集上的工作方式略有不同。但总的来说，所有三种SONA模型变体都能实现类似的结果。3. 我们进一步进行实验，看看所提出的二阶非局部模型是否适用于DNN的更深位置。具体来说，我们将SONA模块放在全局分支的Stage-4之后，发现性能大大下降，例如，在mAP时为75.8%，在CUHK03标记数据集的秩1时为78.9%。我们还观察到类似的行为放置后的SONA阶段4的本地分支和两个分支。这表明，所提出的SONA模块，虽然它显示出稳定性时，放置在不同的早期阶段，是不适合放置在后期阶段。这是因为二阶非局部注意模块的目的是捕获早期阶段的非局部相关性，其包含更多细粒度的信息。4. SONA无论何时应用于模型，总是会带来显著的性能增益。DropBlock+作为DropBlock的推广版本，进一步增强了我们提出的模型的灵活性。当与SONA一起应用时，我们表明DropBlock+比BFE产生更好的结果。总的来说，DropBlock、BFE和DropBlock+的用途非常相似，3767±±模型CUHK03贴标检测到CUHK03dukemtmc-ReidMarket-1501mAP R-1 R-5 R-10mAP R-1 R-5 R-10mAP R-1 R-5 R-10mAP R-1 R-5 R-10MGN [39]67.4 68.0--66.0 68.0--78.4 88.7--86.995.7--BFE [5]BFE256+512 [5]70.9 75.0--71.2 75.467.9 72.1--70.8 74.4--75.8 88.7--71.5 86.8--85.0 94.4--82.8 93.5--Pyramid-Net [49]76.9 78.9 91.074.8 78.9 90.794.579.089.0 94.7 96.388.295.798.4 99.0BLµ77.05 79.70 94.9874.00 76.70 89.45 93.4576.288.00 94.60 96.2087.50 95.18 98.28 99.03BLσ0.22 ±0.44 ±0.33 ±0.190.30 ±0.30 ±0.25 ±0.550.30 ±0.60 ± 0.10 ±0.100.16 ±0.19 ±0.04 ±0.04BL+DBµ77.02 79.13 90.90 94.8874.50 77.25 89.38 93.0376.93 88.28 94.65 96.1587.60 95.43 98.25 99.03BL+DBσ0.28 ±0.42 ±0.21 ±0.150.37 ±0.57 ±0.27 ±0.300.24 ±0.23 ±0.11 ±0.180.07 ±0.15 ±0.15 ±0.04BL+DB+µ77.45 79.10 91.60 94.7874.30 76.93 89.50 93.2076.95 88.60 94.88 96.2587.68 95.18 98.3299.0BL+DB+σ0.54 ±0.78 ±0.31 ±0.290.25 ±0.50 ±0.25 ±0.160.15 ±0.39 ±0.18 ±0.150.16 ±0.15 ±0.08 ±0.07BL+BFEµ77.20 79.83 91.03 94.9074.85 77.48 89.95 93.4876.85 88.1594.695.9887.73 95.30 98.35 99.00BL+BFEσ0.12 ±0.47 ±0.08 ±0.140.44 ±0.58 ±0.09 ±0.260.34 ±0.50 ±0.32 ±0.110.04 ±0.29 ±0.11 ±0.10BL+SONA2µ78.48 80.78 92.03 95.5076.20 78.93 90.40 94.4878.18 89.55 95.05 96.4588.50 95.58 98.32 99.00BL+SONA2σ0.33 ±0.13 ±0.29 ±0.410.32 ±0.41 ±0.36 ±0.500.15 ±0.32 ±0.32 ±0.210.12 ±0.19 ±0.08 ±0.12BL+BFE+SONA2µ79.15 81.68 92.25 95.3876.00 78.83 90.23 94.1077.98 88.90 95.05 96.2588.63 95.60 98.30 99.00BL+BFE+SONA2σ0.11 ±0.35 ±0.09 ±0.110.43 ±0.66 ±0.18 ±0.210.04 ±0.16 ±0.11 ±0.110.04 ±0.39 ±0.16 ±0.07SONA2-净µ79.2381.85 92.55 95.5876.35 79.10 90.25 94.0378.05 89.25 95.23 96.5088.67 95.68 98.42 99.03SONA2-Netσ0.78 ±0.84 ±0.56 ±0.610.68 ±0.56 ±0.53 ±0.550.38 ±0.32 ±0.41 ±0.310.08 ±0.18 ±0.08 ±0.04SONA3-Netµ79.18 81.05 92.10 95.4576.38 78.90 90.68 94.3578.1889.55 95.13 96.5088.63 95.53 98.48 99.15SONA3-Netσ0.19 ±0.36 ±0.33 ±0.450.88 ±0.80 ±0.53 ±0.450.29 ±0.38 ±0.15 ±0.220.08 ±0.08 ±0.11 ±0.05SONA2+3-Netµ79.23 81.4095.5777.2779.9094.4878.28 89.38 95.35 96.5588.8395.58 98.50 99.18SONA2+3-Netσ0.23 ±0.80 ±0.09 ±0.040.43 ±0.67 ±0.37 ±0.130.11 ±0.36 ±0.15 ±0.110.04 ±0.15 ±0.07 ±0.13表5.所提出的模型及其变体与MGN、BFE和金字塔网络的比较。“BL”表示具有主干、全局分支和本地分支的基线网络。“DB”represents the original DropBlock module, and “DB The “SONA正则化我们在实验中表明，他们不产生重大的性能改善，整个系统。主要的性能增益是从使用我们提出的SONA。5. 除了测试性能的提高外，我们还发现训练损失也受到不同模块的影响。初始时，虽然基线网络不受其他模块的影响，但它产生的损耗相对较小.然而，当我们将DropBlock+添加到Baseline网络时，平均损失增加了0.45%。这是意料之中的，因为DropBlock+本质上是一种防止网络过度拟合的正则化方法我们在第二阶段和第三阶段之后进一步添加SONA模块，然后平均损耗比基线损耗低0.02%和此行为表明SONA模块有助于培训。总体而言，我们证明了我们提出的二阶非局部注意编码非局部身体部位关系的人重新识别任务的有效性。3.5. 推理时间成本我们使用一个Nvidia Titan Xp和Market1501来测量单个图像推理时间（运行10次）。在具有SONA 2模块的模型上，一次前向传递的时间成本为8.44 ms 0。09ms和7.89 ms 0.16 ms，不带SONA2模块。结果表明，我们的SONA模块所造成的开销可以忽略不计。4. 结论在本文中，我们提出了一个新的视角建模的特征地图相关性使用二阶统计量和设计的注意力模块的基础上，这种相关性的个人重新识别。通过设计，我们的模型能够在早期阶段捕获来自特征图的任何空间位置的显著特征之间的相关性。因此，它不依赖于特殊的部件划分方案或布置来处理部件未对准问题。它为深度神经网络提供了一种更通用、自动和高级的数据建模方案，以在人员重新识别任务中学习更具区分性和鲁棒性的表示。在所提出的注意力模块的帮助下，我们的模型进一步推动了最先进的技术，并在三个流行的人重新识别数据集上取得了更好的结果。特别是，在CUHK03数据集上，我们的模型在新协议下的表现明显优于目前最好的模型。请注意，我们对相同的网络配置运行了四个实验，并报告了所有四个评估指标的平均值和标准差，以及单次查询和重新排名的免费评估协议。引用[1] Igor Barros Barbosa，Marco Cristani，Barbara Caputo，Alek-sander Rognhaugen，and Theoharis Theoharis.展望未来：用于深度cnns再识别的合成训练数据。计算机视觉和图像理解，167：50-62，2018。63768[2] Loris Bazzani ， Marco Cristani ， Alessandro Perina ，Michela Farenzena，and Vittorio Murino.基于hpe签名的多镜头人物再识别。2010年第20届国际模式识别会议，第1413IEEE，2010。1[3] 陈大鹏，徐丹，李洪生，Nicu

下载后可阅读完整内容，剩余1页未读，立即下载