ABD-Net：注意力与多样性的人重新识别

53 浏览量更新于2023-10-12 收藏 1.26MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8351ABD-Net：细心但多样的人重新识别陈天龙1，丁少金1，谢静怡2，叶远1，陈五羊1，杨阳3，周仁4，王张扬11德州农工大学，2中国科学技术大学3沃尔玛科技，4Wormpex AI研究{wiwjp619，shjd，ye. yuan，wuyang. chen，atlaswang}@tamu.eduhsfzxjy@mail.ustc.edu.cnwalmart.com@zhou.ren bianlifeng.comhttps://github.com/TAMU-VITA/ABD-Net摘要已经发现注意机制对于个人重新识别（Re-ID）是有效的。然而，学习的“at-tentive”特征通常不是自然不相关或“多样的”，这损害了基于欧氏距离的检索性能。我们通过提出一个关注但多样性网络（ABD-Net）来倡导关注和多样性对Re-ID的补充作用。ABD-Net在整个网络中无缝集成了注意力模块和多样性规则化，以学习具有代表性、鲁棒性和更具区分性的特征具体来说，我们介绍了一对互补的注意模块，分别侧重于渠道聚合和位置意识。然后，我们插入一个新的正交性约束，有效地执行隐藏的激活和权重的多样性。通过一组广泛的消融研究，我们验证了attentive和多样化的术语各自有助于ABD-Net的性能提升它始终优于现有的国家的最先进的方法上有流行的人重新识别基准。1. 介绍人员重新识别（Re-ID）旨在跨不同时间和位置关联个人身份。它在智能视频监控中有着广泛的应用。给定查询图像和图库图像的大集合，人Re-ID表示具有特征嵌入的每个图像，并且然后根据特征嵌入与查询的相似性对图库图像进行排名。尽管近年来取得了令人兴奋的进展，但在实际的无约束场景中，人的Re-ID仍然极具挑战性。常见的挑战来自身体错位、遮挡、背景扰动、视点变化、姿势*同等贡献。图1.注意力图的可视化。(i)原始图像;（二）专注的特征图;（三）专注但多样的特征图。在一般情况下，多样性被观察到，使注意力“更广泛”，并减少（不正确的）过度拟合的局部地区（如衣服的纹理）的注意。（L：大值; S：小值）变化和噪声标签，以及许多其他[1]。为应对这些挑战，已经作出了大量努力其中，结合身体部位信息[2，3，4，5，6]已被经验证明在增强针对身体未对准、不完整部位和遮挡的特征鲁棒性方面是受这些观察结果的启发，引入了注意力机制[7]，以强制执行主要捕获人体（或某些身体部位）的区别外观的特征从那时起，基于注意力的模型[8，9，10，11，12]大大提高了人的Re-ID性能。另外，特征嵌入用于计算图像之间的相似性，通常基于欧氏距离，以返回最接近的匹配。Sun等人[13]指出，特征嵌入之间的相关性会显著损害匹配性能。然而，基于注意力的模型不能自然地保证低特征相关性。我们的观察是，那些基于注意力的模型更倾向于更高的特征相关性，因为直观地，注意力机制倾向于使特征集中在更紧凑的子空间上（例如前景而不是背景）。8352完整的图像，见图。1为例）。鉴于上述情况，我们认为更理想的Re-ID特征嵌入应该是关注性和多样性的：前者旨在纠正错位，消除背景扰动，并关注身体外观的可区分局部;后者旨在鼓励特征之间的较低相关性并因此鼓励更好的匹配，并潜在地使特征空间更全面。我们提出了一个专注但多样的网络（ABD-Net），努力整合注意力模块和多样性正则化，并在整个网络中执行它们。ABD-Net的主要贡献概述如下：• 我们在ABD-Net中引入了一种复合注意机制，由通道注意模块（CAM）和位置注意模块（PAM）组成。凸轮促进通道方面的特征级信息聚集，而PAM捕获身体和部位位置的空间感知。发现它们是互补的，并且共同有益于Re-ID。• 我们引入了一种新的正则化项，称为谱值差正交性（SVDO），直接约束权Gram矩阵的条件数。SVDO，有效地实现，适用于两个激活和权重，并有效地减少学习功能的相关性。• 我们对Market-1501 [14]、DukeMTMC-Re-ID [15]和MSMT 17 [1]进行了广泛的实验。ABD-Net显著优于现有方法，在所有三个流行的基准上实现新的最先进水平。我们还通过严格的消融研究和可视化验证了注意力和不同的术语都有助于提高性能。2. 相关工作2.1. 人员重新识别：简要概述人员重新识别有两个关键步骤：获得特征嵌入并在某个距离度量下执行匹配[16，17，18]。我们主要回顾前者，其中手工制作的功能[18，19，20，21]和学习的fea-[22，23，4，24，25]的研究。近年来，卷积神经网络（CNN）在计算机视觉中的普遍成功已经使人的Re-ID成为不可能。由于许多问题特定的挑战，例如遮挡/未对准、不完整的身体部位以及背景扰动/视点变化，单纯地将CNN主干应用于特征提取可能不会产生理想的Re-ID性能。图像级特征和局部特征提取的身体部位证明，以提高鲁棒性。许多基于部件的方法已经实现了卓越的性能[2，3，26，27，28，4，5，29，6，30，31，8，32]。我们建议读者参考[33]以获得更全面的评论。2.2. Person Re ID中的注意机制一些研究提出将注意力机制整合到深度模型中，以解决人Re-ID中的错位问题。Zhao等人[8]提出了一种基于每个预定义身体部位的部位图检测器的部位对齐表示。Yao等人[9]提出了一种部分损失网络，该网络定义了每个平均合并身体部分的损失，并联合优化了总和损失。Si等人[10]提出了一种基于类间和类内注意力模块的双注意力匹配网络，用于捕获视频序列的上下文信息，以实现人物Re-ID。Li等人。[12]提出了一种多任务学习模型，该模型联合学习硬区域级和软像素级注意力，以产生更具区分性的特征表示。Xu等人。[11]使用姿势信息来学习刚性和非刚性部件的注意力掩码，然后将全局和部件特征结合起来作为最终的特征嵌入。我们提出的注意机制在几个方面不同于传统的方法。首先，以前的方法[8，9，11]仅使用注意机制从人物图像中提取基于部分的空间模式，这些图像通常是前景中的焦点。相反，ABD-Net结合了空间和通道线索;此外，我们增加的多样性约束将避免过度相关和冗余的注意特征。其次，我们的注意力掩码直接从数据和上下文中学习，而不依赖于手动定义的部件、部件区域建议或姿势估计[8，9，11]。我们的两个注意力模块嵌入在单个主干中，使我们的模型比多任务学习替代方案更轻[11，12]。2.3. 正交分集在深度学习中已经广泛地探索了可扩展性，以鼓励学习信息丰富和多样化的特征。在CNN中，几项研究[34，35，36，37]使用“硬正交约束”来执行正则化类似的想法首先由[13]用于每个Re-ID，其中作者对最后一层的权重矩阵执行SVD，以减少特征重叠。尽管有效，基于SVD的硬正交性约束是计算昂贵的，有时似乎限制了学习的灵活性。最近的研究还通过在Frobe- nius范数[ 38 ]或谱范数[ 39 ]下强制每个权重矩阵的Gram矩阵接近单位矩阵来研究我们提出了一种新的谱值差正交（SVDO）正则化，直接约束的条件数的Gram矩阵。此外，与仅将正交性应用于CNN权重的[13，38]相比，我们对隐藏的激活和权重都实施了新的正则化。8353NXC整形转置矩阵乘法元素求和运算CxNX一重塑softmaxECXN重塑CXCCxHxW重塑CxHxWCxHxWCxHxWBNXC整形转置矩阵乘法元素求和运算CxNS一重塑softmaxCDECXNNXN重塑CxHxW重塑CxHxWCxHxW通道注意模块（CAM）位置注意模块（PAM）图2.通道注意模块（CAM）3. 专注但多样化的网络在本节中，我们首先介绍两个注意力模块，然后是新的分集（正交性）正则化。然后，我们将它们包装起来，并描述ABD-Net的整体架构。3.1. 注意：渠道明智和位置明智Re-ID的注意力目标是关注与人相关的特征，同时消除不相关的背景。受分割[40]中成功思想的启发，我们整合了两种互补的注意力机制：通道注意力模块（CAM）和位置注意力模块（PAM）。CAM和PAM的完整配置见补充资料。3.1.1通道注意模块众所周知，经过训练的CNN分类器中的高级卷积通道是语义相关的，并且通常是类别选择性的。在个人Re-ID情况下，我们假设个人Re-ID情况下的高级信道也被某些通道共享相似的语义上下文（例如前景人物、遮挡或背景），并且彼此更加相关CAM被设计成分组和聚合那些语义相似的通道。CAM的完整结构如图所示。二、给定输入特征图A∈RC×H×W，其中C是通道总数，H×W是特征图大小，我们计算通道亲和矩阵X∈RC×C，如下所示：图3.位置注意模块（PAM）3.1.2位置注意模块与CAM相比，位置注意模块（PAM）被设计为捕获和聚合空间域中的那些语义相关的像素我们在图1中描述了PAM的结构3 .第三章。输入特征图A∈RC×H×W首先被馈送到具有批量归一化和ReLU激活的卷积层中，以产生特征图B、C、D∈ R C × H × W。RC×H×W。然后我们计算像素亲和矩阵S∈RN×N，其中N=H×W。注意，S和X的维数是不同的，因为前者计算相应的在总共N个像素而不是C个通道之间的间隔。我们使用与第3.1.1节中的CAM类似的计算生成最终输出特征图E。3.2. 分集：正交正则化在[13]之后，我们通过正交性来实施分集，但导出了一个新的正交正则化项。它适用于卷积层和全连接层的隐藏特征和权重。特征空间上的正交正则化器（简称O.F. 在下文中）是减少可以直接有益于匹配的特征相关性。权正交正则化子（O.W. ）鼓励滤波器多样性[39]并增强学习能力。接下来，我们详细推导了我们的正交性项的特征，而权重正交性可以以类似的方式推导出来。对于特征映射M∈RC×H×W，其中C、H、W是通道数，fea-实映射许多正交性方法[34，35，36，37]，包括对人Re-ID [13]的先前工作，对权重的正交性实施硬约束，其计算x=Δexp（Ai·Aj），i，j∈{1，···，C}（1）依赖于SVD。然而，在高-ijCj=1 exp（Ai· A（j）维矩阵是昂贵的，这促使开发软正交正则化器。许多现有的软其中xij表示信道i对信道j的影响。通过等式（2）计算最终输出特征图EΣC正则化器[38，41]将F的Gram矩阵限制为接近Frobenius范数下的单位矩阵，其可以避免SVD步骤，同时是可微的。然而，在这方面，Ei=γ（xij Aj）+Ai，i∈{1，···，C}（2）j=1对于卷积层中的权重张量Wc∈RS×H×C×M，其中S，H，C，M是滤波器输出通道，我们遵循[38，39]的内容将Wc重新整形为γ是调整CAM影响的超参数矩阵形式F∈RC×M，其中C∈=S×H× C。8354+22关注分支凸轮O.F.O.W.O.W.O.W.减少O.F.O.F.凸轮O.W.O.W.+Pam全局平均池化res_conv_5O.F.O.F.全局分支O.W.总和融合检验：Concat培训：单独减少res_conv_3 4全局平均池化res_conv_5softmaxres_conv_1 2主干：ResNet-50图4. ABD-Net架构：O.W.应用于所有ResNet层。O.F.在注意分支中，在resconv 2上的CAM之后和resconv 5之后应用l将来自关注分支和全局分支的特征向量连接起来作为最终的特征嵌入。过完备F的Gram矩阵由于秩不足而不能达到相同性，使得那些正则化器有偏。[39]因此引入了基于谱范数的正则化器，其有效地消除了偏差。我们提出了一个新的选项，通过直接正则化FFT的条件数来加强正交性：β||k（F）−1||第二条、第三条其中β是系数，k（F）表示F的条件数，定义为F的最大奇异值与最小奇异值之比。简单地求解k（F）需要一个完整的SVD。为了使其在计算上更易于处理，我们将（3）转换为谱值差异正交（SVDO）*正则化：β||λ1（FFT）−λ2（FFT）||第二条、第四条其中λ（FFT）和λ（FFT）表示最大和最小。3.3. 网络架构概述拟议的ABD-Net的整体架构如图所示。4.第一章ABD-Net与大多数常见的特征提取主干兼容，例如ResNet [42]，Incep- tionNet [43]和Densenet [44]。除非另有说明，否则我们使用ResNet-50作为默认骨干网络，因为它在Re-ID中很受欢迎[45，46，47，48，49，11，50，51]。我们加了一个摄像头和一个光学显微镜。在res conv2块的输出上。正则化的特征图被用作res conv 3的输入。接下来，在res conv 4块之后，网络分成全局分支和局部关注分支。我们申请O.W.在我们的ResNet-50骨干中的所有conv层上，即从resconv1到resconv4，以及两个分支中的两个resconv5。两个分支的输出被连接作为最终的特征嵌入。attentive分支使用相同的res conv 5层，12在ResNet-50中然后将输出的特征图馈送到est特征值的FFT，分别。我们使用自微分来获得SVDO的计算仍然包含了昂贵的特征值分解（EVD）.为了绕过EVD，我们参考幂迭代方法来近似特征值。我们从一个随机初始化的q开始，然后迭代地执行等式（5）（默认情况下两次）：p←Xq，q←Xp，λ（X）←||Q||.（五）||p||其中，等式（5）中的X是计算λ1（FFT）的FFT，以及计算λ2（FFT）的FFT−λ1I。以这种方式，SVDO的计算变得实际高效。我们之所以选择惩罚λ1（FFT）和λ2（FFT）之间的差而不是它们之间的比值，是为了避免由于提供非常小的λ2（FFT）而引起的数值不稳定性，我们发现在我们的实验中经常发生这种情况。还原层‡，具有O.F.产生较小的特征图Ta。我们将Ta同时馈送到CAM和PAM中，两者都具有O.F.约束来自两个注意模块的输出与输入Ta连接，并且一起通过全局平均池化层，结束k维特征向量。在全局分支中，在res conv 58之后，特征图Tg被馈送到全局平均池化层，随后是缩减层，从而产生kg维特征向量。全局分支打算除了关注分支特征之外还保留全局上下文信息。最后，在损失函数L下训练ABD-Net‡约简层由线性层、批量归一化、ReLU和dropout组成。参见：https://github.com/KaiyangZhou/ deep-person-reid§对于两个分支中的两个res conv 5层，我们删除了下采样层，以便获得更大的特征图。只在训练在培训和测试权正交正则化（O.W.）张量通道注意模块（CAM）基于特征的正则化（O.F.）张量位置注意模块（PAM）8355由交叉熵损失、硬挖掘三元组损失和对特征（O.F.）和重量（O.W.）处罚条款：尺寸调整为384×128，仅通过标准化进行放大。在我们的实验中，特征图Ta和Tg的大小分别为1024×24×8和2048×24×8我们L=L 塞恩特+βtr L三重态+βO.F. LO.F. +βO.W. LOW（六）在全局平均之后设置特征的维度（ka，kg）合并两者等于1024，导致2048维其中L O. F. 和L O. W。代表分别应用于隐藏特征和权重的SVDO惩罚项。β tr，β O.F. 和β O.W. 是超参数。4. 实验为了评估ABD-Net，我们对三个大规模的人员重新识别数据集进行了实验： Market- 1501 [14] 、DukeMTMC-Re-ID [15]和MSMT17 [1]。首先，我们报告了一组消融研究（主要针对Market-1501和DukeMTMC-Re-ID），以验证每个组件的有效性。其次，我们比较了ABD-Net在所有三个数据集上与现有最先进方法最后，我们提供了更多的可视化和分析来说明ABD-Net是如何实现其有效性的。4.1. 数据集Market-1,501[14]由六个摄像头拍摄的1,501个身份的32,668张标记图像组成。在[14]之后，751个身份的12，936张图像用于训练，而其余的用于测试。在测试数据中，测试探针集具有750个身份的3，368个图像。测试图库集还包括2，793个额外的干扰项。DukeMTMC-Re-ID[15]包含1，812个身份的36，411个图像。这些图像由8个摄像机拍摄，其中1,404个身份出现在两个以上的摄像机中，408个身份（干扰物）只出现在一个摄像机相机这1,404个身份被随机划分，其中702个身份用于训练，其他身份用于测试。在测试集中，针对探头集为每个摄像机的每个ID选择一个查询图像，而包括干扰项的所有剩余图像都在图库中。MSMT 17[1]是目前最大的公开可用的人Re-ID数据集。它有126，441张图像，由15个摄像头网络（12个室外，3个室内）捕获的4，101个身份。我们遵循[1]的训练-测试分裂。的在三个时间段（上午、中午、下午）收集具有不同天气条件的视频所有的注释，包括摄像机ID，天气和时隙，都是可用的。MSMT17比其他两个更具挑战性，因为它的规模更大，更复杂和动态的场景。此外，报告此数据集的方法数量有限，因为它最近发布。4.2. 实施细节和评估在训练过程中，输入图像被重新调整为384×128，然后通过随机水平翻转、归一化和随机擦除来增强[52]。测试图像为最后的特征嵌入用于匹配。使用ImageNet预训练的ResNet-50主干，我们使用两步迁移学习算法[53]来微调模型。首先，我们冻结骨干权重，只训练约简层、分类器和所有注意力模块10个epoch，只应用交叉熵损失和三重损失。第二，所有层都被释放用于训练对于另外的60个时期，应用全损耗（6）。我们设βtr=10−1，β OF=10−6，β OW=10−3，三重态损失的裕度参数α= 1。二、我们的网络使用2个Tesla P100 GPU进行训练，批量64。每个批次包含16个身份，每个身份有4个实例。我们使用Adam优化器，基本学习率初始化为3×10−4，然后衰减为30、40个历元后分别为3×10−5、3×10−6的在Market-1501数据集上训练大约需要4个小时。我们采用标准的Re-ID指标：top-1准确度和平均精度（mAP）。我们认为mAP是Re-ID性能的更可靠的指标。4.3. ABD网为了验证ABD-Net中注意力模块和正交正则化的效果，我们在Market-1501和DukeMTMC-Re-ID上逐步评估每个模块。我们选择 ResNet-50 ¶ ，交叉熵损失（XE）作为基线。然后，在基线XE的顶部构建九个变体：a）基线（XE）+ PAM; b）基线（XE）+CAM;c）基线（XE）+PAM + CAM;d）基线（XE）+ O.F.; e）基线（XE）+ O.W.; f）基线（XE）+ O.F. +O.W.; g）基线+ SVD层（类似于SVD-Net [13]）;h) i） ABD-Net，其使用全损耗（6）。表1列出了消融研究结果，从中可以得出几个观察结果：• 使用PAM或CAM可以改善两个数据集的基线。两者的结合是不同的-ENT注意力机制得到进一步的改进，证明了它们的互补能力超过了单独使用• 使用O.F.或者O.W.在两个数据集上的表现始终优于基线，并且它们的组合导致进一步的收益，这验证了¶为了消融研究的公平性，我们使用两个具有相同res conv 5的重复分支，如图所示的ABD-Net结构。4.第一章应用数据增加和丢弃注意：（1）CAM用于ABD-Net的两个位置;（2）ABD-Net采用O.F. + O.W. + PAM + CAM。8356表1.市售ABD-Net的消融研究-1501。O.F. O.W.：特征和权值的正交正则化PAM和CAM：位置和通道注意模块。方法Market-1501DukeMTMCtop1地图top1地图基线（XE）91.5077.4082.8066.40基线（XE）+PAM基线（XE）+ CAM基线（XE）+ PAM + CAM92.1091.8092.7078.1078.0078.5083.8084.3084.4067.0067.6067.90基线（XE）+O.F.92.9082.1084.9071.30基线（XE）+O.W.92.5078.5083.7067.40基线（XE）+ O.F. + O.W.93.2082.3085.3072.20基线+ SVD图层90.8076.9079.4062.50ABD-Net（XE）94.9085.9087.3076.00Abd-net95.6088.2889.0078.59我们的正交正则化我们还观察到，拟议的基于SVDO的O.W.从经验上讲，它比SVD层表现得更好，这可能是因为SVD层充当了• 通过将“关注”和“多样性”结合起来，ABD-Net（XE）看到了进一步的增长。例如，在Market-1501上，ABD-Net（XE）的表现优于对应物（基线（ XE ） +O.F.+ O.W. ）以 1.50%（top-1）/3.60%（mAP）的幅度，并且其优于+O.W.）2.20%（top-1）/7.40%（mAP）。此外，当我们在注意力机制中实施多样性时，还有进一步的性能改进。最后，完整ABD-Net进一步受益于增加三重态损失。4.4. 与现有技术方法的我们将ABD-Net与Market-1501、DukeMTMC-Re-ID和MSMT 17上的现有技术方法进行比较，分别如表2、3和4为了公平比较，我们的方法没有使用后处理，如重新排名[54]或多查询融合[55]。ABD-Net在所有数据集上都明显具有最先进的具体地，在DukeMTMC-Re- ID上，ABD-Net获得89。00%的top-1准确率和78. 59%mAP，显著优于所有现有方法。在MSMT 17上，ABD-Net也呈现出明显的赢家案例在Market-1501上，其前1名准确率（95.60%）略落后于Local CNN [48]（95.90%）和MGN [47]（95.70%）;然而，ABD-Net在mAP方面明显超过了所有现有方法（88.28%，以0.88%的大幅幅度超过了最接近的竞争对手[48具体来说，我们强调ABD-Net和现有的基于注意力的方法（标记为表2和表3中所示）。如表2和表3所示，ABD-Net实现了至少2. 40%的前一名和前五名。与最接近的基于注意力的mAP相比，Market-1501的mAP改善了 98%先前的工作CA3 Net [51]。在杜克MTMC，保证金是-表2.与Market-1501上最先进的方法进行比较。红色表示我们的性能，蓝色表示现有方法报告的最佳性能：以下相同。方法Market-1501top1地图BOW [55]（2015 ICCV）[54]第54话我的世界SSM [56]（2017 CVPR）44.4277.1182.2120.7663.6368.80SVDNet（RE）[52]（2017CVPR）87.0871.31AWTL [57]（2018 CVPR）84.2068.03DSR [58]（2018 CVPR）83.6864.25[59]第59话：我的世界90.0074.30深度CRF [60]（2018 CVPR）93.5081.60深度KPM [61]（2018 CVPR）90.1075.30HAP2S [62]（2018 ECCV）84.2069.76SGGNN [63]（2018 ECCV）92.3082.08部分对齐[31]（2018 ECCV）91.7079.60PCB [64]（2018 ECCV）93.8081.60SNL [45]（2018 ACM MM）88.2773.43HDLF [46]（2018 ACM MM）93.3079.10‡MGN [47]（2018 ACM MM）95.7086.90美国有线电视新闻网（CNN）[4895.9087.40* MGCAM [49]（2018 CVPR）83.7974.33* AACN [11]（2018 CVPR）85.9066.87* HA-CNN [50]（2018 CVPR）91.2075.70* CA3 Net [51]（2018 CVPR）93.2080.00* [65]第65话93.1082.30* A3M [66]（2018 ACM MM）86.5468.97•SPReID [67]（2018 CVPR）93.6883.36[68]第68话：你是谁？91.4276.62Abd-net95.6088.28这也利用了注意力机制。•这是一个ResNet-152主干。这是一个DenseNet-121主干。‡官方代码未发布。我们在原始论文中报告了数字，这些数字比我们重新实现的数字要好。3. 前1名和前6名占40%。mAP为40%我们还考虑了SVDNet [13]和HA-CNN [50]，它们也提出了生成多样化和不相关的特征嵌入。ABD-Net以显著的top-1和mAP改善超越两者。总的来说，我们的观察通过结合“关注”和“多样性”来认可ABD-Net的4.5. 可视化工具注意力模式可视化：我们对最终输出的特征图进行了一组注意力可视化<$$>，* *为了公平地评估我们提出的专注机制和多样性正则化的贡献，我们排除了三重态损失的影响，只比较了以下三种方法：基线（XE），基线（XE），基线（XE）和基线（XE）。(XE)+ PAM + CAM和ABD-Net（XE）。††Grad-CAM 可视化方法 [73] ： https://github.com/utkuozbulak/pytorch-cnn-visualizations; RAM 可视化方法[74]用于测试图像。更多的结果可以在补充资料中找到。8357颜色条表3.与DukeMTMC上最先进的方法进行比较这也利用了注意力机制。•这是一个ResNet-152主干。这是一个DenseNet-121主干。‡官方代码未发布。我们报告了原始论文中的数字，这些数字比我们重新实现的数字要好。表4.与MSMT17最新方法的比较方法MSMT17top1top5地图PDC [5]（2017 ICCV）GLAD [29]（2017 ACMMM）58.0061.4073.6076.8029.7034.00Abd-net82.3090.6060.80图5.从基线开始的注意力地图可视化，基线+ PAM + CAM和ABD-Net（XE）。如第四列和第八列所示，ABD-Net的多样化注意力地图几乎跨越了图6.基线、基线+ PAM + CAM和ABD-Net（XE）通道之间相关矩阵的可视化。颜色越亮表示相关性越大从左上角图像顺时针顺序，注意特征嵌入带来的高相关性，多样性减少了冗余，进一步提高了区分度。基线（XE）、基线（XE）+PAM + CAM和ABD-Net（XE）。五、我们注意到，基线的特征图几乎没有表现出注意力。PAM + CAM强制网络更多地关注人的区域，但注意力区域有时会过度强调某些局部区域（例如，衣服），这意味着过度拟合与人无关的滋扰的风险。大多数通道集中在相似区域也可能导致特征嵌入的高分辨率。相比之下，ABD-Net（XE）的注意力可以达到更好的平衡：它更多地关注人身体的局部部位，同时仍然能够将人从背景中排除。注意力模式现在因人而异，特征嵌入变得更加去相关和多样化。特征去相关：我们研究了基线、基线+ PAM + CAM和ABD-Net（XE）‡‡产生的通道输出之间的相关矩阵。在全局平均池化之前的特征嵌入被重塑为 F∈RC×N ，其中N=H×W。然后，我们将F的相关系数矩阵可视化，在图中表示为Corr∈RC×C§§6，并计算每个设置中所有相关系数的平均值。基线fea-整个人，而不是在某些局部地区过度适应在这里，我们使用了一个随机测试图像作为例子，我们在补充中提供了更多的结果。§§相关系数取绝对值方法DukeMTMC-Re-IDtop1地图BOW [55]（2015 ICCV）25.1312.17SVDNet [13]（2017 ICCV）76.7056.80SVDNet（RE）[52]（2017CVPR）79.3162.44[69]第69话74.5156.88PAN [70]（2018 TCSVT）71.5951.51AWTL（2-stream）[57]（2018CVPR）79.8063.40[71] 2018年中国汽车工业协会年会80.9064.80[59]第59话：我的世界81.2062.80[72] 2018年中国国际医疗器械展览会85.2072.80PCB [64]（2018 ECCV）83.3069.20部分对齐[31]（2018 ECCV）84.4069.30‡MGN [47]（2018 ACM MM）88.7078.40美国有线电视新闻网（CNN）[4882.2366.04* AACN [11]（2018 CVPR）76.8459.25* HA-CNN [50]（2018 CVPR）80.5063.80* CA3 Net [51]（2018 CVPR）84.6070.20* [65]第65话84.9071.80•SPReID [67]（2018 CVPR）85.9573.34[68]第68话：你是谁？78.7462.268358图7.相对于基线、基线+PAM的相关性直方图+ CAM和ABD-Net（XE）。更偏斜的分布指示更好的去相关特征嵌入。(b)是（a）中红框区域的放大视图。图8.特征分布的t-SNE可视化，来自基线、基线+ PAM +CAM和ABD-Net（XE）。从Market-1501中随机选择10个标识，它们的ID列在图表的右侧。圆圈A和B分别包含来自ID521、94和156的特征。真实嵌入揭示了非对角元素中的低相关性（平均为0.049）。在应用PAM和CAM之后，特征相关性变得更大（平均为0.368），支持我们的假设，即注意机制倾向于鼓励更多的“集中”，从而高度相关的特征。然而，通过我们的正交正则化，与仅注意力的情况相比，ABD-Net（XE）中的特征相关性被成功地抑制（平均为0.214）。特征直方图绘制在图1中。7也证实了同样的观察。功能嵌入分布：图图8示出了使用t-SNE对来自基线、基线+ PAM + CAM和ABD-Net（XE）的特征分布的t-SNE可视化。与Baseline相比，Baseline + PAM + CAM的注意特征虽然使得循环B中的ID 94和ID 156略有区别，但ABD-Net扩大了循环A中ID 521的它使来自ID的特征图9.ABD-Net（XE）、基线+PAM的六个Re-ID示例+ CAM和市场基线-1501。左：查询图像。右：i）：ABD-Net（XE）的前5个结果ii）：基线前5名结果+ PAM + CAM。iii）：基线的前5个结果。红色框中的图像为阴性结果。细致而多样的特征嵌入提高了检索精度。94和ID 156的特征更具区分性，同时ID 521的特征也位于紧凑区域。Re-ID 定性目视检查结果：图 9 显示了 ABD-Net（XE）、Baseline + PAM + CAM和Baseline on Market-1501的Re-ID可视化示例。它们表明ABD-Net比基线+PAM + CAM模型成功地找到更多的真阳性5. 结论本文提出了一种新的注意但多样的网络（ABD-Net），以学习更有代表性的，鲁棒的，区分性的特征嵌入的人重新识别。ABD-Net通过广泛的实验证明了其最先进的性能，其中消融和可视化显示每个添加的组件都对其最终性能有很大贡献。未来，我们将把ABD-Net的设计理念推广到其他计算机视觉任务中。8359引用[1] Longhui Wei，Shiliang Zhang，Wen Gao，and Qi Tian.人员转移甘桥梁域差距的人重新识别.在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。一、二、五[2] 道格拉斯·格雷和海涛。具有局部特征集合的视点不变性足识别。欧洲计算机视觉会议，第262Springer，2008. 一、二[3] Bryan James Prosser，Wei-Shi Zheng，Shaogang Gong，Tao Xiang，and Q Mary.通过支持向量排序重新识别人员在BMVC，第2卷，第6页，2010中。一、二[4] De Cheng ， Yihong Gong ， Sanping Zhou ， JinjunWang，and Nanning Zheng.基于改进三重丢失函数的多通道部件cnn的人员再识别。在IEEE计算机视觉和模式识别会议的Proceedings中，第1335-1344页，2016年。一、二[5] Chi Su，Jianing Li，Shiliang Zhang，Junliang Xing，Wen Gao，and Qi Tian.用于个人重新识别的姿势驱动的深度卷积模型。计算机视觉（ICCV），2017年IEEE国际会议，第3980IEEE，2017年。一、二、七[6] 梁正，黄宇佳，卢沪川，杨毅。用于深度人重新识别的姿势不变嵌入。 arXiv 预印本 arXiv ： 1701.07732 ，2017。一、二[7] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser，and Illia Polosukhin.注意力是你所需要的神经信息处理系统进展，第5998-6008页，2017年1[8] Liming Zhao ， Xi Li ， Yueting Zhuang ， and JingdongWang.深度学习的部分对齐表示用于人员重新识别。在ICCV，第3239-3248页，2017年。一、二[9] Hantao Yao，Shiliang Zhang，Yongdong Zhang，JintaoLi，and Qi Tian.部分丢失的深度表征学习用于人的重新识别。2017年12月17日，第1707.00798期。一、二[10] Jianlou Si ， Honggang Zhang ， Chun-Guang Li ， JasonKuen，Xiangfei Kong，Alex C Kot，and Gang Wang.基于上下文感知特征序列的双重arXiv预印本arXiv：1803.09937，2018。一、二[11] 徐静，赵睿，朱峰，王华明，欧阳万里。用于人员重新识别的注意感知合成网络。 arXiv 预印本 arXiv ：1805.03344，2018。一二四六七[12] Wei Li，Xiatian Zhu，and Shaogang Gong.和谐的关注网络，人的再认同。在CVPR，第1卷，第2页，2018年。一、二[13] Yifan Sun，Liang Zheng，Weijian Deng，and ShengjinWang.用于行人检索的Svdnet。2017年IEEE计算机视觉国际会议（ICCV），2017年10月。一、二、三、五、六、七[14] 郑良，沈丽月，田璐，王胜金，王京东，田琦.可扩展的人员重新识别：基准。在IEEE计算机视觉国际会议（ICCV），2015年12月。二、五[15] Ergys Ristani ， Francesco Solera ， Roger Zou ， RitaCucchiara，and Carlo Tomasi.多目标、多相机跟踪的性能测量和数据集。在欧洲计算机视觉会议（ECCV）上，2016年9月。二、五[16] Kilian Q Weinberger，John Blitzer，and Lawrence K Saul.距离度量学习用于大间隔最近邻分类。神经信息处理系统，第1473-1480页，2006年。2[17] 李震，张世玉，梁峰，黄志华，曹连良，约翰.史密斯.学习用于人员验证的局部自适应决策函数在Proc

下载后可阅读完整内容，剩余1页未读，立即下载