人物再识别中的特征发现及增强

122 浏览量更新于2023-10-18 收藏 13.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

querytop 5 in ranking list(a)BaselineOurspays attention to the black shorts, but neglects the otherkey discriminative visual cues, e.g., white shoes and bagstrap. To further illustrate the point, a diagnostic analysisis conducted on the baseline model. The analysis is basedon a recently proposed visualization analytical tool, i.e.,CAM [55]. The 2nd row in Fig. 1(c) presents the CAM ofthe person in Market1501 [49], which shows that the base-line model tends to identify this person based on a smallnumber but discriminative cues, i.e., handbag. The smallnumber of cues may be sufﬁcient for distinguishing personIDs in the training set, however, it is essential for a Re-IDmodel to discover abundant discriminative visual cues so asto form a full-scale characteristic of each identity.113890通过类激活图增强实现人物再识别中的丰富特征发现0Wenjie Yang 1 , 2 , Houjing Huang 1 , 2 , Zhang Zhang 3 , Xiaotang Chen 1 , 2 , Kaiqi Huang 1 , 2 , 5 , Shu Zhang 401 CRISE，中国科学院大学2 中国科学院自动化研究所3 CRIPAC &NLPR，中国科学院自动化研究所4 Deepwise AI实验室5脑科学与智能技术卓越中心0{ wenjie.yang,houjing.huang,zzhang,xtchen,kaiqi.huang } @nlpr.ia.ac.cn,zhangshu@deepwise.com0摘要0小的人际变异的基本挑战要求人物再识别（Re-ID）模型捕捉足够的细粒度特征。本文提出了一种不需要额外辅助（例如姿势估计、人体解析）的多样化区分性视觉线索发现方法。具体而言，提出了一种类激活图（CAM）增强模型，通过一系列有序的分支扩展了基线Re-ID模型的激活范围，以探索丰富的视觉线索，其中骨干网络通过输出互补的CAM来扩展输入。提出了一种新颖的重叠激活惩罚，强迫当前分支更多地关注前面分支激活较少的图像区域，从而可以发现空间多样的视觉特征。提出的模型在三个Re-ID数据集上取得了最先进的结果。此外，提出了一种名为排名激活图（RAM）的可视化方法，以明确解释测试阶段的排名结果，从而对提出的方法进行定性验证。01. 引言0人物再识别（Re-ID）旨在跨多个非重叠摄像头识别特定人物。它具有重要的应用前景，例如大规模人物跟踪和视频监控中的人物搜索。尽管在过去的十年中取得了显著进展，但仍面临许多挑战，例如各种背景干扰、光照和摄像机视角的大变化以及人体姿势的关节变形。此外，小的人际变异使得Re-ID模型难以根据少量视觉线索区分外观相似的人物。如图1（a）所示，所有前5张图像与查询的身份不同，因为基线模型主要关注黑色短裤，但忽略了其他关键的区分性视觉线索，例如白色鞋子和包带。为了进一步说明这一点，对基线模型进行了诊断分析。该分析基于最近提出的可视化分析工具，即CAM [55]。图1（c）中的第二行展示了Market1501[49]中该人物的CAM，显示基线模型倾向于根据少量但区分性的线索（即手提包）识别此人。少量的线索可能足以区分训练集中的人物ID，然而，对于Re-ID模型来说，发现丰富的区分性视觉线索以形成每个身份的全面特征是至关重要的。0(c)0聚合0(b)0图1：(a)和(b)展示了提出的RAMs。地图突出显示了基线模型和提出的模型用于对画廊图像进行排序的区分性视觉线索。绿色和红色边界的图像分别表示真正的阳性和假阳性。在(c)中，第一行显示了相同ID的图像，第二行的CAM突出显示了基线模型用于识别此人的图像区域，即手提包。第三行和第四行的CAM显示了提出的方法进一步发现更多的视觉线索。13900为了从有限的训练数据中发现丰富的判别特征，1）一些方法采用特别设计的正则化或约束，并提出了超越分类损失的各种度量学习损失，例如三元组损失[13]，四元组损失[5]和组相似性学习[4]；2）一些方法致力于发现分布在整个人体上的更细粒度的视觉线索，通常通过多分支网络从多个身体部位学习细粒度特征。这些部分可以通过刚性空间划分[42,26, 46, 7]，潜在部位定位[23, 27]，姿态估计[39, 44,33]，人体解析[19]或注意力映射[48]获得；3）一些方法尝试通过数据增强增加训练数据的变化性，例如随机裁剪（镜像）[22]，由生成对抗网络（GAN）[11]合成的样本[52]或对抗遮挡样本[14]。0所提出的方法属于上述分类中的第二类，侧重于发现整个人体上的分散细粒度视觉特征。然而，以前的工作需要额外的步骤来进行刚性空间划分的身体部位定位，姿态估计或学习潜在部位，这增加了算法的复杂性和不确定性。受到图1（c）中第2行的CAM的启发，我们提出扩展基线模型的激活范围，以便可以在整个人体上学习足够的视觉特征。在这里，通过类激活图[55]定位视觉判别区域，因此将所提出的模型命名为类激活图增强（CAMA）。在CAMA中，通过一系列有序的分支扩展了骨干模型，引入了一种名为重叠激活惩罚（OAP）的新损失函数，以迫使当前分支从先前分支激活较少的区域中发现多样的视觉线索，从而获得多样的判别细粒度特征。为了更好地解释排名结果，提出了一种可视化方法，即排名激活图，用于明确可视化查询和库图像在排名列表中的相关视觉特征。据我们所知，这是首次尝试解释人物再识别的排名结果。0本文的主要贡献可以总结为三个方面：（1）提出了一种端到端的多分支模型，灵活地发现足够且多样的判别细粒度特征，无需刚性空间划分或额外的部位定位模块。（2）提出了一种新的损失函数，即OAP，用于使CAMA中的不同分支有效地从不同的身体区域学习互补的视觉特征。（3）广泛的实验结果表明，与其他最先进的方法相比，在三个大型数据集上可以实现卓越的性能，其中提出了一种新的可视化方法，即RAM，首次解释了Re-ID的排名结果。02. 相关工作0人物再识别。大多数人物再识别方法侧重于学习有效的特征提取器[42,40]或度量，将相同身份的个体拉近，将不同身份的个体推开[9, 13, 5, 25, 36, 4]。深度学习方法首次在[46,25]中引入，已经主导了人物再识别社区。基于度量学习的方法采用一些正则化或约束来指导再识别模型获取一组多样的特征，例如三元组损失[13]，组相似性学习[4]或四元组损失[5]，其中关键因素在于难样本挖掘的质量。为了学习一个有效的特征提取器来捕捉丰富的判别特征，一些方法聚合全局和局部表示，并展示了有希望的性能。它们利用显式姿态估计[2]，人体解析[10]或空间变换网络（STN）[16]来定位身体部位[39, 44, 33, 19, 27,23]，或直接使用预定义的刚性部位（水平条纹或网格）进行细粒度特征提取[42, 26, 46, 7,1]。与上述方法相比，所提出的方法不依赖于任何外部部位定位模型。然而，从人物再识别分类网络的顶层提取的全局表示不足以保留对人物再识别至关重要的视觉线索，例如细粒度属性（太阳镜，鞋子）和一些低语义级别的纹理/边缘特征[23, 3, 14]。因此，一些研究人员[3,43]提出在多个语义级别上融合判别性视觉特征。其他一些方法，例如Huang等人[14]通过生成遮挡样本增加训练数据的变化性；Song等人[38]引入分割掩模作为指导，提取对背景干扰不变的特征；Shen等人[34]旨在改进后处理（即，重新排序[53]），以便可以进行端到端的学习。此外，与欧氏距离相似，还使用了Kronecker乘积匹配模块来匹配不同人物的特征图[36]。在[37]中也可以找到类似的想法。网络可视化。卷积神经网络（CNN）通常被视为将给定输入映射到任务特定输出的黑盒函数。已经有很多工作致力于探索CNN的工作原理，例如DeconVNet[47]可视化特定神经元激活的模式，网络反演[30]通过反转它们来合成输入图像，类激活图（CAM）用于可视化CNN在做出决策时使用的输入图像区域[55]。在这项工作中，我们通过检查经过训练的网络的内在工作机制来增强Re-ID模型捕捉多样的细粒度知识的能力，这与当前关于网络可解释性和可视化的研究密切相关。𝐿𝑖𝑑𝐹1𝑀1𝑆1𝐹2𝑀2𝑆2𝐹3𝑀3𝑆3𝑊1𝑊2𝑊3BN1 𝑡𝐶1 𝑡𝐶1 𝑡𝐶𝑆2𝐿𝑖𝑑2𝑆3𝐿𝑖𝑑3softmaxsoftmax(b)𝑆1𝐿𝑖𝑑1softmax𝑎2𝑎3𝐿𝑜𝑎𝑝 = 13 σ𝑥,𝑦 𝑎1⨀𝑎2⨀𝑎3(a)BNBNsigmoidsigmoidsigmoid𝑀𝑡1𝑎1𝑀𝑡1𝑀𝑡1��13910识别损失（交叉熵损失）0标签 = t0重叠激活惩罚0图2：具有3个分支的CAMA模型。带有标签t的图像通过ResNet-50和批归一化（BN）层传递，形成特征图Fi∈Rh×w×d，这些特征图通过Wi∈Rd×C进行加权求和（Eq.（4））以获得CAM，即Mi∈Rh×w×C。然后在Mi上应用全局平均池化（GAP）以获得类别得分Si∈R1×C，其中C是训练类别的数量。Mi的第t个通道，即Mit∈Rh×w，突出显示了分支i用于识别输入图像的图像区域。在（a）中，使用Mit来计算重叠激活惩罚Loap，以使不同分支中的激活区域不重叠。在（b）中，将识别损失Liid求和以获得Lid。分支中的Wi不共享参数，（a）中的⊙表示逐元素乘法。03. 方法0本节介绍CAMA模型的技术细节。如图2所示，CAMA模型是一个多分支（MltB）神经网络，包括一个主干和一些有序的分支。我们提出利用一种关于深度学习的视觉解释技术，即CAM[55]，来指示信息部分的位置和嵌入在Re-ID模型中的特征丰富性，而无需额外的部件定位和详尽的信息区域搜索（Sec.3.1）。新的扩展分支由一种名为OAP的新型损失函数引导，以从之前的分支激活较少的区域中发现有区分性的特征（Sec.3.2）。最后，提出了一种名为RAM的可视化技术来解释查询图像的排名结果（Sec. 3.4）。03.1. 基准模型0ID-区分性嵌入（IDE）模型的前向传播如下所示。首先，输入图像通过CNN获得一个张量T∈Rh×w×d，可以解释为密集的h×w个d维局部特征T(x, y)∈R1×d的空间位置(x,y)的网格，或者密集的d个特征图Tk∈Rh×w，然后在T上应用全局平均池化（GAP）以获得特征向量，最后使用全连接（FC）层将特征向量转换为类别得分S∈R1×C。这里C是训练类别的数量。上述过程可以表示为0S = FC(GAP(T)) (1)0[45]的工作提出在全局平均池化层后添加批归一化（BN）层[15]，可以表示为0S = FC(BN(GAP(T))) (2)0其中BN是用于1D输入的普通批归一化[15]。本文将Eq.（2）表示为IDE+BN。由于IDE+BN在IDE上的性能更好，我们将IDE+BN作为基准。需要注意的是，BN和GAP都是线性变换，因此这两个变换的顺序可以互换而不改变最终结果。因此，Eq.（2）进一步表示为0S = FC(BN(0h × w))0= FC(0x,y 0h × w)0= FC(0F(x,0h × w) = FC(GAP(F)) (3)0其中F(x, y) = BN(T(x, y))，F ∈ Rh × w ×d是一个张量。请注意，如果没有这种重新表述，则无法方便地将下面提到的CAM与BN增强的基线集成在一起，即方程(2)。类激活图[55]。在方程(3)中，对F应用GAP后，得到一个特征f。然后使用FC层W ∈ Rd × C将f转换为类得分S∈ RC。由于W c ∈ Rd ×1是一个权重向量，为类c生成得分S c (c ∈ {1, 2, ...,C})。我们可以==1Liid = −log(yit),i ∈ {1, 2, . . . , N}(7)Ltotal = Lid + αLoap(8)3.4. Ranking Activation Mapd(fq, fg) =�⟨ ˆfq − ˆfg, ˆfq − ˆfg⟩=�⟨ ˆfq, ˆfq⟩ + ⟨ ˆfg, ˆfg⟩ − 2⟨ ˆfq, ˆfg⟩=�2 − 2⟨ ˆfq, ˆfg⟩ =�2 − 2 ⟨fq, fg⟩∥fq∥ ∥fg∥(9)13920通过obtain Sc0Sc = f ∙ Wc =0k=1 Wc,k × fk0k=1 Wc,k 10h × w0x,y F k (x, y)0h × w0x,y0k=1 Wc,k Fk(x, y) (4)0其中W c,k表示W c的第k个元素，(x,y)表示空间位置。类c的类激活图定义为M c，其中M c (x,y) = ∑d k=1 W c,k F k (x, y)。M c (x, y)表示局部特征F (x,y) ∈ R1 × 1 × d对S c的贡献得分。假设t是输入图像的目标类，Mt是目标类的类激活图，它表示CNN模型作为识别输入图像的决策证据。在本文中，我们探索了在人物Re-ID中使用CAM的两个方面。1）我们利用CAM定位有区分度的视觉线索，基于此提出了一种旨在增强CAM的学习原则，以增强Re-ID模型。2）受到CAM的启发，我们提出了RAM来解释测试阶段的排名结果。03.2. 重叠激活惩罚0对于每个带有标签t的训练图像I，其中t是目标类的索引。I分别通过N个分支传递，以获得CAM，即Mi ∈ Rh × w ×C，对于每个分支i。M i的第t个通道，即M i t ∈ Rh ×w，对应于类t的激活图，我们使用它进一步获得ai来指定第i个分支关注的图像区域。在这里，我们遍历M it的所有空间位置(x, y)，使用Sigmoid函数获得掩码ai ∈ Rh× w。0ai(x, y) = 101 + exp( − ( M i t ( x, y ) − σ i )) (5)0其中阈值σi是Mi t的第k个最大元素。Sigmoid函数将M it中大于σi的元素近似映射为1，其他元素映射为0。由于我们的目标是引导不同的分支激活不同的图像区域，因此不同分支中ai的非零区域不应重叠。为了实现这一点，提出了重叠激活惩罚来测量ai的重叠区域的面积，其中i ∈ {1, 2, ...,N}，定义如下：0L oap = 10N0x,y0a1 ⊙ a2 ⊙ ∙ ∙ ∙ ⊙ aN (6)0其中⊙表示逐元素乘法，N是分支的数量。03.3. 目标函数0在对类激活图Mi进行全局平均池化后，我们获得分支i中的类得分Si，它通过softmax函数进一步归一化为概率分布yi∈RC。分支i中的识别损失计算为预测概率yi与实际标签之间的交叉熵。0其中 t 是目标类别的索引，而 L i id ，i ∈ { 1 , 2 , . . . , N }，被求和以获得 CAMA 模型的识别损失，即 L id = � N i=1 L i id 。CAMA 模型的最终目标函数是 L id 和 L oap的加权求和。0其中 α 是权重折衷参数，我们在以下所有实验中使用 α = 1。L oap 偏好不同分支的激活区域不重叠，而 L id 引导CAMA模型激活具有区分性的图像区域而不是背景。在测试阶段，通过对特征图 { F 1 , F 2 , ..., F N }应用全局平均池化，生成所有分支 { f 1 , f 2 , ..., f N }的特征向量，然后将它们连接起来得到最终的图像表示 f，即 f = [ ˆ f 1 ; ˆ f 2 ; ... ; ˆ f N ] ，其中 ˆ f i 表示 f i 的L2 归一化。0由于原始 CAM 无法在训练阶段看不见的人物 ID上实施。为了更好地解释排名结果，我们提出了RAM，它可以揭示查询图像和图库图像之间的相关视觉线索。在这里，我们描述生成排名激活图的过程。假设 F q 和 Fg 分别对应于查询图像和图库图像的特征图。通过 f q =GAP( F q ) ，f g = GAP( F g ) 获得特征表示，其中 GAP表示全局平均池化。然后对 f 执行 L2 归一化以获得 ˆ f ，即ˆ f = f √0∥ f ∥ 。L2 范数之间的欧氏距离为0归一化的 f q 和 f g 定义为0其中 � � , � �表示两个向量的内积。由于相似度与距离成反比，我们𝑓𝑞𝐹𝑔⨂hwddhwhw𝑅𝑔𝑞 (𝑅𝐴𝑀)×1𝑓𝑔⟨fq, fg⟩∥fg∥=⟨fq,1h×w�x,y Fg(x, y)⟩∥fg∥=�x,y⟨fq, Fg(x, y)⟩h × w × ∥fg∥=�x,y⟨fq,Fg(x,y)⟩∥fg∥h × w=�x,y Rqg(x, y)h × w(10)13930图3：Ranking Activation Map (RAM)的示意图，其中 �表示空间注意力。f q 是查询图像的特征，F g表示图库图像的特征图。0从公式 ( 9 ) 可以观察到，查询图像和图库图像之间的相似度应与 � f q ,f g � 成正比0∥ f g ∥ ，可以进一步表示为0∥ f g ∥ 表示空间网格 ( x, y )对最终相似度的贡献。具体而言，通过在公式 ( 10 ) 中将 fg 替换为 f q ，可以得到 R q q 。我们将 { R q q , R q g |g ∈ { 1 , 2 , ...N G }} 称为与查询图像 q对应的排名激活图，其中 N G是图库图像的数量。通过简单地将 RAM上采样到相应图像的大小，我们可以可视化导致排名结果的图像区域的重要性。基于上述方法，我们在图4中展示了使用基线模型生成的一些 RAM示例。在这里，我们只展示排名结果中的前10张图像。在图4(a)中，查询图像的 RAM表明最显著的特征与绿色口袋相关。对于另一个查询，最显著的区域对应于红色背包（图4(b)）。前10个图库图像的RAM分别突出显示了与这两个查询相对应的绿色口袋和红色部分的区域，这在语义上与相应的查询图像一致。04. 实验04.1. 数据集和评估指标0实验在DukeMTMC-reID [32]，Market-1501 [49]，CUHK03[25]上进行。我们采用累积匹配特性（CMC）[12]和平均精度（mAP）[49]作为性能指标。所有实验评估都遵循单查询设置[49]。Market1501包含由5个高分辨率和一个低分辨率摄像机捕获的1,501个身份，其中12,936个图像来自751个身份，用于训练，3,368个查询图像和19,732个画廊图像来自另外750个身份进行测试。DukeMTMC-reID包含1,404个身份，16,522个图像用于训练，2,228个查询图像和17,661个画廊图像。训练和测试集都包含702个身份，并且人物边界框是手动裁剪的。CUHK03包含13,164个来自1,467个人的图像，每个身份只出现在两个不相交的摄像机视图中。我们采用[53]中提出的新的训练/测试协议，其中767个身份用于训练，700个身份用于测试。CUHK03提供了标记和检测到的边界框，我们对它们都进行了实验。0在排名列表中查询前10个0图4：RAMs突出显示Market1501中查询图像和画廊图像之间的相关视觉特征，即（a）中的绿色口袋和（b）中的红色物体。带有绿色和红色边界的图像分别表示真正的正样本和误报的正样本。0训练，3,368个查询图像和19,732个画廊图像来自另外750个身份进行测试。DukeMTMC-reID包含1,404个身份，16,522个图像用于训练，2,228个查询图像和17,661个画廊图像。训练和测试集都包含702个身份，并且人物边界框是手动裁剪的。CUHK03包含13,164个来自1,467个人的图像，每个身份只出现在两个不相交的摄像机视图中。我们采用[53]中提出的新的训练/测试协议，其中767个身份用于训练，700个身份用于测试。CUHK03提供了标记和检测到的边界框，我们对它们都进行了实验。04.2. 实现细节0模型。我们采用在ImageNet[8]上预训练的ResNet-50作为基线模型，它具有一个卷积层（命名为conv1）和四个残差块，即conv2�5。图2中的常见基础模型由conv1�4组成，不同分支中的conv5不共享参数。分类器权重是随机初始化的。请注意，我们遵循PCB[42]中的设置，删除了ResNet-50中的最后一个空间下采样操作，以增加输出特征图的空间大小。预处理。对于三个Re-ID数据集上的所有实验，输入图像大小固定为h×w=256×128。训练过程中使用标准的随机裁剪和水平翻转进行数据增强。优化。我们使用Pytorch[31]实现CAMA模型。使用批量大小为32的Adam[21]优化器。首先微调分类器权重，即Wi0在图2中，进行10个epoch的训练，学习率逐渐降低HBoW [49] (ICCV15)12.225.1LOMO+XQDA [28] (CVPR15)17.030.8SVDNet [41] (ICCV17)56.876.7AOS [14] (CVPR18)62.179.2PSE [33] (CVPR18)62.079.8GMultiScale [6] (ICCV17)60.679.2MLFN [3] (CVPR18)62.881.0GCSL [4] (CVPR18)69.584.9SGGNN [35] (ECCV18)68.281.1DGRW [34] (CVPR18)66.780.7PAN [51] (Arxiv17)51.571.6L (+G)JLML [26] (IJCAI17)56.473.3PABR [40] (ECCV18)69.384.4HA-CNN [27] (CVPR18)63.880.5PCB [42] (ECCV18)69.283.31HBoW+XQDA [49] (ICCV15)7.37.96.46.4LOMO+XQDA [28] (CVPR15)13.614.811.512.8IDE-C+XQDA [53] (CVPR17)20.021.919.021.1IDE-R+XQDA [53] (CVPR17)29.632.028.231.1TriNet+Era [54] (Arxiv17)53.858.150.755.5GSVDNet [41] (ICCV17)--37.341.5MGCAM [38] (CVPR18)50.250.146.946.7AOS [14] (CVPR18)--43.347.1MultiScale [6] (ICCV17)40.543.037.040.7MLFN [3] (CVPR18)49.254.747.852.8L (+ G)PAN [51] (Arxiv17)--34.036.3HA-CNN [27] (CVPR18)41.044.438.641.7PCB [42] (ECCV18)--57.563.713940方法 mAP R-1 R-5 R-100BoW [49]（ICCV15）20.8 44.4 63.9 72.20H0WARCA [18]（ECCV16）45.2 68.1 76.0 - KLFDA[20]（Arxiv16）46.5 71.1 79.9 -0SVDNet [41]（ICCV17）62.1 82.3 92.3 95.2 MGCAM[38]（CVPR18）74.3 83.8 - - AOS [14]（CVPR18）70.4 86.5- - PSE [33]（CVPR18）69.0 87.7 94.5 96.80G0MultiScale [6]（ICCV17）73.1 88.9 - - MLFN[3]（CVPR18）74.3 90.0 - - GCSL [4]（CVPR18）81.6 93.5 -- SGGNN [35]（ECCV18）82.8 92.3 96.1 97.4 DGRW[34]（CVPR18）82.5 92.7 96.9 98.10MSCAN [23]（CVPR17）57.5 80.3 - - DLPA[48]（ICCV17）63.4 81.0 92.0 94.7 PAN [51]（Arxiv17）63.482.8 - -0L(+G)0PDC [39]（ICCV17）63.4 84.1 92.7 94.9 GLAD[44]（MM17）73.9 89.9 - - JLML [26]（IJCAI17）65.5 85.1 -- PABR [40]（ECCV18）79.6 91.7 96.9 98.1 HA-CNN[27]（CVPR18）75.7 91.2 - - PCB [42]（ECCV18）81.6 93.897.5 98.50提出的方法（N=2）83.9 94.2 97.8 98.4提出的方法（N=3）84.5 94.7 98.1 98.80表1：Market-1501评估，比较基于手工特征的方法（H），基于全局特征的方法（G）以及使用局部特征与全局特征的方法（L（+G））。最佳性能以粗体显示，-表示没有报告的结果可用，N = 2表示采用了2个分支的提出方法。0将学习率从3×10−6增加到3×10−4，然后使用初始学习率3×10−4乘以0.1，在每20个epoch后训练整个CAMA模型50个epoch。在Market-1501（12,936个训练图像）上，基线和3分支CAMA模型分别消耗约3小时和4小时，使用NVIDIATITAN X GPU。04.3. 与最先进方法的比较。0我们将2分支和3分支的CAMA与最先进的方法进行比较。比较方法可以分为基于手工特征的方法（H），具有全局特征的深度学习方法（G）以及使用局部特征的深度学习方法（L(+G)）。结果表明，提出的方法取得了最佳性能。注意：1）与具有部分级特征的方法相比，我们的方法超过了PCB+RPP [ 42]，这证明了提出的基于CAM的多分支CNN方法学习多样特征和增强Re-ID模型的判别能力的优势。2）与具有全局特征的方法相比，我们的方法胜过了MLFN，后者使用融合架构来融合多个语义层次的特征。此外，MLFN的思想与我们在高层次挖掘更具判别性的特征的思想是兼容的，这将在未来进一步研究。0方法 mAP R-10提出的方法（N=2）72.0 84.8 提出的方法（N=3）72.985.80表2：DukeMTMC-reID评估。报告了Rank-1准确率（%）和mAP（%），其中N=2表示具有2个分支的提出方法。0方法标记检测到0提出的方法（N=2）64.2 66.1 61.0 64.3提出的方法（N=3）66.5 70.1 64.2 66.60表3：CUHK03评估，使用767/700的训练/测试分割设置，对标记和检测到的图像进行评估。报告了Rank-1准确率（%）和mAP（%）。04.4. 基于注意力机制的讨论。0尽管最近的基于视频的工作[ 24]提出了多样化的注意力图，但[ 24]与本文提出的模型存在三个主要差异。1）[ 24]的动机是发现一组具有区分性的身体部位，以避免特征被遮挡区域破坏。而我们的目标是从有限的训练集中发现丰富甚至冗余的具有区分性的特征，以增强Re-ID模型在未见测试集上的区分能力。2）在学习过程中，[ 24]将多个注意力模块连接到一个单一分支的CNN上，因此学习到的注意力模块可以被视为一组依赖于完全相同的CNN特征的部分检测器。1, 93.33, 94 6, 94.213, 94.119, 93.926, 93.632, 88.738, 76.2758085909516111621263136Rank-1 accuracy (%)k1, 82.93, 83.5 6, 83.913, 83.719, 83.326, 8332, 73.638, 60.160657075808516111621263136mAP (%)k90.994.294.793.993.59392.491.290.59191.59292.59393.59494.59512345678Rank-1 accuracy(%)number of branches78.583.984.583.883.483.281.580.1787980818283848512345678mAP(%)number of branches13950模型 Market1501 DukeMTMC-reID CUHK03（检测）0mAP R-1 R-5 R-10 mAP R-1 R-5 R-10 mAP R-1 R-5 R-100IDE + BN 78.8 91.0 96.2 97.6 66.1 79.8 90.5 92.8 56.4 57.7 74.1 82.0 MltB + L id 79.0 91.6 96.5 97.8 65.8 80.7 91.1 93.3 57.6 58.5 75.983.6 MltB + L id + L oap 84.5 94.7 98.1 98.8 72.9 85.8 93.1 94.9 64.2 66.6 82.7 87.90表4：对三个数据集上所提出方法的组成部分进行分析，报告mAP、rank-1、rank-5和rank-10的准确率。MltB表示具有3个分支的多分支网络。IDE+BN模型的公式为（3）。0虽然我们采用了多分支网络从训练数据中提取更多特征，其中CAM用于多样化辨别特征而不是部分检测器。在测试阶段，我们还使用了由[24]或其他基于注意力的方法（如[17]、DLPA[48]和[42]中的RPP）学习到的注意力模块来计算测试图像的注意力图，以加权CNN特征。由于学到的CAM系数不能在测试阶段使用，因为测试人物ID在训练集中是未知的。因此，只有多分支CNN网络用于提取特征，没有任何额外的加权操作。因此，从上述三个方面来看，我们的方法与[24]和其他基于注意力的方法有显著的不同。04.5. 重叠激活惩罚的影响。0在本节中，我们通过在三个人物Re-ID数据集上进行分析实验，研究了我们方法的每个组成部分的影响。结果如表4所示。MltB + L id 与基线模型（IDE +BN）之间的差异在于MltB + L id扩展了一系列有序的分支。然而，MltB + L id仅在基线模型上取得了微小的优势，这表明不同分支捕获的视觉特征几乎相同。从结果中可以看出，MltB + L id + Loap 相比于MltB + L id取得了显著的改进，这验证了所提出的重叠激活惩罚的强大能力，可以使新分支专注于非重叠的图像区域，从而发现多样化和有区别的视觉特征。04.6. 参数分析0在本节中，我们进行实验研究了阈值σi（公式（5）中的σi）和分支数N的影响，其中σi是相应激活图Mit的第k大值。k的影响。k越大，每个分支在Sigmoid函数（公式（5））之后保留的激活区域越大。由于在ResNet-50中删除了最后的空间下采样操作，CAMA模型输出具有128（16×8）个空间网格的激活图。如图5所示，当k小于26时，mAP和rank-1准确率在一个小范围内波动，但当k大于26时（26 128 �20%），它们急剧下降。这是因为当k变得太大时，重叠的激活惩罚将会使新分支激活的区域受到限制。0图5：k的影响，其中分支数设置为2。报告了（k，mAP）和（k，rank-1）的结果。0图6：分支数N的影响，比较mAP和Rank-1准确率。0强制当前分支激活非辨别性图像区域，例如背景，因为最有辨别性的图像区域已被之前的分支保留。分支数N。根据图6，当N达到3时，CAMA模型在Market1501上达到最佳的mAP和rank-1性能。所提出的方法并不总是随着N的增加而表现更好，这表明人物ID的辨别性视觉线索的数量是有限的。当N增加到3时，CAMA模型能够在图像上发现新的线索。当N过大时，新分支的激活区域无法同时满足Lid（辨别性）和Loap（与旧分支激活的图像区域不重叠）的约束。在这种情况下，新分支对整个网络的优化是有害的，因此性能将在N的某个值达到峰值，如图6所示。04.7. CAMA为什么有效？0我们的目标是使CAMA模型的多个分支在训练阶段专注于输入图像的不同区域。然而，这些分支是否能在测试阶段产生不同的视觉特征？(a) Baseline(b) Ours580123467910111312151416181720192122(c) Person IDs in the test set of Market1501.13960图7：Market1501测试集上基线模型和我们方法的tSNE可视化。不同的数字表示不同的身份（放大以获得最佳视图）。0分支 1st 1st+2nd 1st+2nd+3rd0mAP 79.0 82.7 84.5 rank-1 90.9 93.5 94.70表5：Market1501上的定量分析。对于具有3个分支的提出方法，1st+2nd表示仅使用第一个和第二个分支进行测试。0在测试阶段，不同分支是否产生不同的视觉特征？我们对提出的方法进行了定性和定量分析，使用了3个分支。定性分析。在图8中，RAM揭示了每个分支之间查询和图库图像之间的相关视觉线索。我们可以观察到，对于相同的输入查询图像，不同分支学到的特征确实是互补的。具体来说，第一个分支学到的特征，即f1q，与黑色短裤最相关，也激活了第一个排名列表，而第二个和第三个分支分别关注头部和下半身。这表明所提出的CAMA模型确实捕捉到了多样的判别性视觉线索，因此来自不同分支的特征的连接版本产生了更好的排名结果。图8中第i个分支的RAM是通过将方程（10）中的fq替换为fiq生成的。定量分析。为了捕捉丰富的人物Re-ID视觉线索，CAMA模型中的分支被迫激活不同的判别性图像区域。表5表明，当使用更多的分支进行测试时，mAP和rank-1准确性表现更好。具体来说，CAMA模型的第一个分支仅实现了79.0％的mAP和90.9％的rank-1准确性，随着更多的分支组合进行测试，mAP和rank-1准确性逐渐提高到84.5％和94.7％。此外，我们从Market1501的测试集中选择了一些外观相似的人物ID，通过t-SNE[29]可视化特征分布。这些人穿着紫色衣服，人与人之间的差异很小，如图7（c）所示。通过比较图7（a）和（b），我们可以观察到对于基线模型难以区分的身份，所提出的方法可以更好地区分它们，例如第9个，第15个和第16个身份。0查询排名列表中的前10个0图8：定性分析。不同分支及其聚合结果的排名结果和RAM。不同分支的特征确实是互补的。绿色和红色边界的图像分别表示真正的阳性和假阳性。0可以观察到，对于基线模型难以区分的身份，所提出的方法可以更好地区分它们，例如第9个，第15个和第16个身份。05. 结论0在这项工作中，我们提出了一种CAMA模型，用于发现人物Re-ID的判别性和多样性视觉特征，可以增强传统的全局表示。所提出的重叠激活惩罚可以在端到端的训练框架中灵活实现。此外，我们引入了RAM来可视化排名列表中查询和图库图像之间的相关视觉特征。借助CAM和RAM的帮助，我们展示了CAMA模型确实获得了更具判别性的特征，这清晰地验证了学到的Re-ID模型，并对人物Re-ID模型的可解释性提供了一些见解。在这项工作中，我们展示了从

下载后可阅读完整内容，剩余1页未读，立即下载