深度卷积网络中的特征激活映射用于图像解释和身份识别

185 浏览量更新于2023-10-25 收藏 971KB PDF 举报

深度卷积网络

身份识别

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10307FAM：深度卷积网络吴玉玺，陈长怀，车俊，蒲世良*海康威视研究院，中国{吴玉玺，陈昌怀，车军，普什良.hri} @ hikvision.com摘要近年来，表征模型的内在机制越来越受到人们的关注。传统的方法是不适用的，以充分解释的特征表示，特别是如果图像不适合任何类别。在这种情况下，采用现有的类或与其他图像的相似性是无法提供一个完整和可靠的视觉解释。为了处理这个任务，我们提出了一种新的视觉解释范式称为特征激活映射（FAM）。在这种范式下，梯度FAM和分数FAM被设计用于可视化特征表示。与以前的方法不同，FAM定位图像中对特征向量本身贡献最大的区域大量的主观和客观的实验和评价表明，Score-FAM为身份识别中的特征表征提供了最有前途的可解释的视觉解释此外，FAM还可以用于分析其他视觉任务，如自监督表征学习。1. 介绍近几年来，由于卷积神经网络（CNN）的广泛应用，模型解释越来越受到人们的关注。为此，人们提出了各种各样的视觉解释方法。为了解释分类问题，提出了ClassA ctivationM ap（CAM）[1，33最近基于CAM的工作可以分为两个分支，一个是基于梯度的CAM [14]，其使用类置信度的梯度来合并输入的重要性，另一个是无梯度CAM[12，22]，其通过类置信度的变化来捕获重要性。与此同时，一些方法，例如，DeepLift [16]和积分梯度[20]基于具有梯度的元素乘积近似输入的贡献。值得注意的是，必须指定目标神经元或分数来评估上述方法的梯度。在分类中，类置信度通常是目标。然而，在某些任务中，测试样本的类可能不存在于训练集中.作为一个零次学习问题，人员身份再识别（Re-ID）中测试集的身份与训练集的身份完全不同。如图1（b）所示，Score-CAM只关注与给定列车身份相似的部分，如雨伞、裤子和鞋子，而不是测试图像中的人体。在这种情况下，使用现有的类不能提供可靠的解释。更少的作品专注于理解特征表示[34]。RAM [23]和CG-RAM [15]被提出来揭示一对图像之间的相关视觉线索然而，基于相似性的方法仍然不能完全解释特征表示。如图1（c）所示，基于不同图像的RAM的可视化结果差异很大，并且主要取决于另一图像的选择。鞋子在基于排名2的图库图像的结果中获得了高激活，但在其他图像中获得了低激活。基于这些相互矛盾的结果，很难解释鞋子对该图像中特征表示的贡献程度。其他基于相似性的方法也无法解释这个问题。除此之外，在实际工作中，有时也找不到合适的图像进行比较这些问题限制了对Re-ID模型的解释，以确保其可靠性。为了改善上述缺陷，我们提出了一种新的视觉解释范式，称为特征激活映射（FAM）。FAM突出了对全局特征表示贡献最大的图像区域具体来说，我们首先提出了梯度加权FAM（梯度FAM），它消除了RAM中的另一个图像受Score-CAM的启发，提出了一种不同的无梯度 FAM 方法 Score-weighted FAM （ Score-FAMScore-FAM的客观评价在公开数据集上大规模优于其他方法。实验结果表明10308CZIJ图1. (a)Market 1501中的测试图像和Score-FAM的相应结果;（b）评分-CAM结果，根据类置信度确定训练集中前三个相似身份;（c）记录和档案管理结果，根据排名结果，排名前三位的相似图库图像。(d)可视化结果中的不同颜色表示相应的激活值，其显示在颜色条中。Score-CAM仅关注与给定列车标识相似的部分RAM对不同的对得到了完全不同的结果Score-FAM为特征向量提供了完整的视觉解释。Score-FAM为Person Re-ID的嵌入过程提供了一个忠实的视觉解释此外，我们提出的FAM可以应用于更多的视觉任务，包括表示学习[2]和开集识别[5]。对于输出特征向量的模型，传统的视觉解释方法需要额外的分类器。相反，基于FAM的方法可以直接解释特征表示。我们的主要贡献概述如下：• 我们提出了一种新的定位技术FAM，包括梯度FAM和分数FAM，生成完整的视觉解释的特征向量。与以前的方法不同，FAM适用于输出特征向量的视觉任务，如Re-ID和表示学习。• 在这项工作中，我们提出了新的度量标准，以客观地评估对Person Re-ID的视觉解释的忠实性可视化结果是否与特征表示直接相关。我们使用这些指标的结果显示，在数据集Market 1501 [30]和CUHK 03 [7]上，Score-FAM的性能优于其他方法。• FAM可以用于可视化自我监督表示学习模型，而无需单独训练。使用线性分类器。本文的其余部分组织如下。第2在第 3 节中，我们分别提出了 Grad-FAM 和 Score-FAM。第4节的实验结果证明了我们提出的方法的有效性和优越性我们在第5节中得出结论。2. 相关工作2.1. 可视化CNN作为解释CNN的第一批努力之一，Zeiler Fergus [27]使用去卷积方法来获得负责一个神经元激活的输入图像区域。西蒙扬等.[17]通过预测类置信度的偏导数生成类特定显着图w.r.t.输入。此外，Guided Backpropagation [18]修改了反向传播梯度，以提高显着图的质量Yosinski等人[26]通过合成使单元具有高激活的输入图像，可视化了网络中特定单元的功能。孙达拉-扬等[20]采用积分梯度将预测归因于输入。对于具有全局平均池化（GAP）层的CNN，Zhou etal.[33]证明了感兴趣的类c的类置信度Y c可以写成其全局平均合并的最后特征图A k的线性组合，Yc=wk·1Ak，（1）K我 J参考Visualizing CNN和Person Re的最新作品，其中wk是GAP层之后第k个神经元的权重，Ak国际新闻报10309A=w·A。（二）CG| ·|⟨ ⟩G=ReLU你好。|VG|GΣ·图2.我们提出的Score-FAM的管道该模型首先从输入图像中提取特征向量在前向传播中，在上采样和归一化之后，将指定层中的特征图作为输入图像上的掩模取出然后，将生成的图像输入到同一模型中，得到特征向量，并与原始特征向量进行对应的余弦相似度最后，通过特征图和基于相似性的权重的线性组合来生成可视化结果。是特征图的第k个通道中的像素（i，j）的值，Z是像素的数量然后，类c的类激活图（CAM）可以定义为：c k k凸轮cK其他池化层也提出了类似的方法，例如全局最大池化[9]和对数和-exp池化[11]。但这些方法仅限于具有特殊架构的CNN，其中倒数第二层是指定的池。作为CAM的推广，Grad-CAM [14]将wk的定义扩展为类置信度Yc的梯度w.r.t. 一个k来消除这种架构的限制。Σ1ΣΣ∂YcKZA我J然后用它扰动输入图像。在使用屏蔽输入进行前向传播之后，通过目标类别上的类别置信度来获得该特征图的重要性。此外，RISE [10]和mask [4]分别基于输入的随机和均值扰动解释了黑盒模型。从不同的角度来看，Desai Ramaswamy [12]提出了一种基于消融研究的其他无梯度方法消融-CAM。然而，上述方法都是建立在类自信之上的。这意味着可视化结果偏向于所选的类，并且对于不在训练类中的样本或没有分类器的模型没有意义 To handlethese tasks, Yang et al. [23]提出了一种方法来可视化一对图像之间的相似性模型与GAP层。对于图像q，与另一图像g的相似性与（vg，vq）成比例，其可以被公式化为（三）1vk·1Ak=1个单位vk·Ak，GReLU被应用于关注具有积极影响对阶级利益的影响由于其适用性|k Z i j|kZ ijZijk|v g|IJ（四）和良好的可视化结果，Grad-CAM已被广泛应用于许多任务，包括分类，图像字幕和视觉问答。考虑到梯度饱和问题的风险，这将导致梯度减少，Du等人。其中vq，vg是q和g的特征表示，vk是第k个元素，是两个向量的内积，并且是向量的大小。然后将激活图（RAM）分级定义为：[22]提出了一种无梯度的方法Score-CAM。分数- CAM第一次上采样特征映射到原始输入形状，GRAM =1vk Ak，（5）K|V G|LLLCGrad-CAM基季1IJ10310||ALLLZ基季Ln（f（Xg），f（X）n）L以揭示Re-ID任务中查询和图库图像之间的关联视觉线索。为了消除模型结构的限制，基于余弦相似度梯度提出了置信度加权RAM（CG-RAM）[15]。绝不-将被保留。对于具有GAP层的CNN，Grad-RAM是RAM的严格推广。值得注意的是，Grad-RAM与CG-RAM不同，CG-RAM是基于余弦相似度的梯度：f（X），f（Xg）较少，这些方法的可视化结果偏向于其他选择的图像，并且仍然不能提供dcos（f（X），vg）=|·|f（X g）|f(X g)|.（七）对输入图像的完整视觉解释。2.2. 人员重新识别Re-ID已被广泛研究为跨非重叠相机的特定检索问题[3]。其关键是获得一种具有鲁棒身份鉴别信息的特征表示.由于深度学习的优越性，CNN被普遍认为是Re-ID任务中最有效的广泛使用的ID判别嵌入（IDE）模型[31]通过将每个训练身份视为不同的类，将训练过程构建为分类问题。沿向前传播与测试的例子，特征向量送入对于任何模型，余弦相似度都接近于1当两个图像非常相似时。在这种情况下，相似度的梯度将变为零，并且视觉结果是不可靠的。根据前面的假设，我们用X替换等式（6）中的另一个图像Xg以去除额外的输入。然后我们可以得到方程：f（X）=f（X），（8）|f（X）|因此，将Grad-FAM定义为：LGrad-FAM = ReLU。Σ。1Σ Σ ∂|f（X）|你好。（九）K我 J分类层作为特征表示的输入图像。给定一个感兴趣的查询，可能属于同一身份的图像可以通过对应的特征向量之间的距离来检索。它现在被广泛用于Re-ID社区[24，25]。3. 方法在本节中，我们分别介绍了用于解释特征表示的Grad-FAM和Score-FAM机制。3.1. Grad-FAMRAM的视觉结果为模型定位了两幅图像之间的相似区域。当两个图像几乎相同时，例如图1（c）中的秩1，整个区域可以被视为相关联的视觉线索。在这种情况下，不同子区域的激活程度将与特征表示的重要性密切相关。此外，使用完全相同的图像可能会使相关性更接近。因此，我们假设用于具有自身的图像的RAM可以指出该框架可以通过对Grad-CAM的衍生部分进行轻微修改来实现。显然，梯度FAM只与给定的图像相关此外，其他基于梯度的方法也可以应用于该范例。3.2. 分数-FAM在Re-ID任务中，检索结果基于图库图像之间的相似性排序，其通常通过对应特征向量之间的余弦相似性来度量。受CIC [22]的启发，我们基于余弦相似度生成C通道相似度增加（CIS），以衡量每个特征映射对特征表示的重要性相似性的逐层增加：给定CNN模型v=f（X），取输入图像X并输出向量v. f中的内部卷积层l的特征图Al的第k个通道被表示为特征图Ak。对于已知的基线输入B，Ak对v的贡献对于特征表示至关重要。同时，我们以类似于Grad-CAM的方式Grad-RAM是被定义为S（A k）= dcos. f（X<$Mk），f（X）<$−dcos（f（B），f（X）），罚款为：ZAL lM k=标准。上（Ak），（十）L g = ReLU10000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000f（X g）你好，||其中dcos（·，·）是两个向量之间的余弦相似性Grad-RAMK吉吉吉（六）Up（·）表示将Ak上采样为输入的操作size，Norm（·）是一个归一化函数，它映射el-其中X，Xg是输入，另一个图像，f（X）是X的特征表示。ReLU层确保只有对相似性有积极影响的区域10311[0，1]范围内的元素，标准（M）=M− min M.（十一）最大M−最小M10312·←←∈−←←M.append（XM）←LLL.ΣLΣM←规范。上采样（A）H←.hΣ算法1评分-FAM算法要求：图像X，基线图像B，模型f（），层l确保：显著性图L评分-FAM初始化;//得到层l的激活和特征向量;Al，v0f（X），vbf（B）M[]，C为Al中的通道数对于k[0，C 1]，//从特征图中获取掩码;kKlL// Hadamard乘积;KL端M批次化（M）//从生成的图像中提取特征向量;vlf（M）//计算基于相似性的权重;对于k∈[0，C−1]，Sk←dcos（vk，v0）−dcos（vb，v0）方法时间（秒/图像）Grad-FAM0.05分数-FAM9.69表1.Grad-FAM和Score-FAM的计算时间如表1所示，Score-FAM需要比Grad-FAM多得多的计算成本，但对于少数样本，差距是可接受的。最后一个卷积层通常是首选，因为它是特征提取的终点[14]。然而，所有其他卷积层也可以在Grad-FAM和Score-FAM中使用。4. 实验在本节中，我们进行实验，以评估所提出的FAM方法的有效性。首先，第4.2节介绍了本工作中的实验装置。秒-L端一Lexp（Sk）L其次，我们客观地比较了性能与现有的国家的最k←Hexp（Sh）Kak·Ak四点二。然后，执行Score-FAM的健全性检查，第4.3节。最后，我们使用Grad-FAM来分析4.4节中的自监督表示学习。上采样的特征图用作掩模以扰动输入图像，仅保留感兴趣的区域。采用归一化函数使掩模更加平滑。为了避免掩蔽区域和显著区域之间的尖锐边界，我们使用输入的模糊图像来替换掩蔽区域。此外，模糊图像也被用作本工作中的基线图像B当掩模捕获特征表示关注的更多特征时，与输入图像的相似性因此，特征图的CIS得分指示特征表示的重要性。最后，我们提出的视觉解释方法Score-FAM被描述为：4.1. 实验装置所有实验都是在 NVIDIA Tesla P40 GPU 上使用Pytorch 1.6框架实现的。在下面的实验中，我们使用ResNet-50作为两个公共Re-ID基准数据集的基础模型。Market 1, 501[30]数据集包含由六个摄像头捕获的1，501个身份的32，668张个人训练集由751个身份的12,936张图像组成，测试数据由其他750个身份的图像组成。CUHK03[7]数据集包含14，096张图像，包含1，467个不同的身份。每个人都是从中大校园的两个摄像机中捕获的，L评分-FAM=ReLU.Σkak·Ak、（十二）[32]分别提供具有767和700个不相交标识的固定训练/测试分裂。数据集提供手动注释和DPM检测的边界框。expS（Ak）ak=l-是的（13）exp S（A）与[14，22]类似，ReLU也适用于特征图的线性组合因为只有对特征表示有积极影响的区域同时，不同特征图的CIS得分具有不同的幅度。因此，将Score-FAM的权重表示为post-softmax值是合理的。所提出的框架的流水线如图2所示，实现的完整细节在算法1中描述。Re-ID模型针对每个数据集进行了相应的训练，其中包含技巧包[8]，这是ImageNet [13]对Person Re-ID进行预训练的强基线。Re-ID模型的输入图像大小调整为[256，128]。我们使用高斯模糊对原始输入进行模糊处理，以生成Score-CAM和Score-FAM的基线图像。在[28]之后，高斯模糊，半径和西格玛的参数分别设置为51和50。我们的实验涉及4种最先进的视觉解释方法，包括Grad-CAM ， Score-CAM ， RAM 和 CG-RAM 。 Grad-CAM和Score-CAM需要选择一个类来生成显着图，这L评分-FAM←ReLU .ΣΣ10313将是103142000年，

下载后可阅读完整内容，剩余1页未读，立即下载