没有合适的资源?快使用搜索试试~ 我知道了~
神经元重要性感知权重转移方法:学习分类器中神经元的领域知识
选择您的神经元:通过神经元重要性描述领域知识兰普拉萨河Selvaraju1 <$,Prithvijit Chattopadhyay1,Mohamed Elhoseiny2,Tilak Sharma2,Dhruv Batra1,2,Devi Parikh1, 2,and Stefan Lee11佐治亚理工学院2Facebook{ramprs,prithvijit3,dbatra,parikh,steflee}@gatech.edu{elhoseiny,tilaksharma,dbatra,parikh}@fb.com抽象。用于图像级分类任务的卷积神经网络中的各个神经元已经被证明隐式地学习语义上有意义的概念,范围从简单的纹理和形状到整个或部分对象-形成通过学习过程获得的概念的“字典”。 在这项工作中,我们介绍了一个简单,高效的零杆学习方法的基础上,这一观察。 我们的方法,我们称之为神经元重要性感知权重转移(NIWT),学习将关于新的“看不见的”类的领域知识映射到这个学习概念的字典上,然后优化网络参数,这些参数可以有效地组合这些概念-本质上是通过在深度网络中发现和组合学习的语义概念来学习分类器。我们的方法在CUBirds和AWA2广义零射击学习基准测试上比以前的方法有所改进我们展示了我们的方法上的一组不同的语义输入外部域知识,包括属性和自然语言标题。 此外,通过学习逆映射,NIWT可以为新学习的分类器所做的预测提供视觉和文本解释,并提供神经元名称。 我们的代码可在www.example.com上https://github.com/ramprs/neuron-importance-zsl。关键词:零次学习·可解释性·梯度CAM1介绍在过去的几年里,深度神经网络已经突破了标准分类任务的界限,在许多具有挑战性的基准测试中的性能达到了接近人类水平的精度。然而,一个警告是,这些深度模型需要大量的标记数据集-无法像人类一样从少数例子或对看不见的类的描述中进行概括。为了缩小这一差距,从外部领域知识中*同等贡献†部分工作在Facebook2兰普拉萨河Selvaraju和P.Chattopadhyay图1:我们提出了神经元重要性感知权重转移(NIWT)方法,该方法将关于看不见的类的自由形式的领域知识映射到预训练的深度网络中的相关概念敏感神经元。然后,我们优化了一种新的分类器的权重,使得这组神经元的激活导致在广义零触发学习设置中看不见的类的高输出分数。单独-作为人类,我们获取和传递关于新概念的知识的大部分方式都是参考或通过已知概念的组合。例如,当听到“红腹啄木鸟是一种小而圆的鸟,有白色的胸部,红色的冠,和斑点的翅膀。”,我们可以组合我们对颜色和鸟类的理解,想象我们如何将这样的动物与其他鸟类区分开来。然而,将类似的组合学习策略应用于深度神经网络已被证明具有挑战性。虽然深度网络中的单个神经元已被证明可以学习局部化的语义概念,但这些单元缺乏可引用的基础即使网络包含对“白乳房”和“红冠”敏感的单元这一观察结果鼓励了先前在可理解性方面的工作,然而,该注释过程是模型相关的,并且需要针对每个训练的模型重新执行,这使得它是扩展的且不切实际的。此外,即使给定“新名字”,如何利用这种神经元级描述性监督来训练新分类器也是一个悬而未决的这个问题是我们方法的核心许多现有的零触发学习方法利用深度特征(即来自在一些大规模任务上预训练的网络中的一些后期层的激活向量)来学习具有类描述的联合嵌入[32,1,3,5,23,8,9,7]。这些更高层次的特征在追求阶级歧视的过程中瓦解了许多潜在的概念;因此,利用这些特征,访问较低级别的概念并以新的方式重新组合它们以表示新的类是困难的。另一方面,直接将类描述映射到较低级别的激活由于类的实例内的空间和视觉差异而导致的激活的高类内方差使其复杂化。我们的目标是通过将类描述(包括属性和自由形式的文本)与底层神经元对最终网络决策的重要性联系起来来解决这些挑战[26]。选择你的神经元3在我们的方法中,我们称之为基于神经元重要性的权重转移(NIWT),我们学习了特定于类的领域知识与深度网络中单个神经元的重要性之间的映射。使用图像(以计算神经元重要性)和训练类的相应领域知识表示然后,我们使用这个学习的映射来预测神经元的重要性,从知识看不见的类,并优化分类权重,使所得的网络与预测的重要性。换句话说,基于未知类别的领域知识然后,我们可以学习网络权重,使得预测重要的神经元实际上有助于最终决策。通过这种方式,我们将先前看不见的类别的描述连接到分类器的权重,可以在测试时预测这个类别据我们所知,这是第一个零射击学习方法,将领域知识与中间神经元对齐一个深网。作为额外的益处,从领域知识到神经元重要性的学习映射使神经元以可解释的语义为基础;自动执行神经元命名。我们专注于具有挑战性的广义零拍(GZSL)学习设置。与标准ZSL设置不同,标准ZSL设置仅评估看不见的类的性能实际上,GZSL通过放弃不切实际的假设而变得更具挑战性,即测试实例先验地已知来自标准ZSL中看不见的类我们在两个标准数据集上验证了我们的方法- Caltech-UCSD Birds(CUB)[30]和Animals with Attributes 2(AWA2)[32] -显示出比现有方法更好的性能。此外,我们通过文本和视觉的例子来检查我们的分类决策的接地解释捐款. 具体而言,我们在这项工作中做出了以下贡献:◦ 我们引入了一种零短学习方法,该方法基于将看不见的类描述映射到深度网络中的神经元重要性,然后优化看不见的分类器权重以有效地结合这些概念。我们证明了我们的方法的有效性,通过报告改进的广义零杆基准CUB和AWA2。我们还表明,我们的方法可以处理任意形式的领域知识,包括属性和标题。◦ 与现有的方法相比,我们的方法是能够解释其零杆预测与人类可解释的语义属性。我们展示了如何逆映射神经元的重要性领域的知识也可以学习,提供可解释的视觉和文字的解释所作的决定,新学习的分类器看到的和看不见的类。2相关工作模型可解释性。我们的方法将人类可解释的领域知识与深度神经网络中的神经元对齐,向这些神经元灌输可理解的语义含义。最近有很多人对4兰普拉萨河Selvaraju和P.Chattopadhyayi=1建立机器学习模型,在决策过程中是透明和可解释的。对于深度网络,一些作品提出了基于网络内部状态或结构的解释[34,12,37,26]。与我们的工作最相关的是Selvaraju等人的方法。[26]其计算神经元重要性作为视觉解释流水线的一部分。在这项工作中,我们利用这些重要性分数将自由形式的领域知识嵌入到深度网络中的单个神经元中,并根据这些信息训练新的分类器相比之下,Grad-CAM [26]只是将输入区域的重要性可视化。基于属性的零射击学习。零触发学习的一种长期追求的方法是利用关于公共属性和共享部分的知识(例如,毛茸茸的,除了更简单,更有效[25,3,2,32]。基于文本的零次学习(ZSL)。 在并行研究中,从网络中提取的纯文本文章已经被利用来代替属性来设计零射击视觉分类器[8]。新类别的描述是纯文本的(避免使用属性),并且可以通过仅从web挖掘关于感兴趣的类别的文章(例如,Wikipedia)。最近的方法已经采用了基于深度神经网络的分类器,从而导致对零炮精度的显著改善(Boetal.[18]同上。所提出的方法主要依赖于学习文本描述和图像之间的相似性函数(通过深度神经网络[18]或内核[7]线性地[8,25在测试时,通过将图像关联到与相应的类级文本具有最高相似性的类来执行分类最近,Reedet al.[24]表明,通过收集每个图像10个句子,他们基于句子的方法可以在CUB上优于基于属性的替代方案。与这些方法相反,我们直接将外部域知识(基于文本或其他)映射到深度神经网络的内部组件(神经元),而不是学习图像和文本之间的关联映射3神经元重要性感知权重转移(NIWT)在本节中,我们将描述我们的神经元重要性感知权重转移(NIWT)方法来进行零触发学习。在高层次上,NIWT将自由形式的领域知识映射到深度网络中的神经元,然后基于尊重这些基础的新颖类描述来学习分类器。具体来说,NIWT包括三个步骤:(1)估计固定层处的单个神经元的重要性。由网络对可见类做出的决策(参见图2a),(2)学习领域知识和这些神经元重要性之间的映射(参见图2b),以及(3)相对于未见类的预测神经元重要性优化分类器权重(参见图2c)。我们将在以下各节中讨论每个阶段。3.1准备工作:广义零次学习(GZSL)考虑数据集D={(xi,yi)}N包括示例性输入-输出对从一组可见的类S ={1,. . . ,s}和不可见类U ={s +1,. . . ,s + u}。选择你的神经元5Ci、j图像卷积网络课成绩黑 足信 天 翁威 尔逊柳莺北 画眉红 腹啄 木鸟变换矩阵阶级属性来自ImageNet的随机采样图像查看课程威 尔逊柳莺北 画眉红 腹啄 木鸟黄 头黑 鸟看不见的阶级空间维度黄莺类对准损失更新不可见的类权重红 腹啄木鸟(一)(b)第(1)款黄头黑鸟黄头黑鸟(c)第(1)款图2:我们的神经元重要性感知权重转移(NIWT)方法可以分为三个阶段。a)在固定层处为可见类提取类特定神经元重要性,b)学习线性变换以将自由形式的域知识投影到这些提取的重要性,以及c)优化新分类器的权重,使得神经元重要性与通过该映射为不可见类预测的神经元重要性相匹配。为了方便起见,我们使用下标S和U来分别指示对应于可见类和不可见类的子集,例如DS={(xi,yi)|yi∈ S}。此外,假设存在领域知识K={k1,… ks+ u}对应于每个类(例如,类级属性或自然语言描述)。简而言之,广义零激发学习的目标是学习从输入空间X到可见和不可见类标签的组合集合的映射f:X → S U,只使用属于可见类的领域知识K和实例DS。3.2类依赖神经元重要性类描述捕获关于相应图像内容的突出概念类似地,分类器也必须学习区分性视觉概念以按顺序然而,这些概念并不以人类可解释的语言为基础。在这个阶段中,我们识别出与这些判别概念相对应的神经元,然后将它们与3.3节中的领域知识进行比对。考虑针对分类训练的深度神经网络NET(·),其预测得分{oc|c∈S}。神经元η对最终得分〇 c的重要性的一个实际度量简单地是〇 c相对于神经元的激活α η的梯度(其中η索引通道维度)。对于包含卷积单元(在空间上复制)的网络,我们遵循[26]并简单地将重要性计算为平均梯度(沿空间维度),将神经元重要性αn写为全局平均池化联系我们αn=1 ΣHΣW阿罗克(一)cHW i=1j =1尼伊季联系我们其中n反向传播梯度是空间位置i,j处的神经元n的激活。对于给定输入,对于给定类,可以经由单个反向传递,随后是用于卷积单元的全局平均池化操作,来计算网络中每个神经元的重要性。实际上,我们的实验主要集中在网络中单层的α上。我们注意到,神经元重要性的其他度量具有has_bill_shape::daggerhas_wing_color::blackh as_bac k_c. 颜色::black...红 肚皮啄 木鸟对准损失亚6兰普拉萨河Selvaraju和P.ChattopadhyayC在不同的背景下提出[33,15];然而,这种简单的基于梯度的重要性度量具有我们利用的一些显著的属性。首先,我们发现基于梯度的重要性分数是相当一致的跨图像的同一类,尽管实例之间的视觉变化,同样的相关性差跨类。为了定量评估这一点,我们计算了在细粒度多类任务(VGG-16的conv5-3)上训练的一个进化神经网络的最终进化层中神经元的α[27]在AWA2上训练[32]),用于10,000张随机选择的图像。 我们观察到同一类别内的实例的平均秩相关性为0.817,并且跨类别对的平均秩相关性为0.076。α与类内输入变化的这种关系可能部分归因于使用ReLU [ 20 ]激活的网络中的分段线性决策边界。如[22]所示,这些线性区域之间的转换在同类输入之间比跨类输入之间的频率低得多。在同一个线性区域内,激活梯度(以及α)基本相同。.其次,该测度关于模型参数是完全可微的我们用它来学习新的梯度方法分类器(见3.4节)3.3将领域知识映射到神经元在不失一般性的情况下,考虑NETS(·)内的单层L。 Gi v enainstance(xi,yi)∈DS,令ac={αn|n ∈ L}是当xi通过网络时,针对L中关于类c的神经元计算的重要性的向量。在本节中,我们将学习从领域知识到这些重要性向量的简单线性映射-将可解释语义与单个神经元对齐。我们首先计算每个可见类实例(xi,yi)的重要性向量aii,并将其与相应类的领域知识表示kyi进行给定这个(ayi,kyi)对的数据集,我们学习线性变换WK→a来将领域知识映射到重要性。由于重要性是基于梯度的,因此我们基于余弦距离对预测的重要性中的误差进行了归一化我们最小化余弦距离损失为(WK→a·kyi)·ayiL(ayi,kyi)=1−WK→a·kyi、(二)通过梯度下降来估计Wk→a。当预测的和真实的重要性向量的平均等级相关性对于来自S的一组保持的验证类稳定时,我们停止训练。值得注意的是,这是一个多对一的映射,一个类的领域知识需要预测许多不同的重要性向量。尽管如此,该映射实现了验证类实例的0.2至0.5的平均秩相关性。我们在3.4节中探讨了重要性向量预测中的误差对权重优化的影响。我们还注意到这个简单的线性映射C. 也可以以相反的方式学习,将神经元重要性映射到领域知识中的语义概念(我们将在第6节中探索)3.4神经元对分类器权重的重要性在本节中,我们使用预测的重要性来学习未见过类的分类器。由于这些新的分类器将建立在训练过的seen-class网络选择你的神经元7NETS中,我们修改NETS扩展输出空间,包括看不见的类-扩展最终的全连接层以包括具有权重向量w1,. . .,wu,使得网络现在额外地输出得分{0c|c∈U}。我们把这个扩展的网络称为NETS∪U。在该阶段,未看见的类的权重从多变量正态分布中随机采样,其中参数从所看见的类权重中估计给定学习到的映射WK→A和看不见的类域知识KU,我们可以预测看不见的类重要性a u},其中未看见的类c的重要性向量被预测为a c = W K-a k c。对于给定的输入,我们可以计算每个ch个不可见类c的i个分量向量a c。 由于a_c是weig_t参数w_c的函数,w_e可以简单地用预测的重要性a_c来补充a_c,并且用梯度下降来优化w_c,从而最小化预测的重要性向量和观察到的重要性向量之间的余弦距离损失。然而,余弦距离损失不考虑尺度,并且在没有正则化的情况下,可见和不可见类的权重(以及因此的输出)的尺度可能急剧变化,从而导致偏向一个集合或另一个集合。为了解决这个问题,我们引入了一个L2正则化项,它将学习到的不可见权重约束为与可见权重的平均值WS相似的尺度。我们将最终目标写为ac·acL(ac,ac)=1−a+λwc−wS,(3)其中λis控制该正则化的强度。我们在第5.1节中研究了这种权衡的影响,发现训练对广泛的λ值具有鲁棒性。我们注意到,由于观察到的重要性ac本身是根据网络梯度计算的,因此基于此损失更新权重需要计算Hessian向量积;然而,这是相对有效的,因为每个不可见类的权重的数量很小并且独立于其它类的权重的数量。训练图像。请注意,为了执行上述优化,我们需要通过网络传递图像以计算重要性向量。我们观察到重要性与图像特征仅弱相关,并且发现它们可以针对任何看不见的类来计算,而不管输入图像类具体来说,我们将ImageNet [6]中的随机图像与随机元组(a_c,k_c)配对,以执行weig_t优化的重要性。4实验在本节中,我们评估了我们的广义零触发学习(GZSL)方法(第4.1节),并对NIWT的每个阶段进行了分析(第5节)。4.1实验环境数据集和指标。 我们进行我们的GZSL实验上8兰普拉萨河Selvaraju和P.Chattopadhyay– AWA2数据集由50 种动物的37 ,322 张图像组成(平均每个类别 764 张 , 但 范 围 很 广 ) 。每个类被标记有85个二进制和连续属性。– Caltech-UCSDBirds 200(CUB)[30]-CUB数据集由11788张图像组成,对应于200种鸟类。每个图像和每个物种分别用312个二进制和连续属性标签进行注释。这些属性描述了细粒度的物理鸟类特征,例如特定身体部位的颜色和形状。此外,每个图像与10个人类字幕相关联[24]。对于这两个数据集,我们使用[32]中提出的GZSL分裂,确保ImageNet [ 6 ]数据集中没有出现看不见的类,ImageNet [6]数据集通常用于训练分类网络进行特征提取。与[31]一样,我们使用在可见和不可见类上计算的类归一化准确度来评估我们的方法(即200-CUB的方式)模型 我们对ResNet101 [13]和VGG16 [28]模型进行了实验,这些模型在ImageNet [6]上进行了预训练,并对所看到的类进行了微调。对于每一个,我们通过微调所有层来训练一个与ResNet相比,我们看到固定模型的准确率急剧下降(60.6%微调对CUB的28.26%固定,90.10%对AWA2的70.7%),VGG在微调和固定设置下实现了类似的准确率(74.84%微调对CUB的66.8%固定,92.32%对AWA2的91.44%我们在附录中提供了更多的培训细节。NIWT设置。 为了将领域知识训练到重要性映射,我们保留了五个可见的类,并在观察到的和预测的重要性之间的等级相关性最高时停止优化。对于属性向量,我们直接使用类级别的属性,对于CUB上的字幕,我们为每个类使用平均word2vec嵌入[19]当优化给定重要性的权重时,当损失在40次迭代中未能改善1%时,我们停止我们通过H上的网格搜索选择λ(1e−5到1e−2之间),学习率(1e− 5到1e−2)和批量大小({16, 32, 64})的值,用于从所提出的分裂[32]的可见类中采样的不相交的验证类①的人。基线。我们比较NIWT与一些性能良好的零拍学习方法的基础上学习联合嵌入的图像特征和类信息。像ALE [2]这样的方法专注于使用某种形式的排名损失来学习类标签和视觉特征的兼容性除了与[32]中报道的ALE进行比较之外,我们还比较了在测试集上直接调整超参数的设置我们还与[35]最近的深度嵌入方法进行了比较,该方法也利用了深度网络,将领域知识与深度特征端到端地联合对齐。对于上述两个基线,我们利用作者提供的代码,并通过直接调整测试集上的超参数来报告结果,以便传达性能的上限。选择你的神经元9[30]第三十二话方法AccUAccS HAccUAccS H电话:+86-21 - 6666666传真:+86-21 - 66666666电话:+86-21-6666666传真 :+86-21 - 66666666深度嵌入。[35]228.582.342.322.3 45.1 29.9NIWT-属性21.6 37.8 27.5 10.2 57.7 17.3澳门永利娱乐场[2]222.775.134.9 24.160.8 34.5深度嵌入。[35]221.559.631.624.757.434.5NIWT-属性42.338.840.520.7 41.8 27.7NIWT-标题N/A 22.1 25.7 23.8澳门永利娱乐场[2]217.9 84.329.5 22.254.8 31.6深度嵌入。[35]228.881.742.624.145.231.5NIWT-属性43.8 30.7 36.1 17.0 54.6 26.7电话:+86-21- 6666666传真:+86-21-66666666深度嵌入。[35]226.6 83.3 38.2 27.0 49.7 35.0NIWT-属性35.375.548.1 31.5 44.937.0NIWT-标题N/A 15.9 46.5 23.6表1:AWA2和CUB的拟议分割[32]上的广义零次学习性能。 我们报告类归一化的准确性,看到的和看不见的类和谐波平均值。1转载自[32]。 2基于作者提供的代码,通过调整测试集上的超参数来传达性能的上限。4.2结果我们在表1中显示了使用所有模型设置的AWA2和CUB的结果有一些有趣的趋势可以观察:1. NIWT在广义零触发学习方面处于最先进的水平对于这两个数据集,基于VGG的NIWT属性为调和平均值建立了新的最新技术水平(AWA2为48.1%,CUB为37.0%)。对于AWA2,这相当于比基于深度特征嵌入的现有技术提高了约10%。这些结果意味着将领域知识映射到内部神经元可以导致改进的结果。2. Seen类微调产生改进的调和平均值H。对于CUB和AWA 2,在可见类别图像上微调VGG网络为NIWT提供了显著的增益(分别为26.7%→37.0%H和36.1%→48.1%H ) ; 对 ResNet 进 行 微 调 也 有 类 似 的 收 益 ( CUB 上 为17.3%→27.7%H,AWA 2上为27.5%→ 40.5%H)。值得注意的是,这些趋势似乎不一致的比较方法。3. NIWT有效地为属性和自由形式语言提供了基础。我们看到两个网络的属性和标题都表现强劲(VGG的H为37.0%和23.6%,ResNet的H为27.7%和23.8%)。我们注意到,我们使用相对简单的,类平均表示的字幕,这可能有助于较低的绝对性能。ResNet101 [13]VGG16 [28]固定FT固定FT10兰普拉萨河Selvaraju和P.Chattopadhyay10090807060504030201000102030405060708090100110120130140150噪声标度(ε)百分之四十五百分之四十二点五百分之四十百分之三十七点五百分之三十五32.5%百分之三十百分之九十87.5%百分之八十五82.5%百分之八十百分之七十七点五百分之七十五0 1e-7 1e-6 1e-5 1e-4 1e-3 1e-20 1e-7 1e-6 1e-5 1e-4 1e-3 1e-2正则化系数(λ)(a) 噪声容限()(b)正则器灵敏度(λ)图3:针对在AWA 2(a)上训练的VGG-16的权重优化的重要性向量的分析 我们发现,即使面对高幅度的噪声,也可以为预训练的网络恢复地面真实权重。(b)我们还展示了正则化项对最终模型性能的重要性。5分析为了更好地理解NIWT的不同阶段,我们进行了一系列的实验来分析和隔离我们的方法中的各个组件。5.1正则化系数λ的影响。我们对权重优化的重要性的一个关键组成部分是正则化器,它强制学习的不可见权重接近平均可见权重为了探索正则化子的效果,我们将系数λ从0变化到1e−2。图3b示出了在不同λ的一致性下AWA2数据集的最终可见和不可见的类归一化准确度。在没有正则化(λ=0)的情况下,看不见的权重往往有点太小,并且在AWA2上仅实现33.9%的看不见的准确度随着λ的增加,看不见的准确度增加,直到在λ=1e−5处达到峰值,看不见的准确度为41.3%当然,这种改进伴随着在相同间隔上约3%的可见精度的折衷。当λ增大到>1e−4时,正则化约束变得太强,NIWT很难学习到看不见的类。5.2神经元的噪声容限对权重优化的重要性NIWT的一个重要组成部分是能够将卷积网络在某些可引用域中学习的概念接地。由于这个映射WK→A中包含的固有噪声,在扩展网络NETS∪U中为看不见的类获得的分类器并不完美。为了判断能力的优化过程中,我们的实验与玩具设置,其中我们初始化一个看不见的分类器头与相同的维度作为所看到的类,并试图明确地恢复所看到的类的权重与监督只从预言机AC从所看到的分类器头所看到的类。模拟观察到的分类准确度(%)可见精度(AccS)不可见精度(Accu)选择你的神经元11误差,我们增加了零中心高斯噪声的增加水平,并研究了恢复性能方面的准确性恢复分类器头上看到的测试分裂。也就是说,根据重要性向量的监督被构造如下:a~c=ac+||一个c||1N(0,I)(4)我们操作在不同的值,表征不同级别的腐败的监督从一个C和观察恢复性能的准确性方面的恢复分类头。图3a示出了噪声对在AWA 2数据集的40个可见类上训练的VGG-16网络恢复可见分类器权重(fc 7)的能力的影响,该网络具有与用于不可见类的目标相同的目标在c监督上没有噪声的情况下,我们发现我们完全能够恢复所看到的类权重,并且能够保持所看到的类的预训练准确性即使噪声水平为10(或添加幅度为c的平均范数的10倍的噪声),我们也只观察到恢复的可见类权重的准确性略有降低正如预期的那样,随着我们增加噪声水平,这种下降趋势继续下去,直到我们在恢复的分类器头上达到几乎机会水平的性能该实验表明,权重优化的重要性向量即使对于相当极端的噪声也是相当鲁棒的。5.3网络重要性深度提取。在本节中,我们将探索NIWT相对于我们在卷积网络中提取重要性向量作为实验(除了表1之外),我们使用在VGG-16的不同卷积层提取的重要性向量来 我们观察到,在我们用conv5_3实验的那些中,H = 48时表现最好。1,然后是conv4_3(H = 39. 3)、conv3_3(H = 35. 5)、conv2_2(H = 23. 8)和conv2_2(H = 20. (八)。我们还对全连接层fc6和fc7进行了实验,结果H值为40。分别为2和1请注意,对从倒数第二层fc7提取的重要性向量执行NIWT相当于直接从域空间表示(kc)学习看不见的头部分类器权重。与我们的假设一致,这在所有度量中表现非常差,几乎没有涉及对看不见的类的学习。尽管我们注意到这可能是由于该过程中涉及的线性变换WK→A的有限容量5.4加权输入图像的重要性我们在权重优化过程中使用不同的输入图像(随机噪声图像,ImageNet图像和可见类图像)来评估性能我们在Ta中显示每个的结果采样模式访问U访问SH随机正态分布23.9 41.0 30.2ImageNet 31.5 44.9 37.0Seen-Classes 36.4 40.0 38.1表2.正如预期的那样,输入图像更接近于未看到的类;然而,我们注意到,即使是随机噪声图像,也会发生学习。表2:通过对来自VGG-CUB上的NIWT属性的不同组的图像进行采样得到的结果12兰普拉萨河Selvaraju和P.Chattopadhyay6解释NIWT在本节中,我们将演示如何使用NIWT为新学习的分类器对未见过的类所做的决策提供视觉和文本解释。除了Grad- CAM [26]提供的视觉解释外,我们还利用了一个映射(类似于第2节中的映射)。3.3)在相反方向神经元重要性ac到领域知识K,以使在用作外部知识的文本领域中做出的预测为由于该映射明确地将可解释域中的重要神经元接地,因此我们自动获得神经元名称。视觉解释。 由于NIWT学习与看不见的类相关联的分类器作为对现有深度网络的扩展,因此它也保留了新类的端到端可区分流水线。这允许我们直接使用任何现有的深度网络可解释性机制来可视化地解释在推理时做出的决策。我们在看不见的类的实例上使用Grad- CAM [ 26 ]来可视化对决策的支持(见图2)。4)用NIWT学习得到的分类权值对网络进行分类。评价目视检查。定量地,我们评估所生成的地图看到的和看不见的类的平均分数的梯度-CAM激活内存在的边界框注释与本对象。在我们看到的类中,我们发现这个数字是0。80± 0。008对0的情况。79 ±0。005对于CUB上看不见的类通过NIWT学习的图像确实能够在进行预测的同时聚焦于输入图像中的相关区域。文本解释。节中在3.3中,我们学习了一个映射WK→a,将外部领域知识(属性或标题)嵌入到网络特定层的神经元类似地,通过学习从神经元重要性到属性(或标题)的逆映射,我们可以将与预测相关联的神经元重要性建立在人类可解释的域中。我们利用这样的逆映射来获得属性空间中的分数(给定c),并检索前k个属性作为解释。通过Wa→K从某个ac检索到的高得分kc强调了该属性对于对应类c的相关性。这有助于我们在属性空间中由学习的看不见的分类器头做出的类分数决策,从而为决策提供解释评估文本解释。我们通过在每个实例水平-83上的前k个生成的解释中捕获的相关地面实况属性的百分比来评估这种文本解释的保真度。9%的CUB使用VGG-16网络。定性结果见图。图4示出了展示由模型学习的用于预测给定目标类别的区分属性的视觉和文本解释。选择你的神经元13(a)(b)(c)(d)其他事项GT级原图视觉解释文字解释重要神经元与相应激活图neuron_id=145has_eye_colorblackneuron_id=299has_crown_coloryellowneuron_id=20has_wing_colorblackn.黄头黑鹂has_eye_color=黑色,has_underparts_color=白色,has_belly_color=白色,has_breast_color=白色,has_breast_pattern=纯色neuron_id=145has_eye_colorblackneuron_id=126has_throat_coloryellowneuron_id=20has_wing_colorblackn.黄头黑鹂has_eye_color=黑色,has_throat_color=黄色,has_wing_color=黑色,has_upperparts_color=黑色,has_bill_color=黑色neuron_id=131has_throat_colorblackneuron_id=259has_primary_colorblackneuron_id=193has_nape_colorblack沟嘴鸭has_throat_color=黑色,has_primary_color=黑色,has_nape_color=黑色,has_foreground_color=黑色,has_crown_color=黑色neuron_id=131has_throat_colorblackneuron_id=116has_breast_colorblackneuron_id=50has_underparts_colorblack沟嘴鸭has_throat_color=黑色,has_breast_color=黑色,has_nape_color=黑色,has_primary_color=黑色,has_foreground_color=黑色neuron_id=145has_eye_colorblackneuron_id=126has_throat_coloryellowneuron_id=20has_wing_colorblackn.黄头黑鹂has_eye_color=黑色,has_throat_color=黄色,has_wing_color=黑色,has_breast_color=黄色,has_bill_color=黑色neuron_id=305has_crown_colorwhiteneuron_id=132has_throat_colorwhiteneuron_id=4has_bill_shapehooked_seabird北富尔默has_forward_color=白色,has_crown_color=白色,has_throat_color=白色,has_bill_shape=hooked_seabird,has_nape_color=白色神经元_id=126神经元_id=45神经元_id=111有喉色具有下部颜色有乳房颜色黄色黄色黄色has_eye_color=黑色,has_bill_length=shorter_than_head,has_shape=perching_like,has_underparts_color=黄色,has_primary_color=黄色GT级别:Grad-CAM黄腹用于GT级鹟神经元_id=145神经元_id=151神经元_id=235有眼睛颜色有票据长度具有形状has_throat_color=黄色,黑色短于头栖状预测类别:黄色has_underparts_color=黄色,喉绿鹃has_breast_color=黄色,has_primary_color=黄色,has_belly_color=黄色Grad-CAM用于预测类(a)(b)(c)(d)图4:使用NIWT的解释的不可见类的成功和失败案例:成功案例:(a)地面实况类和图像,(b)GT类别的Grad-CAM视觉解释,(c)使用从c到领域知识的逆映射获得的文本解释,(d)用于该决定的最重要的神经元,它们的名称和激活图。 最后2行显示了失败案例,其中模型预测了错误的类别。 我们显示了Grad-CAM地图和文本解释的地面真相和预测类别。 通过观察失败案例的解释,我们可以看到模型的错误并非完全不合理。14兰普拉萨河Selvaraju和P.Chattopadhyay神经元名称和焦点。神经元名称是由深度卷积网络捕获的概念的可引用基础。与以前的方法不同,我们通过馈送与被激活的神经元相对应的独热编码向量来自动获得神经元名称(不使用任何额外的注释到Wa→K,并执行类似的top-1检索过程(如文本解释)以获得相应的“neur on name”。图4提供了命名神经元及其激活图的定性示例。绿色的块显示了未见过的类图像被NETS∪U正确分类的实例。相反,那些红色的对应于错误。这些列对应于类标签、图像、类的Grad-CAM可视化、属性空间中的文本解释以及负责目标类的前3个神经元名称及其相应的激活图。例如,请注意,在第二行中,对于正确分类为黄头黑鸟的图像,类的可视化此外,文本的解释也过滤出这些属性的基础上的神经元的重要性分数-喉颜色黄色,翅膀颜色黑色等,此外,当我们专注于个别神经元相对较高的重要性,我们看到,个别神经元集中在视觉区域,其特征在于它们分配的“名称”。这表明我们的神经元名称确实代表了网络学习的概念,并且在图像中有很好的基础。考虑错误分类的示例(第7行和第8行)。查看图像中与地面实况的文本解释中的属性的交集以及预测类相对应的区域,我们可以看到网络无法专注于主要的区别属性。类似地,神经元名称和对应的激活具有与预测类的不匹配,其中激活图聚焦于7结论总 而 言 之 , 我 们 提 出 了 一 种 称 为 神 经 元 重 要 性 感 知 权 重 转 移(NIWT)的方法我们的权重优化方法在此基础上的分类器看不见的类,优于现有的方法上的一般化零杆学习基准。我们进一步证明,语言和神经元之间的这种基础也可以反向学习,将神经元与人类可解释的语义概念联系起来,提供视觉和文本解释。鸣谢。 我们感谢Yash Goyal和Nirbhay Modhe在数据方面的帮助; PeterVajda和Manohar Paluri进行了有益的讨论。这项工作得到了NSF,AFRL,DARPA,Siemens,Google,Amazon,ONR YIPs和ONR Grants N 00014 -16-1-{2713,2793}的部分支持。本文所载的观点和结论是作者的观点和结论,不应被解释为必然代表美国政府的官方政策或认可,无论是明示还是暗示。政府或任何赞助商。选择你的神经元15引用1. Akata,Z.,Perronnin,F.,Harchaoui,Z.Schmid,C.:基于属性分类的标签嵌入IEEE计算机视觉和模式识别会议论文集。pp.第8192. Akata,Z.,Perronnin,F.,Harchaoui,Z.Schmid,C.:图像标签嵌入分类. IEEE Transactions on pattern analysis and machine intelligence38(7),14253. Akata,Z.,Reed,S.,Walter,D.李,H.,Schiele,B.:输出嵌入的评估用于细粒度图像分类。 IEEE计算机视觉和模式识别会议论文集。pp. 29274. 鲍德Zhou,B.,(1991年),中国地质大学,Khosla,A.Oliva,A.,T
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功