没有合适的资源?快使用搜索试试~ 我知道了~
1由线性解释器Pablo Naviarte Michelini,刘汉文,陆云华,江兴群京东方科技有限公司,公司{pnavarre,liuhanwen,luyunhua,jiangxingquan}@ boe.com.cn摘要卷积网络是一种大型线性系统,分为若干层,并由非线性单元连接这些单元是允许网络适应输入的“关节”。为了理解网络如何解决问题,我们必须看看实体中的清晰决策。如果我们能够捕捉到非线性单元对特定输入的动作它还将揭示非线性的作用,因为所得到的线性系统,线性解释器,取决于输入图像。我们引入了一个挂钩层,称为LinearScope,它允许我们并行运行网络和线性解释器。它的实现简单、灵活、高效。从这里我们可以做许多好奇的调查:这些线性系统是什么样的当行和线性层· 卷积非线性层· ReLU线性解释器LinearScope非线性线性解释器变换矩阵的列是图像,如何他们长什么样这些线性变换依赖于什么样的基? 答案取决于问题· 完全连接· 平均池化· 等· 乙状· Max-pooling· 实例规范· 等ReLUSigmoidMax-Pooling实例范数二元掩模连续掩模非均匀下采样线性归一化通过它,我们可以了解一些用于分类,超分辨率(SR)和图像到图像翻译(I2I)的流行架构对于分类,我们观察到流行的网络使用对于SR和I2I,我们发现CNN使用类似于人类视觉系统的对于I2I,我们揭示了1. 介绍在本文中,我们将通过使用线性系统来探索卷积网络的可解释性。主要任务是提高我们对深度神经网络如何解决问题的理解由于深度学习系统在机器学习基准测试中的主导地位,这一点变得更加问题是如何解释模型,而解释可以反映许多不同的想法[23]。但在我们进入可解释性的含义之前,让我们首先记住,新的设计-图1:(a)连接网络的线性层给出线性系统。(b)非线性单元作为“关节”工作,使网络适应输入。(c)我们可以分两批运行网络,并在每个非线性单元中使用LinearScope来运行第一批网络,并在第二批中对非线性行为进行线性解释。第一批的输出不受LinearScopes的影响。第二批给出了整个网络的线性解释器,它非线性地依赖RAL网络从一开始就很简单:线性系统和(在这里,激活受到生物学的启发,指的是特征(线性系统的输出)的抑制,通常的电路类比是开关。当我们将许多这些简单的单元组合起来,并行运行许多功能,然后重复相同的过程时,问题就出现了。更确切地说,不清楚部分结果如何引导我们做出最终决定。线性系统通常被认为是可解释的4753线性非线性非线性4754有着悠久的研究历史[43]。有了线性系统,我们就知道该期待什么,以及从哪里寻找答案。在这里,我们感兴趣的是他们的一些最重要的属性。我们将写一个仿射变换y:Rn! RN作为y(x)=Fx+r(1)其中r2RN是与输出位于同一空间的残差下一个有用的信息直接来自矩阵F的行和列。一行向我们展示了用于获得输出像素的输入像素我们称这些作为其在空间中的扩展的接收滤波器系数示出了模型的接收场。另一方面,一列向我们展示了受输入像素影响的输出像素。我们称之为投影滤波器系数,其在空间上的扩展为模型的投影域。其他重要的信息来自转置系统,由FT表示,它交换了行和列的含义,并将向量从输出域返回要将线性变换Fx解释为一个整体,这是为了了解输入信号的哪些部分,nal通过和通过多少,我们需要它的单数值分解(SVD),F=U<$V。 这给了我们一个连接输入和输出域。左(U)和右(V)特征向量的集合基本上向我们展示了根据变换的输出和输入是由什么 对于线性空间不变系统(LSI)[33],这些是调和函数,如复指数Ujk=e− ijk或某种类型的DCT[44]。这些系统在信号处理中发挥着重要作用[33,24]。简单地说,在LSI系统中,波在不改变其形状的情况下进出,并且可以被解释为系统对输入和输出进行分解的自然选择 当一个矩阵不是对称或正方形时,左和右特征向量是不同的。为了简单起见输出,使它们提醒我们它们生活的空间这里重要的是一对用F变换的u=σFv,因此,一般来说,一对特征输入/输出移入移出,投影和反投影,而不改变它们的形状,只是通过它们的奇异值重新缩放。奇异值显示了过滤效果,它代表了什么通过和多少通过。一个小的奇异值表示一对那么,为什么我们要用线性系统来解释卷积网络呢?我们无法研究一个由材料A,我们用我们对材料B的知识,只是因为我们更了解B。卷积网络的线性化确实非常有用,并且在[25]中进行了研究,以获得显示输出中输入相关性的热映射。它与我们的结果之间的联系将在后面讨论。在这里,我们想强调两个简单的论点,为什么我们应该使用线性系统:1. 卷积网络主要由线性系统组成。实际上,网络的所有参数都包含在线性模块中(例如,卷积层),只有少数例外(例如,参数化ReLU);2. 非线性单元的设计像ReLU或Sigmoid这样的激活是可以由像素掩码乘以输入表示的开关。如果我们固定掩模,它就变成线性的。最实例规范化层减去平均值并除以标准差。如果我们固定平均值和标准偏差,它就变成线性的。现在,我们对非线性单位有了简单因此,如果我们使用非线性层的线性解释这个过程已经在[28]中用于可视化CNN如何放大小图像。作者提出用掩码代替激活单元,从而得到形式为y=Fx+r的线性系统。通过检查F的列,他们观察到放大系数这项工作侧重于实验探索。就像实验室需要显微镜来研究微生物一样,我们需要一种仪器来进行线性解释器的研究因此,一个关键的贡献是设计了一个挂钩层(LinearScope),可以插入CNN中提取信息。有了这个工具,我们能够将现有的可解释性方法[28]扩展到更广泛的应用中,通过这些应用,我们取得了以下重要发现:• 我们报告了一个其他工作发现分类CNN偏向于纹理[17],或者在洗牌补丁后仍然表现良好[20],而我们的结果指向网络的具体策略(像素投票)。• 我们报告了CNN中的偏置参数在图像分类中的关键作用,而不是其他应用(例如SR和I2I)。此外,他们变得更加4755在具有更好基准的架构中相关,并且在顺序网络的情况下,我们发现贡献集中在特定层上,这些特定层在使用批量归一化进行训练时移动得更深。• 我们解释了CycleGAN解决I2I的策略。我们揭示了一个模板创建策略的立面到标签的任务。应该注意的是,在本文之前,如何识别新生成的对象和纹理的来源在很大程度上是未知的。• 我们推导出一个算法,使用LinearScopes获得SVD的线性解释器。这向我们展示了CNN的基础。在这里,我们发现了人类视觉系统(HSV)。哺乳动物初级视皮层简单细胞的感受野具有空间定位性、方向性和带通性,类似于小波基。在[31]结果表明,最大化稀疏性的编码策略足以说明这些特性,并且在稀疏编码领域具有很大的影响。我们的SVD结果表明,SR和I2I网络所使用的基也包含上述所有三个性质。在输出知识方面,它为我们提供了将输入映射到输出像素的策略的概述。这些结果可能会带来以下未来的影响:1)明确证明CNN使用类似于人类视觉系统的小波2. 相关工作卷积网络的可解释性与可视化技术密切相关。可视化更普遍地关注通过网络学习的信息的视觉证据[29]。可解释性试图解释网络的内部处理,每一种解释都伴随着一种可视化技术,我们可以用它来解释学习过程。有关可视化方面的广泛文献的综述可参见[49,34,30,29]。可解释性的意义,或许多意义,是一个研究课题。例如,在[23]中,作者确定了现有研究中可解释性的不一致含义,并讨论了不同概念的可行性和可取性。他们还强调了一个重要的误解,即线性模型并不比深层神经网络更容易解释在[13]中,作者定义了相对于目标模型的可解释性在[1]中,作者展示了仅依赖于显着性方法的视觉吸引力的评估是如何误导的,他们提出一种方法来评估给定方法所能提供的解释。最后,在[18]中,作者展示了神经网络的解释如何是一个脆弱的过程,展示了它们如何在图像中引入小扰动,导致非常不同的解释。已经做了大量的工作来解释图像分类器和分割的决定[12,35,40,27,3,11,15、12、35、40、27、3、11、15、37]。图像分类的其他研究方向试图在网络架构中找到答案例如,在[10]中,作者研究了隐藏单元响应的不变性,并发现这些是网络学习的主要计算组件。在[16]中,作者研究了过滤器的协作以解决问题,并发现通常需要多个过滤器来编码概念,并且单个过滤器不是概念特定的。在[21]中,作者表明网络的最后一层作为线性分类器工作,类似于感知器的动机[36]。一个重要的研究方向是研究语义的作用。[ 4 ]中提出了在[50]中,提出了一个新的框架,将输入图像的激活分解为语义可解释的组件。我们对CNN分类器的解释与以下内容更密切相关:分层相关传播(LRP)[2,6]和深度泰勒分解(DTD)[ 25 ]。 LRP是第一个框架,通过网络分类器的逐像素分解来引入理解分类决策与我们的结果的关系将在第5节中讨论。最后,我们的分析是深度过滤可视化(DFV)的扩展,在[28]中引入了可视化卷积网络如何提升低分辨率图像。DFV提出用掩码代替激活单元,从而得到形式为y=Fx+r的线性系统。DFV已被用来检查F的列,并观察升尺度系数在DFV中,为了运行线性解释器,需要记录每个非线性单元的激活对于常见体系结构,这会带来很高的存储成本,如表1所示。如果我们在设备中没有足够的内存(例如,GPU),我们需要切换到速度较慢的存储,如CPU DRAM,SSD或HDD,速度成本过高,如表2所示。我们提出了一个解决这个问题的方案,不需要存储激活,而是需要在输入中添加一个额外的这种新颖的方法为我们提供了一个更简单,更有效的线性解释器的实现。我们不仅能够运行得更快,使用更大的图像,但我们也可以执行更复杂的分析上的线性间,47561非线性ReLU乙状Max-pooling实例规范LINEARINTERPRETER二进制掩码继续掩模非均匀线Downsampling降采样图2:LinearScope在批次x 0上保持非线性单元不变,并添加第二个红线表示解释器如何查看第一批数据以做出决定:使用什么掩码(ReLU和Sigmoid),选择什么输入(MaxPooling),或者使用什么归一化均值和方差(实例归一化)。网络VGGCycleGAN[51]EDSR[22]空间58GB90GB4,147GB表1:存储所有ReLU激活所需的存储空间存储GPUCPUSSDHDD速度百分百百分之五十0的情况。百分之五0的情况。百分之零点零五表2:典型存储介质的相对速度,以GPU(DDR5或HBM2)为参考。预处理器,包括:转置线性解释器和奇异值分解。State–of–the–arts CNNs are often pushed根据表1和表2,DFV[28]上的104倍加速。3. 线性解释器文字冻结而不是线性化。 我们认为DFV方法如下:网络在其各层中为输入图像做出了一些决策(见图1)。图2显示了修复这些决策的唯一选择。由于CNN的特殊结构,整个冻结系统恰好是线性的,而不是泰勒展开,它迫使解释器具有线性。线性解释器:图1解释了我们的总体思路。我们希望在模型中使用LinearScope挂钩层来替换其所有非线性单元。如果网络中断-假设y0=f (x0 ),其中x02Rn ,y02RN ,则具有LinearScopes的模型输出:[y0,y1]=[f(x0),F(x0)x1+r(x0)],(5)其中F(x0)2RN×n是滤波器矩阵,r(x0)2RN是残差。DFV[28]中提出的一个关键思想是,我们不需要具体化矩阵F(x0)2RN×n来运行线性解释器。使用LinearScopes的模型还避免了以非线性单位存储激活最后,我们的目的是固定输入图像x0,并使用不同的探测输入x1运行测试,以从线性解释器获取信息。残差和色谱柱:从线性解释器计算残差r(x0)和F(x0)列的程序遵循DFV[28]的解决方案。当我们使用探针批次x1=0时,残差由y1=r(x0)给出。接下来,当我们使用探测批x1=δk时,我们可以从过滤矩阵F(x0)中获得列k作为y1-r(x0),其中δk[k] = 1和δk[i k] = 0。 这是一种脉冲反应LinearScopes:我们将LinearScope定义为一个挂钩,通过添加额外批次来修改非线性单元的层如果一个[y0,y1]=[h(x0),A(x0)x1+ c(x0)].(二)这里,[·,·]表示批处理维度中的级联,并且A(x0),c(x0)根据我们对h(x0)的解释来选择。一个硬性要求是x0= x1)y1= y0.(三)线性解释器的一个选择是由输入周围的泰勒展开给出的h的最佳线性近似h ( x1 ) =h ( x0 ) + ( Dh ) ( x0 ) · ( x1-x0 )+·· ·(四)=(Dh)(x0)·x1+h(x0)-(Dh)(x0)·x0+· ··根据信号处理理论[33,24]。TtransposedSystem和R ows:为了计算输出域中给定图像的FT(x0)·y2,我们可以使用线性变换梯度的向量微积分性质:rx(Ax+b)y=ATy。相同的方法用于实现(跨步)转置卷积,深度学习框架[32],除了这里我们的系统要大得多(可能包括转置卷积)。由于深度学习框架提供了自动区分包,因此计算简单方便:FT(x0)·y2= rxy1(x1)·y2。(六)最后,我们可以使用脉冲响应方法来获得F(x0)的行。也就是说,当我们使用探针图像时,滤波器矩阵F(x0)的行k由FT(x0)·δky2=δk,其中δk[k]= 1且δk[i6=k]= 0。|{z}A(x0)|{z}c(x0)在继续前进之前,我们强调转置线性解释器不同于流行的decon,y1=A(x0)x1+c(x0)是泰勒解释器。在这里,我们遵循并扩展DFV[28]的方法这不是为了寻求近似值。我们更喜欢使用4757Zeiler等人[48]的卷积方法,因为去卷积使用更确切地说,[48]中的过程描述了每个层必须如何转置。47581prevn线性解释器遵循卷积层(线性)和相反,线性解释器将记住前向传递(通过梯度)中单元的激活,并使用掩蔽解释(线性)。奇异值分解(SVD):网络的输入x2Rn和输出y2RN然后,滤波器的特征分解可以是:通过其奇异值分解(SVD)来给出。我们提出了算法1来计算F(x 0)的最大奇异值的我们使用一种加速幂方法,其中动量[47]适用于SVD[7]。进一步的本征以放气系统为例,利用算法1计算了系统的第二F(x0)+r(x0)-σ1u1vT,等等。AlexNet VGG78岁百分之五八十五。81. honor 百分之一SqueezeNet 1.1 DenseNet84. 百分之三九十五。0%91. 占6%表3:ImageNet- 1 k中100个具有更好基准的架构的百分比增加。如表3所示,通常添加超过80%的贡献。这是一个令人沮丧的事实进行分析,因为分数的残差是一个标量,并没有提供比分数本身更多的信息。但是,通过使用时序网络的定理可以获得额外的信息。对于序贯模型:yn=Wnxn−1+bn和xn=h(yn),(7)利用参数bn(偏置)和稀疏矩阵Wn(卷积),可以得到滤波矩阵和残差的显式表达式这就是:算法1线性解释器的SVD幂方法定理1(来自[28])设Wn =AnWn和 为输入:测试图像x0.Anbn+cn。其中An,cn是线性方程组的参数Q,输入:线性解释器y1(x1|x0)。输入:残差r(x0)。h(yn)的解释器。 设Qn=I且Qi=nk=i+1Wk输入: 动量m,步数S。输出:σcurr,vcurr,u。1:m→0,σ2→0,vprev→0,vcurr→ N(0,1)对于i = 1,. ......、n. 滤波器矩阵和残差为:YnXnF=Wk,以及r=Qibi.(八)2:对于它=1,. ..,我们做k=1i=13:u→y1(vcurr|x0)-r(x0)4:v_next→F_T(x0)·u-m_prev使用等式(6)让我们理解这个结果的含义我们将重点关注具有ReLU单元的网络,使c=0。首先,param-5:σ2→vT·vεCurrCurr下带hat的参数Wn和bn是6:vprev → vcurr/||v下一页||7:vcurr→ vnext/||v下一页||网络乘以面具。这已经取决于测试图像x0。因此,(8)中F的公式基本上表示-σ2prev第九章:端σ2Curr发送被激活掩盖的累积卷积接下来,矩阵Qi表示以下项的累积效应:10:u → u/||u||4. 实验案例1如果我们看测试图像x0的单个分数,那么F(x0)2R1×n是单行图像。 在这里,我们很想一个猜测。我们在DFV[28]中看到了残差很小的证据。然后,如果我们想最大化F(x0)x0,理想的选择是 也 就 是 说 ,网 络 可 以 尝 试 构 建 一 个 模 板图 像 F(x0),该图像看起来与正确标签的x0在我们对各种架构的实验中,我们发现情况并非如此。图像F(x)看起来不像模板,并且最重要的是,残差r(x)具有最大的贡献→第八章:4759卷积,掩蔽,从层i+1到n(前向投影)。因此,最后,(8)中的r公式为我们提供了残差的分解,作为在图4中,我们显示了预训练的VGG- 19网络中前1名得分的贡献直方图[ 41 ],平均来自ImageNet- 1 k的100个这包括输入F(x0)x0的贡献和 我们...大部分贡献来自前两层(具有高方差)和全连接层之前的三层对于VGG的其他变体,我们一致地观察到两个主要贡献:一个峰值在早期层中,第二个峰值正好在完全连接的层之前。但是,当使用批量归一化训练网络时,贡献在网络中移动得更深,其中一个主要贡献就在完全连接层4760K输入图像Top-1(美洲狮)像素讨论谁投票给.输入图像Top-1(Abacus)像素讨论投票给...ILSVRC 2012_val_00000012Top1(R.V.)ILSVRC 2012_val_00000038美洲狮?(上1)狮子?(top2)算盘?(top1)手风琴?(前2名)前1名(草莓)输入图像像素讨论投票给...输入图像像素讨论投票给...ILSVRC 2012_val_00000014Recrea tional车辆?(顶部1)移动回家?(前2ILSVRC 2012_val_00000099草莓味的?(top第一章苹果?(top(二)图3:我们通过比较所有分数之间的贡献,我们让像素独立投票,并发现它们最终关注对象,前2个分数显示了百分之五十百分之四十百分之三十百分之二十百分之十0%的百分比-10%左右-20%左右图4:(see附录)。早期的贡献是基于当地的信息,而不是使用全球信息的后期贡献。这让人想起[26](G节)中使用类似线性映射解释的结果,发现隐藏单元学习对更高层的更抽象平移不变在附录中,我们还展示了网络内部的贡献如何使用FGSM[19]对被对抗性噪声破坏的图像变得随机,最终得分完全取决于前几层。我们还可以通过获取所有掩蔽的偏差并将它们从每一层反向投影到输入域来执行反向分析我们可以通过考虑从输入到中间层k的子系统来执行该计算,并且在掩蔽偏置k b k上使用FT(使用等式(6))。把所有的背面加起来通过投影贡献,我们可以看到每个分数的逐像素贡献。图3中显示了前1名得分的我们称这些图像为像素讨论,因为像素的随机性。它们不代表热图,因为:第一,最高值并不总是集中在对象上;第二,几乎在每个像素中,正值之后是负值,就好像像素总是偏离其相邻像素对得分的贡献。应该注意的是,在LRP研究中观察到类似的图像[2,6]。最后,在我们获取每个像素贡献并将其与所有其他标签的相同像素贡献进行比较后,我们发现了清晰的信息通过这种方式,我们让每个像素投票给一个标签。在图3中,我们使用每个像素的投票来屏蔽测试图像,以观察对于给定标签,哪些区域在像素中更受欢迎。前在图3(a)和(b)中,例如,像素似乎在美洲狮的脸上和车辆的灯光上随机讨论,但当涉及到投票时,美洲狮的独特特征以及整个车辆都出现了3(a)中狮子的投票显示了实际上看起来更像狮子的区域,所以这些像素似乎有一个论点。在图3(c)和(d)中,像素在不包含主要对象的区域中随机讨论,但在投票后,它们确实关注对象。图3(d)很有趣,因为对草莓的投票显示了草莓的红色形状,而对苹果的投票确实显示了类似于几个苹果的绿色和情况2-滤波器矩阵F(x0)2RN×n(N > n)具有高矩形形状.线性解释器分析最初用于标准偏差测量++正+ +++的正+ ++++的+++的+正+ ++的+卷积层ReLU最大池化全连接层4761000000图5:应用于EDSR[22]4 μ m超分辨率方法的线性解释器的SVD结果4L-PixelShu e4×EDSR4×不同的频率。图5中的信息揭示了卷积网络遵循的一种非常不同的方法。首先,我们观察到本征输入的高频振荡这些类似于对比敏感度功能的心理视觉实验中使用的高频刺激,其中要求受试者观看顺序简单刺激,如网络对这些刺激的反应是清晰的图像(例如,眼睛、角落、鼻子等),对于高奇异值,在空间中平滑和局部化因此,网络通过触发图像对象来对类似于Gabor小波的刺激做出反应。该反应类似于哺乳动物初级视皮层中简单细胞的感受野,其特征在于空间定位、定向和带通,与小波基相当[31,24]。与通过PCA分解获得的本征面相比[42],我们观察到与图6:SR模型的SVD显示了更好的模型(EDSR)如何从图像中捕获在DFV[28]中研究这个问题。在[28]中,仅获得投影滤波器系数(滤波器矩阵的列)。我们在附录中显示了接收滤波器系数的结果,这些结果与卷积滤波器的传统概念更密切相关。此外,我们现在可以有效地计算给定图像的所有行和列,使用非常大的模型,如EDSR[22](见附录中的演示)。图5显示了EDSR[ 22 ] 4分频器的特征输入/输出和奇异值的示例在我们解释这些结果之前,为了方便起见,先记一个简单的参考资料.经典的升频器使用monic函数(例如,DCT类型)。因此,我们从经典的放大参考的基础上,覆盖所有的图像我们-特征值/奇异值减小。但是EigenFaces并不像图5中的CNN特征分解那样局部化最后,在图6中,我们展示了SVD分析如何帮助评估模型。将深度学习教程中常用的4EDSR的图像质量明显更好。我们观察到,残差是小的SR模型。对于EDSR,残差更多地集中在zebra的背部和颈部,而PixelShuffle中的残差遍布整个图像。在特征输出中,我们看到EDSR关注的是斑马的可见部分。PixelShuffle模型聚焦于同一区域(后腿)的特征我们可以得出结论,更好的模型能够捕捉和关注案例3-滤波器矩阵F(x0)2RN×n,其中N=n,为4762CYCLEGAN-UKIYOECYCLEGAN-PHOTO2LABEL接收类型筛选器(行)项目类型筛选器(列)图7:CycleGAN[51] Ukiyoe和Facades的线性解释器的接收和投射过滤器。浮世绘中使用非对角线(黄色省略号)来帮助生成纹理.单个像素有助于在Facades中创建模板窗口框。广场在这里,我们选择测试流行的CycleGAN架构的不同该架构使用为此,我们使用图2所示的线性解释器.在图7中,我们显示了两个I2I任务的投射和接受滤波器系数:图像到绘画(类似于风格转移)和照片到立面(类似于分割)。一方面,与SR相比,I2I任务表现出一些相似之处。在图像的大多数区域中,我们观察到局部滤波器系数(参见附录中的演示),这意味着滤波器矩阵是稀疏的并且集中在对角线周围,类似于SR。但另一方面,在Cy cleGAN中,感受/投射场更大,最显著的特征是出现强图7显示了在照片到绘画中,接收滤波器如何我们观察到,对于单个图像,CycleGAN始终使用相同的区域(例如,图7中的省略号)以将信息传递到图像中的所有其他像素。这copy–move strategy在照片到门面的任务,除了外观的强非对角线,我们观察如何将单个像素定向到特定的输出段。通过这种方式,CycleGAN创建模板(例如窗口框),这些模板通常由角落或边缘中的像素触发,如图7所示。此外,在这种情况下,接收滤波器系数有时可以扩展到整个图像(见附录中的演示)。此行为仅在实例规范化图层携带全局信息的图像。在SR任务中,通常在相对较小的补丁(例如,48×48(小分辨率)网络无法学习这种策略。Cycle-GAN的预训练模型使用整个图像(256 ×256)进行训练。CycleGAN的SVD分解结果包含在附录中。在这里,特征输入/输出示出了与SR相似的模式,但是输出中的刺激和响应覆盖了大得多的区域,并且在特征输出中示出了多个对象,而不是在SR中观察到的单个对象。这可能是由非对角模式引起的。5. 讨论LRP[2]在分类分数中引入了每个像素的相关性的概念如果我们使用分层贡献来重新定义LRP相关性,我们可以迫使我们的我们的贡献是显着的,因为新的解释,揭示了一个明确的贡献偏见的最终分数,这是以前未知的。在像素级,LRP已被用于研究输入像素对最终得分的影响(按照另一方面,像素讨论可以独立于分数使用以获得每个像素的投票。除了这个区别之外,还需要进一步的研究来更好地理解像素讨论和其他热图可视化之间的关系。DTD[25]使用逐层泰勒展开并修改根点以获得一致的热图(保守和正)。在我们的分析中,我们不控制导致像素讨论的反投影因此,与DTD相比,可解释性的目标和结果是不同的,但有必要进一步研究以更好地理解这种关系。最后,本文中的方法依赖于人类对线性系统的理解。因此,可视化结果对人类理解的影响并不直接。未来的研究是必要的,以了解人类是否可以更好地预测 模 型 故 障 , 如 [14] 中 所 提 出 的 , 无 论 是 否 访 问LinearScope可视化。4763引用[1] 朱利叶斯·阿德巴约,贾斯汀·吉尔默,迈克尔·穆利,伊恩·古德费洛,莫里茨·哈特和比恩·金。显著性图的健全性检查。神经信息处理系统进展,第9505-9515页。2018. 3[2] SebastianBa ch、Ale xanderBinder、Gre' goireMontav on、FrederickKlauschen、Klaus-RobertMüller和WojciechSamek。通过逐层相关传播对非线性分类器决策的PloS one,10(7):e0130140,2015。三六八[3] Aditya Balu , Thanh V Nguyen , Apurva Kokate ,Chinmay Hegde,and Soumik Sarkar.深度网络中信息流可 视 化 的 前 向 - 后 向 方 法 。 arXiv 预 印 本 arXiv :1711.06221,2017。3[4] David Bau,Bolei Zhou,Aditya Khosla,Aude Oliva,and Antonio Torralba.网络解剖:量化深层视觉表征的可解释性。在计算机视觉和模式识别,2017年。3[5] David Bau , Jun-Yan Zhu , Hendrik Strobelt , ZhouBolei,Joshua B.作者:William T. Freeman 和AntonioTorralba。GAN夹层:可视化和理解生成对抗网络。在国际学习表征会议(ICLR)的会议中,2019。3[6] 阿尔·桑德·宾德、格雷·戈瓦尔·蒙特·阿文、塞巴斯蒂安·拉普施金、克劳斯·罗贝尔·穆勒和沃伊切赫·萨梅克.具有局部重整化层的神经网络的逐层相关传播。国际人工神经网络会议,第63-71页。施普林格,2016年。三六八[7] Avrim Blum,John Hopcroft,and Ravindran Kannan.数据科学的基础Forabversion eines Lehrbuchs,2016.5[8] 罗伯托·布鲁内利计算机视觉中的模板匹配技术:理论和实践John Wiley Sons,2009年。5[9] 理查德·L·伯顿和J·道格拉斯·费尔斯。数值分析圣智学习,2010年9月。5[10] Santiago A Cadena,Marissa A Weis,Leon A Gatys,Matthias Bethge,and Alexander S Ecker.不同的特征可视化揭示了深层神经网络早期层的不变性arXiv预印本arXiv:1807.10589,2018。3[11] 马可·卡莱蒂,马可·戈迪,梅德·阿加伊和马可·克里斯坦尼。通过可解释的可视化摘要理解深层架构。arXiv预印本arXiv:1801.09103,2018。3[12] Amit Dhurandhar , Pin-Yu Chen , Ronny Luss , Chun-Chen Tu,Paishun Ting,Karthikeyan Shanmugam,andPayel Das.基于缺失的解释:对比解释和相关的否定。arXiv预印本arXiv:1802.07623,2018。3[13] Amit Dhurandhar , Vijay Iyengar , Ronny Luss 和Karthikeyan Shanmugam。提示:典型化过程的可解释性。arXiv预印本arXiv:1706.02952,2017。3[14] 最后一集Doshi-Velez和Been Kim一个严格的可解释性科学的路线图arXiv预印本arXiv:1702.08608,150,2017。8[15] 杜梦南,刘宁浩,宋清泉,夏虎。对基于DNN的预测与 引 导 特 征 反 演 的 解 释 。 arXiv 预 印 本 arXiv :1804.00506,2018。3[16] 露丝·方和安德里亚·维达尔迪Net2vec:量化和解释深度神经网络中的过滤器如何编码概念arXiv预印本arXiv:1801.03454,2018。3[17] Robert Geirhos,Patricia Rubisch,Claudio Michaelis,Matthias Bethge , Felix A Wichmann , and WielandBrendel. ImageNet训练的CNN偏向于纹理;增加形状偏差提 高 了 准 确 性 和 鲁 棒 性 。 arXiv 预 印 本 arXiv :1811.12231,2018. 2[18] Amirata Ghorbani、Abubakar Abid和James Zou。神经网络的解释是脆弱的. arXiv预印本arXiv:1710.10547,2017。3[19] Ian Goodfellow、Jonathon Shlens和Christian Szegedy。解释和利用对抗性的例子。国际学习表征会议,2015年。6[20] 康国良,董宣义,梁铮,杨毅。Patchshuffle正则化arXiv预印本arXiv:1707.07103,2017。2[21] Yu Li,Peter Richtarik,Lizhong Ding,and Xin Gao.深度 神 经 网 络 的 决 策 边 界 。 arXiv 预 印 本 arXiv :1808.05385,2018。3[22] Bee Lim , Sanghyun Son , Heewon Kim , SeungjunNah,and Kyoung Mu Lee.用于单图像超分辨率的增强深度 残差 网络在IEEE计算 机视 觉和模 式识 别会议(CVPR)研讨会上,2017年7月。 四、七[23] 扎卡里角利普顿模型可解释性的神话队列,16(3):30:31-30:57,2018年6月。第1、3条[24] 这是玛丽·拉特。 信号处理的一种方法。中国科学院出版社,1998. 二四七[25] Gre'goireMontav on ,Sebast ianLapuschkin ,Al exander Binde r , WojciechSamek , andKlaus-RobertMüller.用 深 度 泰 勒 分 解 解 释 非 线 性 分 类 决 策 。 PatternRecognition,65:211-222,2017. 二、三、八[26] Guido F Montufar,Razvan Pascanu,Kyunghyun Cho,and Yoonge Bengio.关于深度神经网络线性区域的数量。神经信息处理系统的进展,第2924-2932页,2014年6[27] Konda Reddy Mopuri , Utsav Garg , and R VenkateshBabu. CNN固定:一种可区分图像区域的可视化方法。2017. 3[28] Pablo Naviente Michelini,Hanwen Liu,and Dan Zhu.多重网格反投影在第三十三届AAAI人工智能会议(AAAI2019 ) 上 AAAI , 2019 , arXiv 预 印 本 arXiv :1809.09326。二三四五七[29] Chris Olah , Alexander Mordvintsev , and LudwigSchubert. 特 征 可 视 化 。 蒸 馏 , 2017 。https://distill.pub/2017/feature-visualization. 3[30] 克里斯·奥拉,阿文德·萨蒂亚纳拉扬,伊恩·约翰逊,山·卡特,路德维希·舒伯特,凯瑟琳·叶和亚历山大·莫4764文 特 - 塞 夫 。 可 解 释 性 的 构 建 块 。 蒸 馏 , 2018 。https://distill.pub/2018/building-blocks. 34765[31] Bruno A Olshausen和David J Field。通过学习自然图像的稀疏代码来获得简单细胞感受野特性。Nature,381(6583):607-609,1996. 三、七[32] 特伦斯·帕尔和杰里米·霍华德。深度学习所需的矩阵演算。arXiv预印本arXiv:1802.01528,2018。4[33] John G. Proakis和Dimitris K.马诺拉基斯数字信号处理。Prentice Hall国际版。Pearson Prentice Hall,2007年。二四七[34] 秦主委,俞勋勋,刘晨晨,陈翔。卷积神经网络如何看世 界 -- 卷 积 神 经 网 络 可 视 化 方 法 综 述 arXiv 预 印 本arXiv:1804.11191,2018。3[35] 马可·T里贝罗、萨米尔·辛格和卡洛斯·格斯特林。我为什么要相信你?:解释任何分类器的预测。第22届ACM SIGKDD国际知识发现和数据挖掘会议论文集,第1135-1144页。ACM,2016。3[36] 弗兰克·罗森布拉特。感知器:大脑中信息存储和组织的概率模型。Psycho-logical Review,65(6):386,1958. 第1、3条[37] Matthias Rottmann , Pascal Colling , P.S. Paul Hack ,FabianHu?ge r,PeterSchlicht,HannoGottschalk。语义分割中的预测误差Meta分类:通过softmax概率的聚集分散度量进行检测。arXiv预印本arXiv:1811.00648,2018。3[38] Olga Russakovsky , Jia Deng , Hao Su , JonathanKrause , San- jeev Satheesh , Sean Ma , ZhihengHuang , Andrej Karpathy , Aditya Khosla , MichaelBernstein,Alexander C.伯格和李飞飞。ImageNet大规模视觉识别挑战。国际计算机视觉杂志(IJCV),115(3):211-252,2015年。五、六[39] 优素福·萨阿德大特征值问题的数值方法,第66卷。暹罗,2011年。5[40] Avanti Shrikumar , Peyton Greenside , and Ansh
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功