深度神经网络的架构解纠缠

197 浏览量更新于2023-10-14 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

672深度神经网络的架构解纠缠JieHu1，LiujuanCao1*，TongTong1，QixiangYe2，ShengchuanZhangg1，Ke Li3，Feiyue Huang3，Ling Shao4，andRongrong Ji1，5，6.1厦门大学信息学院MAC实验室2中国科学院③腾讯优图实验室④人工智能Inception研究院5厦门大学人工智能研究所，6鹏程实验室。摘要理解深度神经网络（DNN）的内部工作对于为实际应用提供值得信赖的人工智能技术至关重要。现有的研究通常涉及将语义概念链接到DNN的单元或层，但未能解释推理过程。在本文中，我们引入神经结构解缠（NAD），以填补空白。具体而言，NAD学习根据独立任务将预先训练的DNN分解为子架构我们调查是否，在哪里，以及如何通过实验进行手工制作和自动搜索的网络架构，基于对象和基于场景的数据集的解纠缠发生。基于实验结果，我们提出了三个新的发现，提供了新的见解DNN的内在逻辑。首先，DNN可以被划分为用于独立任务的子架构。第二，更深层并不总是对应于更高的语义。第三，DNN中的连接类型影响信息如何跨层流动，从而导致不同的解缠结行为。通过NAD，我们进一步解释了为什么DNN有时会给出错误的预测。实验结果表明，错误分类的图像有很高的概率被分配到任务子架构类似的正确的。我们的代码可从https：//github.com/hujiecpp/NAD网站。1. 介绍使用深度神经网络（DNN）的一个根本问题是我们无法理解其内部工作原理，这在许多现实世界的应用中至关重要，包括医疗保健，刑事司法和行政监管[28]。最近的研究还表明，DNN很容易被愚弄[25，32，19，18]因此，解释DNN在-*通讯作者：caoliujuan@xmu.edu.cn输入神经结构解纠缠熊猫虎斑单元层......图1：所提出的神经架构解纠缠（NAD）的图示。NAD旨在将预先训练的DNN分解为子架构，每个子架构仅负责一个任务。例如，该图中的网络被分解为两个子体系结构，即，红色的和蓝色的，用于分类“熊猫”和“塔比”的任务。注意，子架构可以与用于不同任务的相同单元重叠。近年来引起了越来越多的研究关注。现有的努力通常将语义链接到DNN的单元或层以确定这些特定部分的角色。然而，由于两个原因，分层推理过程不能以这种方式有效地捕获。首先，经过训练的网络将信息纠缠在一起，一个单元可以负责多个类[23，42]。其次，仅知道哪个单元或层表示什么类不足以理解DNN中的推理过程。没有探索连续层之间的关系。例如，如果我们想解释“飞机”的推理过程因此，如果网络体系结构可以在任务方面被分解为子体系结构，例如对“飞机”进行分类，则例如，我们可以解释底层的边缘和颜色是673聚类在中间层中以形成“飞机”的部分，例如在本文中，我们介绍了一种新的方法，称为神经架构解纠缠（NAD），它学习将预训练的DNN分解为不同任务的子架构。如示于图1，子架构形成描述推理过程的信息流。受表征解纠缠的启发，我们设计了一个目标函数，约束DNN连续层之间的信息。隐藏单元被选择来构造从DNN的底层到其顶层的子架构。大量的实验进行调查是否，在哪里，以及如何发生的解纠缠。在我们的实验中使用的体系结构范围从手工制作到自动搜索，即， VGG 16 [31]、ResNet 50 [11]、DenseNet 121 [14]和DARTS-Net [20]。在基于对象和基于场景的数据集上都获得了一致的结果，即ImageNet[7]和Place365 [41]，产生了三个新的发现，为DNN的内部逻辑提供了新的见解。首先，我们提供的证据表明，DNN可以根据独立的任务来划分，即，DNN可以被解缠结。我们比较了原始体系结构和图1中的解纠缠子体系结构的分类结果。二、在解开之后， Top@1 分类准确度被压缩到ImageNet上的（70，90]和Place365上的（40，70]的（90，第二，我们发现较深的层不一定对应于较高的语义，即，解缠结可以在最后一层之前结束。先前的研究[2，37]表明DNN的底层提取低级特征（例如，边缘和颜色），而顶层提取高级特征（例如，对象部分）进行分类。我们的新观察是，高层次的信息的解纠缠可以结束前的最后一层的架构与跳跃连接。例如，如图1A和1B所示。如图4 b和4d所示，ResNet 50[11]（具有普通跳过连接）和DARTS-Net [20]（具有自动搜索的跳过连接）的顶级命中率分别出现在第16层和第15层，而不是最后一层。第三，DNN中的连接类型影响信息如何跨层流动，从而导致不同的解缠行为。直观地，直接连接逐层连续地传输信息，而跳过连接在所有层上分摊信息。这使得整个推理过程在具有直接连接和具有跳过连接的体系结构中表现不同。重要的是，密集的跳跃连接严重混淆了分类的信息。例如，如图2所示。如图4c所示，DenseNet121的可视化特征图激活了一些层中不太有用的图案。然而，高-仍然可以从最后一层提取级别信息，这表明用于分类的有价值的信息被分摊到每一层中。此外，从NAD的角度来看，我们提供了一个解释为什么DNN有时会给出错误的预测。实验结果表明，错误分类的图像有很高的概率被分配到与正确的子架构相似的任务。总之，本研究的贡献包括：• 我们提出了一种新的方法，称为神经结构解纠缠（NAD），了解DNN的推理过程。• 我们研究了NAD的性质与网络archi- tectures范围从手工到自动搜索。基于场景和基于对象的数据集上的结果为DNN的内部工作产生了三个新的发现。2. 相关工作基于可视化的可解释性。基于可视化的可解释性旨在通过可视化揭示DNN的可解释性[8，30，36，26，24，4]。已经进行了许多研究，通过可视化特征图来解释DNN，然后将语义概念分配给各个单元或层[10，37]。例如，激活最大化[8，27]优化随机初始化的输入以最大化特定单元，然后通过观察优化的输入将概念分配给该单元。网络解剖[2，3]使用预定义的像素级标签将单个隐藏单元与一组语义概念对齐。概念激活向量[15]通过学习将所选概念与其他概念区分开的平面的法向量来根据概念解释DNN的内部层。概念白化[5]尝试使用图像类将层与激活的概念对齐。然而，在上述方法中没有探索连续层之间的关系。相比之下，我们的方法探讨了如何为后面的层选择先前层的特征，从而示出了用于对特定类进行分类的总体推理过程。基于解缠的可解释性。一个可解释的DNN也可以通过实施表示的分解[12，38，13]或提取来训练。将DNN转化为更可解释的模型[39，9，33，21]。文献[1]的工作基于信息论对表示的解纠缠进行了量化。关键的想法基于解纠缠的可解释性的一个重要方面是将学习的表示的分布与标准高斯分布对齐我们不是从头开始学习分解的表示，而是专注于分解预训练DNN的整个架构以解释其内部工作。为此，目标函数为674n−1Cc······~不超过~~Cri01n−1...，f n. fn−1（... f0（xc）…）ΣRcn−1 ∈Rn−1 且标号yc∈Yc，目标函数为i−1Σ~我我我我构造成约束DNN的连续层之间的信息以用于架构解纠缠。3. 方法3.1.问题公式化等式2是：LIB=ExcP（xc）Σβ·KLΣP（rc|x）||Q（rn−1）ΣΣccΣΣ∼P（rcn−1|xc）（三）NAD旨在将预先训练的DNN分解为一组用于不同任务的子架构。由于在分类器中解开决策过程导致输出层中的固定独热向量，因此我们专注于一个DNN的特征提取器中的令c表示要从DNN中分离的目标分类任务的类别。图像Xc是从用yc标记的图像集合Xc中采样的。我们将特征提取器中的层定义为n个函数f0（），f1（），...，fn−1（）从下到上，其中fn（）是分类器。对于输入xc，我们可以获得特征在原始网络中映射为：rc，rc，...， rc ，yc=f0（xc），f1. f0（xc）Σ，~其中KL表示两个分布之间的Kullback-Leibler（KL）散度，并且Q（）是变分近似的预定义分布。当量3具有与标准变分自动编码器（VAE）[16]中的目标函数相同的公式。通过将Q（）定义为高斯分布并扩大β以进行正则化，β- VAE [12]在自监督设置下将因子分解为表示的每个一维。3.3.架构解纠缠对于体系结构解缠，我们将表示解缠从单一约束修改为多约束，并对各层之间的因素进行解缠。受[6，35]的启发，网络可以在-解释为连续表示之间的马尔可夫链其中rc，rc，…，表示图中的输出特征图。01n−1Cc c c c c c cC C（4）特征提取器，并且y表示类的输出y→x→r0→r1→……→rn−1→y~，更好。由于特征图与卷积层的滤波器之间存在一对一的关系，因此选择每一层的特征图等同于选择用于构造子架构的滤波器。因此，NAD在特征提取器中找到特征图的最小组合，使得分类器具有预测标签yc的最大可能性。使用所选择的过滤器来构造用于分类c3.2.表示解纠缠其中训练的网络提取用于预测标签的表示。目标是保留用于分类类别c的信息，同时去除用于其他类别的冗余信息。因此，在每个相邻层之间，我们奖励与类别c的分类相关的信息，而惩罚其他类别的信息对于第i个隐藏层，当1在n时，目标函数可以写为：c cccc c（五）NAD的目标与信息瓶颈理论[34]中的表示解纠缠的目标相似。给定输入xc∈Xc及其表示哪里Li=β·I（ri−1;ri）−I（ri;ri），c表示约束信息瓶颈的定义是：c c c c cc cL~c=ErcP（rc）Σβ·KLΣP（r~c|Rc）||Q（r~c）ΣLIB=β·I（x;rn−1）−I（rn−1;y），ii−1i−1ii−1我（六）−ErcP（rc|Rc）ΣlogQ（r~c|rc）Σ。在两个随机变量之间，β >0是一个超参数。之三. 目标函数的第一项指示表示应尽可能少地使用输入信息第二个条件是确保他们也保持为完成下游任务提供尽可能多的信息。经过推导，得到1的变分上界--ERCn−1log Q（y|rn−1）、（一）信息.与Eq一样。3，方程的变分上界。5可以被导出为：其中I（·;·）表示被共享的互信息。675~~|ri~我我i−1我我我为了优化方程。6，我们指定的参数形式的分布，这通常是通过假设高斯分布来完成的。回归分布和多项分布用于分类。因此，我们假设Q（rc），Q（rcrc）作为回归rep的标准高斯分布表达，并定义c为：本文的主体有关推导可参阅补充资料材料ri=（µi+si·σi）·ri=（µc+si·σc）·fi（rc），（七）1由于空间限制，我们仅在图1中显示最终制剂CCCC676~C~ΣΣ~ΣLCCc我我nn−1ECCC我~L我~|我.CCcc我我1i，则Eq。7.第一次会议。Li=2（ri·σi）-log（ri ·σi）+（ri·µi）-一个我我我2我我我C-（1 −y）log1−f3.4.目标函数µii= 0，...， n− 1c∈ CC我Σ.ΣC样本x从X。我我其中si是从标准高斯分布N（0，I）中采样的随机噪声，µc、σc是可学习参数。算法1神经架构解纠缠输入：要解缠的预训练网络，半径。等式7、我们可以将信息与连续层以及扩展方程中的KL散度项。6，其将条件概率定义为：数据Xc标记为c类，参数µc为学习率α和超参数β。CC.ccΣcc 2ΣΣ输出：学习到的c类µc。CP（r~i|ri−1）=Nfi（ri−1）·µi，diag（fi（ri−1）·σi）我我我我随机初始化µ。=N.rc·µc，dia gΣ（rc·σc）2ΣΣ。重复Cc（8）对于i = l，… n − 1，通过等式计算yc和rc。1.一、为我-，计算c| Rc|rc），等式中的约束。6个cQ（r~i）， Q（r~iri）~ii−1对于i = 1，…n − 1，通过等式更新µi十五岁对于第i个隐藏层，可以导出为：β值直到收敛对于i = 1，… n − 1，用方程（1）离散µc十六岁C.cc 2c cc 2cc 2Σi+1||rc− µc·rc||2+log 2π+ log（rc·σc）2。（九）对于分类器当i=n时，我们maxi-其中第一项正则化μ，第二项约束了针对ri的重构误差。结合Eq. 12、Eq. 13、总体目标函数为：n将y_c和y_c之间的信息合并以保证受约束的表示将保持类c的信息。目标函数为：L~c=Exc∈XcCii=0时.（十四）Ln=− I（y~;y）。（十）要将值约束为（0，1），我们使用Sigmoid函数采用随机梯度下降法更新µc，并对梯度应用L2归一化相应地，方程的变分上界。10是：为了快速收敛。 µc的更新定义为：L~c=ErcP（rc）n−1y∼P（y~|rn−1）Σ -logQ（yc|y~c）ΣΣ。01-02cµc），（十五）（十一）通过假设变分分布Q（ycyc）为用于分类yc的多项式分布，我们获得交叉熵损失：其中α是学习率。预训练的网络在优化期间是固定的。在收敛之后，我们将连续的μc离散化为二进制值，以形成用于分类分类器c的解纠缠子架构：.1、如果µc>0。5我L~c=−yclogfn（rc）µc=i（十六）n n−10，如果µc≤ 0。五、-−（1 − y）log（1 −y）。其中0. 5是Sigmoid函数的阈值。后=ylogy~获得c与获得任何级别，我们∼µi=1，…n结合的参数化形式的分布通过等式计算损失。14、Eq。12、Eq. 十三岁2n（rcn−1）（十二）Σ677我我我我我我我2在将成本函数扩展到Eq.9、我们可以看到的优化c与没有关系C. 的已经自然地解开了原始网络。那个iden-解开的部分的形成是在训练中学习的通过µc。因此，Eq.13试图找到最佳联系我们也就是说，当优化µc时，方程中的σc项9可以c类为µi。将µi离散为1或0后，678值1用于类别C。Alg. 1总结了整体679看起来像是常数。为了简化优化，我们可以只优化µc而忽略σc。优化后680NAD的程序681我我µc，我们可以通过将i固定为其平均值来降低噪声水平值，即，0，并通过等式（1）计算r。7，释放σc4. 实验ii成为任何载体。因此，Eq。9变得更容易优化配方L~c=β·（rc·µc）2+||rc−µc·rc||第二条，第十三条在本节中，我们将调查是否，在哪里，以及如何NAD用于理解DNN的内部工作我们首先检查分类结果，以确保信息分类特定类的问题与68210008006004002000400350300250200150100500(a) ImageNet上的分类结果原始VGG 16 - 71.6%原始ResNet 50 - 76.1%原始DenseNet 121 - 74.4%原始DARTS-Net - 73.3%解缠VGG16 - 99.9%解缠ResNet 50 -99.9%解开的DenseNet 121 - 96.5%解开的DARTS-Net -99.9%电话：+86-0510 - 8888888传真：+86-0510 - 8888888精密度箱(b) Place365上的分类结果原始VGG 16 - 55.4%原始ResNet 50 - 55.6%原始DenseNet 121 - 55.5%原始DARTS-Net - 54.5%解缠VGG16 - 99.3%解缠ResNet 50 -99.9%解开的DenseNet 121 - 98.8%解开的DARTS-Net -99.9%电话：+86-0510 - 8888888传真：+86-0510 - 8888888精密度箱ResNet 50 [11]，DenseNet 121 [14]和DARTS-Net [20]进行我们的实验。模型是在上述两个数据集上预先训练的，并且当解开架构时，它们的参数是固定的连接类型包括VGG中的直接连接、ResNet中的普通跳过连接、DenseNet中的密集跳过连接以及DARTS-Net中的自动搜索跳过连接在CI-FAR 10 [17]数据集上搜索DARTS-Net的架构。实施详情。我们设置学习率α = 0。1并且迭代N=20以解开每个类别的DNN我们使用肘形法来确定超-参数β用于平衡最终目标函数中的正则化项和重建项2遵循[29，40]中的实验设置，通过将特征图的大小双线性插值到输入图像的大小并可视化激活像素的前5%来执行4.2. NAD的性质4.2.1是否发生解缠？图2：原始架构和分离子架构的Top@1分类准确度（%）的直方图。水平轴表示一个单个标签的Top@1分类精度的区间，其中值被离散为十个区间，即，[0，10]，（10，20]，…（90，100）。垂直轴表示分类准确度落入相同离散化区间的类别的数量。实线示出了原始架构的结果，并且虚线示出了解纠缠的子架构的结果。在图例中列出了平均top@1分类准确度分类结果表明，解纠缠的子结构与其对应的类相联系.子架构。然后，设计了两个衡量子结构相似性和类命中率的指标来研究网络从哪里开始解开。结合激活的特征图的可视化，我们试图了解整个网络是如何工作的。最后，我们解释了为什么DNN有时会给出错误的预测。4.1.实验设置数据集和网络架构。我们在基于对象和基于场景的数据集上进行实验，即ImageNet [7]和Place365 [41]。这些数据集按照WordNet层次结构[22]进行组织，每个节点由数百个图像描述。我们使用训练集来分解原始架构，并且使用验证集来研究DNN的属性。我们选择了四种网络体系结构，即，VGG16 [31]，我们检查了解纠缠子架构和原始架构的单类分类结果，以调查解纠缠是否发生在DNN中。具体来说，我们执行分类与图像从相同的类，通过输入到他们的相应的子架构和原始架构。记录每个类别的Top@1分类准确度（%），并且将值离散化到[0，10]，（10，20]，…（90，100）。我们累积其准确度落入相同箱中的类的数量。从图2中，我们可以看出，解缠后精度增加。例如，在ImageNet上，原始架构的分布主要落在（70，90]的区间内，而解纠缠的子架构的分布则被压缩到（90，100]的区间内。这些结果表明，子架构可以被解开，以精确地涉及到指定的类。4.2.2解缠发生在哪里？考虑到子架构可以输出的目标，得到类，无论是给定的图像，我们设计的Sign命中率实验，以检查如果解开子架构可以区分相应的类从随机组合的图像。为此，我们引入了两个索引，即子体系结构的相似性和命中率。子体系结构之间的相似性。第一个指标是相似性度量。由于子架构可以被视为与所选择的滤波器组合的集合，所以可以通过Jaccard系数来计算相似性，其为2更详细的结果见补充材料。标记物数目标记物数目683VGG16ResNet50DenseNet121DARTS-NetImg.小姐Oth78.5973.7459.3857.0953.3551.4160.0252.97差异-4.85-2.29-1.94-7.05PLC.小姐Oth81.8778.7565.4960.3443.9542.0261.9655.97差异-3.12-5.15-1.93-5.99(a) ImageNet（b）Place365图3：用于计算解开的子架构的命中率的随机组合图像的示例。示例（a）将图像与“标签-概念”组合：ImageNet 验证集的'1-Goldfish'、'320-Damselfly'、'487-MobilePhone'和'489-ChainLinkFence'。示例（b）将图像与“标签-概念”组合：Place 365 验证集中的 “34-BallPit” 、 “339-TreeHouse” 、 “28-AutoFactory”和“221-ManufacturedHome”。定义为两个集合之间的交集大小除以并集大小我们计算的平均相似度为每一层之间的所有对解开子架构。结果显示在图1A和1B的第一行中。图4a、4b、4c和4d。总体而言，底层之间的相似性高于顶层。相应地，类在底层共享低级信息，并且高级语义在中间层逐渐组合以用于分类。因此，解缠往往从中间层开始，具体的概念将从中间层到顶层逐渐浮现。对于图1中的VGG16。如图4a所示，在前七层中相似度大致在90%以上，这表明在这些层中进行了低级信息提取。同时，在具有跳跃连接的体系结构中，分析结果变得更加复杂。对于图中的ResNet50。4b，相似性在第4层早期开始下降，并在第11层和第14层之间达到最低点。对于图中的DenseNet121。在图4c中，在所有层中相似性低。对于图中的DARTS-Net。4d时，相似性值急剧变化，尤其是在第8、12和15层中。我们认为，这些结果产生的跳跃连接所造成的信息融合。在上层提取的高层语义信息通过跳跃连接的方式被带到中间层或底层。为了进一步验证我们的说法，我们设计了第二个指标。子体系结构的命中率。对于命中率，我们首先将四个图像与随机选择的标签组合以获得测试图像。图3示出了组合图像的两个示例我们将组合的图像输入到解纠缠的子架构，并可视化激活的特征图。我们在特征图的每个像素处累积正确命中的数量，并将它们除以所有激活的像素。正确命中意味着激活的像素表1：两对不同的子架构的平均相似性。小姐表示正确标签的子架构与错误分类标签的子架构之间的平均相似性。“奥。”表示正确标签的子架构与除误分类标签之外的所有其他标签的子架构之间的平均相似度。“分歧。”表示“Mis”之间的差异。还有“Oth”“图像。”表示ImageNet数据集，并且表示Place365。'Dif.'的所有值大于零，这指示误分类的输入图像具有被分配到具有与正确的子架构相似的子架构的类的高概率。位于组合图像中正确类别的图像上。我们使用随机选择的类进行这个实验1000注意，在该实验中使用原始架构没有意义，因为组合图像中的四个所选类别的命中率结果显示在图1和图2的第二行中。图4a、4b、4c和4d。第三和第四行分别显示了ImageNet和Place365数据集“迪斯。”表示来自ImageNet中的类奥利表示原始架构的可视化特征图。对于图1中的VGG16。4a，命中率从第8层开始增加，并在最后两层达到顶点。我们还发现类'金鱼'和'自动工厂'在可视化中被激活的对象部分中逐渐选择。这支持了我们的主张，即VGG16中的解纠缠开始于中间层，并且类在顶层中被选择。然而，在具有跳跃连接的结构中，结果变得比VGG16复杂得多，这在以前的研究中很少讨论。对于图中的ResNet50。4b中，最高命中率不是在最后一层而是在第16层。第12层、第13层和第14层的命中率也很高从可视化中，我们还发现类对于图中的4c中，命中率逐渐增加，但在所有层中的值不高。这可能是由于密集的跳跃连接严重混淆了来自不同层的信息。最复杂的结果来了684奥里Dis.Dis.奥里ImageNet奥里Dis.Place365奥里Dis.100806040200100806040200(a) VGG16的结果1 2 3 4 5 6 7 8 9 10 11 1213100806040200100806040200(b) 关于ResNet50ImageNet - SimilarityPlace365 -Similarity1234567八九1011121314151617100806040200Layer1 第4层第6层第8层层9层10层11层12层13(c) 关于DenseNet121100806040200Layer1 第4层第五层层9层12层14层15层16层17(d) DARTS-Net的结果ImageNet - SimilarityPlace365 -Similarity1008060402001 2 3 4 5 6 7 8ImgageNet -命中率Place 365-命中率Layer1Layer2Layer3第4层第五层第6层第七层第8层1008060402001234567十个11121314十五十六ImgageNet -命中率Place 365-命中率Layer1 Layer2 第6层层8层12层13层14层15层16层图4：相似性、命中率和特征图可视化的结果最佳彩色视图，放大查看细节。从自动搜索的架构DARTS-Net图。4便士它在两个数据集上产生不同的结果。在ImageNet上，第12层和第15层的命中率很高，并且在相应的层中选择了“金鱼”类。但是，在Place365上的结果并不好。我们认为这是因为DARTS-Net的架构是在CIFAR 10数据集上搜索的，CIFAR 10数据集与ImageNet具有相似的类，但与Place 365有很大的域差距。综上所述，我们发现ResNet 50和DARTS-Net中的跳跃连接可以使解纠缠提前结束，而DenseNet 121中的密集跳跃连接具体地说，高层语义信息可以在中间层提取，并通过跳跃连接发送到顶层在ResNet 50和DARTS-Net中，这与在具有直接连接的VGG 16架构中发生的情况完全不同。同时，本文还研究了DenseNet121严重摊销在每一层的信息，使其执行类似于VGG16，但更多的挑战，lenging解开。4.2.3解缠是如何发生的？现在，我们研究如何发生解纠缠，并研究DNN中的推理过程。通常，不同的网络具有不同的连接类型，导致不同的推理过程。直观地，直接连接successively传输信息层的层，而跳过连接摊销的信息在所有层。在具有直接连接的VGG16中，模式开始在中间层中分组为具体语义，即第8层到第10层，并且组合语义在顶层中被分解，即，第十一层至第十三层。这样的过程也出现在ResNet50的中间层，即，第10层至第16层。不同的ImageNet - SimilarityPlace365 -SimilarityImgageNet -命中率Place 365-命中率ImgageNet -命中率Place 365-命中率ImageNet - SimilarityPlace365 -SimilarityImageNetPlace365百分比（%）百分比（%）ImageNetPlace365百分比（%）百分比（%）奥里Dis.Dis.奥里百分比（%）百分比（%）ImageNet奥里Dis.Place365奥里Dis.百分比（%）百分比（%）685(a) ImageNet上的VGG16预测第265节-第一次(b) ImageNet上的ResNet50预测第404节-第一次(c) ImageNet上的DenseNet121预测第866节-第二次(d) ImageNet上的DARTS-Net预测91-鸦鹃标签：266-MiniaturePoodle标签：97Top@3相似子拱。1. 第265节-第一次2. 第267节-第一次3. 第189节-第一次预测第99节-准备Top@3相似子拱。1. 第99节-准备2. 第143节-第一次3. 第144节-准备标签：895-军用飞机标签：167-EnglishFoxhoundTop@3相似子拱。1. 第404节-第一次2. 第517节-第一次3. 第668节-准备预测第162节-意外Top@3相似子拱。1. 第162节-意外2. 第168节-最后一击3. 第214节-第一次标签：571-GasPump标签：865Top@3相似子拱。1. 第866节-第二次2. 第555节-第二次3. 758-卷轴预测第454节-第一次见面Top@3相似子拱。1. 第454节-第一次见面2. 第571节-第一次3. 第555节-第二次标签：16-Bulbul标签：904-WindowScreenTop@3相似子拱。1. 91-鸦鹃2. 15-罗宾3. 第17节-第二节预测第905节-意外Top@3相似子拱。1. 第905节-意外2. 第743节-第一次3. 753-散热器(e) Place365上的VGG16预测第134节-第一次(f) Place365上的ResNet50预测第352节-最后一击(g) Place365上的DenseNet121预测第171节-意外(h) Place 365上的DARTS-Net预测第234节-第一次标签：11-Arcade标签：30岁Top@3相似子拱。1. 第134节-第一次2. 272-门廊3. 130-电梯大堂预测第81节-大峡谷Top@3相似子拱。1. 第81节-大峡谷2. 第73节-战斗3. 第341节-最后一击标签：215-客厅标签：66桥Top@3相似子拱。1. 第352节-最后一击2. 第328节-第一次3. 第121节-第一次预测266-码头Top@3相似子拱。1. 266-码头2. 第278节-第一次3. 334-塔标签：247-Oilrig标签：193-InnTop@3相似子拱。1. 第171节-意外2. 306-天空3. 174-直升机场预测第220节-第一次Top@3相似子拱。1. 第220节-第一次2. 33-阳台3. 第166节-第一次标签：163-冰川标签：209-草坪Top@3相似子拱。1. 第234节-第一次2. 第186节-第二次3. 第232节-意外预测第362节-意外Top@3相似子拱。1. 第362节-意外2. 第258节-最后一击3. 第324节-第一次图5：错误分类的类及其Top@1分类预测和Top@3相似子架构的“标签类”的示例，优点是解缠结跳过特定层，例如第15层，并且在第16层而不是最后一层结束。早期解纠缠停止也可以在DARTS-Net中找到，在ImageNet数据集上进行了测试，其中语义概念已经在第12层和第15层中被选择。通过观察DenseNet121中的分解子架构和原始架构的可视化，我们发现一些层激活了输入图像中的不太有价值的模式用于分类，例如，第三层和第四层。然而，高级信息仍然在最后一层中被提取。这表明信息在DenseNet121中严重混淆，其中用于分类的有用信息通过密集的跳过连接摊销4.3.为什么DNN会误判我们试图解释为什么DNN有时会给出错误的预测。为此，我们显示输入图像的误分类标签，并计算误分类标签的子架构与正确标签的子架构之间的平均相似性。为了比较，我们还计算了正确标签的子架构与除误分类标签之外的所有其他标签给定一个类，上述实验比较子架构与误分类类和其他类的相似性。表1中所示的结果表明，误分类的输入图像倾向于被分配给具有与正确的子架构相似的子架构的类。图5示出了具有错误分类的输入图像的一些示例。它们的分类预测和子体系结构的类似概念。子体系结构倾向于具有与目标体系结构相似的语义含义，对于标签5. 结论在本文中，我们介绍了神经架构解缠结（NAD），以更好地理解DNN。从当前的研究路线开始，将概念与DNN的单元或层对齐，我们尝试将概念链接到DNN的子架构。NAD学习根据任务分解预先训练的网络，形成描述整个网络推理过程的信息流我们研究了NAD在基于对象和基于场景的数据集上的属性，DNN的范围从手工制作到自动搜索。实验结果产生了三个新的发现来解释DNN的内部工作，并从NAD的角度进一步讨论我们希望NAD能够揭示DNN中的推理过程，以了解DNN的工作原理。鸣谢。本研究得到了国家杰出青年科学基金（No.62025603）、国家自然科学基金（ No.U1705262 ）、国家自然科学基金（No.U1705263）、国家自然科学基金（No.U1705262）、国家自然科学基金（No.U1705263）、国家自然科学基金（No.U1705263）的资助。 62072386 ，编号 62072387 号 62072389 号 62002305 、61772443、61802324广东省基础与应用基础研究基金（编号：2019B1515120049）和中央高校基础研究基金（编号： 61702136 ）。 20720200077 号20720200090号20720200091）。686引用[1] 亚历桑德罗·阿奇里和斯特凡诺·索亚托。深层表征中不变性和解纠缠的出现. 机器学习研究杂志，2018年。[2] David Bau，Bolei Zhou，Aditya Khosla，Aude Oliva，and Antonio Torralba.网络解剖：量化深层视觉表征的可解释性。在IEEE计算机视觉和模式识别会议论文集，2017年。[3] David Bau ， Jun-Yan Zhu ， Hendrik Strobelt ， BoleiZhou， Joshua B.作者：William T. Freeman 和AntonioTorralba。肝解剖：可视化和理解生成对抗网络。在2019年国际学习代表会议上[4] Santiago A Cadena，Marissa A Weis，Leon A Gatys，Matthias Bethge，and Alexander S Ecker.不同的特征可视化揭示了深层神经网络早期层的不变性在2018年欧洲计算机视觉会议论文集[5] 陈志，贝义杰，辛西娅·鲁丁。用于可解释图像识别的概念白化。Nature Machine Intelligence，2020。[6] Bin Dai，Chen Zhu，Baining Guo，and David Wipf.利用变分信息瓶颈压缩神经网络。在2018年国际机器学习会议[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议论文集，2009年。[8] Dumitru Erhan 、 Yoshua Bengio 、 Aaron Courville 和Pascal Vincent。可视化深度网络的高层功能蒙特利尔大学，2009年。[9] Nicholas Frosst和Geoffrey Hinton蒸馏一种新的-将网络转化为软决策树。arXiv预印本arXiv：1711.09784，2017。[10] AbelGonzalez-Garcia ， DavideModolo 和 VittorioFerrari。卷积神经网络中会出现语义部分InternationalJournal of Computer Vision，2018。[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上，2016年。[12] Irina Higgins 、 Loic Matthey 、 Arka Pal 、 ChristopherBurgess 、 Xavier Glorot 、 Matthew Botvinick 、 ShakirMohamed和Alexander Lerchner。beta-vae：使用受约束的变分框架学习基本视觉概念。在2017年国际学习表征会议[13] Jie Hu ， Rongrong Ji ， Shengchuan Zhang ， XiaoshuaiSun，Qixiang Ye，Chia-Wen Lin，and Qi Tian.学习多样化表征的信息计算过程在神经信息处理系统的优势，2019年。[14] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集，2017年。[15] 金、马丁·瓦滕伯格、贾斯汀·吉尔默、凯莉·蔡、詹姆斯·韦克斯勒、费尔南达·维加斯和罗里·塞尔斯。超越特征属性的可解释性：概念激活向量定量测试。在2018年的机器学习国际[16] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv，2013.[17] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。2009年[18] Jie Li，Rongrong Ji，Peixian Chen，Baochang Zhang，Xi-aope

下载后可阅读完整内容，剩余1页未读，立即下载