基于信息平面的DNN能力评估及其在图像分类中的应用

16 浏览量更新于2023-10-13 收藏 731KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于信息平面程浩[0000 - 0001 - 8864 - 7818]、连东泽[0000 - 0002 - 4947 - 0316]、高盛华[0000 - 0003 -1626 - 2040]、耿彦霖[0000- 0002 - 4451 - 7242]上海科技大学{chenghao，liandz，gaoshh，gengyl}@ shanghaitech.edu.cn抽象。受深度神经网络（DNN）分析的信息瓶颈原理的开创性工作的启发，我们设计了一个基于信息平面的框架来评估DNN用于图像分类任务的能力，这不仅有助于理解DNN的能力，而且有助于我们更有效地选择导致更高分类精度的神经网络。此外，通过实验，分析了模型精度、I（X; T）和I（T; Y）之间的关系，其中I（X;T）和I（T;Y）是DN的输出T与输入X和标签Y的乘积形式。我们还表明信息平面比损失曲线信息量更大，并且将互信息应用于改进的模型的能力以用于对一个类的块进行分类。我们的研究将有助于更好地理解DNN。关键词：信息瓶颈，互信息，神经网络，图像分类1介绍深度神经网络（DNN）已经在许多计算机视觉和自然语言处理任务中证明了它们的成功[1-5]，但是关于DNN的继承的理论研究还没有充分地被发现。近年来，信息论在DNN理解中显示出了其优势。具体来说，Tishby和Zaslavsky [6]指出，分层神经网络可以表示为马尔可夫链，并通过信息瓶颈分析神经网络。Schwartz-Ziv和Tishby [7]分别计算每个隐藏层的互信息I（X;T）、I（T;Y），其中X是输入数据，Y是标签，T是隐藏层输出。然后，他们证明了神经网络的可视化的有效性。这些工作启发我们利用互信息来评估DNN的能力图图1描绘了互信息的演化以及信息平面中的可以看出，每个互信息路径中的绿点（被称为转变点）将学习过程分为两个阶段：⋆⋆Corresponding Author2郝成等Fig. 1.这个数字改编自[7]。基于全连接神经网络计算互信息路径X是12维二进制输入，Y有2个类。每个隐藏层首先到达绿点（过渡点），然后在黄点收敛。最左边的路径对应于最后一个隐藏层，最右边的路径对应于第一个隐藏层。(best颜色显示）在输入上的形式中，即I（T ; Y）上的形式中包含了多个整数和一个整数，其中I（T ; Y）是整数; e. I（X;T），表示为es（这意味着层移除不相关的信息直到收敛）。I（X;T）和I（T;Y）的演化解释了DNN的工作原理。然而，[6，7]中使用的模型是一些简单的全连接神经网络。在在实际应用中，通常使用卷积神经网络（CNN在计算机视觉中。推进这些工作[6，7]，本文设计了一个基于信息平面的框架来研究一些经典的CNN结构用于图像分类的能力，包括AlexNet [2]，VGG [8]。我们的工作贡献可概括如下：– 我们的工作揭示了I（X;T）也有助于训练准确性，并且随着网络的深入，相关性越来越强我们进行实验来验证这一说法。– 提出了一种基于信息平面的评价框架。该框架更符合规范，有助于更好地– 我们表明，互信息可以用来推断DNN2相关工作最相关的主题是信息瓶颈（IB）原则[9]。图1B提供了一种用于提取与预测一些不同的输出随机变量相关的一些输入随机变量中的信息的技术[10]延伸使用IB评估DNN的能力3原始的IB方法，以获得连续的表示，保留相关信息，而不是离散的集群，为特殊情况下的多元高斯变量。 [11] 引入了称为决定性 IB（DIB）的替代公式，其用熵代替互信息并且更好地捕获哪些特征是相关的概念[12]从理论上分析了IB方法及其与学习算法和最小充分统计量的关系。[13]的K-均值和确定性退火算法的几何聚类可以从一个更一般的IB方法。最近，我们看到了IB在深度学习中的一些应用[14]给出了IB方法的变分近似。这种变分方法可以使用神经网络来参数化IB模型，并利用重新参数化技巧进行有效训练。[15]提出了一种方法，允许IB用于更一般的领域，如离散或连续的输入和输出，非线性编码和解码映射。[16]提出了一种参数IB（PIB）框架，以联合优化所有层的压缩和相关性，从而优化网络的压缩和相关性，以更好地扩展网络的能力[17]介绍了Information Dropout方法，它概括了深度学习中的dropout方法，植根于自动适应数据的信息理论原理，可以更好地利用容量有限的架构。[6，7]与我们的工作最相关，可视化隐藏层的互而在本文中，与这些研究具有全连接层的DNN的工作不同，我们建议研究图像分类中更常用的CNN的行为3互信息与深度神经网络在本节中，我们首先回顾了互信息的定义及其与DNN分析相关的特性，然后我们用互信息解释DNN中的表示学习，并展示如何计算DNN中的互信息。3.1互信息给定具有联合概率质量函数p（x，y）和边际概率质量函数p（x）和p（y）的两个随机变量X和Y，两个变量之间的相互信息I（X;Y）定义为：I（X;Y）= Σx为ohp（x，y）logp（x，y）p（x）p（y）.（一）X的熵H（X）可以使用互信息来定义 ΣH（X）=I（X;X）= −p（x）logp（x）。（二）X4郝成等一般来说，两个随机变量的互信息是两个变量之间相互依赖的度量更具体地说，它量化了通过另一个随机变量获得的关于一个随机变量的信息量。互信息有两个属性（3）（4），它们对分析DNN很有用：– 功能转换：I（X;Y）=I（ψ（X）;φ（Y））（3）对于任何可逆函数ψ和φ。– 马尔可夫链假设X→Y→Z形成马尔可夫链，则我们有数据处理不等式：I（X; Y）彡I（X; Z）。（四）3.2学习过程在表示学习中，我们希望我们的模型学习原始数据X的有效表示，而不会失去标签Y的预测能力，这意味着我们希望学习X相对于Y的最小充分统计量。最小充分统计量T（X）是以下优化问题的解：T（X）=arg minS（X）：I（S（X）;Y）=I（X;Y）I（S（X）;X）（5）因此，从最小充分统计的角度来看， DNN的目标是使 I （ X;S（X））尽可能小，这意味着表示是有效的;而I（S（X）;Y）应该与I（X;Y）相同，这意味着Y上的信息不会丢失。实际上，显式最小充分统计量只存在于非常特殊的分布中。实际的学习过程是 I （ X;S（X））和I（S（X）;Y）之间的IB可以被看作是率失真理论的一个特例，并提供了一个框架，以找到近似最小的充分统计。有效的表示是X的压缩和Y的预测能力之间的折衷。Letx是输入输出，并且是对修改后的输出的压缩表示，或者是x的压缩表示。该表示由概率映射p（t）定义|X）。信息瓶颈权衡由以下优化问题公式化：minp（t|x），Y→X→T{I（X; T）− βI（T; Y）}。（六）拉格朗日乘数β确定由表示T捕获的相关信息的水平。因此，给定联合分布p（x，y）和参数β，最小化（6）产生最优I（X;T）和I（T;Y）（参见[9]中的（31）使用IB评估DNN的能力5离散化CNN架构Y X T标签输入输出图二.下图显示了我们如何从网络中获得T来计算I（X;T）和I（T;Y）。Y→X→T形成马尔可夫链。最后一层的输出（蓝色圆圈）是softmax概率。3.3计算DNN从第3.2节中，我们知道I（X;T）和I（T;Y）对于评估表示学习算法（包括DNN）是必不可少的，但是DNN中的计算是一个困难的问题。[7]使用该类型的概率分布函数作为该隐藏层的活动函数，并且将该层的输出活动函数设置为n - 1和1之间的30个相等的值。然后，它们使用每个t的这些离散化值来直接计算每个隐藏层的输入数据的相等可能模式上的联合分布p（x，t）和p（t，y但是当隐藏层中的神经元数量很大时（当我们可视化CNN层时会发生这种情况），I（X;T）和I（T;Y）几乎没有变化。原因是即使我们减少区间数，T的样本空间也是巨大的，并且特定输入数据x的输出以高概率落入t的一个区间因此p（x|t）和p（y|t）是近似决定性的，I（X; T）≈H（X）和I（T; Y）≈H（Y）.因此，这个问题使得分析通用神经网络变得困难。幸运的是，我们的目标是评估不同的网络结构，所以我们只需要可视化最后一个隐藏层，因为它直接揭示了模型输出T，输入X和标签Y之间的关系。由于用于图像分类任务的DNNs中的最后一个隐藏层的神经元的数量恰好是输入数据的类的数量，我们的方法只受类的数量。假设有C个类，最后一个隐藏层的输出是无界的不同类的分数。我们使用归一化指数函数将任意实值的C维实向量z压缩为范围[0，1]中的实值的C维向量σ（z该函数由下式给出ezjσ（z）j=ΣCc=1对于j = 1，. . . 、C、（7）ezc这正是softmax函数在神经网络中的作用。我们将神经元的输出σ（z）分为10个等价的二值和一值，并最终得到结果6郝成等模型输出T然后我们可以计算任何网络架构的I（X;T）和I（T;Y）。这种计算的优点是T的样本空间稍小，因为我们强制C维向量σ（z）加起来等于1。该过程如图1所示。二、4实验本节内容如下：在第4.1节中，我们分析了模型精度、I（X; T）和I（T;Y）之间的关系;在第4.2节中，我们提出了一个可用于评估DNN的框架;在第4.3节中，我们展示了在评估DNN时，评估框架比损失曲线更能提供信息，以及如何使用这个框架来指导我们有效地选择网络;在第4.4节中，我们展示了如何应用互信息来推断模型在图像分类任务中针对每个类别的对象的能力。4.1分类精度与I（X;T）和DNN中的I（T;Y）除了发展深度学习理论之外，从经验上验证它也很重要。在最初的IB理论[12]中，X，Y和T分别表示训练输入，训练标签和模型输出;[12]指出I（T; Y）解释了训练精度，I（X; T）作为控制泛化的正则化项。在这里，我们发现在DNN中，低I（X;T）也有助于训练精度。特别地，当I（T1;Y）和I（T2;Y）相等时，具有较小I（X;T）的模型具有更大的概率来实现更高的训练精度。为了验证低I（X;T）也有助于训练精度的假设，我们在CIFAR-10数据集上训练神经网络，以采样I（X;T），I（T;Y）和训练精度的值。在训练过程中，在每个固定的迭代步骤处执行采样。对于第i个样本，我们使用I（X;Ti）、I（Ti;Y）和Acci分别表示互信息值和训练精度。检验我们假设正确性的一个直接方法是找到满足I（Ti;Y）=I（Tj;Y）的对（i，j），然后检查I（X;T）和训练精度的关系由于I（T; Y）是一个平均值，因此必须找到具有相同I（T;Y）值的一对样本。相反，我们通过检查反演来检验假设反演是满足I（Ti;Y） Accj的一对样本（i，j）。在所有这些反演对中，我们计算满足I（X;Ti）

下载后可阅读完整内容，剩余1页未读，立即下载