CNN滤波器数据库的实证研究与卷积滤波器的分布转移相关性

63 浏览量更新于2023-10-26 收藏 13.91MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

190660CNN滤波器数据库：对训练的卷积滤波器的实证研究0Paul Gavrikov 1 * 和 Janis Keuper 1, 2, 3 *01 IMLA，Offenburg大学，2 CC-HPC，Fraunhofer ITWM，3 Fraunhofer研究中心ML0{first.last}@hs-offenburg.de0摘要0目前，关于卷积神经网络（CNN）的可迁移性和鲁棒性的许多理论和实际相关问题仍未解决。尽管正在进行各种角度的研究努力来解决这些问题，但在大多数与计算机视觉相关的情况下，这些方法可以概括为对图像数据分布转移效应的研究。在这个背景下，我们提议研究训练的CNN模型中学习权重的转移。在这里，我们专注于主要使用的3×3卷积滤波器核的分布特性。我们收集并公开提供了一个数据集，其中包含来自数百个训练的CNN的超过14亿个滤波器，使用了各种数据集、架构和视觉任务。在所提议的数据集的第一个用例中，我们可以展示许多公开可用的预训练模型在实际应用中的高度相关特性：I）我们分析了在不同元参数轴上训练的滤波器之间的分布转移（或缺乏转移），如数据集的视觉类别、任务、架构或层深度。基于这些结果，我们得出结论，如果满足大小和方差条件，模型预训练可以成功地应用于任意数据集。II）我们展示了许多预训练模型包含退化滤波器，使它们在目标应用的微调上更不稳定、更不适用。数据和项目网站：https://github.com/paulgavrikov/cnn-filter-db01. 引言0尽管卷积神经网络（CNN）在各种视觉任务中取得了巨大的成功，但其实际部署仍然面临一些固有的缺点。两个突出的例子是：I）依赖于大量标注的训练数据[1]，而并非所有目标领域都有这样的数据；0*由巴登-符腾堡州科学、研究和艺术部资助，授权号32-7545.20/45/1（Q-AMeLiA）。作者还感谢Margret Keuper对提交这项工作的支持和鼓励。0卷积深度0图1.在CIFAR-10上训练的ResNet-18中的每个卷积层中提取的前3个3×3滤波器。滤波器显示出明显的多样性丧失和深度增加的稀疏性。颜色图的范围由每个层中所有滤波器的绝对峰值权重确定。0并且生成这样的数据成本很高；II）CNN对输入数据分布的转移的鲁棒性和泛化能力仍然存在广泛未解决的问题[2]。可以认为这两个问题是密切相关的，因为解决问题I的常见实际解决方案是通过来自实际目标领域的小数据集对预训练模型进行微调[3]。这就带来了一个挑战，即找到基于数据分布“尽可能接近”目标分布的合适的预训练模型。因此，这两种情况（I+II）都意味着需要对CNN的上下文中的分布转移进行建模和观察。在本文中，我们提议不是在输入（图像）域中研究这些转移，而是在CNN本身的2D滤波器核分布中研究。我们认为，例如，在CNN中训练的卷积滤波器的分布，隐含地反映了输入图像数据的子分布，更适合且更容易访问这个任务的表示。为了促进对学习滤波器的系统研究，我们收集并公开提供了一个包含来自数百个训练的CNN的超过14亿个滤波器及其元数据的数据集，使用了各种数据集、架构和视觉任务。为了展示其科学价值190670对这个新数据源的分析，我们进行了第一次分析，并报告了对广泛使用的CNN模型的一系列新见解。根据我们提出的方法，我们表明许多公开提供的模型都存在退化问题。我们表明过参数化导致滤波器稀疏和/或非多样性（图1），而鲁棒训练增加了滤波器的多样性，并减少了稀疏性。我们的结果还表明，除了GAN鉴别器等极端异常值之外，为不同任务训练的模型的学习滤波器并没有显著差异。训练在不同视觉类别数据集上的模型也没有显著漂移。研究模型中的大部分变化是由于退化，而不是结构上的实际差异。因此，我们的结果表明，预训练可以独立于实际目标数据进行，只有训练数据的数量和多样性才是重要的。这与最近的研究结果一致，即模型甚至可以使用分形图像进行预训练。对于分类模型，我们表明学习滤波器的最大方差主要出现在模型的开头和结尾，而对象/人脸检测模型只在早期层中显示显著的方差。此外，最专业的滤波器出现在最后的层次。我们总结我们的主要贡献如下：0•发布一个包含超过14亿个3×3卷积滤波器的多样化数据库，同时提供相关的滤波器和模型的元信息。0•提出了一种基于滤波器稀疏性和熵的数据无关方法，用于找到由于过参数化或训练的CNN模型不收敛而导致的“退化”卷积层。0•显示公开可用的模型通常包含退化的层，因此对于迁移任务可能存在问题。0•分析不同组的滤波器分布偏移，提供了形成的滤波器在广泛的检查组中相当相似的见解。0•显示存在于分类模型中的模型间变化不仅仅出现在深层，而且也出现在第一层。0论文组织。我们在第3节中概述了我们的数据集及其收集过程，接着介绍了研究滤波器结构、分布偏移和层退化（如随机性、滤波器结构的低方差和滤波器的高稀疏性）的方法。然后在第4节中，我们将这些方法应用于我们收集的数据。我们展示了过参数化和鲁棒训练对滤波器退化的影响，并提供了阈值寻找的直觉。然后，我们通过确定适合的滤波器基础和研究训练中滤波器的可重现性，滤波器在训练过程中的形成以及分析滤波器结构来分析滤波器结构。0对收集到的元数据的各个维度的分布偏移进行分析。我们在第5节中讨论了我们方法的局限性，并在第6节中得出结论。02. 相关工作0我们不知道有任何系统性的、大规模的分析学习滤波器的研究，涵盖了广泛的数据集、架构和任务，就像本文中所进行的分析一样。然而，当然有一些与我们的分析部分重叠的相关工作：滤波器分析。在[7-15]中，对从训练的InceptionV1模型中提取的特征、连接和它们的组织进行了广泛的分析。作者声称，即使为不同任务进行训练，不同的CNN也会形成相似的特征和电路。迁移学习。在[16]中可以找到关于图像分类CNN的迁移学习的调查，而其他任务和领域的一般调查则在[17,18]中提供。[19]研究了在ImageNet1k分类模型中学习的滤波器表示，并提出了迁移学习的第一个方法。他们认为，不同的CNN在早期层中会形成类似的滤波器，这些滤波器主要类似于Gabor滤波器和颜色斑点，而深层则通过形成越来越专业的滤波器来捕捉数据集的特定性。[20]使用高斯混合模型捕捉卷积滤波器模式分布，以实现跨架构的迁移学习。[21]证明了卷积滤波器可以被一个固定的滤波器基础所取代，这个基础是由1×1卷积层混合而成的。修剪标准。虽然我们没有尝试修剪，但我们的工作与修剪技术有重叠之处，因为它们通常依赖于估计准则来理解要压缩的参数。这些准则要么依赖于基于数据的前向传播的计算[22-26]，要么依赖于反向传播[27,28]，要么仅基于参数的数值权重（通常是任何ℓ-范数）来估计重要性[29-33]。CNN分布偏移。在[34]中提供了一个关于在现实应用中出现的分布偏移的基准，而[35]则测量了204个ImageNet1k模型对自然分布偏移的鲁棒性。作者得出的结论是，对于现实世界的分布偏移的鲁棒性较低。最后，[36]研究了图像分类模型的迁移性能与分布偏移之间的相关性，并发现增加训练集和模型容量可以增加对分布偏移的鲁棒性。03. 方法03.1. 收集滤波器0我们总共收集了647个公开可用的CNN模型，来源于[37-39]和其他来源，这些模型已经进行了预训练。X∗ = X − ¯X = UΣV T(1)⃗a = (Σ · I)2/(n − 1)ˆa = ⃗a/ ⃗a 1(2)f ′ =�icivi + ¯Xi(3)(4)190680针对各种2D视觉任务进行了训练。为了提供一个异构和多样化的卷积滤波器“在野外”的表示，我们检索了11个不同任务的预训练模型，例如分类、分割和图像生成。我们还记录了每个模型包含的操作的深度和频率等各种元数据，并将使用的训练集的多样性手动分类为16个视觉上有区别的组，例如自然场景、医学CT、地震或天文学。总共，这些模型在71个不同的数据集上进行了训练。其中主要的子集是在ImageNet1k[40]上训练的图像分类模型（355个模型）。所有模型都使用了完整的32位精度进行训练。0但是可能是在不同尺度的输入数据上进行训练的。数据集中包括了低分辨率的AlexNet[42]、DenseNet-121/161/169[43]、ResNet-9/14/18/34/50/101/152[44]、VGG-11/13/16/19[45]、Mo-bileNet v2[46]、Inceptionv3[47]和GoogLeNet[6]等图像分类模型，我们特意在简单的数据集（如CIFAR-10/100[48]、MNIST[49]、Kuzushiji-MNIST（KMNIST）[50]和Fashion-MNIST[51]）上进行了训练，以研究过参数化对学习滤波器的影响。所有收集到的模型都被转换为ONNX格式[52]，这样可以在没有框架依赖的情况下进行滤波器提取。这里只考虑了核大小为3×3的常规卷积层的常用滤波器。未包括转置（有时也称为反卷积或上卷积）卷积层。总共，我们得到了来自21,436个层的1,464,797,156个滤波器。03.2. 分析滤波器结构0我们应用全秩主成分分析（PCA）变换，通过奇异值分解（SVD）来理解滤波器的潜在结构[53]。首先，我们将相关的n 个展平滤波器堆叠成一个 n × 9 的矩阵X。然后，我们对矩阵进行居中处理，并进行奇异值分解，得到一个 n × 9 的旋转矩阵 U，一个 9 × 9 的对角缩放矩阵Σ，以及一个 9 × 9 的旋转矩阵 V T。对角线上的元素 σ i，i= 0，...，n - 1组成了奇异值，按照其大小递减的顺序排列。V T中的行向量 v i，i = 0，...，n - 1 构成了主成分。U中的每个行向量 c ij，j = 0，...，n - 1 都是 f i的系数向量。0其中 ¯ X 表示任意矩阵 X的列均值向量。然后我们得到一个解释向量 ˆ a01 更多细节请参考补充材料。2尽管初步实验表明，混合/降低精度训练[41]不会对分布偏移产生影响。0每个主成分的方差比率。 ∥ ∙ ∥ 1 表示 ℓ 1 -范数。0最后，每个滤波器 f ′ 可以用主成分 v i 的线性偏移和系数 ci 来描述。03.3. 测量分布偏移0所有概率分布都由直方图表示。直方图的范围由所有系数的最小值和最大值定义。每个直方图被分成70个均匀的箱子。两个分布之间的差异由对称的、非负的Kullback-Leibler（KL sym）[54]变体来衡量。0KL(P ∥ Q) = ∑0x ∈X P(x) log P(x)0Q(x)0KL sym(P ∥ Q) = KL(P ∥ Q) + KL(Q ∥ P)0我们通过滤波器集合P和Q的系数分布的散度之和来定义两个滤波器集合之间的漂移D。该和由第i个主成分的方差比率ˆai解释的第i个主成分的散度的总和加权。0D(P ∥ Q) = ∑0i� ai ∙ KL sym (Pi ∥ Qi) (5)0为了避免未定义的表达式，所有概率分布F都被设置为对于所有x∈X：F(x) ≥ ϵ。03.4. 测量层退化0彩票票据假设[55]认为每种架构都有一定数量的卷积滤波器，使其能够将给定的数据集转化为一个良好可分离的特征空间。超过这个数量将导致模型分割为多个相互连接的子模型。我们假设这些子模型以CNN中退化的滤波器的形式出现。同样，训练样本或训练时期不足也会导致滤波器退化。我们对退化的类型进行了以下描述。01.高稀疏性：滤波器主要接近零，因此产生几乎为零的特征图[29]。这些特征图不包含重要信息，可以丢弃。02.结构上的低多样性：滤波器在结构上相似，因此是冗余的。它们在不同尺度上产生类似的特征图，可以由一部分现有滤波器表示。[0.0, 0.1](0.1, 0.2](0.2, 0.3](0.3, 0.4](0.4, 0.5](0.5, 0.6](0.6, 0.7](0.7, 0.8](0.8, 0.9](0.9, 1.0]convolution depth decile0.00.20.40.60.81.0sparsity SCIFAR-10CIFAR-100ImageNet1k[0.0, 0.1](0.1, 0.2](0.2, 0.3](0.3, 0.4](0.4, 0.5](0.5, 0.6](0.6, 0.7](0.7, 0.8](0.8, 0.9](0.9, 1.0]convolution depth decile0.00.20.40.60.81.0entropy HCIFAR-10CIFAR-100ImageNet1k[0.0, 0.1](0.1, 0.2](0.2, 0.3](0.3, 0.4](0.4, 0.5](0.5, 0.6](0.6, 0.7](0.7, 0.8](0.8, 0.9](0.9, 1.0]convolution depth decile0.00.20.40.60.81.0sparsity SImageNet1kImageNet1k + robust[0.0, 0.1](0.1, 0.2](0.2, 0.3](0.3, 0.4](0.4, 0.5](0.5, 0.6](0.6, 0.7](0.7, 0.8](0.8, 0.9](0.9, 1.0]convolution depth decile0.00.20.40.60.81.0entropy HImageNet1kImageNet1k + robust(6)190690(a) 稀疏性 vs. 过度参数化0(b) 熵 vs. 过度参数化0(c) 稀疏性 vs. 鲁棒性0(d) 熵 vs. 鲁棒性0图2. 过度参数化、鲁棒性和常规分类模型的层熵和稀疏性比较。为了清晰起见，离群值被隐藏。03.随机性：滤波器权重在条件上独立于其邻居。这表明没有或者没有足够的训练。0稀疏退化可以通过给定层中稀疏滤波器的比例S来检测。如果所有条目都接近零，则称滤波器f为稀疏。因此，给定输入通道数cin、输出通道数cout和层L中的一组滤波器，我们可以通过以下方式测量层稀疏性：0S(L) = |{f | f ∈ L ∧ (�w ∈ f : -ϵ0 ≤ w ≤ ϵ0)}|0cin cout0为了检测其他类型的退化，我们引入了一种基于每个层中所有滤波器的奇异值分解得到的解释方差比率的香农熵的逐层度量（第3.2节）。0H = -∑0i� ai log10 ˆai (7)0如果H接近零，这表明有一个强主成分可以重建大多数滤波器，因此是低多样性退化。另一方面，较大的熵表示奇异值的（接近）均匀分布，因此滤波器是随机的。稀疏层是低多样性退化的一种特殊形式，而稀疏性和随机性是互斥的。值得注意的是，当cin cout � 9时，|Σ∙I|=min(cin cout,9)，因此只有在cin cout � 9时熵才具有表达能力。04. 结果：训练的CNN滤波器分析04.1. 层退化0在本节中，我们研究了退化的不同原因，并旨在提供评估的阈值。0过度参数化。我们在低分辨率数据集上训练的大多数模型对于这些相对简单的问题来说都过度参数化。我们基于以下事实提出这个论点：对于大多数架构，我们有不同深度的模型，并且已经观察到最小变体的性能接近完美。因此，可以安全地假设较大的模型过度参数化，特别是考虑到性能只有轻微提高。首先，我们分析了在CIFAR-10/100上训练的这些模型与我们数据集中所有ImageNet1k分类模型的层稀疏性和熵。对于每个数据集，我们使用相同的网络和超参数进行训练。CIFAR-10和CIFAR-100都由60,000个32×32像素的图像组成，但CIFAR-100包含10倍的标签，因此每个类别的样本较少，形成一个更具挑战性的数据集。图2a显示，过度参数化的模型平均包含更多的稀疏滤波器，并且随着深度的增加而增加。特别是，我们发现CIFAR-10的稀疏滤波器最多。然而，ImageNet1k分类器似乎也具有某种“自然”的稀疏性，尽管我们不认为大多数这些模型过度参数化。另一方面，熵随着每个分类器的层深度增加而减小，但在过度参数化的模型中减小得更快。medical mrinaturalplantstextures202c0all202c1202c2202c3202c4202c5202c6202c7202c8̸(9)190700图3. 选定的1个视觉类别的主成分沿每个主成分的系数分布的KDE。0参数化模型（图2b）。同样，CIFAR-10模型的退化速度更快，退化更严重。过参数化模型的某些层在更深的层次上的熵接近于0，这表明这些模型是“饱和”的，只产生不同尺度的相同过滤器的变体。与过饱和一致，这些模型的过滤器也越来越稀疏，可能是正则化的效果。0过滤器退化和模型的鲁棒性。我们的数据集还包含来自RobustBench排行榜的鲁棒模型[38]。当将鲁棒模型与在ImageNet1k上训练的非鲁棒模型进行比较时，可以明显看出鲁棒模型在更深的卷积层中几乎没有稀疏过滤器（图2c），而常规模型在那里显示一些稀疏性。鲁棒模型的熵在整个深度上也更高（图2d），表明鲁棒模型学习到更多样化的过滤器。0阈值。为了得到给定每层过滤器数量n的随机性阈值，我们进行多次实验，其中我们从标准正态分布中初始化不同大小的卷积过滤器，并根据熵的最小结果拟合一个sigmoid函数TH。0TH(n) = L01 + e^(-k(log2(n)-x0)) + b (8)0我们得到以下值：L = 1.26，x0 = 2.30，k = 0.89，b =-0.31，并将任何熵大于TH(n)的层称为随机层。相反，对于低多样性退化的阈值定义似乎不太直观，只能依靠统计数据：所有层的平均熵H为0.69，并且随着深度的增加，从0.75的平均值连续下降到0.5。此外，1.5IQR的最小值也随深度逐渐减小。稀疏性也是如此：所有层的平均稀疏度S为0.12，仅有56.5%的层具有S <0.01，9.9%的层甚至显示S >0.5。在卷积深度方面，平均稀疏度在9.9%至14%之间变化，最大的稀疏度出现在模型深度的最后20%。1.5IQR的最大异常值也出现在第一分位数中。在这两种情况下，我们发现很难提供一个有意义的通用阈值，并建议根据具体情况确定该值。0(a) 太阳0(b) 尖峰0(c) 符号0(d) 点0图4. 组件分布之间的双变量图显示了四种表型。0然而，第一分位数中的1.5IQR的最大异常值在两种情况下都很难确定。在这两种情况下，我们发现很难提供一个有意义的通用阈值，并建议根据具体情况确定该值。04.2. 过滤器结构0在接下来的一系列实验中，我们仅分析3×3过滤器的结构，忽略它们在训练模型中的实际数值权重。因此，我们将每个过滤器f单独归一化为f'，通过将其绝对最大权重除以f。0d i = max i,j |f ij |0f'ij =0如果d i ≠ 0，则f ij= d i，否则f ij = 00然后，我们对经过缩放的过滤器进行PCA变换。图5显示了根据几个元数据维度划分的一些主成分的定性示例。形成的基础图像对于所有组别通常是相似的，除了一些异常值（如GAN-鉴别器）。然而，解释的方差波动很大，有时会改变组件的顺序。一致地，我们观察到第一主成分的方差明显较高。解释的方差不一定与观察到的模型之间的偏移相关。在这里，最大的平均漂移也位于第一主成分（ˆD =0.90），但随后是第六、第三、第二主成分（ˆD =0.78，0.69，0.58）。第六个主成分的系数也包含最强的异常值（图6）。我们可视化了0.40v00.18v10.12v20.10v30.07v40.06v50.03v60.03v70.02v81010.53v00.13v10.09v20.09v30.06v40.03v50.03v60.02v70.02v81010.13v00.13v10.13v20.11v30.11v40.11v50.10v60.10v70.10v81010.26v00.14v10.13v20.11v30.09v40.09v50.07v60.06v70.05v8101123456789most-significant n components0.20.40.60.81.0cumulative explained variance ratioAllVisual Category: FractalTask: GAN-DiscriminatorFirst convolution layers190710•0•0•0•0图5.选择的1个滤波器基础的描绘和（累积）每个组件的解释方差比率，用于来自•完整数据集的滤波器，•在分形图像上训练的模型，•GAN鉴别器，•第一个卷积层。0通过核密度估计（KDE）的每个组件的PCA系数的分布，例如，图3描述了按某些选定的视觉类别分组的滤波器的分布，与完整数据集的系数分布进行比较。从医学MRI中提取的滤波器呈现出尖峰/多模态KDE。这些分布也可以通过双变量散点图进行可视化，这可能比KDE更详细地显示更多细节。例如，它们可以让我们根据它们在PCA空间中的分布特征将分布分类为表型（图4）：sun：两个维度都是高斯状的分布。这些是预期的系数分布，没有显著的稀疏/低多样性退化。然而，这种表型也可能包括未收敛的滤波器；spikes：受低方差退化影响的分布，导致局部热点；symbols：至少一个分布是多模态的，非居中的，高度稀疏或其他非正常（低方差退化）；point：系数主要位于中心（稀疏退化）。0滤波器的可重复性。我们使用相同的超参数在CIFAR-10上多次训练低分辨率网络，除了随机种子外，每个模型在最佳验证时期保存一个检查点。当使用不同的权重初始化重新训练时，大多数模型都趋于高度相似的系数分布（例如，D <5.3∙10-4的ResNet-9）。然而，一些架构，如MobileNetv2，显示出更高的转移（D <2.6∙10-2）。我们认为这是由于损失曲面的结构，例如在ResNets中找到的残差跳过连接平滑了曲面，而其他网络可能由于噪声曲面而包含更多局部最小值。0训练过程中滤波器结构的形成。尽管我们的数据集只包括经过训练的卷积滤波器，但我们试图了解系数分布如何变化。0图6. 在所有可能的模型配对上计算的主成分上的转移D的分布。0图7. 在CIFAR-10上每10个周期训练的ResNet-9的系数分布。0在训练过程中。因此，我们记录了在CIFAR-10上训练的ResNet-9的检查点，每10个训练周期保存一次，从权重初始化开始。图7显示了在所有主要成分上的系数分布在开始时呈高斯分布，并在训练过程中发生变化。对于这个特定的模型，主要主成分沿着训练过程中保持标准差，而次要主成分则保持不显著的变化。Object Detection (16)GAN-Generator (24)Depth Estimation (2)Style Transfer (5)Super Resolution (4)Panoptic Segmentation (2)Sematic Segmentation (15)Classification (555)Segmentation (11)Face Recognition (1)Auto-Encoder (1)Face Detection (4)GAN-Discriminator (7)Object Detection (16)GAN-Generator (24)Depth Estimation (2)Style Transfer (5)Super Resolution (4)Panoptic Segmentation (2)Sematic Segmentation (15)Classification (555)Segmentation (11)Face Recognition (1)Auto-Encoder (1)Face Detection (4)GAN-Discriminator (7)faces (16)depth (2)natural (557)map (2)thermal (1)astronomy (2)art (5)seismic (4)cars (1)medical ct (4)fractals (2)textures (2)medical xray (9)medical mri (3)plants (1)faces (16)depth (2)natural (557)map (2)thermal (1)astronomy (2)art (5)seismic (4)cars (1)medical ct (4)fractals (2)textures (2)medical xray (9)medical mri (3)plants (1)[0.0, 0.1](0.1, 0.2](0.2, 0.3](0.3, 0.4](0.4, 0.5](0.5, 0.6](0.6, 0.7](0.7, 0.8](0.8, 0.9](0.9, 1.0][0.0, 0.1](0.1, 0.2](0.2, 0.3](0.3, 0.4](0.4, 0.5](0.5, 0.6](0.6, 0.7](0.7, 0.8](0.8, 0.9](0.9, 1.0]0.00.20.40.60.81.01.20.00.20.40.60.81.01.20.00.20.40.60.81.01.2190720（a）任务（b）视觉类别（c）卷积深度十分位数0图8. 不同过滤器分组的转移D的热图。括号中的数字表示该组中的模型数量。低值/深色表示低转移。0主成分分布减少。初始化观察帮助我们从我们的集合中删除无法加载训练参数的模型，并为我们提供随机性度量的基础。04.3. 训练模型之间的分布变化0在本小节中，我们研究了预训练模型在不同元维度上的转移距离。我们计算并可视化转移D的热图（图8），显示所有配对之间的转移。0任务之间的转变。毫不奇怪，分类、分割、目标检测和GAN生成器的分布非常相似，因为非分类模型通常包括一个分类骨干。到其他任务的平均转变最小的分布出现在目标检测、GAN生成器和深度估计模型中。最不可转移的分布是GAN鉴别器。它们的分布几乎沿主成分不变，可以用高斯分布来近似。根据我们的随机性指标，这表明滤波器分布接近随机初始化，意味着在（成功）训练结束时无法区分真实样本和伪造样本的“困惑”的鉴别器。稍微大一点的平均转变对于分类可能会令人惊讶。这可能是由于我们收集的模型中存在许多退化层，当研究KDE时也可以看到这些退化层的峰值。包括仅包含非退化分类器的分布的评估1显示出较低的平均转变，这是由于前述与其他任务的相似性。0视觉类别和训练集之间的转变。我们发现分布转变在大多数视觉类别和训练集之间是平衡的。值得注意的离群值包括0所有医学类型。它们在KDE中有明显的峰值，再次表明存在退化层。事实上，这些模型中后80%的平均稀疏度极高。另一个有趣但不太显著的离群值是分形类别。它由在Fractal-DB上训练的模型组成，该数据库被提出作为ImageNet1k的合成预训练替代方案[4]。系数分布的标准差倾向于缩小到最不显著的主成分，但对于这个类别来说，这种趋势并不明显，这表明按方差对基向量进行排序将得到不同的顺序，也许基向量本身并不适合这个任务。另一个值得注意的是第一个主成分的分布具有明显高的标准差。有趣的是，我们还观察到这个类别的退化程度低于平均水平。其他类别的转变通常可以通过有偏表示来解释。例如，我们只有一个植物模型，我们的手写模型只包含过度参数化的网络，这些网络受到层退化的影响，纹理类别只包含一个GAN鉴别器，这自然会显示出很高的随机性。0按滤波器/层深度转变。不同深度分位数的层之间的转变随着深度差异的增加而增加，深度最后一个分位数的分布形成了最明显的间隔，并超过了其后的倒数第二个和第一个分位数。另一个有趣的方面是模型之间的转变跨越分位数。这种转变展示了形成滤波器的独特性。我们的观察结果推翻了对于微调的一般建议，即在分类模型中冻结早期层，因为最大的转变不仅出现在深层，而且在早期视觉中也有（图9）。分割模型在更深层次上显示出最大的漂移。相反，目标/人脸检测模型只在早期视觉中显示漂移（目标检测在第一个深度分位数，人脸检测在前四个深度分位数），但在后面的卷积阶段中漂移较小。190730图9.盒图显示了每个卷积深度分位数的分类模型之间的模型转变D的分布情况（从上到下按降序排列）。我们有意地过度参数化的模型被排除在此分析之外。0显示出漂移的是视觉类别和训练集之间的转变。我们发现分布转变在大多数视觉类别和训练集之间是平衡的。值得注意的离群值包括0模型族内的转变。对于相同任务训练的同一家族模型之间的转变可以忽略不计（图10），这表明任何足够大的数据集都足够好，即使对于视觉上不同的应用领域，常见的预训练模型使用ImageNet1k也是有效的方法。ResNet家族的离群值只包括显示高度稀疏性的模型。此外，这一观察结果可以通过训练小型教师网络并应用知识蒸馏[57]来初始化同一家族的更深层次模型。05. 限制0我们的数据对分类模型和/或自然数据集（如ImageNet1k）存在偏差。此外，某些划分将过度代表特定维度，例如任务可能包括独占的视觉类别，反之亦然。此外，正如先前所示，许多收集到的模型显示出大量退化层，这会影响分布。这也会对分布变化的测量结果产生偏差。我们通过删除从退化层中提取的滤波器进行了消融研究，但未能找到退化和分布变化之间的明确相关性，可能是由于缺乏合理的阈值。06. 结论0我们的初步结果支持我们最初的假设，即训练的卷积滤波器的分布是研究在转移预训练模型和图像分布方面的合适且易于访问的代理。0图10.ResNet分类器之间不同配对之间的变化D的热图。每行/列表示一个模型。故意过度参数化的模型未包括在内。0鲁棒性。虽然所呈现的结果仍处于深入研究的早期阶段，但我们报告了几个有趣的发现，可以探索以获得更好的模型泛化并帮助找到适合微调的预训练模型。一个发现是大型、性能良好的网络中存在大量退化（或未训练）的滤波器，导致表型点、尖峰和符号。我们认为它们的存在是与“中彩票假设”[55]一致的症状。我们得出结论，理想的模型在所有层中应具有相对较高的熵（但H

下载后可阅读完整内容，剩余1页未读，立即下载