神经网络决策边界可视化及其与模型架构的关系

83 浏览量更新于2023-10-25 收藏 1.67MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13699神经网络可以两次学习同一个模型吗？从决策边界的角度Gowthami Somepalli1，Liam Fowl1，Arpit Bansal1，Ping Yeh-Chiang1，YehudaDar2，Richard Baraniuk2，Micah Goldblum3，Tom Goldstein11马里兰大学帕克分校{gowthami，pchiang，tomg} @cs.umd.edulfowl@math.umd.edu，bansal01@umd.edu2莱斯大学@ rice.edu3纽约大学goldblum@nyu.edu摘要我们讨论了可视化神经网络决策边界和决策区域的方法我们使用这些可视化来研究神经网络训练中与可重复性和泛化相关的问题。我们观察到，模型架构（及其相关的归纳偏差）的变化会导致决策边界的明显变化，而相同架构的多次运行会产生具有强烈相似性的结果，特别是在广泛架构的情况下。我们还使用决策边界方法来可视化全连接网络视觉TransformerWideResNet双下降现象我们看到，决策边界再现性强烈依赖于模型宽度。在插值阈值附近，神经网络决策边界被分割成许多小的决策区域，并且这些区域是不可再现的。同时，非常窄和非常宽的网络在其决策边界具有高水平的再生产率，决策区域相对较少。我们讨论了我们的观测结果与凸模型中双下降现象理论的关系。代码可在https://github.com/ somepago/dbViz上获得。1. 介绍神经网络相对于传统线性分类器的优越性源于它们能够将图像空间分割成复杂的类别区域。虽然神经网络训练肯定没有得到很好的理解，但神经网络训练的现有理论主要集中在理解损失景观的几何形状[5，8，25]。与此同时，对类边界的几何形状知之甚少。这些区域的几何形状很大程度上取决于神经网络模型的归纳偏差，我们目前还没有工具来严格分析。更糟糕的是，地面实况：飞机青蛙鸟图片：图1.三个架构的类边界，绘制在跨越三个随机选择的图像的平面上。每个模型都用随机种子训练两次决策边界在同一模型的运行中在结构上是神经网络的归纳偏差受体系结构选择的影响，这进一步使理论分析复杂化在这项研究中，我们使用实证工具来研究类区域的几何形状，以及神经结构如何影响归纳偏差。我们使用可视化和使用现实模型计算的定量指标来我们首先提出简单的方法，决策边界可视化。使用可视化作为工具，我们对三个主要问题进行了深入研究：• 神经网络产生的决策边界在随机初始化中是一致的吗？简单地说，神经网络可以学习相同的模型两次吗？我们从经验上看到，网络的决策边界在运行过程中具有很强的相似性，试验试验13700--DCITDn2|- -一种|22使用定量测量来证实这一点。• 不同的神经结构在归纳偏差上有可测量的差异吗？事实上，我们发现不同模型架构的类区域之间存在明显的差异（例如，ResNet-18 vs ViT）。• 我们使用决策边界可视化来研究我们看到，当模型容量接近插值阈值时，决策边界变得高度不稳定和碎片化，我们探讨了神经网络中的双重下降与线性模型的已知理论之间2. 划分决策边界大多数关于决策边界可视化的先前工作的目的是为了在相反的方向上看到狭窄的边缘[18，21]。Fawzi等人[11]可视化分类区域的拓扑连通性。为了方便我们的研究，我们寻求一种通用的可视化方法，是简单的，可控的，并捕捉进口部分的决策空间，躺在附近的数据流形。2.1. 流形上与流形外行为在绘制决策边界时，选择一种能够捕获数据流形附近模型行为的方法非常重要。为了理解为什么，考虑图1中所示的通过跨越输入空间中随机选择的点的平面的决策边界图。二、我们看到，决策区域非常平滑和均匀，几乎没有有趣的特征。训练过程，其在数据流形附近构造决策边界（例如图 1），未能产生强大的结构效应远离歧管（例如，图2）。一致的非流形行为并不是我们的训练方法或架构所特有的，而是测量现象集中的不可避免的结果[24，31]。事实上，我们可以证明，任何作为其输入函数平滑变化的神经网络都将在大部分输入空间中假设几乎恒定的输出。以下结果的证明见附录A。引理2.1设f：[0，1]n！[0，1]是一个神经网络狗，青蛙，马卡车，Airpl，Cat Airpl，船舶，Cat图2.在CIFAR-10图像中通过混洗像素创建的“随机”图像附近的非流形决策边界每一列的标题显示未混洗的基本图像的标签。在每一列下面，我们显示了混洗的图像三元组。颜色类别映射如下：红色：青蛙，绿色：鸟，橙色：汽车。为了使图像所在的复杂结构变平，我们采取了一种方法，该方法受到最近关于mixup正则化器的高度流行的论文[40]的成功的启发，该论文观察到，除了拥有数据流形附近的结构之外，决策边界也在数据点。我们从mixup剧本中学习一页，沿着数据样本之间的凸包绘制决策边界我们首先对i.i.d.的三重体（x1，x2，x3）3进行采样。图像来自分布。然后，我们构造了向量v~1=x2x1，v~2=x3x1所张成的平面，并在此平面上画出了决策边界。准确地说，我们用坐标对网络的输入进行max（v~1·v~1，|投影v~1v~2·v~1|）v~1+v（v~2-proj v~1v~2）为-0。1分，1分。1.一、这种绘图方法使用平面满足|f（x）-f（y）|pLkx-yk. 设f′表示单位超立方体上f的中值然后，对于图像，x[0，1]n的均匀随机像素，我们有f（x）f<$t，概率至少为Le-2 μnt/L1-双头，双头，双头2.2. 捕获流形上行为上面的引理显示了捕获数据流形附近的神经网络行为的重要性不幸的是，图像分布的结构非常复杂，难以建模。而不是试图识别和具有几个优点。它显示了周围一次多个数据点，以及它们各自的类之间的决策界限，仅使用一个图。此外，这些类别可以由用户选择。它还关注点之间的凸包，而不是可能指向远离流形的随机方向。图1显示了沿着CIFAR-10 [23]的飞机、青蛙和鸟类类别中随机选择的三个数据点所在这些图中，每种颜色代表一个类别标签。在整个纸张中保持相同的颜色类别模式，并且可以在多个图的图例中看到。ResNet-18 DenseNetViT13701}{全连接MLP混音器ViT VGG DenseNet ResNet-18 WideResNet地面真相：飞机青蛙鸟图3.通过三个图像的决策区域，用于各种架构（列）和初始化种子（行）。2.3. 实验设置：使用的架构：我们选择了几个著名的网络工程从不同的架构家庭1。我们考虑一个简单的全连接网络，具有5 个隐藏层和ReLU 非线性，DenseNet-121 [20]，ResNet-18 [17]，WideResNet-28 x10，WideResNet-28x20 ， WideResNet-28 x30 [38] ， ViT [9] ， MLPMixer[35]和VGG-19 [32]。对于快速训练，我们的ViT只有6个层，8个头和4个补丁大小。我们使用的自定义MLPMixer有12个隐藏层，隐藏嵌入维度为512，补丁大小为4。除非另有说明，否则使用SGD优化器对架构进行100个epoch的训练，并且3个多步学习率下降。在训练中使用随机裁剪和水平翻转数据增强。对于蒸馏实验，我们还使用在ImageNet [7]上预训练的ViT-S/16作为教师 [36] 。一些实验使用锐度感知最小化（SAM）优化器[12]对抗半径设置为0。01.我们使用网格搜索为每个架构和优化器（Adam [22]和SGD）组合选择0.001，0.002，0.005，0.01，0.02，0.05的学习率，并训练200个epoch。表1中报告了每个模型3次运行的平均检测准确度。3. 模型再现性和归纳偏差众所周知，神经网络可以很容易地过拟合复杂的数据集，甚至可以插值随机标记的图像[39]。尽管具有这种灵活性，但网络有一个重要的归纳偏差--我们在这一节的目标是展示归纳偏置现象1来自https：//github的架构实现。com/kuangliu/pytorch-cifar 和 https ： //github 。 com/lucidrains/vit-pytorch使用决策边界可视化。我们提出两个问题：• 在给定不同的随机初始化的情况下，一个模型是否可以将相同的决策边界复制两次？• 不同模型家族的归纳偏差之间是否存在差异，从而导致不同的决策边界？下面，我们考虑归纳偏差的各种来源，包括神经架构家族，网络宽度和优化器的选择。3.1. 感应偏差取决于模型类别我们从CIFAR-10训练集中选择三个随机图像，通过输入空间构建相关平面，并在图中绘制7种不同架构的决策区域。3.第三章。对于每个模型，我们使用不同的随机初始化运行训练脚本三次。在这个可视化中出现了几个有趣的趋势。首先，我们观察模型家族之间的系统差异。卷积模型都具有相似的决策边界，而全连接网络、ViT和MLP混合器的边界具有明显的差异。例如，ViT和MLP Mixer始终显示CNN没有的橙色“汽车”区域的存在全连通网络的决策区域比其他模型族复杂得多，也更与此同时，我们在使用不同随机种子的运行中观察到很强的重现性趋势。这种趋势对于卷积架构来说特别高，对于WideResNet来说效果非常强烈，这让我们假设模型宽度和可重复性之间可能存在联系试验#3试验#2试验#113702--3.2. 决策区域图1B中的可视化。3表明模型类内的重现性高，而诱导偏倚的差异导致模型家族间的相似性低。为了验证我们的直觉，我们使用从许多试验的平均决策图得出的定量指标，以提供更敏感和结论性的分析。区域相似性分数：我们定义了一个度量模型对的决策区域之间的相似性我们首先对i.i.d.的三元组Ti=（x0，x1，x2）i进行图像来自训练分布。设Si是由Ti定义的平面中的点的集合，在该点处评估决策区域我们定义区域相似性得分：10- 12-2016 09：01：01 00：01 00：00|f （Si， 1 ）\f（Si，2）|）/|SI|Σ（1）其中，为了表示简单，我们将每个决策区域内的类预测集表示为f（Si，Si）=（x，f（x;Si））x2Si，用于参数为Si的模型。实际上，我们估计的期望方程。（1）抽样500个三元组和2500个点在每个截断平面，共1. 25米向前传球。简单地说，这对应于两个决策边界图的这个分数可以量化决策区域的相似性，跨架构，初始化，小批量排序等计算时，为一个给定的架构，区域相似性分数反映了决策区域的再现性在早期的工作[3]中，决策边界的可变性通过检查测试点处预测的相似性相比之下，我们的方法不仅在输入点处，而且在它们周围的区域中给出了分类区域的方差的更丰富的图片，并且可以应用于训练和测试数据。测量依赖于架构的偏差我们应用区域相似性得分来测量具有相同架构和跨不同架构的不同训练运行之间的决策区域一致性。对于每个模型对，我们计算5个不同训练运行和500个局部决策区域的区域相似性得分图4显示了各种架构的区域相似性得分，我们看到定量结果强烈反映了在图4的决策区域中观察到的趋势。3.第三章。特别是，很明显• 所有卷积架构的归纳偏差都非常相似。同时，MLPMixer，ViT和FC模型与卷积模型以及彼此具有实质上不同的决策区域图4.几种流行架构的区域相似性得分对角评分反映了模型的可重复性。• 更宽的卷积模型似乎在其决策区域中具有更高的再现性，WideRN30是本研究中最宽和最可再现的模型。• 跳跃连接对决策区域的形状几乎没有影响。ResNet（具有跨块的残余连接），DenseNet（具有块内的许多卷积连接）和VGG（无跳过连接）都共享非常相似的决策区域。然而，值得注意的是，跳过连接架构比非常宽的VGG网络获得了略高的区域相似性分数。3.3. 蒸馏是否保留决策边界？蒸馏[19]涉及在已经训练的教师模型的输出上训练学生模型一些人认为，蒸馏确实向学生传达了有关教师决策边界的信息我们计算学生的决策边界的相对相似性总体而言，与普通学生相比，经过提炼的学生与他们的老师表现出明显更高的相似性。在图5中，我们看到几乎每个学生-教师组合都具有比相同教师组合更高的区域相似性得分，以相同初始化的模型训练而没有蒸馏。3.4. 优化器的效果除了初始化、数据排序和架构的影响外，在训练期间使用的优化器/正则化器的选择也会极大地影响最终模型[13]。因此，我们研究了优化器选择对13703图5.教师模型和蒸馏学生和香草训练模型之间的区域相似性分数。* 分数不适用于此对角线条目，因为我们从相同的预训练模型开始。区域相似性评分亚当SGD SGD + SAMResNet-1879.8183.7487.22VGG81.1980.9284.21MLPMixer67.8066.5168.06VIT69.5575.1375.19测试精度亚当SGDSGD + SAMResNet-1893.0495.3095.68VGG92.8793.1393.90MLPMixer82.2282.0482.18VIT70.8975.4974.72表1.当为给定架构使用不同的优化器时，模型的区域相似性得分。相对于Adam，SGD产生更多可再现的决策边界，并且相对于SGD，SGD+SAM几乎总是一致地增加模型的再现性。网络决策边界的再现性。在表1中，我们可以看到SAM [12]比标准优化器（如SGD和Adam）引入了更多可重现的决策边界。该观察结果表明SAM具有更强的正则化效应。然而，更多的正则化并不总是意味着更好的测试精度。例如，对于MLPMixer和ViT，使用SAM并不总是实现最高的测试精度，但确实实现了最高的区域相似性得分。4. 双下降在经典学习理论中，人们认为参数太少的模型低宽度）概括性差，因为它们没有足够的表达能力来拟合数据，而参数太多的模型概括性差，过度拟合的原因。这被称为偏差-方差权衡[14]。相比之下，神经网络的强归纳偏置使它们即使在参数非常多的情况下也能实现良好的性能。Belkin等人[4]和Nakkiran et al.[27]已经表明，在正确的训练条件下，我们可以看到神经模型在经典和过度参数化的状态下运行。这在图中被描绘。 6 ，其将测试误差绘制为CIFAR-10上模型宽度的函数。我们观察到一个典型的U形曲线宽度小于10（欠参数化制度）。对于宽度大于10的模型，检验误差渐近下降（过参数化区域）。这种遗传被称为“双重遗传”，并在Belkin et al.[4]的文件。两种制度之间是一个生活在“插值阈值”的模型;这里，模型具有太多的参数而不能从经典简单性偏差中获益，但是具有太少的参数而不能被过度参数化机制的归纳偏差正则化。双下降已经被严格研究了几个简单的和经典的模型族，包括核方法，线性模型，和简单的MLP [2，6，16，26，29，30，33]。双下降现在在[1，6，10，16]中很好地描述了线性模型在经典机制中，偏差随着模型复杂性的增加而减小，而方差同时增加，从而导致U形曲线。然后，在过参数化状态下，方差迅速下降，而偏倚保持较低[28，37]。在我们上面的研究中，我们可视化了过度参数化的机制，并看到模型变得高度可重复，广泛的架构在训练运行中产生几乎相同的模型。这些可视化捕获了过度参数化状态的低方差。在本节中，我们的目标是深入了解在插值阈值处出现的导致双下降的模型行为。我们密切观察在关键点发生的事情（即，在参数不足和参数过多的状态之间的过渡），以及当我们增加模型类的容量时类边界如何过渡。我们发现类边界的行为与[28，37]的偏差方差分解结果一致，然而，导致神经网络中方差峰值的模型不稳定性表现为决策空间的复杂碎片，据我们所知，在经典模型的文献中没有描述。实验设置：我们遵循Nakkiran等人的实验设置。[27]复制ResNet-18的双重下降现象[17]。我们通过改变卷积层中的滤波器数量来增加模型容量，方法是使用请注意，标准ResNet- 18模型的k=64，并且在CIFAR-10上处于过度参数化状态。我们用交叉熵损失和学习率为0.0001的Adam优化器训练模型，13704⇡j=1图6.在训练中使用0和20%标签噪声测试误差曲线4000纪元。这种温和但长时间的训练团确保了本研究所需的广泛模型的稳定性和收敛性。在[27]中观察到，标签噪声对于在现实模式中创建容易观察到的双重下降很重要。polation阈值），该模型拟合大多数训练数据，包括可视化平面中的三个点。当我们越过这个阈值时，决策区域变得混乱和碎片化。当我们达到k=20时，当我们进入过参数化状态时，碎片化减少，类边界变得平滑。为了改进我们的双重下降图，我们在附录Fig.中对一系列不同图像三元组的k = 10处的类边界进行可视化。14，有和没有标签噪音。我们看到，在标签噪声的情况下，观察到双下降，有一个明显的不稳定性的分类行为在插值阈值。现在让我们看看错误标记图像周围的决策边界会发生什么。图8显示了汽车类中三个点的决策边界，其中一个点在训练集中被错误标记当埃尔斯我们训练了两组模型，一组使用干净的训练集，另一组使用20%的标签噪声（均匀随机不正确的类标签）。在这两种情况下，我们都使用标准（干净）测试集。对于嘈杂的实验，相同的标签错误在不同的时代和实验中使用。随机裁剪和随机水平翻转增强在训练时使用当标签噪声存在时，我们观察到明显的双下降。参见图6，其复制了Nakkiran等人的双下降曲线。[27]第10段。我们关注几个重要的模型宽度：k= 4是欠参数化状态下的测试误差的局部最小值，并且k=10达到峰值误差（内插阈值），超过该峰值误差，测试误差将持续下降。我们建议读者参考附录D中的训练误差图，该图显示了k = 10附近的插值开始。4.1. 当我们越过插值阈值时，决策边界如何变化图7，我们绘制了使用和不使用标签噪声以及不同容量训练的模型的决策边界当我们在图中从左向右移动时，模型容量从k= 1（参数化不足）扫描到k=64（标准ResNet-18，参数化过度）。如上所述，可视化发生在由三个数据点跨越的平面我们使用两种不同的方法进行采样的例子在这两种情况下，所有三个图像都是从训练集中提取的，并且被正确标记（即使对于涉及标签噪声的实验）。对于其他随机采样的图像和其他类的组合，观察到类似的行为其他示例见附录D双下降曲线中的误差尖峰背后的机制通过使用标签噪声的可视化来捕获。在这种情况下，经典状态的欠拟合行为在k=4时很明显，因为模型仅拟合1k=10，我们看到混沌边界。错误标记的点被分配了它们的（不正确的）数据集标签，但它们只是在非常接近决策边界的意义上被插值。当k=64时，边界似乎被归纳偏置正则化;错误标记的点位于它们各自区域的中心，并且边界更加平滑。在不同容量下观察了有和没有标签噪声的模型中正确标记和错误标记点的定性行为后，我们提出以下问题：• 定量方法是否可以验证碎片化行为在插值阈值处跨多个决策区域持续存在，而在其他地方消失？• 插值阈值处的碎片化是否真的是由模型方差引起的？换句话说，我们是否在训练运行中观察到不同的决策边界，或者混沌区域是否像我们在过度参数化制度中观察到的区域那样可重复• 在宽模式范围内试验误差减小的机制是什么？它是由错误标记点周围的错误分类区域的收缩引起的，导致它们停止污染测试精度吗？或者仅仅是由于k大时不必要的分裂行为消失了？在随后的小节中，我们使用决策区域的定量测量来研究这些问题。4.2. 量化碎片化我们已经观察到，当我们越过插值阈值时，决策区域似乎是高度碎片化的。为了验证我们的结果在许多实验和三元组中是可重复的，我们引入了碎片分数，它计算了由三元组图像跨越的平面中的连接类区域的数量。设Si是由三元组跨越的局部分类区域3分正确。当我们达到k=10时，Ti. 我们建立一个分解Si（n）=[niPj（n），其中13705k = 1 k = 4 k=7 k = 10 k = 20 k = 64英文名：Truck Ship Frog(a) 三元组中的所有点都来自不同的类，并且在训练集中被正确标记（即使在标签噪声的情况下）。k = 1 k = 4 k=7 k = 10 k = 20 k = 64Ground truth：汽车汽车(b) 三元组中的所有点都来自同一类Automobile，并且在列车集中正确标记（即使在标签噪声情况下图7. 不同宽度模型的决策边界。当我们越过插值阈值（k= 10）时，标签噪声会导致决策区域的混乱碎片，而非常窄和宽的模型则保持平滑。注意，k= 10不一定是无标签噪声场景的插值阈值。后面我们看到k=7是这种情况的潜在候选。图8.1辆错误标记的汽车和2辆正确标记的汽车的决策边界每一列表示不同的图像三元组。标记错误的点用x标记。每个Pj（Pj）是对应于具有参数Pj的模型的单个预测类标签的不相交、最大、路径连接分量。在由Ti定义的决策区域内的模型F1的碎片分数F（F1，Ti）则是路径连接区域的数量。模型的总体碎片化评分为F（n）=ETi<$DF（n，Ti）.（二）在实践中，我们使用分水岭方法来计算模型的碎片分数，以在由三元组跨越的决策区域中找到连通区域，然后通过平均图9.碎片分数作为使用和不使用标签噪声训练的模型的模型宽度的函数。这种片段化计数超过1000个三联体。请注意，先前的工作[11]提出了一个理解类连通性的度量，该度量需要解决一个非凸优化问题以找到任何两个给定点之间的显式路径。相比之下，我们的碎片分数是可扩展的，不需要任何向后传递来近似决策边界的复杂性，并且可以在大量的输入三元组上进行平均。碎片分数作为模型宽度的函数如图所示。9 .第九条。对于标签噪声，我们看到一个尖锐的峰值鸟马船Ground truth：汽车汽车k = 64模型训练W。模型训练W。K =10模型训练W。模型训练W。20%标签噪音20%标签噪音无标签噪声无标签噪声13706≥图10.区域相似性分数w.r.t.随机初始化不同宽度的模型。分数反映了再现性。当模型容量超过插值阈值时，碎片化得分增加，证实了我们从上图中的可视化中观察到的结果。有趣的是，这种高度敏感的分析也能够检测到在没有标签噪声的情况下训练的模型的片段化分数中的峰值（k=7图的底部。图9量化了由同一类的三元组跨越的决策区域的碎片化趋势（如图9所示）。第14段）。4.3. 量化类域稳定性双下降的理论研究预测，对于简单的线性模型类，模型方差在插值阈值附近出现峰值，因为决策区域相对于数据采样过程中的噪声不需要插入数据。上述定量证据表明，（ii）是双下降的主要机制。与临界状态相比，过度参数化状态（其中几乎所有错误标记的点都被插值）的碎片评分较低，如图所示图9示出了插值不需要额外的区域为了更有力地证明这一结论，我们通过测量“平均边缘”来研究假设（i）对于每个图像，我们使用在10个随机方向上的二分搜索来近似这个值。我们计算了5000个数据点的平均边界，并在附录图中报告了有和没有标签噪声的模型的中位数十五岁无论有无标签噪声，边际都在增加k10（过度参数化制度）。有趣的观察是，当我们只计算错误标记点的边缘时，它们也会上升！测试误差下降的事实，即使在错误标记点周围的区域增长，进一步加强了双重下降主要是由模型不稳定性导致的“不必要的”振荡驱动的概念cess.使用区域相似性分数，我们观察到，在插值阈值处神经决策边界的碎片化与高方差和模型不稳定性相关。图10示出了具有和不具有标签噪声的跨模型容量的区域相似性得分。我们看到，在参数化不足和参数化过度的情况下，训练运行的可重复性很高，但在插值阈值处出现故障有趣的是，我们的定量足够灵敏，即使没有标签噪声（k=7左右）也能检测到再现性的下降，尽管方差引入了这种影响所引起的不足以引起双重血统.请注意，图中的模型方差。10是由随机初始化的差异引起的。经典的凸学习理论研究随机数据采样的方差我们发现，冻结初始化和随机化采样过程也会产生类似的曲线（见附录图）。第18段）。对于没有标签噪声的情况，我们看到一个碎片峰（图11）。9），我们看到一个区域相似性得分下降（图。10）在k=7附近。因此，我们假设k= 7可能是这种情况下的插值阈值。4.4. 为什么标签噪音会放大双下降？插值阈值附近的标签噪声的显著影响可能由两个因素引起：（i）错误类别标签的必要区域，这些区域必须出现在错误标记的点周围，以便模型对其进行插值，或者（ii）类别边界的不稳定性，导致振荡5. 结论在这篇文章中，我们使用可视化和定量的方法来研究模型的可重复性，归纳偏差，从经验/科学的角度双下降。这些探索揭示了几个我们认为以前没有观察到的有趣的神经模型。奇怪的是，第3节的结果表明，不同的模型家族通过不同的归纳策略实现了较低的测试误差;虽然ResNet-18和ViT对测试数据做出了类似的预测，但它们得出的决策边界却存在巨大此外，虽然我们对双下降的研究发现，线性模型预测的模型这种不稳定性涉及出现许多不正确类别区域的小“气泡”，并且是非凸设置所特有的6. 确认这项工作得到了ONR MURI计划、海军研究办公室、国家科学基金会（DMS-1912866）和DARPA GARD（HR 00112020007）的支持。额外的资金由CapitalOne Bank和Kulkarni夏季研究员提供。13707引用[1] 本·阿德兰和杰弗里·潘宁顿理解双重下降需要细粒度的偏差 - 方差分解。 arXiv 预印本 arXiv ：2011.03321，2020。5[2] 马杜·S·阿德瓦尼，安德鲁·M·萨克斯，哈伊姆·索姆-波林斯基。神经网络泛化误差的高维动力学。神经网络，132：428-446，2020。5[3] 匿名的神经网络中的决策边界可变性和一般化。在提交给第十届国际会议学习代表，2022年。正在审查中。4[4] Mikhail Belkin ， Daniel Hsu ， Siyuan Ma ， andSoumik Mandal.验证现代机器学习实践和经典的偏差-方差权衡。美国国家科学院院士，116（32）：15849-15854，2019。5[5] Pratik Chaudhari ， Anna Choromanska ， StefanoSoatto ， Yann LeCun ， Carlo Baldassi ， ChristianBorgs ， Jennifer Chayes ， Levent Sagun ， andRiccardo Zecchina. Entropy-sgd：倾斜梯度下降到宽谷。统计力学杂志：理论与实验， 2019（12）：124018，2019. 1[6] Yehuda Dar，Vidya Muthukumar，and Richard GBara-niuk.告别偏差-方差权衡？超参数化机器学习理论概述。arXiv预印本arXiv：2109.02355，2021。5[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，Kai Li，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在2009年IEEE计算机视觉和模式识别会议上，第248Ieee，2009年。3[8] Laurent Dinh 、 Razvan Pascanu 、 Samy Bengio 和Yoshua Bengio。尖锐极小值可以推广到深度网络。在机器学习国际会议上，第1019-1028页。PMLR，2017年。1[9] Alexey Dosovitskiy ， Lucas Beyer ， AlexanderKolesnikov ， Dirk Weissenborn ， Xiaohua Zhai ，Thomas Unterthiner，Mostafa Dehghani，MatthiasMinderer，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变压器 arXiv 预印本 arXiv ： 2010.11929 ，2020。3[10] Ste' phane双重下降中的双重麻烦：懒惰制度中的偏差和方差。在机器学习国际会议上，第2280PMLR，2020年。5[11] AlhusseinFawzi、Seyed-MohsenMoosavi-Dezfooli、Pascal Frossard和Stefano Soatto。实证研究深度网络的拓扑结构和几何结构。在IEEE计算机视觉和模式识别会议论文集，第3762-3770页，2018年。二、七[12] Pierre Foret 、 Ariel Kleiner 、 Hossein Mobahi 和Behnam Neyshabur。清晰度感知最小化，有效地提高泛化。 arXiv 预印本 arXiv ： 2010.01412 ，2020。三、五[13] Jonas Geiping，Micah Goldblum，Phillip E Pope，Michael Moeller，and Tom Goldstein.随机训练对于泛化是不必要的。 arXiv 预印本 arXiv ：2109.14119，2021。4[14] Stuart Geman，Elie Bienenstock和Rene 'Doursat。神经网络和偏差/方差困境。神经计算，4（1）：1-58，1992. 5[15] Micah Goldblum，Liam Fowl，Soheil Feizi，andTom Goldstein.逆向稳健蒸馏。在AAAI人工智能会议的会议纪要中，第34卷，第3996-4003页，2020年。4[16] TrevorHastie ， AndreaMontanari ， SaharonRosset，and Ryan J Tibshirani.高维无脊最小二乘插值的惊奇。arXiv预印本arXiv：1903.08560，2019。5[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，andJian Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议论文集，第770-778页，2016年。三、五[18] Warren He，Bo Li，and Dawn Song.对抗性实例的决策界限分析。在2018年国际学习代表会议上。2[19] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识arXiv预印本arXiv：1503.02531，2015。4[20] Gao Huang ， Zhuang Liu ， Laurens Van DerMaaten，and Kilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集，第4700-4708页，2017年。3[21] Hamid Karimi，Tyler Derr，和Jiliang Tang。刻画深度神经网络的决策边界. arXiv预印本arXiv：1912.11460，2019。2[22] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。 arXiv 预印本 arXiv ： 1412.6980 ，2014。3[23] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。 2009. 2[24] 米歇尔·勒杜浓度测量现象。89号美国数学学会2001. 二、一13708[25] Hao Li ， Zheng Xu ， Gavin Taylor ， ChristophStuder，and Tom Goldstein.可视化神经网络的损失景观。arXiv预印本arXiv：1712.09913，2017。1[26] Vidya Muthukumar ， Kailas Vodrahalli ， VigneshSub- ramanian，and Anant Sahai.回归中噪声数据的无害插值 IEEE Journal on Selected Areas inInformation Theory，1（1）：67-83，2020。5[27] Preetum Nakkiran，Gal Kaplun，Yamini Bansal，Tris-tan Yang，Boaz Barak，and Ilya Sutskever.深度双重下降：更大的模型和更多的数据伤害。arXiv预印本arXiv：1912.02292，2019。五、六[28] Brady Neal 、 Sarthak Mittal 、 Aristide Baratin 、VinayakTantia 、 MatthewScicluna 、 SimonLacoste-Julien和Ioannis Mitliagkas。神经网络中偏差-方差权衡的现代观点。arXiv预印本arXiv：1810.08591，2018。5[29] 曼弗雷德·奥普。学习的统计机制：概括。脑理论和神经网络手册，第922-925页，1995年。5[30] 曼弗雷德·奥普。学习概括。Frontiers of Life，3（part 2）：763-775，2001. 5[31] 阿里·沙法希，黄龙尼，克里斯托夫·斯图德，苏-海尔·菲兹和汤姆·戈尔茨坦。敌对的例子是不可避免的吗？ arXiv 预印本 arXiv ： 1809.02104 ，2018。二、一[32] Karen Simonyan和Andrew Zisserman用于大规模图像识别的深度卷积网络 arXiv 预印本 arXiv ：1409.1556，2014。3[33] Stef anoSpigler， MarioGeiger ， Ste'phane和马修·怀亚特从参数化不足到过度参数化的干扰过渡影响损失景观和泛化。 arXiv 预印本 arXiv ：1810.09665，2018。5[34] SamuelStanton ， PavelIzmailov ， PolinaKirichenko ， Alexander A Alemi ， and AndrewGordon Wilson.知识蒸馏真的有用吗？arXiv预印本arXiv：2106.05945，2021。4[35] IlyaTolstikhin，NeilHoulsby，AlexanderKolesnikov ， Lucas Beyer ， XiaohuaZhai ， Thomas Unterthiner ， Jes- sica Yung ，AndreasSteiner ， DanielKeysers ， JakobUszkoreit，et al. Mlp-mixer：一个全MLP架构的视觉。arXiv预印本arXiv：2105.01601，2021。3[36] 罗斯 · 怀特曼 Pytorch 图像模型。 https ：github.com/rwightman/pytorch-image- models，2019. 3[37] 杨梓潼，余耀东，尤冲，雅各布·斯坦哈特，马毅.重新思考神经网络泛化的偏差-方差权衡。InIn-国际机器学习会议，第10767-10777页。PMLR，2020年。5[38] Sergey Zagoruyko和Nikos Komodakis广泛的居民网络。arXiv预印本arXiv：1605.07146，2016。3[39] Chiyuan Zhang ， Samy Bengio ， Moritz Hardt ，Ben-Recht，and Oriol Vinyals. 理解深度学习（仍然）需要重新思考泛化。Communications of the ACM，64（3）：107-115，2021. 3[40] Hongyi Zhang ， Moustapha Cisse ， Yann NDauphin，and David Lopez-Paz. mixup：超越经验风险最小化。

下载后可阅读完整内容，剩余1页未读，立即下载