深度网络构建规则决策边界

11 浏览量更新于2023-10-15 收藏 12.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

51060用深度网络构建规则的决策边界0Edouard OyallonD´epartement InformatiqueEcole Normale Sup´erieureParis, France0edouard.oyallon@ens.fr0摘要0在这项工作中，我们构建了一个通用的卷积神经网络架构，以发现神经网络的经验性特性。我们的第一个贡献是引入了一个最先进的框架，它依赖于少量的超参数，并在改变这些超参数时研究网络。它没有最大池化，没有偏置，只有13层，纯卷积，并分别在CIFAR10和CIFAR100上达到了95.4%和79.6%的准确率。我们展示了深度网络的非线性不需要是连续的、非扩张的或点对点的，就能达到良好的性能。我们展示了增加网络宽度可以与非常深的网络竞争。我们的第二个贡献是对该网络的收缩和分离性质进行分析。事实上，应用于深层特征的1最近邻分类器随着深度的增加逐渐改善，这表明表示逐渐更加规则化。此外，我们定义和分析了在局部上分离类别的局部支持向量。我们所有的实验都是可重复的，并且基于TensorFlow的代码可以在线上获得。01. 引言0在高维度中进行分类需要构建一个能够减少很多变异性的表示，同时具有区分性。例如，在图像的情况下，存在几何变异性，如仿射旋转、缩放变化、颜色变化、光照等，或者存在类内变异性，如风格。已经证明深度网络对这些操作具有协变性[1, 16]，可以线性化它们[24, 22,30]，并结合这些策略可以构建对它们具有不变性的特征[3,20,9]。这些不变性的创建对应于特征空间的收缩，同时分离不同的类别。卷积神经网络（CNN）由级联的卷积运算符和非线性函数组成，在有足够的数据可用的基准测试中取得了最先进的结果[15, 11]。0几何变异性可以通过先前的表示成功处理，例如散射变换[23, 4, 20, 19,25]。它们使用小波变换和复模量的级联来构建一个对多个变异性操作具有协变性的表示。通过线性平均来构建对这些变异性的不变性，这不需要学习，对应于沿着这些变异性轨道的空间的收缩。这样的先验可以从允许生成自然信号的物理定律中推导出来，例如欧几里得群。当理解问题的所有变异性群时，它们在状态-of-the-art结果方面表现出色，因为在这种情况下，只有一个方差问题。然而，在复杂图像数据集（如CIFAR10、CIFAR100或ImageNet）的情况下，理解构建的非几何不变性的性质仍然是一个悬而未决的问题。有几项工作致力于理论上理解CNNs，但其中大多数假设存在低维结构[26]。与[22]一样，我们选择进行经验分析。我们的目标是确定理论无法预测的一般性质，并对其进行严格的表征。非线性性质是否有限制？如何估计决策边界？我们能否找到由深度级联构建的逐层属性？是否存在逐层的降维？在分类任务中，我们使用训练数据集的样本构建测试集的类别估计器。类别的内在维度与信号的原始维度相比是一个相对较低维度的结构，因此分类任务需要对一个低维空间进行（通常是非线性的）投影的估计。观察到构建这个估计器等同于估计这个任务的分类边界。可以用几种方式来完成这个估计，这些方式是相关的。首先，可以估计分类任务的对称群，如[20,4]所建议的那样。这些论文建议深度网络有可能构建一个对分类的对称群的线性逼近。51070tion任务。例如，在CNN的情况下，所有层对于平移的作用都是协变的，平移是分类问题的对称线性子群，这种变异性应该被减少。然而，当进行平移平均时，类别不应该坍缩，因为它们将变得不可区分并导致分类错误，因此[20]提出了支持向量的概念。它们是不同类别的向量，通过指示算法应该在这些点上仔细分离不同类别，防止不同类别的坍缩。这意味着深度网络不应该收缩空间的这部分，并且它们应该构建一个分类边界。其次，可以利用数据的平滑性。例如，可以构建数据的中间表示，将其投影到较低维度的结构中，从而更简单地构建类别的估计器。例如，可以通过线性化高维对称性，然后应用投影来实现。在深度学习框架中理解分类边界的性质特别困难，因为使用的非线性模块越来越复杂，同时逐步改进基准。例如，最大池化[14]，空间变换器[13]，局部对比度归一化[15]，注意力网络[8]，残差网络[11]，使数学分析变得更加困难，因为它们的组合方式主要是通过基于网络的最终准确性的复杂工程过程进行试错。然而，[27]表明，简单的卷积和ReLU级联足以在标准数据集上实现良好的性能。提出了深度网络的简单性问题：简单意味着什么？在导致最先进结果的同时，深度网络可以有多简单？第2节描述了我们的架构，它依赖于少量超参数，但具有出色的数值性能。其次，我们讨论了我们架构的超参数的变化。然后，第3节0显示了深度网络构建的表示逐渐更加规则。最后，我们在第4节中引入了局部支持向量的概念，以避免类别的坍缩。所有实验都可以使用TensorFlow进行复现，通过一个可在以下网址在线获得的软件：https://github.com/edouardoyallon/deep_separation_contraction/。02.理解深度网络的沙盒0我们构建了一类CNN，它依赖于两个超参数：宽度和非线性。我们证明了这个框架是灵活而简单的。首先，我们描述了使我们的网络达到最先进水平的设置。然后，我们改变这两个超参数并观察到反直觉的属性：非线性不会0不需要是收缩的，也不需要是逐点的，宽而深的网络比紧凑的网络更好地进行泛化。02.1.用于评估的稀疏管道0我们描述了我们在所有实验中使用的架构，使用了CIFAR10和CIFAR100数据集。它仅取决于K∈N，即我们网络的宽度，以及ρ非线性函数。我们的深度网络由13个卷积层Wn和非线性ρ的级联组成。内核的空间支持为3×3，除了第一层外，输入和输出层数的数量固定为K。最后一个卷积层的输出通过A进行线性和全局空间平均，然后通过投影L减少到问题的类别数。我们没有在卷积层中学习任何偏差，但是我们从特征图中减去了平均值Exn，该平均值是通过标准批量归一化技术[12]在整个数据集上估计得出的。在这种情况下，我们与[21]处于类似的设置，该设置证明了如果Wn是单位的，则对于任何深度，网络都会保留输入信号的能量并且是非扩张的。为了加快计算速度，我们在第6层和第10层的输出处应用了空间步长为2。图1描述了我们的网络，可以通过输入x的形式总结为x0 = x，并且：0x n +1 = ρW n (x n - Ex n)0我们通过带有动量0.9的SGD训练我们的网络，以最小化标准的负交叉熵。我们使用批量大小为128，训练持续120,000次迭代。我们使用初始学习率为0.25，每10,000次迭代将其除以2。为了避免过拟合，我们应用了4种正则化。首先，使用0.0002的权重衰减，对应于l2正则化。然后，我们每两层使用一次dropout，从第二层开始，随机将40%的系数设置为0：这是我们实现良好性能的主要技巧。第三，我们使用空间批量归一化正则化，据说可以在训练过程中消除不稳定性，如[12]中所述。最后，我们应用标准的随机翻转和裁剪技术进行数据增强。注意，我们没有使用任何偏置，只是去除了均值，也没有使用任何非线性池化。因此，我们的架构尽可能简单，就像[27]中一样，它只依赖于几个超参数：它的宽度和非线性。除非有相反的说明，我们使用ρ =ReLU，因为经验上已经显示它可以获得更好的性能。第一层将始终具有ReLU非线性。CIFAR10和CIFAR100是两个尺寸为32×32的彩色图像数据集。训练集包含50,000张图像，分别用于CIFAR10和CIFAR100的10个和100个平衡类别。测试集包含10,000张图像。这些数据集使用标准的白化程序进行预处理。3 × 3K × lρ(x) = sign(x)(51080输入0B 30B K ... 5 ×0↓ 20B K ... 4 ×0↓ 20B K ... 3 ×0A0L0输出0x n0x n +10一个块 B l0+ − - Ex n0W n0ρ0图1.我们架构的示意图。我们的网络是由块B l的级联组成，l是卷积算子的输入大小，后面跟着一个平均A和一个投影L。0方法深度 #参数 CIFAR10 CIFAR1000Ours 13 28M 95.4 79.60SGDR [17] 28 150M 96.2 82.30RoR [31] 58 13M 96.2 80.30WResNet [29] 28 37M 95.8 80.00All-CNN [27] 9 1.3M 92.8 66.30表1.CIFAR10和CIFAR100上最先进的有监督深度网络的准确率。报告了深度和参数数量以进行公平比较。0我们的网络在CIFAR10上使用的参数数量为9 × (3K +12K^2) + 10K。为了获得最佳准确率，我们使用K =512，大约相当于28M个参数，分别在CIFAR10和CIFAR100上达到95.4%和79.6%的准确率，根据表1，这是一个出色的性能。因此，我们处于一个最先进的设置中，可以对学到的特征进行分析。02.2.减弱非线性0收缩现象是解释空间维度急剧减少的必要步骤。一个网络不能纯粹是线性的，因为某些分类问题不能线性分离：实际上，线性算子只能沿着直线收缩。ρ也应该是一个收缩算子吗？我们具体研究了0CNN中的逐点非线性ρ及其达到良好分类准确性的必要条件。02.2.1 不需要通过ρ进行收缩0自从AlexNet [15]以来，非线性函数通常被选择为ReLU(x)= max(0, x)。这是一个非扩张函数，例如|ReLU(x) -ReLU(y)| ≤ |x -y|，而且是连续的。因此，小于1范数的线性算子和这个非线性函数的级联是非扩张的，这是减少或保持数据体积的一个方便的特性。复杂网络中的模量非线性也被建议用于去除信号的相位，这在几个框架中对应于平移变异性[19,3]。例如，如果线性算子由适当的母小波[18]的小波变换组成，则每个小波卷积的频谱在傅里叶中是局部化的。这意味着在空间域中足够小的平移也会导致空间域中的相位乘法。应用模量可以消除这种变异性。作为信号理论的一个经典结果，还可以观察到一个平均整流信号近似等于其复包络的平均值[18]。因此，与平均池化、ReLU和模量级联，可能具有相同的用途。通过实验证明，可以构建一个深度网络，在CIFAR10上达到89.0%的准确率，其中K =256，非线性选择为：0| x | + 0 . 1)0在0附近，这种非线性在0处不连续，具有任意大的导数，并保持信号的符号。它表明连续性性质、Lipschitz性质或去除信号的相位并不是获得良好准确性的必要条件。这表明需要对ρ的数学分析进行更多的细化。02.2.2 非线性程度0在这个小节中，我们试图削弱点非线性的传统属性。事实上，非线性对于确保不同类别的可分性是必要的，然而最近关于ResNet的工作表明，通过恒等映射，不需要应用点非线性，它可以被解释为线性块（恒等块）和非线性块的串联。在这种情况下，非线性仅应用于一半的特征图。我们研究这个问题，以了解这个属性是否可以推广到我们的架构中，通过引入一个具有度数 k 的ReLU0我们应用于一个特征图的非线性的 K0.00.20.40.60.81.0Ratio kK6065707580859095100ReLUKk (x)(u, l) ≜1632641282565123040506070809010051090%准确率0K=32K=1280图2. 当变化非线性程度 k K 时的准确率，以 K = 32 和 K = 128报告。当 k = K 时，对于 K = 32 和 K = 128 分别获得 88.0% 和94.7%的准确率。然后最大准确率分别为89.8%和94.7%，这表明点非线性不一定是最优配置。0特征图 x ( u, l ) ，其中 u 是空间变量，l是特征图的索引，定义如下：0� ReLU ( x ( u, l )) ，如果 l ≤k x ( u, l ) ，否则0在 k = 0的情况下，我们有一个几乎是线性的网络（第一层有ReLU非线性），当 k = K时，它是一个标准的深度网络，具有点非线性。图2报告了当我们变化 k 时的数值准确率，将 K 固定为 32 或128。线性深度网络表现不佳，在CIFAR10上的准确率约为70%。我们可以看到当 k K ≥ 0.6 = k0K时，准确率达到了一个平台，而最大准确率不一定是在 k =K 时获得的。我们的网络在 K = 32 和 K = 128时分别达到了89.8%和94.4%的分类准确率。这是重新解释非线性的机会。设τ是{1，...，K}的循环平移，例如τ([1，...，K]) = [K，1，...，K-1]，我们定义：τ(x)(u，l) �x(u，τ(l))。在这种情况下，τ是一个线性算子，循环地平移特征图的通道。观察到：0ReLU K k x = τ ◦ ReLU K 1 ◦ ...τ ◦ ReLU K 1 � �� k 0x0在这种设置下，我们可以将深度为 N 和宽度为 K的CNN解释为深度为 NK 和宽度为 K 的CNN，因为它也是NK 个ReLU K 1非线性和{ τ，W n }n个线性算子的级联。在这项工作中，τ是固定的，然而它0K0%准确率0图3. 在CIFAR100数据集上变化 K 时的准确率，K轴以对数刻度表示。0也意味着，如果 k k0换句话说，Γ k n 是在深度 n 上由 l-NNs使用多数投票无法很好分类的点的集合，其中 l ≤k。通过构造，Γ k +1 n � Γ k n，这意味着| Γ k +1 n | ≤ | Γk n|。由于样本数量是有限的，这个序列收敛到训练集中无法被最近邻识别的样本数量。| Γ k n |的衰减和振幅是分类边界规则性的指标。回想一下，对于深度网络，1-NN分类器具有更好的泛化性能。| Γ k n |的小值表明需要一些样本来构建分类边界（收缩），并且在给定的深度 n 上，如果| Γ k n |快速减少到其常数值，这意味着需要一些邻居来构建决策边界（分离）。图9表明，从局部支持向量的数量和估计正确类别所需的邻居数量来看，分类边界在深度上更加规则。这个度量的优点是计算简单，但这个分析必须在未来的工作中进行细化。05. 结论0在这项工作中，我们简化了一个标准的深度网络，仍然可以在CIFAR10和CIFAR100上达到良好的准确性。我们研究了不同超参数（如非线性和特征图数量）的影响。我们证明了不同深度应用最近邻分类器的性能增加，并且这个分类器几乎和高斯SVM一样具有区分性。最后，我们定义了局部支持向量，它们允许我们构建一个度量内在收缩和分离性质的表示。它们可以通过在CNN的邻域中细化边界分类来提高分类准确性。我们构建了一类只使用逐点非线性和卷积的深度网络，这应该有助于未来的分析。在深度网络的使用正在迅速增加的背景下，理解它们利用的内在规律的性质是必要的。解决这个问题将有助于为应用找到深度网络的理论保证，并且必须成为未来研究的主题。0致谢0我要感谢Mathieu Andreux、Tomás Angles、BogdanCirstea、Michael Eickenberg和StéphaneMallat的有益讨论和评论。本工作由ERC授予的InvariantClass320959资助，并通过法兰西岛地区博士生基金（RDM-IdF）的资助。0参考文献0[1] M. Aubry and B. C. Russell.通过计算机生成的图像理解深度特征.在IEEE国际计算机视觉会议论文集中，2015年，页码2875-2883.10[2] M. Brito, A. Quiroz, and J. E. Yukich.通过图论方法识别内在维度.多元分析杂志，116:263-277，2013年. 80[3] J. Bruna and S. Mallat. 不变散射卷积网络.IEEE模式分析与机器智能交易，35(8):1872-1886，2013年. 1, 30[4] J. Bruna, A. Szlam, and Y. LeCun.用卷积网络学习稳定的群不变表示.arXiv预印本arXiv:1301.3537，2013年. 10[5] P. Burman and D. Nolan. 位置自适应密度估计和最近邻距离.多元分析杂志，40(1):132-157，1992年. 50[6] C. Cortes and V. Vapnik. 支持向量网络.机器学习，20(3):273-297，1995年. 70[7] J. A. Costa, A. Girotra, and A. Hero.用k最近邻图估计局部内在维度.在IEEE/SP第13届统计信号处理研讨会上，2005年，页码417-422. IEEE, 2005年. 7[15] A. Krizhevsky, I. Sutskever, and G. E. Hinton.Imagenetclassiﬁcation with deep convolutional neural networks. InAdvances in neural information processing systems, pages1097–1105, 2012. 1, 2, 3[16] K. Lenc and A. Vedaldi. Understanding image representa-tions by measuring their equivariance and equivalence. InProceedings of the IEEE conference on computer vision andpattern recognition, pages 991–999, 2015. 1[17] I. Loshchilov and F. Hutter. Sgdr: Stochastic gradient de-scent with restarts. arXiv preprint arXiv:1608.03983, 2016.3[18] S. Mallat. A wavelet tour of signal processing. Academicpress, 1999. 3[19] S. Mallat. Group invariant scattering. Communications onPure and Applied Mathematics, 65(10):1331–1398, 2012. 1,3[20] S. Mallat. Understanding deep convolutional networks. Phil.Trans. R. Soc. A, 374(2065):20150203, 2016. 1, 2, 5, 7[21] S. Mallat and I. Waldspurger. Deep learning by scattering.arXiv preprint arXiv:1306.5532, 2013. 2, 5[22] T. Nagamine, M. L. Seltzer, and N. Mesgarani. Exploringhow deep neural networks form phonemic categories. In Six-teenth Annual Conference of the International Speech Com-munication Association, 2015. 1, 5[23] E. Oyallon and S. Mallat. Deep roto-translation scattering forobject classiﬁcation. In Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition, pages 2865–2873, 2015. 1[24] A. Radford, L. Metz, and S. Chintala. Unsupervised repre-sentation learning with deep convolutional generative adver-sarial networks. arXiv preprint arXiv:1511.06434, 2015. 1[26] J. Sokolic, R. Giryes, G. Sapiro, and M. R. Rodrigues. Ro-bust large margin deep neural networks.arXiv preprintarXiv:1605.08254, 2016. 1, 7[27] J. T. Springenberg, A. Dosovitskiy, T. Brox, and M. Ried-miller.Striving for simplicity: The all convolutional net.arXiv preprint arXiv:1412.6806, 2014. 2, 3[28] V. N. Vapnik. Methods of pattern recognition. In The na-ture of statistical learning theory, pages 123–180. Springer,2000. 5[29] S. Zagoruyko and N. Komodakis. Wide Residual Networks.arXiv preprint arXiv:1605.07146, 2016. 3, 4[30] M. D. Zeiler and R. Fergus. Visualizing and understandingconvolutional networks. In European Conference on Com-puter Vision, pages 818–833. Springer, 2014. 1, 5[31] K. Zhang, M. Sun, T. X. Han, X. Yuan, L. Guo, and T. Liu.Residual networks of residual networks: Multilevel residualnetworks. arXiv preprint arXiv:1608.02908, 2016. 351140[8] M. Denil, L. Bazzani, H. Larochelle, and N. de Freitas.用于图像跟踪的深度架构学习何处关注.神经计算，24(8):2151-218

下载后可阅读完整内容，剩余1页未读，立即下载