核卷积：近似人类感知系统复杂行为的非线性卷积

6 浏览量更新于2023-10-19 收藏 993KB PDF 举报

卷积神经网络

视觉处理

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

31卷积神经网络陈望chenwang@dr.com杨剑飞yang0478@ntu.edu.sg谢丽华elhxie@ntu.edu.sg骏松苑2jsyuan@buffalo.edu1新加坡南洋理工大学电气与电子工程学院2美国纽约州立大学布法罗分校计算机科学与工程系摘要卷积神经网络（CNN）在许多计算机视觉任务中实现了最先进的性能然而，很少有人致力于建立非线性空间中的卷积。现有的工作主要利用激活层，其只能提供逐点非线性。为了解决这个问题，引入了一种新的操作，核卷积（内核卷积），利用内核技巧来近似人类感知系统的复杂行为它通过分片核函数推广卷积，增强大量的实验表明，卷积神经网络（KNN）比基线CNN实现更高的准确性和更快的收敛速度。1. 介绍卷积神经网络（CNN）在计算机视觉领域取得了巨大的成功，例如。图像识别[31，20]和目标检测[16，42]。核心运算符卷积部分受到动物视觉皮层的启发，在动物视觉皮层中，不同的神经元对被称为感受野的受限和部分封闭区域中的刺激做出反应[27，28]。卷积利用其对翻译的等方差它的效率在于可学习的参数是稀疏的，并且在整个输入（感受野）中共享。尽管如此，卷积仍然有一定的局限性，这将在下面进行分析为了解决这些问题，本文引入卷积，通过核技巧推广卷积含有卷积层的人工神经网络称为卷积神经网络（KNN）。有间接证据表明，纹状皮质1内的大多数细胞可以分为简单，复杂和超复杂，具有特定的反应特性[28]。[1]纹状体皮层是视觉皮层中参与处理视觉信息的部分。然而，卷积层是线性的，旨在模仿人类视觉皮层中简单细胞的行为[57]，因此它们不能表达纹状体皮层内复杂和超复杂细胞的非线性卷积还证明了高阶非线性特征映射能够使后续线性分类器更具区分力[37，1，9]。然而，来自激活层的非线性，例如，整流线性单元（ReLU）只能提供逐点非线性。我们认为，如果卷积可以通过内核技巧推广到分片非线性操作，CNN可能会表现得更好。由于可表达性和模型容量的增加，可以获得更好的模型泛化。非线性推广在数学上是简单的，然而，它一般很难保持卷积的优点，即：（i）共享权重（权重稀疏性）和（ii）低计算复杂度。有几个工作对非线性泛化。非线性卷积网络[57]以额外的n（n +1）/2个参数为代价实现二次卷积，其中n是感受野的大小。然而，卷积的二次形式失去了“权重稀疏性”的性质，因为非线性项的附加参数的数量随着多项式阶数呈指数增加，这大大增加了训练复杂度。引入高阶特征的另一个策略是探索池化层。[9]中的核池方法直接关联非线性项，而它需要计算非线性项，导致更高的复杂度。为了解决上述问题，本文引入卷积由于卷积已被应用于许多领域，e.G. 图像和信号处理，我们预计卷积也将在这些应用中发挥重要作用。然而，在本文中，我们专注于它在人工神经网络中的应用本文的贡献包括：（i）通过核技巧，将卷积算子推广到卷积，其保留了卷积的优点并带来了新的特征，包括增加的模型容量，32（ii）我们从特征的角度对卷积层进行了解释，并证明了它是构造网络的有力工具;（iii）证明KNN实现了更好的准确性并且超过了基线CNN。2. 相关工作正如其名称所示，CNN [35]采用卷积作为主要操作，它被建模为模仿在初级视觉皮层中发现的简单细胞的行为，称为V1 [27，28]。它在许多应用中取得了巨大的成功[33，31，20，18]。为了提高模型的泛化能力，人们采用了许多策略AlexNet [31]证明了集成方法“dropout”对于减少卷积网络的过拟合非常有效。非饱和整流线性单元（ReLU）显著提高了收敛速度[31]，并成为CNN的标准组件。网中网（NIN）[36]在感受野内建立局部斑块的微网络，每个微网络由多个完全连接的层组成，这提高了模型容量，但代价是增加计算和复杂结构。GoogLeNet [48]通过引入Inception模型增加了CNN的深度和宽度，从而进一步提高了性能。VGG [46]表明，具有小卷积滤波器（3×3）的深度CNN能够带来显着的改进。ResNet [20]解决了更深层次的训练问题CNN，并建议学习参考层输入的残差函数。这种策略使CNN更容易优化，并通过增加深度来提高回归精度。DenseNet [25]提出以前馈方式将每一层连接到每一个其他层，这进一步减轻了消失梯度的问题。ResNeXt[56]是通过重复将具有相同拓扑的一组变换聚集在一起的构建块来构造的，从而产生同构的多分支体系结构。它演示了一个新维度的本质，即转换集的大小。为了提高表示能力，SENet [24]专注于通道，并通过显式建模相互依赖通道来自适应地重新校准通道特征响应。近年来，卷积的推广一直是研究者们关注的焦点.为了实现复杂细胞卷积的可表达性，非线性卷积网络[57]通过直接引入高阶项将卷积扩展到非线性空间然而，如前所述，这引入了大量的附加参数，并指数地增加了训练复杂度。为了对空间变换保持不变，空间Transformer网络[29]将可学习的模块插入CNN以操纵变换后的数据。出于同样的目的，可变形卷积网络[10]增加了2-D可学习标准卷积的常规网格采样位置的偏移，这使得能够学习仿射变换;而[23]在卷积之前应用简单的双参数图像扭曲。CapsNet[44]提出通过胶囊结构将特定类型实体的实例化参数表示为活动向量这为人工神经网络开辟了一个新的研究空间，尽管它在大数据集上的性能仍然相对较弱。解耦网络[38]将卷积解释为权重和输入向量的范数和余弦角的乘积，从而导致类内和类外变化的显式几何建模。为了处理图形输入，Spline-CNN [14]通过使用连续的B样条基来扩展卷积，B样条基由常数数量的可训练控制值参数化。为了减少存储，Modulated CNN [55]将卷积运算符扩展到二进制滤波器，从而更容易在低功耗设备上部署本文中的核技术被应用于在最佳间隔的背景下创建非线性分类器[4]，后来被认为是支持向量机（SVM）[8]。近年来，它也被广泛应用于相关滤波器，以提高处理速度。例如，核相关滤波器（KCF）[22]被提出来通过旁路大矩阵求逆来加速核岭回归的计算，而它假设所有数据都是彼此的循环移位[49]，因此它只能预测信号平移。为了打破这种理论限制，[54]中提出了核互相关器（KCC），通过直接在频域中定义相关器，得到计算复杂度为O（NlogN）的封闭形式解，其中N是信号长度。此外，它不对训练数据施加任何约束，因此KCC对其他应用[52，50，53]有用，并且适用于仿射变换预测，例如，平移、旋转和缩放。在[51]中，该定理被进一步扩展上述工作表明，核技术是一个强大的工具，以获得准确性和效率。核技术最近也被应用到人工神经网络，以提高模型的性能。卷积核网络（CKN）[40]提出通过核近似来学习变换不变性，其中核被用作学习CNN的工具。然而，CKN的目的不是提取非线性特征，它与CNN的不同之处仅在于成本函数。SimNets [5]建议在卷积层下插入内核相似性层然而，相似度模板和过滤器都需要训练，并且需要用于初始化的预训练过程，这大大增加了复杂度。为了捕获特征的高阶交互，以无参数的方式提出了内核池[9]这是由上述思想激发的，即由核函数产生的更高维特征图是33（一）（一）我能够使后续的线性分类器更具区分力[1]。然而，在池化阶段中的核扩展不能以分片方式提取非线性特征。此外，额外的高阶特征仍然需要显式计算，这也大大提高了复杂度。为了解决这些问题，卷积被定义为通过核技巧推广卷积。3. 褶合我们从输出f（x）的卷积开始，即根据（5）的定义，滤波器w中的元素的数量没有增加，因此卷积保持卷积的稀疏连通性作为比较，我们采用基于Volterra级数的非线性卷积，[57]例如，由于可学习参数的数量随着非线性的阶数呈指数增加，因此非线性项的附加参数显著地即使是[57]中的（6）中的二次表达式gv（x）的复杂度也是O（n2）：gv（x）= xTw2x（i）+ wTx（i），（6）i（i）1f（x）=xw，（1）其中，n是卷积算子，x∈Rn是向量化输入，w∈Rn是滤波器。具体地，卷积输出f（x）的第i个元素被计算为：其中w1∈Rn和w2∈Rn×n分别是线性和（6）中的二次项引入了额外的n（n +1）/2个参数（w2是上三角矩阵）。而一个典型的非线性核的复杂度通常是O（n），即高斯RBF核，也就是fi（x）=.Σx（i），w、（二）与线性核（2）相同，因此卷积保持线性计算复杂度O（n）。其中，x（i）是两个向量的内积，x（i）是x乘以i个元素的循环移位我们定义索引i从0开始。卷积输出g（x）定义为：g（x）=xw，（3）其中，k是卷积算子。具体来说，g（x）的元素定义为：引入高阶特征的另一个策略是探索池化层。例如，[9]中提出的核池化方法直接将（5）中的非线性项cj（xTw）j然而，这需要显式计算高达p阶的非线性项，尽管它可以通过应用p次离散傅立叶变换（DFT）来近似，导致O（p·nlogn）的计算复杂度。然而，尽管如此，gi（x）=.Σ（x（i）），、（四）基于核技巧，卷积可以引入任何阶的非线性项，但仍然具有线性复杂度。其中R（·）：Rn<$→Rd（d<$n）是一个非线性映射函数。定义（4）使我们能够在高维空间中提取特征，而其计算复杂度也比（2）高得多。幸运的是，我们能够通过内核技巧[8]绕过高维特征的显式计算，因为3.2. 平移等方差当前深度学习架构的一个关键方面其中一个原因是卷积层自然地与图像平移等变[18]。在这一节中，我们展示了卷积.Σ（x（i）），Σcj（xTw）j=κ（x（i），w），（5）J保留了这一重要属性。当变换的效果在运算符输出中可检测时，运算符与变换是等变的[6]。因此，我们有f（j）（x）=其中κ（·，·）：Rn×Rn<$→R是一个核函数，其复杂度通常为O（n），与卷积的内积相同系数cj可以由映射函数k（·）或预定义的核κ（·，·）来确定，例如，高斯RBF核，其中特征维数dx（j）w，这意味着输入翻译的结果是输出翻译[18]。同样地，定理3.1. 卷积（3）与平移等变。证据假设g′（x）=x（j）<$w，根据（5），我们有是无限的。直觉上，内积（2）是线性核，因此卷积是卷积的线性情况。g′（x）=κ（x（i+j），w）=gi+j（x）。（七）卷积（3）保留了卷积的优点，并带来了新的功能：（i）分享权重（第3.1节）;(ii)转换的等方差（第3.2节）;（iii）增加模型容量和新特征相似性（第3.3节）;343.1.共享权共享权重通常意味着较少的可训练参数和较低的计算复杂度。是直截了当因此，x（j）的第i个元素是g（x）的第（i+j）个g（j）（x）=x（j）w，（8）完成了证明。注意，CNN的平移不变性是通过将池化层连接到卷积层来实现的[18]，35频道1频道2频道3频道4频道5频道60.60.60.60.60.60.60.40.40.40.40.40.40.20.20.20.20.20.20 0 0 0 0 0-0.2-0.2-0.2-0.2-0.2-0.2-0.4-0.4-0.4-0.4-0.4-0.40.60.60.60.60.60.60.40.40.40.40.40.40.20.20.20.20.20.20 0 0 0 0 0-0.2-0.2-0.2-0.2-0.2-0.2-0.4-0.4-0.4-0.4-0.4-0.4图1. MNIST上来自CNN和多项式KNN的第一层（六个通道和5× 5的滤波器大小）的学习滤波器的比较。有趣的是，一些学习过的过滤器（例如，信道4）与CNN非常相似。这表明卷积层的一部分学习线性行为，这是由多项式内核的线性部分控制的。方法卷积L1-范数L2-范数没有一99.1799.1299.11FGSM71.9274.0876.36表1.在MNIST上使用Lp-范数卷积的白盒FGSM攻击的测试精度（%）随机选择10K图像并且KNN的平移不变性可以类似地实现。这个属性是至关重要的，因为当数据中存在不变性时，在体系结构中显式编码它们提供了正则化的重要来源，这减少了所需的训练数据量[23]。如第2节所述，[22]中也提出了相同的性质，这是通过假设所有训练样本都是彼此的循环移位[49]来实现的，而我们的是从卷积继承的。有趣的是，[54]中定义的核互相关器（KCC）对任何仿射变换都是等变的（例如，平移、旋转和缩放），这可能有助于进一步发展这项工作。3.3. 型号容量和特点核函数（5）直接将卷积带到非线性空间，因此在不引入额外参数的情况下增加了模型容量。回想一下，CNN是一种强大的方法来提取有区别的局部Lp-范数卷积（9a）中的L1范数和（9b）中的L2范数分别简单地测量输入x和滤波器wκm（x，w）=x−wx1，（9a）κe（x，w）=x− w2。（9b）两个点的“距离”都涉及聚合每个元素之间的距离。如果向量在大多数元素上接近，但在其中一个元素上差异更大，则欧氏距离将减少该差异（由于归一化层，元素大多小于1），更多地受到其他元素的接近程度的影响因此，欧几里德卷积对于轻微的像素扰动可能更鲁棒。使用快速梯度符号法（FGSM）[19]对对手攻击进行简单模拟验证了这一假设，多项式卷积虽然现有文献已经表明，多项式核（10）在使用SVM [17]的自然语言处理（NLP）问题中，当dp=2时效果良好，但我们发现在KNN中，当dp=3时，其性能更好。波普尔κ（x，w）=（xTw+c）dp= cdp−j（xTw）j，（10）p描述符。特别地，卷积的线性核（2）-Tion测量输入x和滤波器w的相似性，即，ppj=0两个贴片之间的角度θ的余弦，因为x，w从这个角度来看，kervo- lution通过匹配核来度量相似性，相当于提取特定特征[3]。接下来我们讨论如何解释核函数，并给出了卷积算子的几个例子 κ（·，·）。卷积的优点之一是可以定制非线性特性而无需显式计算。其中dp（dp∈Z+）将特征空间扩展到dp维;cp（cp∈R+）能够平衡非线性项的阶数（直觉上，当cp为1时，高阶项起着更重要的作用<）.作为比较，内核池化策略[9]直接连接非线性项cj（xTw）j，而它们最终通过随后的完全线性组合。连接层，这大大增加了线性层中可学习参数的数量CNNKNN3622为了显示多项式卷积的行为，在图1中可视化了为MNIST训练的LeNet-5的学习滤波器，其包含使用多项式内核的第一个卷积层的所有六个通道（ dp=2 ，cp=0）。（五）。第4节描述了优化过程。为了进行比较，还介绍了从CNN学习的滤波器有趣的是，KNN和CNN的一些学习滤波器非常相似，例如。通道4，这意味着KNN的一部分能力像CNN一样学习线性行为。这验证了我们对多项式核的理解，多项式核是线性项和高阶项的组合。这一现象也表明，多项式卷积比现有方法更灵活、更直接地引入了高阶特征间的相互作用。高斯卷积高斯RBF核（11）将卷积扩展到无限维。κg（x，w）= exp（−γg<$x−w <$2），（11）通过卷积，我们能够提取特定类型的特征，而无需关注权重参数。然而，如前所述，我们仍然需要为一些特定的内核调整超参数，例如.多项式核函数中的平衡函数cp，高斯RBF核函数中的平滑函数γg。虽然我们注意到模型性能对内核超参数大多不敏感，这在第4.2节中介绍，但当我们不知道内核时，有时会很麻烦。因此，我们还实现了基于反向传播的可学习内核超参数训练网络[43]。这在理论上稍微增加了训练复杂度，但在实验中我们发现，与学习网络中的数百万个参数相比，这带来了更大的灵活性，以高斯卷积为例，梯度计算如下：κ（x，w）=2γ（x−w）κ（x，w），（13a）G.G.G.其中γg（γg∈R+）是控制决策边界光滑性的超参数。由于（12）中的i次项，它将kervolutoin扩展κ（x，w）=−（13b）γgGgκg（x，w）=CΣ∞i=0时（xTw）i、（十二）我！注意，多项式阶数dp是不可训练的，因为整数限制，因为实指数可能产生复数，这使得网络复杂。.其中C=exp.1张图片2张图片ΣΣ+无菌2 如果γg=1.4. 消融研究表达式（12）有助于我们直观地理解-而最近的发现揭示了更多的信息。在[2]中表明，高斯核及其变体能够测量基于梯度的分片特征的相似性，例如，[39]这提供了一种统一的方式来生成丰富多样的视觉特征集[15]。然而，与使用手工制作的特征作为核SVM不同，使用KNN，我们能够继承基于核技巧的实质性成就，同时仍然利用神经网络的强大泛化能力。3.4. 卷积层和可学习核与卷积层类似，卷积层的操作与标准定义略有不同(3)其中x（i）成为输入上的滑动窗口中的3D补丁。为了与现有的作品兼容，我们还实现了所有流行的卷积结构，CNN库[41]用于卷积，包括输入和输出通道，输入填充，偏置，组（以控制输入和输出之间的连接），大小，步幅和滑动窗口的膨胀因此，所有现有网络的卷积层都可以直接或部分地被卷积层取代，这使得KNN继承了CNN的所有现有成果，例如，网络架构[31，20]及其众多应用[42]。本节探讨内核的影响，超参数，以及使用LeNet-5 和 MNIST的卷积层组合[34]。为了消除其他因素的影响，所有配置都保持相同。现代网络在MNIST上的精度已经饱和，因此我们采用DAWN- Bench [7]中提出的评估标准，该标准联合考虑了计算工作量和精度。它衡量的是达到目标验证准确度（98%）的总训练时间，这是效率和准确度之间的权衡在本节的所有实验中，我们应用随机梯度下降（SGD）方法进行训练，其中采用小批量大小为50，动量为0.9，初始学习率为0.003，乘法因子为0.1，最大历元为20，里程碑为[10，15]。我们的算法是基于PyTorch库实现的[41]。所有测试都在GeForce GTX1080Ti的单个NvidiaGPU报告的培训时间不包括测试和检查点保存时间。4.1. 内核遵循烧蚀原理，我们只使用三个核函数，即：多项式核dp=3，cp=1（10），高斯核γg=1（11），以及sigmoid核κs（x，w）=tanh（xTw）。所示−37[98.93%]卷积[99.14%]卷积多项式[98.74%]角化-乙状卷积高斯[6.46s]卷积[2.72s]卷积多项式[13.1s]卷积sigmoid[3.08s]卷积高斯p p[99.03%]多项式（dp=3，cp=0.5）[99.20%]多项式（可学习）[99.16%]多项式（d =5，c=1）[98.93%]卷积[99.14%]多项式（dp=3，cp=1）p p[4.24s]polynomail（dp=3，cp=0.5）[3.13s]polynomail[2.08s]多项式（d =5，c=1）[6.46s]卷积[2.72s]多项式（dp=3，cp=1）验证准确度[%]验证准确度[%]验证准确度[%]验证准确度[%]100(a) 内核与收敛100（c）超参数与收敛100（e）层布置与收敛80 80 8060 60 6040 40 40200 0.2 0.4 0.6 0.8 1时代200 0.2 0.4 0.6 0.8 1时代200 0.2 0.4 0.6 0.8 1时代100（b）核与训练时间100（d）超参数与训练时间100（f）层布置与训练时间80 80 8060 60 6040 40 40200 1 2 3 4 5 6训练时间[s]200 1 2 3 4 5 6训练时间[s]200 1 2 3 4 5 6训练时间[s]图2.卷积对收敛速度的影响最佳验证准确度（20个时期）和训练时间到目标准确度（98%）分别显示在每个图的图例内的括号中。(a)以及（b）证明核函数对收敛速度具有显著影响。(c)和（d）证明了卷积层的超参数比核起的作用小。(e)以及（f）示出了角化层的布置的效果。图2（a）和（b），虽然非线性内核的计算复杂度略高于线性内核（卷积），但多项式和高斯KNN仍然能够收敛到98%的验证精度，比原始CNN快2倍以上然而，sigmoid KNN的收敛速度比CNN慢2倍，这表明核函数至关重要，对性能有重大影响。由于传统方法的丰富，我们有许多其他有用的内核[47]，尽管我们无法在本文中测试所有这些内核。L1和L2范数KNN分别达到99.05%和99.19%的准确率，但我们在图2（a）和图2（b）中省略了它们。(b) 因为它们几乎与多项式曲线重合。4.2. 超参数从上述分析中，我们将收敛速度的显著提高归功于不同内核的使用。这部分验证了这一假设，并进一步探讨了核超参数的影响选择具有两个超参数（非线性阶dp和平衡子cp）的多项式卷积（10）如图2(c) 和（d），使用不同超参数的多项式KNN的收敛速度和验证精度与图2（a）和（b）非常相似，这表明KCC对核超参数不太敏感。还注意到，具有可学习内核参数的KNN在该组中达到了最佳精度（ 99.20% ），尽管与 KNN （ dp=3 ，cp=1）相比，它稍微增加了训练时间。不过，成本是合理的因为它节省了超参数调整过程，并且收敛仍然比基线CNN快得多。4.3. 层布置这一部分探讨了反卷积层的位置对系统的影响由于LeNet-5（两个卷积层）的简单性，我们可以测试所有可能的层排列配置，即“conv-conv”、“kerv-conv”、“conv- kerv”和“kerv-kerv”。如图2（e）和（f）所示，在采用多项式核（dp=3，cp=1）的情况下，KNN仍然带来更快的收敛。一个有趣的现象是，“kerv-conv”的架构实现了更好的精度，但收敛速度比“conv-kerv”慢（我们运行多次，结果是相似的）。这表明卷积层的顺序对性能有影响，尽管模型复杂度是相同的。一个副作用是，我们可能需要做出一些努力来调整更深KNN的层序列。还注意到，“kerv-kerv”的架构我们认为这是由过度拟合问题引起的，因为它的最终训练损失非常接近于其他人（100。01），这意味着双卷积层以及激活层和最大池化层的模型容量对于MNIST数据集来说太大了。4.4. 删除ReLU如第 1 节所述， CNN 的非线性主要来自激活（ReLU）和最大池-[98.93%] CNN[99.20%] KNN-多聚线性[99.21%]KNN-线性-聚[98.94%] KNN-聚-聚[6.46秒] CNN[3.13s] KNN-多线性[3.48s]KNN-线性-聚[2.98s]KNN-聚-聚验证准确度[%]验证准确度[%]38表2.ResNets在CIFAR-10和CIFAR- 100上的验证误差（%），无数据增强。表4.使用ResNet-32在CIFAR-10+上使用不同超参数的多项式KNN的验证误差（%）p表3. CIFAR-10和CIFAR-100在不同体系结构上的验证误差（%）（数据增强）。ing层。直观地说，KNN可能能够在没有激活或最大池化层的情况下实现相同的模型性能为此，我们只需删除LeNet-5的所有激活层，并将最大池化层替换为平均池化层，这意味着所有非线性都来自卷积层。毫无疑问，CNN只达到了92.22%的准确率，远远低于98%的目标准确率，因此省略了训练时间比较而“高斯-多项式”和“多项式-多项式”的KNN均达到了99.11%的准确率，进一步验证了Kervolution的有效性。从另一个意义上说，去除激活层的策略是4.3节中提到的过拟合问题的解决方案之一，尽管我们需要更多的研究来找到KNN的最佳架构。5. 性能本节旨在证明深度KNN在较大数据集上的有效性在实践中，网络架构对性能有很大影响。由于现代网络是如此之深，并且卷积通过不同的内核提供了许多可能性，因此我们无法执行穷举测试来找到卷积层的最佳序列因此，我们主要通过将第一卷积层改变为kervolu- tional层来基于几种现有架构构建KNN。其他因素，如数据增强和优化器，保持其原始配置。如第4节所述，这可能不是最佳配置，但它可以证明卷积的有效性。本节中的CIFAR实验在Nvidia GeForce GTX 1080Ti的单个GPU中进行，而我们在ImageNet实验中使用了四个Nvidia Tesla M40本节中的多项式卷积层采用幂dp=3的可学习平衡器cp。表5.使用ResNet-32在CIFAR-10+上使用不同超参数的多项式KNN的训练时间（h）5.1. CIFARCIFAR-10和CIFAR-100 [30]数据集分别由10和100个类中的32×32像素的彩色自然图像组成。每个数据集包含50k张用于训练的图像和10k张用于测试的图像。在测试过程中，仅评估原始图像的单个视图。首先使用ResNet的架构在没有数据扩增的情况下评估所提出的 KNN 我们按照 [20] 的架构构建和训练ResNet-110 ，并具有交叉熵损失。随机梯度下降（SGD）采用动量为0.9。我们训练网络200个epoch，小批量大小为128。在75、125和150个epoch时，学习率下降0.1;权重下降保持在5×10−4。KNN的验证误差以及来自[26]的基线CNN的最佳性能如表2所示有趣的是，KNN在CIFAR数据集上的表现优于CNN我们使用数据扩充技术进行了更多的实验，数据集分别表示为KNN是按照GoogLeNet [48]和DenseNet- 40-12 [25]的架构按照ResNet [20]中的配置应用数据增强，包括概率为50%的水平翻转，4像素的反射填充以及大小为32×32的随机裁剪。与ResNet不同，我们训练DenseNet-40-12如下-其原始配置[25]，即，SGD，批量大小为64，用于300个epoch。初始学习率设置为0.1，并在迭代总数的50%和75%处除以10表3列出了KNN的性能和来自[20，25，13]的基线。我们看不到DenseNet的显著改进，这表明多项式卷积可能不适合全连接架构。我们进一步证明了核超参数的敏感性。表4列出了KNN的验证误差网络CIFAR-10CIFAR-100Hyperparmdp=3dp=5[26]第二十六话13.6344.74cp=04.785.42KNN10.8537.12cp=14.605.36可学习cp4.764.73架构CIFAR-10+CNN KNNCIFAR-100+CNN KNNHyperparmD=3dp=5[13]第十三话13.375.1626.6520.84cp=00.831.41ResNet [20]6.434.6927.2222.49cp=11.411.46DenseNet [25]5.245.0824.4224.92可学习cp0.860.7939在 CIFAR-10+ 上，使用 ResNet-32 的架构，具有dp=3，5和cp=0，1的多项式核。还给出了具有可学习平衡器的cp的性能，网络排名前一前五ResNet-1830.24/27.88 10.92 /9.42KNN-1829.74/27.43 10.49 /9.03对比如[7]所述，他们的训练时间测量的准确度为94%，并在表5中给出有趣的是，dp=3，cp=1的配置实现了最好的精度，而dp= 5，具有可学习的cp需要最少的训练时间。可学习的网络ResNet-34 26.70/25.03 8.58 /7.76KNN-3426.29/24.28 8.34 /7.08ResNet-50 23.85/22.85 7.13 /6.71KNN-5023.56/22.05 6.90 /5.97内核通过联合控制来实现最佳的整体性能，训练时间和准确性。这表明，可学习的内核技术可以在不调整参数的情况下产生折衷的性能。5.2. ImageNetILSVRC 2012分类数据集[12]由1. 200万张图像用于训练，50k张图像用于1000个类的验证为了公平比较，我们应用了与[20，21]中所述相同的数据增强，其中采用224×224的单次裁剪和10次裁剪进行测试。我们选择了四个版本的ResNet [20]，包括ResNet-18，ResNet-34，ResNet-50和ResNet-101作为基线。卷积层应用多项式核（d=3，cp=2）。所有网络都使用随机梯度下降（SGD）方法训练100个epochs，批量大小为256。学习率设置为0.1，每30个epoch降低一次。此外，重量衰减为10−4，动量为0。9、不使用阻尼器。在我们的实验中，ResNet的最佳性能无法在有限的训练时间内实现为了保证公平的计算，选择在[45，20，21，25]我们在表6中报告了ImageNet上的单作物和10作物验证错误，其中KNN的性能是五次运行的平均值。在表6中，使用ResNet-18/34/50/101的前1个错误在单作物中减少了0.5%、0.41%、0.29%和0.7%。10茬试验中分别为0.45%、0.75%、0.80%和0.83%。对于前 5 个错误， KNN 的表现优于相应的 ResNets0.43%，0.24%，0.23%和0.28%10茬试验中分别为0.39%、0.68%、0.74%和值得注意的是，简单地替换ResNet中的卷积层会带来明显的改进。我们相信，更定制的网络架构以及广泛的超参数搜索可以进一步提高ImageNet的性能6. 讨论与卷积只能提取线性特征不同，卷积能够提取定制的分片非线性特征，这使得KNN更加灵活。结果表明，高阶项使随后的线性分类器更具鉴别力，而这并不增加计算复杂度。然而，我们只测试了几个内核，例如。波利诺，波利诺ResNet-101 22.63/21.75 6.44 /6.05KNN-10121.93/20.92 6.16 /5.18表6. ImageNet上的前1名和前5名验证错误，分别使用单次裁剪/ 10次裁剪测试。mial和高斯，这可能不是最佳的。显然，核函数及其超参数可以是任务驱动的，需要更多的研究。还注意到，当网络包含太多非线性时，训练可能不稳定，这是因为模型复杂度对于特定任务来说太高，这可以通过减少卷积层的数量来简单地解决。为特定任务寻找合适的非线性的更多调查是具有挑战性的。我们只将卷积应用于前代架构，例如。ResNet。虽然这不是最佳的，特别是考虑到深度架构的机制仍然不清楚[32]。很明显，核卷积的性能依赖于体系结构。未来工作的一个有趣的挑战是调查架构和卷积之间的关系。7. 结论本文引入卷积，将卷积推广到非线性空间，并将卷积神经网络推广到卷积神经网络。结果表明，卷积不仅保留了卷积的优点，I.E.共享权重和等价于平移，而且还增强了模型容量，并通过分块核函数捕获特征的高阶相互作用，而不引入附加参数。已经证明，通过仔细选择内核，CNN的性能可以在MNIST，CIFAR和ImageNet数据集上通过用卷积层替换卷积层来显着提高由于卷积的大量选择，我们无法对所有可能性进行强力搜索，而这为构建深度网络开辟了新的空间。我们期望在更多的架构中引入卷积层，并且广泛的超参数搜索可以进一步提高性能。40引用[1] Mathieu Blondel、Masakazu Ishihata、Akinori Fujino和Naonori Ueda。多项式网络和因式分解机：新的见解和有效的训练算法。在2016年的国际机器学习会议上[2] 博烈风，任晓峰，迪特尔.福克斯。视觉识别的核描述子。神经信息处理系统会议，2010年。[3] Bo Liefeng和Cristian Sminchisescu用于视觉识别的特征集之间的有效匹配神经信息处理系统会议，第135-143页，2009年[4] Bernhard E Boser ， Isabelle M Guyon ， and Vladimir NVapnik.一种最优间隔分类器的训练算法。第五届计算学习理论年度研讨会论文集，第144-152页。ACM，1992年。[5] Nadav Cohen，Or Sharir，and Amnon Shashua.深度模拟网.在IEEE计算机视觉和模式识别会议上，第4782-4791页。IEEE，2016.[6] 塔可·科恩和麦克斯·威林群等变卷积网络。ICML，2016。[7] Cody Coleman，Deepak Narayanan，Daniel Kang，TianZhao ， Jian Zhang ， Luigi Nardi ， Peter Bailis ， KunleOlukotun，Chris Re，and Matei Zaharia.DAWNBench：端到端深度学习基准测试和竞赛。培训，100，2017。[8] 科琳娜·科尔特斯和弗拉基米尔·瓦普尼克支持向量网络。Machine learning，20（3）：273[9] Yin Cui，Feng Zhou，Jiang Wang，Xiao Liu，YuanqingLin，and Serge Belongie.卷积神经网络的核池化2017年IEEE 计算机视觉和模式识别会议（ CVPR ），第3049IEEE，2017年。[10] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang ， Han Hu ， and Yichen Wei. 变形卷积网络。ICCV，2017年。[11] Navneet Dalal和Bill Triggs。用于人体检测的有向梯度直方图在IEEE计算机协会计算机视觉和模式识别会议上，第886-893页IEEE，2005年。[12] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei.Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别，2009 年。 CVPR2009。IEEE会议，第248-255页。IEEE，2009年。[13] Abhimanyu Dubey 、 Otkrist Gupta 、 Pei Guo 、 RameshRaskar、Ryan Farrell和Nikhil Naik。细粒度视觉分类的成对混淆。在欧洲计算机视觉会议（ECCV）的会议记录中，第70[14] Matthias Fey ， Jan Eric Lenssen ， Frank Weichert ，Heinrich Müller.Splinecnn：使用连续b样条核的快速几何深度学习在IEEE计算机视觉和模式识别会议论文集，第869[15] Peter Gehler和Sebastian Nowozin多类目标分类的特征组合方法。 2009 年 IEEE 第 12 届国际计算机视觉会议（ICCV），第221-228页IEEE，2009年。[16] 罗斯 · 格希克。快速 R-CNN 。在 IEEE InternationalConference on Computer Vision 中，第 1440-1448 页。IEEE，2015年。[17] 约阿夫·戈德堡和迈克尔·埃尔哈达SplitsVM：用于NLP应用的快速、空间有效、非启发式、多项式核计算。在人类语言技术计算语言学协会第46届年会的会议记录中：短文，第237计算语言学协会，2008年。[18] Ian Goodfellow Yoshua Bengio和Aaron Courville深度学习麻省理工学院出版社，2016.[19] Ian J Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性示例。arXiv.org，Dec. 2014年[20] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在计算机视觉和模式识别会议上，2016年。[21] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩

下载后可阅读完整内容，剩余1页未读，立即下载