深度多项式神经网络的构建和性能优势

109 浏览量更新于2023-10-25 收藏 791KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1深度多项式神经网络（Deep Polynomial NeuralNetworks）格里戈里奥斯湾Chrysos1，Stylianos Moschoglou1，2，GiorgosBouritsas1，Yannis Panagakis3，Jiankang Deng1，2，StefanosZafeiriou1，21英国伦敦帝国理工学院计算机系2Facesoft.io3希腊雅典大学信息与电信系{[第一个字母]。[姓氏]}@imperial.ac.uk摘要深度卷积神经网络（DCNN）目前是生成的首选方法，对于计算机视觉和机器学习中的判别学习。DCNN的成功可以归因于它们的构建块的仔细选择（例如，残差块、整流器、复杂的归一化方案，仅举几例）。在本文中，我们提出了一种新的DCNN网络，即DCNNs。神经网络是多项式神经网络，即，输出是输入的高阶多项式。可以使用特殊类型的 skipconnections来实现网络，并且它们的参数可以通过高阶张量来表示。我们经验性地证明，DCNN网络具有比标准DCNN更好的表示能力，并且它们甚至在大量任务和信号中不使用非线性激活函数的情况下产生良好的结果，即，图像、图形和音频。当与激活功能结合使用时，EQUIP-Nets在具有挑战性的任务中产生最先进的结果，例如图像生成。最后，我们的框架阐明了为什么最近的生成模型，如StyleGAN，改进了他们的前辈，例如，ProGAN。1. 介绍通过使用（深度）多层非线性模型的表示学习在过去十年中彻底改变了计算机视觉领域[32，17]。深度卷积神经网络（DCNN）[33，32]一直是模型的主要类别。通常，DCNN是一系列层，其中每一层的输出首先被馈送到卷积算子（即，通过卷积运算器应用的一组共享权重），然后应用于非线性激活函数。不同层之间的跳过连接允许网络V1网络V2图1：在本文中，我们介绍了一类称为“网络”的网络，其中输出是输入的多项式在这种情况下，输入z可以是用于生成任务的生成对抗网络的潜在空间，或者在区分任务的情况下是图像我们的多项式网络可以很容易地实现使用一种特殊的跳跃连接。函数被移除，DCNN的输出退化为输入的线性函数。在本文中，我们提出了一类新的DCNN，我们将其命名为DCNN网络，其中输出是输入的多项式函数。我们为生成性任务设计了网络（例如，其中输入是小维噪声向量）以及用于区别性任务（例如，其中输入是图像，输出是维度等于标签数量我们证明，这些网络可以产生良好的效果，而不使用非线性激活函数。此外，我们广泛的实验表明，经验上，在生成和判别任务中，在许多情况下，使用显著更少的参数，网络可以始终如一地提高性能。DCNN已经在计算机视觉中使用了30多年更深层次的表示和改善梯度流，训练网络[17，54]。在上述情况下，如果非线性激活年[33，50]。可以说，DCNN再次进入主流研究的原因是所谓的AlexNet在ImageNet挑战中取得的显着成果[32]。甚至7325z∗∗z∗∗G（z）G（z）7326尽管这一开创性的努力仅仅进行了七年，但该领域在所有依赖于数据的任务中都取得了显著的进步，例如物体检测[21]和图像生成[37，15]，仅举几个例子。这种改进主要归功于DCNN的架构流水线中精心选择的单元，例如具有跳过连接的块[17]，复杂的归一化方案（例如，批量归一化[23]），以及使用有效的基于梯度的优化技术[28]。与DCNN架构用于区分性任务（如分类）的开发并行，生成对抗网络（GAN）的概念被引入用于训练生成模型。GANs立即成为一种流行的研究方向，但只有在仔细设计DCNN管道和训练策略之后，GANs才能够产生逼真的图像[26，2]。ProGAN [25]是第一个通过DCNN合成逼真面部图像的架构StyleGAN [26]是改进ProGAN的后续工作。StyleGAN的主要增加是一种称为ADAIN的跳跃连接，它允许将潜在表示注入生成器的所有不同层。在[42]中引入了类似的注入用于条件图像生成。我们的工作的动机是通过这样一个简单的注入层改进StyleGAN超过ProGAN，并需要提供解释1。我们表明，这种注入层创建一个特殊的非线性结构，即，高阶多项式，它根据经验提高了DCNN的表示能力。我们表明，这个输液层可以推广（例如。见图1），并以各种方式应用于生成和判别体系结构。特别是，该文件具有以下贡献：• 我们提出了一个新的神经网络家族（称为网络），其中输出是高阶多项式的输入。为了避免组合爆炸在多项式激活函数的参数数量[27]中，我们的网络使用一种特殊的跳跃连接来实现多项式展开（请参见图10）。1的简要示意图）。我们从理论上证明了这类跳跃联络与张量分解的特殊形式有关。• 我们展示了所提出的架构如何应用于GAN等生成模型以及判别网络。我们展示了结果-ing架构可用于学习高维分布而无需非线性激活函数。• 我们使用建议的并展示他们如何在很大程度上改善1作者认为，这种注入层是一种风格，基线的表现力我们在一系列任务（即，生成和分类）。最后，我们证明了我们的架构适用于许多不同的信号，如图像，网格和音频。2. 相关工作（深度）神经网络的表达性：在过去的几年里，（深度）神经网络已经被应用于广泛的应用，并取得了令人印象深刻的结果。业绩提升可归因于一系列因素，包括：a）大规模数据集的可用性[4，35]，b）在大规模并行硬件上运行的机器学习库[57，43]，c）训练改进。训练改进包括a）优化器改进[28，46]，b）网络的增强容量[53]，c）正则化技巧[11，49，23，58]。然而，每一层的模式几十年来基本上保持不变：每一层由线性变换和逐元素激活函数组成。尽管使用了各种线性变换[9，33，32]和激活函数[44，39]，但迄今为止，扩展该范式的努力尚未引起太多关注最近，层次模型在学习表达生成模型方面表现出了卓越的性能[2，26，70]。例如，最近的BigGAN [2]通过从噪声z到生成器的多个分辨率的跳过连接来执行分层合成。类似的想法出现在StyleGAN [26]中，这是对GAN 渐进增长（ ProGAN ）的改进 [25] 。作为ProGAN，StyleGAN是一个高度工程化的网络，在合成的 2D 图像上取得了令人信服的结果。为了解释StyleGAN相对于ProGAN的改进，作者采用了风格转移文献[22]中的论点我们相信，这些改进可以更好地解释下，我们提出的多项式函数逼近。尽管在这些作品中提出的hi-jumical组成，我们提出了一个直观的和数学上精心制作的方法来实现更精确的近似多项式展开。我们还证明了这样的多项式展开可以用于图像生成（如[26，2]），图像分类和图形表示学习。多项式网络：多项式关系在两种特定类型的网络中进行了研究：a）具有硬编码特征选择的自组织网络，b）pi-sigma网络。可学习的多项式特征的思想可以追溯到数据处理组方法（GMDH）[24]2。GMDH学习捕获两个预定义输入元素之间的二次相关性在[41]中，允许对生成过程进行从粗到细的操作相反，我们将此归因于逐渐增加多项式的幂2这通常被称为第一个深度神经网络[50]。7327j j jjJWr1s不更多的输入元素是允许的，而更高阶的多-其中βPRo和.rns卢恩PRommd（Nn是使用了nomials每个部分描述符的输入是预定义的（输入元素的子集），这不允许该方法扩展到具有复杂相关性的高维数据。Shin等人[51]介绍pi-sigma网络，这是一种具有单个隐藏层的神经网络学习数据的多个仿射变换;乘积单元相乘所有特征以获得输出。pi-sigma网络的改进包括[66]中的训练正则化或使用多个产品单元来获得[61]中的输出。pi-sigma网络扩展为sigma-pi-sigma神经网络（SPSNN）[34]。SPSNN的思想依赖于对不同的pi-sigma网络求和以获得每个输出。SPSNN还在每个π-Σ子网络上使用预定义的基础（重叠矩形脉冲）来过滤输入特征。即使这样的网络使用多项式特征或乘积，它们在高维信号中也不能很好地扩展此外，它们的实验评估仅在具有已知地面真实分布（并且具有高达3维输入/输出）的信号上进行，这与现代生成模型不同，在现代生成模型中，只有来自高维地面真实分布的有限数量的样本可用。3. 方法符号：张量用书法字母表示X，而矩阵（向量）由粗体字母表示，例如，X，（x）.X与向量u PRIm的模m向量积记为X <$mu。3我们要学习一个函数逼近器，其中输出x j的每个元素，j P r1，os，被表示为所有输入元素z i的多项式，i P r 1，ds。也就是说，我们要学习一个函数G：Rd<$Ro，NPN，使得：可学习的参数。这个公式（2）允许我们近似任何光滑函数（对于大N），然而参数随着OpdNq而增长。A variety of methods, such as pruning [8, 16], tensor分解[29，52]，特殊线性算子[6]，减少的参数，参数共享/预测[67，5]，可以用来减少参数。与修剪或预测的启发式方法相比，我们在下面描述了允许有效实现的两种原则性方法。第一种方法依赖于对（2）执行现成的张量分解，而第二种方法将最终多项式视为低次多项式的乘积本文中使用张量分解来提供理论理解（即，所使用的多项式的阶数是多少）。在实现方面，不同的网络结构的合并就像跳过连接的合并一样简单。然而，在网络中，不同的跳跃连接导致不同类型的多项式网络。3.1. 单个多项式对参数的张量分解是减少参数并实现（2）的自然方式，神经网络。下面，我们将展示三种这样的分解如何产生用于神经网络训练的新架构表1中总结了主要符号，而补充中分析了递归关系与多项式之间的等价性模型1：CCP：耦合CP分解[29]应用于参数张量。也就是说，每个参数张量，即Wrns对于nPr1，Ns，不是单独分解的，而是定义了参数的耦合分解。递归关系为：X “z`zT Wr2sz`´xn¯RNSZ * xn′ 1`xn′ 1（3）Wr3sz z中国z`'W rNsz（一）对于n-2，. . .，N具有x1“UTz和x“CxN "β。j12 3JNn参数CPRok，Urns 对于n-1，- 是的- 是的，N其中βP.rnsn是可以学习的为了避免图过载假设三阶展开（NjR，以及PRmn是的，图二、用于近似输出xj的参数。的相关性(of直到N阶的输入元素z（i）出现在（1）中。通过将输出向量化来获得（1中国xn2011年1月1日Wrnsjz`β（2）j图2：CCP的示意图（三阶近似）。符号表示Hadamard乘积。3补充资料中提供了详细的张量符号[55]的定理保证了任何光滑函数都可以用多项式逼近。多元函数的逼近由Weierstrass定理的扩展所覆盖，例如。在[40]（第19页）中。模型2：NCP：我们可以利用联合层次分解，而不是定义平面CP分解。美国[2]美国[3]CβZU[1]+联系我们G（ z）U7328S不不不不zA[1]A[2]A[3]b[1]B[1]<$S[2]+<$S[3] +<$C +G（z）B[2]B[3]βb[2]b[3]表1：提名符号尺寸定义在叱NNRdRok，RoRdk，Rkk，Rωk-多项式项的阶，全逼近阶。K尸体腐烂的程度。z多项式逼近器的输入，即，生成器.C， β所有分解中的参数。Arn s，S rn s，B rn sd，矩阵参数的层次分解。Khatri-Rao乘积Hadamard乘积多项式参数定义了嵌套耦合CP分解（NCP），其导致用于N阶近似的以下递归´xn¯RNSZ´*rnsxn′ 1不rns¯BRNS（四）´对于n-2，. - 是的- 是的，N，x1“¯RNSZ´不rns¯BRNS和图4：NCP-Skip（三阶）示意图x“Cx N ` β。参数CPRok，ArnsPRdk，SrnsPRkk，BrnsPRωk，BrnsPRω（n“1，. - 是的- 是的，N，是可学习的。补充资料中详细说明了每个变量的解释，其中推导了分解。图3：NCP的示意图（三阶近似）。符号表示Hadamard乘积。模型3：NCP-Skip：NCP的表现力可以使用skip连接（由CCP驱动）进一步扩展。新模型使用嵌套耦合分解，并具有以下递归表达式：´ ¯ ´ ¯T T T近似）。图的区别3是此模型中添加的跳过为了比较，我们默认使用NCP生成图像，使用NCP-Skip进行图像分类。在我们的初步实验中，CCP和NCP共享基于Sec的设置的类似性能。4.第一章在所有情况下，为了减轻训练过程中可能出现的稳定性问题，我们采用了某些规范化方案来约束梯度的大小。深入的理论分析的架构被推迟到未来的版本，我们的工作。3.2. 多项式的乘积而不是使用一个单一的多项式，我们表示的函数近似多项式的产品乘积被实现为连续多项式，其中第i个多项式的输出被用作第pi `1 q个多项式的输入。该概念在图中直观地描绘。5;每个多项式表示二阶展开。堆叠N个这样的多项式导致总阶为xnARNSZ*Srnsxn′ 1`BrnsBrns`xn′ 1（5）2个N。简单地说，如果每个多项式的近似值是´对于n-2，. - 是的- 是的，N，x1“¯ ´nsz不rns¯BRNS和我们叠加N个这样的多项式，总阶是。产品不一定需要相同的订单，x“Cx N ` β。可学习的参数与NCP中的相同，但是递归形式的差异导致不同的多项式展开，从而导致架构。模型之间的比较：所有三个模型都基于多项式展开，但它们的递归形式和所采用的分解不同。中共已然而，NCP和NCP-Skip涉及使用分层合成的标准体系结构，其最近在生成和区分任务中都产生了有希望的结果。的其余部分中每一个多项式，表达性和展开阶每个多项式的值可以不同，并且取决于任务，例如，对于分辨率逐渐增加的生成任务，在最后的多项式中，扩展阶可以增加。在所有情况下，最终阶将是每个多项式的乘积。在单个多项式上，乘积有两个主要的好处：a）它允许使用不同的分解（例如，如在第二节中，3.1）和每个多项式的表达能力;b）它需要更少的参数来实现相同zA[1]A[2]A[3]b[1]B[1]C+G（z）B[2]B[3]βb[2]b[3]一`B一B一B˚7329z∗∗近似的顺序。考虑到多项式的乘积的益处，我们在下文中假设使用多项式的乘积，除非另有明确说明。乘积多项式的相应模型被称为多项式多项式。订单2N订单2订单2· ··图5：CIMPOLY的抽象插图。左边的输入变量z是二阶展开的输入;其输出用作下一个多项式的输入（也具有第二个扩展）等等。如果我们使用N个这样的多项式，则最终输出Gpzq表示2N阶展开。除了高阶近似之外，使用多项式的乘积的好处是模型是灵活的，在这个意义上，每个多项式多项式可以实现为Sec的不同分解。第3.1条3.3. 任务相关输入/输出上述多项式是函数x对于生成任务，例如学习解码器，输入z通常是一些低维噪声，而输出是高维信号，例如，一个形象对于判别任务，输入z是图像;对于域自适应任务，信号z表示源域，x表示目标域。4. 概念验证在本节中，我们将在生成性和区分性任务中进行动机实验，以证明网络的表现力。具体地，网络在没有激活函数的情况下实现，即仅线性运算（例如，卷积）和Hadamard产品。在此设置中，输出相对于参数为线性或多线性4.1. 线性发电最流行的生成模型之一是生成对抗网（GAN）[12]。我们设计了一个GAN，其中生成器被实现为多项式的乘积（使用NCP分解），同时使用[37在生成器中不使用激活函数，而是在图像空间5中使用单个双曲正切（tanh）。5其他细节将在补充材料中说明。图6：在CSPoly的潜在空间中进行线性插值（在时尚图像上训练时[64]）。请注意，生成器在线性块之间不包括任何激活函数（第4.1）。所有的图像都被合成;最左边一列的图像是源图像，而最右边一列的图像是目标合成图像。图7：在CSPoly的潜在空间中进行线性插值（在面部图像上训练时[10]）。如图6所示，生成器仅包括线性块;最左边一列的图像是源图像，而最右边一列的图像是目标图像。用多项式生成器（Fashion-Mnist和YaleB）进行了两个实验。当使用Fashion-Mnist [64]和YaleB [10]训练时，我们在潜在空间中执行线性插值，并将结果可视化在图1和图2中。分别为6、7。请注意，线性插值生成合理的图像并在不同类别之间导航，例如从裤子到运动鞋或者从裤子到T恤。等效地，它可以线性地从完全照亮到部分黑暗的脸的潜在空间4.2. 线性分类为了从经验上说明多项式的功效，我们使用没有激活的ResNet进行分类。残差网络（ResNet）[17，54]及其变体[21，62，65，69，G（z）7330¯1.00.80.60.40.20.023 45秩序1.00.80.60.40.20.02 3 4 5秩序表2：CIFAR 10 [31]代的IS/FID评分。[14，15]的分数是从各自的论文中添加的，因为使用了类似的基于残差的生成器。[7，19，36]的分数代表替代生成模型。在这两个指标中，Polyperform优于所比较的方法。图8：线性残差块的图像分类精度6.左边的示意图是CIFAR10分类，而右边的示意图是CIFAR100分类。68]已被应用于不同的任务，包括对象检测和图像生成[14，15，37]。ResNet的核心组件是残差块;对于输入zt，第t个残差块被表示为zt“1“z t”Cz t。我们修改每个残差块来表达更高阶的相互作用，这可以通过NCP-Skip来实现。每个残差块的输出是下一个残差块的输入我们使用CIFAR10 [31]（10类）和CIFAR100 [30]（100类）进行分类实验每个残差块以两种方式修改：a）移除所有激活函数，b）将其转换为i阶展开，其中iPr2，5s。二阶展开（对于tth剩余块）表示为zt`1zt;高阶类似地通过执行最后一项与zt的Hadamard乘积来构造（例如，，"对于第三阶展开，它将是zt`1“ z t ` Cz t ` Cz t´ ¯zt`Cztztzt）。评估以下两个变化：a）在每个“组层”中使用单个残差块，b）每个“组层”使用两个后者变体等同于没有激活的ResNet18每个实验进行10次;平均5. 实验我们在三个不同的任务中对最先进的模型进行了三个实验：图像生成，图像分类和图形表示学习。在每种情况下，所考虑的基线被转换为我们的Π-网族的实例，并比较两个模型。5.1. 图像生成在以下两种不同的体系结构 / 数据集中评估了CRAMPLY在图像生成中的稳健性。SNGAN 在 CIFAR10 上：在第一个实验中，选择SNGAN的架构[37]作为CIFAR10上的强基线[31]。基线包括发生器和ADC中的3个残留块。生成器被转换成一个网络，其中每个剩余块是多项式的一个阶。我们实现了两个版本，一个与一个单一的多项式（NCP）和一个多项式的产品（其中每个多项式使用NCP）。在我们的实现中，Arns是一个薄FC层，图中报告了精度58. 我们注意到，出现在两个数据集6.性能保持相似pBrns qTb rns 是偏置向量，Srns 是转型而与组层中的残余块的量性能受扩展顺序的影响，即，更高的阶数导致精度的降低我们的推测是，这可以部分归因于过拟合（注意，2222块的3阶扩展-总共8个res.单位-产生一个多项式的3 8次幂），但我们推迟了详细的研究，这在未来的版本，我们的工作。然而，在所有没有激活的情况下，准确性接近于具有激活功能的原始ResNet18。6基准的性能，即ResNet18没有激活功能，为0。391和0。CIFAR10和CIFAR100分别为168例。然而，我们强调，原始的ResNet并不是为了在没有激活函数的情况下工作而设计的ResNet18在具有激活功能的CIFAR10和CIFAR100中的性能为0。945和0。769人。的残余块。除了上述的修改，阳离子、超参数（例如，学习率，优化细节）与[37]保持相同。每个网络运行10次，并报告平均值和方差流行的初始得分（IS）[48]和弗雷歇初始距离（FID）[18]用于定量评估。这两个分数都从预先训练的分类器（Inception网络[56]）中提取特征定量结果总结于表2中。除了SNGAN和我们的两个多项式变体之外，我们还添加了相应论文中报告的[14，15，7，19，36]的分数。请注意，单个多项式的性能已经超过了基线，而双多项式进一步提高了性能，并实现了比原始SNGAN的实质性改进。积木1111块2222精度精度CIFAR10上的图像生成模型IS（硫）FID（火焰离子化）SNGAN8. 06年10月。1019号。06年10月。50NCP（Sec. 第3.1节）8. 30块09十七岁65块76CSGAN-[14]7 .第一次会议。90块09-WGAN-GP-[15]7 .第一次会议。86块08-CQFG-[36]8. 10十八岁60EBM [7]六、78三十八岁。27331Krks图9：由CRAMPoly合成的样品（在FFHQ上训练）。FFHQ上的StyleGAN：StyleGAN [26]是图像生成中最先进的架构。发电机由两部分组成，即：（a）由8个FC层组成的映射网络，以及（b）基于ProGAN [25]并逐步学习合成高质量图像的合成网络。采样噪声由映射网络进行变换，然后将所得矢量用于合成网络。正如在介绍中所讨论的，由于 AdaIN 的存在，StyleGAN已经是以太网家族的一个实例。具体来说，第k个AdaIN层是hk这相当于我们的NCP模型，将ST设置为卷积算子。在这个实验中，我们说明了如何简单的修改，使用我们的家庭的多项式的产品，进一步提高表示能力。我们在映射网络中进行最小的特别地，我们将映射网络转换为多项式（特别是NCP），这使得生成器成为两个多项式的乘积。使用Flickr-Faces-HQ数据集（FFHQ）数据集[26]，其中包括70， 000张高分辨率人脸图像。所有图像的大小调整为256× 256。两种方法的最佳FID分数（在256 × 256分辨率下）为6。我们的是82个，我们的是7个。15对于原始的StyleGAN，分别。也就是说，我们的方法将结果提高了5%。我们的方法的合成样品在图中可视化。9 .第九条。5.2. 分类我们进行了两个分类实验：a）音频分类，b）图像分类。音频分类：这个实验的目标是双重的：a）在与自然图像不同的分布上评估ResNet，b）验证高阶块是否使模型更具表现力。核心假设是我们可以增加模型的表现力，或者等价地，我们可以使用更少的高阶残差块来实现与基线相似的性能ResNet的性能在Speech Commands数据集上进行评估[63]。该数据集包括60， 000个音频文件;每个音频包含一个持续时间为一秒的单词有35个不同的单词（类），每个单词有1，500' 4，100个记录。每个音频文件都被转换为分辨率为32* 32的梅尔频谱图。基线是ResNet 34架构;我们使用二阶残差块来构建多聚-ResNet以匹配基线的性能。将定量结果添加到表3中。这两个模型具有相同的准确性，但Cuppoly-ResNet包含的参数减少了38%。这个结果验证了我们的假设，即我们的模型更具表达力，并且使用更少的参数，它可以实现相同的性能。表3：使用ResNet进行语音分类。相比之下，两种方法的准确性相似，但Polygoly-ResNet的参数少了38%符号使用ResNet进行模型区块数#par精度ResNet34r3， 4，6， 3s21岁30的情况。951美元。002聚乙烯-ResNetr3， 3，3， 2s十三岁20的情况。951美元。002图像分类：我们在ImageNet上进行了大规模的分类实验[47]。我们选择float16而不是float32来实现3。5倍速加速，减少50%的GPU内存消耗。为了稳定训练，每个残差块的二阶用双曲正切单元归一化。新加坡元，动量为0。9，重量衰减10“4，使用1024的小批量。初始学习率设置为0。在30、 60和80个历元时下降了10倍。模型从头开始训练90个epoch，根据[13]在前五个epoch期间使用学习率的线性预热。对于由于GPU内存限制而导致的其他批量大小，我们线性缩放学习率（例如，0的情况。1用于批量256）。整个训练过程中的Top-1错误如图所示。10，而验证结果添加在表4中。为了进行公平的比较，我们报告了在原始ResNet和Resoly-ResNet7中的训练结果。ResNet始终如一地提高了性能，而计算复杂性和模型大小的增加非常小。值得注意的是，聚乙烯ResNet50实现了单一作物前5名的验证误差为6。358%，超过ResNet50（6.838%）0.48个百分点。5.3. 3D Mesh表示学习下面，我们评估图形相关任务中的高阶相关性。我们用固定拓扑的3D可变形网格进行实验[45]，即。图G定义为图的顶点上的不同信号xx：VRd. 与之前的实验一样，我们用Cup-Poly公式扩展了一个最先进的算子，即螺旋卷积[1]，并在7原始ResNet [17]的性能不如这里和[20]中报告的性能。7332表4：使用ResNet进行图像分类（ImageNet）使用ResNet进行模型块数前1位误差（%）前5名误差（%）速度模型大小ResNet50r3， 4，6， 3s23.5706.8388.5K50.26 MB聚乙烯-ResNet 50r3， 4，6， 3s22.8756.3587.5K68.81 MB706050403020100 10 20 30 40 50 60 70 80 90时代图10：ResNet 50和Resoly-ResNet 50上的Top-1错误请注意，在训练过程中，聚乙烯-ResNet的性能始终更好;这种改进也反映在验证性能上误差（mm）（mm）速度（ms）（ms）GAT [59]0.73211.04FeastNet [60]0.6236.64[第38话]0.5837.59SpiralGNN [1]0.6354.27Poly（简单）0.5304.98Poly（simple -linear）0.5294.79Poly（full）0.4765.30全线性（Full -Linear）0.4745.14表5：用于网格自动编码的双多边形与一阶图可学习运算符。注意，即使不使用激活函数，所提出的方法也显著改进了现有技术。自动编码3D形状的任务。我们使用[1]中现有的体系结构和超参数，从而表明可以将CPLY Poly用作现有模型的即插即用操作符，将上述模型转换为螺旋网格。我们的实现使用多项式的乘积，其中每个多项式都是（4）的特定实例also show the results of our complete model (ProdPoly full),where Arns is a different spiral convolution.在表5中，我们将自动编码器的重建误差和我们的方法的推理时间与基线螺旋卷积进行了比较，以及与[1]中报道的其他（计算量更大）的最佳结果进行了比较。- 参见表5中的推理时间）产生的图可学习运算符。有趣的是，即使在整个网络中丢弃激活函数，我们也能超越所有错误引入的模型因此，表达性增加，而不必增加架构的深度或宽度，正如ML从业者通常所做的那样，并且在推理时间方面有很小的牺牲。6. 讨论在这项工作中，我们引入了一类新的DCNN，称为DCNN-Nets，它使用多项式神经网络执行函数逼近。我们的网络可以有效地实现通过一种特殊的跳跃连接，导致高阶多项式，自然表示张量因子。所提出的配方扩展了标准的组合范式覆盖线性操作与激活功能。我们通过一系列没有激活函数的实验来激励我们的方法，这些实验展示了多项式的表达能力，并证明了神经网络在判别和生成任务中都是有效的在图像生成、图像和音频分类以及网格表示学习方面对最先进的体系结构进行简单修改在未来，我们的目标是探索不同的分解和由此产生的架构之间的联系，并从理论上分析其表达能力。7. 确认我们感谢英伟达的硬件捐赠xn不rnsxn'1不rnsxn′ 1不rnsxn′ 1，x“x n `β，和亚马逊网络服务的云信用。工作GC，SM和GB的部分资金来自帝国其中S是以矩阵形式表示的螺旋卷积算子form. 8我们使用这个模型（简单的）来展示如何在架构中不添加新块的情况下增加表现力该模型也可以重新解释为可学习的多项式激活函数，如[27]所示。我们8通过在二阶项上应用逐顶点的实例归一化来确保优化的稳定性。ResNet50-FP16-val-top1ResNet50-FP16-train-top1聚乙烯-ResNet 50-FP 16-val-top1聚乙烯-ResNet 50-FP 16-train-top1前1位误差（%）SS`S7333大学DTA。JD的工作部分由美国总统的博士奖学金资助。SZ的工作部分由EPSRC Fellowship DEFORM：Large Scale Shape Analysis of Deformable Models ofHumans（EP/S 010203/1）和Google Faculty Award资助在[3]中可以找到一个早期7334引用[1] GiorgosBouritsas ， SergiyBokhnyak ， StylianosPloumpis，Michael Bronstein，and Stefanos Zafeiriou.神经3D可变形模型：用于3d形状表示学习和生成的螺旋卷积网络。在国际计算机视觉会议（ICCV），2019年。七、八[2] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。在国际会议上学习表示（ICLR），2019年。2[3] Grigorios Chrysos ， Stylianos Moschoglou ， YannisPanagakis，and Stefanos Zafeiriou.Polygan：高阶多项式生成器。arXiv预印本arXiv：1908.06571，2019。8[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei.Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别会议（CVPR），第248-255页，2009年。2[5] MishaDenil ， BabakShakibi ， LaurentDinh ，Marc'Aurelio Ranzato，and Nando De Freitas.深度学习中的参数预测。神经信息处理系统进展，第2148-2156页，2013年3[6] 丁彩文，廖思宇，王延智，李哲，刘宁，卓有为，王超，钱学海，白宇，耿元，等。Circnn：使用块循环权重矩阵加速和压缩深度神经网络。在第50届IEEE/ACM国际微架构研讨会论文集，第395-408页3[7] Yilun Du和Igor Mordatch。基于能量的模型中的隐式生成和一般化。在神经信息处理系统（NeurIPS）的进展，2019年。6[8] 乔纳森·弗兰克尔和迈克尔·卡宾。彩票假说：寻找稀疏的、可训练的神经网络。国际学习表征会议（ICLR），2019年。3[9] 福岛邦彦Neocognitron：一种自组织神经网络模型，用于不受位置变化Biological cybernetics，36（4）：1932[10] Athinodoros S Georghiades ， Peter N Belhumeur ， andDavid J Kriegman.从少数到多数：可变光照和姿态下人脸识别的光照锥模型。IEEE Transactions on PatternAnalysis and Machine Intelligence（T-PAMI），（6）：643-660，2001. 5[11] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。国际人工智能和统计会议（AISTATS），第249-256页，2010年。2[12] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展（NeurIPS），2014年。5[13] Priya Goyal，Piotr Dollár，Ross Girshick，Pieter Noord-huis ， Lukasz Wesolowski ， Aapo Kyrola ， AndrewTulloch，Yangqing Jia，and Kaiming He.准确的，大的minibatch sgd ： 1 小时内训练 imagenetarXiv ：1706.02677，2017。7[14] Guillermo L Grinblat ， Lucas C Uzal ， and Pablo MGranitto.类分裂生成对抗网络。arXiv预印本arXiv：1709.07359，2017。6[15] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。神经信息处理系统（NeurIPS）的进展，第5767-5777页，2017年二、六[16] Song Han，Jeff Pool，John Tran，and William Dally.学习权值和连接以实现高效的神经网络。神经信息处理系统进展（NeurIPS），第1135-1143页，2015年。3[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在计算机视觉和模式识别会议（CVPR）中，第770-778页一、二、五、七[18] Martin Heusel，Hubert Ramsauer，Thomas Unterthiner，Bern-hard Nessler，and Sepp Hochreiter.两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统（NeurIPS）的进展，第6626-6637页，2017年。6[19] Yedid Hoshen，Ke Li，and Jitendra Malik.具有生成潜在最近邻的非对抗性图像合成在计算机视觉和模式识别（CVPR）会议上，第5811-5819页6[20] 杰虎，李申，孙刚。压缩-激励网络。在计算机视觉和模式识别会议（CVPR）上，第7132-7141页，2018年。7[21] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在计算机视觉和模式识别会议（CVPR），第4700-4708页，2017年。二、六[22] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在 International Conference onComputer Vision（ICCV），第1501- 1510页，2017中。2[23] Sergey Ioffe和Christian Szegedy。批量归一化：通过减少内部协方差偏移来加速深度网络训练。国际机器学习会议（ICML），2015。2[24] 阿列克谢·格里戈列维奇·伊瓦赫年科。复杂系统的多项式理论transactions on Systems，Man，and Cybernetics，（4）：364-378，1971. 2[25] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。2018

下载后可阅读完整内容，剩余1页未读，立即下载