没有合适的资源?快使用搜索试试~ 我知道了~
3900使用递归参数生成器的紧凑和优化深度学习王佳云*1陈玉北3,4StellaX.Yu1,2Brian Cheung5Yann LeCun3,41UC Berkeley / ICSI2密歇根大学3Meta AI4纽约大学5MIT CSAIL BCS{peterwg,stellayu}@berkeley.edu {yubeic,yann}@fb.comcheungb@mit.edu摘要深度学习通过训练越来越大的模型取得了巨大的成功,然后将其压缩以供实际部署。我们提出了一种完全不同的紧凑和优化深度学习方法:我们将模型的自由度(DoF)和实际参数数量解耦,在一个阶段的端到端学习中,为任意架构的大型模型优化具有预定义随机线性约束的小DoF具 体 来 说 , 我 们 创 建 了 一 个 循 环 参 数 生 成 器(RPG),它重复地从环中获取参数,并将它们解压缩到一个具有随机排列和符号翻转的大型模型中,以促进参数去相关。我们表明,梯度下降可以自动找到最好的模型下的约束,实际上更快的收敛。我们广泛的实验揭示了模型自由度和精度之间的对数线性关系。我们的RPG演示了显着的自由度减少,并可以进一步修剪和量化额外的运行时性能增益。例如,在ImageNet上排名前一的准确性方面,RPG仅用18%的DoF(相当于一个卷积层)实现了ResNet 18性能的96%,而ResNet 34性能的52%仅用0.25%的我们的工作显示了约束神经优化在紧凑和优化深度学习中的巨大潜力1. 介绍深度神经网络作为通用的优化工具,已经取得了巨大的成功,训练数据越来越多,神经网络越来越深,越来越大:最近开发的NLP模型GPT-3 [8]拥有惊人的1750亿个参数!虽然模型性能通常与参数的数量成比例[29],但参数数量超过训练数据,模型明显过度参数化。已经提出了许多方法来去除训练的大型模型中的冗余:神经网络修剪*表示同等贡献。大型模型小模型解包压缩小型大型模型模型a)现有方法b)我们的方法(RPG)c)线性约束神经优化RPG缩小2倍↑Res 34-香草← Res 18-香草背包TASFPGMSFPPruneNetLCCLd)对数线性DoF-精度关系e)RPG优于其他方法图1:我们提出了一种新的方法,通过解耦模型DoF和模型参数来实现紧凑和优化的深度学习。a)现有方法首先在大的模型空间中找到最优,然后压缩它以用于实际部署。b)我们建议从自由参数的小(DoF)模型开始,使用递归参数生成器(RPG)将它们解压缩到具有预定义随机线性投影的大模型c)梯度下降在这些线性约束下找到小DoF的最佳模型,其收敛速度比训练大型解包模型本身更快(图5b)。如果DoF太小,则最优大模型可能会落在约束子空间之外。然而,在一个足够大的自由度,RPG摆脱冗余,往往找到一个模型,几乎没有损失的准确性。d)RPG揭示了模型DoF和精度之间的对数线性关系。e)RPG实现了相同的ImageNet精度,只有ResNet-vanilla DoF的一半RPG也优于其他最先进的压缩方法。[39,23,42],有效网络设计空间[30,33,51],pa-参数正则化[59,60,52,47],模型量化[31,50,43],神经结构搜索[70,10,58],重复-租金模型[4,5,62],多任务特征编码[49,24]等。基于剪枝的模型压缩可以追溯到80年代后期[45,39],最近又有了新的发展[23,7]。它们从预先训练的模型中删除不重要的参数,并可以实现显著的模型压缩。我们的工作是对模型优化和参数减少的主流方法的偏离:而不是压缩一个大的模型,我们直接优化一个精益模型与一个小的自由参数集(自由的3901×××实际重量W#2-536-145-13重塑-6生成矩阵G1-111-111-11-1-11-1-1有效重量W123456参数在网络中的使用方式和位置,甚至在单个标量值的级别上。令人惊讶的是,深度网络的反向传播训练能够应对相同的参数可以被分配给网络中的多个随机位置,而不会显著影响模型性能。我们大量的实验表明,一个大型神经网络不需要过度参数化就能获得有竞争力的性能。特别是,ResNet 18可以用DoF实现,相当于ResNet 18中的一个卷积层-vanilla(4. 72 DoF减少),仍然达到67。2%ImageNet top-1准确率。W!=$W图2:上图:网络用线性约束W*=GW进行优化,其中每个网络层的约束参数W* 由生成矩阵G从自由参数W生成,自由参数W是直接优化的。Wisunpack edlar ge模型参数,而W的大小是模型DoF。下:本文讨论了一种特定的参数生成格式,即循环参数生成器(RPG)。RPG在一个环中共享一组固定的参数,并使用它们来生成神经网络不同部分的参数,而在标准神经网络中,所有参数都是相互独立的,因此模型随着深度的增加而变大。模型的第三部分开始与模型环中的第一部分重叠,并且所有后续层可能多次共享生成参数。参数等于模型的自由度或DoF),其可以被线性地解压缩为大模型。训练大型模型可以被看作是用一组预定义的线性约束求解神经我们观察到的约束神经优化的一个好处是它导致更快的收敛速度(5.6节)。具体来说,我们基于固定数量的DoF在神经网络中定义不同的层,我们称之为循环参数生成器(RPG)。也就是说,我们区分模型参数和自由度的数量传统上,模型参数被彼此独立地处理;参数的总数等于DoF。然而,通过挖掘如何将核心自由参数集分配给神经网络模型,我们可以开发出一个包含许多参数的大型模型,这些参数受小自由参数集的线性约束。独立神经网络存在过剩容量该方法在降低模型自由度方面也非常灵活。在某种意义上,建议的RPG方法可以被看作是一个自动的模型自由度降低技术,探索最佳的精度参数的权衡。当我们减少模型的自由度,RPG表现出优雅的性能下降,其压缩结果往往与SOTA修剪方法,除了灵活性。即使我们减少Res18主干DoF到36K,大约减少了300,ResNet 18仍然可以达到40%的ImageNet top-1准确率。此外,我们表明RPG可以量化和修剪,以提高FLOPS和运行时间与相对温和的精度下降。概括起来,我们有三个贡献:1.我们为自动模型尺寸缩减提供了新的视角:我们定义了一个神经网络,具有一定的自由度和随机线性约束。我们发现,梯度下降可以自动解决约束优化的最佳模型,具有更快的收敛速度。这种受约束的神经元优化的观点很可能有利于许多其他应用。2.我们提出了递归参数发生器(RPG),它描述了网络结构和网络自由度。我们可以灵活地选择任何所需的自由度来构建给定特定神经网络架构的网络。3.第三章。RPG通过将网络结构与参数分离,成为理解模型DoF与网络性能之间关系的工具我们观察到一个经验的对数线性自由度精度的关系。2. 相关工作许多作品研究模型自由度的减少或压缩。我们讨论每一个问题及其与我们工作的关系。模型修剪、神经结构搜索和量化。 模型修剪试图删除训练模型中不重要的参数。最近,有人另一个相关的努力是网络量化[31,50,43],它试图减少用于每个参数的比特,可以频繁地将模型大小减少4,而精度下降最小。最近,[14]提出了一个分析模型缩放策略的框架,该框架考虑了网络属性,如FLOP和激活。参数正则化和先验。正则化已被广泛用于减少模型冗余[38,47],al-型号戒指W层1层2层3-5-46-22-536-145-13-5-46-2-63902……∈≥∈层共享RPG块共享RPG子网共享RPG豹子图像 conv1 conv2 convL图像姿态图像分类人体姿态估计多任务回归图3:我们展示了RPG在各种应用程序上的有效性,包括图像分类(左),人体姿势估计(中)和多任务回归(右)。RPG在多个规模上共享:网络可以具有在块或子网内共享的全局RPG或多个局部RPG。[52][59]RPG可以被看作是一个参数正则化,因为权重共享对权重提出了许多等式约束,并将权重正则化到低维空间。HyperNeat [55]和CPPN [54]使用网络来确定两个神经元之间的权重作为其位置的函数[35,34]通过为网络参数提供分层先验引入了类似递归网络和深度均衡模型。在心理学和神经科学中,重现和反馈已被证明是调节剂或竞争性抑制剂,有助于特征分组[21]、图形-背景分离[32]和物体识别[65]。循环激励机制在前馈模型中也取得了成功有两种主要类型的使用递归,基于权重是否在递归模块之间共享。ResNet [26]是重用相似结构而不共享权重的代表,它引入了并行剩余连接,并通过深入网络来实现更好的性能。类似地,一些作品[56,53]也建议迭代地将迄今为止的表示注入到前馈网络中。堆叠推理方法[48,64,63]也是相关的,同时它们孤立地考虑每个输出有些人发现在循环模块之间共享他们展示了在时间建模[63,66,36],空间注意力[44,9],姿态估计[62,11],等等[41,69]。这种方法通常在建模长期依赖关系时表现出色在这项工作中,我们在反馈网络的不同层之间循环共享权重,以减少网络冗余。考虑到堆叠权重共享模块提高了性能,研究人员考虑通过使顺序模块收敛到固定点来运行甚至无限深度的此类模块[40,4]。将这种平衡模型应用于现有网络,它们在许多自然语言处理[4]和计算机视觉任务[5,61]中表现出更好的性能深度均衡模型的一个问题是,向前和向后传播通常比显式前馈网络需要一些工作[19]通过使后向传播雅可比矩阵自由来提高效率另一个问题是,对于某些任务来说,无限深度和固定点可能不是必要的,甚至不是太严格而不是实现无限的深度,我们的模型共享参数达到一定水平。我们在第5节中与均衡模型进行了实证比较。有效网络空间与矩阵分解。卷积是一种高效的结构化矩阵向量乘法。可以说,构建有效线性系统的最基本思想是矩阵分解。考虑到深度卷积神经网络参数中的冗余,可以利用矩阵分解概念,例如,因式分解卷积,并设计更有效的网络类[30,33,57,51]。3. 递归参数生成器线性约束神经优化。 考虑用输入数据X、参数W和损失函数L优化网络.优化可以写为:minL ( X;W) s. t. W=GW ( 或 等 价 地 RW=0 )(1)其中W=GW是指一组线性约束,其中GN× M是一个满秩高矩阵(即,NM)。这里我们将W*作为约束参数,将W作为自由参数。该约束是变量的改变,即,通过生成矩阵G从自由参数W线性地生成约束参数W。我们可以把W看作是一个压缩模型,将其解压缩成W_n来构造大型神经网络。W通过梯度下降直接优化,并且可以自由更新。在这种线性约束神经优化中,模型DoF等价于M,M是W的维数。一个等价式的约束W=GW是RW=0,其中R(N-M)× N可以从G的SVD导出。循环参数生成器。 假设我们构建了一个包含L个不同卷积层的深度卷积神经网络。 设K1,K2,. . . ,Kl是对应的L个卷积核1。我们不是为不同的卷积层使用单独的参数集,而是创建单个参数集WM并使用它来生成相应的参数W=1内核包含一层的所有过滤器。在本文中,我们将每个卷积核视为一个向量。当内核被用来做卷积时,它将被重塑为相应的形状。………深度图像正常∈3903Σ||≤||K 我L--·--∈--× ××ΣΣ联系我们--1L{Gi}阿夫里fjDWHǁǁKT,KT,. . . ,对于每个卷积层,KT<$T ∈ <$N:虽然{Gi}在训练期间不更新,但大小12升Ki= Gi·W,i ∈ {1,. . . ,L}(2)其中Gi是固定的预定义生成矩阵,其用于从W生成Ki。我们称之为G=T.G.T,. . . ,G-T-T和W是回归参数generator。一般来说,Gi的值可能相当大,这可能产生额外的计算和存储开销。在实践中,我们可以使用置换和逐元素随机符号反射来构造正交群的子集,因为置换和符号反射可以以高度简单性和可忽略的成本来实现。一个简单的演示2(RPG)。在这项工作中,我们总是假设,W不大于模型的总参数,即,我的 孩 子 这 意 味着W的元素通常会在神经网络的多个层中使用此外,W的梯度是来自每个卷积层的梯度的线性叠加。在神经网络训练期间,假设 根据链式法则,很明显W的梯度是:如图2U所示。由于伪随机数使用,仅需要两个随机种子来存储随机置换和逐元素随机符号反射。均匀参数采样和模型环。虽然在生成每层的参数时容易从W中随机采样元素,但这可能不是最佳的,因为W中的一些元素可能没有被均匀地使用,并且W中的一些元素由于采样波动而根本没有被使用。可以使用简单的均衡技术来保证W的所有元素被均匀地采样。假设的大小l=(三)W是M,并且参数W的大小为的模型,Wii=1∂Ki生成的是N,N > M。正如我们前面提到的,有L层,它们需要{k1k,. . . ,K L} parame-生成矩阵和破坏性权重共享。生成矩阵有多种方法分别。当N > M时,我们可以将W作为一个环:我们首先从W中导出第一个参数,然后再导出一个参数。Gi一般情况下,G可以是任意满秩的高矩阵,本文重点研究了破坏性生成矩阵,它是随机正交矩阵,可以防止不同核在权值共享时共享表示。当模型自由度固定时,随机生成矩阵凭经验提高了模型容量。 我们提供了一个直观的理论解释如何随机正交-nal矩阵防止表示共享如下。为了便于讨论,让我们考虑一种特殊情况,其中所有卷积核具有相同的大小,并且在相应的卷积层中以相同的形状使用。W的维数等于一个卷积层核的维数换句话说,Gi是方阵,并且所有卷积核的空间大小具有相同的大小d in d outw h,并且输入通道维度d in总是等于输出通道维度d out。 在这种情况下,内核中的滤波器f可以被视为dwh中的向量。进一步地,我们选择Gi为块对角矩阵Gi= diag Ai,Ai,. . . ,Ai,其中AiO(dwh)是从W生成核Ki的每个滤波器的正交矩阵,并且O()表示正交群 与[ 13 ]中的命题2类似,我们在附录C中表明:如果Ai,Aj是从O(d wh)Haar分布中采样的,fi,fj是相应的滤波器(分别由Gi,Gj从相同的分别从Ki,Kj中E[fi,fj]=0且Efi,fj2 =1时。自dwh预生成的随机置换p1和预生成的随机逐元素符号翻转b1以构造层1核K1。然后,我们从W_n中提取下一个K_2参数,接着是预先生成的随机排列p_2和a预生成的随机逐元素符号翻转B2。 我们继续这个过程,并在没有足够的条目时从W返回。我们把W和这个词放在一起-由于自由参数在循环中被循环使用,因此将该策略作为模型环。我们在图2U和图2L中说明了一般参数生成器和RPG。为了数据保存效率,我们只需要保存几个随机种子数,而不是保存预先生成的排列p1,. . . ,pL和符号翻转操作b1,. . . ,bL. 批次归一化。 模型性能对批量归一化参数相对敏感。为了获得更好的性能,每个卷积层都需要有自己的批量归一化参数。然而,一般来说,批量规格化的大小相对可以忽略不计。然而,当W非常小时(例如,36K参数),则应考虑批量归一化的大小。4. 多尺度我们讨论了参数生成器的一般思想,其中只有一个RPG是全球共享的所有层之前。我们还可以创建几个本地RPG,每个RPG都在一定的规模上共享,比如区块和子网。这样的RPG对于某些应用可能是有用的通常很大,则来自Ki的相应滤波器是比如递归建模。王空军、接近正交且通常不相似。 这表明,即使Ki是从W的相同条目生成的,它们也被阻止共享表示。2排列和元素随机符号反射概念上是正交群的子群,但我们永远不会为了明显的效率目的而以矩阵形式使用它们。3904RPG在块级。 许多现有的网络架构多次重复使用相同的网络块设计,以获得更高的学习能力,如相关工作中所讨论的。我们可以创建多个RPG,而不是为整个网络使用一个全局RPG,这些RPG在某些网络块中共享我们以Res18 [26]为例,Res18有四个构建块。每个块有2个残差卷积模块。我们为Res18创建了四个本地RPG。每个RPG都在相应的构建块中共享,其中RPG的大小是灵活的,可以由用户决定。图3M)示出了RPG如何在块级共享。子网络级别的RPG。重用子网络或循环网络在许多任务中取得了成功,因为它们迭代地改进和改进了预测。在复用子网时,常常共享参数。这可能不是最佳的,因为不同阶段的子网络迭代地改进预测,并且共享参数可能限制不同阶段的学习能力。但是,完全不共享参数会大大增加模型大小。可以为每个子网创建RPG。这样的设计导致一个更小的自由度,而不同的子网络的参数是正交的经历破坏性的changes.We展示了应用的子网络级RPG的姿态估计和多任务回归(第5.3和5.4节)。图3R)示出了子网络级RPG。5. 实验结果我们评估RPG的性能与图3所示的各种任务。对于分类,RPG用于整个网络,除了最后一个全连接层。我们讨论性能方面的骨干自由度,骨干的参数的实际数量例如,Res18具有11M骨干参数和512K fc参数,并且RPG仅被应用于减少11M骨干DoF。5.1. CIFAR分类实施详情。CIFAR实验使用128批量大小,5e-4权重衰减,初始学习率为0.1,在epoch 60,120和160的gamma为0.1我们使用具有自适应缩放的Kaiming初始化[25]共享参数使用特定的方差进行初始化,并缩放每个层的参数,使其与Kaiming初始化相匹配。与深度均衡模型相比。作为隐式模型的代表,深度平衡模型[4]通过额外的优化找到固定点来降低模型DoF我们比较了CIFAR10和CIFAR100上的图像分类精度,以及CIFAR100上的推理时间(表1)。在MDEQ [5]的设置之后,图像被依次送入初始卷积块、多尺度深度平衡块(称为MS块)和分类头。MDEQ [5]通过找到MS块的不动点来实现无限MS块我们重复使用滤波器相似性a)大型机型冗余度高b)排列和符号反射图4:a)已知大型模型具有高冗余度和低自由度(DoF)。它们可以被修剪成小模型,例如。在VGG16中观察到不同层的高过滤相似性。b)Res 34-RPG的排列和符号反射的消融研究同时使用这两种矩阵可提供最高性能。MS阻塞两到四次而不增加模型DoF。RPG在CIFAR 10上获得3%-6%的增益,在CIFAR 100上获得3%-RPG推理时间比MDEQ小15 - 25倍,因为MDEQ在训练期间需要额外的时间来解决平衡。具有可变模型自由度的全局RPG。我们创建一个全局RPG来生成ResNet卷积层的参数,并将其称为ResNet-RPG。我们报告了ResNet-RPG 18和ResNet-RPG 34在不同模型DoF下的CIFAR 100 top-1精度(附录B中的表3与ResNet相比,ResNet-RPG在相同模型DoF下实现了更高的准确性。具体来说,我们仅用8K骨干DoF就实现了36%的CIFAR100精度。此外,ResNet 34-RPG实现了比ResNet 18- RPG更高的准确性,表明增加的时间复杂度提供了性能增益。我们观察到对数线性DoF精度关系,详细信息见以下小节的幂律块级的本地RPG。在以前的Res-RPG表1:RPG与多尺度深层平衡模型(MDEQ)[5]在CIFAR10和CIFAR100分类上的比较。在相同数量的模型自由度下,RPG实现了3%-6%的性能增益,推理时间减少了15 - 25倍。推理时间以每个图像的毫秒为单位进行测量。准确度(%)MDEQ我们的RPG(相同自由度)2x MS blk3x MS blk4x MS blkCIFAR1085.188.590.190.9CIFAR10059.862.864.765.7推断时间(ms)3.150.120.180.22表2:ResNet-RPG在CIFAR 100上优于现有的DoF减少方法[23,12,67]。此外,全局RPG优于块式局部RPG。DOFAcc.(%)R18-香草11M77.5R34-RPG.blk11M78.5R34-RPG11M78.9R34-随机权重份额11M74.9[23]第二十三话11M72.2R34-Hash[12]11M75.6[67]第六十七话11M78.4R34-香草21M79.13905表3:ResNet-RPG在相同模型DoF下始终实现更高的性能。我们报告了ResNet-vanilla和ResNet-RPG的ImageNet和CIFAR100 top-1精度和骨干DoFAcc. (%)R18-RPGR18-香草R34-RPGR34-香草ImageNet40.067.270.570.541.669.173.473.4CIFAR10060.275.677.677.661.776.578.979.1型号DoF45K2M5.5M11M45K2M11M21M实验中,我们使用一个全局RPG的整个网络。我们还评估了RPG在块级本地共享时的性能,如5.4节所述。在表2中,与相同DoF的普通ResNet18相比,我们的块级RPG网络提供了1.0%的增益。相比之下,我们的ResNet-RPG(参数均匀分布)提供了1.4%的增益。使用一个全局RPG,其中每个层的参数均匀分布,比多个RPG高0.4%。与基线比较 表2比较了RPG和其他模型DoF减少方法,包括随机权重共享,深度压缩的权重共享[23],哈希技巧[12]和Lego过滤器的权重共享[67]。我们还在附录D中与HyperNetworks [22在相同的模型自由度,RPG优于所有其他基线,证明了所提出的方法的有效性。变 形 金 刚 RPG 我 们 将 RPG 应 用 于 视 觉 变 换 器 ViT[17],并在图5a中报告结果。具体而言,具有6个Transformer层、4个注意力头和64个嵌入维度的ViT-tiny模型被用作基线。在ViT-RPG中也发现了对数线性关系。5.2. ImageNet分类实施详情。所有ImageNet实验都使用批量大小为256,权重衰减为3e-5,初始学习率为0.3,伽马值为0.1,每75个epoch,总共225个epoch。我们的时间表与标准时间表不同,因为重量分配机制需要不同的训练动力。我们尝试了一些设置,发现这是最好的RPG。RPG与不同的模型自由度。我们使用具有不同DoF的RPG 用 于 ResNet , 并 报 告 了 最 高 精 度 ( 表 3 和 图1e))。在相同的模型DoF下,ResNet-RPG始终比ResNets实现更高具体而言,ResNet-RPG 34实现了与ResNet 34相同的准确率73.4%,而只有ResNet 34骨干DoF的一半。ResNet-RPG 18也达到了与ResNet 18相同的精度此外,RPG网络具有更高的泛化能力(5.6节)。幂律经验上,当RPG DoF低于50% ResNet-vanilla DoF时,精度和模型DoF遵循幂律(图1d)。ImageNet上ResNet 18-RPG和ResNet 34-RPG的幂律指数标度律可用于在不训练网络的情况下估计网络精度。类似地,[29]还确定了变压器准确度和模型DoF的幂律拟议的RPG为ImageNet等大规模数据集提供了参数化不足的模型,这可能会带来更多新的研究和发现。5.3. 姿态估计实施详情。我们叠加子网络的姿态估计与全球共享的RPG。沙漏网络[46]被用作骨干。首先将输入图像馈送到初始卷积块以获得特征图,然后将其馈送到多个堆叠的姿态估计子网络。每个子网络输出姿态估计预测,其由姿态估计损失惩罚。卷积姿态机(CPM)[62]共享所有子网络权重。我们创建一个全局RPG来为每个子网络生成参数。我们的模型大小设置为与CPM相同。我们还比较了较大的模型,其中子网络的参数不共享。我们在MPII人体姿势数据集[2]上进行评估,这是一个用于关节式人体姿势估计的基准,它由超过28K个训练样本组成,超过40K个人具有注释的身体关节。我们使用沙漏网络[46]作为主干,并遵循其所有设置。结果和分析。 我们在表4中报告了不同方法在50%阈值(PCK@0.5)下的正确关键点百分比。CPM [62]共享不同子网的所有参数。我们使用一个RPG,它以与CPM相同的大小在作为参考,我们还比较了无共享模型作为性能上限。增加递归的数量会使所有方法的性能都得到提高。在相同的模型尺寸下,RPG与CPM相比实现了更高的PCK@0.5。通过不共享子网络参数来增加参数的数量也会导致一些性能增益。5.4. 多任务回归实施详情。我们在构建块级别将多任务回归的子网络与多个RPG叠加。我们专注于预测深度和法线贴图表4:RPG在相同DoF下优于CPM [62]。 我们报告了与CPM相比MPII人体姿势的姿势估计性能(模型DoF)[62]。度量为PCKh@0.5。Acc.(DoF)CPM[62]RPG没有共享的W。1x子网84.7(3.3个月)2x子网86.1(3.3个月)86.5(3.3个月)87.1(6.7个月)4x子网86.5(3.3个月)87.3(3.3个月)88.0(13.3个月)表5:RPG在不共享批处理规格化参数以及具有置换和符号反射的情况下实现了最佳精度。我们报告了S3DIS上的多任务回归错误,子网架构如[49]所示。越低越好。所有方法共享相同的DoF。子网重用一次。RMSE(%)深度正常香草模型25.541.0共享BN的RPG24.740.3重复使用新BN24.039.4重复使用新BN烫发。反思22.839.13906Vit-vanilla↑MPEFM %PFa)ViT-RPG的对数线性DoF-准确度关系b)RPG比vanilla模型收敛得更快c)RPG对于不同批量大小图5:a)应用于视觉Transformer ViT的RPG存在对数线性DoF精度关系[17]。b)RPG比香草模型收敛得更快。我们绘制了CIFAR 10准确度(通过移动平均平滑)与Res 18-vanilla和Res 18-RPG的训练迭代。RPG收敛于1k次迭代,而香草模型收敛于1.7k次迭代。c)RPG始终收敛得更快。随着批量的增加,减少变得很大,例如,在批大小为1024时,RPG收敛所需的迭代次数减少了41%将最终精度表示为Pf,当当前平滑精度(通过移动平均)在Pf的5%范围内时定义收敛迭代。表6:RPG实现了更高的修剪后CIFAR10准确度,并且与SOTA细粒度修剪方法IMP相似的修剪后准确度下降[18]。细粒度修剪用于减少自由度。acc之前在↓DoF后进行加速度下降模型自由度R18-IMP[18]92.390.51.8274kR18-RPG95.093.02.0274k表7:RPG在相同的FLOP下实现了与SOTA粗粒度approachKnapsack [1]相似的修剪后ImageNet性能。粗粒度剪枝用于减少RPG FLOPs。修剪前自由度修剪,根据FLOPsR18-背包11.2M69.35%1.09e9R18-RPG5.6M69.10%1.09e9from a given给定image图片.我们堆叠了多个SharpNet[49],这是一个用于单目深度和法线估计的网络。具体来说,我们在SharpNet构建块级别创建多个RPG。也就是说,不同子网的对应块的参数是从相同的RPG生成的。我们在3D室内场景数据集[3]上评估了单目深度和法线预测性能,该数据集包含超过70K的图像,对应的深度和法线覆盖超过6,000m2 的室内区域。我们遵循SharpNet [49]的所有设置,这是一种SOTA单眼深度和正常估计方法。结果和分析。我们在表5中报告了深度和正常估计的均方误差。与没有递归的一次性推理相比,我们的RPG网络在深度和正常估计方面分别获得了3%和2%的增益。直接共享权重,但使用新的批量归一化层,深度和法线的性能分别降低了1.2%和0.3%共享权重和归一化层进一步降低了深度和法线的0.7%和0.9%的性能。5.5. 修剪RPG细粒度修剪。细粒度剪枝方法旨在通过稀疏化权重矩阵来减少模型的自由度这些方法通常不会降低推理速度,尽管自定义算法[20]可以提高速度。在相同的模型DoF下,RPG优于最先进的细粒度修剪方法IMP [18]。RPG和IMP的准确度下降相似,均约为2%(表6)。值得注意的是,尽管IMP在常规设置中没有运行时间的改进,但它可以通过定制的稀疏GPU内核节省推理时间[20]。粗粒修剪。虽然RPG不是为了减少FLOPs而设计的,但它可以与粗粒度的prun- ing相结合来减少FLOPs。我们用最低的l1范数修剪RPG过滤器表7示出了修剪的RPG在相同的FLOP下实现了与现有技术的粗粒度修剪方法Knapsack[1]5.6. 分析收敛速度 与vanilla模型相比,RPG在一个具有较少DoF的参数子空间W∈=GW中进行优化.这样的约束优化是否会导致更快收敛速度?我们分析了Res 18- vanilla和Res 18-RPG(DoF为5.5M,vanilla模型的50%)在不同批量下的收敛速度所有模型均采用多步SGD优化器进行训练,均达到>94。CIFAR10最终准确度为1%为了简单起见,我们分析了学习率没有衰减的第一个优化阶段。图5b绘制了准确度(用移动平均值平滑)与使用batchsize 1024训练迭代RPG比普通模型具有更快的收敛速度我们还分析了平滑精度,并在图5c中确定了收敛迭代与批量大小的关系。RPG始终比vanilla模型收敛得更快,并且随着批量的增加,减少变得很大。与模型压缩方法的比较。我们在ImageNet上报告了不同模型DoF和现有压缩方法的ResNet-RPG性能(图1e)。RPG网络优于SOTA方法,如[1,16,28,27,15,37]。例如,在同一型号的自由度,我们的RPG迭代收敛(x1000)3907↓↓表8:RPG提高了模型的泛化能力。(a)ResNet-RPG在ImageNet分类上具有较低的训练-验证准确率差距度量标准是训练准确度减去验证准确度。越低越好。(b)使用RPG进行姿态估计也降低了训练和验证性能GAP。 该指标是训练PCK@0.5减去验证PCK@0.5。越低越好。(c)带有RPG的ResNet在分布外数据集ObjectNet上具有更高的性能[6]。 该模型仅在ImageNet上训练,并直接在ObjectNet上评估。(a) IN串-值间隙(b) 位姿列-值间隙(c) ObjectNet上的面向对象设计累积差距(%)香草RPGR18-0.7-2.7R341.1-2.3累积差距(%)没有共享w分享wRPG2x子网1.151.130.644x子网1.981.701.15R18R34-RPGR34DOF11M11M21MAcc.(%)13.416.516.0网络比背包修剪有0.6%的增益[1],这是ImageNet修剪的SOTA方法。存储. RPG模型只需要保存有效参数W,其具有模型DoF的大小,因为生成矩阵G被保存为随机种子而没有成本。模型文件的存储空间可以减少,以满足更小的存储限制的推理和更快的模型文件传输。根据经验,在 PyTorch 平 台 上 , ResNet 18-vanilla 模 型 文 件 为 45MB。没有精度损失,ResNet 18-RPG模型保存文件大小为23MB(49%)。在准确度损失2个百分点的情况下,RPG保存文件大小为9.5MB(79%)。可推广性。我们报告了ImageNet上的训练和验证集(表8(a))和MPII姿态估计(表8(b))。CPM [62]用作基线姿态估计方法。RPG模型在训练集和验证集之间始终实现较低的差距,这表明RPG模型受到过拟合的影响较小。我们还报告了RPG模型的分发性能。ObjectNet [6]包含50k个图像,其中113个类与ImageNet重叠。据报道,现有的模型在ObjectNet上有很大的性能下降。我们直接在ObjectNet上评估ImageNet训练模型的性能,无需任何微调(表8(c))。在相同的骨干自由度下,R18-RPG与R18-vanilla相比实现了3%在相同的网络架构设计下,R34-RPG与R34相比实现了0.5%的增益这表明RPG网络即使在较小的模型DoF下也具有更高的量化。 网络量化可以以最小的精度下降来减小模型大小。研究参数被缩减后的RPG模型是否可以量化是一个有趣的问题经过8位量化后,ResNet 18- RPG(5.6MDoF)的精度仅比Ima-geNet下降0.1个百分点,表明RPG可以量化以进一步减小模型大小。详情见附录A。安全由随机种子产生的置换矩阵可以被认为是解码模型的安全密钥此外,仅需要以可忽略的成本保存和传输用于生成生成矩阵G的随机种子5.7. 消融研究我们在CIFAR100上进行消融研究,以分析置换和反射矩阵的功能(图4b)。我们评估了具有2 M骨干DoF的ResNet-RPG 34。置换和符号反射一起实现了76.5%的准确度,而置换仅达到75.8%,符号反射仅达到71.1%。既不使用置换矩阵也不使用反射矩阵的训练这表明置换和符号反射矩阵提高RPG性能。6. 讨论神经网络压缩中的常见做法是从具有许多参数或自由度(DoF)的训练的大型模型中修剪权重。 我们的关键见解是,直接和截然不同的方法可能会更快,更好地工作:我们从一个具有小DoF的精益模型开始,它可以线性地解压缩成一个具有许多参数的大模型。然后,我们可以让梯度下降自动找到线性约束下的最佳模型。我们的工作是偏离主流的方法模型优化和参数减少。我们展示了模型自由度和实际参数大小是如何解耦的:我们可以定义一个任意自由度的任意网络。我们将我们的范围限制为随机线性约束的优化,称为破坏性的权重共享。然而,通常,还可能存在非线性RPG和有效的非线性生成函数以从共享模型环W创建卷积核。此外,尽管RPG专注于减少模型DoF,但它可以被量化和修剪以进一步减少FLOP和运行时间。总之,我们开发了一种有效的方法来构建一个任意复杂的神经网络与任何数量的自由度通过一个经常性的参数发生器。在广泛的应用中,包括分类,姿态估计和多任务回归,我们表明RPG在相同的模型DoF下始终达到更高的性能。此外,我们还证明了这样的网络收敛速度更快,不太可能过拟合,并且对分布外的数据具有更高的性能。RPG可以灵活地添加到任何现有的网络中,用户可以自行决定任何数量的DoF它为经常性模型、均衡模型和模型压缩提供了新的视角。它还可以作为一种工具,通过分解网络架构来理解网络属性和网络DoF之间的关系引用[1] Yonathan Aflalo , Asaf Noy , Ming Lin , ItamarFriedman,and Lihi Zelnik.背包修剪与内部蒸馏。arXiv预印本arXiv:2002.08258,2020。3908[2] Mykhaylo Andriluka,Leonid Pishchulin,Peter Gehler,and Bernt Schiele. 2D人体姿态估计:新的基准和最先进的 分 析 。 在 Proceedings of the IEEE Conference oncomputer Vision and Pattern Recognition,第3686[3] Iro Armeni , Sasha Sax , Amir R Zamir , and SilvioSavarese.用于室内场景理解的联合2d-3d语义数据。arXiv预印本arXiv:1702.01105,2017。[4] 白少杰,J.齐科.科尔特,弗拉德伦.科尔顿。深度等离子模型。神经信息处理系统的进展,32:690[5] Shaojie Bai,Vladlen Koltun,and J Zico Kolter.多尺度深度均衡模型。神经信息处理系统的进展,33,2020。[6] Andrei Barbu 、 David Mayo 、 Julian Alverio 、 WilliamLuo 、 ChristopherWang 、 DanGutfreund 、 JoshTenenbaum和Boris Katz。Objectnet:一个大规模的偏差控制数据集,用于推动对象识别模型的极限。神经信息处理系统的进展,32:9453[7] Davis Blalock , Jose Javier Gonzalez Ortiz , JonathanFrankle和John Guttag。神
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功