没有合适的资源?快使用搜索试试~ 我知道了~
6529基于模型选择的深度弹性网络多任务学习Chanho Ahn电子邮件欧洲经委会和ASRI首尔国立大学mychahn@snu.ac.kr金恩宇工学部牛津大学ekim@robots.ox.ac.uk松怀吴省欧洲经委会和美洲空间研究所首尔大学songhwai@snu.ac.kr摘要在这项工作中,我们考虑了多任务学习的实例动态网络模型选择问题。为此,我们提出了一种有效的方法来利用一个紧凑,但准确的模型在骨干架构的所有任务的每个实例。所提出的方法包括一个估计器和一个选择器。估计器是基于骨干架构和层次结构。它可以产生多个不同的网络模型的不同配置的层次结构。选择器从给定输入实例的候选模型池中动态选择模型选择器是一个由几层组成的相对较小的网络,当给定任务的输入实例时,它估计候选模型上的概率分布。估计器和选择器都在统一的学习框架中结合基于采样的学习策略进行联合训练,无需额外的计算步骤。我们展示了几个图像分类任务的建议方法,与现有的方法进行模型选择或学习多个任务。实验结果表明,我们的方法不仅提供了出色的性能竞争对手,但也有多功能性,以执行多个任务的实例明智的模型选择。1. 介绍多任务学习(MTL)[5]同时学习多个任务,以提高任务的泛化性能。 大多数最近的MTL方法[22由于人们认为使用DNN的MTL方法需要大量的参数和计算资源,*表示平等贡献图1.概述了拟议的框架,其中包括一个估计器和选择器。估计器的结构与骨干网络相同,包括不同配置和规模的多个内部网络(模型)选择器输出给定任务实例的候选模型的概率分布。从估计器中选择具有最高概率的模型来执行分配的任务。源,具有少量参数和低计算复杂度的紧凑网络对于许多实际应用(诸如移动和嵌入式平台)是高度期望的为了解决这个问题,已经有关于设计紧凑DNN的研究,例如网络修剪[9,34],知识蒸馏[12,28],网络架构搜索[39]和自适应模型压缩[3,20,35]。然而,这些先前的工作已经被应用到一个单一的任务问题和多个任务已经很少考虑在一个单一的框架。MTL问题有一个潜在的问题,即所需的参数数量可能会根据任务的数量而增加然而,多任务的单个共享模型在关联时可能导致性能下降。6530不太合适[29]。为了避免这个问题,最近的方法[15,16]提出了一种网络架构,它可以包含几个子模型,将它们分配给多个任务。尽管他们尝试了MTL,但他们需要人工努力从网络体系结构中构建子模型,并将模型分配给每个任务。对于多个任务的更灵活和自适应的模型分配,期望实现一种模型选择方法,其根据给定实例自动地确定适当的子模型。在这项工作中,我们的目标是开发一种实例感知的动态模型选择方法,用于单个网络学习多个任务。为此,我们提出了一个有效的学习框架,利用一个紧凑的,但高性能的模型在骨干网络,根据每个实例的所有任务。所提出的框架由两个不同角色的主要组件组成,称为估计器和选择器(见图1)。估计器基于骨干(基线)网络,如VGG [30]或ResNet [10]。它是分层结构的基础上modulized块,其中包括几个卷积层的骨干网络。它可以产生多个网络模型的不同配置和规模的层次结构。与估计器相比,选择器是一个相对较小的网络,并输出给定实例的候选网络模型的概率分布。选择器从候选模型池中选择概率最高的模型来执行任务。请注意,该方法是学习在所有任务中选择与每个实例对应的模型这使得在所有任务中共享公共模型或功能成为可能[7,15]。我们设计目标函数以不仅实现竞争性能,而且实现资源效率(即,紧凑性)。受[31]的启发,我们引入了一种基于采样的学习策略来近似选择器的梯度,这是很难精确推导出来的。估计器和选择器都在统一的学习框架中训练以优化相关联的目标函数,这不需要额外的努力(例如,在现有的工程中进行微调)[35,39]。我们进行了大量的实验来证明所提出的方法的竞争力,包括模型选择和模型压缩问题时,一个或多个任务。在实验中,我们使用了一组广泛的基准数据集:CIFAR-10和CIFAR-100 [18],Tiny-ImageNet 1,STL-10 [6]和ImageNet [19]。在不同学习场景下的实验结果表明,该方法优于现有的最先进的方法。值得注意的是,我们的方法在一个框架中同时解决了模型选择和多任务学习问题,而没有引入广告资源,使其非常高效。1https://tiny-imagenet.herokuapp.com/2. 相关工作型号选择。为了减轻专家设计紧凑网络的负担,提出了架构搜索为了缩小通常需要耗时探索的令人生畏的搜索空间,基于开发良好的骨干结构的方法通过压缩给定的骨干网络来找到有效的模型架构此外,最近实现这种策略的研究[20,33,35]为每个实例确定了不同的网络模型,以减少额外的冗余。然而,与骨干网络相比,它们通常实现较低的性能[20,33]或需要额外的微调过程[35]。与此相反,我们提出了一个有效的学习框架,由于动态模型搜索,它可以实现比骨干网络更好的性能,也不包括额外的微调阶段。此外,我们的方法可以应用于在一个框架中同时学习多个任务,而上述方法仅限于单个任务。多任务学习。 多任务学习(MTL)的目的是开发一个共同学习多个任务的学习框架[5]。请注意,我们专注于MTL方法,该方法学习单个DNN架构以提高内存效率。最近有几项研究[11,23,24]提出了一种网络结构,其中参数可以在任务之间有效共享。其他方法[15,16,22]提出了一种包括多个内部网络(或模型)的单一架构,以便它们可以在不增加参数的情况下将不同的模型分配给多个任务然而,它们对每个任务使用固定的模型结构,并且需要专家努力将模型分配给每个任务。相比之下,我们提出了一个动态的模型选择MTL确定一个合适的模型自动为一个给定的实例。即使最近的MTL方法[29]尝试通过路由机制进行模型选择,它也没有考虑与参数或FLOP数量相关的优化网络结构。3. 方法3.1. 总体框架所提出的方法的目标是开发一个动态的模型选择框架时,输入实例从目标任务之一。拟议框架由两个不同部分组成:一个“估计器”,它是与目标骨干网大小相同的网络,并且包含不同网络配置的多个不同模型;以及一个“选择器G“,它揭示了在估计器中具有最高概率的模型。估计器和选择器都是基于6531图2.基于骨干网络(残差网络[10])的拟议框架的图形表示。该框架包括一个估计器和一个选择器。该估计器的结构与骨干网相同,包含n个不相交的块。块被定义为连续卷积层的集合(在保持通道数量的同时,块与残差块相同)。为了简化每个块的分层结构,每个块中的卷积层被分成多个组。如图右侧所示,层次结构的较低级别包含较少的卷积组,而较高级别包含更多的组。该估计器可以通过在每个块中选择从零到所有组的卷积组来产生不同的网络模型选择器输出每个块中的卷积组上的概率分布,并且根据该分布确定网络模型。总损失函数由预测损失项(例如,交叉熵)和稀疏正则化项。基于CNN的架构,选择器被设计成比估计器小得多(见第4节)。所提出的方法探索了一个模型搜索空间,并确定了一个有效的网络模型,以执行给定的任务,在一个实例的方式。拟议方法的总体框架如图1所示。请注意,估计器产生了大量的候选模型,这使得选择器难以探索广泛的搜索空间。作为一个简化的艰巨任务的战略,我们使用块符号来缩小搜索空间的候选模型。块被定义为多个卷积(或完全连接)层的不相交集合该块被构造为分层结构,使得较低层次给出了模型结构Z。所确定的网络模型的推断表示如下:f(·;θest,z,t):Xt→Yt,(1)其中θest是估计量中的一组参数,Xt和Yt分别表示任务t输入域为了解决不同的输入或输出维度,我们假设任务ID是预先给定的。选择器g的目标是通过推断估计器中候选模型的概率分布来为如前所述,我们设计选择器以在模块化块(及其层次结构级别)上产生一组概率分布,如下所示:仅引用块中隐藏层的较少通道,较高级别引用更多通道,保持输入和g(·;θsel):Xt→[0,1]h×n,(2)块的输出尺寸。此外,当块等效于残差模块时,可以在没有任何通道的情况下构建最低层次结构[10]。这类似于[35]中的跳层方法。块中的分层结构如图2所示。我们通过在每个块中选择层次结构的级别来确定模型结构,如下所示:z=(l1,l2,· · ·,l n),其中θsel是选择器的一组参数,h是每个块中的层次结构的级别数。我们将选择器的输出定义为C ∈[0,1]h×n,并且C的每一列估计在相应块中选择电平的可能性(即,iCij=1,然后,实例x的候选模型的概率可以计算为:Yn其中,n是估计器f中的块的数量,表示第i个块中的所选级别也就是说,一个网-Pg(x;θsel)(z;x)=i=1Ci(li;x),(三)工作模型被收集在估计时,网络S.T. z =(l1,···,l n),6532其中Ci(li;x)∈[0,1]表示C的第i列的第li个元素,这意味着第li个元素模型结构,遵循[31]中的策略:在第i个块中为输入x选择电平。因此我们可以表示多达hn个不同的候选模型,并且选择其中一个来产生其对应的模型,θselJs(θsel)ΣΣ=E(x,y,t)∈DΣR( z; x,y,t)<$θsel P( z; x)执行任务。总体框架如图2所示=E(x,y,t)∈DΣ∀zΣθselP(z;x)R(z;x,y,t)P(z;x)P( z; x) (七)3.2. 优化所提出的方法进行了优化,以执行多-=E(x,y,t)∈D,z<$g(x;θsel)ΣΣ[R(z;x,y,t)]θsel logP(z;x)]Σ在单个框架内以实例方式进行任务学习。我们将数据集D的集合表示为D=E(x,y,t)∈Dz∈ZP(z;x)R(z;x,y,t)|Z|θsel logP(z;x),{(x,y,t)|(x,y)∈Dt,<$t},其中x和y是图像和标签,并且Dt是任务t的数据集。 所提出的模型选择问题是最小化所有任务的实例的损失函数,同时施加模型大小紧凑:J( θest,θsel)=其中P(z;x),Pg(x;θsel)(z;x).最后一行将期望值近似为从同一概率中收集的一些随机选择的样本z的平均值。当x为已知时的能力分布。Z是所收集的z的集合,|Z|表示Z中的样本数。请注意,采样方案遵循常见E(x,y,t)∈D,z<$g(x;θsel)[L(f(x;θest(四),z,t),y)+S( z)],强化学习文献中的策略[25]。怎么-然而,当选择的模型很差时,这通常会导致更差的网络结构[36]。作为补救措施,我们采用其中L(·,·)表示分类损失函数(例如,交叉熵)。S(z)是模型结构z上的稀疏正则化项,其被定义为:贪婪方法[32]允许在最早的训练时间进行更动态的探索此外,我们要注意的是,所选型号的性能可能是敏感的选择器的初始分布。为此我们. 1ΣnS(z)=ρ·Σ2d( l) ,s.t. z=( l,···,l),(5)在初始阶段使用网络模型的以下预定分布:ni i1ni=1.(1−τ)/hn+τ,如果zi=z,其中,di(li)给出由li确定的参数的数量与p(zi)=(1-τ)/hn,否则,(8)第i个块,并且ρ是加权因子。(5)中的平方函数可以帮助实现高稀疏率,并且我们已经根据经验发现它比其他正则化函数(例如l1-范数)表现得更好所提出的方法涉及两组参数θest和θsel2的交替优化步骤。虽然θest可以通过随机梯度下降优化器(SGD[4])进行更新,但如果在(4)中没有精确的期望值,则很难计算θsel相对于(4)的梯度。为此,我们引入了一种基于采样的方法来近似梯度。为了描述近似,我们引入R,它等价于θsel的损失函数,如下所示:Js(θsel)=E(x,y,t)∈D,z<$g(x;θsel)[R(z;x,y,t)](六)S.T. R( z; x,y,t),L(f( x; θest,z,t),y)+S( z).然后,我们可以近似的梯度值与采样[2]我们把这种交替的步骤称为一个阶段。6533其中τ是加权因子,p(zi)是选择模型结构zi的概率,并且zi表示包括估计器中的所有参数的完整模型结构。在这项工作中,我们将τ设为0。75在所有实验中。我们增加了在初始阶段更频繁地选择完整模型结构的概率,并且与其他初始分布(例如均匀分布)相比,所提出的方法,命名为深度弹性网络(DEN)的整体训练过程,总结在Al-出租m 1,其中S表示阶段的数量。我们在训练过程的几个阶段中优化了两组参数θest和θsel。在每个阶段,上述参数集之一被训练,直到它达到局部最优。4. 实验4.1. 实验装置数据集。我们在表1中列出的几个分类数据集上评估了所提出的框架。对于CIFAR-106534算法1深度弹性网络(DEN)一曰: 输入:D,ρ2:初始化:θest,θsel←Xavier初始化器[8],S3:p←在(8)4:对于s = 1到S,5:重复6:从p中7:更新θ estw.r.t. (四)8:直到收敛9:衰减θest10:重复11:使用梯度更新θsel(7)12:直到收敛13:衰减θsel14:p←g(·;θsel)15:结束CIFAR-100,Tiny-ImageNet和STL-10数据集,我们使用原始图像大小。 Mini-ImageNet是ImageNet [19]的一个子集,它有50个类标签,每个类有800个训练实例。我们将Mini-ImageNet数据集中的每张图像的大小调整为256×256,并将其中心裁剪为224×224。作为预处理技术,我们对所有数据集执行随机水平翻转并在CIFAR、Tiny-ImageNet和STL-10数据集的裁剪之前添加了四个像素的零填充。CIFAR-100数据集包括每个图像的两种类型的类别:20个粗级和100个精级。我们使用这两种方法进行层次分类;除此之外,我们将优良类用于其余的实验。场景我们评估了三种多任务学习(MTL)场景和一种网络压缩场景对于MTL,我们使用多个数据集组织了两个场景(M1,M2),使用具有分层类别的单个数据集组织了一个场景(M3)。对于第一种情况,M1,我们使用了三个不同图像的数据集尺 度 : CIFAR-100 ( 32×32 ) , Tiny-ImageNet(64×64)和STL-10(96×96)。对于M2,从ImageNet数据集中的1000个类标签中随机选择50个标签,所选择的标签被分成10个不相交的子集(任务),每个子集具有5个标签。M3是MTL(我们称之为分层分类)的一种特殊情况,其目的是为每个图像同时预测两个不同的标签(粗分类和细分类)CIFAR-100用于情景M3。我们还分别将网络压缩场景(C1)作为CIFAR-10和CIFAR-100的单任务学习问题进行了研究。实作详细数据。我们使用ResNet-1[10]和WRN-1-r[38]作为MTL场景中的骨干网络,其中l是层数,r是比例因子表1.数据集摘要。大小表示每个数据集的输入图像的宽度和高度。# train和# test分别表示训练集和测试集中的图像数量数据集大小#火车#测试#类CIFAR-10 [18]3250,00010,00010CIFAR-100 [18]3250,00010,000100Tiny-ImageNet64100,00010,000200STL-10 [18]965,0008,00010[29]第二十九话22440,0002,50050卷积通道的数量。我们借用了为ImageNet [19]设计的残差网络架构来处理大规模图像,以及为CIFAR [18]设计的WRN架构来处理小规模图像。我们还使用了[27,29]中介绍的SimpleConvNet作为Mini-ImageNet的骨干网络。SimpleConvNet由四个3x3卷积层(32个过滤器)和三个全连接层(隐藏单元为128维)组成。在网络压缩场景中,我们使用ResNeXt-l(c×sd)[37]和VGG-1[30]的方法应用于不同的骨干,其中c和sd是个体的数目卷积块和每个层中卷积块的单位深度骨干网络被用作在每个场景中执行单独任务的基线方法。为了构建估计器的结构,我们将块定义为残差模块[10]和VGG网络的两个连续卷积层。然后,我们将每个块沿着通道维度分成多个卷积组(在我们的实验中为2或3组),以构建分层结构。请注意,层次结构的最低级别没有ResNet,WRN和ResNeXt的任何卷积组选择器的网络比估计器的网络小.选择器的大小在每个实验中都有说明。对于所提出的方法,称为深度弹性网络(DEN),估计器由SGD优化器训练,Nesterov动量为0.9,大规模数据集(ImageNet)的批量大小为256,其他数据集为128。ADAM优化器[17]用于学习具有相同批量大小的选择器。估计器和选择器的初始学习率分别为0.1和0.00001,当学习率收敛时,我们以10的因子衰减学习率(估计器和选择器在所有实验中都发生了三到四次衰减)。所有实验都在TensorFlow环境中进行[1]。比较方法。我们比较了四种考虑多任务学习资源效率的最先进算法:PackNet*,NestedNet [15],Routing[29]和Cross-stitch [24]。PackNet* 是PackNet [22]的变体,它考虑了沿通道维度的分组压缩,以实现像我们这样的实际加速。PackNet* 和NestedNet都可以划分卷积信道,6535表2.基于两个不同骨干网络的不同输入规模的三个任务(数据集)的准确性(%):(a)ResNet-42 [10]和(b) WRN-32-4 [38].我们还提供了所有比较方法的FLOP和参数数量。[·]表示所需的数量网络模型来执行相同的任务。Baseline需要三个模型来执行不同的任务。ρ控制(5)中提出的方法的稀疏性。粗体和下划线字母分别表示最佳和第二佳准确性。数据集基线[10]NestedNet [15][22]第二十二话密度(ρ=1)DEN(ρ= 0.第一章CIFAR-100(32×32)75.0574.5372.2274.3075.11Tiny-ImageNet(64×64)57.2256.7156.4956.7460.21STL-10(96×96)76.2582.5480.7883.9087.58平均69.5171.2669.8371.6574.30FLOPs2.91G1.70G1.70G1.35G1.61G号参数89.4M [3]29.8M [1]29.8M [1]29.8M [1]29.8M [1](a) ResNet-42数据集基线[38]NestedNet [15][22]第二十二话密度(ρ=1)DEN(ρ= 0.第一章CIFAR-100(32×32)75.0174.0973.5675.4375.65Tiny-ImageNet(64×64)58.8957.8757.1758.1758.25STL-10(96×96)79.8883.7884.1587.5487.56平均71.2671.9171.6373.7173.82FLOPs2.13G1.24G1.24G1.13G1.14G号参数22.0M [3]7.35M [1]7.35M [1]7.35M [1]7.35M [1](b) WRN-32-4nels到多个不相交的组中,并构造层次结构,使得层次结构的第i我划分了组(层次结构的级别数量对应于任务的数量)。当更新层次结构的第i层时,NestedNet考虑第i层中的参数,但PackNet* 考虑第(i-1)层中的参数以外的参数。对于布线和十字绣,我们在相同的情 况 下 使 用 我 们 还 与 BlockDrop [35] , N2N [3] ,Pruning(我们称之为)[14]和NestedNet [15]进行了比较,以解决网络压缩问题。请注意,我们在所有实验中报告了所提出的估计方法的FLOP和4.2. 多任务学习对于第一个场景M1(三个任务),我们分别使用ResNet-42 和 WRN-32-4 作 为 骨 干 网 络 。 Tiny-ImageNet、CIFAR-100和STL-10这三个任务被分配到Pack-Net * 和NestedNet的层次结构中,从最低到最高的级别,即replace.js。选择器的参数和FLOP的数量对于ResNet-42骨干网分别为1.49M和0.15G,对于WRN-32-4骨干网分别为0.37M和0.11G。基线方法需要三个独立的网络,每个网络都独立训练。表2显示了比较方法的准确度、FLOP和参数数量的结果。这里,FLOP表示多个任务的平均FLOP,并且从执行任务所需的所有网络测量参数的数量总体而言,我们的方法优于其他方法,包括基线方法。此外,我们通过改变(5)中稀疏正则化器的加权因子ρ来提供结果。如表所示,ρ越低,性能越好,选择的模型越当ρ较高时。对于场景M2,SimpleConvNet被用作骨干网络。由于该场景包含的任务数量比前一个场景多,因此无法应用PackNet* 和NestedNet(按人类设计划分模型)。我们将网络中大部分FLOP的卷积部分划分为两个级别,使得最低级别的层次结构包含最高级别的一半参数选择器的参数数量为0.4M,而估计器的参数数量在这种情况下,选择器并不比估计器小得多,因为估计器是以足够小的尺寸构造的。然而,对于其他场景,选择器的参数数量与估计器的参数数量相比可以忽略不计。表3中报告了比较方法的准确度、FLOP和参数数量。 比较方法的结果在[29]的工作中报告。请注意,由于参数和FLOP的数量在本文中没有精确报告,因此我们提供了下限。所提出的方法显示出显着的性能改善相比,其他方法,即使我们使用较低的平均FLOPs比别人的评价。4.3. 分层分类对于场景M3,我们处理了CIFAR-100,其具有用于每个图像的粗略和精细类别类别,如第4.1节所述。WRN-32-4被用作此场景的骨干网络。我们与PackNet*和NestedNet进行了比较,并将它们的最低和最高层次分别分配给执行粗分类和细分类我们方法中的选择器结构与场景M1中的选择器结构相同。表4总结了比较的方法的结果6536表3.Mini-ImageNet数据集的准确度(%),FLOP以及所有比较方法的参数数量基线将不同的最后一个完全连接层用于不同的任务,并在任务之间共享其他层粗体和下划线字母分别表示最佳和第二佳准确性。方法精度FLOPs号params基线51.0349.6M0.8M十字绣[24]56.03>49.6百万>0.8M[第29话]58.9749.6M>0.8M密度(ρ= 1)63.2033.3M0.8MDEN(ρ= 0. 第一章65.2339.1M0.8MODS用于粗和细分类问题。我们的方法显示出最好的准确性,同时给最低的FLOPs相比,竞争对手,除了基线的方法,这两个问题。此外,所提出的方法具有更高的性能比基线方法的平均。由于每个图像都有两个不同的任务(粗类和细类),选择器利用相同的模型结构,因此给出几乎相同的FLOP。4.4. 网络压缩网络压缩问题的目标是从一个给定的骨干网络设计一个紧凑的网络模型,同时使性能下降最小化。我们将所提出的方法应用于网络压缩问题,这是一个单任务学习问题。我们在两个骨干网络上与BlockDrop [35]和NestedNet [15]进行了比较:[37]第30章:你是谁?由于BlockDrop是为残差网络开发的,因此我们使用ResNeXt进行了比较。CIFAR-10和CIFAR-100 [18]数据集用于情景再现。为了验证该方法的有效性我们构建了我们的方法,分别对ResNeXt-29(8× 64d)和ResNeXt-29(4× 64 d)具有四个层次和三个层次。VGG和ResNeXt的选择器参数数分 别 为3.9M和3.6M。骨网络,分别。表5总结了主干网络的比较方法的分类准确性。总的来说,所提出的方法显示出最高的准确性com-personal到其他压缩方法。我们的结果与不同的ρ表明,ρ可以提供一个折衷的网络规模和其相应的精度。我们还用随机选择器测试了所提出的方法(估计器),该随机选择器在估计器中的候选模型中随机显示模型结构从结果中可以看出,随机选择器的准确性低于表4. CIFAR-100的分层分类结果。基线(WRN-32-4 [38])需要两个模型来执行不同的任务。粗体和下划线字母分别表示最佳和第二佳准确性。方法精度FLOPs号params基线[38]83.532.91G14.7MNestedNet [15]84.551.46G7.35M[22]第二十二话84.531.46G7.35M密度(ρ=1)84.871.37G7.35M(a) 粗分类(20)方法精度FLOPs号params基线[38]76.322.91G14.7MNestedNet [15]75.842.91G7.35M[22]第二十二话75.652.91G7.35M密度(ρ=1)75.931.37G7.35M(b) 精细分类(100)在CIFAR-10数据集上,使用5.8M参数的Fification准确度和使用6.4M参数的Pruning方法具有94.15%的准确度该方法在CIFAR- 100数据集上的性能也优于N2 N和Pruning方法4.5. 定量结果所提出的用于多任务学习的实例式模型选择可以将相似图像的相似特征相关联,这意味着可以为相似图像选择相似的模型结构。为了验证这一点,我们在每个任务中选择一个输入图像(查询),并从选择器中导出其输出在这里,我们使用l2-距离测量分布之间的相似性。然后从每个任务中收集四个样本,其对应的输出具有与查询图像相似的模型分布 为此,我们基于WRN-32-4骨干架构为三个任务(数据集)构建了所提出的方法:CIFAR-100、Tiny-ImageNet和STL-10。我们对于所有数据集,将输入图像的大小设置为32×32,以查看相同图像比例下的相似性。 图3显示了从每个查询图像的所有任务中选择的一些图像。实验结果表明,基于实例的模型选择方法是一种很有前途的多任务学习策略,因为它可以揭示任务间的共同知识我们提供了模型分布的情况下,从测试集在柔软的材料,随着烧蚀研究使用不同数量的水平。5. 结论在这项工作中,我们提出了一个有效的学习ap-proach执行资源感知的动态模型选择,提出的选择器,这表明选择器具有潜在的探索所需的模型。此外,我们与最先进的网络压缩方法N2N [3]和Pruning [14]进行了比较,其结果来自他们的论文[3,14]。我们的方法有94.47%的类-多任务学习。该方法包含两个不同角色的主要组成部分,一个产生多个候选模型的估计器,和一个利用候选模型中的紧凑和竞争模型来执行指定任务的选择器我们6537表5. CIFAR数据集上的网络压缩结果。对于FLOP,我们指的是每个模型和数据集的基线网络的压缩比。粗体和下划线字母分别表示最佳和第二佳准确性。“rand sel” denotes that NestedNet的结果从最低(L)到最高(H)层次(包括ResNeXt-29(8× 64d)的中间层(M))获得数据集CIFAR-10CIFAR-100骨干方法累积(%)号paramsFLOPs累积(%)号paramsFLOPs基线[30]92.5238.9M1.0×69.6438.9M1.0×VGG-16NestedNet [15],LNestedNet [15],H91.2992.4019.4M38.9M2.0×1.0×68.1069.0119.4M38.9M2.0×1.0×DEN(ρ= 0. 第一章92.3118.5M2.4×68.8718.9M1.7×ResNet-18N2N [3]91.972.12M−69.644.76M−ResNet-3493.543.87M−70.114.25M−ResNet-50[第14话]94.156.44M−74.109.24M−密度(ρ= 1)94.504.25M−77.984.67M−基线[37]94.6122.4M1.0×78.7322.4M1.0×NestedNet [15],L93.565.6M4.0×74.835.6M4.0×NestedNet [15],M93.6411.2M2.0×74.9811.2M2.0×ResNeXt-29(8× 64d)NestedNet [15],HBlockDrop [35]94.1393.5622.4M16.9M1.0×1.2×76.1678.3522.4M15.5M1.0×1.4×DEN+ rand sel90.559.8M2.3×69.679.8M2.3×密度(ρ= 1)91.454.1M5.5倍78.277.3M3.0×DEN(ρ= 0. 第一章94.618.7M2.7×78.6813.5M1.9×基线[37]94.3711.2M1.0×77.9511.2M1.0×NestedNet [15],L93.595.6M2.0×75.705.6M2.0×ResNeXt-29(4× 64d)NestedNet [15],HBlockDrop [35]94.1193.0711.2M6.53M1.0×1.7×76.3677.2311.2M7.47M1.0×1.5倍DEN(rand sel)87.335.6M2.0×65.445.6M2.0×密度(ρ= 1)93.385.4M2.1×76.715.6M2.0×DEN(ρ= 0. 第一章94.475.8M1.9×77.586.3M1.8×ResNeXt-29(2× 64d)基线[37]93.605.6M−76.545.6M−图3.从每个任务(数据集)中采样的图像,其具有与查询图像(第一列)相似的模型分布。查询图像从上到下分别属于CIFAR-100、Tiny-ImageNet和STL-10。还引入了一种基于采样的优化策略来处理潜在可识别模型的离散动作空间所提出的方法是在一个单一的框架中学习,没有引入许多额外的参数和大量的培训工作。所提出的方法已被评估的几个问题,包括多任务学习和网络压缩。实验结果表明,该方法与其他同类方法相比,具有较好的性能.鸣谢:这项研究得到了&&韩国政府(MSIT)资助的信息通信技术规划评估研究所(IITP)的部分支持。2019-0-01190,【SW星实验室】机器人学习:高效,安全,社会可接受的机器学习,不。2019-0-01371,开发具有类人智能的脑启发AI,并通过HMC-SNU AI联盟基金由现代汽车公司的AIR实验室(AI研究实验室)。6538引用[1] Mart´ın Abadi, Paul Barham , Jianmin Chen , ZhifengChen , Andy Davis , Jeffrey Dean , Matthieu Devin ,Sanjay Ghe-mawat,Geoffrey Irving,Michael Isard,etal. Tensorflow:一个大规模机器学习系统。第12届操作系统设计与实现研讨会(OSDI 16),2016年。[2] 卡里姆·艾哈迈德和洛伦佐·托雷萨尼。MaskConnect:梯 度 下 降 的 连 通 性 学 习 。 欧 洲 计 算 机 视 觉 会 议(ECCV)。Springer,2018.[3] Anubhav Ashok,Nicholas Rhinehart,Fares Beainy,andKris M Kitani. N2N学习:通过策略梯度强化学习进行网络到网络压缩。arXiv预印本arXiv:1709.06030,2017年。[4] 我 在 博 图 。 随 机 梯 度 下 降 的 大 规 模 机 器 学 习 在COMPSTAT’2010的Proceedings施普林格,2010年。[5] 瑞 奇 · 卡 鲁 阿 纳 多 任 务 学 习 。Machine learning , 28(1):41[6] Adam Coates,Andrew Ng,and Honglak Lee.无监督特征学习中单层网络的分析在2011年人工智能和统计国际会议论文集[7] Jeff Donahue , Yangqing Jia , Oriol Vinyals , JudyHoffman,Ning Zhang,Eric Tzeng,and Trevor Darrell.DeCAF:用于通用视觉识别的深度卷积激活功能。国际机器学习会议,第647-655页,2014年[8] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。在2010年人工智能和统计国际会议论文集[9] Song Han,Jeff Pool,John Tran,and William Dally.学习权值和连接以实现高效的神经网络。神经信息处理系统进展(NIPS),2015。[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。IEEE计算机视觉与模式识别会议,2016年。[11] 何晓溪,周子木,洛萨·蒂勒。多任务压缩通过逐层神经元共享。在神经信息处理系统(NIPS)的进展,2018年。[12] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 提取神经网络中的知识。arXiv预印本arXiv:1503.02531,2015。[13] Andrew G Howard,Menglong Zhu,Bo Chen,DmitryKalenichenko,Weijun Wang,Tobias Weyand,MarcoAn- dreetto,and Hartwig Adam. MobileNets:用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv:1704.04861,2017。[14] 胡一鸣,孙思扬,李建全,王新港,顾庆义。一种新的用于深度神经网络压缩的通道修剪方法。arXiv预印本arXiv:1805.11394,2018。[15] 金恩宇,安灿昊,吴松惠。NestedNet:在深度神经网络中学习嵌套稀疏结构在IEEE计算机视觉和模式识别会议(CVPR)上,2018年。[16] Eunwoo Kim , Chanho Ahn , Philip HS Torr , andSonghwai Oh.深度虚拟网络用于多任务的内存高效推理。在IEEE计算机视觉和模式识别会议(CVPR),2019年。[17] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[18] 亚历克斯·克里热夫斯基,维诺德·奈尔,和 GeoffreyHin- 吨 CIFAR-10CIFAR-100数据集。网址:https://www.cs.toronto.edu/kriz/cifar.html(2016年3月1日访问),2009年。[19] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统进展(NIPS),2012年。[20] Ji Lin,Yongming Rao,Jiwen Lu,and Jie Zhou.运行时神经修剪。在神经信息处理系统(NIPS)的,2017年。[21] Tsung-YiLin , Priyal Goyal , Ross Girshick , KaimingHe , and PiotrDoll a'r. 密 集 目 标 检 测 的 焦 面 损 失 。IEEETransactionsonPatternAnalysisandMachineIntelligence(TPAMI),2018年。[22] Arun Mallya和Svetlana Lazebnik。PackNet:通过迭代修剪将多个任务添加到单个网络。在2018年IEEE计算机视觉和模式识别会议(CVPR)上[23] 埃利奥特·迈耶森和里斯托·米库莱宁超越共享的喜乐:通过软 层排序进行深 度多任务学 习。arXiv预印本arXiv:1711.00108,2017。[24] Ishan Misra 、 Abhinav Shrivastava 、 Abhinav Gupta 和Mar- tial H
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功