基于深度虚拟网络的多任务内存高效推理

40 浏览量更新于2023-10-19 收藏 845KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2710基于深度虚拟网络的多任务内存高效推理Eunwoo Kim1Chanho Ahn2Philip H.S.Torr1SonghwaiOh21牛津大学2首尔国立大学{eunwoo.kim，philip.songhwai}@ eng.ox.ac.uk{mychahn，songhwai}@ snu.ac.kr摘要深度网络本质上会消耗大量内存。一个自然的问题出现了，我们是否可以在保持性能的同时减少内存需求。特别是，在这项工作中，我们解决了多任务的记忆有效学习为此，我们提出了一种新的网络架构，产生多个不同配置的网络，称为深度虚拟网络（DVNs），用于不同的任务。每个DVN专门用于单个任务，并分层结构。层次结构，它包含多个层次对应于不同数量的参数的水平，使多重推理不同的内存预算。深度虚拟网络的构建块是基于网络参数的不相交深度虚拟网络中的最低层级是单元，并且较高层级包含较低层级给定参数数量的预算，可以选择不同级别的深度虚拟网络一个单元可以由不同的DVN共享，允许在一个网络中有多个DVN。此外，共享单元为目标任务提供从另一个任务学到的额外知识DVN的这种协作配置使得可以以存储器感知的方式处理不同的任务。实验结果表明，该方法在多任务情况下的性能优于值得注意的是，我们比其他人更有效，因为它允许对所有任务进行记忆感知推理。1. 介绍最近，深度学习方法在计算机视觉和机器学习方面取得了显著进展[13，21，30]。尽管在许多应用中取得了成功，但众所周知，许多深度神经网络都具有很高的内存占用[10，17]。这限制了它们的实际应用，例如移动电话、机器人和自主图1. (Top左）k个任务的多任务学习[2]和（右上）具有nh个不同内存预算的单个任务的内存有效学习[19]，分别在单个网络中实现（下图）概述了所提出的方法。所提出的架构包含用于不同任务的不同配置的多个深度网络（深度虚拟每个深度虚拟网络专门用于单个任务，并允许针对不同的内存预算进行多次推理。我们的方法在一个单一的架构中结合了多任务和记忆高效的学习方法，产生k×nh的推理输出，这显着减少了训练工作量和网络存储。深度网络创建轻量级网络[12，14]。不幸的是，开发这样一个紧凑的网络是伴随着在测试时的精度和参数（称为存储器1）的数量之间的权衡[11，16]。这需要努力找到一个合适的网络，在给定的内存芽下提供有竞争力的性能[9]。此外，当需要具有不同内存预算的网络模型时，我们定义并训练新的网络，这会产生额外的训练成本。近年来，人们对不同记忆预算条件下的多重推理进行了研究低容量的车辆。该问题已由研究旨在减少参数的数量1我们称之为内存的参数数量在整个文件。2711训练架构[19，22]，称为记忆高效推理。这个问题可以通过设计网络结构（例如，嵌套[19]和分形[22]结构），这使得多个推理对应于不同的内存预算。它允许在单个网络内灵活的准确性-内存权衡，从而可以避免为不同的内存预算引入多个网络。注意，当在存储器有限的设备（例如，具有实时视觉和非视觉推理任务以同时处理的自主车辆显然，内存高效推理可以是在网络中提供不同预测的有效策略然而，先前的工作已经将该策略单独应用于单个任务学习问题[19，31]，并且使用该策略联合解决多个任务（通常称为多任务学习[2，29]）被认为较少。在一个网络中同时学习多个任务2可以有一个单一的训练阶段，并减少网络的数量[2，26]。这种方法也有可能通过共享代表相关任务的知识来提高概括性能[5，7，39]。尽管它有着令人信服的好处，但迄今为止，在推理有效性这可能是由于难以构建一个单一的网络，允许不同的任务记忆有效的推理。困难在于神经网络的结构限制，即对于每个任务具有在这项工作中，我们的目标是开发一种高效的深度学习方法，在单个网络中为多个任务执行内存高效推理。为此，我们提出了一种新的架构，包含多个网络的不同配置称为深度虚拟网络（DVNs）。每个DVN共享架构的参数，并为其相应的任务执行存储器高效推理虚拟网络类似于计算机系统中的虚拟机[28]，因为多个虚拟机可以共享物理计算机的资源图1概述了拟议的方法。该架构基于骨干网架构，将网络参数划分为多个不相交的集合以及相应的结构单元。具体来说，通过将每一层中的一组特征映射划分为架构中各层的多个子集来收集单元（参见图2）。DVN是分层结构的，其包含对应于不同数量的单元的多个层次级别，并且层次级别的较低级别分配较少的单元，而层次级别的较高级别包含较多的单元。例如，层次结构的最低级别具有单个单元。DVN中的层次结构的每个级别包含所有先前较低级别因此，2多个任务是指多个数据集，除非另有说明。图2. 所提出的方法是基于一个骨干架构（物理网）与k个预先签署的不相交的结构，称为单位的图形说明。举个简单的例子，我们假设所有层的特征映射的数量和维度都是相同的（这里，我们省略了全连接层）。所提出的架构产生k个深度虚拟网络（虚拟网络），为k个任务共享其单元深度虚拟网络具有独特的分层结构，具有不同的单元顺序，并专门用于指定的任务。深度虚拟网络中的层次结构的级别数是nh，这对应于不同内存预算的数量这允许对k个深度虚拟网络进行k×nh(Best以颜色查看）。DVN中的层次结构使得能够根据不同的存储器预算进行多种推断在所提出的架构中，一个单元可以由不同的DVN共享。这允许单个深度网络中的多个DVN用于多个任务。每个深度虚拟网络具有唯一的配置（即，具有不同顺序的单元的层次结构），并且专用于单个任务。唯一配置由第3.2节中讨论的拟议规则确定。所提出的方法可以选择性地提供一个推理输出，把一个给定的任务与所需的内存预算从其DVN该方法在基于单个骨干架构（例如，剩余网络[13]），这显著减少了训练工作量和网络存储。我们将我们的方法应用于使用流行的图像分类数据集的多任务联合学习场景。我们的研究结果表明，对于所有的任务DVN学习成功下不同的内存预算。而且，其结果优于其他方法。我们还测量了推理过程中的实际处理时间，以验证该建议的实用性。此外，我们还展示了我们在顺序学习任务上的方法[24]。2712所提出的方法在深度学习中引入了虚拟网络的新概念，以便在单个架构中执行多个任务，从而提高效率。2. 相关工作多任务学习。多任务学习的目的[2]是通过联合学习来提高多个任务的性能。两种流行的方法是学习具有多个输出分支的单个共享架构[24，25]和根据任务学习多个不同的网络[27，35]。我们特别感兴趣的是使用单个共享网络进行多任务学习，因为它具有记忆效率。最近，已经提出了一些方法，通过利用网络的不必要冗余来在单个网络中执行多个任务[19，26]。PackNet[26]将一组网络参数分成多个不相交的子集，以通过迭代地对参数进行压缩和打包来执行多个任务。NestedNet [19]是以网络中网络风格构建的不同大小的网络的集合。然而，对于固定的预算，每个网络的分配参数的大小将随着任务数量的增加而减少，这可能导致性能下降。此外，它们可以为每个任务产生推理输出。然而，我们的方法可以通过引入深度虚拟3. 方法3.1. 记忆高效学习我们讨论了记忆有效学习的问题，以执行多个推理方面的不同的预算为一个单一的任务。假设给定骨干网络，我们将网络参数划分为k个不相交的子集，即，W=[W1，W2，...，W k]。我们通过分配子集将网络设计为分层结构，以一种方式，即第l层层次结构（l≥2）包含第（l-1）层的子集和一个额外的子集[19]。层次结构的最低层（l=1）表示单个子集，而最高层包含所有子集（即，W）。例如，当k=3时，我们可以将W1分配给层次结构中的最低级别，[W1，W2]分配给中间级别，[W1，W2，W3]分配给最高级别。层次结构由子集的顺序确定，其由用户在学习之前设计。在这项工作中，层次结构的级别的数量，表示为nh，被设置为子集的数量，k。层次结构的每一层定义了一个对应于子集的网络，并产生一个输出。因此，分层结构使得能够针对n个不同数量的子集（存储器预算）进行n个推断给定由图像-标签对和nh个层级组成的数据集D，参数集W可以通过nh个损失函数网络共享不相交的参数子集在我们的archi，架构及其不同的配置使得解决多个任务成为可能（参见图2）。minW乌伦河l=1.Lhl（ W）;DΣ、（1）多任务学习可以扩展到顺序学习-ing [3，24，38]，其中任务是顺序学习的，而不访问旧任务的数据集。遵循[24]中的流行策略，我们将所提出的方法应用于序列学习问题（见第3.3节和第4.5节）。高效学习记忆。记忆高效学习是一种学习策略，根据单个网络中参数数量的不同预算（称为推理）执行多个推理[19，22，37]。它可以在不同的内存预算下进行灵活的推断，这通常被称为随时预测[40]。为了实现随时预测，提出了一种基于自相似性的分形结构[22]。提出了一种基于递归神经网络的反馈系统[37]，以根据记忆或时间预算执行不同的预测嵌套网络[19]由不同规模的多个网络组成，用于解决不同的内存预算。然而，这些方法仅限于执行单个任务。相比之下，我们的方法可以使用深度虚拟网络随时据我们所知，这项工作是第一次从单个深度网络引入不同配置的深度虚拟网络，这使得在不同的内存条件下对多个任务进行灵活的预测成为可能其中h_l（W）是分配给第l层级的W的一组参数。存在对h的约束，使得较高水平集包括较低水平集，即，hp（W）<$h q（W），p≤q，<$p，q∈[1，.，n h]，对于结构-真实共享参数[19]。 L（·）是标准损失函数（例如，交叉熵）的网络与D。此外，我们对W执行正则化（例如，l2衰变）来改善学习。通过求解（1），学习网络并且可以执行对应于nh存储器预算。函数hl（W）可以通过在W上以元素方式[12]或组方式（对于特征图）[23]进行修剪操作来设计。因为我们的方法是针对一个实际的时间-依赖推理，我们遵循的哲学组明智修剪方法[14，33]在这项工作中。注意，问题（1）适用于单个任务（这里是数据集D），很少考虑多个任务（或数据集）。这一问题将在以下小节中解决，引入深度虚拟网络。3.2. 深度虚拟网络积木。我们的网络体系结构是基于一个骨干架构，我们把网络参数，ters到多个不相交的子集。假设有k2713我我我我我J图3. 在网络的第r个卷积层中构造三个不同的分层结构的示例，表示为Mr，其由三个不相交的特征图或单元集合组成（即， Mr=[M r，M r，M r]，数字表示单位索引）。的1 2 3任务的数量和层次的数量是三个。单元的不同顺序构成了层次结构。这里，hl，j（Mr）是为第j个任务选择对应于第l个层级的Mr S（i，j）返回第i个单元Mr被添加到第j个任务的层次结构的级别编号。(Best以颜色查看）。网络中的不相交子集，这些子集是通过将每层中的特征图划分为跨所有层的k个子集来收集的。3形式上，一组网络参数表示为W={Wr}1≤r≤L，其中L是层数，Wr= [Wr，Wr，...，W r]∈ Rwr×hr×cr×cr.第i个子-与它们的任务ID号一起被顺序地收集拟议的规则是：（i）单元i被分配给任务i，并且它成为任务的层级中的最低级别。(ii)单元i与adja耦合，12kI oR r r r记为Wr∈Rw×h×cI（i）×cO（i）. 在这里，wr和hr是卷积核的宽度和高度。第r层的nel。cr和cr是数字没有耦合的美分单位（iii）如果存在两个相邻单元，则耦合具有较低任务ID号的单元。为例如，假设hl，j（W）是选择Io第r层的输入和输出特征图，分别是任务j的第l层级的W的子集。因此，使得k_c_r（j）=c_r和k_k_c_r（j）= c_r。当k=3且W=[W，W，W]时，其中W表示j=1IIj=1o o1 2 3 i所有层上的第i个子集的集合被写为W i=[W1，W2，...，W L]。（二）对于单元i的参数，我们构造以下hi-任务j规则中的结构4h1，j（W）=Wj，若1≤j≤k，我们称W定义的相应网络结构为作为单元i，其产生推理输出。层次结构。所提出的方法产生.h2，j（W）=[W1，W2]，若j= 1，[Wj，Wj−1]，如果11）被公式化为与我们在（7）中的梯度相比，LwF学习了一组参数W，这表明网络没有层次结构，所有任务都是在没有内存有效推理的情况下执行的。4. 实验4.1. 实验装置我们使用视觉图像在几个监督学习问题上测试了我们的方法。所提出的方法被应用于标准的多任务学习（联合学习）[2]，其中我们联合学习多个任务，以及顺序学习[24]，其中我们专注于第k个序列，其中学习网络用于旧任务。我们还将所提出的方法应用于分层分类[34]，这是对粗到细类别类别进行分类的问题。我们的方法是基于四个基准数据集执行的：CIFAR-10和CIFAR-100 [20]、STL-10 [4]和Tiny-ImageNet5，基于两个流行的（骨干）模型WRN-n-s[36]和ResNet-n[13]，其中n和s分别是层的数量和特征映射数量的比例因子我们首先组织了三个场景，用于多个任务的联合学习。我们使用CIFAR-10和CIFAR-100数据集执行了一个由两个任务组成的场景（J1），以及另一个由四个任务组成的场景（J2），其数据集通过划分Tiny-ImageNetk− 1。 n h.波伦河均匀地分成四个子集第三种情况（J3）包括：minWΣj=1Σl=1jhl，j（W）;DkΣ+Ll=1hl，k（W）;Dk，（六）三个数据集，CIFAR-100，Tiny-ImageNet和STL-10，不同的图像尺度（从32×32到96×96）。对于组织学分类（H1），使用CIFAR-100，其中Lj（hl，j（W）;Dk）是当给定新输入Dk时，其相应结构由hl，j（W）确定的网络的输出与来自旧网络的任务j问题（4）（联合学习k个任务）的唯一例外是，我们使用蒸馏损失函数Lj（·）来保存当前序列中旧任务的知识[24]（由于旧数据集的缺失）。F或Lj（·），我们采用修改的交叉熵函数[15]，[24]。（6）相对于Wi的梯度为包含粗类（20类）和细类（100类）。对于顺序学习，我们考虑了两个场景，其中场景（S1）具有两个任务，其数据集通过将CIFAR-10的类的数量均匀地分成两个子集来收集，而另一个场景（S2）由使用CIFAR-10和CIFAR-100的两个任务组成。我们将所提出的方法与最近处理多个任务的其他方法进行了比较：特征提取[6]，LwF [24]，DA-CNN[32]，PackNet [26]和嵌套网络[19]。并与骨干网进行了比较，k−1其中LLL2716乌伦河jD（l，j）（W）+乌伦河L（l，k）（W）、（7）ResNet [13]和WRN [36]，作为执行单个任务的基线方法。j=1l=S（i，j）Wil=S（i，k）Wi5https://tiny-imagenet.herokuapp.com/271716：4.2. 实现细节所有比较的架构都基于ResNet[13]或WRN [36]。对于所有应用场景，我们遵循[13]中构建残差块中特征图数量我们基于ImageNet的实践构建了Tiny-ImageNet的网络构建块[13]。所有比较的方法都是从头开始学习的，直到相同的epoch编号，并使用Xavier方法进行初始化[8]。该网络由SGD优化器训练，Nesterov动量为0.9，其中CIFAR的小批量大小为128，Tiny-ImageNet的小批量大小为64。我们在每次卷积运算后采用批量归一化[18除了第一个输入层之外，我们在卷积层上构建了关于特征映射的单元我们的深度虚拟网络分别针对不同的任务或输入尺度具有特定于任务的输入层当两个单元一起使用时，特征图大小加倍，并且附加参数（即，除了独立单元的参数（内部连接）之外，还需要单元之间的互连）来覆盖增加的特征图尺寸我们还在每个层次结构的顶部附加了一个大小兼容的全连接层所有提出的方法都是在TensorFlow库[1]下实现的，并且基于NVIDIA TITAN Xp显卡提供了它们的评估4.3. 联合学习我们通过与两种方法进行比较来进行联合学习的实验：PackNet+（PackNet的分组变体 [26]，通过将特征图划分为与我们类似的多个子集来实现实际的推理速度）和NestedNet（具有通道修剪）[19]，它可以执行多任务学习或记忆高效学习。对于使用两个CIFAR数据集的第一场景（J1）我们将参数的数量几乎均匀地分布在表1.关于CIFAR-10（任务1）和CIFAR-100（任务2）的联合学习结果。NO和NT分别是方法产生的推理输出的数量和方法的参数总数。基线结果从两个独立的网络收集。我们提供了两种不同的推理，使用一个单一的单位（顶部）和所有单位（底部）的每一个任务。方法NONT任务1任务2平均基线[36]114.8M百分之九十四点八76.4%百分之八十五点六[26]第二十六话27.4M百分之九十四点五百分之七十五点三百分之八十四点九NestedNet[19]27.4M百分之九十四点七76.7%百分之八十五点七我们47.4M百分之九十四点六75.0%百分之八十四点八百分之九十五点一百分之七十七点三百分之八十六点二10.80.60.40.2020 40 60 80 100120140160180200时代图4. CIFAR-10（任务1）和CIFAR-100（任务2）联合学习的拟议DVN性能曲线。性能与我们的方法相当，但它们利用整个网络容量的最大性能比我们的方法差。基线提供了与多任务学习方法相当的性能，但它需要在这个问题中，2×更大的参数。的平均推理时间（和参数的数量我们使用单个和所有相关单位的DVN对于单个图像分别为0.11ms（1.9M）和0.3ms（7.4M）。我们还在图4中的测试集上提供了所提出的方法的性能曲线。图5（a）显示了使用Tiny-ImageNet（四个任务）的第二个场景（J2）的结果。PackNet+和NestedNet的参数比为1：2：3：14 4 4要素图尺寸，并指定前半部分和全部分别用于PackNet+和NestedNet的第一和第二任务的参数。我们的体系结构包含两个深度虚拟网络（DVN），每个DVN由1到任务4，通过将参数分为四个子集，并且将前j个子集分配给任务j。我们的体系结构包含四个DVN，每个DVN有四个单元和四个层次。中参数的比值两个单元（和两个层次结构），每个层次为14 91616：每个DVN 1个。所有每个层的特征映射成两个子集，所有相关的图层。这里，每个独立单元具有25%的参数密度，因为忽略了两个单元之间的互连参数（参见第4.2节）。对于这种情况，WRN-32-4 [36]被用于所有通信方法。表1显示了比较方法的结果。我们的方法根据任务和内存预算给出了四个评估。其中，使用每个独立单元（顶部）的评估与使用所有单元（底部）的评估相比，在性能上没有太大的妥协。 PackNet+ 和NestedNetgive任务1（单个单元）任务1（所有单元）任务2（单个单元）任务2（所有单元）准确度（%）：2718比较方法基于ResNet-42 [13]。作为如图所示，对于所有任务，在类似的存储器预算下，我们的方法优于此外，我们的算法还为不同的内存芽提供了额外的输出，使其非常高效.尽管NestedNet具有类似的共享参数策略，但它执行比我们的穷。与前面的示例不同，基线显示的结果并不令人满意，甚至需要比我们大4倍的网络存储来执行相同的任务。此外，我们在相同的场景（J2）上与NestedNet[19]进行了比较，以实现内存有效推理。以来2719NestedNet（T3）我们的16 ：16任务175任务275任务175任务2757065600 50100密度（%）任务37570650 50100密度（%）任务4707065600 50100密度（%）任务3757065600 50 100密度（%）任务4707065600 50100密度（%）65600 50100密度（%）70656560 600 50 100 0密度（%）50 100密度（%）(a) 多任务学习（b）记忆高效学习图5. Tiny-ImageNet任务的联合学习结果与参数密度比（预算）有关。(a)多任务学习：在我们的方法中，每个深度虚拟网络针对每个任务的不同参数密度比提供四个评估，而其他方法则以固定预算产生评估。Baseline需要四个经过训练的网络来实现结果。(b)记忆高效学习：我们的深度虚拟网络在单个训练网络中产生4 × 4的推理输出，而NestedNet需要四个不同的训练网络来分别为相同的任务执行内存有效的推理。（·）表示任务ID。表2.参数密度和加速我们的方法相对于层次结构的水平。l（i）表示包含i个单位的水平。Tiny-ImageNet（64x64）605040300 50 100CIFAR-100（32x32）807060500 50 100STL-10（96x96）8075700 50 100参数密度（%）参数密度（%）参数密度（%）图6.三个不同规模的数据集（Tiny-ImageNet，CIFAR-100和STL-10）的联合学习结果。NestedNet对一个任务执行内存有效的推理，我们根据任务的数量训练了四次。然而，我们的架构只训练了一次，并对我们的DVN的所有任务执行了内存有效的推理图5（b）显示，我们的方法在所有任务上都比NestedNet获得了显著的性能改进表2总结了所提出的网络的参数数量及其相关的加速。对于三个不同任务的第三种场景（J3），将一组特征图划分为三个子集，以用于com-表3. CIFAR-100的分级分类结果。（·）表示类的数量。NO是由方法产生的推理输出的数量。基线结果从独立网络收集NestedNet根据任务的数量我们的方法执行四个不同的推理，根据参数和任务的数量NO任务1（20）任务2（100）号参数−1.8M7.4M1.8M7.4M基线[36]182.1%百分之八十四点九73.4%75.7%NestedNet [19]2百分之八十三点七−−76.6%我们484.1%86.1%74.9%76.9%比较方法各参数比值为49从任务1（Tiny-ImageNet）到任务3（STL-10）。每个DVN在其分层结构中具有相同的密度比。ResNet-42[13]通过仔细遵循为ImageNet [13]设计的网络设计和学习策略来应用。图6显示了任务的结果。在参数密度比相近的情况下，该方法的平均虽然 PackNet+ 和NestedNet在Tiny-ImageNet上的表现与我们相当，但在其他两个任务上的表现比我们差此外，它们为每个具有固定参数密度的任务产生单个输出，版本，而我们的版本为每个数据集提供不同密度条件下的多个输出。对于STL-10的单个图像，我们的DVN的参数数量和它们的推理时间分别为 0.65ms（7.5M）、1.02ms（16.8M）和1.51ms（29.8M）4.4. 分层分类作为联合学习的另一个应用，我们使用场景（H1），分层分类[34]进行了实验。其目的是建立多基线PackNet+NestedNet我们NestedNet（T1）我们的NestedNet（T2）我们的NestedNet（T4）我们的我们的NestedNetPackNet+Baseline准确度（%）准确度（%）准确度（%）准确度（%）准确度（%）准确度（%）准确度（%）准确度（%）准确度（%）准确度（%）准确度（%）：1l（1）中文（简体）l（3）中文（简体）号参数1.9M7.5M16.8M29.8M密度6.4%百分之二十五点二百分之五十六点四百分百2720层次的2721表4. CIFAR-10任务的顺序学习结果。所提出的架构包含两个深度虚拟网络，每个网络使用单个单元（右列）和所有单元（左列）为每个任务提供两种不同的评估方法特征提取[6][32]第三十二话LwF [24]NestedNet [19]我们任务1任务2百分之九十六点三百分之八十五点七百分之九十六点三百分之九十点一百分之九十五点三百分之九十七点一百分之九十三点九百分之九十八点二百分之九十五点四百分之九十七点七百分之九十五点八百分之九十八点一平均91.0%百分之九十三点二百分之九十六点二百分之九十六点零五百分之九十六点五五百分之九十六点九五表5.CIFAR-10（任务1）和CIFAR-100（任务2）数据集上的顺序学习结果方法特征提取[6][32]第三十二话LwF [24]NestedNet [19]我们任务1任务2百分之九十四点九百分之五十三点二百分之九十四点九百分之五十七点四93.4%百分之七十七点二百分之九十三点一百分之七十七点九百分之九十三点一78.0%93.4%78.7%平均74.05%76.15%百分之八十五点三百分之八十五点五85.55%86.05%类类别，每个级别被视为一个任务。我们在CIFAR-100上进行了评估，CIFAR-100具有第4.1节所述的两级类别层次结构。我们的架构包含两个深度虚拟网络，每个网络包含两个单元，将特征图平均分为两组。因此，它产生四个不同的推理输出。我们与NestedNet[19]进行了比较，NestedNet可以在单个网络中执行层次分类。主干网是WRN-32-4。表3显示了所应用方法的结果。我们还通过学习单个网络（WRN-32-2或WRN-32-4）的参数数和类数来提供基线结果。总的来说，我们的方法在所有情况下都比其他比较方法表现得更好。我们的和NestedNet的性能优于基线，可能是由于它们在任务之间共享参数的特性，因为它们彼此密切相关。与NestedNet相比，该方法在保持较好性能的同时，产生了更多的推理输出.4.5. 序贯学习我们进行了基于CIFAR-10的场景（S1），该场景由两个顺序任务组成，其中旧任务（任务1）和新任务（任务2）分别由数据集的第一个和最后五个类的样本组成。我们将我们的方法与其他可以执行顺序任务的方法进行了比较：特征提取[6]，LwF [24]，DA-CNN[32]（具有两个额外的全连接层）和NestedNet [19]（其网络中的低层次和高层次分别代表旧任务和新任务）。该网络由两个单元组成，通过将特征图均匀地分成两个子集（每个独立单元具有25%的参数密度比）。它构建了两个深度虚拟网络，提供四个推理输出。我们应用WRN-32-4体系结构的所有比较的方法。表4显示了比较方法的结果。我们观察到，所提出的方法优于其他方法。值得注意的是，使用独立单元的结果平均优于其他单元。特征提取和DA-CNN几乎保留了2722通过保持第一个任务的参数不变来执行第一个任务，但是它们的性能对于下一个任务给出了不令人满意的结果。然而，LwF和NestedNet的结果比上面提到的第二个任务好得多，但他们的结果比我们的差。我们还将该建议应用于另一个场景（S2），包括CIFAR-10（旧的，任务1）和CIFAR-100（新的，任务2）。所有比较的方法都是基于WRN-32-8进行的我们的DVN是在相同的策略下构建和训练的（S1）。该情景的结果总结见表5。我们使用所有单元的结果（右列）在比较的方法中平均给出了最好的性能。此外，我们使用独立单元（左列）的结果也优于使用相同蒸馏损失函数的最佳竞争对手LwF和NestedNet [15]。5. 结论在这项工作中，我们提出了一种新的架构，产生深度虚拟网络（DVNs），以解决多个目标方面的不同任务和内存萌芽。每个DVN都有一个独特的任务层次结构，并支持针对不同内存预算的多个推理。基于所提出的网络，我们可以自适应地选择一个DVN和它的层次结构的一个级别为一个给定的任务与所需的内存预算。所提出的方法的有效性已被证明在不同的多任务学习场景。据我们所知，这是第一个在深度学习中引入虚拟网络概念的工作，用于多任务学习。鸣谢。这项工作得到了 ERC 资助 ERC-2012-AdG321162-HELIOS、EPSRC资助SeebibyteEP/M013774/1、EPSRC/MURI资助EP/N 019474/1、韩国国家研究基金会基础科学研究计划的支持（NRF）由科学和信息通信技术部资助（ NRF-2017 R1 A2B2006136），和AIR实验室（AI研究实验室）现代汽车公司通过HMC-SNU AI Consortium Fund。我们还要感谢皇家工程学院和FiveAI。2723引用[1] Mart 'ın Abadi，Ashish Agarwal，Paul Barham，EugeneBrevdo，Zhifeng Chen，Craig Citro，Greg S Corrado，Andy Davis ， Jeffrey Dean ， Matthieu Devin ， et al.TensorFlow：异构分布式系统上的大规模机器学习。arXiv预印本arXiv：1603.04467，2016。[2] 瑞奇 · 卡鲁阿纳多任务学习。Machine learning ， 28（1）：41[3] Arslan Chaudhry ， Puneet K Dokania ， ThalaiyasingamAjan-than，and Philip H.S.乇用于增量学习的黎曼步行：理解遗忘和不妥协。在欧洲计算机视觉会议上。Springer，2018.[4] Adam Coates，Honglak Lee和Andrew Y.Ng. 无监督特征学习中的单层网络分析。载于AISTATS，2011年。[5] Ronan Collobert和Jason Weston自然语言处理的统一架构：具有多任务学习的深度神经网络。国际机器学习会议，第160-167页。ACM，2008年。[6] Jeff Donahue ， Yangqing Jia ， Oriol Vinyals ， JudyHoffman，Ning Zhang，Eric Tzeng，and Trevor Darrell.Decaf：用于通用视觉识别的深度卷积激活功能。在2014年的国际机器学习会议上。[7] 罗斯·格希克。快速R-CNN。在IEEE计算机视觉国际会议论文集，第1440- 1448页[8] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。2010年，第十三届国际艺术情报和统计会议筹备会议[9] Ariel Gordon、Elad Eban、Ofir Nachum、Bo Chen、HaoWu、Tien-Ju Yang和Edward Choi。Morphnet：深度网络的快速简单资源约束结构学习。IEEE计算机视觉和模式识别会议，2018年。[10] Song Han，Xingyu Liu，Huizi Mao，Jing Pu，ArdavanPe-Peng，Mark A Horowitz，and William J Dally. EIE：基于压缩深度神经网络的高效推理引擎。在计算机体系结构中，2016年ACM/IEEE第43届年度国际研讨会，第243-254页IEEE，2016.[11] Song Han，Huizi Mao，and William J Dally.深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。在2016年国际学习代表会议上[12] Song Han，Jeff Pool，John Tran，and William Dally.学习权值和连接以实现高效的神经网络。神经信息处理系统会议，2015年。[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别上，2016年。[14] Yihui He，Xiangyu Zhang，and Jian Sun.用于加速深度神经网络的通道修剪。2017年计算机视觉国际会议[15] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。[16] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. MobileNets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。[17] Forrest N

下载后可阅读完整内容，剩余1页未读，立即下载