没有合适的资源?快使用搜索试试~ 我知道了~
7561多任务学习2*Ravichandran2酒店,锡德-马上预订;Charless Fowlkes2Rahul Bhotika2Stefano Soatto2mcw244@cs.washington.edu{haolimax,achille,ravinash,fowlkec,bhotikar,soattos}@ amazon.com1华盛顿大学2AWS AI Labs摘要调整具有广泛功能的预训练模型已成为学习各种下游任务的标准实践。为每个任务微调不同模型的典型方法是高性能的,但会导致大量的内存开销。为了有效地学习多个下游任务,我们引入了任务自适应参数共享(TAPS),这是一种简单的方法,通过自适应地修改一个小的、特定于任务的层子集来调整基本模型以适应新任务这使得多任务学习,同时最小化所使用的资源,并避免灾难性的遗忘和任务之间的竞争。TAPS解决了一个联合优化问题,该问题确定了与基本模型共享的层此外,对活动层的数量的稀疏惩罚促进了与基础模型的权重共享。与其他方法相比,TAPS在目标任务上保持了很高的准确性,同时仍然只引入了少量的任务特定参数。此外,TAPS对所使用的特定架构是不可知的,并且只需要对训练方案进行微小的更改 。 我 们 在 一 套 微 调 任 务 和 架 构 ( ResNet ,DenseNet,ViT)上评估了我们的方法,并表明它在实现简单的同时实现了最先进的性能。1. 介绍深度学习的实际应用经常需要执行多个任务(多任务学习/MTL)。为了避免任务之间的竞争,一个简单的解决方案是从一个公共的预训练模型开始训练单独的模型虽然这种方法可以产生特定于任务的模型,但相关的训练、推理和推理成本会随着任务数量的增加而快速增长此外,任务是独立学习的,当任务相关时,错过*在AWS AI Labs实习期间完成的工作†通讯作者。理想情况下,人们会训练一个模型来同时解决所有任务。一种常见的方法是固定基本模型并添加特定于任务的参数(例如,添加分支、分类器),其针对每个任务单独训练然而,决定在哪里分支或添加参数是不平凡的,因为最佳选择取决于初始模型和下游任务,以至于一些方法训练辅助网络来做出这些决定。此外,添加权重(层、参数等)独立于网络的任务也不理想:一些方法[18,23,33]添加了少量固定数量的可学习任务特定参数,然而,当下游任务与预训练任务不同时,它们牺牲了性能。其他方法在更困难的任务上表现良好,但为更简单的任务添加了不必要的参数[9,39,48],阻碍了大量任务的学习在这项工作中,我们通过引入任务自适应参数共享(TAPS)来克服这些问题。TAPS不是修改网络的架构或添加一组固定的参数,而是自适应地选择现有层的最小子集并重新训练它们。乍一看,选择层的最佳子集来适应是一个复杂的组合问题,需要在2L个不同的配置中进行广泛的搜索,其中L是层数。 TAPS的关键思想是将层选择放松为连续问题,以便在训练期间通过使用随机梯度下降求解联合优化来决定将基础模型的哪些层专门用于特定于任务的层最终结果是任务特定参数的较小子集(所选层),其替换基本层。我们的方法有几个优点:(i)它可以应用于任何体系结构,并且不需要通过引入特定于任务的分支来修改它;(ii)TAPS不降低目标任务的准确性(与完全微调的典范相比),同时引入更少的特定于任务的参数;(iii)哪些层要专门化的决定是可解释的,通过简单的优化过程完成,并且不需要学习策略网络;(iv)它可以7562层3层2T2分类器T1分类器T1分类器T2分类器层1(T2)层1(a) 特征提取器(b) 我们的方法(c) 微调图1. 概述我们的方法。(b)我们的方法,(a)特征提取器以及(c)微调之间的区别。这里我们有两个任务T1和T2。 T1显示为青绿色,T2显示为绿色。黄色框表示基础网络层。 我们的方法根据目标任务将任务特定参数添加到不同的层。请注意,这与(a)没有使用特定于任务的层和(c)每个层都是特定于任务的相反此外,(c)遭受灾难性遗忘,并且与(b)和(a)不同,丢失了基础网络只需几行代码即可实施,只需对培训计划进行最小我们的方法发现了直观的共享策略,以及其他不太直观但有效的策略。例如,在ResNet模型上,TAPS倾向于只修改最后几层,而在ViT模型上,TAPS发现了一种明显不同的共享模式,学会共享前馈层,只调整自我注意层。我们测试我们的方法在标准的基准测试,并表明它优于几种替代方法。此外,我们表明,我们的方法的结果是符合在社会上使用的标准微调的做法。该文件的贡献可概括如下:1. 我们提出了TAPS,这是一种在将预训练的网络适应目标任务时可区分地学习调整哪些层的方法。这可以从调整或专门化整个模型,到只改变0。预训练模型的1%,取决于新任务的复杂性/相似性。2. 我们表明,TAPS可以优化准确性或效率,并与其他方法相提并论此外,它还能自动发现有效的特定于体系结构的共享模式,而不是手工制作的权重或层共享方案。3. TAPS使高效的增量和联合多任务学习没有竞争或遗忘。2. 相关工作多领域和增量多任务学习。在许多应用中,期望使一个网络适应多个视觉分类任务或域(多域学习,或MDL)。与同时学习任务的多任务学习(MTL)不同,MDL的重点是渐进地学习域,因为通常不是所有数据都可以一次获得。因此,在这项工作中,我们也将MDL称为增量MTL。使网络适应单个下游任务的标准方法是微调然而,越来越多地适应多个领域带来了灾难性地忘记先前学习的任务的挑战。 为了促进该领域的研究,Re-buffi等人。[33]引入了Visual Decathlon挑战并提出了残余适配器。残余适配器修复大部分网络,同时训练适应新域的小残余模块。 该架构在[34]中被修改为并行适配器架构。介绍了一种基于控制器的方法,称为深度自适应(DA),[36]使用现有参数修改学习算法Piggyback [23]中提出了一种使用二进制掩码的更简单方法。学习特定于任务的掩码,然后将其应用于原始网络的权重。这种方法在使用二进制掩码的权重变换(WTPB)[25]中通过修改掩码的应用方式进行了进一步扩展。这些方法专注于为每个任务添加少量新参数,并且在更复杂的任务上表现不佳,因为它们使用相同的基本模型。其他解决方案如SpotTune [9]专注于性能而不考虑参数效率。它训练一个辅助策略网络,该网络决定是否通过共享层或特定于任务的层路由每个相比之下,TAPS不需要通过适配器修改网络架构,也不需要训练像SpotTune这样的辅助策略网络。TAPS可以在一次训练运行中使用与基础模型相同的架构进行训练。参数有效多域学习(MDL)。MDL中的另一个工作是参数共享[24,27]。这些方法通常执行多阶段训练。NetTailor [27]利用了简单任务比复杂任务需要更小网络的直觉。他们使用知识蒸馏和三阶段培训计划来培训教师和学生网络Pack- Net [24]通过迭代修剪将多个任务添加到单个网络这是在过滤器级别完成的,这有助于提高参数效率。另一方面,我们的方法选择整个层。然而,修剪权重通常会导致一些性能下降。最近,Berrielet al.预算感知适配器(BA2)[2]。该方法层3T2分类器T1分类器层1层1层1层2层2层3层3(T1)层2层275631≥2K0否则。(二)(w)+X|S|、(3)L选择并使用与任务相关的功能通道使用预算约束,可以获得具有所需复杂度的网络。总之,最有效的参数-测量方法在性能损失的情况下获得效率3. 方法给定具有L层权重和K个目标任务的集合T={T,T,.,T},即使是BA2中最大的预算,与TAPS相比,差得多。与现有的方法不同,TAPS不需要选择高精度或高效率的制度。如图2、对于同一个任务,我们可以得到具有不同精度和任务特定参数百分比的模型多任务学习(MTL)。MTL专注于通过共享信息和计算同时学习同一视觉领域中的各种任务,通常以跨所有任务共享的层和特定任务的专用分支的形式[14,32]。一些方法试图学习多分支网络架构[20,46],一些方法试图在特定任务模型中找到共享参数[8,26,37]。一个密切相关的工作是AdaShare [45],它学习特定于任务的策略,选择性地选择在多任务网络中为给定 任 务 执 行 哪 些 层 。 他 们 使 用 Gumbel SoftmaxSampling [12,21]通过标准反向传播与网络参数联合学习层共享策略。由于这种方法跳过了层的子集,基于任务,它只能应用于每个层的输入和输出维度对于每一个任务,我们要选择最小的必要子,一组需要调整以实现最佳(或接近最佳)性能的层。这允许我们在增加最少的新参数的同时增量地学习新任务。原则上,这需要在2L个可能的子集上进行组合搜索。任务自适应参数共享(TAPS)的思想是将组合问题放松为连续问题,这最终将给我们一个简单的联合损失函数来找到最优的任务特定层以调整和优化这些层的参数。我们的方法的概述如图所示。1.一、权重参数化。 我们首先为每个共享层引入评分参数si,其中i=1,. ..,L.然后,我们将每个层的权重重新参数化为:wi=w<$i+I(si)6wi,(1)其中,wi是预训练网络的(共享)权重,6wi是描述基础网络的特定任务扰动的可训练参数。关键的组成部分是由下式定义的指示函数I(si):如果si≥1,常数这限制了它利用预训练模型的能力,并且不支持持续学习(一旦学习了层共享策略,AdaShare就会从策略中对架构进行采样,并从头开始重新训练模型)。增量学习。与MDL相关的是增量学习的问题。在这里,目标是从几个类开始,随着更多的数据变得可用,逐渐学习更多的类。在这方面有两种方法,增加额外容量的方法[39],[48](层,过滤器等)。和方法,不[3,13,19,35]。不增加额外容量的方法试图通过使用重放缓冲区[3,35]或最小化为了一些门槛的门槛。因此,当si时,层被转换为任务特定的层,并且因此将使其参数特定于任务。另一方面,对于Si层,该层与基础网络相同,并且没有引入新的参数相同的方法可以用于不同的架构和层类型,无论是线性、卷积还是注意力。在后一种情况下,我们将特定于任务的参数添加到查询-键值矩阵以及投影层。联合优化。在Eq.(1),我们可以将初始组合问题重新转换为权重增量和得分上的联合优化问题:L重的变化[13]。与我们的方法类似,[39,48]增加网络容量以适应新任务并防止灾难性遗忘。进步网络[39](6w,s)=argminDw,sλLii=1添加了整个网络的参数,而Side-Tune [48]添加了一个较小的固定大小的网络。独立于下游任务添加固定容量是次优的,并且不像这些方法,TAPS基于下游任务和基础网络自适应地添加容量此外,TAPS的目标与增量学习的不同之处在于,它从预训练的基础模型开始,并学习新的任务或领域,而不是从类似的领域添加新的类。其 中s= ( s1 , . .., s L ) , 6w= ( 6 w1 , . .. ,6wL),w=(w1,. ..,w L),我们用L D(w)表示模型在数据集D上的损失。Eq的第一项(3)试图操作-优化任务特定参数以实现任务的最佳性能,而第二项是S上的稀疏诱导正则化子,其惩罚具有大的Si,并鼓励共享层而不是引入新的任务特定参数。I(si)=7564R⇥Xλ-w,6wk,sL我直接梯度估计。而Eq.(3)捕获了原始问题,它不能用随机梯度下降直接优化,因为指示函数I(s)的梯度在几乎所有点处为零(并且在I处未定义)。为了使问题可学习,我们使用直通梯度估计[1]。也就是说,我们修改反向传递并使用:用途:rsiwi=6wi,而不是siw i=0,对应于计算函数wi=w<$i+si6wi的iv e的der iv,而不是wi=w<$i+I(si)6wi。联合MTL。一个自然的问题是,我们是否可以学习一个针对多任务学习而优化的基础网络,而不是使用通用的预训练模型。特别是,是否有一种预训练的表示方法,可以减少需要学习的任务特定层的数量,以获得最佳性能?为了回答这个问题,我们注意到,如果来自多个任务的数据在训练时同时可用,我们可以优化Eq。(1)针对基本权重w′i(其将在所有任务之间共享)和任务特定的6w′ i,联合地跨越所有下游任务。损失函数为:(<$w,6w1,. ...... 你好。 ,6wK,s1,. ......你好。,sK)=参数的数量(. 06%(ResNet-34模型)。出于这个原因,我们遵循与大多数方法相同的设置,并且总是学习特定于任务的批规范参数。4. 实验在本节中,我们将TAPS与两种设置中的现有方法进 行 比 较 : 增 量 MTL ( 秒 4.1 ) 和 联 合 MTL ( 第4.2)。详情如下。4.1. 增量MTL在这种情况下,方法为每个任务单独调整预先训练的模型这种方法在训练过程中在速度和内存方面都是有效的,因为它可以并行化,最多只需要2个参数。或者,所有任务可以交互并学习公共权重,这是第2节中描述的联合多域场景。四点二。数据集。我们展示了两个基准测试的结果。一个是[ 9,23 - 25 ]中使用的标准基准,由5个数据集组成:花 [30] , 汽 车 [15] , 素 描 [6] , CUB [47] 和 WikiArt[40] 。 在 [2] 之 后 , 我 们 将 此 基 准 称 为 ImageNet-to-Sketch。对于数据集分割、扩充、裁剪和其他方面,我们使用与arg minXK ⇣k=1L(w¯,6wk) + |SK|、(四)i=1[23]第10段。我们的第二个基准是视觉十项全能挑战[33]。本次挑战包括10项任务,其中-包括以下数据集:ImageNet [38],Aircraft [22],其中K是任务的总数,w由所有任务共享,6wk和sk是任务特定参数。由于s上的L1惩罚,这种损失鼓励学习公共权重w′,使得任务特定参数的数量最小化。 节中4.2我们证明TAPS的联合多任务变体确实增加了权重共享而不损失准确性。特别地,相对于增量多任务训练,任务特定参数的数量在联合多任务训练设置中显著减少。TAPS和其他联合MTL方法[45]的联合多任务变体的局限性在于训练期间的内存占用随着任务数量线性增加。我们的解决方案是学习一个单一的网络,该网络在所有任务上进行联合训练,并具有特定于任务的分类器。然后用TAPS的增量变体训练(等式1)。3)使联合训练的基础网络适应每个任务。这种方法实现了与关节变体相当的精度和参数共享,同时在训练期间需要恒定的存储器。标准配方和记忆效率变化之间的比较见附录D。批次归一化。学习特定于任务的批处理归一化层平均将准确性提高了23%(在某些情况下高达10%),而只增加了一个小的CIFAR-100 [16]、可描述纹理[4]、戴姆勒行人分类[28]、德国交通标志[43]、UCF-101动态图像[42]、SVHN [29]、Omniglot [17]和Ox-ford Flowers [30]。有关数据集及其增强的详细信息,请参见附录A。比较的方法。我们的典范是为每个任务单独微调整个网络,以不共享权重为代价获得我们的基准是固定特征提取器,它通常提供最差的性能并共享所有层。在增量多任务设置中,我们将我们的方法与Piggyback[23],SpotTune [9],PackNet [24]和残差适配器[34]进行了比较。指标. 我们报告了每个任务的前1名准确率和[33]中提出的视觉十项全能挑战的S分数。此外,我们还报告了所有任务所需的广告参数和任务特定层的总百分比。单个参数计数见C.2。方法[2332表示浮点数,1表示布尔值),而不是报告参数的总数。然而,正如[23]所指出的,取决于硬件,内存中的实际存储成本布尔值通常被编码为8位)。为了在不同的报告结构之间建立平等,我们LDK7565----22个报告未归一化的参数总数和归一化计数(假设布尔参数可以存储为8位)。图2. 准确度与任务特定层:显示了Cars数据集的任务特定层的准确度与百分比。改变λ可得到各种构型。即使只有非常少的任务特定层(高λ),我们的表现也明显优于特征提取基线。我们的方法也达到了微调性能,但需要大量的任务特定的层。培训详情。 我们使用ImageNet预训练的ResNet- 50 [10]模型作为ImageNet to Sketch的基础模型。我们在一个单独的机器上训练了30个时期的TAPS,批量大小为32GPU。 对于微调典范,我们报告学习率lr2 {0}的最佳性能。001,0。005}。对于TAPS,使用SGD优化器,没有权重衰减。我们扫过λ0。25,0。5,0。75.类似地,对于基线,我们报告最佳学习率为0的结果。010 005。我们固定阈值,=0。1,对于所有数据集,并使用余弦退火学习率调度器。除了ResNet-50,我们还将TAPS应用于DenseNet-121 [11]和Vision Transformers [5]。据我们所知,我们是第一个提供基于Transformer架构的结果的。有关这些设置的培训详情,请参见B.1。对于Visual Decathlon挑战,我们使用WideResNet-28,如[33]所示,在[9]中也称为ResNet-26。根据现有的工作,我们使用0.1的学习率和0.0005的权重衰减,并训练网络120个epoch。我们报告λ 0的结果。25,0。五一0的情况。与现有方法[9,33,34]一样,我们在训练和验证数据集上训练时报告了测试集的准确性。我们还计算了S-分数,使我们的方法的综合排名。ImageNet to Sketch上的结果选项卡. 1显示了我们的方法与ImageNet-to-Sketch上现有方法的平均准确度超过3次运行我们的方法和微调的报告。TAPS在所有5个数据集上都优于Piggyback和Packnet,5个数据集中有3个是Spot-Tune,5个数据集中有4个是WTPB和BA2我们还注意到,TAPS平均只使用了Spot-Tune所使用的参数的57%。我们在汽车数据集上的表现并不优于现有的方法。事实上,对于这个数据集在λ = 0时获得最佳结果。0(见图2),这表明大多数层需要进行调整以获得最佳性能。我们在附录C.2中报告了用于每个任务的参数数量。在一般情况下,我们在准确性方面的表现明显优于参数有效的方法,而我们实现了相同的性能,为准确性而设计的方法,但在参数成本的一小部分。任务特定层。在图3中,我们显示了针对不同数据集的特定任务的层。正如预期的那样,最终的卷积层总是自适应的。这与冻结ResNet-50模型的4个块中的最初3个块并微调最后一个块的常见做法相对应。但是,有趣的是,我们看到一些中间层也总是活跃的。 例如,层26通常被适配为任务专用层。特别是对于具有与ImageNet不同的低级特征的Sketch任务,第一个卷积层始终被我们看到这是不同λ值的情况,这与ResNet的初始层在转移到具有不同低级特征的域时应该重新训练的直觉一致草图任务的特定于任务的层的详细图可以在附录6中找到。预训练模型的选择效果。为了分析使用不同预训练模型的效果,我们用Places-365模型替换了基础ImageNet模型,并在Tab中列出的数据集上应用了TAPS。1.一、我们注意到特定任务层和性能的每个任务的任务特定层的数量增加,特别是任务特定层的平均百分比从25增加。91%到36百分之六十我们假设Places-365预训练可能不适合对象分类,因此需要调整更多的层。支持这一点,我们也看到了下降2。数据集的平均准确率为77%(详情见7)。这些观察结果与[23]中的结果一致。建筑选择的影响。为了证明TAPS与架构无关,我们在DenseNet- 121上对其进行了评估[11]。我们展示了我们的方法的性能,以微调和背负在标签。3和表中的参数。二、与ResNet-50相比,DenseNet-121中特定于任务的层的数量较高。我们推测,由于额外的跳过连接,与ResNet模型相比,更改单个层对输出的影响更大。变压器. 我们展示了我们的方法的变压器架构的结果。这里,我们使用ViT-S/16模型[44](有关训练细节,请参见B.1)。在选项卡中。3我们在表3中报告了我们的方法和参数的性能。二、对于Transformer体系结构,性能优于7566表1. 在ImageNet to Sketch基准测试中使用ResNet-50模型的各种方法的性能。不同方法的准确度显示在不同的数据集上。对于TAPS和微调,我们报告三次运行的平均准确度。我们报告参数的总数(如果可用),并在括号中报告数据类型规范化参数计数。粗体数字表示每个数据集的最佳性能方法(微调除外)。对于Packnet,箭头指示添加任务的顺序。参数计数花WikiArt草图汽车幼崽微调特征提取器6⇥1⇥95.7389.1478.0261.7481.8365.9091.8955.5283.6163.46[23]第二十三话6公斤(2.25公斤)(1.60)(1.60)7分(7分)6公斤(2.25公斤)3.8磅(1.71磅)94.7671.3379.9189.6281.59[24]第二十四话[24]第二十四话[9]第九话93.0090.6096.3469.4070.375.7776.2078.780.286.1080.092.480.4071.484.03WTPB [25]96.5074.880.291.582.6BA2 [2]95.7472.3279.2892.1481.19抽头4.12.96.6876.9480.7489.7682.65图3. 针对不同数据集的任务特定图层。 每行显示了不同数据集的ResNet-50层的53个卷积层。层0最接近输入,而层52最接近分类器。黄色显示的层与ImageNet预训练模型共享,而彩色显示的层是任务特定的权重。我们看到,大多数任务特定层都朝向分类器。表2. 附加参数和层的百分比。显示了跨网络架构的每个数据集所需的任务特定参数和层的百分比。粗体数字表示所有体系结构中的最低值。ViT-S/16使用最少数量的额外参数,而ResNet-50添加了最少数量的任务特定层。表3.跨架构和数据集的各种方法的准确性。各种方法的分类准确性在不同的数据集和架构中显示。ViT-S/16模型在所有数据集上具有最高的准确性。TAPS能够匹配ViT-S/16的微调性能,并且与DenseNet-121相差约1-2%花WikiArt素描汽车CUB附加参数DenseNet-121 80.2 41.2 58.5 50.4 43.8ViT-S/1641.3 30.4 24.1ResNet-50 65.5 52.8 75.9 41.9 70.6任务特定层的百分比DenseNet-121 69.4 22.5 41.1 28.3 23.9ViT-S/1654.220.822.937.554.2ResNet-5022.620.843.414.528.3CNN如预期。我们还注意到,与CNN相比,任务特定的参数更少。虽然我们使用更多的任务特定层,但调整的层具有更少的参数。我们在图中显示了特定于任务的层。4.第一章从这个图中,我们可以看到,被适配为特定于transformers的层遵循与CNN非常不同的模式。虽然在后者中,较低层往往是任务不可知的,并且最终层是任务特定的,但对于transformer来说并非如此。在这里,整个网络中的层倾向于适应任务。此外,注意力和投射层倾向于花WikiArt素描汽车CUBDenseNet-121微调95.6 77.0 81.1 89.5 82.6背负式94.7 70.4 79.7 89.1 80.5电话:+86-051 - 88888888ViT-S/16微调99.382.681.989.288.9抽头99.182.382.288.788.4而MLP层是固定的。这表明,TAPS可以动态地以非平凡的方式适应不同的架构,而无需任何手工制作的先验。视觉十项全能。选项卡. 图4表明,对于λ=0。25,我们的方法实现了第二高的S-分数,没有任何特定于小行星的超参数调整。对于这个λ,我们使用一半的参数作为Spot-Tune,同时在6/10数据集中表现更好,并且平均得分也更高。我们的方法的所有变体都优于Res.适应,深度适应,背上。从λ=0开始。25至λ=7567图4. 针对ViT模型的不同数据集的任务特定层。该图显示了针对不同数据集处于活动状态的任务特定图层。每行显示ViT模型中存在的不同层。层0最接近输入。黄色显示的层与ImageNet预训练模型共享最后一行显示层的类型,并以颜色表示这里,深红色表示关注层中的查询键值,金色表示投影层,紫色表示MLP层。与CNN不同,我们看到微调策略非常不同。我们需要冻结MLP层,而不是冻结块。1 .一、0,我们进一步将任务特定层的数量减少一半,而 平 均 误 差 仅 增 加 1% 。 在 λ=1 时 , 即 使 考 虑 到Piggyback使用布尔参数,我们在使用较少的参数总数和模型存储空间的情况下也优于Piggyback。为了分析使用了哪些层,我们在图5中绘制了最高压缩(λ=1)的活动层。对于所有数据集,特定于任务的图层数量很少,Omniglot需要的图层最多,而DPed和GTSR要求最少。事实上,对于后一个数据集,除了更新批规范层之外,不需要任务特定的层(与固定特征提取相比,这导致性能的显著提升)。再次,我们注意到TAPS可以很容易地为每个数据集找到复杂的非标准共享方案,否则需要昂贵的组合搜索。图5. Visual Decathalon的任务特定层。每行显示不同数据集的任务特定层(λ= 1. 0)。对于两个数据集:DPed和GTSR,不需要特定于任务的参数。性能的提高仅仅是由于更新了批处理范数参数。4.2. 联合多任务学习设置. 我们在联合MTL设置中比较了TAPS与AdaShare[45],其中多个任务是通过(选择性地)共享骨干和独立任务头一起学习的我们遵循与AdaShare相同的设置,即,数据集和网络进行公平比较。具体来说,我们比较了DomainNet数据集[31]与ResNet的性能,34. 此数据集包含跨6个域并且是MTL学习的优秀候选人,因为有机会分享以及任务竞争。为了分析TAPS和AdaShare之间的差异,我们在增量MTL设置中进一步比较了它们,其中每个任务都是独立学习的(K=1)。 我们还将完全微调作为基线。详细的培训设置见B.2。选择或跳过与添加或不。 如表5所示,TAPS在所有六个领域的增量和联合多任务设置中都优于AdaShare。这可能部分是由于AdaShare另一方面,TAPS用特定于任务的版本替换层,而不改变模型容量,这导致性能接近完全微调。为了验证更大的网络是否会提高AdaShare令人惊讶的是,带有ResNet-50的AdaShare的性能略低于其ResNet-34版本,这表明容量可能不是该方法的限制性问题。增量训练与联合训练。 如表5所示,对每个任务进行完全微调通常会产生最佳性能,并且显著优于联合微调版本。这表明,任务竞争之间存在的领域和只有一个领域(剪贴画)受益于联合训练。当Adashare使用增量设置进行训练时,我们还看到与联合微调版本相比性能有所提高。然而,这两种方法的代价是任务之间的权重共享和总模型大小的线性增加。对于TAPS,我们看到从联合训练切换到增量训练时性能相对稳定,接近微调的性能参数和训练效率。在增量设置中,与Adashare相比,TAPS的参数效率高出18%,平均性能高出2.18%。在此设置中,AdaShare修改现有层的权重,并且没有层在任务之间共享。这里的参数保存来自跳过的块。相反,在7568⇥表4. Visual Decathlon Challenge数据集上各种方法的准确性。显示了每个数据集的准确度、所有数据集的平均准确度和S评分[33]。TAPS在几乎是最佳方法的一半的参数下具有第二好的S分数。我们的方法可以权衡精度与附加参数。我们报告参数的总数,括号中是数据类型规范化参数计数。方法Params空气C100DPedDTDGTSRFlwr.Oglt。SVHNUCF是说s分数固定功能[34][34]第三十四话1⇥10⇥23.360.363.182.180.392.845.455.568.297.573.781.458.587.743.596.626.851.254.376.55442500Res. Adapt. [33个]2⇥2.17分102分)10公斤(3.25公斤)6.13度(3.25度)2.28公斤11⇥56.781.2.93.950.997.166.289.696.147.573.92118DAM [36]64.180.191.356.598.586.189.796.849.477.02851[34]第三十四话64.281.994.758.899.484.789.296.550.978.13412[23]第二十三话65.379.997.057.597.379.187.697.247.576.62838WTPB [25]52.882.096.258.799.288.289.296.848.677.23497英国广播公司2[2]49.978.195.555.199.486.188.796.950.275.73199[9]第九话63.980.596.557.199.585.288.896.752.378.13612丝锥(λ=0.25)丝锥(λ=0.50)丝锥(λ=0.75)丝锥(λ=1.0)5.24分3.88美元3.43米3.13分66.5862.0562.6263.4381.7681.7481.0781.0497.0797.1395.7796.9958.8357.0257.3458.1999.0798.4098.6198.3886.9985.8085.6784.0888.7988.9689.0089.1695.7295.6295.6594.9951.9249.0649.5651.1078.7077.6177.5677.773533318030963088表5. TAPS vs AdaShare。The accuracy of methods on the DomainNet dataset in both joint and incremental MTL settings is shown.除非另有说明,否则所有结果均使用ResNet-34获得粗体数字表示TAPS和AdaShare之间的更高精度带下划线的数字表示每种设置中的最佳性能方法。TAPS在这两种设置下都优于AdaShare。参数列测量支持所有任务的总参数,并与单一基础模型进行比较。MTL设置方法Params房绘画Quickdraw剪贴画Infograph草图是说联合微调AdaShare水龙头1⇥1⇥1.46⇥75.0176.9078.9166.1367.9067.9154.7261.1770.1875.0075.8876.9836.3531.5239.3065.5563.9667.8162.1262.8866.84增量微调AdaShareAdaShare ResNet-50TAPS6⇥5.73米4.99美元4.90公斤81.5179.3978.7180.2869.9065.7464.0167.2873.1768.1567.0071.7974.0874.4573.0774.8540.3834.1131.1938.2167.3964.1563.4066.6667.7364.3362.9066.51联合MTL设置,AdaShare参数效率更高,因为没有引入新参数。然而,这导致性能下降。TAPS在引入多0.46个任务特定参数的同时表现更好。在训练效率方面,AdaShare首先学习在策略学习阶段之后,对多个架构进行采样和重新训练以获得最佳性能。与TAPS相比,这种两阶段学习过程显著增加了训练成本,与标准微调相比,TAPS的开销非常小。5. 限制TAPS的局限性在于任务彼此不共享任务特定层,即,新的任务或者学习它们自己的任务特定参数,或者与预先训练的模型共享。我们提出的联合训练方法通过学习所有任务共同的参数来解决这个问题但是,增量添加的新任务仍然不能与其他任务共享参数。在所有任务随着任务数量的增加,我们把这方面的参数共享作为未来的工作。6. 结论我们已经提出了任务自适应参数共享,这是一种通过修改一个小的特定于任务的层子集来使基础模型适应新任务的简单方法。我们表明,我们能够使用直通估计器通过特定于任务的权重增量进行门控来学习哪些层可以共享。实验结果表明,TAPS算法在使用任务相关参数的情况下,对目标任务保持了较高的准确率TAPS is agnostic to the particular architecture used, asseen in our results with ResNet-50, ResNet-34, DenseNet-121 and ViT models.我们能够发现标准和独特的微调方案。此外,在MTL设置中,我们能够通过使用任务特定权重来避免任务7569引用[1] YoshuaBengio,NicholasL e'onard,andAaronCourville. 通过随机神经元估计或传播梯度以进行条件计算。arXiv预印本arXiv:1308.3432,2013。4[2] Rodrigo Berriel,Stephane Lathuillere,Moin Nabi,Tas-silo Klein , Thiago Oliveira-Santos , Nicu Sebe , andElisa Ricci. 用 于 多 域 学 习 的 预 算 感 知 适 配 器 。 在IEEE/CVF计算机视觉国际会议(ICCV)的会议记录中,2019年10月。二四六八十一[3] Arslan Chaudhry,Marc有效的终身学习与一个宝石。2019年,在ICLR。3[4] M. Cimpoi,S.马吉岛Kokkinos,S. Mohamed,和A.维达尔迪描述野外的纹理。在IEEE Conf. 计算机视觉和模式识别(CVPR),2014年。四、十一[5] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词:大规模图像识别的变形金刚,2020年。5[6] Mathias Eitz,James Hays,and Marc Alexa.人类如何绘制物体?ACM Transactions on Graphics(TOG),31:1-2012年10月4[7] Mathias Eitz,James Hays,and Marc Alexa.人类如何ACM事务处理图表(Proc. SIGGRAPH),31(4):44:1-44:10,2012。11[8] Yuan Gao ,Jiaoyi Ma,Mingbo Zhao ,Wei Liu ,andAlan L Yuille. Nddr-cnn:通过神经判别降维实现多任务cnn中的分层特征融合。在IEEE/CVF计算机视觉和模式识别会议论文集,第3205-3214页,2019年。3[9] Yunhui Guo,Honghui Shi,Abhishek Kumar,KristenGrau-man , TajanaRosing , andRogerioFeris.Spottune:通过自适应微调转移学习。在IEEE/CVF计算机视觉和模式识别会议论文集,第4805-4814页,2019年。一、二、四、五、六、八、十一[10] 何开明、X. Zhang,Shaoqing Ren,and Jian Sun.用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议(CVPR),第770-778页,2016年。5[11]
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功