没有合适的资源?快使用搜索试试~ 我知道了~
382适用于多领域学习的RodrigoBerriel1*Ste phaneLathuilie` re2MoinNabi3TassiloKlein3Thiago Oliveira-Santos1Nicu Sebe2Elisa Ricci2,4,3,3,4,巴西1LCAD,UFES2 DISI,特伦托大学3SAP ML Research4 Fondazione Bruno Kesslerberriel@lcad.inf.ufes.br抽象Multi-Domain Learning(MDL)指的是学习一组从普通深空气中建立的模型的问题,以及一个专门用于在一个领域中执行任务的问题。画,素描,绘画)。这篇文章试图在网络参数和计算机复杂性的数值中找到特定的兴趣域特定的模型-特定的模型,具有特定的可 调 整 的 预 算 。 Our intuition is that , as in realapplications the number of domains and tasks can be verylarge,an effective MDL approach也许不只是专注于准确性,但同时也有尽可能多的参数。为了实现这一想法,我们开发了适用于适应预训练架构的领域的特定深度模型,但与其他方法不同,我们提出了一个新的战略,以自动调整网络的计算复杂性 到目前为止,我们引入了Budget-Aware Adapter,从一个新的域中选择最相关的功能频道来更好地处理数据。一些活动交换机的数量上的限制是强制性的,以获得一个网络责任-这是一个令人失望的复杂性预算。实验,我们展示了我们的方法引导我们认识到符合性竞争-有与国家的最先进的应用程序,但与存储和计算的术语中的许多lighter网络工作原理.1. 导言深度学习方法已经带来了计算机视觉中的革命性广告-机遇,在很多东西中设置了艺术的状态作为对象识别[9,14],检测[7],语义分段[4],深度估计[37],以及更多。Despite these progresses,major drawback withdeep architectures is that when a novel task is addressedtypically a new model is required.抛弃了这些进步,主要是地下建筑,当一个新的任务完成时,需要一个新的模 型 。 However , in many sit- uations it may bereasonable to learn models which per- form well on datafrom different domains.如何在许多地方,它可以是合理的,以了解不同的领域的数据。这个问题,引用了多域学习(MDL)和originally proposed in [25],已经被考虑到潜在的注意力*与MHUG一起工作(DISI,University of Trento)图1:在多域学习中,预训练模型通常适应于在新域中解决新任务。当使用标准方法时,特定领域的复杂C依赖于预训练模型。多元化。在这篇论文中,我们提出了一个新的方法来学习特定化的模型,以及为新领域的参数设置特定数量的指标。[18,20,26]举例来说,MDL的一个例子就是图像分类 的 问 题 , 即 数 据 对 严 重 的 域 的 影 响 。 naturalimages、paintings、sketches等)不同的领域,不同的领域,而不是overlap。Previous MDL approaches [18 , 20 , 25 , 26] 使 用com- mon backbone architecture(即,主目录)。pre-trained model),learn a limited set of domain-specificparameters.(先训练模型,再学习有限集合领域特定参数)这一战略具有相应的重要性,以建立一个重要的独立分类,作为内存术语保存一个重要的保存。Furthermore , it naturally deals with the catastrophicforgetting issue,as when a new do- main is consideredthe knowledge on the previously learned ones is retained.Furthermore , it naturally deals with thecatastrophicforgetting issue,as when a new do- main is consideredthe knowledge on the previously learned ones is retained.Furterained.然而,它自然地与灾难性的放弃的问题,因为什么新的主是被认为是知识。现有的应用程序在特定领域的参数被设计和在骨干架构中存在差异。4.For instance,binary masks are employed in [18,20] inorder to select the parameters of the main network that areuseful for a given task.继续阅读不同的是,在[25,26]Budget-Aware Adapter(BA2)STandard Adapters(英语:TandardAdapters)[18,20,26]花适应新领域(AdaptatiPre-Trained模型50%的预算383领域特定的需求-双块是嵌入在原始的深层建筑。不同的应用程序在分类accuracy,计算和内存需求等方面进行了分类,但不是会计。384在这篇文章中,我们认为,一种最优的MDL算法不能只获得高识别度,而不能尽可能地保持所有不同的领域中的一个参数的数量。事实上,在现实世界中,应用程序的数量可以很大,它是无法限制模型的复杂性(在内存和计算的术语中是Furthermore,it is veryreasonable to assumption that different domains and tasksmay corresponded to a different degree of differity.(更重要的是,它非常适合于假设不同的物种和不同的物种对应于不同的多样性。识别数字通常是easier而不是classifying flowers),并且可能需要不同的模型:小网络应该使用easy tasks,while模型有一个大参数数字应该被雇佣为不同的人。遵循这些想法,我们提出了第一个MDL AP- proachwhich推导出一组来自common backbone深度架构的特定领域分类,under a bud- get constraint,其中预算是特定于用户的,并且表达了网络参数的数量(参见图1)。这个想法是通过设计一个新的网络模块,所谓的Budget-Aware Adapter(BA2),可以选择与域相关的功 能 频 道 的 交 换 机 实 现 的 。 By dropping featurechannels in each convolutional layer,BA2both adapt theimage表示网络和降低计算机复杂性。Furthermore,我们建议一个约束优化问题,制定一个针对特定领域的课程,由用户提供的相关预算约束的sifiers。该计划的方法是针对两个可发表的基准,视觉De- cathlon挑战的十个数据集和六个数据集基准pro-posed [18]提出的。我们的结果显示,该建议方法与最先进的状态基线竞争,并且没有存储和计算资源。2. 相关工作多域学习Multi-Domain Learning 适应深层建筑的问题,以新颖的任务和Domains他们已经存在-六个研究在馅饼。Earlier works认为是的,双重战略,Such asfine-tuning existing pre-trained mod- els,以及追溯到灾难性遗忘和检索存储的多重特定模式。More recentstudies address the problem propos- ing方法,通过添加几个特定参数来扩展现有深度建筑的能力。以这种方式,作为参数的原始网络是没有触摸,灾难性的注定问题是natu-rally circumvented。”““现在,“Rebuffi等人。[25]在- troduced residual adapters,即这是一个新的设计,用于嵌入特定于任务的组件的残留块。在一个subse- quent工作[26],他们提出了一个未被充分利用的建筑结构,其中适应者的拓扑结构是平行的比一系 列 。 罗 森 菲 尔 德 等 人 。 [27] Employed ControllerModules to constrain newly learned parameters to belinear combi使用控制器模块组成新的线性参数Nations of Existing Nations 存 在 的 国 家 Weight-basedpruning has been considered in [19] to adapt a neuralnetwork single to mul- tiple tasks.(基于天气的捕捉已被考虑在内[19 ])在存储terms of storage,more recentworks proposed to adept binary masks [18,20]中,当存储的总开销减少时,会出现一些特定于二进制的参数。 特别是,while in[18]简单乘法二进制掩码被用于指示什么参数是,什么不是用于新的任务,[20]目的是更一般的公式考虑进一步的转换。胡和阿尔。[8] proposed an adap-havefine-tuning method and derived specialized classifiers byfine-tuning certain layers according to a given targetimage.[8 ]这是一个很好的调整方法,并推导出一个特定的分类这些工作是如何考虑到一个监督学习设置,学习任务特定参数的想法,它也在强制学习中被认为是有效的 。 For instance Rusuet al. [29] proposed an approachwhere each novel task is addressed by adding a sidebranch to the main net- work.在主网络上添加一个分支 。 While our approach also aims at developing archi-tures which adapts a pretrained model to novel tasks我们的目标是第一次自动解决特定模式的复杂性问题。增量与终身学习Incremental and Life-Long Learning 在最近几年的严格工作已经附加的问题,包括精神[2,24]和生活长期学习[1,11,16],考虑不同的战略,以避免灾难性的学习。4.最后,Li和Hoeim [16]建议采用知识去剖析,以证明这个模型适应新的任务对旧的人也同样有效。柯克帕特里克等人。[11]他认为,避免老问题的一个好策略就是选择性地减少学习对你的任务很重要。[1]癸酉(初七),大赦天下。presentedMemory Aware Synapses,where the idea is to estimatethe importance weights for the network parameters in anunsu- pervised manner in order to allow adaptation tounlabeled data stream.目前内存Aware Synapses,其中的想法是估计网络参数在一个unsu-被执行的管理员在命令到低适应无标签数据流中的重要性。However,while these works are interested in learning over multipletasks in sequence,in this paper we focus on a differentproblem. However , while these works are interested inlearning over multiple tasks in sequence.在本文中,我们专注于一个不同的问题。re-configuration an existingarchitecture under some resource constraints重新配置一个现有的架构under some resource constraints。Adaptive and Resource-aware Networks自适应资源网络。 设计深架构的指令,需要一个适应性的适应性的适应性-效率的权衡取舍,在运行时已经在研究社区最近增加了研究。下一篇:Wuet al[36]提议BlockDrop,一个方法,使一个Residual Network的选择性下降在测试时间以降低计算成本降低预测准确性。王et al。intro- duced novel gating functions to automatically at testtime基于当前网络输入的计算图。Slimable Networks已经引入了[38]目的是为了调整网络的宽度与资源限制。While our approach is inspired by these methods,in385this paper we show that the idea of dy- namicallyadjusting the network according to resource con- straintsis specially beneficial in the multidomain setting.当我们的方法是由这些方法激励的,在本文中,我们展示了关于迪的想法- namically 调整网络对资源的定义-straints在多域设置中是特别有益的。386AAAAA3. 适用于MDL的 Budget-Aware Adapter在多领域学习(MDL)中,谷歌正在学习一种可以用于娱乐视觉领域的单一模型,例如来自网络的图像,医学图像,绘画等。重要的是,当视觉对象不同时,模型必须适应其图像表示。到MDL地址,我们遵循共同的方法[18,25],即一致性学习卷积神经网络(ConvNets),共享其参数的主要部分,但分配了一个有限的数字,其中包括针对each域的特定附加参数。Formally , we consider an arbitrary pre-trained NetConvNet凌晨0(·;θ0):X→Y0withparametersθ0thatassignsclasslabelsinY0toelements of an input spaceX(例如,y 0到元素的输入空间X)图像)。我们的目标是让我们学习域名d∈ {1,2} 。 . . , D} , A classifier 我 要 ( ·;θ0 , θd ) :X→Ydwithapossiblydi f ferent output space Ydthat sharesthe vast majority of its param- eters θ0but exploitsadditional domain-specific parameters(θ 0,θ 4)θdto adaptwiss to the domaind.使愿望适应领域D。在这篇文章中,我们提出了一个有效的方法。MDL 需 要 特 定 领 域 的 笔 数 。 In other words , thecardinality of eachθd parame-tter set should be negligiblewith respect to the cardinality ofθ0.换句话说,θ 0的基数是重要的。1999年:《That One Major Drawback ofPrediction》图2:Budget-Aware Adapter(BA2):一个媒介适配器(BA 2):一个媒介控制器激活转换信道,以便使网络适应新的域,并使其仅与-假定的复杂性。Dark greyarrays represents channels that are是 一 个 标 准 卷 积 层 的 值 。 Here2KH+1 and2KW+1denote the kernel size andC the number of inputchannels.(2 K H+ 1and 2 K W + 1 denote the kernelsize and C the number of input channels )注意K是param的子集- etersθ0在第3节中引入。考虑到一个标准的2D卷积,an input feature map I ∈ RH×W×C和anactivation function g,the output value at the location(i,j)∈ [1.](1)× 1?(1)Given by:我们的MDL方法是,网络计算使用-lexity直接推断自pre-trained network凌晨0。更准确地说,新领域的网络渴望通常具有与初始化网络中的一个相同的计算复杂性。加油,such mod,x(i,j)=gφwherec is given by:. ΣCC=1φc(i,j)Σ,(1)他们也收藏了《Complexity for deployment since theuser cannotad- just the computational complexity of乐团depending on its》[FLAC]φc= ΣKHHΣKWK(h,w,c)I(i-h,j-w,c)。 (2)needs or on硬件约束To address this issue,we introduce novel modules,theBudget-Aware Adapters(BA2)that are designed bothfor enabling a pre-trained model to handle a new domainand for controlling the network complexity.(BA 2)我们引入了新模块、布代-Aware适配器(BA 2),这些适配器被设计用于运行一个预先训练的模型以处理新域并控制网络复杂性。关键思想是be- hindBA2是that theparametersθd control the use of the convolution operationsparametrized byθ0 .计算公式的参数θ d控制变量的使用。因此,BA2可以学习如何将其部分计算图删除,并将参数θ0的部分导出为具有lower计算复杂性的模型序列,并将其参数加载到推断时间。In the following,we first describe theproposedBudget-Aware Adapters(Subsection 3.1)thenpresent the training procedure we introduced to learn.在后续 , 我 们 首 先 描 述 了 推 荐 的 采 购 -Aware adapters(Subsection3.1),然后存在我们引入学习的培训过程--For the sake of simplicity,the kernel parameter tensorK is indexed from − K h to K h and from −K w to Kw. For thesake of simplicity,the kernel parameterK is indexed from −K hto K hand from −K wto K w .为简单起见,内核参数tensor K是从-K h到K h索引到K h。当学习一个新的领域d时,我们的目标是通过控制convo- lution layer的each通道的使用来适应到目前为止,我们引入了一个额外的二进制交换机矢量S∈ {0,1}C。这向量是第三节中引入的θd的子集。作为shown in Figure3.1,each switch value is used for an entire channel.的影子在3.1,交换机值为一个entire通道使用。As a con-sequence,BA2results in a limited number of additionalpa-拉姆特尔斯在公式中,拟合卷积在位置(i,j)的输出为given by:具有预算约束的领域特定模型(Subsec-3.2)。3.1. Adapting Convolutions withBA2的相关歌曲x(i,j)=g. ΣC387C=1Σsc φc(i,j)(3)我们现在描述了我们的预算-Aware适配器illustrated在数字2。10. Since,BA2LetK∈R2KH+1 2KW+1 ×C成为内核注意,whensc=0,the tensorφc in Equation(3)does notneed to be computed。在这种背景下,通过在c中调整零的比例,我们可以控制convolution layer的计算复杂性。Furthermore,in Equa- tion(2),whenφc is notcomputed,the kernel weights values(英语:The kernelweights values)388AAAK(h,w,c)可以从计算机图中被删除,而不需要被存储。事实上,当参数K的初始值未被使用时,则K(h,w,c)的值可以被丢弃到一个参数的值。Thus,sccan also control the number of parameters of thenew domain net- works.(点击查看原文)为了得到一个可以通过Stochastic Gradient Descent被训练的模型,我们遵循[10,18]和obtain binary valuesusing a threshold functionτ:.3.2. 适用于MDL的培训预算软件适配器我们现在已经详细说明如何将BA2用于MDL。作为在第3.1节中解释的,我们遵循了适应新模型的前瞻性模型的策略。Therefore,when learning a new domain,we consider thatθ0 is provided and we keep it fixed for thewhole training procedure.因此,学习过程可以被分割成独立训练,以实现单一领域的结果训练。请注意,类似于[18,20,25],我们使用批处理-规范化参数,特别是针对each域。跑步-C=C=C=0,≤0。0(4)Thermore,as shown in [38],using different number ofchan.使用不同的陈数1otherwise其他其中,s∈R是连续变量。Simi-larly to [10,18],duringbackward propagation,the τ function- tion is reacced bythe identity function to be able to back-propa g to the errorand update s.在后台传播时,配置函数被身份函数替代,可以返回- propa g to the error andupdates。当我们在训练时学习时,我们只需要在测试时使用二进制的c值,直接向小存储要求。(1 bit persc)比较其他多域方法,一般使用附加的32位浮点-点数字[25,26,27],BA2结果在一个多光存储。《我的祖国2》具有以下几个特性:Adapting image representation:在BA2中,φ c功能可以被解释为一个过滤器银行,而交换机vectors可以被理解为一个过滤器选择器。依赖于域,不同的交换值可以被人选择与所考虑的域相关的特性。低计算机复杂度:训练结束后,所有的老师|sc = 0 }can be removed of the computational graph ,resulting in a lowercomputationalcomplexity.(s c= 0 } can be removed of the computational graph ,resulting in a lower computational complexity.)计算图可以被移除,导致计算复杂性降低。More精确地说,计算复杂性是成比例的:不同的特性意味着不同的变量和不同的A。因此,共享批处理标准化图层执行时间有限。因此,我们使用不同的批处理-规范化图层来实现预算。请注意,在一个批处理-规范化层中的pa- rameters的数字是太多了,在卷积层中,这个解决方案不是重要的增量f- icantly the number of additional parameters with respectto the size ofθ0.按照第3节中引入的注释,θdnow denotes the set ofall the switch valuessc and the addi- tional batch-normalization parameters。考虑到一个新的域名d,愿是训练使用一个损失L.In the case of clas-sification,weemploy the cross-entropy loss for all the--Mains。在BA2的背景下,我们在预算约束下训练渴望。Formally , we formulate the optimiza- tion problem asfollows:我们制定了优化问题,作为关注点:我们将L与 respect 最 小 化 到 BA2 参 数 θ dsuch that the networkcomplexity satis- fies a target budget β∈[0,1]。For eachnewdomain , wehavethefollowingconstrainedoptimization problem.(为找到新的领域,我们得到了后续的限制优化问题)θd*=arg minL(θ0,θd)(6)A A AD1ΣCAC=C C=1sC.(5)S. t。θd≤β(7)其中θ\ddenotesthemeanvalueoftheswitchinθd.注:uncomputed operations are grouped in chan-aNels allowing fast-GPU implementation。低存储量:第一,附加参数的数字从方程式(6),我们构建了普遍的拉格朗日function and the associated optimization problem:是一个小的父亲比较到内核参数的数量θd*Σd� D�D根据基地网络。第二,在测试时间,附加开关参数可以存储在二进制中。A= ARG分DAA(θ0,θa)+max(θa − β)(8)λ≥02、低内核存储(1-bit per kernel chan- nel)4.最后,值{K(h,w,c)}|s c= 0} can be dropped,obtainingmodels with fewer parameters for the new domains.(如果有新的领域,使用Fewer参数来实现模型)再次,参数的数量是在方程(5)中向C提出的。Low Memory Footprint:Reducing the Computer计算机复杂性,不一定减少记忆的脚-print at testing time打印时间为了有效地减少内存足迹,需要减少内存需求,所有操作在计算图中,作为[31]的stated.Given thatBA2 works on the level of convolutionoperation , it can also control the memory footprint.(Given BA 2在convolution操作级别上运作,它可以控制内存足迹。θθ389ATheλ is known as the Karush-Kuhn-Tucker ( KKT )mul- tiplier,2009年1月22日等式(8)是通过随机梯度下降(STD)进行优化的。当预算已经确定时,λ=0,而Equation(8)对应于L最小化。当需求未得到满足时,在添加到Lmini- mization,the SADsteps also lead to an increase of λ which in turnincreases the impact of the budget constraint on L.当需求未得到满足时,在添加到L mini- mization时,theSAD steps also lead to an increase ofλ which inturn increases the impact of the budget constraint onL .当需求量增加时,在L上增加了预算的影响。在不同的预算下建立不同的网络训练是独立地进行β值训练。当β为set to 1时,等式(6)中的约束为任何θd都满足。在最小化损失中的问 题 ( Problem constits in a loss minimation-problemover the parametric network family defined by)390D方法ParamsImNet的Airc。C100DPed的DTDGTSRFlwr。Oglt。SVHNUCFMEANS-Score特性[25]159.723.363.180.345.468.273.758.843.526.854.3544最后出版[25]1059.960.382.192.855.597.581.487.796.651.276.52500《天龙八部》[8]1160.363.980.596.557.1399.585.2288.896.752.378.13612[25]【27】吴亦凡[26]【26】[18P]WTF [20]22.1721.281.2959.7 86.781.2 93.9 50.9 97.1 66.289.6 96.147.557.7 64.1 80.1 91.3 56.5 98.586.189.796.849.464.3 64.281.994.7 58.8 99.4 84.7 89.2 96.550.957.379.997.057.5 97.3 79.1 87.697.247.560.882.096.258.7 99.288.289.2 96.848.673.977.078.176.677.221182851341228383497BA2(Ours)β =100)1.0356.949.978.195.555.199.486.188.796.950.275.73199BA2(Ours)β = 0(75)1.0356.947.078.495.355.099.285.688.896.848.775.23063BA2(Ours)β = 0(50)1.0356.945.776.695.055.299.483.388.996.946.874.52999BA2(Ours)β = 0(25)1.0356.942.271.093.452.499.182.088.596.943.972.62538Table 1:Results in terms of accuracy and S-Score,for the Visual Decathlon Challenge(表1:accuracyand S-分数,视觉十项挑战的结果)最佳平面设计Best Model in Bold,Second Best Underlined达到0。此场景符合一个多域场景标准,没有考虑预算为 [18 , 20 , 25 , 27] 。 当 β1 , 我 们 结 合 了 both re-parametization 和 budget-adjustable abilities 的 Budget-Aware Adapter。在这种情况下,目标是实现最佳的性能模型,这取决于预算。它是重要的要注意,网络的实际复杂性,训练后,可以超过用户定义的一个,包括β=1的情况。注意,在方程式(6)中,预算约束是针对整个网络复杂性的一个约束。在实践中,它可以是首选的约束eachBA2到满意的独立的预算约束下的顺序,以最大的传播与- putation over the layer and ultain a lower foot-print内存。In this case,KKT multipliers are added inEquation在这种情况下,(8)为each convolution layer。4. 实验结果[2019-12-23]·更多关于中国的新闻,请参考[25]。As for the second benchmark , we follow previousworks [18 , 20] and consider the union of six differentdatasets.(我们遵循第二个基准,预见性的工作[18,20 ]并考虑六种不同数据集的统一:ImageNet [28],VGG-Flowers [23],斯坦福大学Cars [12] 、 Caltech-UCSD Birds ( CUBS ) [35] 、Sketches [6]、WikiArt [30]。这些数据是非常不一致的,购买类别的广泛范围(例如,Cars [12] vs Birds[35] and a large variety of image appearance ( 英 语 :Cars [ 12 ] vs Birds [ 35 ])[ 28 ]自然之理[28],艺术之理[30],绘画之理[6]。准确的指标。Both benchmark are designed to ad- dressclassification problems.(针对广告分类问题,两个基准都被设计了。因此,作为普通实践经验[18,20],我们报告了each领域的准确性和在领域的平均准确性。此外,该score functionS,作为introduced in [25],被认为是对N个域的jointly帐户。测试错误和d模型在域d上是比较到测试错误模型Emax。The Score is Given byS(结果是由S引起的)ΣND=1Dαmax{0,Emax{E} d}2,其中α是一个缩放.在这一部分,我们现在实验methodol-使用ogy and metrics来评估我们的方法Moreover,wereport the results and comparisons with state of the artMDL approaches ( Subsection 4.1 )
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功