没有合适的资源?快使用搜索试试~ 我知道了~
通用多任务学习的神经结构搜索方法
11543MTL-NAS:面向通用多任务学习的高元1、白浩平2、杰泽群1、马佳一3、奎佳4、刘伟1、腾讯AI实验室2、卡内基梅隆大学3武汉大学4华南理工{ethan.y.gao,bhpfamiliar,zequn.nus,jyma2010}@ gmail.com,kuijia@scut.edu.cn,wl2223@columbia.edu摘要我们建议将神经结构搜索(NAS)纳入通用多任务学习(GP-MTL)。现有的NAS方法通常根据不同的任务定义不同的搜索空间。为了适应不同的任务组合(即,任务集),我们将GP-MTL网络分解为单任务骨干(可选地编码任务先验),以及跨它们的分层和逐层特征共享/融合方案。这使得我们能够设计一个新颖的和通用的任务不可知的搜索空间,它插入跨任务边(即,特征融合连接)到固定的单任务网络骨干中。此外,我们还提出了一种新的基于单次梯度的搜索算法,该算法缩小了搜索架构与最终评估架构之间的性能差距这是通过在搜索阶段对架构权重进行最小熵正则化来实现的,这使得架构权重收敛到接近离散的值,从而实现单个模型。因此,我们搜索的模型可以直接用于评估,而无需从头开始(重新)训练。我们在各种任务集上使用不同的单任务骨干进行了广泛的实验,证明了通过利用分层和逐层特征获得的有希望的性能,以及对不同i)任务集和ii)单任务骨干的期望的通用性我们论文的代码可以在https://github.com/bhpfelix/MTLNAS网站。1. 介绍近年来,深度神经网络取得了巨大成功。它以自动和端到端的方式集成了分层特征提取和优化[24,26,30,57]。虽然深度学习算法可以缓解* 随机顺序的平均贡献。†在腾讯人工智能实验室完成的工作但是,对于特征工程的研究人员来说,他们仍然需要精心设计的神经结构。最近,神经架构搜索(NAS)在自动化深度神经架构的设计方面受到越来越多的关注[71]。NAS方法已经在各种计算机视觉任务上产生了高度竞争性的架构,例如图像分类[5,8,9,25,35,43,59,71],对象检测,[7,14,66]和语义分割[33,44]。另一种提高深度神经网络性能的范例是多任务学习(MTL)[29,51]。多任务学习通过同时学习多个相关的任务在许多应用中取得了成功。这一成功主要归功于两个关键因素,不同的任务产生多个监督信号,i)在不同的任务之间施加额外的正则化,以及ii)在标签上产生隐式数据增强[13,51]。transmittMTL方法在所有任务之间共享单个卷积特征提取器,并为每个任务保留单独的头部它隐含地假设所有学习的分层和逐层特征是相同的,并且能够在所有任务上表现良好。最近的研究表明,这种假设并不总是成立[42],即,不适当的特征共享可能会导致某些任务的负迁移,从而导致性能下降[51]。考虑将NAS合并到通用MTL(GP-MTL)中以追求更好的架构是很自然的。为了使GP-MTL受益,NAS算法必须适应不同的任务(或任务的不同组合,即,任务集,在MTL中)。然而,现有的NAS在设计上禁止这样做,因为搜索空间通常在不同的任务之间是不同的。基本上,搜索空间中的那些差异反映了不同的任务先验(例如,参见语义分割的先验如何在Auto-Deeplab中编码[33])。但是当在多个任务上学习时,将多个任务的先验编码到搜索空间中是非常困难的,特别是当任务是松散相关的时。我们解决这个困难,从GP-MTL的功能共享/融合方案的任务之前解开。更11544图1. 建议的通用MTL-NAS的问题制定。我们将GP-MTL网络分解为固定任务-具体的单任务主干和它们之间的一般特征融合方案。这允许我们定义一个与任何任务组合兼容的通用任务不可知搜索空间,如最左边的子图所示。右上角的子图说明了任务间融合操作,该操作由NDDR-CNN [13]激发并扩展。我们在右下角的子图中显示了融合操作的初始化。当我们在固定的和经过良好训练的单任务网络主干之间插入新的边时,我们希望在初始化时对每一层的原始输出产生最小的影响(即,以大的Wt初始化)(最好以彩色观看)。具体地,我们将GP-MTL范例公式化为包括i)多个单任务骨干网络(可选地编码任务先验),和ii)跨不同骨干的一般的、分层的和逐层的特征共享/融合方案(请参见图11的最左边的子图)。1)。该公式使我们能够为GP-MTL1设计一个通用的任务不可知的搜索空间。具体来说,我们从多个固定的单任务网络分支开始,将每个中间层表示为节点,并将相关的特征融合操作表示为边。因此,该问题来寻求任务间节点对之间的最佳边缘,其中搜索空间是统一的任何任务集。此外,我们还提出了一种新的单镜头梯度为基础的搜索算法,关闭性能差距之间的搜索和评估。具体而言,注意到在搜索阶段获得的验证性能并不总是推广到评估。从根本上说,这是因为在搜索阶段优化的架构混合通常无法收敛到离散架构,导致在导出最终架构时性能下降[64]。我们通过在搜索阶段通过熵最小化减少架构的不确定性来解决这个问题,从而直接产生单个模型进行评估,而无需从头开始(重新)训练,这显著减少了流行的基于单次梯度的NAS算法中存在的性能差距[35,64]。请注意,我们在本文中专注于GP-MTL。该方法能适应不同的任务组合,生成不同的任务间结构。我们固定的单任务骨干分支和搜索良好的任务间的层次和分层的特征融合/嵌入的边缘。我们还注意到特定骨干网的任务先验(例如,语义分割中的大卷积核)可以被利用以进一步提高性能1请注意,只有搜索空间是与任务无关的,搜索的架构是灵活的,并且可以针对不同的任务组合而有所不同。在这些任务。但是学习特定任务的主干体系结构本身超出了我们的GP-MTL范围。相反,我们设计了一个任务无关的搜索空间来学习特征共享/融合架构。我们还通过将所提出的方法应用于不同的骨干架构来验证GP-MTL方法的一致性能改进[13,42]。总之,我们的贡献在于搜索空间和搜索算法:• 搜索空间:我们定义了一个新的任务不可知的搜索空间,使我们能够利用层次和GP-MTL的分层特征融合方案,从固定的单任务网络骨干内的任务先验中解耦。这也使得我们的方法不同于当前的NAS范例,在当前的NAS范例中,我们正在搜索/插入新的任务间边缘到固定的和训练有素的网络骨干中。• 搜索算法:我们提出了一种新的单镜头基于梯度的搜索算法。它弥补了搜索阶段和评估阶段之间的每一次差距阶段。我们通过对架构权重进行最小熵正则化来实现这一点这使得架构混合物能够收敛到单个模型/架构,该模型/架构将直接用于评估,而无需从头开始进行架构修剪或重新训练。2. 相关作品神经架构搜索。最近,出现了许多神经架构搜索(NAS)方法来联合学习权重和网络架构[4,6,12,14,22,31,34,41,44,45,71]。这是通过各种搜索算法实现的,包括贝叶斯优化[3],再增强学习[18,58,72],进化算法[49,63],网络变换[11,17],梯度去-气味[1,33,61,70]。很多作品都采用了单镜头11545JJJJJJ学习策略(即,共享模型权重并对不同的架构进行采样),这大大减少了搜索时间[2,19,47,53]。我们的工作是建立在单镜头基于梯度的搜索方法,我们提出了一种新的搜索空间和一种新的搜索算法,适合于多任务架构学习。我们的搜索算法与这一类别中的两个流行算法直接相关,即,[35][36][ 37][38][39][39]分析了DARTS中的客观偏差和SNAS中的抽样方差,提出了统一的解决方案,熵最小化,以缓解这两个问题。最近,MTL和多模态学习已经使用NAS进行了开发[32,45]。我们的方法与这两种方法不同,我们将问题分解为特定任务的主干和一般任务间的特征融合连接,从而设计了一个统一的搜索空间来实现通用的MTL-NAS。多任务学习。多任务学习已与深度神经网络集成,通过同时学习多个任务来提高性能。已经在各种领域中见证了巨大的成功,例如检测[15,16,23,50,54,55]、深度预测和语义分割(也是表面法线预测)[10,65]、与人类相关的任务[21,48,60,62,68]等。我们的工作杠杆-年龄NAS走向GP-MTL,(或其搜索空间)与任何任务组合兼容[27,29,36我们的方法(或更具体地说,我们的搜索空间设计)主要受到最近研究的启发,包括十字绣网络[42]和NDDR-CNN [13],这使得能够将GP-MTL视为与特定任务骨干网络解耦的任务间特征融合方案我们的方法通过允许任意数量的源特征的融合来扩展[13,42]此外,我们的方法可以自动学习更好的融合位置,而不是将融合操作插入到[13,423. 问题公式化我们在本节中介绍我们的问题公式化。首先,我们展示了如何剖析GP-MTL问题,通过解开特定于任务的骨干网络和一般的任务间特征融合在节。第3.1条在3.2节中,我们正式提出了我们的任务不可知的搜索空间,我们的策略是将多任务体系结构分解为一个包含特征融合连接和任务特定子网络的(通用)共享结构,并使用NAS优化共享结构。GP-MTL [13,42]中的最新研究启发我们将单任务骨干制定为任务特定部分,同时专注于设计具有独立于不同任务组合的通用任务不可知搜索空间的特征融合方案。我们在图的最左边的子图中说明了固定的单任务骨干网络和可学习的任务间融合边缘。1.一、3.2.搜索空间基于上述讨论,我们正式描述了GP-MTL的任务无关搜索空间。我们考虑与[42]中描述的相同的GP-MTL场景,其中两个任务A和B共享相同的输入。我们的目标是通过在两个训练良好的单任务网络上学习良好的任务间特征融合边来构建多任务网络我们的目标是通过在每个固定的单任务网络的每个中间层添加有向边来搜索有向无环图(DAG)(请参见图1最左边的子图)。1)。每个有向边(即,计算)从源特征指向目标特征。在GP-MTL框架中,我们有两种类型的源特性。考虑任务A上的学习,我们将来自同一任务A的源特征表示为任务相同的源特征。来自其他任务的源特征是任务相对源特征,其提供来自相对任务的互补特征。我们固定的任务相同的源边缘和搜索可能的任务相反的源边缘的完整集合。形式上,我们的目标是计算第j个目标层Oj处的最佳融合特征,利用任务相同的源特征FTI和候选任务相反的源特征STO的完整集合。建设STO的大小决定了我们搜索空间的范围。 为了为了避免在由此产生的多任务架构中产生循环结构,我们将候选任务相对源特征的索引限制为不大于j。我们将这种有限的候选任务相对源特征集表示为ST0=ST0。[FTO,···,FTO]。因此,我们的搜索空间与统一用于不同的任务组合。最后,我们详细介绍了0j我们在Sect. 三点三3.1. 任务特定骨干网络与通用任务间特征融合可以说,将NAS集成到GP中的主要困难-利用任务相同的源特征,FT1可以由元组(ST0,C)来表征,其中C是FT1和ST0上的融合运算。最后,最佳融合特征Oj为:. -是的ΣΣOj=C(FT I,STO)=GH[FT I,zOjR(FTO),.,zjjR(FTO)]、MTL是针对不同的搜索空间设计的差异j j j 0J(一)不同的任务。这是因为搜索空间根据定义应该反映相关任务的归纳偏差。GP-MTL的情况甚至更加严格,因为我们有指数更多的任务组合(即,任务集)。其中C={G,H},G是非线性激活,H是特征变换。R是空间上的分级操作(例如,双线性内插)以实现连接。每个zij是一个二进制指示符,表示是否存在11546TI TOTOα埃尔门ments..联系我们ΣΣ.吉吉·吉0j= ReLUBN[wT II,wTOI,., wTOI][FT I,z0]R(FTO),.,zjjR(FTO)]=ReLU BN[wTIFt+wTOzjjR(FTO)]j0jJi=1J(三)从第i个任务相对源节点到第j个目标节点的边,其将通过NAS算法来优化对于每个具有n层的两个任务,该通用搜索空间可以产生2n(n+1)个候选融合架构,包括最先进的NDDR-CNN [13]和交叉融合。[42]这是一个特殊的例子。3.3. 任务间特征融合操作我 们 遵 循 NDDR-CNN [13] 来 设 计 我 们 的 功 能trans.com。形成H={1. x1C_( ?)}和非线性作用G={ReLUBN(?)}。请注意,我们在Eq. (1)概括了NDDR-CNN,因为我们可以采取任意数量的输入特征,这使得能够收敛到异构和非对称体系结构 2。我们在Eq.(1)变成下面的等式。(2),这也显示在右上子图的图。一曰:从根本上说,在搜索和评估架构的不希望的不一致性是由连续松弛和离散化程序的单次拍摄的基于梯度的搜索算法。为了更好地理解这一点,我们首先讨论了连续松弛和离散化节。4.1. 基于此,在Sect。4.2.分析了确定性连续松弛与确定性离散化不一致所引起的客观偏差。我们注意到,提出随机SNAS [64]是为了解决客观偏差,但它可能会引入较大的抽样方差,导致评估性能不稳定。最后,我们提出了最小熵正则化,以减轻这两个问题,并提出我们的优化过程中节。四点三。4.1. 连续松弛与离散化.Oj=ReLU.ΣΣBN1x1Conv[Fj,z0jR(F0 ),…,zjjR(Fj )的情况下] -是的(二)典型的基于单次激发梯度的方法通常包含两个阶段,即,i)连续松弛和ii)离散化。连续的弛豫使得梯度我们还注意到H的初始化(即,1×1卷积)是重要的,因为我们正在插入新的边缘固定的训练有素的单一任务骨干因此,应避免每一层的原始单任务输出发生剧烈变化形式上,我们显示了方程中操作的初始化。(三)、由方程式I是单位矩阵,它使我们能够专注于仅初始化1×1卷积中的块对角元素,wTI和wTO分别是任务相同源和任务相反源特征的初始化权重我们根据经验设置wTI+jwTO=1,并初始化一个类似于[13,42]的大wTI初始化在图1的右下方子图中示出。1.一、4. 搜索算法在本节中,我们将介绍我们的基于单次梯度的搜索算法,该算法优化了元网络上的模型权重和架构权重(即,该网络包括由搜索空间定义的所有合法连接)。我们的方法是能够减轻搜索和评估架构之间的性能差距,其中性能差距是由搜索的混合物archi-tectures和衍生的单一评估架构在以前的单镜头基于梯度的搜索算法之间的不一致性造成的。[2]请注意,很容易将更多的候选操作合并到H和G中。我们已经测试了将求和包括到H中,但目睹了一个可忽略的改进。因此,为了简单起见,我们固定了H和G的设计进行计算和反向传播,以搜索architec-实际上,NAS方法的原始目标是离散的和不可微的。由于搜索阶段通常会收敛到一个混合模型(具有许多介于0和1之间的架构权重),因此我们需要通过离散化导出一个单独的子我们将网络Z的连通性表示为一组随机变量Zij,其中Zij是从由 架构 权重 αij,即, Z={Zij}距离(α ij)|在搜索空间中的i(i,j),其中i,j是FER到源节点(即,输入位置)和tar。获取节点(即,执行相关操作的输出位置)。在这里,离散采样分布可以是分类或伯努利,这取决于是否有多个或只有一个候选操作搜索。我们使用伯努利分布来呈现我们的问题,因为在我们的搜索空间中只有 NDDR 特 征 融 合 操 作 ( 见 第 二 节 ) 。 3.3 和 Eq.(2)),但是注意,所提出的搜索算法是通用的,并且也可以与多个候选操作一起使用。我们将所有融合连接的多变量抽样分布表示为pα(·), 其中α为{α ij|搜索空间中的{i,j}。建筑搜索目标是[46,64]:minEZ<$pα(Z)[Lθ(Z)],(3)其中θ是CNN权重的集合,Lθ(Z)是损失函11547数。11548θ0JΣj0j采样(离散)架构Z的作用。为了使用基于梯度的方法优化α,一种解决方案是将离散采样过程Zpα(Z)放松为连续的:确定性放松。 确定性方法4.2. 客观偏差和抽样方差确定性方法的客观偏倚。Eqs.(5)和(10)在放松的父代和离散化的子代之间引入了客观偏差:例如DARTS直接维持和优化混合物。.. L(α)− L(Ind(α)). ≥ 0,(11)的建筑。对于Bernoulli随机变量Zij<$Ber(αij),它直接用分布均值代替离散样本,即 Z ij= α ij。因此,Eq的放松目标。(3)Eq.(1)成为:最小L(α),(4)α.θθ。其中Lθ(α)是搜索优化的目标,Lθ(Ind(α))是我们旨在使用实际评估架构Ind(α)最小化的真实目标。备注1由于复杂性和架构依赖性.t1到为了研究L θ的性质, 很难推断出所有的情况,Oj=GH[Fj,α0jR(F0),...,αjjR(Fj)].(五)L(α)=L(Ind(α))。 相反,对于定义明确的L,θ θ θ随机松弛。SNAS [64]使用混凝土分布[39]的重新参数化技巧在搜索期间对架构进行采样,同时允许梯度通过采样过程反向传播。重新命名的多元伯努利是:即,x=y=<$Lθ(x)=Lθ(y)和Ind(α)附近的局部Lips-chitz连续性,我们可以简单地迫使α接近0或1,从而实现α = Ind(α),最终Lθ(α)=Lθ(Ind(α))。我们通过对α应用极小熵正则化来实现这一点。X=11 +exp(−(log(α)+L)/τ)qα(X),(6)随机方法的抽样方差。 当τ=0时,随机方法不存在客观偏差,其中X是Z的连续弛豫,即,每个en-try在X中取[0,1]中的连续值,并且L=(L1,L2,···,Ln),其中Li≠Logistic(0,1)。当温度τ趋近于0时,X中的每个元素平滑地逼近离散二项随机变量。因此,Eq.(3)和Eq.(1)成为:minEX<$qα(X)[Lθ(X)],(7)因为培训和评估目标与Eq相一致。(8)3.然而,在收敛后对子方差进行采样时确实存在(可能很大)方差如混凝土分布[39]所示,当温度τ退火到0时,x ij以概率α ij采样到1,即, lim P(x ij= 1)= α ij. 注意,α ij为τ→0在搜索优化期间没有很好地正则化。当αij收敛到0.5,xij的采样随机选取0αOj=G. -是的TIH[Fj,x0jR(FTO),.,xjjR(FTO)]Σ、(8)或1,这导致不稳定的评估。我们的经验结果在图。2、证明这在实践中是可以实现的。其中,xij是从源节点i到目标节点j,即,X={x ij| ∀(i, j) in the search space}.在两个放松目标收敛到α ij∈ [0,1]的混合模型,需要离散化以导出单个子模型进行评估:确定性离散化。这是DARTS中使用的离散化方法,它简单地保持与最高架构权重的连接。对于我们的二进制30201000.00.2 0.4 0.6 0.8 1.0案例:.Ind(αij)=1, 如果α ij>0。五、0, 否则,(九)图2.在最小熵正则化和非最小熵正则化条件下,给出了随机连续松弛收敛α的直方图.其中Ind(·)是指示函数。因此,最终的离散化子网络是:这表明最小熵正则化有效地正则化了α的分布.Oj=G H.ΣΣ[FTI,Ind(α0j)R(FTO),...,Ind(αjj)R(FTO)]。收敛后的值直方图用熵最小化不用熵最小化频率.4011549(十)通过等式X采样的方差(六)、我们从0到1均匀地绘制25个bin,其中每个bin表示0.04的区间(最佳颜色)。随机离散化SNAS的离散化注2:最好在上已经发生在搜索优化Eq. (七)、搜索收敛后,SNAS采样一个孩子architec-αij 以避免它收敛在0附近。5、减少每个xij的真实性,根据等式(6)收敛的α且τ=0,得到与等式(1)相同的形式(八)、抽样方差。有趣的是,这样的动机也3注意,当τ不为0时,在搜索阶段存在偏差 [39]。11550θθi=1i=1j=1j=1使我们最小化αij的不确定性。我们也通过αij上的最小熵正则化来实现这一点。总之,所提出的最小熵正则化既消除了确定性方法的客观偏差,又消除了随机方法的采样方差,这使得搜索优化收敛到一个可供评估的单一模型。4.3. 损失与优化在施加最小熵正则化之后,我们的问题对于确定性和随机版本的全部损失在等式中示出。(12)和(13):L(α)=LA(α)+λLB(α)+γλH(α),(12)图3.提出的搜索算法的整体程序。搜索到的边的线宽(红色实线)表示收敛的架构权重。我们的方法在搜索阶段对架构权重进行了最小熵正则化,这使得搜索优化(b)接近于(c),因此避免了训练阶段,并实现了θθθ尼伊季i、j更好的表现,更少的训练时间。相反,如果-外部结构加权熵最小化(例如,DARTS),(b)L(X)=LA(X)+λLB(X)+γ<$H(α),(十三)和(c)可能非常不同,这需要重新训练模型θθ θ尼伊季i、j(c)从头开始的权重(最佳颜色)。其中H(α ij)= −α ijlog α ij−(1 −α ij)log(1−α ij)是α ij的熵,γ是正则化权重,LA和LB是任务A和B的损失。 随机方法的X是从等式中的qα(X)中采样的。 (六)、我们对α和θ的优化迭代了以下步骤:1. 对两批不同的训练数据进行采样X1={xi}n,标签Y1={yi}n且X2={xi}n用标号Y2={yj}n,其中X1<$X2=n。2. 计算网络输出O1的X1与任一确定性方程.(5)或随机方程。 (8)给定当前α和θ,用θL(O1,Y1)更新θ。3. 计算X2的网络输出O2与任一确定性方程.(5)或随机方程。(8)给定当前α和θ,用<$aL(O2,Y2)更新α。请注意,一旦上述迭代收敛,架构以及模型权重可以直接用于评估,而无需从头开始(重新)训练模型权重。这是因为所提出的最小熵正则化使得搜索优化能够收敛到单个网络。我们的方法的整个3 .第三章。连接到DARTS和SNAS。我们的方法消除了DARTS中的客观偏差和SNAS中的抽样方差。这是通过统一、简单、有效的(在消融部分中验证)对架构权重α ij的最小熵正则化。我们的分析还能够重新纳入连续松弛方法和离散化在一个新的方式,例如,确定性连续松弛加随机离散,或随机连续松弛加确定性离散4.[4]虽然我们在补充材料中表明,不同的组合产生的性能差异并不显著,但我们希望本节的分析有助于发明新的NAS方法。5. 实验在本节中,我们将研究i)性能,即,所提出的MTL-NAS如何相对于现有技术的通用多任务网络执行,以及ii)可推广性,即,建议的MTL-NAS如何推广到各种数据集、网络骨干,更重要的是,各种任务集。为了验证性能,我们针对最先进的NDDR-CNN[13]和十字绣网络[42]评估了所提出的方法。此外,我们还提供了各种额外的基线,以便更好地进行评估:单任务基线:它使用单任务骨干。多任务基线:它是最直观的多任务网络,它共享所有层并在最后一层进行拆分。MTL-NAS(SuperNet):它是NAS修剪之前所提出方法的超网,其中来自不同任务的所有中间层都是连接的,只要它们是在搜索空间中可连接。这也可以被视为最先进的NDDR-CNN的广义版本我们把它的结果留在补充材料中。NDDR-CNN(SuperNet):这是NDDR-CNN的直接扩展 , 类 似 于 MTL-NAS ( SuperNet ) 。 与 MTL-NAS(SuperNet)的区别在于,我们只允许来自相同CNN级别的层之间的互连。我们把它的结果留在补充材料中。我们也有大量的配置来证明我们方法的通用性:数据集:NYU v2 [56]和Taskonomy [69]。网络骨干:VGG-16 [57]和ResNet-50 [24]。任务集:像素标记任务,包括语义分割和表面法线估计,以及图像级任务包括对象分类和场景分类。在下文中,我们首先给出实现细节,然后基于不同11551的任务集展示我们的结果。115525.1. 实现细节对于VGG-16骨干[57],我们考虑所有卷积层的特征。对于ResNet-50 [24],我们考虑每个瓶颈块产生的特征。由于硬件的限制,我们也限制了搜索空间,即,我们需要可搜索的任务相对源特征(即,来自与目标相反的任务的源特征)以满足关于固定任务相同的源特征的以下规则(即,来自目标的相同任务的源特征):i)在同一级内,ii)来自相同或更早的卷积层,以及iii)不再相隔3层。这为VGG-16产生了224架构的搜索空间,为ResNet-50产生了237我们对VGG-16进行了20000次训练迭代在NYU v2数据集上,ResNet-50主干和30000次迭代[56]。在Taxonomy数据集[69](比ImageNet大3倍)上,我们训练网络90000步。我们通过动量为0的SGD优化器学习模型权重θ。9,权重衰减0. 00025,学习率0的情况。001用于VGG-16骨架和0. 00025,适用于ResNet-50骨干我们使用一个幂为0的多边形学习率衰减。9 .第九条。我们通过Adam优化器优化架构权重α [28],初始学习率为0。003和重量衰减0。001。对于熵最小化,我们设置γ=10MTL-NAS是无代理的w.r.t. 数据集和体系结构,即,我们直接搜索目标(大)数据集上我们的搜索时间仅为12- 13和27-28 GPU小时,分别为NYUv 2实验和非常大的Taskonomy实验,曲面法线预测语义段错误(↓)时间内(%)(↑)(%)(↑)是说Med.11个国家。二十五二十二530MiouPACC单个15.612.346.4 75.586.533.564.1多15.211.748.4 76.287.033.464.2C.- S.15.211.748.6 76.086.534.865.0NDDR13.910.253.5 79.588.836.266.4MTL-NAS12.68.959.1 83.391.237.667.9表1.使用VGG-16网络对NYU v2数据集进行语义分割和表面法线预测C.- S.代表十字绣网络。↑/↓表示越高/越低越好。曲面法线预测语义段错误(↓)时间内(%)(↑)(%)(↑)是说Med.11个国家。二十五二十二530MiouPACC单个16.213.641.6 74.186.534.565.5多16.614.239.2 73.886.534.865.1C.- S.16.614.339.1 73.786.534.865.7NDDR16.412.842.6 73.386.636.766.7MTL-NAS16.212.844.8 73.985.738.668.6表2.使用ResNet-50网络对NYU v2数据集进行语义分割和表面法线预测。C.- S.代表了十字绣网络。↑/↓表示越高/越低越好。对象场景RecRate(%)(↑)RecRate(%)(↑)前1前5前1前5单个33.863.037.870.5多34.166.137.871.2十字绣33.265.234.070.3NDDR32.157.737.971.8MTL-NAS34.867.038.272.5表3. 目标分类和场景分类在单个Nvidia Titan RTX GPU上使用VGG-16骨干。搜索到的架构和模型权重可以直接用于评估,而无需从头开始重新训练5.2. 语义分割和表面法线估计我们使用NYU v2数据集[56]进行语义分割和表面法线估计。40类语义标记的地面实况来自[20],表面法线的地面实况是从深度图[10]中预先计算的。每像素损失用于这两个任务。对于语义分割,我们使用softmax交叉熵损失,并计算像素精度(PAcc),平均交集(mIoU)作为评价指标。而对于表面法线估计,我们使用余弦损失(指示角度差)训练网络,并使用所有像素的平均和中值角度距离以及在角度范围内的像素百分比进行评估。十一点二十二点五度半,三十度半。我们在VGG-16和ResNet-50上执行此任务表1和表2中所示的网络骨干网,实验结果表明,该方法的性能优于现有的方法,证明了该方法在语义分割和表面处理上的有效性使用VGG-16网络的Taskonomy数据集↑/↓显示了越高/越低越好。不同网络骨干的正常估计。5.3. 目标分类和场景分类我们在非常大的Taskonomy数据集[69](比ImageNet大3倍)上评估对象分类和场景我们使用从40栋建筑物收集的数据进行微小分割。对于对象和场景分类,我们使用模型预测和从预训练网络中提取的软类概率之间的102我们报告了这两项任务的前1名和前5名识别率。结果如表3所示,其显示了我们的方法在不同任务集上的良好性能。6. 消融分析在本节中,我们通过消融分析研究了所提出的MTL-NAS的构建块的不同选择。具体来说,我们特别感兴趣的是以下问题:i)如何建议的搜索算法执行w.r.t.基线方法DARTS [35]和11553SNAS [64]?ii)如何将新的任务间层初始化为固定且训练有素的骨干?iii)如何为新的任务间层设置学习率?我们在下面回答这些问题。我们将学习率分析放在补充材料中,这表明新架构的训练对学习率不我们还在补充材料中加入了学习架构的插图,证明了学习架构是异质和不对称的,这可以说是很难被人类专家发现的。我们使用VGG-16网络[57]在NYU v2数据集[56]上进行所有消融分析,以进行语义分割和表面6.1. 搜索算法在本节中,我们将对搜索算法进行更深入的研究,具体来说,连续松弛,离散化,最重要的是熵最小化。我们验证了与确定性连续松弛和确定性离散化(类似于DATRS w/o再训练)以及随机连续松弛和随机离散化(类似于SNAS)相关的熵最小化我们还提供了随机搜索基线进行比较。实验结果如表4所示,其中DARTS(w/o再训练,在表中表示为D)和SNAS(在表中表示为S)在没有最小熵正则化的情况下在我们的问题中失败。我们没有报告SNAS的性能,由于大的抽样方差(见图)。2)。我们还使用最小熵正则化执行了10次运行的随机方法,并见证了可忽略的性能方差(另见图2)。2)。此外,有趣的是,在施加最小熵约束后,确定性方法和随机方法产生相似的性能。我们还在补充材料中进行了连续松弛和离散化的不同组合,即,确定性连续松弛与随机离散以及随机连续松弛与确定性离散。这些配置也产生了类似的结果(类似于DARTS加上MinEntropy和SNAS加上MinEntropy),这表明我们的方法有可能统一流行的DARTS和SNAS。6.2. 新型层的重量分布我们感兴趣的是研究新的任务间特征融合层的初始化权重。当我们将新的架构插入到固定的、训练有素的单任务骨干中时,直觉上,我们应该在每一层对原始的单任务输出进行消融分析是在wt的不同初始化上进行的,w t定义在方程中。(3)说明曲面法线预测语义段错误(↓)t内(%)(↑)(%)(↑)DSE是说Med.11个国家。25二十二岁530MiouPACC随机搜索14.110.153.979.288.235.366.1J15.912.745.374.085.919.146.1J-------JJ12.78.958.983.190.937.767.9JJ12.68.959.183.391.237.667.9表4.连续松弛、离散化和熵最小化的影响。D表示确定性方法(即,没有再训练的DARTS),S表示随机方法(即,SNAS),并且E表示最小熵正则化。 我们没有报告随机方法的结果,因为它产生太大的采样方差(另见图中收敛架构权重的相应直方图)。2)。↑/↓表示越高/越低越好。曲面法线预测语义段错误(↓)时间内(%)(↑)(%)(↑)初始化,含TI是说Med.11个国家。二十五二十二530MiouPACC随机16.712.845.4 71.882.930.361.9016.912.945.1 71.382.430.161.80.116.612.645.8 72.283.131.463.10.214.410.652.2 78.287.833.865.20.513.59.855.2 80.689.436.767.40.812.99.257.6 82.690.737.067.60.912.69.058.883.391.337.267.41.012.68.959.1 83.391.237.667.9表5.融合操作中1x1卷积的不同初始化的影响。w定义在Eq.(3),也在图的右下角子图中。1.一、↑/↓表示越高/越低越好。在图的右下角子图中,1.一、表5中显示的结果与我们的直觉一致,其中用较大的值初始化wt,0.9或1.0,产生最佳性能。7. 结论在本文中,我们采用NAS的通用多任务学习(GP-MTL)。我们首先将GP-MTL分解为任务特定的骨干和任务间的特征融合连接。然后,我们专注于寻找一个好的任务间的特征融合策略内的任务不可知的搜索空间。我们还提出了一种新的搜索算法,能够缩小搜索和评估之间的性能差距我们的搜索算法也推广了流行 的 单 次 拍 摄 的 基 于 梯 度 的 方 法 , 如 DARTS 和SNAS。我们进行了详细的消融分析,以验证每个拟议组件的效果。广泛的实验表明,有前途的性能和所需的推广性(各种数据集,任务集和单任务骨干)的方法。致谢。本工作得到了国家自然科学基金61773295和61771201、湖北省国家自然科学基金2019CFA037和广东省国家研发重点项目2019B010155001的部分资助。11554引用[1] 秋本佑平、白川真一、吉成野三、内田健人、斋藤正太、西田幸平。自适应随机自然梯度法用于单次神经结构搜索。在ICML,2019。2[2] Gabriel Bender,Pieter-Jan Kindermans,Barret Zoph,Vijay Vasudevan,and Quoc Le.理解和简化一次性架构搜索。在ICML,2018。3[3] J. Bergstra,D. Yamins和D. D.考克斯做一个模型搜索的科学:用于视觉架构的数百个维度的超参数优化。2013年,《国际反洗钱法》。2[4] 韩才、朱立庚、宋涵。ProxylessNAS:在目标任务和硬件上直接搜索神经架构。2019年,在ICLR。2[5] 辰昕、邪灵犀、君无邪、齐天。 渐进式可区分体系结构搜索:缩小搜索和评估之间的深度差距。在ICCV,2019年。1[6] Yukang Chen, Gaofeng Meng ,Qian Zhang ,ShimingXiang,Chang Huang,Lisen Mu,and Xinggang Wang.雷纳斯:增强进化神经结构搜索.在CVPR,2019年。2[7] Yukang Chen ,Tong Yang ,Xiangyu Zhang,GaofengMeng,Chunhong Pan,and Jian Sun.Detnas:对象检测上的arXiv预印本arXiv:1903.10979,2019。1[8] 董轩逸和杨毅。通过自评估模板网络进行一次性神经结构搜索。在ICCV,2019年。1[9] 董轩逸和杨毅。在4个GPU小时内搜索一个强大的神经结构。在CVPR,2019年。1[10] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签CVPR,2015。三、七[11] Thomas Elsken,Jan-Hendrik Metzen,and Frank Hutter.简单高 效的卷积神经 网络架构搜 索。arXiv预印本arXiv:1711.04528,2017。2[12] Thomas Elsken,Jan Hendrik Metzen,and Frank Hutter.神 经 架 构 搜 索 : 一 个 调 查 。 arXiv 预 印 本 arXiv :1808.05377,2018。2[13] Yuan Gao ,Jiaoyi Ma,Mingbo Zhao ,Wei Liu ,andAlan L Yuille. Nddr-cnn:通过神经判别降维实现多任务cnn中的分层特征融合。在CVPR,2019年。一二三四六[14] Golnaz Ghiasi,Tsung-Yi Lin,and Quoc V.乐Nas-fpn:学习可扩展的特征金字塔体系结构,用于对象检测。在CVPR,2019年。一、二[15] 罗斯·格希克。快速R-CNN。在ICCV,20
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功