没有合适的资源?快使用搜索试试~ 我知道了~
15869基于关系上下文的多任务密集预测David Bruggemann,Menelaos Kanakis,Anton Obukhov,Stamatios Georgoulis,LucVan Gool苏黎世联邦理工学院{brdavid,kanakism,obukhova,georgous,vangool} @ vision.ee.ethz.ch摘要计算机视觉研究的时间轴以学习和利用有效的上下文表示的进步为标志。然而,它们中的大多数都是针对单个下游任务的改进模型性能。我们认为一个多任务环境密集的预测任务,由一个共同的骨干和独立的任务特定的头部表示。我们的目标是找到最有效的方法来细化每个任务的预测,通过捕获依赖于任务的关系的跨任务上下文。我们探索各种基于注意力的上下文,如全局和局部,在多任务设置和分析他们的行为时,应用于细化每个任务独立。实证研究结果证实,不同的源目标任务对受益于不同的上下文类型。为了使选择过程自动化,我们提出了自适应任务关系上下文(ATRC)模块,源任务SemSeg深度法线边界SemSeg全局本地T- 标 签S- 标 签无上下文类型其使用神经体系结构搜索对每个任务对的所有可用上下文的池进行采样,并输出用于部署的最优配置我们的方法实现了两个重要的多任务基准,即NYUD-v2和PASCAL-Context的最先进的性能。所提出的ATRC具有较低的计算费用,可以用作任何监督多任务架构的下降细化模块。1. 介绍背景在计算机视觉中的作用很难被夸大;最显著的突破可归结为对语境表征的巧妙提取[30]、学习[26]和利用[25]。卷积神经网络(CNN)的成功很大程度上是由于它们固有的捕获局部上下文并在模型中构建非常深的上下文层次结构的最近,计算机视觉[51]中注意力机制的逐步采用带来了以单个像素的相互依赖为条件的更灵活的上下文描述,同时稳步取代了传统的卷积构建块[11]。多任务学习(MTL)[6]涉及任务之间的共享表示。被观察者所激励--图1.任务关系上下文的示意图(橙色覆盖)用于目标任务语义分割的标记像素(橙色十字)我们的算法为每个源任务选择一个蒸馏上下文类型(虚线表示开关)。或者,可以通过不选择连接来切断连接。该过程类似于所有其他目标任务。鉴于视觉任务的表示通常是高度相关的[56],最近的作品[50,44]专注于多任务密集预测,通过软门控消息传递扩展了跨任务的上下文提取。在文献[50]中被称为多模态蒸馏,其思想是通过选择性地聚合一组源任务的互补特征来增强下游目标任务的高级表示。因此,蒸馏中的门控功能学会了关注有用的跨任务信息流。尽管其有效性,但当前的多模态蒸馏方案[50,44]遭受两个主要限制:(1)所采用的门仅基于源任务特征值来调节信息流。因此,蒸馏模块无法完全捕获任务交互。(2)每个目标像素排他地接收来自其源对应物的信息,即,消息传递在本地受到限制。受这些缺点的驱使,我们提出了一种新型的000015870注意力驱动的多模态蒸馏方案,基于三个关键贡献:1. 通过将跨任务门的表现力设定在源任务像素和目标任务像素的相互依赖性因此,我们的多模态蒸馏方案是相关的。2. 通过扩大蒸馏方案的接收域来实现全局跨任务消息传递我们将每个像素的蒸馏感受野称为3. 为每个源-目标任务对自定义蒸馏上下文类型我们制定了五个上下文类型候选(全局,局部,T-标签,S-标签,无),并自动适应类型相对于给定架构中的每个源-目标任务对(参见图1B)。①的人。贡献1和2通过利用和调整用于多模态蒸馏的缩放点积注意力机制[45]来解决。对于贡献3,我们repr- pose现代神经架构搜索(NAS)方法自动找到每个源-目标任务连接的最佳上下文类型总的来说,我们提出了一种新的自适应任务-关系上下文(ATRC)模块,它可以用作CNN的插入模块,以改进任何有监督的密集预测任务的字典。 我们用图1中所示的架构经验地展示了其有效性。2:用于所有任务的单个神经网络,具有RGB输入的共享骨干,多个特定于任务的头,以及ATRC蒸馏模块,以细化每个任务的预测。本文件的结构如下:秒2提供了相关工作的概述;Sec.3.1介绍了ATRC的体系结构; 3.2解释所考虑的关系上下文的类型;秒3.3涵盖了通过NAS技术对上下文类型的适配; 4提供了实证研究的细节,并验证了所提出的方法的最先进的性能在几个重要的基准;秒五是总结论文。2. 相关工作多任务学习(MTL)方法采用两种主要范式来学习共享表示:硬参数共享和软参数共享。硬参数共享表征了通常在任务之间共享第一隐藏表示,同时在稍后阶段分支到独立的任务特定表示的架构大多数方法在单个分支点处分裂到特定于任务的头[24,22,10,39]。然而,这样的天然分支可能是次优的,引起了对允许精细分支结构的机制的兴趣[31,43,5]。我们的工作是这些硬参数共享方法的补充,因为我们引入了一个模块,该模块细化了特定任务功能.相比之下,软参数共享标志着通过特征融合机制在单独的特定任务网络之间诱导知识转移的体系结构。特征融合可以沿着整个网络深度引入[35,15,28],因此计算成本通常是一个限制因素。我们提出的模块可以被解释为一个复杂的功能融合机制,只适用于在一个单一的阶段,以完善高层次的表示。最近的几项MTL工作遵循类似的策略:PAP [56]和PSD [57]分别通过全局和局部自我注意力来细化特定于任务的特征图。所采用的注意掩模首先通过跨任务传播亲和模式来细化,然后迭代地应用于目标任务特征图。与[56,57]相比,我们的方法通过显式建模源任务和目标任务之间的成对交互来直接关注源任务特征。与我们的工作更密切相关的是,PAD-Net [50]使用多模态蒸馏来增强特定于任务的预测。从每个源到目标任务的信息流通过S形激活门函数进行MTI-Net [44]将PAD-Net的多模态蒸馏模块与多尺度细化方案相结合,以促进多尺度下的交叉任务对话。然而,在[50,44]的蒸馏模块中使用的门另一方面,我们的方法利用成对任务的相似性,通过注意力机制创建更具表现力的门,同时还能够实现全局跨任务消息传递。注意力最初是为了改善神经机器翻译中的句子对齐而开发的在计算机视觉中,缩放点积注意力[45]的变体特别用于捕获整个像素空间[47,3,52],局部[36]甚至通道[13]的全局关系。在这些方法中,通过聚合指定上下文内的像素的表示来增强每个目标像素的表示。因此,每个上下文像素根据其与目标的关系做出贡献,因此称为术语关系上下文。与我们的工作相关的是,A2-Net [9]、ACFNet [54]和OCR-Net [53]通过将像素分组到不同的区域(例如对象类),并转而关注那些区域的原型表示。所有上述方法都集中于单个下游任务的注意力,并利用固定的上下文描述。我们的工作将这些概念扩展到多任务场景,同时从每个源目标任务对的候选池中选择最佳的关系上下文类型。神经架构搜索(NAS)自动化工程问题特定神经网络架构的过程,目标是最大限度地减少手工网络设计。为此,开创性的工作使用强化学习[58,59]或进化[38,37]算法从大型15871×个×个× ×××个联系我们(a)(b)图2. (a)具有所提出的自适应任务-关系上下文(ATRC)模块的多任务网络的概述。主网络可以具有任何拓扑结构,只要每个任务n的头部产生用于ATRC细化的特征(Fn)和辅助预测(An)。在我们的实验中,我们预测Fn和An的主要和辅助独立头分别。在ATRC内,每个任务作为目标任务被路由到N个上下文池(CP)块(CP块的第n行),并且作为源任务被路由到N个CP块(第n列)。CP块的输出针对每个任务独立地级联并且通过投影模块(“任务η”)馈送。在用最终层(“Pred η”)处理ATRC输出之后获得预测P η。(b)CP块的剖析,通过源任务(S)信息细化目标任务(T)特征。在搜索阶段期间,CP块提取所有五个上下文表示(白色块,参见第二节)。3.2)并返回它们的凸组合。在搜索收敛之后,通过argmax对单个上下文类型进行采样,即αi形成一个单热向量。图例:绿色块表示具有学习权重的模块,红色块表示损失函数。最好用彩色观看搜索空间虽然有效,但使用这些方法的架构搜索可能非常计算密集,促使研究人员探索可区分的NAS [27,49,17]。代替单个操作,可微分NAS在给定层处使用若干操作的凸组合,从而通过训练操作混合权重来实现搜索空间的基于梯度的优化。我们工作的主要贡献是一种新型的多模态蒸馏模块;因此,我们利用可区分NAS [49]和自定义搜索空间中的现有进展来自动化不同源-目标任务对的上下文选择。3. 自适应任务-关系上下文在本节中,我们描述了在一般多任务学习框架内提出的自适应任务-关系上下文(ATRC)模块。首先,在剖析ATRC模块的构建块之前,我们简要概述了最后,我们讨论了所采用的自适应上下文类型搜索方案。3.1. 建筑设计我们的ATRC模块可以作为一个细化阶段,在任何多任务神经网络(例如跨越多个尺度)。为了透明,我们有意保持示例配置简单(见图11)。2a):骨干在所有任务之间共享;每个任务使用浅头来生成任务特定特征Fn和辅助预测。其中n∈ {1,…,N}对任务进行索引。 在我们基本设计,我们预测Fn和An独立,使用分别为33Conv-BN-ReLU和11Conv-BN-ReLU-11 Conv层的作用的An进一步解释在Sec.3.2.3.ATRC模块通过关注每个可用任务n_1,…N在用于每个源-目标任务对的单独的上下文池(CP)块内。图1B中CP块的笛卡尔网格的每一行。因此,图2a用于使用来自每列中的不同源任务S的信息来细化一个目标任务T。在对角线上的CP块中执行的自注意使得蒸馏模块能够附加地捕获任务内关系。一行内的所有CP块的输出沿着信道维度被级联,与11Conv-BN层融合,与原始目标任务特征FT级联,并且被处理为:11Conv-BN-ReLU 。最后,细化的特征被馈送通过11Conv层2a)以获得最终预测PT。3.2. 上下文池块CP块旨在从一个源任务S中提取有用的特征以增强一个目标任务T。为此,每个CP块在其核心执行缩放点积注意力的版本,这是广泛成功的Transformer [45]的主要组成部分因此,目标任务特征图FT和源任务特征图FS首先被转换。形成查询q,键k和值v使用1×1Conv-自适应任务-关系上下文头1F1P1CP CP1→1 2→1CPN→1任务1Pred 1L1L1的1头2F2P2RGBL2一个2CP1→2CP2→2CPN→2任务2Pred 2L2头部NFNPNCP CP1→N2→NCPN→N任务NPredNLNLNANATF TFSASα1α 2α 3α 4α 5CP:S→TL骨干全球当地S标记T标记没有一15872一.Σ联系我们J.ΣO联系我们联系我们∈v′=j=1ijjsoftmax以获得表示空间概率的An然后选择在目标或BN-ReLU 层f*。q=fq(FT),k=fk(FS),v=fv(FS)(1)在本文中,我们假设张量沿空间维度(包括q,k,v)是平坦的。基于q和k个特征之间的成对相似性生成注意力权重的矩阵。CP块输出v’是v个特征的注意力加权组合(dk是k的信道维度)。简单地选择线性核(x)=x,对应于余弦相似性。为了避免数值问题,我们将ReLU激活函数替换为等式1的fq和fk。1,其中平滑近似softplus(x)= log(1 + exp(x))。3.2.2当地情况我们可以将上下文限制为仅包含空间上接近目标像素的源像素[36],模仿卷积的感受野其中Nb⑴表示2Dv′= softmaxqk√dk中文(简体)具有范围b目标像素i的空间邻域(我们使用b= 9 ×9),注意力公式类似于Eq.2是:一在多任务设置中,注意力权重可以被解释为对特征协同的可能性进行vi′=j∈ΣNb(i)softmaxNb(i)qik√dkvj(4)在变换的目标(q)和源(k)中出现[55]任务图。然后根据估计的同现可能性来门控目标任务像素的上下文内的每个源任务像素的贡献直观上,共现可以提高目标任务的鲁棒性在不明确情况下的预测,例如,对于T=深度大Eq中的注意力地图。2全局地(“全部对全部”)模拟像素交互每个像素的提取上下文不受根据当前的源和目标任务组合,这可能不是理想的。因此,我们3.2.1、3.2.2、3.2.3,每一个的特征在于不同的上下文定义。节中3.3我们描述了我们如何针对不同的源-目标任务对调整CP块。3.2.1全球背景在这种情况下,特定目标像素的提取上下文只是源任务的每个像素这种方法的简单实现导致过大的存储器占用,因为计算注意力权重的复杂度与(L2)成比例,其中L是像素的数量。为了避免这个问题,我们利用类似于[21]的线性化特别地,我们可以使用具有positivedomain的任意相似性函数sim(·)而不是softmax来计算目标像素i的注意力图。这种操作类似于与空间自适应滤波器的卷积[42]-注意力图。3.2.3标签上下文全局和局部关系上下文都是空间定义的,即,蒸馏通过空间张力掩模进行。另一方面,标签上下文是在标签空间中定义的,这意味着我们(1)将标签空间划分为一组不相交的标签区域,(2)为每个区域找到原型表示,以及(3)将每个像素与每个区域原型相关联。在[54,53]中,这个概念已被应用于在本节中,我们将其推广到任何密集预测任务,并探索其对MTL的潜力划分标签空间对于分类任务是直接的,即,标签区域可以等同于类。然而,对于回归任务,我们需要离散化连续标签空间。因此,我们在对数尺度上对值进行分箱,以用于深度预测,并使用用于表面法线估计的k均值对单位球体进行聚类预测(参见第2节)。补充材料D详细信息)。我们遵循OCR-Net [53]的方法,用于每个任务n的区域原型的监督学习:特别地,辅助预测头计算空间图AnRL×Rn(参见图2a),其中每个条目指示像素l1,…L属于标记区域r1,…Rn.在训练期间,这些地图是使用交叉熵通过地面实况监督来学习的ΣLsim(q,k)vj=1我 J损失 生成的映射Anˆ使用空间iΣLsim(q,k)每个标记区域的密度r。在多任务设置中,我们可以这包括所有k内核函数sim(qi,kj)=(qi)(kj),这也允许我们移动乘法顺序:(k, j)和v,j可以首先相乘,并重新用于每个(q,i),这将整体复杂度降低到O(L)。 本工作源任务标签空间:T-标签。在该方法中,在目标任务(T)空间中定义标签区域。源任务特征使用目标任务空间映射AT进行空间聚集,产生(三)15873J∈J ∼不u=1explogαj+Gj/λZ=带标记SemSeg深度法线边界的图像图3.热图示出了与左侧图像中用白色十字标记的像素相关的标签上下文注意力图,即我们一MTL中的常见问题[24,20]。CP块j中的操作选择可以被公式化为所有候选Oj与从猫分布pαj(Zj )采样的独热向量Zj的乘法。O~j=ZOj(6)通过Gumbel-Softmax梯度估计器[32,19]实现搜索空间的连续松弛(同时保持该采样过程),产生软化的独热随机变量Zj。EXp..logα(i) +G(i)Σ/λΣ可视化等式中的对应行2.对于每个目标任务我们只看到自我注意力地图。(i)jΣ5JJ..(u)(u)Σ Σ(七)区域原型pSRRT ×C,其中C是源任务通道维度。G(u)Gumbel(0,1)是一个Gumbel随机变量,λsoftmax温度在我们的案例中,架构页-pS=AFS(五)参数α在与网络权重相同的反向传播轮中更新一个更然后用pS代替等式中的FS1,得到k和v。S-标签。可替代地,源任务特征也可以经由源任务(S)空间图A(S)通过用A(S)代替等式(1)中的A(T)来聚集。五、这两种方法之间的主要区别可以通过一个示例来最好地说明:假设目标任务语义分割和源任务深度估计,T标签上下文根据对象类对深度特征进行分组,并且使每个目标像素关注每个对象类的原型深度特征(例如,所有“汽车”像素的代表性深度特征)。相反,S-标签上下文根据深度特征简单地对深度特征进行分组,使得语义特征能够与整个深度区域交互我们在图1中可视化了训练的标签上下文蒸馏模型的单个目标像素(白色十字)3.第三章。这些映射说明了模型学习聚焦于不同标签区域内的上下文像素。3.3. 自动上下文类型选择虽然所有呈现的上下文类型都可以帮助改进目标任务特性,但是在特定场景中,一些上下文类型可能比其他上下文类型更有效。因此,CP块被设计成针对当前源-目标任务对来定制它们的上下文类型(注意机制) 在本文中,我们选择可区分的NAS技术,通过优化包含所有选项的超图来为每个CP块自动选择单个上下文类型(参见图1B)。第2b段)。然而,CP块本身并不限于单个上下文类型,而是可以以静态[29,48]甚至动态[18]的方式改进给定上下文类型组合的预测。我们的搜索空间由每个CP块中的五个候选组成:全局、局部、T标记、S标记和无操作。none操作只是切断两个任务之间的信息流,这可以防止任务干扰,在[49]中提供了用于可区分NAS的Gumbel-Softmax的详细讨论。根据经验,来自α分布的样本使用Gumbel-Softmax在收敛后表现出较大的方差,导致采样子图的不稳定评估。因此,我们使用双管齐下的策略来解决这个问题:(1)与文献[14]类似,我们在pαj(Zj)上采用熵正则化来显式控制采样方差。代替常用的候选操作预训练,我们可以简单地从头开始架构搜索,使用负正则化权重来强制执行均匀的α分布。权重在训练期间逐渐增加到正值,以最终激励低熵解决方案,这意味着当从超图对架构进行采样时的低方差。(2)一旦pαj达到低中心p y解,我们就完全停止CP块j中的架构采样过程。在超过定义的阈值之后,我们使用argmax修复j中的块选择过程。使用这种策略,我们直接在搜索阶段获得高性能的体系结构(见图1). 4),表明我们的搜索目标是明确的。尽管如此,为了公平的比较,我们仍然重新训练从头开始发现的架构-这是常见的做法[27,49]。4. 实验我们简要回顾了实验设置,目前,ING实证研究之前 培 训 详 情 见 第 补 充 材 料 和 参 考 代 码 可 在https://github.com/brdav/atrc上获得。4.1. 设置数据集。 实验在两个广泛使用的密集预测数据集上进行:(1)NYUD-v2 [40],其包括15874--蒸馏模块资源SemSeg↑深度↓正常↓边界↑∆[%]↑表1.在具有HRNet 18主干的NYUD-v2上进行控制蒸馏模块比较对于除单个任务基线之外的所有模型,使用共享编码器和小的任务特定头(Sec.第3.1节)。我们在最终预测层之前插入不同的蒸馏模块SemSeg图4.性能比较模型m[33]的单任务基线b的spect:∆m=儿子的模型采样从深度最后的超图1ΣNN(−1)γi(Mm,i−Mb,i)/Mb,i. γi= 1,如果较低正常界是说0 1 2 3相对性能差异[%]上下文类型搜索与经过再培训。图表显示了平均值和标准值。的相对性能改进。单任务(ST)模型:对于模型m和“较高=较好”度量M,(MmMST)/MST,并且对于“较低=较好”,反之亦然。对于度量Mi和γi= 0更好。4.2. 蒸馏模块基准测试在表1中,我们进行了一系列受控实验以公平地评估不同蒸馏模块的有效性。使用HRNet18骨干,我们改变MTL架构设计中描述的二。3.1仅通过用其它蒸馏模块替换ATRC模块。对于基线,不使用蒸馏模块。室内场景的795个训练图像和654个测试图像,具有用于语义分割(“SemSeg”)、深度估计(“Depth”)、表面法线估计(“Normal”)和边界检测(“Bound”)的注释(2)PASCAL-Context[8],较大PASCAL数据集[12]的分裂,提供4998个训练和5105个测试图像,标记为语义分割、人体部位分割我们使用[33]的蒸馏显着性和表面法线标签。骨干我们使用几个主干来测试我们的框架:HRNetV2-W18-small(HRNet 18)、HRNetV 2-W 48(HRNet48)[46]和ResNet-50 [16]。指标. 我们用并集上的平均交集来评估“Semseg”和“PartSeg”,用均方根误差来评估“Depth”,用平均角度误差来评估“Normal”,用[1]中的最大F测量来评估“Sal”,并且用[34]的最佳数据集尺度F测量来评估“Bound”。本文所有实验重复五次;记录每个度量的平均值(在表1中也是标准偏差)。为了量化N个任务的整体多任务性能,我们采用平均每任务性能下降(∆m),其中重新正如预期的,所有研究的蒸馏模块在多任务性能Δm方面都优于平凡的多任务基线。此外,大多数关系上下文模块的表现明显优于它们的替代品。除了本地关系上下文,用关系上下文增强多任务网络击败了单任务基线,同时保持了低得多的计算足迹。表1还显示,没有一种关系上下文类型在每个任务中占主导地位。这表明,对每个单独的源-目标任务对进行更细粒度的上下文定制可以提高整体性能。事实上,应用我们的自动上下文类型选择(Sec. 3.3),ATRC,在多任务性能产生最好的结果。图5通过绘制多任务性能与多个蒸馏模块的资源成本之间的关系图来可视化各种蒸馏模块的资源成本。参数和乘加操作(MAdds)的数量。与单任务网络相比,关系上下文模块和大多数其他蒸馏模块的计算开销我们的ATRC结合了所有的关系上下文模块的优点,最大化的性能,同时保持有界的资源成本。搜索再培训i=1M参数(M)MAds(G)是说STD.是说STD.是说STD.是说STD.无(单个任务比较基准)16.0940.9338.020.140.61040.004120.940.0876.220.070.00无(多任务基线)4.5217.5936.350.260.62840.003421.020.0676.360.05-1.89十字绣[35]4.5217.5936.340.550.62900.005120.880.0476.380.07-1.75帕普[56]4.5453.0436.720.310.61780.006520.820.0376.420.07-0.95PSD [57]4.7121.1036.690.550.62460.003620.870.0776.420.13-1.30PAD-Net A [50] / NDDR-CNN [15]4.5918.6836.720.310.62880.003720.890.0276.320.07-1.51PAD-Net B [50]5.0225.1836.700.160.62640.002120.850.0376.500.06-1.33[44]第44话:我的世界5.5032.4236.610.150.62700.004820.850.0376.380.07-1.44全局关系上下文4.7321.4338.300.650.60070.007320.600.0776.260.051.00局部关系上下文4.7322.1936.790.290.62600.004420.910.0676.440.05-1.34T标签关系上下文5.0625.9138.880.310.60590.001420.480.0576.300.061.33S-标号关系上下文5.0625.9138.330.640.60060.001920.560.0676.260.051.07ATRC(我们的)5.0625.7638.900.430.60100.004620.480.0276.340.121.5615875^1311一九一二第0页,共1页-1463−2五一零七八4.第一章六四八点五05.254参数[×1e6]16.120 25 30 35 40 45 50MAdds[×1e9]图5.使用NYUD-v2上的HRNet 18主干进行蒸馏模块资源分析 我们绘制多任务性能Δm vs. 在最终预测层之前插入不同蒸馏模块的多任务模型的参数数(左)和MAdd(右)。4.3. 与最新技术水平模型FPMSemSeg ↑深度↓正常↓界限↑∆m [%]↑p多个场景:单独的单任务网络,多任务网络(共享骨干网;特定任务负责人;无蒸馏)和最先进的MTI-Net[44]。表2和表3显示了在NYUD-v2数据集上获得的结果,ATRC(我们的)表2. NYUD-v2性能比较,使用HRNet 18主干。FPM =特征传播模块[44]。分别使用HRNet18和HRNet48主干网,而表4 显 示了 使 用 HRNet 18 的 PASCAL-Context 结 果。MTI-Net使用由两个独立阶段组成的大规模解码器头:特 征传 播 模块 ( FPM) 和多 尺 度多 模 态蒸 馏 模块(ATRC模块的模拟)。为了确保公平的比较,我们将我们的方法应用于第2节中描述的基本架构。3.1,以及补充了FPM的主干(HRNet18和HRNet48的参数数量分别为+174%和+79%)。在所有调查的情况下,ATRC提高性能显着相比,多任务基线。此外,我们的方法与FPM相结合始终优于MTI-Net,即使MTI-Net在四个尺度上应用多模态蒸馏,而我们只在最大尺度上蒸馏(使我们的模型更具参数效率,例如,表2中的-22%)。 这意味着任务交互可以在单个尺度下被充分捕获以用于蒸馏,前提是主干能够有效地提取和融合多尺度信息(如HRNet)。总体而言,多任务方法与PASCAL-Context数据集上的单任务基线相比效果较差这一发现与其他工作[33,44]一致,并且可以归因于更大和更多样化的任务字典。尽管如此,多任务方法在多任务性能方面的排名顺序仍然与NYUD-v2获得的结果一致。4.4. 源任务重要性建议的ATRC模块的简单设计使我们能够调查每个源-目标任务连接(=CP块)的重要性,用于拟合的最终预测型号FPMSemSeg ↑深度↓正常↓边界↑∆m[%] ↑单个任务45.870.539720.0977.340.00多任务MTI-Net [44]✓41.9645.970.55430.536520.3620.2777.6277.86-3.050.15ATRC(我们的)46.270.549520.2077.60-0.28✓46.330.536320.1877.940.49表3. NYUD-v2性能比较,使用HRNet 48主干。FPM =特征传播模块[44]。型号FPMSemSeg ↑部分分段↑Sal ↑正常↓绑定↑∆m[%]↑单个任务62.2361.6685.0813.6973.060.00多任务MTI-Net [44]✓51.4861.7057.2360.1883.4384.7814.1014.2369.7670.80-6.77-2.12ATRC(我方)57.89 57.33 83.77 13.99 69.74-4.45✓62.69 59.42 84.70 14.20 70.96-1.98表4. PASCAL-Context性能比较,使用HR-Net 18主干。FPM=特征传播模块[44]。模型为此,我们将置换特征重要性[4]调整到我们的设置。我们可以通过记录多任务性能的下降来确定CP块的重要性当该块的输出在数据集上随机混洗时,Δ m。为了获得更可靠的估计,该过程以不同的排列重复多次。忽略特征多重共线性,Δ m的平均下降提供了拟合模型对相应目标任务预测的检查源任务的依赖程度的估计。我们在本实验中使用保持的数据来评估泛化能力的重要性。图6可视化了NYUD-v2的结果研究表明,自我注意仍然是四个任务中三个任务的最重要的蒸馏连接然而,深度913111214五一零768321无(单个任务)2无(多任务)3 十字绣4 Pap5 PSD6PAD-Net A / NDDR-CNN7PAD-Net B8PAD-Net C /MTI-Net9全球相对上下文10本地Rel. 上下文11 T-标签相关性上下文12 S-标签相关性上下文13ATRC(我们的)∆m[%]2单个任务38.020.610420.9476.220.00为了验证所提出的ATRC模块,我们提出了前多任务36.35 0.6284 21.02 76.36-1.89MTI-Net与以下基线的实验比较[44]✓39.89 0.5824 20.57 76.602.9438.900.601020.4876.341.56✓40.800.582620.5176.503.5715876源任务SemSeg深度正常通过多任务性能Δm✓ 63.60BMTAS [5]约束10- 2 10- 1 100101∆m(=重要性)的下降相应的源-目标任务提取的输出被随机排列。矩阵中显示的数值为平均百分比下降,单位为∆m。表5. ASPP [7]和BM-TAS [5]的PASCAL-Context性能,当补充我们的ATRC时。对于ASPP,我们在每个特定于任务的头部的开头插入一个ASPP模块。对于BMTAS,我们使用他们的方法来找到分支骨架(而不是完全共享的)。ATRC是这两种方法的补充实验基于扩张的ResNet-50主干。估计似乎更强烈地依赖于语义分割源特征,证实了文献中的经验证据,即深度估计可以使用语义预测显著地改进[50]。总的来说,根据该分析,边界检测从多模态蒸馏中获益很少,这与表1中该任务缺乏值得注意的性能增益一致。我们假设这可能是由于损失(我们遵循其他人[33,44,20]并使用平衡交叉熵)和这项任务的度量之间的巨大差异。在这种情况下,更适合的损失函数(如[23])可能会有所帮助。源任务重要性得分与搜索算法可靠性线性相关-尽管很弱(Pearson cor-Raw)。全局本地T-标签S-标签无0 10 20 30 4050上下文类型比例[%]图7.对于在ATRC模块之前插入ASPP模块[7]和不插入ASPP模块的架构,在五次搜索运行中所选上下文类型的比例局部上 下 文 的 比 例 的 变 化 指 示ATRC适应于更好地完成新的主 干 。 该 实 验 使 用 基 于ResNet-50的架构在PASCAL-Context数据集上进行。相关系数为0.43)。值得注意的是,我们观察到100%的可靠性为三个最重要的源-目标任务连接的图。6.这表明搜索算法对于重要决策更一致我们使用所有搜索运行对之间候选选择的百分比一致性来量化搜索算法可靠性(不考虑机会一致性,参见第2节)。F)。4.5. 补充方法为了证明其灵活性,我们将我们的ATRC模块与(1)[7]的上下文Atrous空间金字塔池化(ASPP)模块和(2)经由分支多任务架构搜索(BMTAS)的自动主干分支结合[5]。对于这些实验,我们使用了一个扩展的ResNet-50主干(输出步幅16),在步幅4处有一个跳过连接,以及完全卷积的特定于任务的头部。ASPP是利用膨胀卷积的流行的多尺度上下文聚合模块。我们在每个特定于任务的头之前插入一个单独的ASPP模块表5示出了ATRC还提高了ASPP增强的网络的性能,表明两个上下文聚合阶段在某种程度上是互补有趣的是,ATRC搜索中所选关系上下文类型的比例随着ASPP而急剧变化,如图所示。7:局部上下文的比例从0%(w/o ASPP)上升到41.6%(w/ASPP),表明ATRC适应给定不同背景的性质的上下文类型。骨头(例如,ASPP的增强感受野更好地补充了局部信息)。分支网络是一种硬参数共享MTL策略,因此是多模态蒸馏的补充(见第2节)。2)的情况。我们通过应用我们的方法与分支骨架配置相结合,通过基于NAS的BMTAS确定这一点。表5中的结果表明,ATRC也提高了分支多任务网络的性能5. 结论我们提出了ATRC,一种新型的多模态蒸馏模块,利用任务间和任务内的关系,以改善像素的预测。所提出的方法杠杆-年龄缩放的点积注意,以丰富的目标任务的功能,通过上下文源任务的功能,同时明确地考虑到任务我们制定了四个关系上下文类型的多模态蒸馏(全球,本地,T-标签,和S-标签上下文)和详细的算法,自定义的上下文类型为每个给定的源-目标任务对。对NYUD-v2和PASCAL-Context基准的实验分析表明,我们的ATRC模块优于文献中建立的可比较的多模态蒸馏模块。总的来说,所提出的框架显示出很大的承诺,多任务密集预测,并打开了大门,为未来的研究定制的任务关系的上下文描述。11.832.550.34一点三十六2.902.430.122.120.540.676.231.120.050.060.01零点目标任务w/o ASPPw/ASPP图 6. 源任务导入器-模型ATRCSemSeg ↑部分分段↑Sal ↑正常↓结合↑∆m[%] ↑按排列单个任务56.6562.6780.6214.6674.000.00拟合ATRC模型关于NYUD-v2源任务在distilla中的贡献多任务✓ASPP [7]50.7862.9962.7059.3759.7959.9860.2378.9982.2583.8183.9115.1614.6714.3414.3071.1871.2071.2870.86-4.970.951.772.1356.3762.5479.9114.6072.83-0.55✓67.6762.9382.2914.2472.424.5315877引用[1] Radhakrishna Achanta , Sheila Hemami , FranciscoEstrada,and Sabine Susstrunk.频率调谐显著区域检测。CVPR,2009。[2] Dzmitry Bahdanau,Kyunhyun Cho,Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。2015年,国际会议[3] Irwan Bello , Barret Zoph , Ashish Vaswani , JonathonShlens,and Quoc V Le.注意增强卷积网络。在ICCV,2019年。[4] 利奥·布莱曼乱林。Machine learning,45(1):5[5] David Bruggemann 、 Menelaos Kanakis 、 StamatiosGeorgoulis和Luc Van Gool。自动搜索资源高效的分支多任务网络。在BMVC,2020年。[6] 理查德·卡鲁阿纳多任务学习:基于知识的归纳偏差来源。ICML,1993年。[7] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV,2018。[8] Xianjie Chen,Roozbeh Mottaghi,Xiaobao Liu,SanjaFidler,Raquel Urtasun,and Alan Yuille.检测您可以:使用整体模型和身体部位检测和表示对象。CVPR,2014。[9] Yunpeng Chen,Yannis Kalatidis,Jianshu Li,ShichengYan , and Jianshi Feng.a2-nets : 双 重 注 意 网 络 。NeurIPS,2018。[10] Zhao Chen,Vijay Badrinarayanan,Chen-Yu Lee,andAndrew Rabinovich.Gradnorm:梯度归一化,用于深度多任务网络中的自适应损失平衡。在ICML,2018。[11] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词:用于大规模图像识别的变压器ICLR,2021年。[12] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John W
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IPQ4019 QSDK开源代码资源包发布
- 高频组电赛必备:掌握数字频率合成模块要点
- ThinkPHP开发的仿微博系统功能解析
- 掌握Objective-C并发编程:NSOperation与NSOperationQueue精讲
- Navicat160 Premium 安装教程与说明
- SpringBoot+Vue开发的休闲娱乐票务代理平台
- 数据库课程设计:实现与优化方法探讨
- 电赛高频模块攻略:掌握移相网络的关键技术
- PHP简易简历系统教程与源码分享
- Java聊天室程序设计:实现用户互动与服务器监控
- Bootstrap后台管理页面模板(纯前端实现)
- 校园订餐系统项目源码解析:深入Spring框架核心原理
- 探索Spring核心原理的JavaWeb校园管理系统源码
- ios苹果APP从开发到上架的完整流程指南
- 深入理解Spring核心原理与源码解析
- 掌握Python函数与模块使用技巧
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功