多任务CNN中的随机滤波器组学习：任务关系的直觉优化和性能提升

111 浏览量更新于2023-10-12 收藏 1.77MB PDF 举报

多任务学习

卷积神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于多任务CNN的随机滤波器组：学习专家和通用卷积核菲利克斯·J·S 英国伦敦大学学院f. ucl.ac.uk英国伦敦大学学院ucl.ac.uk伦敦国王学院sebastien. kcl.ac.ukDaniel C.伦敦亚历山大大学学院d. ucl.ac.ukM.伦敦国王学院m.jorge. kcl.ac.uk摘要卷积神经网络（CNN）中多任务学习的性能取决于架构中任务之间特征共享的设计。可能的共享模式的数量在网络的深度和任务的数量上是组合的，因此手工制作的架构纯粹基于人类手动指定的架构共享任务1任务2用我们的方法学习建筑任务关系的直觉可能是耗时的和次优的。在本文中，我们提出了一种概率方法来学习CNN中的任务特定和共享表示，用于多任务学习。具体来说，我们提出了“随机滤波器组”（SFG），这是一种将每层中的卷积内核分配给“专家”或“一般”组的机制，这些组分别特定于不同的任务或在不同的任务之间共享。SFG模块确定层之间的连接性以及网络中任务特定和共享表示的结构。我们采用变分推理来学习可能的内核和网络参数分组的后验分布。实验表明，该方法在多个任务之间进行生成，并显示出比基线方法更好的性能。1. 介绍多任务学习（MTL）旨在通过同时解决多个相关任务来提高学习效率和预测性能[3]。最近，卷积神经网络（CNN）在MTL中的应用已经在广泛的计算机视觉应用中显示出有希望的结果，范围从视觉场景理解[30，5，25，16，27，1]到医学图像计算[26，4，2，32]。成功的MTL神经网络模型的一个关键因素是学习共享和特定任务表示的能力*两位作者的贡献相等图1：左边的图说明了一个典型的多任务架构，而右边的图显示了一个可以通过我们的方法学习的示例架构。我们提出了随机滤波器组，这是一种学习将卷积核分配给特定任务和共享组的原则性方法。[25]。理解任务之间的共性和差异的机制允许模型转换-在任务之间传递信息，同时定制预测模型以描述各个任务的不同特征。这种表示的质量由模型组件（如特征[29]和权重[24]）在任务之间共享和分离的架构设计决定。然而，可能的架构的空间组合起来很大，并且该空间的手动探索是低效的并且受到人为偏见的影响。例如图图1显示了MTL的典型CNN架构，由共享的“主干”特征提取器和特定于任务的“分支”网络组成[32，9，13，15，27，2]。共享和特定任务表示的期望数量及其在架构中的交互取决于单个任务的难度和它们之间的关系，在大多数情况下，这两者都不是先验已知的[34]。这说明了手工制作一个合适的架构的挑战，以及需要一种有效的自动方法来从数据中学习它。在本文中，我们提出了随机过滤器组（SFG）;一种概率机制，用于学习每个任务中所需的特定任务和共享表示的1385性别输入年龄1386MTL架构层（图①的人。具体地说，SFG学习将每个卷积层中的内核分配到“专家”组或“共享”主干中，这些组分别特定于不同的任务或在不同的任务之间共享（图2）。2）的情况。 SFG为网络配备了一种机制，学习层间连接，从而学习特定任务和共享表示的结构。我们铸造的SFG模块的学习作为一个变分推理问题。我们评估SFG在各种任务上的功效。特别是，我们专注于两个多任务学习问题：1)UTKFace数据集上的人脸图像的年龄回归和性别分类[35]和2）语义回归（即，图像合成）和真实世界医学成像数据集上的语义分割，这两者都需要对所有像素进行预测。实验表明，我们的方法实现了比基线更高的预测精度，没有学习连接结构的机制，并且比十字绣网络[25]具有更高或相当的性能，同时能够自动学习有意义的架构。2. 相关作品我们的工作涉及学习在不同任务中共享神经网络组件的位置，以最大限度地发挥MTL的优势这种挑战的主要原因“软”共享特征[25，29]或权重[20，24]。这些方法通常学习一组混合系数，这些混合系数确定整个网络中特征的加权和，这不会在架构上强加连接结构。另一方面，我们的方法通过对核进行分组来学习层的连通性分布。这使我们的模型能够学习特定于任务的有意义的分组和共享特征，如图所示。7.第一次会议。3. 方法我们介绍了一种新的方法，用于确定在多任务CNN架构中学习任务特定和共享表示的位置。我们提出了随机滤波器组（SFG），这是一种概率机制，可以将每个卷积层中的内核划分为“专家”组或“共享”组，这些组分别针对不同的任务或在不同的任务之间共享。我们采用变分推理来学习可能分组的核和网络参数的分布，这些参数决定了层之间的连接性以及共享和特定于任务的特征。这自然导致学习算法，其经由基于梯度的随机优化在多个任务之间最优地分配表示能力，例如，随机梯度下降方法在于设计一种机制，滤波器群概率样本分配至组以及在网络中的何处共享权重有大体上，确定MTL网络中的权重共享和分离的性质的两类方法。第一类是由优化权重分配结构以最大化任务性能的方法组成。这些方法开始学习一组向量，这些向量控制哪些特征在层内共享以及这些特征如何分布[20，24，25，29]。他们w1猫（w2猫（w3猫（w4猫（05 - 05张国荣（2016年06月06日06月07日06月08日09月09p1psp2）~）~）~）~）~）~G1GsG2 “Task从一个基线CNN架构开始，在那里他们学习定义最终MTL模型的广告连接和路径。例如，交叉缝合网络[25]控制每个卷积层的权重共享程度，而软层排序[24]超越了特征层次结构的并行排序假设，允许特征根据任务在不同层布线网络[28]提出了一种架构，其中每一层都是一组功能块，并学习决定使用给定输入和任务的块的组合。第二组MTL方法侧重于基于任务相似性的权重聚类[33，11，14，21，23]。例如，[21]采用迭代算法来生长一个树状深度架构，该架构按时间顺序对类似的任务进行聚类，或者[23]根据任务之间的统计依赖性确定权重共享的程度。我们的方法属于第一类，并通过执行特定于任务和共享功能的“硬”分区来区分它自己相比之下，现有方法基于图2：SFG模块中的滤波器分配示意图。给定卷积层中的每个核{wk}都是概率的，根据下式，被分配给滤波器组G1、G5、G2之一从分类分布Cat（p1，ps，p2）中抽取的样本。3.1. 随机滤子群SFG将稀疏连接结构引入CNN的体系结构中用于多任务学习，以便将特征分离为任务特定的和共享的组件。Ioannou等人[10]引入滤波器组将每个卷积层中的内核划分为组，每个组仅作用于前面特征的子集。他们证明，这种稀疏性降低了计算成本和参数数量，而不会影响精度。Huang等人[8]提出了类似的概念，但不同之处在于过滤器组不对互斥的特征集进行操作。这里我们采用过滤器组的概念1000100010101000010.60.10.30.10.900.40.30.30.10.80.11.0000.050.050.91387SS2k=1K2s ss(i) 均匀分裂(ii) 增加任务专业化(iii) 不对称(iv) 其他F（1），F（1），F（1）. 图2示出了该操作，并且1s2图3显示了不同的可学习模式。2. 功能路由：如图4（i），FEA-图F（l），F（l），F（l）路由到过滤器组1s2G（1+ 1），G（1+ 1），G（1+ 1）在随后的第（1+ 1）层中1s2图3：使用所提出的方法可学习的可能分组模式的图示。每一组绿色、粉红色和黄色的方块以这种方式尊重任务的特殊性和共享-第l层中过滤器组的数量。具体来说，我们对l >0执行以下路由：表示滤波器组G1（红色）、Gs（绿色）和G2的比率（蓝色）。 (i)表示所有内核被均匀分裂的情况。（l+1）1=h（l+1）。[F（l）1|F(l)] ∗G（l+1）1(ii) &（iii）是卷积核变为在更深的层次上更具体的任务。(iv)显示了一个跨任务进行更多异构拆分的示例。F（l+1）=h（l+1）。F（l）G（l+1）F（1+ 1）= h（1+ 1）[F（1）|[F（l）][G（l+1）]22s2(i) 向前传球. . .. . .任务1损失其中每个h（l+1）定义非线性函数的选择，k表示卷积运算， | 删除数组的合并操作（例如，concate- nation）。在l=0时，输入图像x简单地为con-x。与第一组过滤器组卷积以产生F（1）=.（1）土耳其. . .h（1）x <$Gi， i∈{1，2，s}. 图（4）表明，任务2损失稀疏连通性确保了G（1）的参数，(ii) 向后传递1（l）. . .. . .. . .图4：特征布线的图示。圆G1，Gs，G2表示每层中的特定于任务的筛选器组和共享筛选器组（一）G2只能根据各自的任务来学习损失，而G（l）基于这两个任务进行优化图5提供了我们的整体架构的示意图，其中每个SFG模块随机生成每个卷积层中的滤波器组，并且如上所述稀疏地路由所得到的特征。合并模块（表示为黑色圆圈）将特定于任务的适当地共享特征，即， [F（l）|F（1）]，i = 1，2，Is显示了在不同的滤波器组，而（ii）示出了来自任务损失L1和L2的梯度流的方向。红色和蓝色箭头分别表示从L1和L2开始的梯度。任务特定组G1、G2仅基于相关联的丢失来更新，而共享组Gs基于两者来更新。多任务学习范式，并提出一个扩展-将它们传递到下一层的过滤器组每个白色圆圈表示存在额外的变换（例如，卷积或全连接层），在标准非线性（例如，ReLU）。所提出的稀疏连接是不可或缺的，以确保任务性能和结构化表示。特别是，有人可能会说，“共享”特征的路由F（1）到相应的S1一个额外的机制来学习最佳的内核分组，而不是预先指定它们。为了简单起见，我们描述了SFG的情况下，多任务学习的两个任务，但可以平凡地扩展到一个更大的任务。在a中的第l个卷积层并且G（1+ 1）对于确保跨任务损失的Gra分离是不必要的。然而，这种连接允许在网络的更深层学习更复杂的特定于任务的特征。例如，如果没有此路由，则具有大比例的具有Klk个内核{w（l），k}的CNN架构ated SFG执行两个操作：1. 过滤器分配：每个核w（l），associ-是随机的Gs在第一层（图3（ii））基本上减少了可用于学习后续层中的任务特定核的特征的量-在一个层中的所有核被分配给Gs的极端情况下，任务特定核callly分配给：i）G（l），ii）后续层中的滤波器组实际上未被使用。需要强调1”G（1）“组S其中相应的概率p（l），k=是特征图的不同维度。具体[p（l），k，p（l），k，p（l），k]∈[0，1]3. 与通常，各个滤波器组中的核的数量1s2（l）（l）（l）输入G1G1G1GsGsGsG2G2G2输入G1G1L1GsGsG2G2L2G1G1G1GsG sG sG2G2G2G1G1L1GsG sG2G2L2输入F.Σ1388各个过滤器组产生不同的特征集G1，Gs，G2可以在训练的每次迭代中变化，1389=合并操作=可选转换G1G1输入GSGSG2G2SFGSFG1S2LK1S2我是12秒1s2. .. .. .图5：在存在两个任务的情况下，基于一系列SFG模块的拟议多任务架构的示意图。在每个卷积层，核被随机分配给特定于任务的和共享的滤波器组G1、G2、G3。每个输入图像首先与相应的滤波器组卷积，以产生三个不同的输出激活集合，其被稀疏地路由到第二层中的滤波器组。该过程在架构中的剩余SFG模块中重复，直到最后一层，在该最后一层，最终SFG模块的输出被组合成任务特定的预测y_1和y_2。每个小的白色圆圈表示一个可选的转换（例如额外的卷积），黑色圆圈合并传入的输入（例如，连接）。因此，所得到的特征图的深度也是如此F（1），F（1），F（1）. 而不是直接使用功能分配，我们将变分分布定义为：YL YK不同大小的地图，我们实现了建议的architec-qφ（W）=qφlk（W（l），k）（l）（l）（l）通过定义F1 ，Fs 、F2稀疏张量在每个l=1k=1SFG模块，我们首先将输入特征与所有核，并通过将源自核的通道归零来在其他组中的nels，导致F（l），F（l），F（l），YLYKl=qφl=1k =1（l），k （l），k（W（l），k，W（l），k，W（l），k）（l），kth1s2其中{W1，Ws ，W2 }表示k核在非重叠信道索引处稀疏用最简单的没有额外的转换（即，灰色的圆圈在 lth 卷积层后被路由任务-特定群G（1）、G（1）和共享群G（1）。我们定义每一个图5是恒等函数），我们定义合并op-1 2sq（W（l），k，W（l），k，W（l），k）为：曝气[F（l）|F（1）]，i = 1，2作为逐像素求和。在φlk1 2sIs存在更复杂的变换（例如，残余块），W（l），k=z（l），k·M（l），k，i∈{1，s，2}（1）我我我们在通道轴上连接输出特征，执行1x1卷积以确保[ F（l）]中的通道数|F（l）]与F（l）中的相同。3.2. T+1路混凝土在这里，我们推导出同时优化CNN参数和分组概率的方法。我们通过将二进制dropout [6，7]的变分解释扩展到每个卷积核到滤波器组的（T+1）路分配来实现这一点，其中T是任务的数量。如前所述，我们考虑T=2的情况。假设该体系结构由LSFG mod.z（l），k=[z（l），k，z（l），k，z（l），k]Cat（p（l），k）（2）其中z（l），k是来自过滤器组分配上的分类分布的样本的独热编码，并且M（ l ）， k表示预分组卷积核的参数。每一个变量的参数集因此，每一层中的nel 由φlk={M（l），k ，p（l），k=[p（l），k，p（l），k，p（l），k]}表示。我们最小化近似后验qφ（W）和p（W）之间的KL分歧|X，Y（1），Y（2））。假设两个任务的联合似然因子分解，我们有以下优化目标：单元，每个单元具有Kl个内核，其中l是索引。作为SFG中卷积核的后验分布，LMC（φ）=−NXMhilogp（y（1）|xi，Wi）+logp（y（2）|xi，Wi）模p（W|X为oh（一），Y（2））是棘手的，我们接近-Mi ii=1将其与更简单的分布qφ（W）配对，其中W=LXLXKlLK.G1输出.GS.G2输出SFGL{W（1），k}k =1，.，K，l= l，…L.假设后部+KL（qφ（W（l），k）||p（W（l），k））（3）13902我（l），k（l），k我其中M是小批量的大小，N是训练数据点的总数，Wi表示从qφ（W）采样的模型参数的集合。最后一个KL项调节近似后验与先验p（W（l ）， k）=N（0，I/l2）的偏差，其中l >0。将[6]中给出的近似值调整到我们的场景，我们得到：L2医学成像数据集：我们使用医学成像数据集来评估我们的方法在现实世界中，多任务问题，其中缺乏数据是常见的，难以miti门。放射治疗计划的目标是最大化肿瘤的辐射剂量，同时最小化器官的剂量。为了计划剂量输送，需要进行计算机断层扫描（CT），因为CT体素强度随KL（qφlk（W）||p（W））其中H（p（l），k）= −P||2− H（p（l），k）||2− H(p(l),k)2（四）p（l），klogp（l），k是en-组织密度，从而允许剂量传播模拟。需要进行MRI扫描以分割周围器官。算法可以同时获取MRI和CT，i∈{1，2，s}ii分组概率的熵。虽然第一个任期每-形成L2-权重范数，第二项将分组概率拉向均匀分布。封堵设备(4)进入eq. (3)总损失：用于合成CT扫描（任务1）和给定单个输入MRI扫描的分割器官（任务2）。对于本实验，我们采集了15个3D前列腺癌扫描，分别采用CT和MRI扫描，并带有器官（前列腺、膀胱、直肠和左/右股骨头）的语义3D标签。从受过训练的放射科医生处获得我们创造了一个训练LMC（φ）=−NXMhMi=1⇣logP （1）|xi，Wi⌘⇣+logp塞吉y（2）|xi，Wi一组10名患者，其余5名用于测试。我们在从轴向切片随机采样的大小为128x128的2D补丁上训练我们的网络，并重建3D图像。XL+ λ1·XKlXL||M（l），k||2− λ2· XKlH（p（l），k）（5）在测试时通过拼接子图像方式的预测来生成尺寸为288×288 ×62l=1k =1l =1k =1其中λ1>0，λ2>0是正则化系数。我们注意到，在滤波器组分配期间的离散采样操作（等式10）。(2))创建不连续性，给出目标函数中的第一项（等式2）。5)关于分组概率{p（l），k}的零梯度。我们在[15]中所使用的二进制的情况下，通过Gumbel-Softmax分布GS M（p（l），k，τ）[22，12]来近似每个分类变量Cat（p（l），k），这是一种连续松弛，允许通过重新参数化技巧相对于参数p（l），k进行采样。温度项τ调整梯度近似的偏差-方差权衡;当τ的值接近0时，来自GSM分布的样本变为独热（即，较低的偏置），而梯度的方差增加。在实践中，我们从高τ开始，退火到一个小但非零的值，如[12，7]中所述，详见补充材料。4. 实验我们在两个多任务学习（MTL）问题上测试了随机过滤器组（SFG）：1）UTKFace数据集上人脸图像的年龄回归和性别分类[35]以及2）医学成像数据集上的语义图像回归（合成）和分割。UTKFace数据集：我们在UTKFace [35]上测试了我们的方法，UTKFace由23，703张带有年龄和性别标签的裁剪人脸图像组成。我们创建了一个70/15/15%分割的数据集。我们创建了一个单独的第二数据集，其中只包含来自初始集的10%的图像，以便模拟数据匮乏的情况。4.1. 基线我们将我们的模型与四个基线进行了比较，此外，交叉缝合网络[25]训练端到端而不是顺序进行公平比较。考虑的四个基线是：1）单任务网络，2）硬参数共享多任务网络（MT-硬共享），3）SFG-根据图3（i）具有恒定1/3分配分组（MT-恒定掩码）的网络，以及4）具有恒定分组概率（MT-恒定p）的SFG-网络。我们以端到端的方式为所有实验训练所有基线。我们注意到，所有四个基线都可以被认为是SFG网络的特殊情况当核的共享分组概率设置为零时，可以学习两个单任务网络。考虑图5，这将删除对角连接和共享网络。当面对两个不相关的任务，没有共享上下文信息时，这可能很重要。当所有共享的分组概率被最大化为1时，存在硬参数共享网络，导致所有特征在网络内共享直到任务特定层的场景。MT-常数掩码网络如图所示3（i），其中1/3的内核被分配给任务1、任务2和共享组，产生跨层的均匀分割当每层中相等数量的核获得p（l），k=[1，0，0]，[0，1，0]和[0，0，1]的概率时，会发生这种情况。最后，MT-常数p模型表示分组是无信息的并且每个核具有相同的概率是特定的或与概率 p（ l ）共享的，k=[1/3，1/3，1/3]的情况。补充文件中提供了这些模型的训练细节，包括超参数设置。139112UTKFace网络：我们使用VGG-11 CNN架构[31]年龄和性别预测。该网络由一系列与最大池化层交织的3x3卷积层组成。与原始架构相比，我们替换了最终的最大池化和全连接层具有全局平均池化（GAP），随后是用于预测的完全连接的层。我们模型映射F（1），F（1），F（1）. 我们将GAP应用于每个最终fea-方法(a) 完整的训练数据年龄性别（MAE）（准确度）12秒在最后的合并操作之前，每个任务的连接层。医学影像网络：我们使用HighResNet架构[18]进行CT合成和器官分割。该网络已开发用于医学成像中的语义分割，并已用于各种医学应用，如CT合成[2]和脑分割[18]。它由一系列残差块组成，这些残差块将两个3x3卷积层与膨胀卷积组合在一起。基线网络由一个3x3卷积层组成，后面是三组两次重复的残差块，使用因子d=[1，2，4]进行扩张卷积。在每组重复的残差块之间有一个3×3卷积层。网络以两个最终的3x3层和一个或两个1x1卷积层结束，用于单任务和多任务预测。在我们的模型中，我们用SFG模块替换每个卷积层。在第一个SFG层之后，三个不同的重复残留块被应用于F（1=0）、F（1=0）、F（1=0）。这些是(b) 小的训练数据方法年龄性别表1：UTK-Face [35]上的年龄回归和性别分类结果，（a）完整和（b）有限训练集。最好的和第二好的结果以红色和蓝色显示。报告了年龄预测的平均绝对误差（MAE）和性别预测的分类准确度。对于我们的模型，我们通过对内核进行采样，在测试时执行了50次随机向前传递从近似的后验qφ（W）。我们计算每个受试者的平均年龄，并使用以下模式获得性别预测：测试时间预测12秒然后根据特征路由方法进行合并接着是新的SFG层和随后的残留层。我们的模型以2个连续的SFG层结束，然后是应用于合并特征F（l=L）和F（l=L）的1 x 1卷积层。5. 结果5.1. 年龄回归和性别预测两个数据集的年龄预测和性别分类结果见表1。1a和1b。我们的模型（MT-SFG）在两个数据体系中与基线相比都取得了最佳性能在这两组实验中，我们的模型优于硬参数共享（MT-硬共享）和常数分配（MT-常数掩码）。这证明了学习分配内核的优势。在MT-常数掩码模型中，内核在组之间均匀分配。相比之下，我们的模型能够在网络的不同层中以不同的比例分配内核（图1）。6 -SFG-VGG 11），以最大限度地减少感应传输。此外，我们的方法比具有恒定、无信息分组概率的模型（MT常数p=[1/3，1/3，1/3]）表现得更好，显示学习结构化表示和跨层连接的重要性，以产生良好的预测。5.2. 图像回归和语义分割输入MRI扫描的CT图像合成和器官分割结果详见表1。2.我们的方法在两项任务上都获得了与交叉缝合网络[25]等同的结果（无统计学显著差异）。然而，当与所有基线（包括Cross-Stitch）进行比较时，我们在我们的模型中观察到骨骼区域（股骨头和骨盆骨区域）的最佳合成性能。骨体素强度是最难从输入MR扫描合成的，因为骨骼处MR到CT映射的任务不确定性通常最高[2]。我们的模型能够解开特定于骨强度映射的特征（图1）。7）没有骨盆位置的监督，这使它能够学习一个更准确的映射本质上困难的任务。5.3. 学习架构嵌入SFG模块的网络的分组概率的分析允许网络连接的可视化，从而学习MTL架构。单任务（VGG11）[31]7 .第一次会议。32九十70MT-硬共享7 .第一次会议。92九十60MT常数掩模7 .第一次会议。6789岁。41（MAE）（准确度）单任务（VGG11）[31]8. 79八十五54MT-硬共享9 .第九条。19八十五83MT常数掩模9 .第九条。02八十五98MT常数p=[1/3，1/3，1/3]9 .第九条。1586岁。011392(a) CT合成（PSNR）方法整体骨头机关前列膀胱直肠单任务（HighResNet）[18]25.76（0.80）30.35（0.58）38.04（0.94）51.38（0.79）33.34（0.83）34.19（0.31）MT-硬共享26.31（0.76）31.25（0.61）39.19（0.98）52.93（0.95）34.12（0.82）34.15（0.30）MT常数掩模二十四岁43（0. 第五十七章）29岁10（0.46）三十七24（0. 86）50块48（0.73）三十二29（1. 01）三十三岁。44（2. 第八十八章）MT常数p=[1/3，1/3，1/3]26.64（0.54）31.05（0.55）39.11（1.00）53.20（0.86）34.34（1.35）35.61（0.35）[25]第二十五话27.86（1.05）32.27（0.55）40.45（1.27）54.51（1.01）36.81（0.92）36.35（0.38）MT-SFG（我们的）27.74（0.96）32.29（0.59）39.93（1.09）53.01（1.06）35.65（0.44）35.65（0.37）(b) 分割（DICE）方法整体左侧股骨头右侧股骨头前列膀胱直肠单任务（HighResNet）[18] 0的情况。848（0. 024）0.931（0.012）0.917（0.013）0.913（0.013）0.739（0.060）0.741（0.011）MT-硬共享0的情况。829（0. 023）0.933（0.009）0.889（0.044）0.904（0.016）0.685（0.036）0.732（0.014）MT常数掩模0的情况。774（0. 065）0.908（0.012）0.911（0.015）0.806（0.0541）0.583（0.178）0.662（0.019）MT常数p=[1/3，1/3，1/3]0的情况。752（0. 056）0.917（0.004）0.917（0.01）0.729（0.086）0.560（0.180）0.639（0.012）[25]第二十五话0.854（0.036）0.923（0.008）0.915（0.013）0.933（0.009）0.761（0.053）0.737（0.015）MT-SFG（我们的）0的情况。852（0. 047）0.935（0.007）0.912（0.013）0.923（0.016）0.750（0.062）0.758（0.011）表2：在医学成像数据集上的性能，红色显示最佳结果，蓝色显示第二佳结果。报告了整个体积（总体）、骨骼区域、所有器官标记以及前列腺、膀胱和直肠单独CT合成（synCT）的PSNR对于分割，计算跨所有语义标签的每个患者的平均DICE分数。在测试受试者群组上计算标准偏差对于我们的模型，我们在测试时执行50次随机向前传递，来自近似后验分布qφ（W）的核。我们计算所有通道的平均值以获得synCT并计算最终分割的分割标签的模式。为了分析每层内核的组分配，我们计算了每层类概率的总和。在UTKFace上训练的SFG-VGG 11网络和在前列腺扫描上训练的SFG-HighResNet网络的学习分组见图。6.这些图说明了随着网络深度的增加，内核中的任务专业化程度不断提高。在第一层，所有内核被分类为共享（p= [0，1，0]），因为诸如边缘或对比度描述符之类的低阶特征通常是在较早的层中学习的。在更深的层中，高阶表示被学习，它描述了特定于任务的各种显著特征。这与我们的网络将内核分配为特定任务相一致，如图所示。7，其中激活通过每层分配的类来分层。在补充材料中提供了学习的内核概率的密度图和显示训练动态的轨迹图，以及更多的特征可视化示例。值得注意的是，这两个模型的学习连接显示出惊人的相似性，硬参数共享架构中常用的MTL。通常，存在一组共享层，其旨在学习两个任务共有的特征集。然后，特定于任务的分支从该特征空间学习映射，以进行特定于任务的预测。我们的模型能够自动学习这种结构，同时允许在网络结构上没有先验的情况下不对称分配特定于任务的内核。5.4. p初始化的影响图3显示了UTKFace数据集上四个不同初始化的学习核组的逐层比例分组概率p的利用方案：（i）“支配共享”，其中p =[0. 2，0。6，0。2]，（二）任务特定的”，其中p = [0. 45，0。1，0。45]，（iii）在所有情况下，相同的超参数集，包括GSM中温度项的退火速率，近似和熵正则化子H（p）的系数在训练期间被使用。我们观察到，（i），（ii）和（iii）中的各个层的核心分组都是连通的。接近一个非常相似的配置中观察到的第二节。5.3，突出了我们的方法对p的不同初始化的鲁棒性。在情况（iv）中，由于较弱的梯度，p的学习比其余情况慢得多SFG-VGG11 SFG-HighResNet图6：a）UTKFace上的SFG-VGG 11网络和b）医学扫描上的SFG-HighResNet中的学习内核分组。任务1、共享和任务21393过滤器组的比例以蓝色、绿色和粉色显示在SFG-VGG 11中，任务1是年龄回归，任务2是性别分类。对于SFG-HighResNet，任务1是CT合成，任务2是器官分割。1394图7：来自所学习的任务特定的和共享的过滤器组G（1）、G（1）、G（1）中的示例内核的激活图。12秒在SFG-HighResNet中的第一个、第二个和最后一个卷积层中，在医学成像数据集上训练的模型。来自具有低熵的卷积核的结果（即，对于各个层示出了组分配概率P（L）的高“置信度”）。我们推测，更高的熵正则化是必要的，以促进其收敛。6. 讨论在本文中，我们提出了随机过滤器组（SFGs），以解开特定任务和通才功能。SFG在概率上定义了内核的分组，从而定义了CNN中特征的连通性。我们使用变分推理来近似给定训练数据的连接分布，并在训练过程中对可能的架构进行采样。我们的方法可以被认为是多任务架构学习的概率形式[19]，因为学习后验体现了给定数据的最佳MTL架构。我们的模型学习表示中的结构。学习到的共享（通用）特性可以被利用，（（（（i图8：分组概率p在收敛后学习的内核分配在迁移学习或持续学习的情况下。如[17]所示，从多个任务中学习到的有效先验可以成为学习新的、不相关的任务的强大工具。因此，我们的模型提供了利用学习到的任务特定和通才功能的可能性，当面临需要第三个任务的情况下，这可能会受到不平衡或有限的训练数据。这在医学领域尤其重要，因为在医学领域，获取训练数据既昂贵又费力。我们将在进一步的工作中对此进行调查。最后，由SFG模块组成的网络可以被视为众多MTL架构的超集。根据数据和分析的问题，SFG可以恢复许多不同的体系结构，如单任务网络，传统的硬参数共享，任务之间的等效分配和非对称分组（图11）。（3）第三章。然而，请注意，所提出的SFG模块仅学习相邻层之间的连接性。没有研究层的非平行排序，这是MTL模型[24，29]的关键概念。未来的工作将着眼于研究SFG模块在非相邻层之间的分组内核之间学习连接的适用性。致谢FB和MJC得到了CRUK加速器赠款A21993的支持。RT得到了微软奖学金的支持。DA得到了欧盟地平线2020研究和创新计划资助666992，EPSRC资助M020533，R014019和R006032以及NIHR UCLH BRC的支持。我们感谢NVIDIA公司捐赠硬件。分割输入合成1395引用[1] Hakan Bilen和Andrea Vedaldi。使用循环多任务神经网络的集成感知神经信息处理系统的进展，第235-243页，2016年[2] Felix Bragman，Ryu Tanno，Zach Eaton-Rosen，WenqiLi ， DavidHawkes ， LiantienOurselin ， DanielAlexander ， Jamie McClelland ， and M. 豪尔赫 · 卡多佐。多任务学习中的不确定性：概率性磁共振放射治疗计划的联合表示在医学图像计算和计算机辅助干预（MICCAI），2018年。[3] 瑞奇· 卡鲁阿纳多任务学习。 Machine learning，28（1）：41[4] 陈思宏，倪东，秦静，雷白英，王天富用多任务回归将计算特征与多语义特征在医学图像计算和计算机辅助干预上，第53-60页。施普林格，2016年。[5] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面在Proceedings of the IEEE internationalconference on computer vision，第2650[6] 亚林·加尔深度学习的不确定性剑桥大学，2016年。[7] Yarin Gal Jiri Hron和Alex Kendall混凝土辍学。神经信息处理系统的进展，第3581-3590页，2017年[8] Gao Huang ，Shichen Liu ，Laurens Van der Maaten ，and Kilian Q Weinberger.冷凝网：一个有效的密集使用学习组卷积。在IEEE计算机视觉和模式识别会议论文集，第2752-2761页[9] Junshi Huang ， Rogerio S Feris ， Qiang Chen ， andShuicheng Yan.基于双属性感知排序网络的跨域图像检索。在IEEE国际计算机视觉会议论文集，第1062[10] Yani Ioannou ， Duncan Robertson ， Roberto Cipolla ，Antonio Criminisi，et al.深深的根：用分层过滤器组提高cnn效率。2017年。[11] Laurent Jacob，Jean philippe Vert，and Francis R.巴赫.多任务学习：一个凸公式。神经信息处理系统的优势21，2009。[12] Eric Jang ，Shixiang Gu ，and Ben Poole. 使用gumbel-softmax 进行分类重新参数化。arXiv预印本arXiv：1611.01144，2016。[13] 布兰登·周和张世福用于多任务视觉识别的深度交叉残差第24届ACM多媒体国际会议论文集，第998-1007页。ACM，2016。[14] Zhuoliang Kang，Kristen Grauman，and Fei Sha.在多任务特征学习中学习与谁共享。在第28届国际机器学习国际会议中，ICMLOmnipress.[15] Alex Kendall Yarin Gal和Roberto Cipolla使用不确定性来权衡场景几何和语义损失的多任务学习在IEEE计算机视觉和模式识别会议（CVPR），2018年。[16] Iasonas Kokkinos Ubernet：使用不同的数据集和有限的内存训练通用卷积神经网络，用于低，中，高层次的视觉。在IEEE计算机视觉和模式识别会议论文集，第6129-6138页[17] 亚历山大·拉科斯特、鲍里斯·奥雷什金、钟元昌、托马斯·博奎特、内加尔·罗斯塔姆扎德和大卫·克鲁格。多任务迁移学习中的不确定性。在arXiv：1806.07528，2018。[18] Wenqi Li，Guotai Wang，Lucas Fidon，Rumtien Ourselin，M.豪尔赫·卡多佐和汤姆·弗科特伦关于3D卷积网络的紧凑性、效率和表示2017年。[19] Jason Liang，Elliot Meyerson，and Risto Miikkulainen.深层多任务网络的进化架构搜索在遗传和进化计算会议论文集，第466-473页。ACM，2018。[20] Mingsheng Long and Jianmin Wang.通过深度关系网络学习多个在神经信息处理系统，2017年。[21] Yongxi Lu ， Abhishek Kumar ， Shuangfei Zhai ， YuCheng，TaraJ a vidi，andRo ge'rioSchmidtFeris. 多任务网络中的全自适应特征共享及其在个人属性分类中的应用。在CVPR，第1卷，第6页，2017年。[22] Chris J Maddison，Andriy Mnih，and Yee Whye Teh.具体分布：离散随机变量的连续松弛。arXiv预印本arXiv：1611.00712，2016。[23] Youssef A Mejjati，Darren Cosker和Kwang In Kim。通过最大化统计相关性的多任务学习。在IEEE计算机视觉和模式识别会议论文集，第3465-3473页[24] 埃利奥特·迈耶森和里斯托·米库莱宁Beyond shared hi-history ： Deep multitask learning through soft layerordering.在2018年学习代表国际会议[25] Ishan Misra 、 Abhinav Shrivastava 、 Abhinav Gupta 和Mar- tial Hebert 。多任务学习的十字绣网络。在CVPR，2016年。[26] Pim Moeskops，Jelmer M Wolter

下载后可阅读完整内容，剩余1页未读，立即下载