多任务学习中的任务路由与条件特征变换

95 浏览量更新于2023-10-12 收藏 733KB PDF 举报

多任务学习

任务路由

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1375多任务学习与任务路由Gjorgji Strezoski，Nanne van Noord和Marcel Worring阿姆斯特丹{g.strezoski，n.j.e.vannoord，m.worring}@ uva.nl摘要典型的多任务学习（MTL）方法依赖于架构调整和大的可训练参数集来联合优化多个任务。然而，当任务数量增加时，结构调整和资源需求的复杂性也会增加。在本文中，我们介绍了一种方法，该方法在卷积激活上应用条件特征变换，使模型能够成功执行大量任务。为了区别于常规MTL，我们引入了多任务学习（MaTL）作为MTL的特殊情况，其中超过20个任务由单个模型执行我们的方法被称为任务路由（TR）被封装在一个层中，我们称之为任务路由层（TRL），应用在一个MaTL场景中成功地适合数百个分类任务在一个模型。我们对5个数据集和Visual Decathlon（VD）挑战进行了评估，以对抗强大的基线和最先进的方法。1. 介绍多任务处理无处不在。在日常生活中，以及在计算机科学中，同时执行多个任务可以提高效率和资源利用率[32，39]。根据定义，MTL是一种学习范式，旨在通过同时优化多个任务来提高机器学习模型的泛化性能[4]。它的对应物，单任务学习（STL）发生在模型仅为执行单个任务而优化时。STL模型通常具有丰富的参数，这些参数能够适应多个任务[14]。MTL的目标是利用这一额外的能力。同时执行的任务可以通过在训练期间共享模型为每个任务定义的专业知识来帮助或伤害彼此的执行例如，在鸟类图像的数据集中，训练模型以识别白色头部羽毛和白色腹部可以帮助对鸟类进行分类图1：通过三层多任务深度卷积神经网络的路由映射和专用路由，每个任务路由层共享50%的单元海鸥鸟然而，我们不能指望鸟类大小检测器来帮助海鸥分类，因为这种鸟在自然界中有许多大小，所以大小与其物种无关。与任何组合问题一样，在MTL中存在未知的任务和共享资源的最优组合。随着现代模型[6，7，28，24]在深度、复杂性和容量上的增长，搜索空间以找到这种组合变得越来越低效该搜索持续时间与模型结构中存在的任务和参数的数量成MTL和STL之前的工作都依赖于进化算法[15]或因子分解技术[41]来发现它们的最佳学习方式，但是这需要时间和训练过程。在我们的工作中，受到随机搜索效率的启发[3]，我们通过调节每个任务来SHAREDUNITIN卷积层特定任务输出数据流多任务深度神经网络具有3个卷积层输入输出1376我们的模型中的数据流。如图1所示，通过将每个单元签名为可以使用它的任务子集，我们为每个任务创建了专门的子网。此外，我们表明，通过参数空间提供具有备用路线的任务，增加了特征鲁棒性并提高了可扩展性，同时提高了预测性能。在整个训练过程中创建和保持备用任务路线，不仅仅是学习一个强大的共享和特定于任务的特征表示。分配每个任务的知识规则化的任务可能对彼此的影响，积极的和消极的。MTL的研究一直试图解决联合学习任务之间的负面影响。例如，统计分析任务关系[1]并将结果作为先验知识注入，有助于将从彼此学习过程中受益的任务组合起来。同样，对于一个完整的多级输出架构的设计选择，如Ubernet [10]，可以依赖于公司的领域经验。这允许[10]在模型中的正确级别创建低、中、高级别任务之间的共享功能先验知识也可以用于分支MTL架构的最终分支输出，其中仔细设计任务特定分支可以然而，上述统计分析和架构设计选择依赖于先验知识，而这些先验知识通常是不可用的或者获得起来很昂贵。我们通过引入任务路由机制，允许任务具有单独的模型内数据流，从而缓解了获取先验知识的问题。通过这种方式，通过强制执行结构化的随机解决方案，我们允许任务建立自己的共享方式。我们经验验证我们的路由机制从Zappos-50 K数据集中的少量任务开始，我们在UCSD-Birds数据集中扩展到312个任务[36]。为了将这种设置与常规MTL区分开来，我们引入了多任务学习（MaTL）作为MTL的特殊情况，其中执行了20多个任务对于MTL，我们显示出具有竞争力的性能与小的任务计数，并进一步超越现有方法的能力，以实现最先进的性能在一个MaTL上下文的UCSD-Birds数据集中的完整的一组可能的任务。在本文中，我们确定了以下主要贡献：• 我们提出了一个可扩展的MTL技术，利用跨任务的知识转移，而不需要事先的领域知识。• 我们能够在一个单一的MTL模型中对多个子架构进行结构化的确定性采样。• 我们在训练过程中以直观的非参数方式定义任务关系，而不需要先前的领域知识或统计分析。• 我们将我们的方法应用于总共15个数据集，证明其有效性和性能增益超过强基线和最先进的方法。2. 相关工作由于我们的方法从特征转换、架构搜索和正则化工作中汲取灵感，因此本节的结构涵盖了这些领域。因此，我们首先解释MTL及其可能的变化背后的想法。之后，我们在 MTL 上下文中链接到 modulation 和feature-wise transformations中的相关思想，并通过将我们的方法与现有的正则化和架构搜索方法区分开来来完成相关工作讨论多任务学习（MTL）[2，4，34]是一种学习范式，旨在提高机器学习模型的泛化性能，优化多个任务。Caruana [4]进一步将MTL描述为一种通过利用相关任务的训练信号中包含的特定于领域的信息来因此，在MTL中，目标是联合执行多个任务的实验，并改进每个任务的学习过程。无论这些实验是同时优化还是以增量方式优化，都将MTL方法分为对称或不对称[39]。非对称MTL依赖于使用解决辅助任务的知识，以提高一个主要目标任务的性能。这种表述与迁移学习相似[22]。它们之间的一个关键区别是，在不对称MTL中，辅助任务是与主任务同步学习的在我们的工作中，我们专注于对称MTL。与非对称MTL不同，对称MTL旨在同时提高所有任务的性能。它利用了一些任务是相关的（相互依赖的）这一事实，并通过在统一的表示下联合学习它们的估计量，利用任务之间的专业知识的可转移性来最大限度地提高所有人的利益[39]。Zhang等人引入了一种称为多任务关系学习（MTRL）[46]的对称方法，该方法将多个任务的并行学习规则化，并以非参数方式将它们的关系建模为任务协方差矩阵。近年来开发了许多其他对称方法[21，44，利用不同正则化策略的组合[13]，多级共享[43]，跨层参数组合[21]或所有选项的网格[26]已经扩展。1377图2：TRL在卷积层输出上的操作（白色通道）。当前活动任务用于选择蒙版（亮绿色为1，深绿色为0）。在跨通道的元素乘法之后，剩余的通道被着色为亮绿色，无效的通道是棕色和透明的。经过测试。然而，它们容易受到噪声和离群任务的影响，当这些任务被引入时，性能会显着下降。这是由于低等级的特征鲁棒性和所有任务都积极影响彼此学习过程的初始假设在我们的工作中，我们通过从训练过程开始随机化共享结构，并强制任务使用备用路径来进行数据流通过模型，来解决特征鲁棒性问题。对称和非对称MTL方法通常依赖于先验知识来帮助进行架构设计、共享选项和任务分组[23，33，9，1]。如果这些知识是存在的，它是一个有用的资源，设计一个MTL模型。然而，通常情况下，这些知识是不可用的，需要领域专家分析（例如，手工制作Omniglot [12]数据集的MTL模型需要了解古代字母表）。由于这个原因，开发没有先验领域知识的MTL模型对现实世界的应用至关重要。最近在这个方向上的一个步骤是由刘等。[18]他们提出了一种自适应MTL模型，该模型将任务结构化地分组在一起。进化算法也被证明可以捕获任务相关性并创建共享结构[15]。Yang等人提出了一种结构性较低的解决方案。[41]他们使用分解空间表示来学习MTL模型中每一层的任务间共享结构。这些方法中的大多数在如何定义、构造或初始化模型方面都有严格的约束我们提出了一种适用于任何深度MTL模型的方法，无需结构调整，因为我们封装了逐层参数空间。通过控制数据流而不是结构，我们不会影响底层模型的行为，这拓宽了我们方法的可用性范围。资源消耗在MTL模型中变得越来越重要，因为它通常会随着执行任务的数量而增加由于我们的方法不依赖于结构，因此它具有非常小的计算占用空间。在[48]中提出了一种使用调制进行图像检索的MTL的最新可扩展方法，其中他们成功地可扩展到执行40个任务。[48]中速度和内存大小之间的权衡显示只有15%的开销。在我们的工作中，我们建立在这种方法的基础上，并在一个单一的模型中展示了300多个任务的竞争性能，计算预算的最小成本，这与当前的方法是低效的或不可能的。PackNet [20]提出了一个与我们的工作有关的想法，在这个意义上，Mallya等人。使用现有网络的固定权重来学习具有相同模型的新任务。这是一种直观而简单的方法，可以重用骨干网络来执行其他任务，但正如作者所指出的那样，它的缺点是不允许任务共享并从彼此的学习过程中受益。在这种情况下，自适应实例归一化[8]是一种能够在没有可学习参数的情况下调整两个输入之间的通道均值和方差的方法这提供了类似的特征方面的转换，并且没有与[20]相同的问题，但是尚未在MTL场景中进行测试，其中输入是任务特定的表示。卷积神经结构[27]与我们在架构搜索方面的工作有关。Saxena等人定义3D网格，连接来自不同层的响应映射，并创建更小、更薄的专用架构。另一方面，TR工作在MTL领域，允许我们从指数级大的子网池中进行池化。类似地，Dropout [31]与我们的工作有关，作为一种正规化和共同适应的预防技术。在Dropout中，每次对Bernoulli向量进行采样时，丢弃的单元都会改变，这向该技术添加了随机分量，进一步抑制了单元的协同适应。相同的正则化构建块存在于STL场景中的相关方法[30，37，5，40]中。TR允许在对称MTL范例中更确定性形式的任务间正则化此外，Dropout可以与我们的方法结合使用并证明是有益的，因为它可以在训练期间提供一般的正则化和额外的协同适应预防。任务路线（面具）12活动任务路由模块特定任务面罩在出来313782卷积3. 任务路由大多数MTL方法涉及特定任务和共享单元作为MTL培训程序的一部分。我们的方法使模型的卷积层中的单元在训练和测试机制中具有一致的共享或特定于任务的图1直观地显示了在模型执行的任务集合中如何使用各个单元我们通过在卷积激活上应用通道式任务特定的二进制掩码来实现此行为，将输入限制为仅包含分配给任务的激活图2说明了激活的屏蔽过程因为激活的流动不遵循其常规路线，即，它已经被重新路由到一个备用的，我们命名我们的方法任务路由（TR）和它的相应层的任务路由层（TRL）。通过将TRL应用于网络，我们能够在任务之间重用单元，并扩展可以使用单个模型执行的任务数量使任务路由的掩码是在模型实例化时随机生成的，并在整个训练过程中保持这些掩模使用预先定义的共享比率超参数σ来共享比率定义了任务特定的单元数量以及任务之间共享的单元数量这个比率的倒数因此，共享比率使我们能够通过一个超参数的简单调整来探索共享可能性的完整空间。共享比率为0将指示在网络内不发生共享，并且每个可训练单元仅特定于单个任务，从而导致每个任务的不同网络。在频谱的另一边，共享比率为1将使每个单元在每个任务之间共享，从而导致经典的完全共享MTL架构。3.1. 任务路由掩码创建任务路由是通过卷积层中的单元激活与条件二进制掩码的特征变换来执行的。由于我们的系统对手头的问题没有任何先验知识，因此在我们的模型实例化时随机创建掩码。所得到的随机结构在训练和测试期间是持久的，因为掩码是不可训练的。拥有不可变的掩码对于MaTL特别有用，因为其中可能的共享策略空间非常大。通过从训练过程开始就实施固定的共享策略，该模型可以专注于训练强大的特定任务和共享单元，而不是在不断变化的任务组合上训练单元。3.2. 任务路由层我们提出了一个称为任务路由层（TRL）的新层，其包含用于活动任务A的任务特定的二进制掩码mA∈ZC，其应用于具有维度[B×C×H×W]的卷积层的输入X∈RC×H ×W，其中B是批量大小，C是单元数H是高度，W是单元的宽度。为了简化符号，我们丢弃H和W维度，因为掩模跨空间维度均匀地应用于整个通道。应用此掩码（见等式1）类似于执行条件特征变换，并生成掩码输出，然后将其传播到下一个卷积块。图3显示了卷积块内的TRL放置。由于应用于卷积输出的特征变换可能会影响局部运行均值和方差，因此TRL被放置在批量归一化层（如果存在）之后。AB图3：卷积块内的TRL放置（蓝色块）。A部分（左侧）显示了添加TRL之前的卷积块，B部分显示了添加TRL之后的卷积块。T RLA（X）=mA<$X（1）在前向传递期间，单个专用子网是活动的，即活动任务A的子网。这通过为TRL设置活动任务来实现。在前向传播过程中，我们从任务池中随机抽取一个任务由于遍历数据集所需的迭代次数通常比任务的数量高得多，因此任务在一个时期内未被优化的可能性非常小。这种机会随着训练过程跨越多个时期而急剧减少。即使我们认为一个任务在一个时期内没有被优化，这也很容易通过部分共享同一组单元的其他任务的优化来补偿在测试时，需要对每个任务进行单独的评估，因为输入必须为每个任务传播不同的参数我们的方法的训练操作流程在算法1中示出。当我们遍历训练集时，对于每个采样的小批量，我们改变当前活动的激活（ACCUU）激活（ACCUU）任务路由层（TRL）批次归一化批次归一化卷积1379算法1用于TRL的一曰：程序TRAIN（X）2：对于X inXTrain做训练循环3：A←样本（任务集）4：设置活动任务（A）5：向前（X）任务设置当前活动的任务是框架中的全局更改，因此TR工作流不会影响现有的传播和训练方式。这个属性使得TR很容易集成到现有的项目中。作为全局变量，活动任务影响模型中所有TRL中应用的掩码，并将路由激活导航到任务特定分类器。在输入的前向传递中，TRL在整个输入批次的空间维度上均匀地为活动任务应用所选择的掩码。如al-出租m 2中所示，我们在卷积层输出上的TRL的前向传递中执行特征变换图2说明了如何执行任务路由以及如何通过活动掩码使通道无效。算法2TRL的前向传递一曰：程序FORWARD（X）2：mA←M[A]M←setofmasks3：out←mAXAcross all channels4：returnout掩码输出3.3. 复杂性与硬共享MTL方法[4]或十字绣网络[21]相比，我们的模型仅添加了最少数量的额外参数，并且与类似架构搜索方法[27]相比，具有显著更低的参数计数我们在实验设置中定义的模型在每个卷积层之后包含任务路由层。这样，TRL的附加参数的数量与卷积层、单元和通道的数量直接相关并成比例增加任务的数量，而不附加一个distinct嵌入每个任务的结果在一个可以忽略不计的参数计数增加。然而，我们明确地确定，每个任务有一个单独的嵌入空间可以提高独立任务的性能。正因为如此，我们模型中的大多数附加参数来自广泛的任务特定分支，而不是TRL。4. 实验设计我们的实验旨在测试和验证这项工作中提出的贡献。我们评估我们的方法在多个分类任务，比较强大的基线和最先进的方法。为此，我们考虑了各种数据集，从灰度概念数据集（FashionMNIST）到属性丰富的现实世界问题（UCSD-Birds）、跨数据集MTL基准（VD）和基于多属性的人脸数据集（CelebA）。此外，通过CelebA和UT-Zappos 50 K数据集，我们将其与[48]中呈现的最先进性能进行了比较。4.1. 数据集UCSD Birds[36]是一个数据集，提供了超过200种鸟类的11.788张鸟类图像，具有312个二进制属性。对于最先进的比较，我们比较了使用FSIC作为相似性度量的谱聚类获得的十个目标属性[1]。随着我们逐渐增加所选属性的数量，我们为每个属性定义了50、100、200和312个二进制分类任务。对于这个数据集，训练集和测试集具有相同的大小和分布。对于10个任务实验，根据[1]中的10个属性选择对属性进行采样，对于其余实验，按照原始注释文件的顺序对属性进行采样。视觉十项全能（VD）[25]是一个基准，它评估了表征同时捕获十个非常不同的视觉领域的能力，并衡量了它们均匀表现的能力虽然这项任务的图像分辨率较低（72x72像素），它们包含各种各样的任务，例如行人、数字、飞行器和动作分类，这使得它非常适合于测试我们的方法的泛化能力。我们使用每个任务的准确性来评估我们的表现，并使用官方挑战指标[19]基于每个任务的准确性分配最大值为10，000（每个任务1，000）的累积分数FashionMNIST[38]和CIFAR-10[11]构成了我们实验设计的概念验证部分，因为它们是成熟的基准，并提供了不同超参数设置如何影响该方法的指示对于这两个数据集，我们定义了10个二进制分类任务，并评估了准确率，精度和召回率得分。CelebA[17]由超过20万张人脸图像组成，并对40个面部属性进行了二进制注释。[48]中的前10个（40个中的）属性被选择用于10个任务实验，因为与面部外观更相关。我们还报告了40个属性的结果，以在分类设置中将我们的方法与[48]进行比较。UT-Zappos 50 K[42]是一个大型的鞋类数据集，由从网络上收集的50，000多个目录图像该数据集包含我们实验感兴趣的四个属性，即鞋类型、建议性别、鞋跟高度如[48]中所定义的，我们定义了4个分类任务，用于使用[35，48]中相同的训练，验证和测试分割在真实世界数据集上对我们的方法进行小规模测试。1380我们的-0我们的-我们的-0.4（最佳）我们的-0.6我们的-0.8图4：我们的方法（红色）与σ= [0，1]，十字绣网络[21]（绿色）和MTL调制[48]（蓝色）之间的UCSD-Birds数据集在10，50，100，200，312任务上的准确性比较。十字绣网络可扩展到12个任务，其中作为MTL的调制，我们的方法适合所有任务。最佳性能分担比σ= 0。4设置为强红色，其他σ值设置为浅红色。表1：VD激发的平均评分最佳总体方法以灰色突出显示运行VD评分飞机CIFAR-100戴姆勒DTDGTSRBImageNet-12OmniglotSVHNUCF-101VGG-FlowersResAdapt [25]（σ=0）2851.31299.88195.96155.41261.51472.6224.15337.05282.8231.69390.26我们的σ=0。22873.84302.1200.01162.79267.22472.2210.2344.12265.4250.02399.78我们的σ=0。42919.26305.2204.12165.89273.28469.2228.39345.08272.77252.12403.21我们的σ= 0。62870.26287.2206.12148.89256.28474.2223.39350.08260.77261.12402.21我们的σ= 0。82806.26285.2208.12139.89253.28455.2222.39338.08249.77263.12391.21我们的σ= 12768.26282.2214.12132.89256.28445.2207.39339.08239.77261.12390.214.2. 多任务设置FashionMNIST和CIFAR10为一个玩具问题实验提供了动力，在这个实验中，我们对我们的方法如何发挥作用产生了直觉我们选择这些数据集，因为它们是建立良好且平衡的基准，对于这些数据集，解释结果并得出结论只需要很少的领域知识。对于每个数据集，我们使用Xiao等人提出的模型执行10个二进制分类任务[38]FashionMNIST和CIFAR的VGG-16网络10.以类似的方式，Zappos50K数据集提供了一个高度相关的平衡数据集，其中有四个描述良好的任务，我们在小规模MTL环境中评估了我们的方法为了在MaTL上下文中评估我们的方法，我们在CelebA和UCSD-Birds数据集上进行了实验对于CelebA实验，我们运行了越来越多的任务，从10个任务开始，到40个任务结束。这些实验的目的是观察[48]的表现差异，并探索增加额外任务如何影响学习过程和表现。这个CelebA实验使用VGG-16模型作为特征提取平台，并根据任务的多少分支到尽可能多的分类分支。每个分类分支都是任务特定的，并且具有独立的嵌入空间。有312种可能的与鸟类外观有关的属性，确保与十字绣网络[21]进行公平比较，我们在适用的情况下在预训练和从头开始训练的设置中评估该方法。对于VD挑战，我们将其与排行榜[25]中的最佳方法进行比较，并使用其残差适配器模型，该模型在σ=[0，1]的整个范围内拟合TRL。初始化和超参数设置与原始论文[25]相同。4.3. 实现细节在所有分类设置中，我们对属性执行二进制分类任务。每个属性被认为是一个二进制分类任务，并有自己的大小相等的嵌入空间。我们在模型中的每个卷积层之后附加TRL，并在模型实例化时随机初始化路由映射。对于我们所有的实验，我们使用现有的模型架构（VGG-11，VGG-16 [29]和Resnet 50 [6]）及其默认设置。对于所有数据集，我们使用64张图像的批量大小，并通过数据集平均值进行归一化。我们使用与[25]相同的设置和超参数进行VD挑战。对于UCSD-Birds数据集，我们探索了从头开始训练和预训练的VGG-11模型，由于训练集的大小很小，因此使用了水平翻转我们使用随机梯度下降，学习率为0.01，动量为0.5，我们的方法通常在35个时期后收敛1。UCSD鸟类数据集提供了一个独特的机会，探索我们方法的任务可伸缩性。至1代码可在：https://github.com/gstrezoski/TaskRouting1381表2：在FashionMNIST、CIFAR-10、Zappos 50 K和CelebA（10个和40个任务）上运行5次的平均得分，完整共享率范围为σ= [0，1]。因为对于σ= 0，没有共享发生，而对于σ= 1，我们的方法恢复到硬共享MTL，所以我们将它们分开分组。所有数据集的整体最佳性能方法以灰色突出显示，每个数据集的最佳方法以粗体显示。标有n/a的字段表示该方法无法扩展到任务计数的实验数据集FashionMNISTCIFAR-10Zappos50KCelebACelebA（Full）的任务101041040方法精度精度召回精度精度召回精度精度召回精度精度召回精度精度召回十字绣98.1±1.1491.4±1.0286.1±0.2398.5±0.1791.6±1.1885.9±1.0784.7±2.2382.2±1.1281.8±1.2971.5±1.9668.0±1.3867.0±0.83n/an/an/a调制96.9±2.0491.0±1.1480.1±0.5463.2±1.1357.4±2.1453.2±3.1063.7±2.7660.4±1.9459.8±2.0271.9±1.6670.2±2.1869.4±2.6364.1±1.4361.0±1.8160.4±1.45我们的σ=适应96.3±0.0490.6±0.0484.1±0.0598.1±0.0688.3±0.0385.9±0.0588.3±0.1181.7±0.0280.6±0.0471.9±0.0768.2±0.0866.3±0.1763.0±0.0859.0±0.1557.1±0.11我们的σ= 097.8±0.2591.9±0.4485.5±0.3296.5±0.4289.1±0.9887.8±0.2488.3±0.3183.1±0.5483.2±0.4270.1±0.0868.0±0.2267.4±0.7863.1±0.3360.8±0.0560.0±0.21我们的σ= 197.4±0.0191.1±0.0785.1±0.0498.1±0.0388.0±0.0385.6±0.0179.2±0.1077.1±0.0975.3±0.0869.9±0.1367.2±0.1066.8±0.0662.2±0.0758.0±0.0756.4±0.11我们的σ= 0。297.8±0.0692.2±0.1185.7±0.0399.0±0.0392.1±0.0885.2±0.0689.5±0.0385.2±0.0483.4±0.1273.2±0.1571.4±0.1170.8±0.1363.1±0.1260.8±0.1260.0±0.13我们的σ= 0。497.6±0.0592.0±0.0884.2±0.0796.9±0.0992.0±0.0987.5±0.1588.1±0.1784.3±0.1882.8±0.1473.0±0.1471.4±0.1270.2±0.1262.0±0.2559.4±0.2458.2±0.24我们的σ= 0。697.1±0.1091.1±0.0880.4±0.0896.0±0.0690.3±0.0584.3±0.0787.4±0.1182.2±0.1782.0±0.1372.7±0.0571.0±0.0469.6±0.0965.3±0.2262.4±0.1861.8±0.17我们的σ= 0。896.8±0.0891.0±0.0878.0±0.0394.8±0.0988.2±0.1181.1±0.1083.2±0.0481.4±0.0178.9±0.0171.4±0.0570.1±0.0669.1±0.0864.0±0.1461.1±0.1060.2±0.094.4. 评价标准为了评估我们的方法的性能，我们跟踪准确率，精确度和召回率。我们在评估标准中增加了精度，因为强调模型的精度非常重要，即有多少积极的预测是真的积极的。这让我们可以深入了解我们的专业知识是如何精确和强大的任务特定的表示。跟踪召回提供了一个现实的衡量模型对每个任务的适应程度，因为它显示了实际阳性样本的覆盖率。准确度（%）精密度（%）召回率（%）5. 结果我们在五个数据集上评估了我们的方法，实验范围从概念证明（FashionMNIST，CI-FAR 10和Zappos 50K）到解决任务计数可扩展性属性（UCSD-Birds和CelebA）和完整的视觉任务（VD）。与MTL [48]和十字绣网络[21]的调制相比，我们报告了我们的方法特定超参数σ的全部可能值的性能。在σ= [0，1]和每个模型不同数量的任务的情况下，我们探索了我们的方法必须提供的共享能力的完整空间，范围从10095908580750706765626057550FashionMNIST0.20.40.60.8 1CelebA0.20.40.60.8 1100959085807501009590858075700CIFAR-100.20.40.60.8 1Zappos50K0.20.40.6 0.8 1每个任务的不同专用子网σ= 0，到完全当σ= 1时的共享结构。该比较的实验结果报告于表1、2和3中。结果表明，使用我们的方法，我们能够有效地使用一个单一的模型中的单元，以适应和优化许多任务。此外，我们在MTL/MaTL设置中的五个数据集上超越了MTL方法[48]以及十字绣网络方法[21]的调制性能在VD挑战中，通过将TRL添加到[25]，我们报告了10个数据集中有9个数据集的性能提升（见表1）。我们的方法的一个重要特征是它的可扩展性，即单个模型可以使用TRL容纳的任务数量。表3显示了任务数、分担率系数σ与作为评价指标的准确率、精确率和召回率之间的关系用于共享分担率值图5：共享比率σ值对Fashion-MNIST（左上）、CIFAR10（右上）、CelebA（左下）和Zappos 50 K（右下）中准确率、精确率和召回率在任务之间部分共享单元有利于性能，共享比率为σ =[0。2，0。与完全共享的网络σ= 1或许多不同的子网络而不共享σ= 0相比。比值σ= 0。2，σ= 0。4.我们可以观察到一致的IM-随着任务计数的增加，所有三个分数的改善见表3。当共享比率为σ = 0时，性能显著下降。8，因为该模型正在接近硬共享MTL架构。在这种情况下，只有20%的单元在路由之后保持任务特定性。共享比率σ= 1意味着每个单元被每个任务使用，并且报告的性能等于经典MTL硬共享方法的性能（参见表2和表图5显示了共享比率参数σ对评估结果的影响。1382表3：在UCSD-Birds数据集的任务数量增加和共享率σ= [0，1]的情况下，使用路由模块的平均得分。因为对于σ=0，没有共享发生，而对于σ= 1，我们的方法恢复到硬共享MTL，所以我们将它们分开分组。标有n/a的字段表示该方法无法扩展到任务计数的实验。预训练的十字绣网络实验用星号（*）标记。整体性能最佳的方法以灰色突出显示，每个任务设置的最佳性能模型以粗体设置。数据集UCSD-鸟类的任务1050100200312方法精度精度召回精度精度召回精度精度召回精度精度召回精度精度召回十字绣[21]58.355.654.2n/an/an/an/an/an/an/an/an/an/an/an/a[21]第二十一话68.867.467.0n/an/an/an/an/an/an/an/an/an/an/an/a调制[48]65.459.855.263.257.453.263.760.459.861.258.657.356.751.850.2我们的σ= 064.362.455.362.060.654.665.162.761.163.260.258.859.957.256.1我们的σ= 162.357.451.858.656.854.260.758.157.860.058.656.859.653.952.2我们的σ= 0。265.662.957.063.162.957.267.863.360.965.663.663.264.161.660.2我们的σ= 0。465.162.755.963.563.059.966.263.861.266.264.263.766.562.361.8我们的σ= 0。664.962.154.861.759.959.065.260.959.564.862.059.861.159.259.0我们的σ= 0。860.155.050.257.252.250.062.760.459.862.359.258.059.955.154.2歌词对于σ= 0，模型转换为硬共享解，对于σ= 1，我们有香草软共享。对于简单的问题，判别滤波器往往是低电平的。共享整个图层或根本不共享，预计会产生类似的结果。然而，对于内部范围（σ= [0. 1，0。9]）在性能达到峰值时，行为是不同的。较低的σ值允许更多的任务特定的过滤器，这有利于复杂的任务，其中细粒度的细节是关键（UCSD-Birds）。较低的σ范围也证明对跨数据集场景（VD挑战）有利，其中我们在σ = 0时获得最佳性能。2，σ= 0。4.第一章对于CelebA，我们进行了一个实验，有10个任务和40个任务（完整的属性集）。我们consis- tently见证了所有适用的approaches性能下降，一旦剩余的30个任务被添加到任务池。从这些结果中，一个合理的结论是，在额外的30项任务中表现出色更加困难。我们怀疑这是由于在分类设置中使用时，额外任务的训练集中的阳性实例样本数量较少。考虑到我们的方法与竞争方法相比的任务计数可扩展性，图4示出了十字绣网络[27]的任务计数与性能关系，MTL的调制[48]，硬共享MTL基线（我们的方法，σ= 1）以及我们在完整共享空间（σ= [0，0.8]）。由于十字绣网络需要每个任务之间的单位共享发生独立的模型，每个额外的任务需要一个完整的模型加载到内存中。尽管即使使用小型VGG-11网络也具有良好的性能，但将这种方法装入超过12个任务的内存中变得不可能。另一方面，我们的方法和[48]更了解参数，可以适应更多的任务。然而，当将我们的方法的性能与MTL的调制进行比较时，我们可以观察到随着任务计数的增加，我们的方法的性能略有提高，而MTL的调制性能下降。6. 结论在这项工作中，我们提出了一种方法，有效地执行大量的分类任务与一个单一的模型。该方法允许我们修改MTL模型的默认行为，并对其卷积层的输出应用条件特征变换。我们的方法的一个优点是，它不需要事先知道的域或任务间的关系，以实现良好的性能，在定期MTL和MaTL设置。我们方法的核心是一个被称为任务路由层的层，它可以以最小的工作量和计算开销插入模型架构中的任何卷积层之后该层包含任务特定的掩码，允许单个模型适合其参数空间内的许多任务。通过将输入通过掩码，我们正在训练每个任务的专用子网络，与主模型相比，其维数要低得多。专门化模型的维度由共享率超参数决定，并且它们可以被提取并用于代替特定任务的完整模型。此外，当与其他最先进的方法和基线方法相比较时，共享比超参数σ为我们的方法提供了额外的自由度。共享率σ允许我们灵活地进行任务路由设计，而不改变底层架构，这在MTL和MaTL中证明是有益的。由于大多数问题的通用解决方案并不存在，我们提供了一种简单的方法来探索模型所提供的所有共享可能性最后，我们的方法提供了一个直观和易于实现的机制，以获得更多的现有模型。致谢作者要感谢Pas- cal Mettes、William Thong和Devanshu Arya 的反馈和讨论。这项研究得到了VISTORY项目NWO奖号628.007.004的支持1383引用[1] Youssef Alami Mejjati，Darren Cosker和Kwang In Kim。通过最大化统计相关性的多任务学习在CVPR的诉讼，2018年2月。[2] 巴特·巴克和汤姆·赫斯克。贝叶斯多任务学习中的任务聚类与选通 Journal of Machine Learning Research ， 4（May）：83[3] James Bergstra和Yoshua Bengio。超参数优化的随机搜索。 Journal of Machine Learning Research ， 13（Feb）：281[4] 瑞奇·卡鲁阿纳多任务学习。 Machine Learning，28（1）：41[5] Golnaz Ghiasi ， Tsung-Yi Lin ， and Quoc V Le.Dropblock：卷积网络的正则化方法。神经信息处理系统的进展，第10750-10760页，2018年[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[7] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集，第4700-4708页[8] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在IEEE计算机视觉国际会议论文集，第1501-1510页，2017年[9] 布兰登·周和张世福用于多任务视觉识别的深度交叉残差学习。2016年ACM多媒体会议论文集，第998-1007页。ACM，2016。[10] Iasonas Kokkinos Ubernet：使用不同的数据集和有限的内存训练通用卷积神经网络，用于低，中，高层次的视觉。在IEEE计算机视觉和模式识别会议论文集，第6129-6138页[11] Alex Krizhevsky Vinod Nair和Geoffrey Hinton。加拿大高级研究所。[12] 布伦登M. Lake，Ruslan Salakhutdinov，and Joshua B.特南鲍姆通过概率程序归纳的人类水平概念学习。Science，350（6

下载后可阅读完整内容，剩余1页未读，立即下载