多任务部分监督学习：从部分注释数据中学习多个密集预测任务

20 浏览量更新于2023-10-26 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

18879从部分注释数据中学习多个密集预测任务Wei-Hong Li，Xialei Liu，Hakan Bilen英国爱丁堡大学VICO集团github.com/VICO-UoE/MTPSL摘要尽管最近在密集预测问题的多任务学习方面取得了进展，但大多数方法都依赖于昂贵的标记数据集。在本文中，我们提出了一种标签有效的方法，并着眼于联合学习的多个密集预测任务的部分注释数据（即。不是所有的任务标签都可用于每个图像），我们称之为多任务部分监督学习。我们提出了一个多任务训练过程，成功地利用任务关系来监督其多任务学习时，数据是部分注释。特别是，我们学会了将每个任务对映射到一个联合的成对任务空间，这使得它们之间的信息共享在一个计算效率的方式，通过一个分割深度(a) 完全注释的数据集。联合空间跨任务分割预测深度地面实况深度预测其他网络以任务对为条件，避免学习(b) 部分注释的数据集。(c) 跨任务一致性学习。通过保留关于输入图像的高级信息来消除琐碎的跨任务关系。我们严格证明了我们提出的方法有效地利用了具有未标记任务的图像，并且在三个标准基准上优于现有的半监督学习方法和相关方法1. 介绍随着密集预测计算机视觉问题的最新进展[16，24，37，42，46，53，56，63，64，67，71，72]，其目的是产生像素级预测（例如，语义和实例分割、深度估计），社区的兴趣已经开始转向通过多任务学习（MTL）联合学习多个这些问题的更雄心勃勃的目标[7]。与专注于学习每个任务的单个模型的标准单任务学习（STL）一个单一的模型，用于多个任务，具有更好的效率和泛化权衡，同时在它们之间共享信息和计算资源。最近的MTL密集预测方法广泛地集中于设计MTL架构[4，5，18，23，36，38，43，48，57，59，65，75-图1. 多任务部分监督学习我们着眼于从部分注释的数据中学习多个任务的问题(b)其中并非所有任务标签都可用于每个图像，这概括了所有任务标签都可用的标准监督学习（a）我们提出了一种MTL方法，该方法采用具有特定任务头（h）的共享特征提取器（f），并通过将每个任务对映射到联合成对任务空间中并惩罚所提供的地面实况标签和预测（c）之间的不一致性来利用每个任务对之间的标签相关性具体损失函数和防止训练中任务之间的干扰我们参考[58]进行更全面的在这些工作中，一个共同的和强烈的假设是，每个训练图像必须为所有任务标记（图1（a））。这一假设有两个主要的实际限制。首先，策展多任务图像数据集（例如，KITTI [19]和CityScapes[14]）通常涉及使用多个传感器为多个任务生成地面实况标签，并且获得每个图像的所有标签需要传感器之间非常准确的同步，这本身就是一个具有挑战性的研究问题[60]。第二，想象一个场景，其中一个人想要向已经为另一个任务注释的现有图像数据集添加新任务，并且获得新任务的地面实况标签需要使用不同的传感器（例如，深度相机）到用于捕获原始数据的相机在这种情况下，分割深度分割深度18880为新任务标记先前记录的图像对于许多视觉场景是不可能的（例如，不受控制的室外环境）。这种真实世界的场景导致获得部分注释的数据，因此需要可以从这些数据中学习的算法。在本文中，我们研究了MTL密集预测问题的一个更现实和更一般的情况，其中并非所有任务标签都可用于每个图像（图1（b）），我们将此设置称为多任务部分监督学习。特别是，我们假设每个图像至少为一个任务标记，每个任务至少有几个标记的图像，我们想在它们上学习一个多任务模型。从这种部分监督中学习的一种简单方法是只在可用的标签上训练多任务模型（即，通过对于缺失的任务标签将相应损失函数的权重设置为0尽管在这种设置中，由于任务之间的参数共享，MTL模型在所有图像上进行训练，但它无法从未标记任务的图像中提取特定于任务的信息。为此，可以将现有的单任务半监督学习方法扩展到MTL，方法是对未标记任务（例如，[13、28、31、35、55]）。虽然这种策略确保了对各种扰动的一致预测，但它不能保证相关任务之间的一致性。最近在MTL中使用的正交信息是跨任务关系[39，49，68]，其目的是在任务对之间产生一致的预测。不幸的是，现有的方法并不直接适用于从部分监督中学习，因为它们需要每个训练图像都标记有所有的任务标签[49，68]或可以分析导出的跨任务关系[39]。在我们的设置中，与[39，49，68]相比，每个任务对的地面真实标签的训练图像较少此外，与[39]不同的是，我们关注的是一个任务标签无法从另一个任务标签准确获得的一般设置（例如，从语义分割到深度），因此学习两个任务标签之间的精确映射是不可能的。受这些挑战的激励，我们提出了一种MTL方法，该方法在任务之间共享特征提取器，并且还学习在学习的联合成对任务空间中将每个任务对联系起来（如图1（c）所示），该方法仅对它们之间的共享信息进行编码，并且不需要从另一个任务中恢复一个任务的标签的不适定问题。这一目标面临两个挑战。首先，联合成对任务空间的朴素学习可能导致将所有预测带到同一点的平凡映射，使得每个任务产生彼此人为一致的为此，我们通过惩罚其输出来调节每个映射的学习，以保留关于输入图像的高级信息。第二，对每个任务对关系建模的计算成本可以得到指数，任务数量太多，成本太高。为了解决这一挑战，我们使用单个编码器网络来学习所有的成对任务映射，但是，通过将它们调节到目标任务对上来动态估计其权重。我们的方法的主要贡献如下。我们提出了一个新的和实用的多任务密集预测问题的设置和一个新的MTL模型，惩罚联合成对任务空间中的任务对之间的交叉任务干扰，每个编码之间的共性对，在计算效率的方式。我们表明，我们的方法可以被纳入到几个架构，并显着优于相关的基线在三个标准的多任务基准。2. 相关工作多任务监督学习。多任务学习（MTL）[7，47，58，73]旨在学习一个单一的模型，该模型可以在给定输入的情况下推断出所有期望的任务输出。先前的工作可以大致分为两组。第一个[4通过设计跨任务注意机制[43]，任务特定注意模块[36]，门控策略[5，23]等，通过更好地共享跨任务信息和学习任务特定表示来为此，最近的工作[11，12，20，22，29，33，36，50，66]通过基于任务确定性[29]，帕累托最优性[50]动态调整每个损失函数的权重，实现了多任务学习网络的更平衡的优化，丢弃冲突的梯度分量[66]等。然而，这些工作集中在监督设置上，其中数据集中的每个样本都被注释为所有期望的任务。多任务半监督学习在完全标注的数据上学习多任务模型需要大规模的标注数据，并且收集足够多的标注数据的成本很高。因此，很少有人提出使用半监督学习策略来学习多任务学习模型[13，28，31，35，35，55，61，74]，并且他们假设数据集由有限的数据和大量未标记的数据组成，这些数据由所有任务标签注释Liu等[35]通过在对分类器的参数施加的软共享先验的约束下联合地学习每个任务的分类器，将单任务半监督学习扩展到多任务学习。在[13，28，31，35，55]中，作者在每个任务的未标记样本上使用了一个正则化项，鼓励模型在其输入受到干扰时产生“一致”的跨任务关系。一个丰富的工作[3，8，26，27，34，39，40，49，54，62，68与我们的关系最密切的是，[49]探索关系18881DΣ。 Σn×→◦DUT|不|≥|不||U|TU，N|Tn|nn|Un|t∈URR1Σ1 Σ提出了一种更好的融合策略来融合两个任务的预测，以进行域自适应。Zamir等人[68]研究从所有任务的groundtruth中学习到的跨任务一致性，以进行鲁棒学习，即对同一图像中的多个任务所做的预测是不是独立的，因此被期望是“一致的”。[68]如：[39]建议利用在部分注释的数据上学习每个任务的简单方法是如下联合优化其在标记的任务上的参数：NminLt（yt（x），yt），（1）n=1t∈Tn当联合学习用于分布式训练的多个模型时，不同任务对中介数据集中未标记数据的预测之间的跨任务一致性为了规范跨任务一致性，Luet al.[39]根据视频中相邻帧之间的一致性，深度和表面法线之间的关系等设计一致性损失。在本文中，我们还利用了MTL中的跨任务一致性，但是，从部分注释的数据中，从一个任务标签到另一个任务标签的映射不能解析导出或准确学习。为此，与[39，68]不同，我们为每个任务对学习联合任务空间，而不是测量任务空间中的一致性最后，我们的方法以计算效率更高的方式学习跨任务[39，68]通过在不同地图上共享参数其中，n是图像索引，Lt是任务特定的可区分损失函数。我们将此设置表示为（vanilla）MTL。在这里，由于通过特征提取器共享参数，因此在所有图像上学习其任务不可知的权重。然而，特定于任务的权重Φt仅在标记的图像上训练从未标记任务中利用这些信息的常见策略是在半监督学习（SSL）设置中制定问题。最近成功的SSL技术[2，52]专注于学习模型，当其输入以各种方式受到干扰时，可以Nping并根据相关的任务对调整其输出。1分钟，10分钟1Lt（y）t（x|Tn|），yt）n=1t∈Tn（二）3. 方法3.1.问题设置+1微升（e（y）t（x），y=t（e（x）），设x∈R3×H×W和yt∈ROt×H×W表示一个H×其中，Lu是无监督损失函数，er是地理位置。W维RGB图像及其稠密标签，其中Ot是任务t的输出通道数。我们的目标是为每个任务t学习一个函数yt，它可以准确地预测以前未见过的图像的地面真实标签yt虽然这样的特定于任务的功能可以由于每个任务都是独立学习的，因此更有效的设计是通过一个通用的特征编码器（卷积神经网络）来共享任务之间的大部分计算： R3×H×WRC×H′×W ′，它由一个矩阵参数化，在图像中进行运算并产生一个C特征图，每个特征图都有H′W ′分辨率，其中通常为H′H和W′W。<<在此设置中，f后跟多个特定于任务的解码器度量变换（即，裁剪）由随机变量R参数化（即，边界框位置）。换句话说，对于无监督部分，我们将我们的模型应用于原始输入x及其裁剪版本e r（x），然后我们还裁剪对应于原始输入er （yt（xn））的预测，然后我们通过使用L u测量两者之间的差异。请注意，我们知道用于语义分割[41，44]，深度估计[21，30]的更复杂的任务特定SSL方法，然而，将它们组合用于多个任务，每个任务具有不同的网络设计和学习公式并不是微不足道的，这里我们关注一个使用一种扰动类型（即，随机hot：R C×H′×W ′ →ROt×H×W 每个人都有自己的任务-裁剪）和Lu（即，均方误差）可以应用于几个任务。特定的权重T，其解码所提取的特征以预测任务T的标签，即，yt（x）=htf（x）（Fig. 第2（a）段）。让我们用K个任务的相应标签来表示一组N个训练图像假设对于每个训练图像x，我们具有仅可用于一些任务的地面实况标签，其中我们分别使用和存储标记任务和未标记任务的索引，其中+=K，=表示x和=indi的所有可用标签没有可用于x的标签。在本文中，我们重点研究部分注释的设置，其中每个图像至少针对一个任务（1）被标记，并且每个任务至少具有几个标记的图像。3.2. 跨任务一致性学习在优化Eq.（2）允许在标记和未标记的数据上学习任务不可知和任务特定的权重，它不利用跨任务关系，这可以用于进一步监督未标记的任务。先前的工作[39，68]通过针对每个任务对（s，t）的映射函数ms→t来定义跨任务关系，该映射函数将源任务s的预测映射到目标任务t标签。[39]中的映射函数是基于目标任务标签可以从源标签分析计算的假设的虽然这样的分析关系是可能的unnn18882不S不| || |--θ，iSmst（y（xn）），mst（yn）θ，iΣ、(a) 多任务学习（b）联合空间图2.说明我们的多任务部分监督学习方法给定一个图像，我们的方法使用一个共享的特征提取器f，在输入图像和特定于任务的解码器（hs和ht），以产生对所有任务的预测（a）。我们计算标签任务的监督损失Lt。此外，我们在未标记任务（b）的联合空间中，将未标记任务的预测y_s和标记任务的基础事实y_t之间的交叉任务consisten_y_L_ct进行了调整。为了有效地学习跨任务一致性，我们提出使用一个共享的映射函数，其输出以任务对（c）为条件，并使用f的特征来正则化映射函数的学习，以防止平凡的解决方案。仅对于某些任务对，[68]中的每个映射函数由深度网络参数化，其权重通过最小化Lct（ms→t（ys），yt）来学习，其中Lct是跨任务函数，用于测量映射的源标签和目标标签之间的距离。在我们的环境中，这种方法有两个限制。首先，训练集对于源任务和目标任务都具有有限的标记数量的图像（ys和yt）。在我们的情况下，准确地第二次学习这种成对映射通常是不可能的，因为一个任务的标签只能部分地从另一个任务中恢复（例如，语义分割到深度估计）。请注意，当关于数据的强先验知识可用时，可以准确地解决这个不适定问题为了将跨任务一致性应用于我们的设置，我们将每个任务对（s，t）映射到低维联合成对任务空间，其中仅编码两个任务的共同特征（图2（b））。从形式上讲，每个成对任务-（s，t）的空间由一对映射函数定义和m_nst不一定相等以允许不同地处理来自预测的和地面实况标签的映射注意，还可以在等式中包括半监督项Lu（三）、然而，我们根据经验发现，当与跨任务项Lct一起使用时，它不会带来任何有形的性能增益。以计算高效的方式学习非平凡成对映射函数存在两个挑战。首先，要学习的成对映射的数量二次增长的任务的数量虽然映射函数仅用于训练，但联合训练它们中的许多仍然可能在计算上昂贵此外，在标签有限的情况下，学习每个任务对的准确映射可能是具有挑战性的。其次，映射函数可以简单地学习一个简单的解决方案，这样每个任务都被映射到一个固定点（例如，零向量）在关节空间中。条件联合任务对映射。解决Os×H×W DOt×H×WD第一次挑战，如图所示2（c），我们建议使用最高：R→R和m最大值：R→R任务无关映射函数m<$有一个参数，分别由Blewst和Blewst参数化跨任务任务管理s测试器的输出取决于输入任务和可以将一致性并入Eq.（1）如下：或t）和任务对（s，t）通过辅助网络（aθ）。1min. 1ΣLt.yt（xn），yt+具体地，设A表示包括输入的变量ϕ,ψ,ϑN n=1|Tn| t∈TnLctn任务（s或t）和目标对（s，t），用于成对映射在实践中，我们用不对称的K×K编码1Σ。S通过将相应的条目设置为|U n|Ss∈Un，t ∈Tn（三）1（即A[s，t]=1或A[t，s]=1），并且其他条目0. 注意对角线上的元素总是为零，就像我们做的那样其中Lct是余弦距离（即， L ct（a，b）= 1（ab）/（a b）。换句话说，随着MTL优化，等式（3）最小化嵌入之间的余弦距离未标记的任务预测y和注释的任务预测y的dings不定义自任务关系。设m是一个多层网络，hi表示其第i层的M通道特征映射，其中辅助网络aθ（由θ参数化）接收A并输出两个M维向量ac在联合成对任务空间中的任务标签yt 我先走了和b.这些向量用于变换要素(c)条件联合任务对映射膜层地面实况深度输入图像标号任务语义分割无标号任务膜层正则化N18883θ，iθ，i⊙我我n×−以类似于[45]的方式映射hi如下：hi←ac（A）<$hi+ab（A）其中表示Hadamard乘积。换句话说，辅助网络根据A改变任务无关映射函数m的输出。 F或br e vit y，我们把从s到（s，t）的条件映射记为ms→st，它是m′和aθ的函数，因此用a θ和aθ参数化。我们将每个ac和ab作为一个完整的层来实现-具有Lc t（ms→t（ys（x）），ms→t（ys））的项，其映射地面实况ys和预测标签ys，并最小化它们在任务t的标签空间中的距离。我们将此设置表示为感知图，并在第二节中与它们进行比较。4.第一章替代损失和正则化策略。或者，我们的交叉一致性损失和正则化项可以替换为另一个损失函数，该损失函数不允许学习平凡映射。一个这样的损失函数是对比损失，其中可以定义预测损失。在同一图像上作为正对的两个任务的选择（即，连接的网络。因此，给定轻量辅助网络，用于计算条件映射函数的计算负荷实际上不随任务对的数量而变化。最后，当每个任务标签的维度不同时而Ot对于深度估计为1，Ot等于语义切分中的类别数-在公式中，我们将这些层包括在映射模型中，并在第2节中解释了实现4.第一章正则化映射函数。为了避免学习平凡的映射，我们提出了一种正则化策略（图1）。2）鼓励映射保留关于输入图像的高级信息。为此，我们惩罚映射函数的输出和从输入图像提取的特征向量之间的距离。特别地，我们在正则化中使用任务不可知特征提取器f（x）的输出现在，我们可以将正则化器添加到公式中。（三）：Nms→st（ys（xi））和mt→st（yt））以及在作为一对的不同图像上（即，ms→st（y∈s（xj））和mt→st（yt）），且当与正点的距离大于负点的距离时，m_s → st（y_t）趋于稳定.我们将此设置表示为对比度损失。也采用正对和负对的另一方法涉及使用鉴别器网络。判别器（卷积神经网络）接收正负对并预测它们的二进制标签，而MTL网络和映射函数的参数交替优化。我们将此设置表示为鉴别器损失，并与第2节中的替代方法进行比较。4.第一章4. 实验数据集。我们在三个标准的密集预测基准上评估了所有方法， Cityscapes [14] ， NYU-V2 [51] 和 PASCAL[17]。Cityscapes [14]由街景图像组成，标记为两个任务：7类语义分割1和深度估计。我们调整图像的大小128×256以加快训练速度[36]。 [51]第五十一话1Σ。 1Σ。 tt ΣminLty（x），y +的包含RGB-D室内场景图像，我们评估θ N，θN，θNn=1|Tn|nnt∈Tn3个任务的性能，包括13类语义分割，深度估计和表面法线估计。1ΣLct. ms→st（ys（xn）），mt→st（yt）我们使用微软Kinect记录的真实深度数据|U n|s∈Un，t∈Tn+R（f∈（xn），ms→st（y∈s（xn）+R（f∈（xn），mt→st（yt））≠，（四）[15]中提供的用于深度估计和表面法线估计的表面法线。所有图像的大小调整为288 384决议[36]。PASCAL [17]是密集预测任务的常用基准我们使用PASCAL-Context [10]中的数据分割，它具有注释其中f（x）是来自特征编码器f的特征，R是损失函数，我们在这项工作中使用R的余弦相似性损失替代测绘策略。在这里，我们讨论了两种不同的映射策略，以利用[68]中提出的跨任务一致性及其在我们的设置中的采用。由于两者都需要学习从一个任务的地面实况标签到另一个的映射在第一种情况下，可以用等式中的Lct（ms→t（y≤s（x）），yt）代替我们的交叉一致性损失和正则化项。（4），其被去注释为Direct-Map。在第二种情况下，我们替换我们的用于语义分割、人体部位分割和语义边缘检测。此外，与[58]一样，我们还考虑了表面法线预测和显著性检测的任务，并使用[58]提供的注释。实验设置。为了评估在不同部分标签制度下学习的多任务模型，我们设计了两个设置：（i）随机设置，其中，我们随机选择并保留至少1个且至多K1个任务的标签，其中K是任务的数量，（ii）一个标签设置，其中我们随机选择并保留每个训练图像的标签。1Cityscapes的原始版本提供标签19类语义分割。我们遵循[36]中的评估协议，我们使用7类语义分割的标签。详情请参阅[36n18884在Cityscapes和NYU-v2中，我们遵循[36]中的训练和评估协议，并且我们使用SegNet [1]作为所有方法的MTL主干。与[36]一样，我们使用交叉熵损失进行语义分割，在Cityscapes中使用l1范数损失进行深度估计，在NYU-v2中使用余弦相似性损失进行表面法线估计我们使用完全相同的超参数，包括学习率，优化器以及相同的评估指标，预测角度中的平均交集（mIoU），绝对误差（aErr）和平均误差（mErr），以分别评估语义分割，深度估计和表面法线估计任务[36]。我们使用SegNet的编码器进行联合成对任务映射（m'n）和一个卷积层一个（感知映射和直接映射）令人惊讶地比学习联合空间映射函数（对比损失和鉴别器损失）的更好地执行，这可能是由于负样本的数量不足。由于同样的原因，我们排除了对NYU-v2和PASCAL中对比损失和鉴别损失的进一步比较，并将其纳入补充材料中。最后，我们的方法可以通过提出的正则化联合成对任务映射更有效地利用跨任务关系，从而获得最佳结果。有趣的是，我们的方法也优于SL基线，可以访问所有的任务标签，显示潜在的跨任务关系的信息。作为任务特定的输入层。F或直接映射，Perceptual-Map，如[68]中所述，我们使用整个SegNet作为跨任务映射函数。在PASCAL中，我们遵循[58]中的培训，评估协议和实施，并采用ResNet，18 [25]作为所有任务共享的编码器，Atrous空间金字塔池（ASPP）[9]模块作为特定于任务的头。我们使用相同的超参数，例如。学习率，增广，损失函数，损失权重[58]。对于评估指标，我们使用最佳数据集F-测度（odsF）[40]进行边缘检测，评估语义分割、人体部位分割和显着性估计的标准平均交集（ mIoU ），表面法线的平均误差（mErr）。我们修改了ResNet-18，使其在残差块之前具有任务特定的输入层（每个任务一个卷积层），作为我们方法中的映射函数m。我们参考补充资料，以了解更多详情。4.1. 结果我们将我们的方法与多个基线进行比较，包括等式中的香草MTL监督学习（SL）基线。（1）在等式（1）中的所有标签和部分标签上，（1），和MTL半监督学习（SSL）在方程。（2），也是我们的方法与直接地图，感知地图，对比损失和鉴别损失的变化，如第2节所述。3 .第三章。除非另有说明，否则我们对所有特定于任务的损失使用统一的权重。城市景观的结果。我们首先将我们的方法与Tab中Cityscapes的基线进行比较。1表示只有一个标签设置，因为总共有两个任务当所有任务标签都可用于训练时，MTL模型使用SL学习的结果在部分标签设置（每个图像一个任务标签）中，SL基线的性能与其在完全监督设置中的性能相比大幅下降。虽然SSL基线通过从未标记的任务中提取任务特定的信息来改进SL，但通过以除鉴别器损失之外的各种方式利用跨任务一致性这些方法学习从一个任务到另一个任务的映射表1. Cityscapes上的多任务学习结果。‘one’关于NYU-V2 然后，我们评估我们的方法以及NYU-v2上的基线，在Tab中的随机和一个标签设置。二、虽然我们在不同方法中观察到类似的趋势，但总体而言，该基准测试的性能较低，可能是由于训练图像少于CityScapes。正如预期的那样，随机标签设置中的性能优于单标签设置中的性能，因为前者中有更多可用的标签而最好的结果是获得与SL训练的完全监督，我们的方法获得最好的性能之间的部分监督的方法。这里SSL改善了SL训练的部分标签和跨任务一致性是有益的，除了在一个标签设置中的Direct-Map，可能是因为数据集太小，无法学习两个任务之间的准确映射，而我们的方法是更数据效率和更成功地利用跨任务关系。标签数量充分方法监督学习隔离区(IoU)↑36.95深度（aErr）↓0.5510诺姆（mErr）↓29.51监督学习27.050.662433.58半监督学习29.500.622433.31随机感知地图32.200.603732.07直接映射29.170.612833.63我们34.260.578731.06监督学习25.750.651133.73半监督学习27.520.649933.58一感知地图26.940.634234.30直接映射19.980.696037.56我们30.360.608832.08表2.NYU-v2上的多任务学习结果#标签充分方法监督学习隔离区(IoU)↑73.36深度（aErr）↓0.0165监督学习69.500.0186半监督学习71.670.0178感知地图72.820.0169一直接映射72.330.0179对比损失71.790.0183鉴别器损失68.940.0208我们74.900.016118885PASCAL-Context 上的结果。我们评估 PASCAL-Context上的所有方法，在两个标签设置中，它包含比以前的基准测试更广泛的任务，并在Tab中报告结果。3 .第三章。由于Direct-Map和Perceptual-Map所需的成对映射数量呈二次增长（5个任务20个映射），我们省略了这两个，因为它们的计算成本很高，并且仅将我们的方法与SL和SSL基线进行比较。我们看到，SSL基线在随机标签设置中比SL提高了性能，但是，当标签少60%时，它的性能比SL在一个标签设置中更差同样，通过利用任务关系，我们的方法获得了更好的或可比的结果SSL，而在SL和SSL实现的收益是更显着的低标签制度（一个标签）。有趣的是，SSL和我们的方法在随机标签设置中获得了相当的结果，这表明任务之间的关系比CityScape和NYUV2中的关系信息量更少。我们在Tab中报告结果。4.第一章超监督学习（SL）在部分标签任务上的性能显著下降。虽然SSL提高了分割的性能，但在这两种情况下，其深度性能都会下降。与SL和SSL相比，我们的方法和Perceptual-Map通过学习跨任务一致性在两种设置下的所有任务上都获得了更好的结果，而我们的方法通过联合空间映射获得了最佳结果。这表明我们的模型可以成功地从不平衡标签中学习跨任务关系，这要归功于它的任务不可知映射功能，该功能可以在多个任务对之间共享参数。跨任务一致性学习与全面监督。我们的方法还可以应用于全监督学习设置，其中通过将一个任务我们将我们的方法应用于NYU-v2，将其与单任务学习（STL）网络进行比较，标签数量方法充分监督学习隔离区(IoU)↑63.9H.部件（IoU）↑58.9诺姆（mErr）↓15.1萨尔 (IoU)↑65.4边缘（odsF）↑69.4香草MTL基线，最近的多任务学习方法，监督学习随机半监督学习我们58.459.059.055.355.855.616.015.915.963.964.064.067.866.967.8I.E. MTAN [36]，X-task [68]和几种聚焦损失加权策略，即不确定性[29]，梯度-监督学习一半监督学习48.045.049.555.654.055.817.216.917.061.561.761.764.662.465.1[11][12][13][14][15][16][17][18][19]五、表3. PASCAL上的多任务学习结果。‘random’ indi- cates4.2. 进一步结果从部分和不平衡的任务标签中学习。到目前为止，我们考虑了部分注释的设置，其中每个任务的标签数量相似。我们进一步评估了Cityscapes中不平衡的部分监督设置中的所有方法，其中我们假设每个任务的标签比例是不平衡的，例如。我们随机地对90%的图像进行采样以标记用于语义分割，并且仅10%的图像具有用于深度的标记，并且我们通过分割和深度之间的深度=9：1）。相反的情况（Seg.：深度= 1：9）。标签数量充分方法监督学习隔离区(IoU)↑73.36深度（aErr）↓0.0165监督学习63.370.0161半监督学习64.400.01791：9感知地图68.840.0141直接映射67.040.0153我们71.890.0131监督学习72.770.0250半监督学习72.970.0395九比一感知地图73.360.0237直接映射73.130.0288我们74.230.0235表4. Cityscapes上的多任务学习结果。‘#label’ indi- cates thenumber ratio of labels for segmentation and depth, ‘1:9’ meanswe have 10% of images annotated with segmentation labels and90% of images have depth表5. NYU-v2上的多任务全监督学习结果。‘STL’MTL，MTAN，X-task和Ours都是用统一的损失权重训练的。我们看到我们的方法（我们的方法）比其他具有统一损失权重的方法表现得更好。MTAN和X-task，其中X-task通过使用预训练的跨任务映射函数学习感知损失来规则化跨任务的这表明，即使在完全监督的情况下，跨任务一致性也是信息丰富的，并且我们的方法对于学习跨任务一致性更有效与最近的损失加权策略相比，我们的方法（Ours）在分割和深度估计方面比其他方法获得了更好的性能这是因为损失加权策略能够比均匀损失加权更平衡地优化多任务学习因此，当我们将不确定性的损失权衡策略[29]纳入我们的方法时，即。(Ours+不确定性），我们的方法得到进一步的改进，并优于GradNorm和不确定性。方法STL隔离区(IoU)↑37.45深度（aErr）↓0.6079诺姆（mErr）↓25.94MTL36.950.551029.51MTAN [36]39.390.569628.89X任务[68]38.910.534229.94不确定性[29]36.460.537627.58GradNorm [11]37.190.577528.51MGDA [50]38.650.557228.89DWA [36]36.460.542929.45我们41.000.514828.58我们的+不确定性41.090.509026.7818886↑4.3. 消融研究在这里，我们进行了一个消融研究，以评估任务对条件映射函数的效果和公式中的（四）、为此，我们报告了我们的方法的结果，没有任务对条件网络（aθ），表示为（4 ），在表中表示为“Ours （w/oreg）”。六、首先，我们的完整模型优于Ours（w/ocond）和Ours（w/o reg），这表明这两个组件都是有益的。我们的（不带条件）对所有任务对采用相同的映射仍然实现比SL基线更好的性能。令人惊讶的是，即使在去除正则化之后，尽管性能下降，成对映射仍然可以用较低的学习速率来调节，以避免学习平凡映射，并且它仍然优于SL基线。标签数量方法隔离区(IoU)↑深度（aErr）↓诺姆（mErr）↓监督学习27.050.662433.58随机我们的（不含条件）34.130.596831.65我们的（不含注册）33.870.588731.24我们34.260.578731.06监督学习25.750.651133.73一个我们的（无条件）29.190.618132.62我们的（不含注册）28.360.640732.92我们30.360.608832.08表6. NYU-v2上的消融研究。'cond'指示是否使用条件映射函数。'reg'表示我们是否在等式中使用正则化。（四）、4.4. 定性结果在这里，我们提出了一些定性的结果，并参考补充更多的结果。映射输出。这里，我们在图3中针对NYU-v2中的一个示例可视化ms→st和m t→st的中间特征图，其中s和t分别对应于分割和表面法线估计。我们观察到，这些函数将两个任务标签映射到一个联合成对空间，其中公共信息围绕对象边界，这反过来又使模型能够为两个任务产生更准确的预测。预测。最后，我们在图4中显示了我们的方法，SL和SSL基线在NYU-v2上的定性比较。我们可以看到，我们的方法通过利用跨任务一致性产生更准确的预测。我们还提供了补充实验。5. 结论和限制在本文中，我们表明，跨任务的关系是至关重要的学习多任务密集的预测问题，从部分注释的数据在几个基准。我们提出了一种模型不可知的方法，通过映射函数的任务对条件下的任务对在联合潜在空间中的关系学习，在一个计算有效的方式，也图3. NYU-v2中的一个示例的任务对（分割到表面法线）的映射函数的中间特征图。第一列示出了预测或地面实况，并且第二列呈现了对应的映射特征图（映射函数的最后第二层的输出地面-真值SLSSL我们图4. NYU-v2的定性结果。第一列显示了RGB图像，第二列绘制了所有语义分割方法的基础事实或预测以及IoU（）得分，第三列显示了基础事实或预测以及绝对误差（↓），最后一列显示了表面法线的预测以及平均误差（↓）。避免了学习平凡映射的正则化策略。最后，我们的方法也有局限性。尽管通过有条件的网络有效地学习了跨任务关系，但可能不需要为所有任务对建模跨任务关系。因此，期望自动识别哪些任务是密切相关的，并且仅学习这种跨任务关系。致谢。HB由EPSRC程序授权Visual AI EP/T028572/1支持。18887引用[1] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。PAMI，39（12）：2481-2495，2017. 6[2] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin Raffel 。Mixmatch：半监督学习的整体方法NeurIPS，2019。3[3] Hakan Bilen和Andrea Vedaldi。使用循环多任务神经网络的集成感知神经信息处理系统的进展，第235-243页，2016年。2[4] Felix JS Bragman，Ryutaro Tanno，Rumtien Ourselin，Daniel C Alexander，and Jorge Cardoso.多任务卷积核的随机滤波器组：学习专家和通才卷积核。在ICCV，第1385-1394页，2019年。一、二[5] David Bruggemann 、 Menelaos Kanakis 、 StamatiosGeorgoulis和Luc Van Gool。自动搜索资源高效的分支多任务网络。arXiv预印本arXiv：2008.10292，2020。一、二[6] DavidBruggemann ， MenelaosKanakis ， AntonObukhov，Sta- matios Georgoulis，and Luc Van Gool.探索多任务密集预测的关系上下文。ICCV，2021。2[7] 瑞奇 · 卡鲁阿纳多任务学习。 Machine learning ， 28（1）：41-75，1997. 一、二[8] Vincent Casser、Soeren Pik、Reza Mahjourian和AneliaAngelova。没有传感器的深度预测：利用结构进行单目视频的无监督学习在AAAI，第33卷，第8001-8008页，2019年。2[9] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。参见ECCV，第801-818页，2018年。6[10] Xianjie Chen，Roozbeh Mottaghi，Xiaobao Liu，SanjaFidler，Raquel Urtasun，and Alan Yuille.检测你能检测到的：使用整体模型和身体部位检测和表示物体。在CVPR中，第1971-1978页，2014年。5[11] Zhao Chen，Vijay Badrinarayanan，Chen-Yu Lee，andAndrew Rabinovich.Gradnorm：梯度归一化，用于深度多任务网络中的自适

下载后可阅读完整内容，剩余1页未读，立即下载