通用半监督语义分割：减少注释和部署成本，提高性能

159 浏览量更新于2023-10-12 收藏 1.48MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5259通用半监督语义分割Tarun Kadhi1Girish Varma1Manmohan Chandraker2C VJawahar11印度理工学院海得拉巴2加利福尼亚大学圣地亚哥分校电子邮件：gmail.com摘要近年来，在几个不同的应用程序和环境中出现了对语义分割的需求。然而，注释的费用和冗余通常限制了任何领域中可用于训练的标签的数量，而如果单个模型在多个领域中工作良好，则在本文中，我们提出了一个新的问题，通用的半监督语义分割，并提出了一个解决方案框架，以满足较低的注释和部署成本的双重需求。与微调、联合训练或无监督领域自适应等方法相比，通用半监督分割可确保在所有领域：（i）部署了单个模型，（ii）使用了未标记的数据，（iii）提高了性能，（iv）只需要几个标记，域A标记的图像未标记图像域B未标记图像标记的图像领域A特定模型传统微调方法该方法传统的微调方法域B特异性模型(v)标签空间可以不同。为了解决这个问题，我们尽量减少监督以及内部和跨域无监督损失，引入了一种新的特征对齐目标的基础上像素感知熵正则化后者。我们在不同地理位置（德国，英国，印度）和环境（室外，室内）的分割数据集的几种组合上展示了与其他方法相比的定量优势，以及对对齐表示的定性1. 介绍语义分割是将图像的像素级分类到预定义的类别集合中最先进的语义分割架构[35，3，8]在ImageNet[13，53]等数据集上预训练深度网络以执行分类任务，然后对精细注释的标记示例进行微调[12，64]。这种大规模标记数据集的可用性对于在从自然场景理解[18]到医学成像[51]的应用中实现语义分割然而，即使存在较小的域偏移，性能也经常受到影响例如，一个细分模型图1：建议的通用分割模型可以在具有不同标签空间的数据集上联合训练，利用大量可用的未标记数据。传统的基于迁移学习的方法通常需要为每个领域训练单独的模型。由于天气、照明或交通密度的差异，在来自特定地理位置的驾驶数据集上训练的车辆此外，在用于室外导航的交通场景上训练的分割模型可能不适用于室内机器人。虽然这种域转移对于任何机器学习问题都是一个挑战，但是对于分割来说，这种域转移尤其严重，在分割中，人类注释对于不同的位置和任务是高度禁止的和冗余的。因此，对学习可以跨域共享的分段表示的兴趣越来越大。一个突出的工作线通过从标记源到未标记目标域的无监督域自适应来解决这个问题[25，61，10，42，6]。但仍然存在局限性。例如，无监督域自适应通常不利用目标域数据来提高源性能。此外，它是专为大规模的标记源域和未标记的目标域的限制性设置而5260一些应用程序（如自动驾驶）具有用于特定源域的大规模注释数据集（例如像Synthia [52]这样的合成数据集），绝大多数应用程序在任何域中仅具有有限的数据。最后，大多数上述工作假设目标标签集与源标签集匹配，这在实践中往往不是这样。例如，跨不同国家的道路场景分割或跨室外和室内场景的分割具有域特定标签集。在本文中，我们提出并解决了新的问题的普遍半监督语义分割作为一个实际的设置为许多现实世界的应用。它试图在训练过程中聚合来自几个不同领域的知识目标是通过减少注释和部署成本来同时限制训练成本，并通过获得跨域使用的单个模型来实现。标签空间可以跨域部分或完全不重叠。虽然在少量目标数据上微调源模型是一个可能的对应点，但它通常需要大量的源标签，并且由于灾难性遗忘，需要在每个域中部署单独的模型[40]。另一种选择是联合训练，这确实会产生跨领域的统一模型，但不会利用每个领域中可用的未标记数据。我们的半监督通用分割方法利用每个领域中有限的标记和较大规模的未标记数据表1给出了所提出的半监督通用分割相对于一些现有方法的优点。特别是，我们在每个域中使用标记的示例来监督通用模型，类似于多任务[31，39，30]，尽管标签有限。我们同时利用大量的未标记的例子，使用基于熵正则化的目标函数来对齐来自多个域的像素级深度特征表示。熵正则化使用无监督的示例，有助于鼓励特征表示之间的低密度分离，并提高预测的置信度。此外，在一个域上训练的模型在部署在不同域中时通常会导致噪声预测和高熵输出图，并且所提出的跨数据集熵最小化鼓励跨数据集的精细预测图。我们计算每个像素处的编码器输出与标签嵌入之间的相似性得分向量（从类原型计算[58]），并最小化该离散分布的熵，以在标记和未标记图像之间正确对齐相似示例。我们在域内以及跨域进行这种无监督的对齐。我们相信，即使在标签空间不重叠的情况下，这种域内和跨域对齐也是富有成效的，特别是源未标记数据目标未标记数据联合模型混合标签支持微调✗✗✗✓半监督[28，60]✓✗✗NACyCADA [24]✗✓✓✗联合训练✗✗✓✓我们的方法✓✓✓✓表1：通用半监督分割与现有方法的比较对于语义分割也是如此，因为标签定义经常对关系进行编码，这些关系可以积极地增强每个域中的例如，Cityscapes [12]和IDD [64]等两个道路场景即使是像Cityscapes这样的室外数据集和像SUN [59]这样的室内数据集也可能有标签关系，例如，水平（道路，地板）和垂直（建筑物，墙壁）类之间的标签关系。多任务训练也有类似的观察结果[70]。我们认为，我们的像素明智的熵为基础的目标发现这样的对齐，以改善联合训练，在我们的实验中定量和定性证明。具体来说，我们的实验提供了跨域差距的各种概念的见解。以Cityscapes [12]作为域之一（德国的道路场景），我们推导出关于CamVid（英国的道路）[4]、IDD（印度的道路）[64]和SUN（室内房间）[59]的通用模型。在每种情况下，我们的半监督通用模型都比微调和联合训练有所改进，学习的特征表示的可视化展示了概念上有意义的对齐。我们在实验中使用扩张残差网络[69]，但该框架同样适用于任何现有的深度编码器-解码器架构，用于语义分割。我们的贡献• 我们提出了一个通用的分割框架来训练一个单一的联合模型在多个领域与不同的标签空间，以提高每个域的性能。与现有的深度语义分割方法相比，该框架在推理过程中没有增加额外的参数或显著的开销。• 我们引入了一个像素级熵正则化方案来训练语义分割架构，使用具有少量标记示例和大量unla的数据集。beled例子（第3节）。• 我们证明了我们在各种室内[59]和室外[12，64，4]分段数据集上对齐的有效性，这些数据集具有不同程度的标签重叠。我们还将我们的结果与其他半监督方法进行了比较，基于对抗性损失，给出了改进的结果（第4节）。5261i=1Luu2. 相关工作语义分割计算机视觉中的语义分割是为图像的每个像素分配语义标签的任务。大多数用于语义分割的最先进模型[69，35，43，3，8，50]在很大程度上是由于深度学习的突破，这些突破推动了图像分类[32，22，23]和相关任务的性能边界。的开创性工作在[35]中提出了一种用于语义分割的端到端可训练网络，方法是将预训练的AlexNet [32]和VGG Net [57]的全连接层替换为全卷积层，该全卷积层聚合各种分辨率的空间信息。Noh等人[43]使用转置卷积来构建可学习的解码器模块，而DeepLab网络[8]使用artrous卷积和artrous空间金字塔池来更好地聚合空间特征。还提出了基于扩张卷积[68]的实时语义分割分割架构[69，50]。大多数现有的语义分割架构都需要对标记数据进行大规模的注释才能获得良好的结果。为了解决这一限制，在[60，46，28，26，66]中提出了各种半监督学习方法，这些方法在训练期间利用容易获得的大规模无监督或弱监督虽然这些方法在特定数据集上进行训练和部署时可以提供有竞争力的结果，但仍然需要学习可跨具有有限训练数据的域和环境转移的高效分割模型迁移学习和领域适应迁移学习[67]涉及将在一个领域或任务中学习的深度特征表示转移到另一个领域或任务，其中标记的数据可用性低。以前的作品展示了迁移学习能力之间空间.此外，基于像素级自适应的方法通常集中于使用来自大的标记源域（例如，Synthia [52]）来提高特定目标领域的性能，而我们提出了一个联合训练框架来训练一个在两个领域都具有良好性能的单一模型。通用分割多任务学习[7]被证明可以提高许多任务的性能，这些任务在计算机视觉中共享它们之间的有用关系[56，31，70]。自然语言处理[11，39，30]和语音识别[55]。通用分割基于这一思想，通过训练一个联合模型，该模型在多个语义分割域中非常有用，这些语义分割域可能具有不同的标签空间，以利用网络较低级别的可转移表示。Liang等人[34]首先提出了通用分割的想法，通过从外部知识源（如WordNet）构建的标签层次图执行动态传播。我们提出了一种替代方法来执行通用分割，而不需要任何外部知识源或额外的模型参数，在推理过程中，而是有效地利用每个域中的大型未标记示例集继基于度量学习的方法在细粒度分类[2，1]等任务中取得成功之后，潜在层次学习[54]和零拍摄预测[44，15，33]，我们使用像素级类原型[58]来执行跨域的语义转移3. 问题描述在本节中，我们解释了用于使用新的像素感知熵正则化目标在不同的分割数据集上训练单个模型的框架，这些数据集可能具有不同的标签空间。我们有d个数据集{D（i）}d，每个数据集都有很少的标记示例和许多未标记示例。来自D（i）的经标记的图像和对应的标记表示为：相关任务[14，71，45，48]甚至完全不同-任务[19，49，35]。无监督域自适应{X（i），Y（i）（一）Li=1，其中Y（一）∈ Yi，且N（一）L这是一个数量-是一个相关的范例，它利用来自有标签的例子。未标记的图像表示-一个源域来学习一个新的unsuper的分类器由{X（i）}（一）ui=1，N（i）是未标记在存在域移位的情况下，改变目标域。各种生成和判别域适应例子. 我们处理的域只有很少的标记示例（N（i）<$N（i）），并考虑以下一般情况：ul方法已经提出了分类任务，[16，17，63，62，47，5]和语义场景分割在[25，61，10，24，9，27，72]。域自适应中的大多数工作假设相等的源和目标数据集标签空间或子集目标标签空间，这对于现实世界的应用来说不是最一般的情况。为了解决域自适应方法的这一限制，我们提出了一种类似于[37]的方法，该方法适用于非相交标签的极端情况不相交的标号空间，使得对于任意p，q，Yp/=Yq。标签空间之间可能仍有部分重叠它们，这在分割数据集的情况下很常见为了便于标记，我们考虑两个数据集{D（1），D（2）}的特殊情况，但类似的想法也可以应用于多个数据集的情况。图2总结了所提出的通用分割模型。深度语义分割架构通常由编码器模块组成，该编码器模块聚合NN}5262uuSS解码器G 1（. ）的方式C1H1编码器模块F（. ）的方式W1组带标记L（. ）的方式{X，Y（1）}（一）{X（2），Y（2）}解码器G 2（. ）的方式supLLC2H2域A域BLW2联合国粮食计划署（.）的方式类的质心熵模块域B域AUU{X个文件夹{X（1）}（二）未标记集熵ψ（. ）的方式相似性图2：建议的通用语义分割框架中的不同模块{X（1），Y（1）}，{X（2），Y（2）}是标记的集合，L lX（1），X（2）是未标记的示例的集合熵模块使用未标记的示例来执行通过计算与标签的像素相似性，并最小化该离散分布的熵，从多个域中提取像素特征。空间信息跨越各种分辨率和解码器模块，解码器模块由分类器和上采样器组成，以使得能够以与输入匹配的分辨率进行逐像素预测为了能够使用多个数据集进行联合训练我们通过具有共享的编码器模块F和不同的解码器层G1（. ）、G2（. ）用于不同标签空间中的预测对于标记的输入图像xl，逐像素的预测由对于k = 1，2的y_k（k）=G_k（F（xl））表示，其与标记的注释一起给出了监督损失。利用对于来自未标记样本Xu的语义信息，我们提出了一个熵正则化模块E。该熵模块将编码器F（. ）在嵌入中给出逐像素表示输出空间这些具有标签嵌入的嵌入表示的相似性得分向量的熵导致无监督损失项。以下各节详细解释了这些损失术语。监督损失监督损失是所有标记示例的预测分割掩码y_x与对应的逐像素地面实况分割掩码之间的softmax交叉输入损失具体地，对于来自数据集k的样本，（k）1 美元熵模块大量可用的无监督图像为我们提供了关于域和标签结构之间的视觉相似性的丰富信息，基于对抗的半监督分割[60，28]或通用分割[34]的现有方法没有利用这些信息。为了解决这个问题，我们建议使用熵正则化来将信息从标记图像转移到未标记图像，以及数据集之间的未标记图像。熵正则化被证明可以鼓励特征空间中聚类之间的低密度分离[20]，从而为半监督学习带来高置信度的预测和平滑的输出映射。一些以前的作品使用熵正则化进行半监督学习[20，36，65]和我们的作品之间的一个关键区别是，我们执行使用熵模块E在单独的嵌入空间中进行熵正则化，不像其他作品直接在softmax输出空间中应用这种嵌入方法有助于在具有不同标签集的数据集之间实现语义转换，从而有助于紧密地从两个数据集对准从分割网络计算的视觉上相似的像素级特征。熵模块如图3所示，其工作原理类似于分段架构中的解码器模块LS=（k）Nlxi∈D（k）k（yi，Gk（F（xi），（1）首先，我们将来自两个数据集的分割网络的编码器输出投影到一个共同的d维中其中，softmax交叉熵损失函数- 标签空间Yk，其在分割图的所有像素上被平均。L（1）和L（2）一起构成监督损失项LS。嵌入空间Rd，并对该输出映射进行上采样以匹配输入的大小。然后，使用对每个像素进行操作的相似性度量φ来计算嵌入表示与每个d5263总损失LT是来自等式（1）的监督损失与来自等式（3）和等式（4）的无监督损失的总和，写为L= L（X（1），Y（1），X（2），Y（2））+α· L（X（1），X（2））T Sl lUS，cuu u+β·L（X（1），X（2））（5）我们，wu u其中α和β是控制总损失中无监督损失的影响的超参数。图3：除了在相应的标签空间R c中输出预测的传统解码器层之外，我们还具有熵模块E（. 该算法首先将两个域的特征映射到公共嵌入空间Rd中，然后用相应数据集的标签嵌入计算相似性得分。使用以下等式的对于在测试时间期间来自数据集k的查询图像q（k），输出yk（k）=Gk（F（q（k）g给出了标签集Yk上的分段映射和逐像素标签预测。这不会增加计算开销或额外的与现有的深度语义分割方法相比，我们的方法在推理过程中的参数。我们注意到，尽管我们在我们的方法和基于度量的推理方案中计算特征和标签嵌入，[vij]k. . .= φEFΣΣ（一）uΣ、c（j）k∈{|YJ|}，（2）相邻搜索可以实现标签集AgNOS中的预测尽管如此，使用现有方法计算像素最近邻可能证明非常缓慢且成本高昂，其中x（i）是来自第i个未标记集合的图像，c（j）∈Rd具有高分辨率。uk是第j个数据集的第k个标签对应的标签嵌入，[vij]∈R|YJ|. 当i=j时，分数对应于数据集内的相似性分数，并且当i = j时，它们提供跨数据集相似性分数。标注嵌入只是计算的原型要素使用标记的数据。它们是预先计算的，并在训练网络的过程中保持固定，因为我们发现有限的监督数据不足以联合训练通用分割模型以及微调标签嵌入。关于计算标签嵌入的更多细节在补充部分中给出。无监督损失我们有两个部分的无监督熵损失。第一部分，交叉数据集熵损失，通过最小化交叉数据集相似性向量的熵来获得。LUS，c=H（σ（[v12]））+H（σ（[v21]）），（3）其中H（. ）是离散分布的熵度量，σ（. ）是softmax算子，并且相似性向量[v]来自等式（2）。最小化LUS ，c使概率分布在数据集中的单个标签上达到峰值，这有助于在标签侧跨数据集的语义传递中，从而提高网络的总体预测确定性。此外，我们还有一个数据集内熵损失，由下式给出LUS，w=H（σ（[v11]））+H（σ（[v22]））（4）其在同一域中对齐未标记的示例。XK52644. 实验和结果我们提供的性能结果的建议ap-proach上的各种各样的真实世界的数据集，用于自动驾驶以及室内分割设置。我们展示了我们的方法相对于现有基线的优越性（第4.2节），展示了对最先进的半监督方法的改进（第4.3节），并展示了跨域数据集的结果（第4.4节）。仅使用一小部分可用的标记数据，我们在这些数据集上显示了竞争性结果。4.1. 培训详细信息数据集我们展示了我们的方法在来自各个领域的大规模城市驾驶数据集上的结果，如Cityscapes [12]（CS），CamVid [4]（CVD）和印度驾驶数据集（IDD）[29，64]。Cityscapes [12]是一个标准的自动驾驶数据集，由2975张从欧洲各个城市收集的训练图像组成，并用19个类别进行了精细注释。CamVid [4]数据集包含367个训练，101个验证和233个测试图像，这些图像来自视频序列，用32个类进行了精细标记，尽管我们使用了[3]中更流行的11类版本。我们还展示了IDD [29，64]数据集的结果，这是一个在不受约束的环境中进行自主导航的野外数据集。它由6993个训练和981个验证图像组成，其中26个类别是从印度道路上的182个驾驶序列中收集的，在高度变化的天气和环境条件下拍摄的。这是一个具有挑战性的驾驶数据集5265方法路人行道建筑壁围栏极Traff 中尉TraffSgn。Veg.火车天空人骑手车卡车总线火车摩托车自行车Miou仅CS91.7654.7880.023.7016.5829.8422.3133.7483.8832.8982.0752.6721.5781.1119.013.870.019.6449.0140.97基础大学87.0044.5477.7710.2111.0725.5414.5125.8280.7222.4078.1949.0019.6475.351.860.2510.988.8341.0836.04Univ-full92.1851.2980.070.024.0133.7326.1638.7182.3036.3981.6154.3820.4881.712.3722.793.851.3146.2341.03方法天空好了极路铺路树签署围栏车儿科Bicy.Miou仅Camvid85.5875.158.1784.8652.3469.6827.1120.4873.124.3629.4250.02基础大学87.0476.679.5683.551.3570.0727.7522.673.2233.9435.2551.9Univ-full86.377.2317.1384.9953.3570.5731.9932.4572.9436.6137.2254.62表2：Cityscapes数据集中的19个类和CamVid数据集中的11个类的类IoU值，具有通用语义分割模型的各种消融请注意，我们的方法（Univ-full）对于Cityscapes和CamVid数据集上的杆和标志等方法N=50 N=100方法N=375大学基础教育（Ls） 32.82四十八点五六40.6936.0451.90 四十三点九七Univ-cross（+Lc）33.86五十二点五十七分43.2237.8249.31 四十三点五十七Univ-full（+Lc，Lw）34.01五十三点二三43.6241.0354.62 四十七点八三表3：使用Cityscapes（CS）和CamVid（CVD）数据集和Resnet-18主干进行通用分割的mIoU值。N是每个数据集中可用的监督示例的数量。粗体条目在数据集中具有最高的平均mIoU因为它包含从大部分非结构化环境中拍摄的图像。虽然这些自动驾驶数据集通常会带来许多挑战，但在类别、对象方向或摄像头角度方面仍然存在有限的变化因此，我们还使用SUN RGB-D [59]数据集进行室内分割，其中包含5285个训练图像以及5050个验证图像，这些图像用37个标签进行了精细注释，这些标签由椅子，桌子，桌子，枕头等常规家居物品组成。我们报告了[ 21 ]中使用的13类版本的结果，并且仅使用RGB信息进行通用训练，忽略了提供的深度信息。架构虽然所提出的框架很容易适用于任何最先进的编码器-解码器语义分割框架，但由于其在自动驾驶应用中的低延迟，我们使用了扩张残差网络的开放式PyTorch实现[69]我们将嵌入维数d取为128，并使用点积作为像素级相似性度量φ（. ）因为它可以是在大多数现代深度学习软件包中实现为1×1卷积每个实验的更多细节设置在补充部分中介绍。评估指标我们使用平均IoU（Intersection over Union）作为性能分析指标。每个类的IoU由下式给出：TPIoU=，（6）TP+FP+FNHung等人[28] 58.80- Soulyet al.[60]-58.20-大学基础教育通用杂交（+Lc）Univ-full（+Lc，Lw）55.9264.72表4：我们的方法与其他半监督方法在Resnet-101主干和CS+CVD数据集上的比较我们的方法（Univ-full）与以前的半监督方法不同，在数据集上产生单个模型，并在两个数据集上提供其中TP、FP、FN分别是真阳性、假阳性和假阴性像素，mIoU是所有类别上IoU的平均值。mIoU是针对通用模型中的所有数据集单独计算的。报告的所有mIoU值都在CS，IDD和SUN-RGB数据集的公开可用验证集上，以及CamVid数据集的测试集上4.2. 消融研究我们在实验中进行了以下消融研究，以深入了解所提出的目标函数的各个组成部分（i）在源上训练：我们只使用一个数据集上可用的有限训练数据来训练语义分割网络由于标签空间不直接重叠，我们为两个数据集微调不同的分类器（解码器），并保持特征提取器（编码器）相同。（ii）Univ-basic：为了研究非监督损失的影响，我们设置α，β=0，并仅使用来自等式（1）的监督损失项进行训练，而根本没有熵模块。这类似于使用来自每个域的监督数据的普通联合训练。(iii)Univ-cross：为了研究等式（3）中交叉数据集损失项的影响，我们通过将α=1添加到损失项来进行实验(iv)Univ-full：这是建议的模型，包括所有监督和非监督损失项。我们使用α，β=1，CSCVDAvg.CSCVDAvg.CSCamVidAvg.CS上的培训33.3332.9233.1340.9736.5238.75CS上的培训55.0748.5251.80CVD培训19.4742.8131.1422.2050.0236.11CVD培训26.4560.6143.535266方法N=100（Resnet-18）N=1500（Resnet-50）CSIDDAvg.CSIDDAvg.CS上的培训40.9714.6427.8164.2332.5048.37国际长途电话列车25.0526.5325.7946.3255.0150.67基础大学37.9425.2131.5863.5553.2158.38Univ-full36.4827.4531.9764.1255.1459.63表5：使用IDD和CS数据集的通用分割结果。我们的方法（Univ-full）在Resnet-18和Resnet-50 CNN主干上表现更好。等式（5）中的损失函数。最佳模型被定义为在数据集中具有最高平均mIoU虽然许多关于域适应的工作也提供了Cityscapes数据集的结果，但我们注意到，我们不能直接将我们的结果与它们进行比较，因为问题设置非常不同。虽然大多数领域自适应方法使用大规模合成数据集作为源数据集来提高特定目标领域的性能，但我们在多个资源受限的真实数据集上训练我们的模型。世界数据直接。Cityscapes + CamVid训练一个大学生的结果 -Cityscapes和CamVid数据集上的sal模型在表3中给出。对于对应于使用来自每个域的100个标记示例的N=100的设置，所提出的方法给出了41的最佳mIoU值。03%的城市景观和54. CamVid上的62%明显优于基线方法。此外，使用所提出的无监督损失的通用分割方法也比仅使用有监督损失的方法表现得更好，这表明在具有少量标记数据和大量未标记数据的域中具有无监督熵正则化的优势。表3中的另一个观察结果是，对于N=100，仅在Cityscapes上训练的模型在CamVid数据集上测试时，与仅在Camvid上训练的模型类似地，Cityscapes的性能下降是Camvid上训练的模型的18% mIoU。因此，很明显，在一个数据集上训练的模型（如Cityscapes）在部署到不同的数据集（如CamVid）上时并不总是表现良好，这是由于域转移，并导致噪声预测和较差的输出地图。这进一步提出了通过使用基于熵正则化的语义转移目标来训练在两个域上表现良好的单个模型的必要性。在语义分割数据集的情况下，非常低的N值提供了挑战，例如许多较小标签的有限表示，但我们注意到，N=50的拟议模型仍然能够在两个数据集上表现得更给出了N=100的通用分割方法与CS+CamVid的表2中熵正则化明显提高了CamVid数据集上11个类中9个的性能，以及Cityscapes数据集上19个类中10个的性能。更重要的是，像杆、交通标志、行人和围栏这样的较小类，尽管只使用了这些数据集中一小部分标记的示例，但它们从Cityscapes和CamVid数据集的通用训练中受益匪浅。IDD + Cityscapes这种组合是为了验证通用分割方法而选择的，因为图像来自地理，天气条件以及交通设置方面非常不同的领域，并且数据集一起捕获了在训练基于视觉导航的自动驾驶数据集时可能遇到的各种道路场景。使用IDD和Cityscapes（CS）进行通用语义分割的结果如表5所示。使用来自每个域的100个训练示例，所提出的univ-full模型在Cityscapes（CS）上给出了36.48%的mIoU，在使用Resnet-18主干的IDD上给出了27.45%的mIoU，在平均 mIoU上比univ-basic方法表现得更好。与CS+CamVid的情况类似，在Cityscapes数据集上训练的特征不会直接转移到IDD，并且显示出12% mIoU的性能下降，这也证明了学习大规模数据集的通用表示的必要性。此外，作为一个极端的情况下，我们表明所提出的方法的效用，即使在大量的标签的例子。我们选择N=1500，这是一个具有挑战性的设置，因为监督样本的数量已经足以训练联合模型。然而，从表5中可以看出，基于Resnet-50的通用模型仍然提供了优于联合训练方法的优势，这证明了添加无监督示例总是有助于训练，并且可以将更多无监督示例添加到这些数据集中以推动最先进的性能。4.3. 与最新技术除了证明所提出的方法优于基线方法之外，我们还将一些现有的半监督语义分割工作（针对单个数据集）与表4中的我们的工作进行了比较，以获得类似数量的标记训练数据。我们的模型使用扩张的残差网络，在Cityscapes验证集上与[28]它使用更复杂的DeepLab-V2架构。类似地，在不使用任何非监督视频图像的情况下 [60] ，我们在CamVid测试集上显示出优于它们的结果，尽管我们的模型经过训练，可以同时在多个数据集上表现良好。以前的大多数工作优化了对抗损失，我们的结果证明熵最小化更适合于5267（a）（b）（c）（d）图4：来自CS、CVD和SUN数据集的大多数类的编码器输出表示的tSNE可视化图（a）和（b）是来自CS-CVD数据集的Univ-basic和Univ-full模型观察CS：Building-CVD：Building、CS：SideWalk-CVD：Pavement、CS：Sky-CVD：Sky等大型类的特征嵌入与通用模型对齐得更好图（c）和（d）是CS-SUN数据集的Univ-basic和Univ-full模型，具有类似视觉特征的标签（如CS：Road-SUN：Floor）显示出更好的特征对齐。最好的颜色和缩放查看。方法标记示例CS孙Avg.CS上的培训1.5k64.2315.4739.85太阳列车1.5k15.6142.5229.07[41]第四十一话完整（5.3k）-49.8-基础大学1.5k58.0131.5544.78我们的[Univ-full]1.5k57.9143.1250.52表6：使用Resnet-50主干跨不同任务数据集的通用分割的mIoU值虽然Cityscapes是一个自动驾驶数据集，但SUN数据集主要用于室内分割。这证明了即使在不同的环境中通用细分半监督的方法，其中有限的监督是可用的。4.4. 跨域实验通用分割模型的一个有用的优点是它能够在完全不同的设置中使用的数据集之间执行知识转移，这是由于它在利用有用的视觉关系方面的有效性。我们在Cityscapes（用于自主导航的道路场景驾驶数据集）和SUN RGB-D（用于高级场景理解的室内物体分割数据集）之间的联合训练中证明了这种效果Cityscapes和SUN-RGBD数据集中的标签集完全不同（不重叠），因此简单的联合训练技术通常效果不佳。然而，从表6中可以看出，我们的模型优于基线，并利用未标记的示例提供了跨域的良好联合模型。我们还将我们的工作与 SceneNet [41] 进行了比较，SceneNet使用带有RGB和深度数据的大规模合成示例进行预训练，以及所有 5.3k个可用的标记样本用于训练。仅使用来自SUN-RGB数据集的28%的训练数据，以及来自Cityscapes而不是合成示例的有限监督，我们实现了[41]中报告的高达88%的mIoU。4.5. 特征可视化从视觉特征的tSNE嵌入[38]中可以更直观地理解我们的通用模型编码器模块的逐像素输出用于绘制图4中所选标签的tSNE。对于图4a和4 b中CS和CVD之间的通用训练，我们可以观察到，当使用通用分割目标进行训练时，像Building-CS和Building-CVD以及Sidewalk-CS和Pavement-CVD这样的类彼此更好地对于来自图4c和图4d的CS和SUN之间的通用训练，具有类似视觉属性（诸如道路和地板）的标签彼此靠近对齐，尽管标签集本身完全不重叠。5. 结论在这项工作中，我们展示了一种简单而有效的方法来执行通用的半监督语义分割。我们训练一个联合模型，使用少量的标记的例子和大量的未标记的例子从每个领域的熵正则化的语义转移目标。我们表明，这种方法是有用的，在更好地对齐对应于不同领域的视觉特征。我们证明了所提出的方法相比，监督训练或联合训练的方法在各种各样的分割数据集具有不同程度的标签重叠的优越性能我们希望我们的工作能够解决深度学习社区日益增长的担忧，即为语义分割等密集预测任务收集大量标记示例的难度我们也相信，其他计算机视觉任务，如目标检测和实例感知分割可以大大受益于本文中讨论的想法致谢M. Chandraker由NSF CAREER 1751365支持。5268引用[1] Zeynep Akata、Florent Perronnin、Zaid Harchaoui和Cordelia Schmid。基于属性分类的标签嵌入2013年IEEE计算机视觉和模式识别会议，第819-826页，2013年6月。3[2] Zeynep Akata ， Scott Reed ， Daniel Walter ，Honglak Lee，and Bernt Schiele.用于细粒度图像分类的输出嵌入的评估。IEEE计算机视觉和模式识别会议论文集，第2927-2936页，2015年3[3] VijayBadrinarayananAlexKendall 和 RobertoCipolla Segnet：用于图像分割的深度卷积arXiv预印本arXiv：1511.00561，2015。一、三、五[4] Gabriel J Brostow，Julien Fauqueur，and RobertoCipolla.视频中的语义对象类：一个高清晰度的真实数据库。Pattern Recognition Letters，30（2）：88-97，2009. 二、五[5] Zhangjie Cao ， Lijia Ma ， Mingsheng Long ， andJianmin Wang.部分对抗域自适应。在欧洲计算机视觉会议（ECCV）上，2018年9月。3[6] Fabio Maria Carlucci ， Lorenzo Porzi ， BarbaraCaputo，Elisa Ricci，and Samuel Rota Bulo.自动拨号：自动域对齐层. 2017年国际计算机视觉会议（ICCV）。1[7] 瑞奇·卡鲁阿纳多任务学习。Machine learning，28（1）：41-75，1997. 3[8] Liang-Chieh Chen ， George Papandreou ， IasonasKokki-nos ， KevinMurphy ， andAlanLYuille.Deeplab：使用深度卷积网络、atrous卷积和全连接 crf 的 SE-mantic 图像分割。 IEEETransactionsonPatternAnalysisandMachineIntelligence，40（4）：834-848，2018。第1、3条[9] Yuhua Chen，Wen Li，and Luc Van Gool.道路：面向现实的适应城市场景的语义分割在IEEE计算机视觉和模式识别集，第78923[10] Yi-Hsin Chen，Wei-Yu Chen，Yu-Ting Chen，Bo-Cheng Tsai，Yu-Chiang Frank Wang，and Min Sun.不再歧视：道路场景分段器的跨城市适应。在计算机视觉（ICCV），2017年IEEE国际会议上，第2011-2020页IEEE，2017年。第1、3条[11] Ronan Collobert和Jason Weston自然语言处理的统一架构：具有多任务学习的深度神经网络。第25届机器学习国际会议集，第160-167页。ACM，2008年。3[12] Marius Cordts ， Mohamed Omran ， SebastianRamos ， Timo Rehfeld ， Markus Enzweiler ，Rodrigo Benenson，Uwe Franke，Stefan Roth，andBernt Schiele.城市场景语义理解的城市景观数据集在IEEE计算机视觉和模式识别集，第3213一、二、五[13] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，Kai Li，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别，2009年。 CVPR 2009 。 IEEE 会议，第 248-255 页。Ieee，2009年。1[14] 杰夫·多纳休，贾扬青，奥里尔·维纳尔斯，朱迪·霍夫曼，张宁，埃里克·曾，特雷弗·达雷尔。De-caf：用于通用视觉识别的深度卷积激活功能corr abs/1310.1531（2013），2013年。3[15] Andrea Frome ， Greg S Corrado ， Jon Shlens ，Samy Bengio，Jeff Dean，Tomas Mikolov，et al.Devise：一个深度视觉语义嵌入模型。神经信息处理系统的进展，第2121- 2129页，2013年3[16] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督域自适应。第32届机器学习国际会议论文集，第1180-1189页，2015年。3[17] 雅罗斯拉夫·甘宁、叶夫根尼娅·乌斯季诺娃、哈娜·阿亚坎、帕斯卡尔·热尔曼、雨果·拉罗谢尔、弗朗索瓦·拉维奥莱特、马里奥·马尔尚和维克托·列皮茨基。神经网络的领域对抗训练机器学习研究杂志，17（1）：2096-2030，2016。3[

下载后可阅读完整内容，剩余1页未读，立即下载