基于错误定位网络的半监督语义切分

164 浏览量更新于2023-10-25 收藏 2.06MB PDF 举报

半监督学习

语义分割

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9957基于错误定位网络的半监督语义切分Donghyeon Kwon1Suha Kwak1，2部CSE，POSTECH1人工智能研究生院， POSTECH2http://cvlab.postech.ac.kr/research/ELN/摘要本文研究了语义分割的半监督学习方法，该方法假设只有一小部分训练图像被标记，其余的不被标记。未标记的图像通常被分配伪标签以用于训练，然而，由于伪标签上的错误的确认偏差，这通常导致性能下降的风险。我们提出了一种新的方法，解决了这个长期存在的伪标签问题。在我们的方法的核心在于错误定位网络（ELN），一个辅助模块，需要一个图像及其分割预测作为输入，并确定像素的伪标签可能是错误的。ELN通过在训练期间忽略标签噪声使半监督学习能够对不准确的伪标签此外，我们引入了一种新的学习策略ELN，模拟合理的和不同的分割错误在训练ELN，以提高其推广。我们的方法在PAS- CAL VOC2012和Cityscapes上进行了评估，在每个评估设置中，它都优于所有现有的方法。1. 介绍语义分割的最新进展已被归因于大规模数据集[10，12，15，32]上的深度神经网络[6，7，33，37，50]然而，收集用于语义分割的训练数据是劳动密集型和耗时的，这是由于逐像素类标记的高昂成本，这通常导致数据集在注释数据的数量和类多样性方面受到限制为了解决这个问题，标签有效学习，如半监督学习[3，5，19，24，26，27，29，30，35，36]，无监督学习[9，46]，弱超-[1，2，4，11，23，28，42，48]和合成到真正的领域适应[20，25，31，44，45，47，53]，已经提出了语义分割。本文研究了语义切分的半监督学习，它假设只有训练集的一个子集给每个图像分配分割标签，而其他图像保持未标记。毫无疑问，有效地利用未标记图像是完成这一任务的关键。自我训练[5，27，35，49]和对比学习-ing [3，29，51，52]是文献中常用的技术。自训练使用在标记图像上训练的模型生成未标记图像的伪标签，并将其用于监督学习。同时，对比学习迫使对应于相同伪标签的特征向量虽然这些技术大大提高了半监督语义分割的性能，但它们有一个共同的缺点：由于对未标记图像的预测通常会被错误破坏，因此使用这种预测作为监督的学习会导致对错误的确认偏差，并因此返回损坏的模型大多数现有的方法只是通过不使用不确定的预测作为监督来缓解这个问题[3，19，29，36]，但是它们的性能在很大程度上取决于手动调整的阈值。最近的一种方法通过学习和利用纠正错误的辅助网络来处理伪标签上的错误[27，35];这种模型称为纠错网络（ECN），从主分割网络的预测与其在训练图像的标记子集上的地面真实标签之间的差异中学习理想情况下，ECN可以显著提高伪标签的质量，但在实践中，由于其训练过程中的挑战，其优势往往受到限制。由于分割网络被快速过拟合到少量标记图像，其用作ECN输入的输出不覆盖ECN在测试中面临的各种各样的预测误差，这导致ECN的泛化能力有限我们提出了一种新的方法，也致力于处理伪标签上的错误，但更好地推广到那些任意未标记的图像。我们的方法的核心是错误定位网络（ELN），它以二进制分割的形式识别具有错误伪标签的像素。如将根据经验证明的，简单地忽略无效伪标签而不是校正它们足以减轻确认偏差并学习准确的分割模型。更重要的是，因为呃-9958图1.我们的半监督学习框架结合ELN。它采用了两个分割网络，student（s），这将是我们的最终模型，以及用于生成伪标签的teacher（t）使用教师的伪标签以两种不同的方式训练学生具体来说，解码器有两个头，一个用于分割（Seg），另一个用于特征嵌入（Proj）;自训练和对比学习分别应用于Seg和Proj头的输出然后，教师由学生的指数移动平均（EMA）更新。ELN允许自训练和对比学习通过识别和忽略其伪标签可能是有噪声的像素来对伪标签上的噪声具有鲁棒性误差定位是误差校正的类不可知子问题，因此更容易解决，更直接的是为目标任务训练准确和可良好推广的此外，我们设计了一种新的训练策略，以进一步提高其泛化能力。具体来说，我们将多个辅助解码器与主分割网络相结合，并训练它们以达到不同的准确度水平，以便它们在不同的训练阶段模拟分割网络。ELN然后训练以定位错误上的预测由辅助解码器以及主分段网络。该策略改进了ELN的通用化，因为用作ELN输入的此类预测可能会表现出分割网络在使用未标记图像进行自训练期间引起的错误模式然后，训练的ELN用于语义分割的半监督学习;图1中示出了包含ELN的整个流水线。我们的框架以两种方式开发未标记的图像：自我训练和对比学习，两者都依赖于伪标签。为此，我们采用了两个分割网络：一个是学生网络，这将是我们的最终模型，另一个是教师网络，它生成伪标签，并通过学生的指数移动平均值进行更新。自我训练是通过使用教师产生的伪标签来学习学生来同时，对比学习鼓励学生和教师的嵌入向量相似，如果他们的伪标签是相同的。ELN有助于改善两者的效果通过过滤掉潜在错误的伪标签进行自训练和对比学习按照惯例，在PASCAL VOC 2012 [12]和Cityscapes[10]数据集上评估了所提出的方法，同时改变了标记的训练图像的数量，并且在这两个数据集上证明了优于先前工作的性能。简而言之，我们的主要贡献有三方面。• 我们提出了错误定位，一种新的方法来处理错误的伪标签。它简单而有效，可以自然地与自我训练和对比学习相结合。此外，我们的经验证明了错误定位的优越性，• 我们开发了一种新的策略，用于在ELN的训练过程中有意地产生多样化和合理的预测误差这改进了ELN的泛化，即使使用少量的标记数据进行训练。• 通过我们的方法训练的分割网络在两个基准数据集PASCAL VOC 2012和Cityscapes上实现了最先进的技术水平。2. 相关工作语义分割语义分割的目标是生成密集的逐像素分类。从FCN [21]开始，它用完全卷积层取代了分类器未标记数据编码器S主要解码器S编码器不ConcatenateEMA向前/向后仅转发主要解码器不ELN项目分段-t项目-sSeg-s摄动9959LLauxauxDDEDConcatenate向前/向后仅转发标记数据地面实况图2.训练ELN以及主分段网络和辅助解码器。（左）主分割网络使用普通交叉熵损失sup进行训练，但辅助解码器使用约束交叉熵损失aux so进行训练。它们不如主分割网络，并且它们的预测故意包含合理和不同的错误。（右）来自解码器的所有预测都用作ELN的训练输入，ELN学习定位预测中的错误。注意，ELN和其他组件被同时训练，尽管为了简洁起见，在该图中单独绘制了它们的训练过程第一次，早期研究了各种方法。已经提出了编码器-解码器结构以获得准确的高分辨率输出[37，40]，并且已经利用诸如ASPP [6]和PSPNet [50]的结构来获得更多样化的空间上下文。已经研究了注意机制以获得全局关系[13，22]。然而，这些模型的成功需要大量的数据，这需要昂贵的劳动力。半监督语义分割。通过应用半监督学习方案来降低成本的尝试已经被深入研究。已经研究了基于GAN和对抗学习的几种方法[24，30，36半监督学习中经常使用的技术之一[14，26，39，41]是一致性正则化。它允许决策边界位于一个低密度区域，通过使用约束，使各种扰动输入的输出相互一致另一种方法[5，27，35，49]，自训练，是一种通过预训练模型用未标记的数据生成伪标签并用标记和伪标记的数据训练模型的方法。最近，各种方法[3，29，51，52]以半监督的方式将对比学习[16]应用于语义分割，显示出显着的性能改善。半监督语义分割的自校正网络。纠正伪标签的想法，在[27，35]中已经研究了辅助网络。他们提出了通过学习预测和地面真实分割标签之间的差异来纠正伪标签错误的网络。然而，在半监督学习环境中有效地训练这样的网络是一个挑战这是因为分割网络被快速过拟合到标记数据，导致校正网络的泛化性差。为了解决这一问题的推广以前的工作，我们引入了一个新的辅助任务称为错误定位，并提出了ELN和它的训练策略。3. 该方法我们的框架包括两个阶段，学习ELN使用标记数据和半监督学习ELN。第一阶段的主要问题是缺乏多样性在预测的主要网络，这导致了一个穷人的推广ELN。为了解决这个问题，除了主分段网络（编码器，解码器）之外，我们还采用辅助解码器（1，.，K），其被学习为故意劣于主分割网络;辅助解码器的预测将描绘可能的和不同的错误。ELN与分段网络和辅助解码器一起学习，以识别其预测的错误ELN训练的整个过程二、在第二阶段，训练的ELN然后用于语义分割的半监督学习，其中未标记的图像被利用两种方式，自训练，对比学习。ELN的作用是识别伪标签可能错误的像素，以便我们在自训练和对比学习的过程中忽略这些像素，以实现稳定和有效的训练。本节的其余部分将详细介绍我们的方法的两个阶段。标记数据ELN主要解码器编码器Aux.解码器1Aux.解码器K地面实况主要解码器编码器Aux.解码器1Aux.解码器KSegSeg. . -是的SegSegSeg. . -是的Seg9960LLΣLLLLKD EED⊕⊕⊕D E·K我⌊⌉P=D（E（X））表示主模型ΣΣ|D|DELL3.1. 使用标记数据首先，主分割网络在标记图像集合DL上用标准逐像素交叉熵损失sup进行预训练。令ce（P，Y）表示分割预测P与其基础真值标签Y之间的标准逐像素交叉熵：Lce（P，Y）=− Yilog（Pi），（1）我尽管使用了辅助解码器，但Mk中的像素级二进制标签的群体通常偏向于1（correct），这损害了ELN的错误识别能力。为了缓解这种情况，将重新加权因子应用于ELN中具有不正确预测的像素以进行平衡训练。令wce表示分割预测P与其二进制基础真值标签Y：Lwce（P，Y）=其中i是指示输入的每个像素的索引，并且Σ。j1{Yj=1}我JJYi是像素i的地面实况的独热向量。让-1{Yi= 0}位1{Y= 0}Yilog（Pi）网络的图像X. Lsup则由下式给出：+1{Y=1}Y log（P）。1Lsup=Lce（P，Y），（2）我我我（五）|D L|X∈DL其中Y是输入图像X的基础真值。当预训练完成后，每个辅助去而在Eq中，（四）修改为K编码器的训练类似于主网络，但具有1LELNΣ ΣL WCE（B k，M k）.（六）受约束的交叉熵损失，其仅最小化到ce（P，Y）的某个倍数，并且其梯度不传播超出辅助解码器。设K是所有辅助解码器的数量，并且k是它们的索引。然后，K个辅助解码器的总损耗（由aux表示）由下式给出：1L辅助=LX∈DLk=11{Lce（Pk，Y）> αk·Lce（P，Y）}·Lce（Pk，Y），（三）其中Pk=k（（X））表示第k个解码器的分段预测，并且αk指示用于约束应用于第k个辅助解码器的损失的尺度超参数。以这种方式训练辅助解码器使它们能够产生似乎错误的预测，这些预测被用作ELN的训练输入。给定图像及其分割预测作为输入，ELN被训练为通过监督学习来定位预测上的错误，其中通过将预测与其地面真实对应物进行比较来揭示错误的真实位置。设Ek是Pk的逐像素熵图，并且Bk= ELN（XPk表示以二进制分割图形式的ELN的预测，其中表示逐通道矩阵级联。二进制交叉-ELN的熵损失LELN由下式给出：|·（K + 1）X ∈ D L k = 0|· (K + 1) X∈DLk=0对于标记数据，在第一阶段中最小化的总损失如下：L标记=Lsup+Laux+ L ELN。（七）注意，在第一阶段中，L_labeled的损失被联合优化，尽管在预训练中，L_sup仅被最小化。3.2. ELN半监督学习在学习ELN之后，主分割网络在具有两个损失的未标记图像集合DU上训练，这两个损失是自训练损失和逐像素对比损失。我们采用平均教师框架[43]，它允许教师网络为学生网络提供更稳定的伪监督。教师（n，n）的权重θm由以下权重θ的指数移动平均值更新：学生（E，D），更新比率为β：θt=βθt−1+（1−β）θt。（八）所提出的自训练损失伪是像sup的逐像素交叉熵损失，但仅应用于由ELN识别的有效像素。设P= 其中，P（A（X））表示教师网络的分割预测，P a=（（AX））表示学生网络的分割预测，其中A是应用于输入的扰动算子。图像X. 此外，设B=ELN（XPE）为二进制1美元kkLELN的分割输出。则Lpseudo由下式给出LELN |D| · (K +1) X∈DLk=0 Lce（B，M）、（4）1Lpseudo= −ΣΣ⌊B˜⌉i·Yˆ⊤对数（Pa），其中，Mk表示Bk的地面真值掩码;Mk为1|DU|X∈DU ii i（9）如果像素i的预测正确，则为0，否则为0。注意，k= 0表示主解码器。其中是舍入到最接近整数的函数，表示pixel的伪标签的独热向量9961p nLL×|V|i∈V j∈i×d（fi，f<$j）+k∈fid（fi，f<$k）I. 通过舍入二进制掩码，主分割网络可以仅在有效像素上训练。为了进一步提高教学质量，tures，我们采用像素对比度损失L相反具体地说，在这种损失中，伪标签相同的特征相互吸引，而来自不同类别的特征在特征空间中被推开。而不是适用于一个单一的图像损失，我们扩大其范围，以考虑各种特征关系的整个输入批次，导致显着的性能改善。对于给定的输入，令R2i表示属于像素i和像素i类表示不属于像素i的类。同样，令d表示距离函数，d（f1，f2）=exp（ cos（f1，f2）/τ），其中cos表示余弦相似性，τ是温度超参数.然后，逐像素对比损失对比由下式给出：Lcontra=表1. PASCAL VOC 2012值集中的mIoU值，具有不同的标记-未标记比率。我们实验的所有结果都是从相同比例的三个不同子集中平均得到的。-1logd（fi，fj）pn、（10）其中V表示DU上的有效像素的集合，fi和fi是分别来自学生和教师网络的像素i未标记数据的总损失如下：L未标记=L假+L对照。（11）注意，标记数据也涉及通过以下方式进行的训练：标签当训练完成时，只有学生网络用于推理，因为其他网络，包括ELN，都是支持学生的半监督学习的辅助模块4. 实验4.1. 网络架构我们使用DeepLab v3+ [8]与ResNet [18]骨干作为我们的分割网络，因为它已在最近的论文中采用[3，29，35]，并与Deeplab v2 [6]共享类似的结构，该结构已在文献中广泛使用[14，27，36，38]。该模型主要由两类网络组成每个网络由编码器和解码器形成。编码器包括ResNet [18]主干，解码器（包括辅助解码器）包含子模块，例如atrous空间金字塔池化层[6]，用于分割的像素分类器（图1中的Seg）和用于特征嵌入的投影仪（图1中的Proj）。最后两个模块由两个11卷积层和一个中间ReLU激活层实现。表2. Cityscapes值集中的mIoU值，具有不同的标记-未标记比率。我们所有的实验结果都是从相同比例的三个不同子集中平均得到的。我们采用ResNet-50或ResNet-101作为主网的骨干网，ELN采用ResNet-34。主干在ImageNet上进行了预训练，但由于ELN的输入是图像和张量的级联，因此其第一个卷积层相应地重新设计和微调。4.2. 实现细节数据集。我们在两个不同的数据集上进行了实验，PASCAL VOC 2012 [12]和Cityscapes [10]。 PASCALVOC 2012是一个标准的语义分割数据集，由包括背景类在内的21个类组成。该数据集有三个独立的子集用于训练、验证和测试;子集分别由1464、1449和1456张图像组成。按照惯例，我们使用了来自分割边界（ SBD ）数据集的额外 9118 张训练图像 [17] 。在PASCAL VOC 2012的训练过程中，我们将图像大小调整为512 512像素。Cityscapes [10]是一个城市驾驶场景的数据集，包含19个对象和背景材料的类别。它包括训练、验证和测试分割，分别使用2975、500和1525张图像。数据集的图像运行-Domly裁剪为512×1024。方法SegNet骨干1/201/81/4充分[第14话]DL2R10166.4867.60-72.54S4GAN+MLMT [36]DL2R10162.967.3-73.2GCT [27]DL2R101-72.1473.6275.73Alonso等人[3]第一章DL2R10167.869.9-72.6基线DL3+R5059.8867.6370.5676.6ECS [35]DL3+R50-70.2272.6076.29Xin等人[29日]DL3+R50-72.474.076.5Alonso等人[3]第一章DL3+R5069.171.8-75.9我们DL3+R5070.5273.2074.63-基线DL3+R10164.4769.5272.9578.24[第14话]DL3+R10169.5772.45-76.73Xin等人[29日]DL3+R101-74.676.378.2我们DL3+R10172.5275.1076.58-方法SegNet骨干1/81/41/2充分[第14话]DL2R10160.3463.87-67.68S4GAN [36]DL2R10159.361.9-65.8Alonso等人[3]第一章DL2R10163.064.8-66.4基线DL3+R5059.8861.8667.6377.70ECS [35]DL3+R5067.3870.7072.8974.76Xin等人[29日]DL3+R5069.772.7-77.5Alonso等人[3]第一章DL3+R5070.071.6-74.29962×数据扩充。随机水平翻转应用于两个训练数据集，概率为0.5。为方法ELNs-ECN阈值 mIoU70.5267.14 67.77扰动算子的半监督学习，我们采用颜色抖动和随机灰度，概率为0.2。优化器采用 AdamW [34]，学习率为1 e-4，权重衰减为1 e-5。超参数。对于标记和未标记的数据，表3.ELN、s-ECN和置信度阈值法的mIoU值实验在PASCALVOC 2012中进行。方法ELNs-ECN阈值在PASCAL VOC 2012上，小批量大小为6，城市风景我们将20和50分别分配给第一和第二辅助解码器。温度值τLcontra的值设置为0.5。更新比率β被设置为0.995。F1得分0.78810.7424 0.7627评估指标。我们采用平均交叉点联合（mIoU）作为评估指标。在评估期间，PASCAL VOC 2012 图像大小调整为 512 512 ，Cityscapes的图像按原样使用我们进行实验的几个比例的标记数据，未标记的数据验证我们的方法在不同的条件下。对于PAS- CAL VOC 2012，我们使用三个比率，1/20，1/8和1/4，而1/8，1/4和1/2用于Cityscapes。4.3. 结果语义切分的性能分析。为了证明我们的方法的优越性能，我们将该方法与最近的最先进的模型和仅在标记数据（基线）上的训练进行了比较。我们的方法在PASCAL VOC 2012 上的结果列于表 1 中。我们将Deeplab v2缩写为DL 2，将Deeplab v3+缩写为DL 3+，将ResNet-50缩写为R50，将ResNet-101缩写为R101。为了测试我们的方法在各种条件下的性能，我们分别以ResNet-50和ResNet-101作为骨干网络，对三个比率（1/20，1/8，1/4）进行了实验正如我们可以从表中看到的，我们的方法实现了优越的性能超过所有其他作品的骨干网工程。从ECS [35]和我们的结果的比较中，我们认为我们的错误定位概念比半监督方案中的错误校正有效得多。我们用较少的标记数据实现了比ECS更高的性能;请注意，ECS的性能在1/8比率下为70.22，而我们的在1/20比率下为70.52。此外，我们在Cityscapes上进行了三个比例（1/8，1/4，1/2）的实验，以显示我们的方法的泛化能力。结果显示在表2中，表明我们的方法仍然优于其他方法。图3和图4示出了我们的方法在各种比率条件下的定性结果。误差定位网络性能分析。我们进一步进行额外的实验，以比较我们的方法与两个类似的方法，以证明ELN的有效性。我们使用ResNet-50作为主干网络，以PASCAL VOC 2012的1/20比例进行实验。作为比较的第一件事，我们考虑一个简单的纠错网络（ s-ECN），它具有一个简单的，表4. ELN、s-ECN和置信度分数阈值方法的精确度、召回率和F1分数。报告的分数是每个图像的所有结果的平均值。在比较s-ECN时，我们只考虑其错误定位能力，而不考虑其纠错能力实验是对PASCAL VOC 2012的给定比例为1/20的未标记数据进行的。#辅助。解码器0123α-2020,5020,50,100Miou69.8970.2070.5271.13表5.根据解码器数目和损失约束参数α对模型性能的烧蚀研究。与ELN类似的学习策略;s-ECN是用逐像素交叉熵损失训练的，并且产生校正的分割预测作为输出，而不是二进制掩码。我们选择了一个其他的方法，在softmax层之后对分割预测的输出执行置信度阈值，而不需要额外的网络。从表3中可以看出，ELN实现了超过其他两种方法的最高mIoU值。我们还进行了另一个实验，以了解如何以及每种方法执行错误定位看不见的数据。在表4中，ELN显示了方法中最高的F1评分。请注意，s-ECN的结果比Threshold更差;它强调了纠错方案的局限性，这意味着由于其苛刻的训练条件，它不能按预期工作在图5和图6中，我们展示了分割预测的定性结果及其二元掩码。4.4. 消融研究我们进行消融研究，以调查所提出的方法的每个组件的影响该实验基于PASCAL VOC 2012 ，比率为1/20，并且将结果平均三次。我们使用ResNet-50作为主要分段网络的骨干。不同数量的辅助解码器。辅助精度0.69610.70600.7054召回0.96730.82940.87839963L输入图像GT 1/4 1/8 1/20图3.PASCAL VOC 2012的一个值集的定性结果，标记数据与未标记数据的不同比例输入图像GT 1/2 1/4 1/8图4.定性结果的一个价值集的城市景观在不同比例的标记数据，以未标记的数据。解码器在ELN学习中起着至关重要的作用。我们的实验与辅助解码器如何影响整体性能-阈值LpseudoLcontraLpseudo+Lcontra67.77 69.1469.30通过改变辅助解码器的数量，约束参数。结果列于表5中。从实验结果可以看出，随着解码器数量的增加和应用高损耗约束值，性能得到改善。它表明，各种质量的分割预测有助于有效的学习ELN。请注意，我们可以实现足够的性能改善，只需要两个辅助解码器。等式中的不同损失组合（十一）、在半监督学习阶段，Lpseudo和Lcontra联合学习表6.对mIoU中不同损失组合的消融研究“Threshold”优化所提出的逐像素对比度损失contra通过学习具有标准逐像素交叉熵损失的批次9964L输入图像GT（a）（b）（c）（d）图5. PASCAL VOC 2012上训练集的未标记数据的定性结果，标记比率为1/20。(a)从主分割网络进行分割预测。(b)Ground truthbinary mask. (c)ELN预测的二进制掩码。(d)通过预测的二进制掩码进行过滤的在（d）中用白色着色的错误预测不用作伪标签。输入图像GT（a）（b）（c）（d）图6. Cityscapes上训练集的未标记数据的定性结果，标记比例为1/8。(a)来自主分段网络的分段预测。（b）Ground truth binarymask。（c）由ELN预测的二进制掩码（d）通过预测的二进制掩码进行的滤波分割在（d）中用白色着色的错误预测不用作伪标签。伪。我们做了比较，以研究方程中每个损失项的影响。（十一）、如表6所示，每个项都对性能有贡献，并且使用它们两者改善最大。5. 结论我们提出了一个新的训练框架适合半监督语义分割任务。针对无效伪标签导致的确认偏差所导致的性能下降，提出了错误定位网络（ELN）及其训练方案。我们的实验验证了ELN有效地消除了未见数据的伪标签错误，这表明我们的算法使用由辅助解码器模拟的错误预测的学习策略是有帮助的。我们的方法在PASCAL VOC 2012和Cityscapes数据集上都达到了最先进的水平，具有很高的泛化能力。局限性由于额外的辅助网络，我们的方法在训练期间需要相对更大量的GPU内存，并且随着辅助解码器数量的增加，需要更大的内存占用。ELN有时无法指示主分割网络具有强置信度的错误预测（即，低熵）。谢谢。这项工作得到了三星电子公司的有限公司（IO201210 -07948-01）。9965引用[1] Jiwoon Ahn，Sunghyun Cho，和Suha Kwak.具有像素间关系的实例分割的弱监督学习。IEEE计算机视觉与模式识别会议（CVPR），2019年。1[2] 安智云和郭淑华。学习像素级具有图像级监督的语义亲和力，用于弱监督语义分割。 IEEE 计算机视觉与模式识别会议（CVPR），2018年。1[3] 我是阿隆索，阿尔贝托·萨巴特，D·维德·弗斯特尔，路易斯·Montesano和Ana C Murillo。半监督语义分割与像素级对比学习从类明智的记忆银行。IEEEInternational Conference on Computer Vision（ICCV），2021。一、三、五[4] Liyi Chen ， Weiwei Wu ， Chenchen Fu ， XiaoHan，and张云涛。带边界探索的弱监督语义分割。欧洲计算机视觉会议（ECCV），2020年。1[5] Liang-Chieh Chen，Raphael Gontijo Lopes，Bowen作者：Maxwell D. Collins，Ekin D. Cubuk，BarretZoph ， Hartwig Adam ， and Jonathon Shlens.Naive- student：在视频序列中利用半监督学习欧洲计算机视觉会议（ECCV），2020年。第1、3条[6] 梁杰陈先生，乔治帕潘德里欧Kokkinos ， Kevin Murphy ， and Alan L. 尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。IEEE TransactionsonPatternAnalysisandMachineIntelligence（TPAMI），2017。一、三、五[7] Liang-ChiehChen， YukunZhu， GeorgePapandreou，Florian Schroff和Hartwig Adam用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在proc欧洲计算机视觉会议（ECCV），2018年。1[8] Liang-ChiehChen， YukunZhu， GeorgePapandreou，Florian Schroff和Hartwig Adam用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在proc欧洲计算机视觉会议（ECCV），2018年。5[9] 张贤卓，乌特卡什购物中心，卡维塔·巴拉，还有Bharath HariharanPicie：在聚类中使用不变性和等变性的无监督语义在proc IEEE计算机视觉与模式识别会议（CVPR），2021年。1[10] Marius Cordts Mohamed Omran Sebastian RamosTimo Buckfeld ， Markus Enzweiler ， RodrigoBenenson，Uwe Franke，Stefan Roth，and BerntSchiele.城市景观数据集的语义城市场景下-站着 IEEE 计算机视觉和模式识别会议（CVPR），2016年。一、二、五[11] 张东、张汉旺、唐锦辉、华熙--安生和孙倩茹。弱监督语义分割的因果干预。神经信息处理系统（NeurIPS），2020年。1[12] Mark Everingham，Luc Van Gool，Christopher KIWilliams ， John Winn ， and Andrew Zisserman.Pascal Visual Object Classes（VOC）挑战赛。国际计算机视觉杂志（IJCV），2010年。一、二、五[13] 海杰田勇李永军鲍志伟方和荆刘汉卿陆君甫。用于场景分割的双注意网络。IEEE计算机视觉与模式识别会议（CVPR），2019年。3[14] 杰夫·弗伦奇 Samuli Laine Timo Aila，MichalMackiewicz和Graham Finlayson。半监督语义分割需要强大的，不同的扰动。英国机器视觉会议（BMVC），2020年。三、五[15] Andreas Geiger，Philip Lenz，and Raquel Urtasun.是我们准备好自动驾驶了吗Kitti Vision基准套件。在 Proc.IEEE 计算机视觉和模式识别会议（CVPR），2012年。1[16] Raia Hadsell，Sumit Chopra，and Yann LeCun. 二通过学习一个不变的映射来减少mensionality。IEEE计算机视觉和模式识别会议（CVPR），2006年。3[17] BharathHariharan，PabloArbela' ez，LubomirBour-dev，Subhransu Maji，and Jitendra Malik.从反向检测器的语义轮廓。在Proc.IEEE国际计算机视觉会议（ICCV），2011中。5[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，andJian太阳用于图像识别的深度残差学习。在Proc.IEEE计算机视觉和模式识别会议（CVPR），2016年6月。5[19] 瑞飞他， Jihan 小杨，和小娟气再-为半监督语义分割分配有偏见的伪标签：基线调查。在 procIEEE 国际计算机视觉会议（ICCV），2021年。1[20] 朱迪·霍夫曼，埃里克·曾，泰成公园，俊彦Zhu，Phillip Isola，Kate Saenko，Alexei Efros，and Trevor Darrell.苏铁：周期一致的对抗域适应。机器学习国际，2018年。1[21] Judy Hoffman、Dequan Wang、Fisher Yu和Trevor达雷尔。野生动物：像素级对抗和基于约束的自适应。arXiv预印本arXiv：1612.02649，2016。29966[22] Zilong Huang，Xinggang Wang，Lichao Huang，Chang Huang，Yunchao Wei，and Wenyu Liu. Cc-net：用于语义分割的交叉注意力。在Proc. IEEE国际计算机视觉会议（ICCV），2019年。3[23] 黄子龙，王兴刚，王佳思，文宇刘先生及王敬东先生基于深度种子区域生长的弱监督 IEEE 计算机视觉与模式识别会议（CVPR），2018年。1[24] 塔伦·卡奇，吉里什·瓦尔玛，曼莫汉·钱德拉克，C V Jawahar。通用半监督语义分割。在procIEEE国际计算机视觉会议（ICCV），2019年。第1、3条[25] 康国梁、魏云超、杨毅、岳婷Zhuang ， and Alexander Hauptmann. Pixel-levelcycle association ： A new perspective for domainadaptive semantic segmentation.神经信息处理系统（NeurIPS），2020年。1[26] Rihuan Ke ， Angelica Aviles-Rivero ， SaurabhPandey，赛库马尔 Reddy，和比比亚内舍恩利湾半监督语义分割的三阶段自训练框架。IEEE计算机视觉和模式识别会议（CVPR），2020年。第1、3条[27] 张汉克，狄秋，李开灿，琼燕，Rynson W.H.刘基于像素半监督学习的引导协作训练。在Proc.欧洲计算机视觉会议（ECCV），2020年。一、三、五[28] Suha Kwak，Seunhoon Hong，and Bohyung Han.基于超像素池网络的弱监督语义分割。在Proc.AAAI人工智能会议（AAAI），2017。1[29] 赖新，田卓涛，李江，刘舒，恒双Zhao，Liwei Wang，and Jiaya Jia.具有方向性上下文感知一致性的半监督语义分割IEEE计算机视觉与模式识别会议（CVPR），2021年。一、三、五[30] 李岱青，杨俊林，安东尼奥？卡斯滕？克雷斯托拉尔巴和桑娅·菲德勒使用生成模型的语义分割：半监督学习和强大的域外泛化。IEEE计算机视觉和模式识别会议，2021年。第1、3条[31] 李云生，陆远，努诺·瓦斯康塞洛斯。比迪-用于语义分割的领域适应的区域学习。在procIEEE计算机视觉和模式识别会议（CVPR），2019年。1[32] 林宗毅，迈克尔·梅尔，塞尔日·贝隆吉，詹姆斯Hays，PietroPerona，DevaRamanan，PiotrDolla'r和C Lawrence Zitnick。Microsoft COCO：上下文中的通用对象。欧洲计算机视觉会议（ECCV），2014年。1[33] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分割的全卷积网络。IEEE计算机视觉和模式识别会议（CVPR），2015年。1[34] 伊利亚·罗希洛夫和弗兰克·哈特。解耦权重衰减正则化在Proc.国际学习表征会议（ICLR），2019。6[35] Robert Mendel，Luis Antonio de Souza Jr，DavidRaube r，J oapaloPauloPapa和ChristophPalm. 基于纠错监督的半监督分割欧洲计算机视觉会议（ECCV），2020年。一二三五六[36] Sudhanshu Mittal，Maxim Tatarchenko和Thomas布洛克斯半监督语义分割与高和低层次的一致性。 IEEE Transactions on Pattern Analysis andMachine Intelligence（TPAMI），2019年。一、三、五[37] Hyeonwoo Noh Seunghoon Hong和Bohyung Han。用于语义分割的学习反卷积网络。IEEEInternational Conference on Computer Vision（ICCV），2015年。第1、3条[38] Viktor Olsson，Wilhelm Tranheden，Juliano Pinto，还有伦纳特·斯文森Classmix：用于半监督学习的基于分段的数据增强。在proc IEEE冬季会议计算机视觉应用（WACV），2021年。5[39] Yassine Ouali，Celine Hudelot，and Myriam Tami.具有交叉一致性训练的半监督语义分割。IEEE计算机视觉和模式识别会议（CVPR），2020年。3[40] Olaf Ronneberger ， Philipp Fischer ， and ThomasBrox.U-网：用于生物医学图像分割的

下载后可阅读完整内容，剩余1页未读，立即下载