基于类平衡像素级自标记的领域自适应语义分割

163 浏览量更新于2023-10-25 收藏 1.88MB PDF 举报

领域自适应

分割模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11593基于类平衡像素级自标记的领域自适应语义分割李瑞煌1，李帅1，何晨航1，张亚斌1，徐佳2，张磊1*1香港理工大学2大连理工{csrhli，csshuaili，csche，csybzhang，cslzhang}@ comp.polyu.edu.hkxjia@dlut.edu.cn，www.example.com摘要领域自适应语义分割的目的是在源领域数据的监督下学习一个模型，并在未标记的目标领域产生满意的密集预测。这个具有挑战性的任务的一个流行的解决方案是自我训练，它选择目标样本上的高分预测然而，产生的伪标签往往包含大量的噪声，因为模型是偏于源域以及大多数类别。为了解决上述问题，我们建议直接探索目标域数据的内在像素分布，而不是严重依赖于源域。具体而言，我们同时聚类像素和纠正伪标签与获得的聚类分配。该过程以在线方式完成，使得伪标签可以与分割模型共同进化，而无需额外的训练轮。为了克服长尾类别上的类不平衡问题，我们采用分布对齐技术来强制聚类分配的边缘类分布接近伪标签的边缘类分布。所提出的方法，即类平衡像素级自标记（CPSL），提高了目标域上的分割性能，特别是在长尾类别上。源代码可在https://github.com/lslrh/CPSL上获得。1. 介绍语义分割是一项基本的计算机视觉任务，旨在对图像进行密集的语义级预测[8，27，28，43，53]。这是许多应用中的关键一步在过去的几年中，深度卷积神经网络（CNN）的快速发展在准确性和效率方面显着提高了然而，在一个训练的深度模型的性能*通讯作者当它们被应用到看不见的域时，域往往会大大下降。例如，在自动驾驶中，当天气条件不断变化时，分割模型面临巨大挑战[56]。提高分割模型泛化能力的一种自然方法是从尽可能多的场景中收集数据然而，为大量图像注释逐像素标签的成本非常高[11]。需要更有效和实用的方法来解决语义分割的域转移。无监督领域自适应（UDA）提供了一种将从一个标记的源领域学习到的知识转移到另一个未标记的目标领域的重要方法。例如，我们可以收集许多合成数据，这些数据的密集注释很容易通过使用GTA5 [36]和SYNTHIA [37]等游戏引擎获得。然后，问题转向如何适应从标记的合成域训练的模型到未标记的真实图像域。UDA以前的大多数作品通过对抗训练或辅助风格转移网络，在图像级别[17，25，33]，特征级别[7，17，18，24]或输出级别[29，32，39]对齐数据分布然而，这些技术会增加模型的复杂性，使训练过程不稳定，这阻碍了它们的可重复性和鲁棒性。另一种重要的方法是自我训练[52，56，57]，它通过选择目标域上的高分预测来生成伪标签，并为下一轮训练提供监督。虽然这些方法产生了有希望的性能，但仍然存在一些主要的局限性。一方面，分割模型倾向于偏向源域，使得在目标域上产生的伪标签容易出错;另一方面，高置信度的预测可能仅为模型训练提供非常有限的监督信息。为了解决这些问题，已经提出了一些方法[50，51]例如，Zhang等人没有使用在源域上训练的分类器来生成伪标签。[51]根据以下条件为像素分配伪标签：11594它们与类别原型的距离然而，这些ProDA [50]利用原型的特征距离来执行在线校正，但为长尾类别构建原型具有挑战性，这通常会导致不满意的性能。不同于以往的自训练方法，使用基于分类器的噪声伪标签的监督，在本文中，我们提出了执行在线像素级自标记通过聚类目标域，并使用由此产生的软聚类分配，以纠正伪标签。我们的想法来自于这样一个事实，即像素级聚类分配可以揭示目标域中像素的内在分布，并为模型训练提供有用的监督。与传统的标签生成方法，往往是偏向于源域相比，在目标域的集群分配是更可靠的，因为它探索固有的数据分布。考虑到分割数据集的类别是高度不平衡的（请参见图2），我们采用分布对齐技术来强制聚类分配的类别分布接近伪标签的类别分布，这更有利于类别不平衡的密集预测任务。提出的类平衡像素级自标记（CPSL）模块以即插即用的方式工作，可以无缝地集成到现有的UDA自训练框架中。这项工作的主要贡献总结如下：提出了一种像素级自标记模块，用于区域自适应语义分割。我们以在线方式对像素进行聚类，并同时根据所得到的聚类分配纠正伪引入分布对齐技术，将聚类分配的类分布与伪标签的类分布对齐，旨在提高长尾类别的性能。采用类平衡抽样策略，避免了多数类别在伪标签生成中的优势。大量的实验表明，所提出的CPSL模块提高了目标域的分割性能比国家的最先进的一个大的Margin。它尤其在长尾类上显示出突出的结果，2. 相关工作语义分割。语义分割的目标是将图像分割成不同语义类别的区域。虽然全卷积网络（FCN）[28]极大地提高了语义分割的性能，但它们具有相对较小的感受野来探索视觉上下文。许多后来的作品都集中在如何扩大FCN的感受野以模拟图像的长程上下文依赖性，例如扩张卷积[8]，多层特征融合[27]，空间金字塔池[53]和非局部块的变体[15，20，22]。然而，直接将这些模型应用于未知领域会导致分割性能差，因为它们的泛化能力弱。因此，许多领域自适应技术被提出来提高模型在新领域上的泛化能力。用于语义分割的领域自适应。近年来，许多研究工作都致力于弥补这一领域的空白，提高自适应性能.最具代表性的是基于对抗训练的方法[19，23，34，39，40]，其目的是在中间特征或网络预测上对齐不同的域。基于风格转移的方法[6，9，10，44，48]在图像级别最小化域间隙。例如，Changet al. [6]提出将图像分解为域不变结构和域特定纹理以进行图像翻译。这些模型的训练过程是相当复杂的，因为多个网络，如鉴别器或风格转移网络，必须同时训练。UDA的另一个重要技术是自训练[24，26，32，51，55，57]，它迭代地在目标数据上生成伪标签以进行模型更新。邹etal. [55]提出了一种基于类均衡的自训练语义切分领域自适应方法。为了减少伪标签中的噪声，Zouet al. [57]建议一种置信度正则化的自训练方法，将伪标签作为可训练的潜变量。Lian等人[26]构建了一个金字塔课程，用于探索目标域的各种属性。 Zhang等人[51]通过选择源域的原型作为引导锚来强制类别感知特征对齐。ProDA [50]进一步采用每个像素到原型的然而，这些方法忽略了目标域图像的逐像素内在结构或固有类别分布，倾向于偏向于源域或多数类别。基于聚类的表示学习。我们的工作也与基于聚类的方法有关[2Caron等人[4]迭代地对潜在表示执行k-均值最近，Asanoet al. [3]将集群分配问题转换为最优运输问题，可以通过Sinkhorn-Knopp算法的快速变体有效地解决SwAV [5]执行聚类，同时强制同一图像的不同增强的聚类分配之间的一致性。在本文中，我们将自标记从图像级分类扩展到像素级语义分割。此外，与Asanoet al.[3] Caronet al.[4]，我们来-···11595SEGMn我n∗DD∈不SEG∈S公司简介SEGnn图1.类别平衡像素级自标记（CPSL）框架该模型包含一个主分段网络fSEG和它的动量更新版本fS′EG。 fS′EG后面跟着一个自标记头fSL和它的动量版本fS′L，它将逐像素的特征嵌入投射到类概率向量中。像素级自标记模块产生软聚类分配PSL，逐步整顿软伪标PST。然后，计算预测图P和校正图之间的分割损失Lt。伪标号Y_t。为了训练自标记头，我们从每个图像中随机采样像素，并使用存储库，包含先前批次的像素特征，以扩充当前批次。然后，我们计算的最佳运输分配Qaug在增强的数据通过强制类平衡，并使用当前批次的分配Qcur计算自标记损失LSL。将聚类分配放在在线格式中，使得我们其中Y= t，（c）表示整流的伪LA的第c个元素方法可扩展到密集的逐像素预测任务。bel在目标图像Xt的第i个像素处。 P（c）代表nSL，n，i3. 方法3.1. 总体框架在用于语义分割的无监督域自适应设置中，我们提供了一组标记源域中的数据D= {（X s，Y s）}NS ，其中XsXt的第i个像素属于第c个类别的概率。当量 1具有与[35，38，50]类似的公式，其中PSL可以被视为modu的权重图。softmax概率图PST。聚类分配PSL利用了目标数据的固有分布，main，因此它与基于分类器的SNNSn=1n伪标记PST，其严重依赖于源域。是具有标签Yn的源图像，NS是图像，以及一组NT个未标记的图像Xt，我们定义了目标域上的分割损失，get domaintNn由Lt标注，因为像素级交叉熵损失是-DT= {Xn}T. 两个域共享相同的SEG×W×Cn=1C级。我们的目标是通过使用标记S中的源数据和T中的未标记的目标数据，这可以在目标域中的未见过的测试数据上表现良好分割概率图PnRH以及目标图像Xt的经校正的伪标签Yt：NT 高×宽C我们建议的CPSL的整体框架显示L=−P（c）logP（c）。（二）如图1所示。我们提出了一个像素级的自标记模型-ule（在绿色框中突出显示），以探索目标域数据的内在像素分布SEGn=1i=1c=1n我n我通过聚类，并减少伪标签中的噪声此外，源域上的损失，用Ls表示，在训练之前，我们首先通过在源域上预先训练的预热模型生成一个软伪标签映射PSTRHXWXC可以定义为标记图像上的标准像素交叉熵：数据得到的PST通常容易出错，因为公司简介大的域转移。因此，在培训过程中L=−logP（c）.（三）我们用软簇分配递增地纠正PST-H×W ×CSEGn=1i=1c=1n我n我段，记为PSL∈R.特别是直肠-PST的形成如下进行然后，获得总分割损失LSEG作为（c）如果c=argmax（P（c）∗（c）第（1）款ST，n，i其中之和：LSEG=LtSSEG）+L.11596YN，I为C0，否则、（1）在下面的小节中，我们将详细解释我们的CPSL模块的设计。SL，n，i11597∈∈LΣ哪里||||···ΣMM···Mexp（1f（c′）（zSLMMMSLSL图2. Cityscapes数据集的类分布。3.2. 在线像素级自标记像素级自标记。传统的基于自训练的方法通常使用在源域上预训练的模型来产生伪标签，这些伪标签通常包含很多噪声[51，55，57]。为了清除伪标签，我们建议通过对目标区域进行聚类来执行像素级自标记，并使用获得的聚类分配来纠正伪标签。其基本动机是，逐像素聚类可以揭示目标域数据的内在结构，并且它是对源域数据训练的分类器的补充。因此，集群分配可以支持-满足约束Q。1C和1M分别表示维数为C和M的1r和h分别是Q通过将簇分配问题转化为最优运输问题，对Eq.关于变量Q，可以通过迭代Sinkhorn-Knopp算法[13]有效地求解最优解由下式获得：Q=diag（α）exp（fSL（Z））diag（β），（6）ε其中αRC和βRM是两个重正化向量，即使对于密集预测任务，也可以在线性时间内有效地计算。ε是温度参数。然后通过固定标签分配Q，通过最小化SL相对于P_i，这与具有交叉熵损失的训练相同。重量：我们使用软聚类分配PSL来纠正基于分类器的伪标签PST。然而，聚类类别通常与分类器的类别不匹配，导致性能下降。为了克服这个问题，我们用范畴原型初始化自标记头f SL的权重。具体来说，我们--将每个cate gory的prototype[z<$1，···，z<$C]代入：NTH×W提供用于训练域自适应分割模型的额外监督。具体来说，我们首先从输入图像中提取特征zc=1|Γc|n=1Σi=1（c）第（1）款ST，n，i·zn，i、（7）得到Z∈RH×W×D，并将其归一化为zi=zi得双曲余切值.| Γc|表示属于该像素的像素的数量。zi2zi是长度为D的Z的第i个特征向量。然后c-thcat e goryinall l limages. YST是P S T的硬版本。我们随机抽取一组像素Z=[z1，，zM]从每个图像，并使它们通过自标记头fSL。最后，我们得到了它们的类概率向量通过进行softmax运算，P=[p1，···，pM]exp（1f（c）（z））然后，自标记过程可以被视为将像素分配给不同的原型。以这种方式，聚类类别能够匹配分类类别。联机群集分配。与浅野等人不同 al. [3]其中，分配Q是在整个p（c）=τSLm，c∈ {1，···，C}，（4）数据集，我们对数据批次进行在线聚类，c′τSLM小批量通常太小，无法覆盖所有类别，其中f（c）（zm）是zm的输出的第c个元素，（c）第（1）款类分布在不同批次之间差异很大，我们用存储体M来增强特征Z，存储体M自标记头。Pm表示第m个像素属于第c个类别的概率。τ是温度参数。考虑到目标数据没有可用的地面真实标签，我们通过自标记机制[3]训练头部fSL，目标函数如下：实时更新，以减少采样的随机性。具体来说，在整个训练过程中，我们维护了一个由先前批次中的65，536个像素特征组成的队列，.在每次迭代中，我们计算增强数据Zaug上的最佳传输分配，由Qaug表示，M CL=−1q（c）logp（c）S.T. Q∈Q，而仅对当前批次进行分配，由Qcur表示，（五）用于计算自标记损失LSL. 这样一来其中Q：={Q∈RC×M|Q1M=r，QT1C=h}.我们可以替换地更新自标记头fSL，+使用它来生成更准确的集群分配P-上述公式是最优运输问题 [13] 的一个实例，其中Q=1[q1，，qM]是运输分配，并且它被限制为概率Y））ing训练。考虑到样本数量，m=1c=111598矩阵，线因此，伪标签将通过所得到的聚类分配来逐步改进，并且噪声将逐渐减少，而无需额外的训练轮。11599StMnnnnLLΣΣnΣΣn3.3. 类平衡自标记基于固定伪标签Yt的δpseudo如下所示如图2、现有的语义分割数据集存在严重的类不平衡一些长尾δ（c）1NTH×W| 为Yt，（c）.（十）类具有非常有限的像素（例如，伪0NT×H×WniST，n，itorbike”，“train”）. 这样的问题将使得训练鲁棒的分割模型变得困难，特别是对于那些长尾类。在这项工作中，我们提出了两种技术来解决这个问题，即，类平衡抽样与分布在训练过程中，我们计算类分布-每个图像通过等式8.然后，在每次训练迭代k之后，类分布δpseudo用动量α∈[0，1]更新：分布对齐。（c）第（1）款（c）第（1）款（c）第（1）款类平衡采样。我们从每幅图像中随机抽取像素点，使得存储体中数据的类分布接近于整个数据集。为了确保长尾猫的像素δ假O|k=αδ伪o|k−1+（1−α）δn。（十一）最后，我们强制集群分配的类分布，在等式中用r表示。5、接近δpseudo：我们可以从不同的样品中均匀地选择具有相同比例的类别，即，M，其中M高×宽r=δ1伪，h=M1M.（十二）是每个图像中要采样的像素数为每个输入图像Xt，我们首先计算其类别分布δn通过高×宽我们的经验结果（请参见图6）证明，所提出的分布对齐技术有效地避免了训练过程中多数类的主导地位。请参阅Sec。4.3更多讨论δ（c）=1 Yt ，（c），（8）H×Win我3.4. 损失函数如图1、采用动量编码器，其中δ（c）表示图像Xt中属于第c个类别的像素的比例。然后，每个类别c的样本数量Mc由下式决定Mc=，M×δ（c），.（九）如果图像Xt不包含某些类别的像素，我们将从其他类别中随机抽取其余像素以组成M个样本。分布对齐。如[3，4]中所讨论的，同时优化方程中的Q和P。5可能导致所有数据点被平凡地分配给单个聚类的为了避免这种情况，Asanoet al.[3]这是一个Q稳定自我标记过程。为了进一步提高模型在目标域上的泛化能力并减轻从源域继承的偏差，在[1，50]之后，我们对分割网络进行了一致性正则化。具体地说，我们从同一幅输入图像X生成弱增强图像Xw和强增强图像Xs，并将Xw通过动量分割网络fS′EG生成概率图Pw，用于监督强-增强图像X s来自fSEG。然后我们执行P w，通过以下方式保持一致NTH×WLREG=（RKL（Pw，n，i，Ps，n，i）+RKL（Ps，n，i，Pw，n，i）），应该会导致数据均分。但这n=1i=1（十三）约束是不合理的，如果用δgt表示的数据的真值类分布不均匀，则会降低性能。例如，在Cityscapes数据集[11为了克服这个问题，我们提出了一种新的技术，即分布对齐，将聚类分配的分布与地面真值类分布δgt对齐，旨在将像素划分为大小不等的子集。然而，δgt是未知的，因为目标域数据的真实标签不可用。因此，我们提出用伪标号类分布δ pseudo的移动平均值具体来说，我们首先初始化其中，KL表示KL发散。Ps，n，i和PW，n，i分别表示图像Xn的分割概率图Ps和PW的第i个总损失函数定义为：LTOTAL=L SEG+λ 1L SL+λ 2L REG，（14）其中λ1和λ2是折衷参数。SL和REG是互补的。前者通过像素级聚类分配PSL来修正伪标签PST，有效地稀释了对源域的偏差;后者通过对输入进行数据扩充和对输出进行一致性正则化，提高了模型的泛化能力。11600×××××→→方法道路侧墙栅栏杆灯标志梯田天空人乘用车货车客车列车电动机自行车Miou[39]第三十九话86.5 25.9 79.8 22.1 20.023.6 33.1 21.8 81.8 25.9 75.9 57.3 26.2 76.3 29.8 32.17.229.532.541.4CyCADA [17]86.7 35.6 80.1 19.8 17.538.0 39.9 41.5 82.7 27.9 73.6 64.9 19.0 65.0 12.0 28.64.531.142.042.7[第41话]89.4 33.1 81.0 26.6 26.827.2 33.5 24.7 83.9 36.7 78.8 58.7 30.5 84.8 38.5 44.51.731.632.445.5CBST [56]91.8 53.5 80.5 32.7 21.034.0 28.9 20.4 83.9 34.2 80.9 53.1 24.0 82.7 30.3 35.9 16.0 25.942.845.9FADA [42]92.5 47.5 85.1 37.6 32.833.4 33.8 18.4 85.3 37.7 83.5 63.2 39.7 87.5 32.9 47.81.634.939.549.2[51]第五十一话90.4 51.6 83.8 34.2 27.838.4 25.3 48.4 85.4 38.2 78.1 58.6 34.6 84.7 21.9 42.7 41.1 29.337.250.2FDA [48]92.5 53.3 82.4 26.5 27.636.4 40.6 38.9 82.3 39.8 78.0 62.6 34.4 84.9 34.1 53.1 16.9 27.746.450.5PIT [30]87.5 43.4 78.8 31.2 30.236.3 39.3 42.0 79.2 37.1 79.3 65.4 37.5 83.2 46.0 45.6 25.7 23.549.950.6IAST [31]93.8 57.8 85.1 39.5 26.726.2 43.1 34.7 84.9 32.9 88.0 62.6 29.0 87.3 39.2 49.6 23.2 34.739.651.5ProDA [50]91.5 52.4 82.9 42.0 35.740.0 44.4 43.3 87.0 43.8 79.5 66.5 31.4 86.7 41.1 52.50.045.453.853.7CPSL（我们的）91.7 52.9 83.6 43.0 32.343.7 51.3 42.8 85.4 37.6 81.1 69.5 30.0 88.1 44.1 59.9 24.9 47.248.455.7ProDA+蒸馏87.8 56.0 79.7 46.3 44.845.6 53.5 53.5 88.6 45.2 82.1 70.7 39.2 88.8 45.5 59.41.048.9 56.457.5CPSL+蒸馏92.3 59.9 84.9 45.7 29.752.8 61.5 59.5 87.9 41.5 85.0 73.0 35.5 90.4 48.7 73.9 26.3 53.853.960.8表1.GTA5→城市景观适应任务的实验结果最高分以粗体突出显示方法道路旁道建筑墙栏杆光标志植物天空人客车电动mIoU13 mIoU16[39]第三十九话79.237.278.8---9.910.578.280.553.519.667.029.521.631.345.9-[第41话]85.642.279.78.70.425.95.48.180.484.157.923.873.336.414.233.048.041.2CBST [56]68.029.976.310.81.433.922.829.577.678.360.628.381.623.518.839.848.942.6[51]第五十一话84.740.881.77.80.035.113.322.784.577.664.227.880.919.722.748.351.544.5PIT [30]83.127.681.58.90.321.826.433.876.478.864.227.679.631.231.031.351.844.0FADA [42]84.540.183.14.80.034.320.127.284.884.053.522.685.443.726.827.852.545.2FDA [48]79.335.073.2---19.924.061.782.661.431.183.940.838.451.152.5-PyCDA [26]75.530.983.320.80.732.727.333.584.785.064.125.485.045.221.232.053.346.7IAST [31]81.941.583.317.74.632.330.928.883.485.065.530.886.538.233.152.757.049.8[1]89.347.285.526.51.343.045.532.087.189.363.625.486.935.630.453.059.352.6ProDA [50]87.144.083.226.90.742.045.834.286.781.368.422.187.750.031.438.658.551.9CPSL（我们的）87.344.483.825.00.442.947.532.486.583.369.629.189.452.142.654.161.754.4ProDA+蒸馏87.845.784.637.10.644.054.637.088.184.474.224.388.251.140.545.662.055.5CPSL+蒸馏87.243.985.533.60.347.757.437.287.888.579.032.090.649.450.859.865.357.9表2. SYNTHIA → Cityscapes适应任务的实验结果。最高分以粗体突出显示。4. 实验4.1. 实验设置实施详情。我们使用DeepLabv 2 [8]实现分割模型，并使用ResNet-101 [16]作为骨干，该模型在ImageNet上进行了预训练。通过应用对抗训练来预热分割模型，如[39]。输入图像被随机裁剪为896 512，批量大小设置为4 。我们采用一系列数据增强，如 RandAugment[12]，Cutout [14]，CutMix [49]，并添加光度噪声，包括颜色抖动，随机模糊等。SGDM被用作优化器。分割模型和自标记头的初始学习率被设置为10−4和510−4，它们以幂0呈指数衰减。9 .第九条。权重衰减和动量设置为2 10−4和0。9，分别。折衷参数λ1、λ2和温度参数τ、ε根据经验分别设定为0.1、5、0.08和0.05。存储体的长度设置为65，536，并且我们对每个图像采样512个像素用于聚类（M=512），即存储体中有128个图像。对于动量网络，动量设置为0.999。我们的模型在PyTorch上使用四个Tesla V100 GPU进行训练数据集。在[31，51，52]之后，我们在实验中采用了两个合成数据集（GTA5 [36]，SYNTHIA [37]）和一个真实数据集（Cityscapes [11]）GTA5数据集包含24，966张图像，分辨率为1914 1052。由游戏引擎生成相应的密集注释SYNTHIA数据集包含9，400张1280 760像素的图像，它有16个常见类别，Cityscapes包含2，975张训练图像和500张分辨率为2048×1024的验证图像。4.2. 与现有技术的我们命名为类平衡像素级自标记（CPSL）的方法。在[50]之后，在训练收敛之后，我们还进行了两轮知识我们将我们的模型与代表性和最先进的方法进行比较，这些方法可以分为两大类：基于对抗训练的方法，包括AdaptSeg [39]，CyCADA [17]，FADA [42]，ADVENT [41]，以及基于自我训练的方法，包括CBST[55]，IAST [31]，CAG UDA [51]，ProDA [50]、SAC [1]。根据以前的工作，验证集上的结果以类别交叉联合（IoU）和平均IoU（mIoU）的形式报告GTA5城市景观。GTA5 Cityscapes任务的结果报告在表中。1.一、我们的CPSL在19个类别中的7个类别上获得了最好的IoU分数，并且它获得了最高的mIoU分数，优于第二好的方法11601→→→图3.我们的方法和ProDA [50]在GTA5→Cityscapes任务上的定性结果配置Miou∆不含SL47.8-7.9不含CB51.8-3.9不含ST39.4-16.3无初始化49.9-5.8不含8月54.2-1.5不带妈妈54.6-1.1CPSL55.7-样本数量Miou6454.912855.325655.551255.7102454.3204853.4表3.对我们提出的方法的关键部件进行烧蚀研究。表4.每个图像的样本数对性能的影响。图4. mIoU和平均像素准确度（MPA）评分在具有相等/不相等分区约束的验证集我们的方法和ProDA [50]在ProDA [50]以2.0的大幅度领先这可以归因于对目标域的固有数据分布的探索，这为训练提供了额外的监督。通过应用知识蒸馏，性能进一步提高5.1，达到60.8 mIoU，这是迄今为止最新的技术水平。值得一提的是，我们的方法在长尾类别上表现得特别好，例如例如，ProDA在小类“列车”上通过应用分布对齐，CPSL解决了类不平衡问题，在“火车”上实现了24.9IoU，SYNTHIA Cityscapes. 这个适应任务比前一个更具有挑战性，因为有很大的差距. 13类（mIoU13）和16类（mIoU16）的mIoU报告见表1。二、我们的模型在这项任务上仍然比竞争方法取得了显着的改进具体来说，CPSL在16个和13个类别上实现了54.4和61.7的mIoU，分别超过第二好的方法SAC [1] 1.8和2.4这是由于CPSL降低了标签噪声并校准了源域的偏差。蒸馏后的结果进一步提高到57.9和65.3 mIoU在所有16个类别中，我们的方法超过了其中的六个，特别是在最难的类别，如定性结果。图3示出了定性分段，GTA5城市景观任务。可以看出，我们的方法大大提高了长尾类的性能e.G. ProDA [50]在这些类别上表现不佳，因为它在训练中没有显式地强制类平衡。4.3. 讨论消融研究。我们对GTA 5 Cityscapes任务进行消融研究，以调查CPSL中每个组件的作用。为了表达的方便，我们将 “self-labeling” 、 “self-training” 、 “classbalance” 、 “weight initialization” 、 “data augmentation”和“momentum encoder”分别用“SL”、“ST”、“CB”、“Init”、“Aug”、“Mom”表示。选项卡. 3显示了关闭每个组件后的相应结果。我们有以下几点意见。首先，移除SL组件导致mIoU下降7.9，而禁用CB组件导致mIoU下降3.9。这表明它们通过探索目标域图像的内在数据结构在提高分割性能方面发挥了关键作用。其次，没有ST产生的伪标签的训练导致mIoU显著下降16.3。这并不奇怪，因为同时更新网络参数和生成伪标签将导致退化解[50，51]。第三，随机初始化自标记头（w/o Init）导致mIoU下降5.8，这归因于聚类和分类之间的不匹配。11602→图5.自训练（ST）和自标记（SL）产生的标签分配之间的互补性。图6. Cityscapes数据集上类分布的比较。阳离子种类第四，Aug和Mom组件在mIoU上带来了1.7和1.1的改进。不相等分区约束。为了进一步分析不平等划分对类不平衡数据集的影响，我们在图4中绘制了具有不同划分约束的mIoU和MPA分数的曲线，其中可以在mIoU方面观察到巨大的差距。然而，在MPA方面，相等划分稍微优于不相等划分。这并不奇怪，因为属于大类别的许多像素因此，MPA评分得到改善。更多细节可以在补充文件中找到。自我训练（ST）与自标记（SL）。我们探索了ST和SL产生的标记分配的互补性，并将结果可视化在图5中。可以得出结论，在我们的CPSL中ST和SL的集成导致比它们中的任何一个更好的结果。具体而言，ST在“天空”、“建筑”等易转移的大类上表现较好因此在一个视图中被错误分类的像素将在另一视图中被校正。分配一致性的影响。我们比较了CPSL和传统的自训练（ST）产生的标签的类分布如图6所示，ST的结果与地面实况（GT）严重不匹配。它的预测偏向于大多数类别，例如。 CPSL校正了偏差，产生了更接近GT的类分布。这表明CPSL可以捕获目标域的固有类分布，避免了大多数类的逐渐主导。参数敏感性分析。在选项卡中。4.在GTA5 Cityscapes任务中，我们评估了每幅图像不同样本数我们的方法在很宽的范围内对这个参数是鲁棒的更多的分析可以在补充材料中找到。限制. 尽管CPSL通过自标记的方式消除了对源域的偏差，但它仍然依赖于基于自训练的伪标记，这可能会导致确认偏差。我们考虑在未来的工作中开发一个完全基于聚类的分配方法。5. 结论我们提出了一个即插即用的模块，即类平衡像素级自标记（CPSL），它可以无缝地集成到自训练管道，以提高领域自适应语义分割性能。具体来说，我们在线进行像素级聚类，并使用由此产生的聚类分配来纠正伪标签。一方面，通过探索目标域图像的像素级内在结构，降低标签噪声，校准对源域的偏差。另一方面，CPSL捕捉到了目标领域固有的类分布，有效地避免了多数类的逐渐占据优势。定性和定量分析均表明，CPSL的性能大大优于现有技术水平。特别是，它在长尾类上实现了巨大的性能提升，而不会牺牲其他类别的性能。11603引用[1] 尼基塔·阿拉斯拉诺夫和斯特凡·罗斯自监督增强一致性，以适应语义分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第15384-15394页，2021年。五、六、七[2] 浅野由纪，曼德拉·帕特里克，克里斯蒂安·鲁普雷希特，安德里亚·维达尔迪.通过多模式自我监督从头开始标记未标记的视频神经信息处理系统的进展，33：4660-4671，2020。2[3] Y M浅野，C Rupprecht和A Vedaldi。通过同步聚类和表征学习的自我标记。ICLR 2020：第八届学习表征国际会议，2020年。二、四、五[4] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在欧洲计算机视觉会议论文集（ECCV）中，第132-149页，2018年。二、五[5] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习。在第三十四届神经信息处理系统会议（NeurIPS），第33卷，第9912-9924页，2020年。2[6] 张伟伦、王惠波、彭文孝、邱伟臣。关于结构的一切：跨领域调整结构信息，以促进语义分割。 2019 年IEEE/CVF计算机视觉和模式识别会议（CVPR），第1900-1909页2[7] Chaoqi Chen ， Weiping Xie ， Wenbing Huang ， YuRong ， Xinghao Ding ， Yue Huang ， Tingyang Xu ，Junzhou Huang.无监督局部自适应的渐进式特征对齐。2019 年 IEEE/CVF 计算机视觉和模式识别会议（CVPR），第627- 636页，2019年。1[8] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834-848，2017。一、二、六[9] 陈云春，林燕玉，杨铭轩，黄家斌。Crdoco：具有跨域一致性的像素级域转移。2019年IEEE/CVF计算机视觉和模式识别会议（CVPR），第1791-1800页，2019年。2[10] Jaehoon Choi，Taekyung Kim和Changick Kim。基于gan的数据增强的自集成用于语义分割中的 2019 年IEEE/CVF国际计算机视觉会议（ICCV），第6830-6840页2[11] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 3213一、五、六[12] Ekin D Cubuk，Barret Zoph，Jonathon Shlens，and QuocV Le. Randaugment：实用的自动数据扩充，减少搜索空间。在IEEE/CVF计算机视觉和模式识别研讨会会议记录中，第702-703页，2020年。6[13] 马可·库图里Sinkhorn距离：最佳运输的光速计算。神经信息处理系统进展，第26卷，第2292-2300页，2013年4[14] Terrance DeVries和Graham W Taylor。改进的卷积神经网络的正则化。 arXiv 预印本 arXiv ： 1708.04552 ，2017。6[15] Jun Fu ， Jing Liu ， Haijie Tian ， Yong Li ， YongjunBao，Zhivei Fang，and Hanqing Lu.用于场景分割的双注意网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第3146- 3154页，2019年。2[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像

下载后可阅读完整内容，剩余1页未读，立即下载