基于区域的主动学习方法在语义分割任务中的应用

190 浏览量更新于2023-10-25 收藏 1.75MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8068减少注释：基于区域杂质和预测不确定性的主动学习领域自适应语义分割谢斌辉1龙辉苑1双利1R 刘志1程新景2，31北京理工大学计算机科学与技术学院2清华大学软件学院3Inceptio Technology{滨汇协，龙慧源，双利，赤柳}@ bit.edu.cncnorbot@gmail.com摘要自训练极大地促进了域自适应语义分割，其在未标记的目标数据上迭代地生成伪标签并重新训练网络。然而，现实的分割数据集是高度不平衡的，伪标签通常偏向于主要类别并且基本上是有噪声的，从而导致易于出错和次优的模型。在本文中，我们提出了一个简单的基于区域的主动学习方法的语义分割下的域转移，旨在自动查询一个小分区的图像区域标记，同时最大限度地提高分割性能。我们的算法，区域杂质和预测不确定性（RIPU），介绍了一种新的采集策略，其特征在于图像区域的空间相邻性以及预测置信度。我们表明，提出的基于区域的选择策略，使更有效地利用有限的芽得到比基于图像或基于点的同行。此外，我们强制本地预测一致性的像素和其最近的邻居在一个源图像。同时，我们开发了一个负学习损失，使特征更具区分性。大量的实验表明，我们的方法只需要很少的注释，几乎达到监督的性能，并大大优于国家的最先进的方法。该代码可在https://github.com/BIT-DA/RIPU上获得。1. 介绍语义分割是在像素级理解图像的任务，是许多应用的基础，例如自动驾驶[63，80]，机器人操纵[51，67]和医学分析[48，62]。然而，分割模型的学习在很大程度上依赖于具有像素级注释的大量数据，R通讯作者(a) （b）基于图像的选择（100%）(c)（d）以地区为基础的选择（2.2%）图1.不同选择策略的图示。基于图像的选择（例如，MADA[41]）挑选一些目标样本并标记整个图像，这可能是低效的。基于点的选择（例如，LabOR [54]）选择模型不确定的稀缺点，而点级别的不确定性估计容易导致来自特定类别的块像素。我们的区域为基础的选择要求更多的注释区域更多的类别，以及对象的边界，在一个有效的方式。是一个很大的负担和昂贵的[9，35]。此外，保证对不同测试情况的良好概括仍然是一个主要挑战。各种研究工作已经针对解决上述问题，领域适应是有前途的方法[14，29，37，64，65，72]。最近，自我训练已经提高了域适应性，它使用从目标域上的置信预测生成的伪标签重新训练网络[8，40，75，83，85然而，这种竞争方式面临着固有的挑战：阶级不平衡通常是极端的。例如，一些类，例如，“road” and “building”, ap- pear因此，伪标签是有噪声的，并且自我训练将重点放在具有高频率的类上，并且牺牲稀有类或小对象上的性能，从而导致不期望的偏差。因此，性能远远落后于监督学习同行。为了克服这个障碍，8069∼∼在目标域上的分割性能，我们表明，一个简单的主动学习策略在自适应语义分割中效果良好：注释图像区域的一小部分。直到最近，Ning等人也做出了类似的努力。[41] Shinet al. [54 ]第54段。前者使用多个锚点来选择要标记的代表性目标图像（图1A）。1b），这可能是非常低效的，因为它可能将注释预算浪费在标记对象内的冗余区域上。后者利用双分类器预测的不一致掩模来查询每个图像中的稀缺点以进行注释（图1）。第1c段）。尽管该过程降低了人力成本，但在严重的域转移下，点级别的不确定性估计可能会高度错误校准[60]或导致从某些类别中采样冗余点。此外，这两种方法都是分类方法的直接扩展，削弱了图像空间邻近性的重要性。在上述分析的基础上，本文提出了一种简单、有效、高效的主动学习方法--区域杂质和预测不确定性（RIPU），用于辅助领域自适应语义分割。RIPU的一个关键设计元素是选择图像中最多样化和最不确定的区域（图1）。1d），最终提高分割性能。具体来说，我们首先从模型预测中生成目标伪标签，并使用k平方邻居算法挖掘所有可能的区域其次，我们把属于每个不同类的内部像素的百分比计算的熵作为每个区域的区域最后，将区域杂质与预测不确定度的平均值相结合，本文提出了一种新的标签获取策略，即像素预测熵，它能同时捕获多样性和不确定性在这项工作中，我们介绍了两种标记机制，为每个目标图像，即， “基于区域的注释（RA）”（2.2%地面实况像素）和“基于像素的注释（PA）”（40像素）。RA在所选择的区域-高注释机制中注释每个像素，而PA通过在区域-低注释机制中选择中心像素来将其重点更多地放在标记工作效率我们进一步利用局部稳定性来增强源域上某个像素及其邻域像素之间的预测一致性，并开发负学习损失来增强目标域上的区分表示学习。我们证明，我们的方法不仅可以帮助模型实现近监督性能，但也大大减少了人类标记成本。简而言之，我们的贡献可以概括为：• 我们基准测试的性能，主动域自适应有关语义分割和发现，使用基于图像或基于点的选择策略的方法是无效的。• 我们提出了一种基于区域的采集策略，用于自适应语义分割，称为RIPU，该方法利用区域杂质和预测不确定性来识别空间相邻性不同且预测输出不确定的图像区域。• 我们的实验表明，与标准的分割模型，即，DeepLab-v2和DeepLab-v3+，我们的方法在两个代表性的领域自适应基准测试中带来了显着的性能提升，也就是说，GTAV→城市景观，SYNTHIA→城市景观。2. 相关工作域自适应（DA）使得能够在具有良好标记的源域的知识的情况下对未标记的目标域进行预测，这已经被广泛应用于诸如分类的一系列任务[28，30，32，37，56，65，79]、检测[7，69]和分割[33，34]。最初的研究将源和目标特征之间的差异最小化，以减轻域间隙[21，36，66]。至于语义分割，大多数方法以三种方式采用对抗学习：外观转移[18，31，81]，特征匹配-ing [22，76，84]和输出空间对齐[38，64，70]。自我训练作为一种竞争性的替代方案已经获得了发展势头，它在目标域上使用伪标签训练模型[8，40，55，75，83，85尽管它们很流行，但伪标签是嘈杂的，主要依赖于良好的初始化。一些努力探索额外的监督，从事这种转移。例如，Paulet al.[43]建议使用弱标签和Vuet al. [71]利用密集深度信息来执行自适应。另一个有前途的策略，以防止这种噪音与最小的注释工作量是主动学习，我们在这项工作中采用。主动学习（AL）旨在最大限度地减少对庞大数据集的标记工作，同时最大限度地提高模型的性能。常见的策略包括不确定性抽样[15，20，52]和代表性抽样[1，50，58]。虽然密集预测任务（如分割）的标签获取比图像分类更昂贵和费力，但工作量却少得多[2，4，23，53，57，77]。[4]中最近的一个例子提出了基于强化学习主动选择图像区域，这是一种比标记整个图像更有效的方法。到目前为止，由于数据集移位，考虑将注释从在给定域（合成数据集）上训练的模型转移到不同域（真实世界数据集）的工作相当少。然而，这种情况在实践中经常发生，但没有得到充分解决。在这项工作中，我们向前迈出了一步来处理这个问题。主动域适应（ADA）。现有的工作主要集中在图像分类[13，44举几个例子，Prabhuet al.[44]将不确定性和多样性组合到采集轮中，并将半监督域自适应集成到统一框架中。最近，Ninget al. [41] Shinet al.[54]第一批研究8070˜˜^→∅YT∈˜一∈^ ^您的位置：K不将ADA任务应用于语义切分，大大提高了目标域的切分性能。Ning等人[41]提出了一种多锚点策略来主动选择图像的子集并注释整个图像，这可能是低效的。而Shin等人[54]使用自适应像素选择器提供更有效的基于点的注释。但是，所选择的点是单独的和离散的，忽略了图像的上下文结构和区域内的像素空间连续性。虽然令人印象深刻，这些方法忽略了一个区域内的空间邻接属性的价值，我们认为，一个有效的和高效的基于区域的选择策略是必不可少的，以降低人力成本，同时保留模型的性能。在这项工作中，我们探讨了图像的空间一致性，有利于选择最多样化和不确定的图像区域，有希望的高信息含量和低标签成本。3. 方法3.1.预备和动机形式上，在ADA语义分割中，我们有一组标记的源数据S={（Is，Ys）}和未标记的目标数据=（It，Yt），其中Ys是属于标签空间中的C个已知类别之一的逐像素标签，Yt是被初始化为的目标活动标签。目标是学习函数h： Iy（由Θ参数化的分割网络），其在目标域上实现良好的分割性能，具有一些注释。通常，在源域上训练的网络由于域偏移而在目标域上泛化较差。为了有效地传递知识，最近的进展求助于自训练技术[40，83，87]，并利用目标伪标签Yt优化交叉熵损失。但是，性能仍然远远低于完全监督的模型。我们假设伪标签是有噪声的，因此只有预测置信度高于给定阈值的像素才被考虑进行再训练。以这种方式，目标图像上的网络训练由还应考虑对邻近区域的选择。在这项工作中，我们认为k平方邻居的像素作为一个区域，即，大小为（2k +1，2k +1）的规则形状的正方形被视为以每个像素为中心的区域。通常，对于图像I t中的任何像素（i，j）RH×W，其中H表示高度，W表示宽度，区域表示为Nk（i，j）={（u，v）||u − i|≤ k，|v − j|

下载后可阅读完整内容，剩余1页未读，立即下载