基于主动半监督学习的语义分割方法

176 浏览量更新于2023-10-16 收藏 828KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5966基于主动半监督学习的语义分割Aneesh Rangnekar，Christopher Kanan，MatthewHoffman罗切斯特理工关闭NY，USAaneesh. mail.rit.edu摘要使用深度学习，我们现在有能力创建非常好的语义分割系统;然而，为训练图像收集必要的逐像素注释仍然是昂贵和耗时的。因此，在创建新数据集时，最大限度地减少所需的人工注释已标记未标记数据数据学生列车图像采集评分（一）火车（b）第（1）款已标记未标记数据数据斯图德恩列车区域采集评分（c）第（1）款人类注释？(d)在这里，我们解决这个问题，提出了一种新的al-出租m，结合主动学习和半监督学习。主动学习是一种识别最佳未标记样本进行注释的方法。虽然已经有了主动学习分割的工作，但大多数方法都需要注释每个图像中的所有像素对象，而不仅仅是信息量最大的区域。我们认为这是不充分的。相反，我们的主动学习方法旨在最小化每个图像的注释数量。我们的方法是丰富的半监督学习，在那里我们使用伪标签生成的师生框架来识别图像区域，帮助消除混淆类。我们还集成了能够在不平衡的标签分布上实现更好性能的机制，这些机制以前没有被研究用于语义分割中的主动学习。在CamVid和CityScapes数据集上的实验中，我们的方法使用不到17%的训练数据在完整的训练集上获得了超过95%的网络1. 介绍给定足够的标记数据，可以使用深度学习训练非常好的语义分割系统[66，4，45，42，12，91，63，78]。然而，获得像素级标签的语义分割是令人难以置信的耗时和昂贵的.对于COCO数据集，这需要超过85，000个注释者小时1[49]。因此，最小化1有10K小时用于确定每个图像中存在的类别，20K用于为每个存在的对象使用点注释，超过55K用于创建分割掩模[49]。图1：我们的主动学习方法旨在通过在训练阶段为未标记的数据共混(a)传统的主动学习方法与（b）半监督的方法，（c）我们的方法使用半监督学习的未标记的数据，以产生(d)区域获取分数，其可以被排队用于人类注释。当创建新的语义分割数据集时，注释的数量是期望的主动学习（AL）可以帮助实现这一目标。AL是一个框架，用于在未标记的样本池中识别信息量最大的样本进行注释。在计算机视觉中，它已经被大量研究用于分类[27，6，71，44，85，52]，分割，[54，76，41，11，18，47，21，29，84，62，75，10，74]和检测[40，67，20，1，31，32，87，61，17，22]。在AL中，机器学习系统被迭代地重新训练，其中对于每个主动学习周期C，它1）基于它们的信息量对每个未标记的样本进行评分，2）请求B个样本的注释，其中B是其注释此循环继续，直到达到所需的性能。对于语义分割，大多数AL研究旨在最大限度地减少详尽注释的图像数量[54，76，41，21，84，75]。对于分割，我们认为这是次优的。而不是假设图像是详尽的手动注释，我们的方法旨在最大限度地减少手动注释的总数。在我们的框架中，只有一些完全注释的图像被手动提供，作为初始标记集。其余已标记未标记数据数据斯图德恩5967通过在每个主动学习周期中采用半监督学习（SSL）来自动地产生未标记集合的注释具体来说，我们采用伪标签，ING与教师-学生的框架，以获得缺失的注释。虽然伪标记已被广泛用于其他问题[79，77，60，25，50，16，2]，但它尚未用于语义分割中的主动学习我们还引入了两种正则化机制来处理标签不平衡。本文的主要贡献如下：• 我们开创了SSL在教师-学生框架下的语义分割主动学习中的应用，• 我们证明了两种正则化方案，置信加权和平衡类混合，通过减轻数据集偏差来提高泛化能力，• 我们的系统在CamVid [9]和CityScapes [19]数据集上实现了与现有方法相媲美或超越现有方法的性能。2. 相关工作现有的主动学习方法可以大致分为三类，流学习[92，69，82]，查询合成[90，55，51，56]和查询计算。流学习方法依次接收未标记的样本，并当场决定请求标记或丢弃。与此同时，查询合成方法通常涉及使用生成对抗网络（GAN）从未标记的查询计算，或基于池的主动学习，是三种方法中最常见的方法，涉及设计样本获取指标，用于对信息量最大的样本进行排名。查询计算方法进一步分为应用贝叶斯推理[36，27，44，23，47，75，31]，集成学习[6，67，32，62，17]，多样性学习[71，85，20，76，21，52，10]和表征学习[54，40，1，41，11，18，28，29，84，87，74，61，22]。最...路径使用最小置信度[72]，softmax熵[73]，softmax余量[70]，互信息，核心集[71]，蒙特卡罗丢弃[26]或计算输出层的梯度[3]。所有方法的前提都是假设只有提供信息的样本才能脱颖而出- 例如低softmax容限指示两个类之间的高混淆，因此是用于标记的未标记数据池内的高优先级语义分割的主动学习跨越了上述所有场所，并在图像，区域和像素级别上进行处理。变分对抗主动学习（VAAL）方法使用对抗学习来识别样本混淆了学习的变分自动编码器，并混淆了潜在空间是否指示标记或未标记的数据[43，76]。Minimax主动学习（MAL）框架还使用了一个分类器来分类与标记集相比最多样化的样本，并将其与类原型配对以识别最高熵样本[21]。难度感知主动学习（DEAL）架构将概率注意分支附加到标准语义分割框架中，以在计算获取指标之前学习关注属于相同语义类别的像素[84]。我们的方法受到了VAAL和MAL的鼓励，其中我们改进了使用未标记数据和标记数据的想法，但使用伪标签而不是对抗性框架（Sec.4.3）。在区域层面上，[54]引入了具有空间多样性和成本分析的区域ViewAL在多视图数据集样本中使用场景对象视图的多样性[75]，[41]使用条件随机场细化标签，并且论文[10]引入了类别平衡采样以选择由SEEDS算法[81]生成的超像素区域。最近，PixelPick通过仅使用稀疏像素注释训练网络来显著降低标记成本[74]。然而，这些方法中的大多数都未能利用未标记的数据来训练模型以发挥其最大潜力。一个值得注意的例外是Equal，这是一种主动学习方法，它在图像及其水平翻转版本上包含了自我一致性[29]。然后，作者使用相同的约束作为采集度量，用于在未标记池的图像内对要标记的区域进行排队值得一提的是，类似的想法已经成功地降低了分类[28]和对象检测[22]的数据标记成本。我们进一步开发了这一系列工作，使用半监督学习来改进主动学习框架。更具体地说，而不是使用一致性方面的等方差和数据扩充，我们提出的伪标签的工作，利用未标记的数据池，以最大限度地发挥其潜力。语义分段的半监督学习通常以三种方式解决，显式一致性正则化[93，24，60，16，46]，使用教师-学生框架[57，25，59]，最近，结合教师与学生的对比嵌入[50，89]。教师-学生训练管道使用均值-教师框架，该框架保持学生模型的指数移动平均副本，以提供更平滑的伪标签[79]。这种方法是通过将弱图像副本传递给教师，获取伪标签，然后在同一组图像的强扰动副本上训练学生[8，77]。该论文[57]使用基于GAN的学习来5968鼓励混淆来自标记和未标记示例的预测CutMix-Seg表明，应用CutMix可以提高语义分割的学习表示的性能[88，25]，而ClassMix修改了CutMix机制，以采样与混合的各个类对应的掩码 [59]。最近，区域对比度（ReCo）和C3-SemiSeg学习了对比像素嵌入，以进一步加强传统交叉熵作为单独专用分支的代表性[50，89]。为了简单起见，为了设定一个基线，我们采用了均值-教师框架来在未标记的数据池上生成伪标签，并在下一节中扩展3. 我们的方法主动学习框架有一个标准的操作周期-网络在标记数据上进行训练-对于语义分割，这通常会导致交叉熵损失，然后用于对未标记数据池中的样本进行评分（图1）。1a）。学习网络用于根据未标记数据池内的样本信息推断统计数据，表示为数据采集的分数。每个主动学习周期C，来自未标记池-“预算”B的样本的一部分该循环继续，直到bud- get耗尽或更新的标记数据池达到可接受的性能。语义分割的主动学习有三个重要的考验。分割数据集具有其自身的分布偏差-存在一组严重代表性不足的“尾部分布”类它们在场景内的图像中也有显著的变化，例如照明、对比度和视点变化。最常见的语义分割模型使用ResNet或MobileNet骨干家族，其中全卷积网络（FCN），扩张残差网络（DRN）或DeepLab架构家族与用于推理的附加块耦合[35，68，37，53，86，13，14，15]。所有这些网络中的一个共同点是批量归一化层，它与数据集和场景偏差相结合，使得神经网络的标准训练难以推广到新的不可见数据[38]。这给我们带来了第三个问题-在主动学习场景中，未标记的图像按照网络的响应顺序进行排名为了缓解这些挑战，我们在每个主动学习周期C期间使用半监督学习来利用未标记数据，作为理解未标记数据的一种手段（图10）。（见第1b段）。我们使用教师-学生框架，以每个像素为基础生成伪标签，更好地表示未标记的数据池，同时支持网络使用标记数据进行学习。我们还用区域代替了对整个图像的采样（类似于[54，11，29，18]，图。1c、d）。在更高的层次上，我们初始化两组网络，其中学生网络使用交叉熵进行训练，教师网络使用学生的参数以渐进的方式进行更新（图1）。2a，方程2）的情况。然后，教师网络用于推断未标记图像上的伪标签，这些伪标签用于在具有交叉熵的未标记数据上训练学生网络。在每个主动学习周期的SSL训练结束时，我们根据根据教师的表现计算的获取度量对未标记图像池中的区域进行排名，然后选择排名最高的区域进行标记。我们以SSL方式对数据集进行重新训练，以进行多个主动学习周期，直到达到令人满意的性能以结束标签采集。缓慢移动的更新（教师网络）导致更稳定的累积预测，然而，由于标记数据中的整体类分布偏差，简单地采用这种方法是困难的。这是不期望的，因为来自教师的伪标签充当学生网络的基础事实，其可以快速学习错误表示，特别是对于尾部分布类。此外，当来自未标记图像的区域被评分为用于标记的候选时，训练不良的网络组合可能提供区域的分数的显著偏移，否则对于校正偏差和帮助指导下一个主动学习周期是必要的为了避免这个问题，我们引入了两个正则化方案-置信加权和平衡类混合。3.1. 师生框架提出用于图像分类的半监督学习的平均教师框架由两个网络工作组成，一个学生（θ）和一个教师（θ′）[79]。学生和教师共享相同的网络架构，并且教师通过学生参数的指数移动平均（EMA）来更新（Eqn.1）：θ′：=mθ′+（1−m）θ，（1）其中m是平滑系数（动量）并且被设置为0。99[25，59]。对于标记的图像，学生使用具有地面实况信息的监督损失（交叉熵）来学习（Eqn. 2）：Lsup=θ（xl），yl），（2）其中x1是网络的输入，y1是相应的基本事实标签。不断更新的教师模型（Eqn. 1)用于在未标记的数据上生成伪标签，这些伪标签用于训练学生5969未标记数据标记数据（一）地面实况（b）第（1）款（c）第（1）款图2：我们的SSL设置（a）教师-学生框架，其中（b）显示了基于每个像素的置信度加权，其中整体交叉熵损失由相应伪标签的最高概率加权（蓝色表示高，绿色表示低），以及（c）显示了平衡的ClassMix，其中我们维护了未标记图像的重放缓冲区，并对ClassMix随机采样，以进一步增加尾类的样本数量。网络教师接收图像的弱增强版本（xu-w）以生成预测，并且使用所生成的伪标签作为地面真值来训练学生模型。3）：Lunsup=ce（θ（xu−s），[θ′（xu−w）]），（3）其中xu−s是作为学生输入的强增广（扰动）版本。[]表示将logit转换为一个热向量，该热向量用作训练的基础事实我们对x u−w使用随机翻转和随机裁剪操作，对xu−s使用随机缩放、随机翻转、颜色抖动和ClassMix。我们将[θ′（xu−w）]视为一个单热向量，表示待处理像素的相应伪标签。训练的最终损失然后被公式化为：Ltotal=Lsup+η·Lunsup，（4）其中η对应于无监督损失的权重。我们将η计算为图像中满足p >0.97的像素数（其中p表示像素的伪标签的最大概率）与该图像中像素总数的比率，类似于[25，59，50]。3.2. 置信度权重等式4基于通过预设置信度阈值的对应概率p的量来对来自教师网络的伪标记像素的贡献进行加权[25，59，50]。然而，权重被应用于小批量设置的图像级别，这意味着图像内的所有像素都以相同的重要性进行训练，我们假设学生网络可以快速过拟合到有限训练集中的类分布，教师是一个缓慢的更新（Eqn。1），这最终会引入相对于具有有限像素注释的类的偏差。大多数半监督学习器都是一次性运行的。然而，在主动学习环境中，如果网络对它们的预测非常自信，并且在计算获取度量时对它们的预测具有错误的信心，则类分布偏差可能被证明是更有害的从长远来看，这是不可取的，因为主动学习的整个目标是不断查询信息样本，最大限度地减少标记成本，但仍保持良好的性能。在半监督图像分类中有多种方法试图解决这种类别不平衡问题，这些方法广泛地基于重新采样或重新加权[7，39，83]。大多数方法涉及保持落在某个类别标签下的图像数量的运行统计，当直接应用于基于像素的语义分割时，这可能是令人生畏的，根据这些方法的基本原理，我们提出了一个简单的修正方程。3如下：Lunsup=ce（θ（xu−s），p·[θ′（xu−w）]），其中p是来自教师网络的每个伪标签的对应最大概率（图5）。第2b段）。这个ap-proach确保高置信度的伪标签和一个与低置信度伪标签相比，主动学习周期内的标记标签变得更3.3. 平衡的ClassMix我们的第二个正则化方案侧重于尾类的不平衡，从过采样的角度与数据增强。对于这项任务，我们建立在持续学习和ClassMix的想法上[64，5，33，34，59]。重放缓冲器的老师伪标签学生S不重放缓冲器5970××××被广泛用于通过存储先前的样本集并将它们与新样本混合来训练神经网络来减轻灾难性遗忘[58，80，33，34]。这些缓冲区的大小通常受到限制，由于内存约束，并有重放采样的多种方案具体来说，我们初始化一个重放缓冲区，限制M。在每次迭代中，我们将图像添加到缓冲区中，以便稍后进行采样。对于当前迭代，我们从重放缓冲区中随机抽取相同批量大小的然后，这些图像集合通过相同的流水线以计算等式（1）。5，除了我们修改了ClassMix数据增强的概率分布。ClassMix从原始设置的整个类集合中统一采样掩码。对于我们的设置，我们将采样率偏置为关注来自尾类的更多样本，作为头类的补充，这是基于标记数据内的分布进行评估的。我们通过对ClassMix的类进行采样来实现这一点，采样采用两个单独的分布，即头部和尾部，而不是单个组合分布。这有助于主动学习循环，因为我们预计通过用于标记的采集度量排队的区域属于尾类，这是由于在使用我们的ClassMix变体进行师生培训期间提出的更多挑战（图2c）。因此，对于当前的小批量，我们得到两个不同的xu，其中第一个集合对应于小批量内增强（Lunsup1），第二个集合对应于重放增强（Lunsup2）。为了提高计算效率，我们只将ClassMix-d版本保持为等于批大小。使用标准类是完全合理的-然而，与重放图像混合，我们的公式确保在训练期间看到来自尾部类的更多像素，特别是在未标记数据池上的几个标签采集周期我们从Eqn的总训练损失。4成为，Ltotal=Lsup+η1·Lunsup 1+η 2·Lunsup 2，（6）式中的η的值6仍然按照前面提到的相同方式计算。3.4. 采样策略我们的整个框架，用于主动学习的半监督语义分割（S4AL）是一个两步过程，在这个过程中，我们遵循主动学习的标准协议，并在多个主动学习周期C上进行迭代，但同时，使用伪标记以更有效的方式利用未标记的数据池。采样的自然选择是从图像级转移到区域级，因为有多个子区域的预测在周期内变得更加可信，从而降低了整体图像分数并且增加了错过可能属于尾类的关键注释的可能性。对于我们的收购指标，我们采用四种策略：随机抽样、最小置信度、softmax熵和softmax边际。我们建议读者参考[75]，以深入解释主动学习中的所有采样策略。从我们最初的一组实验中，我们发现softmaxentropy是我们所有数据集的最佳采集度量（详细信息见补充资料）。4. 实验设置和讨论4.1. 数据集我们在CamVid和CityScapes数据集上评估了我们提出的用于语义分割的方法[9，19]。我们遵循两个数据集广泛采用的协议：我们从训练集中抽取10%的数据作为标记数据，作为我们的标记数据池[76，84，21]。为了简单和重现，我们从地面真值训练集中均匀地为标记集采样图像，并将训练集中的所有其他图像视为未标记图像池。为了确保所有方法之间比较的公平性，我们将两个数据集的忽略索引视为标记信息的一部分，以便这些区域也是要采集用于标记的潜在区域。CityScapes是一个相对较大的数据集，用于城市驾驶场景的语义分析，分辨率为1024 - 2048，具有30个类别。它总共包含2975、500和1525张图像，分别用于训练、验证和测试我们使用2675、300和500张图像的标准分割进行训练、验证和测试，将验证集替换为测试集，并随机抽取300张图像作为验证。我们将图像下采样到688 688分辨率，并使用19个类进行训练和评估，类似于[76，84，21]。CamVid是一个驾驶场景理解数据集，由720 960分辨率的32类图像组成。它总共包含701张图像，其中367、101和233张图像分别用于训练、验证和测试。我们使用广泛采用的下采样场景在360 480的分辨率为我们的训练和评估共11个等级[4，29，84]。4.2. 实验配置我们使用MobileNetv2作为DeepLabv3+语义分割架构[15，68]的骨干进行评估，DeepLabv3+语义分割架构是主动学习中广泛采用的语义分割标准。我们调整MobileNetv2骨干网，使其具有更高的步幅16，类似于[84]。我们还使用DRN [86]对CityScapes数据集的结果进行了基准测试，以与[76，21]进行比较，因为它们在初始标记集和图像分辨率方面遵循相同的基础方法。我们训练我们所有的网络，批量大小为4，100个epoch和200个epoch，5971×××表1：IoU：使用MobileNetv 2的CityScapes的类别和平均值-虽然所有方法都使用40%的数据来实现其目标，但我们仅使用16%的数据就实现了目标。方法路人行道建筑围墙护栏杆交通光交通标志植被地形监督97.58 80.55 88.43 51.22 47.61 35.19 42.19 56.79 89.41 60.22随机96.03 72.36 86.79 43.56 44.22 36.99 35.28 53.87 86.91 54.58熵96.28 73.31 87.13 43.82 43.87 38.10 37.74 55.39 87.52 53.68核心组[71] 96.12 72.76 87.03 44.86 45.86 35.84 34.81 53.07 87.18 53.49交易[84] 95.89 71.69 87.09 45.61 44.94 38.29 36.51 55.47 87.53 56.90S4AL97.73 81.76 88.63 51.42 47.40 36.00 43.91 58.27 89.72 62.01空中脚踏车-骑士汽车卡车巴士火车trian摩托车-自行车mIoU循环监督92.69 65.12 37.32 90.67 66.24 71.84 63.84 42.35 61.84 65.30随机91.47 62.74 37.51 88.05 56.64 61.00 43.69 30.58 55.67 59.00熵92.05 63.96 34.44 88.38 59.38 64.64 50.80 36.13 57.10 61.46核心组[71] 91.89 62.48 36.28 87.63 57.25 67.02 56.59 29.34 53.56 60.69交易[84] 91.78 64.25 39.77 88.11 56.87 64.46 50.39 38.92 56.59 61.64S4AL92.81 65.62 39.71 90.52 66.07 65.31 46.03 46.88 61.77 64.80表2：讨论：在CamVid和CityScapes数据集上进行的各种研究。除了表2c之外，我们所有的实验都使用MobileNetv2。(a) 区域与图像：整个数据集，其中前三个类在IoU和（Recall）中具有最大的差异。IOU区域图像CamVid 61.78 60.31·签署40.27（73.75）34.66（75.22）(b) 区域与图像：整个数据集，其中前三个类在IoU和（Recall）中具有最大的差异。IOU区域图像城市景观64.70 64.73卡车66.07（85.17）60.12（74.77）(c) [21][22][23][24][25][26][27]IoUs 表示从10%的数据开始时的分数，IoU f表示主动学习结束时的分数，IoUsup是完全监督数据的分数，最后一行表示使用的数据量。[76]《仲裁示范法》[21]S4AL·行人49.96（70.30）43.99（68.29）骑自行车者51.31（77.14）49.76（72.08）·公共汽车·火车46.03（51.07）57.30（66.67）IoUs46.2 48.9 57.9IoUf56.5（+10.3）58.4（+9.5） 65.7（+7.8）IoUsup62.95± 0.70 61.9± 0.70 67.68± 1.2%数据40 30 16积极学习周期的最后阶段。我们从110−2的初始学习率开始，并使用我们将CamVid和CityScapes的重放缓冲区大小M的值分别设置为50和我们每30张图像采样四个区域30和43两个43，在CamVid和CityScapes上进行五个活动学习周期。我们参考补充资料了解确切的培训细节。比较算法我们比较我们的方法对其他四个积极的选择方法，如表1所示这些方法旨在基于图像级别进行主动学习-即随机选择，熵[73]，核心集[71]和DEAL[84]。与区域级算法进行比较的尝试部分不成功，因为它们使用随机采样来初始化标记的训练这使得复制结果具有挑战性我们建议读者参阅补充部分以了解更多细节。4.3. 主要结果在CamVid数据集上，我们实现了97%的性能（图1）。3a）与利用仅具有13.8%的标记像素数据的完整数据集相比。先前的最先进方法使用40%的数据实现了94%的性能[84]。我们在CityScapes数据集上的结果见表1。我们的方法在CityScapes数据集上的性能优于现有方法，只使用了16%的标记数据，而不是40%。除火车类外，我们显著提高了多个尾部类（交通灯、交通标志、卡车、摩托车和自行车）的IoU分数。597280604020监督10%监督100%半监督10%半监督12%半监督13.8%∼1009080706050403020(a) CamVid（b）城市景观图3：IoU：使用伪标签作为用于训练的总数据的函数的性能曲线（a）CamVid和(b) 城市景观。我们通过在两个数据集上分别只需要4%和6%的额外数据来显著减少标记工作。在相同的初始数据上，最好的最先进的方法通过额外的30%数据实现了比较性能。图图3a和3b显示了每个类别的IoU逐渐增加，总体上作为所利用数据的函数。使用半监督学习，我们在相同数据量的情况下将两个数据集的得分提高了1-2%。虽然这低于其他一些半监督算法[25，60，16，50]中的增益，但我们认为MobileNetv2的参数数量有限，而不是这些研究中使用的更大的网络无论初始提升如何，我们的方法都迭代地增加了两个数据集上的IoU，同时最大限度地减少了整体标记工作。除了MobileNet，我们还使用相对较轻的DRN-D-222网络进行实验，以与VAAL和MAL方法进行主动学习[86，76，21]并在表2c中报告我们的结果。由于未知的标记-未标记数据分裂，直接比较是不可能的，因此我们在比较的基础上报告了通过主动学习和完全监督的数据池采样的10%最大数据实现的IoU的结果。我们提出两个关键意见：1）在初始10%的数据上使用半监督学习进行训练会导致初始IoU的上升，2）我们的方法能够在仅使用16%的数据的情况下实现97%的性能，而VAAL和MAL分别为40%和30%。最后，我们将我们的结果与其他基于区域的选择方法进行比较，即EquAL和RALIS [29，11]。2我们联系了相应论文同样，由于未知的标记-未标记分裂，直接比较是不可能的，因此我们使用数据的相同标记部分进行比较。在CamVid上，使用12%的数据和MobileNetv 2主干，我们从完全监督的训练制度中获得了95%的性能，而Equal使用相对较重的ResNet-50主干获得了94%的性能，其中12%的数据和RALIS也使用ResNet-50预训练GTA和更多（20%）数据获得了96%的性能。我们的方法在CamVid上实现了65.3的mIOU，与[29]中的63.4相同，当从8%标记数据开始，预算为12%标记数据时，使用ResNet-50主干和DeepLabv 3+。4.4. 附加结果我们在本节中讨论了与我们的方法相关的消融。在所有方法特异性实验中，我们在5次运行中使用随机采样对标记-未标记组合的其他组合进行采样，并将我们的结果报告为所有实验的平均值和标准差。区域与图像：我们不使用区域，而是根据采集度量对整个图像进行采样，然后采用半监督学习方法，将新采集的数据添加到标记的图像集。我们重复主动学习周期2次，每次对查询图像池的5%进行采样，从而产生20%的数据使用率。我们观察到，使用区域在两个数据集上都有好处（表2a，2b），通常会导致更高的重复率。监督10%半监督10%半监督13.8%半监督16.3%IOU天空建筑柱杆路人行道树签署围栏车行人自行车整体IOU道路人行道建筑墙栏杆交通信号灯地形空中行人乘用车卡车公共汽车火车摩托车自行车整体5973−→−→−→−→表3：讨论：在CamVid和CityScapes数据集上进行的其他研究。我们使用MobileNetv2进行所有实验。(a) IoU：关于CamVid和CityScapes数据集上的不同块采样率。CamVid mIoU CityScapes mIoU30× 30× 2 60.4± 1.4 43× 43× 2 61.8± 0.830× 30× 4 61.4± 0.6 43× 43× 4 62.6± 2.260× 60× 1 60.8± 2.4 86× 86× 1 61.4± 1.6(b)IoU ：关于 CamVid和 CityScapes数据集的不同采样方案。MiouCamVidCityScapes随机59.1± 1.8 59.8± 2.5LS 60.5± 0.5 60.3± 1.4耳鼻喉科61.2± 0.5 62.5± 1.8裕度60.8± 0.6 61.8± 0.5除了CityScapes的“Train”类，它会与“Bus”混淆。我们相信更强的正则化器可以帮助防止伪标签混淆并减轻这种性能差距。置信度加权：两个数据集均受益，在第一个主动学习周期中最为明显（CamVid：五十七2五十八5、城市景观：五十六15五十六（六）。这是重要的，因为拥有正确的知识并且不落入数据集偏差对于获得完美的样本集至关重要。更具体地说，对于CityScapes，我们进一步观察到尾类的平均差异接近5%- 交通灯、交通标志、行人、骑车人和摩托车-这意味着通过对伪标签施加简单的约束来避免了许多潜在的假标签平衡的班级组合：也有利于两个数据集，这在最后的主动学习周期中最容易实现（CamVid：六十岁。461岁5、城市景观：61岁363岁第15段）。使用平衡类混合的主动学习性能明显更好-取决于初始数据池，如果平衡类混合是不使用，因为它补偿了来自尾类的足够贡献的缺乏这也是一个小小的威慑，特别是对于区域大小：我们在表3a中对两个数据集进行了不同区域大小的实验。从统计学上看，我们可以在所有可能的组合中找到最佳组合，并在最终选择的大小中实现最佳一致的结果。取样策略：我们用用于对图像内的区域进行采样以进行标记的度量来结束我们在实验中对超参数的研究（表3b）。这些值表明，softmax entropy对我们的方法效果最好，softmax margin的表现几乎很好。这也可以通过实施更严格约束的置信度权重来解释，从而使识别关键区域成为可能。5. 结论我们访问了语义分割的主动学习，目标是将基于半监督的伪标记纳入每个训练周期，以降低标记成本。我们提出了两个正则化器来防止数据集在头部和尾部类，置信度权重和平衡类混合方面的偏差问题。我们的方法实现了与完全监督数据相当的性能，并显着减少了所使用的标签数量。我们目前工作的一个局限性是缺乏对训练期间没有看到的类（开放集或严重代表性不足）的理解，但是，我们相信我们的工作可以为该领域的进一步研究奠定先例。确认这项工作得到了空军科学研究办公室动态数据驱动应用系统计划的资助，资助号为FA 9550 -19-1-0021。我们衷心感谢NVIDIA公司的支持，他们捐赠了用于本研究的 Titan X 和 Titan Xp Pascal GPU ，并在DataCrunch.io上使用了Nvidia V100 GPU。引用[1] Hamed H Aghdam，Abel Gonzalez-Garcia，Joost van deWeije r，andAntonioML o'pez. 深度检测神经网络的行为学习在IEEE/CVF计算机视觉国际会议论文集，第3672-3680页[2] 我是阿隆索，阿尔贝托·萨巴特，德·维德·弗斯特，卢·蒙特萨诺和安娜·C·穆里略。半监督语义分割与像素级对比学习从类明智的记忆银行。在IEEE国际计算机视觉会议论文集，2021年。[3] JordanTAsh，ChichengZhang，AkshayKrishnamurthy，John Langford，and Alekh Agarwal.通过不同的、不确定的梯度下限进行深度批量主动学习。arXiv预印本arXiv：1906.03671，2019。[4] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on pattern analysis and machineintelligence，39（12）：24815974[5] Yogesh Balaji ， Mehrdad Farajtabar ， Dong Yin ， AlexMott，and Ang Li.记忆回放在大规模持续学习中的有效性。arXiv预印本arXiv：2010.02418，2020。[6] WilliamHBeluch，TimGen e wein，AndreasNuürnber ge r，andJanMKöhler. 集成在行为学习图像分类中的应用。在IEEE计算机视觉和模式识别会议论文集，第9368- 9377页[7] 放大图片作者：David Berthelot，Nicholas Carlini，EkinD. Cubuk，Alex Kurakin，Kihyuk Sohn，Han Zhang，and Colin Raffel. Remixmatch：具有分布对齐和增强锚定的半监督学习。arXiv预印本arXiv：1911.09785，2019。[8] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin A Raffel 。Mixmatch：半监督学习的整体方法。In H. Wal-lach，H.Larochelle、A. B e ygelzime r、F. d'Alc he´-Buc，E. Fox和R.Garnett，编者，《神经信息处理系统进展》，第32卷。Curran Associates，Inc. 2019年。[9] Gabriel J Brostow，Julien Fauqueur，and Roberto Cipolla.视频中的语义对象类：一个高清晰度地面实况数据库。Pattern Recognition Letters，30（2）：88-97，2009.[10] 蔡丽乐，徐迅，刘俊浩，传胜富。在具有现实注释成本的语义分割中重新访问超像素以进行主动学习。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第10988-10997页[11] 佩德罗·卡萨诺瓦Pinheiro，Negar Rostamzadeh ，andChristopher J.伙计加强主动学习的图像分割。在2020年国际学习代表会议上[12] AayushKChaudhary 、 RakshitKothari 、 ManojAcharya、Shusil Dangi、Nitinraj Nair、Alfred Bailey、Christopher Kanan、Gabriel Diaz和Jeff B Pelz。Ritnet：用于视线跟踪的眼睛实时语义分割。在 2019 年IEEE/CVF国际计算机视觉研讨会（ICCVW）上，第3698-3702页。IEEE，2019。[13] 放大图片作者： Liang-ChiehChen ， GeorgePapandreou，Iasonas Kokkinos，Kevin P.Murphy和AlanLoddon Yuille。Deeplab：使用深度卷积网络，atrous卷积和全连接crfs进行语义图像分割。IEEE Transactionson Pattern Analysis and Machine Intelligence，40：834-848，2018。[14] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格 · 亚当。 Rethinking atrous convolution for semanticimage segmentation，2017。[15] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，2018年9月。[16] Xiaokang Chen，Yuhui Yuan，Gang Zeng，and JingdongWang.交叉伪监督的半监督语义分割。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第2613-2622页[17] Jiwoong Choi ， Ismail Elezi ， Hyuk-Jae Lee ， ClementFara- bet，and Jose M.阿尔瓦雷斯通过概率建模进行深度目标检测的主动学习。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，第10264-10273页[18] PascalColling，LutzRoese-Koerner，HannoGottschalk，and Matthias Rottmann.Metabox+：一种新的基于区域的主动学习方法，用于使用优先权图进行语义分割。arXiv预印本a

下载后可阅读完整内容，剩余1页未读，立即下载