半监督实例分割：解决噪声边界的新方法

74 浏览量更新于2023-10-25 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16826噪声边界：半监督实例分割的柠檬还是柠檬水？王振宇李亚丽*王胜金北京国家信息科学技术研究中心清华大学wangzy20@mails.tsinghua.edu.cn，{liyali13，wgsgj} @tsinghua.edu.cn摘要当前的实例分割方法严重依赖于像素级注释图像。获得这种完全注释的图像的巨大成本限制了数据集的规模并限制了性能。在本文中，我们正式解决半监督的实例分割，其中未标记的图像，以提高性能。我们构建了一个框架，通过分配像素级的伪标签的半监督实例分割。在这个框架下，我们指出，与伪标签相关的噪声边界是双刃剑。我们建议以统一的方式同时利用和重新支持它们：1）为了克服噪声边界的负面影响，我们提出了一种利用低分辨率特征的噪声容忍掩模头。 2)为了提高积极影响，我们引入用于学习边界相关区域内我们通过大量的实验来评估我们的它的表现非常出色，大幅超过监督基线，在Cityscapes上超过 6% ，在 COCO 上超过 7% ，在 BDD 100k 上超过4.5%。在Cityscapes上，我们的方法仅利用30%的标记图像就实现了可比较的性能1. 介绍“When–随着深度学习的发展，实例分割的性能得到了显着改善[19，24，5，50，52]。然而，当前的实例分割方法需要用于完全监督训练的像素级标记图像，这对于注释来说是非常昂贵的。从统计学上讲，分割一个对象实例平均需要79 s [36]。在某些情况下，注释一个高质量的单一图像甚至花费超过1.5小时[16]。*通讯作者代码可在https://github.com/zhenyuw16/noisyboundaries获取。图1：半监督实例分割（在COCO数据集上），它探索利用未标记的图像，是一个迄今为止尚未正式定义和解决的新问题。与弱监督和全监督方法相比，该方法充分挖掘已有数据，并寻求利用大量未标记的资源，使实例分割更具有实用性。这严重限制了数据集的规模，并进一步限制了模型的性能。认知科学的研究[18，31]已经证明，人类的概念学习涉及大量的无反馈的未标记经验。对象检测[47，25，38]或语义分割[41，39，21]中的工作已经寻求半监督学习以减轻人类标记的巨大费用。然而，利用几乎不费力的未标记图像仍然是未开发的，例如分割，部分原因是其固有的困难。这些促使我们使用无标记图像来突破全监督实例分割的上界我们把这个任务称为半监督实例分割。在实例分割中，像素级标注数据的收集困难他们中的大多数试图通过弱监督实例分割来处理这个问题[22，51，45]。半监督实例分割与全监督和弱监督实例分割相比，16827它充分利用现有资源，并允许进行更大规模的学习。像素级注释图像已在几个现有数据集中提供[36，16，56]。半监督实例分割可以利用这些数据，这是高质量分割掩码所必需的。未标记的图像是巨大的，获得它们很容易。因此，学习的规模不受数据集的限制，可以尽可能大。这赋予了半监督实例分割不断取得更好性能的潜力。受半监督实例分割重要性的刺激，人们自然会问：半监督实例分割的核心是什么？其核心是挖掘未标记数据中的信息。全监督或弱监督方法的进展不能应用于半监督任务，因为监督线索是必要的。为了解决这个问题，我们采用了伪标签的思想，并提出了一个半监督的实例分割框架。在此框架下，噪声，特别是包含在伪标签的掩模中的噪声，对于有效利用未标记图像是必不可少的。考虑到高比例的像素级噪声位于边界区域，我们专注于噪声边界。它们提供了不正确的监督信号，但也包含了许多有助于模型性能的细节。这种矛盾使得噪声边界成为一个具有挑战性的问题。总之，噪声边界是双刃剑（既是如何从半监督实例分割的噪声边界中学习？我们需要共同利用和打击它们。具体地说，我们提出了一个噪声容忍掩模头（NTM）和边界保持地图（BPM）。我们的NTM为低分辨率分割输出引入了掩码预测分支。使用低分辨率的地面实况进行监督，消除了边界的细节，其中存在大部分噪音。这有助于抗噪声学习。同时，我们提出的BPM促进边界学习。与以往以放大像素级噪声为代价来保持边界的方法不同，我们的BPM与边界区域有很强的对应性，但与噪声无关。这导致更精确的结果。在我们的NTM和BPM的帮助下，我们的方法从噪声边界内的有价值的特征中受益，并丢弃有害的特征，从而更有效地挖掘未标记的信息。我们的主要贡献可概括如下：• 我们正式解决了半监督的实例分割任务，并构建了一个框架，利用未标记的数据，这使我们能够突破全监督的上限。• 我们证明了掩模分辨率和像素级噪声之间的负相关性，然后提出了一种低分辨率和高分辨率特征，其可以抵抗边界区域中的噪声。• 我们提出了一个边界保持映射，它丰富了边界相关区域，同时抑制了窄行噪声过度区域。这产生了更准确的分割边界。在Cityscapes [16]，COCO [36]和BDD 100K [56]上的大量实验证明了我们方法的有效性。它只需要30%的标记图像就可以获得相当的结果，并且超过了只有40%标记数据的完全监督的结果性能甚至优于使用人工注释的粗糙标签或额外的框级注释的方法。我们提供了一个简单而有效的框架，我们相信这将有助于未来的研究朝着这个方向发展。2. 相关工作实例分段。大多数实例分割方法可以分为基于检测的方法。Mask RCNN [19]通过添加基于FCN的掩码预测分支，将Faster RCNN [44PANet [37]引入了自下而上的路径增强，以实现更好的特征学习。级联掩码RCNN[7]将Cascade RCNN [6]扩展到实例分割。HTC [9]进一步交织特征学习，并采用语义知识来促进实例分割学习。以下工作[24，28，15，58]继续提高实例分割的性能。近年来，一步法[5，50，52，8，53]也得到了迅速发展，并以更快的速度取得了令人满意的结果.他们的目标是直接预测面具，而不是首先生成建议然而，所有这些方法都需要像素级的注释图像，这是昂贵的获得。不完全监督的实例分割。考虑到获得像素级注释图像的困难弱监督方法使用框级标签[22，51，33]或图像级标签[45，17]执行实例分割。然而，它们没有利用现有的像素级注释，因此与完全监督的注释相比，很难获得令人满意的结果。部分监督方法[23，29，59]采用的设置是，少数类别是像素级注释，其他类别只有框级注释。他们的目标是利用盒子标签来扩大分类的数量。与他们不同的是，我们的目标是通过使用额外的未标记数据来提高全监督网络的性能。半监督学习。在图像分类中，半监督学习的方法被广泛应用于图像分类中，以提高全监督学习的性能。流行的方法包括一致性正则化[30，40，49]，16828图2：半监督实例分割的框架。教师模型使用标记的图像进行训练，然后为未标记的图像提取伪标签。数据放大后，这些图像用于训练学生模型。我们的噪声容忍掩码头（NTM头）和边界保持地图（BPM）帮助学生更好地从嘈杂的边界学习伪标记[32，4，3，46]、数据扩充[55，4，46]或标签传播[60，2]。最近的工作已经将半监督学习扩展到对象检测和语义分割。例如，[25，41，26]采用了一致性正则化的思想，[39，38，48，54，21]利用伪标签。最近，自监督学习[11，12，13]也利用了未标记的图像。不同之处在于，自监督学习训练前提任务，与下游任务无关，而半监督学习则针对特定任务。在这项工作中，我们采用伪标签来解决实例分割的半监督学习，这自然是一项更困难的任务。3. 方法3.1. 半监督实例分割我们的目标是解决半监督实例分割任务。具体来说，我们有一组像素标记的图像，目的是利用容易获得的未标记数据来提高实例分割的性能。我们的基本框架包括三个步骤：第一步：教师示范培训。我们首先训练一个教师模型，只使用标记数据作为常见的监督学习。教师模型将被应用于生成像素级伪标签，用于在后面的步骤中训练学生模型。我们选择Mask RCNN [19]作为我们的教师模型，但不限于此。步骤2：伪标签生成。使用预先训练的教师模型，我们对未标记的图像进行推理，以生成实例分割掩码。为了提高掩模质量和减少神经网络的误校准，进行了缩放和水平翻转等数据扩充[1]。我们称之为弱增强。为了获得伪标签，需要通过两种阈值对原始推理掩码进行处理：和像素级的。在框级，预测大量的边界框以保证高召回率。因此，我们需要用置信度阈值过滤低质量的盒子。在像素级，实例分割方法通常采用sigmoid算法计算前景概率。需要一个概率阈值来分离前景和背景像素以创建遮罩。现有的方法通常以直接的方式设置阈值盒级阈值通常固定为0.7或0.9 [47，38，48]，像素级阈值通常为0.5。但这种设置方式是不合适的。对于检测分支，当前使用softmax进行类别概率的模型容易出现偏差，并预测占主导地位的类别。对于遮罩分支，前景和背景像素之间的不平衡也影响预测。在这种情况下，单个阈值很容易放大伪标签中的不平衡问题。为了解决这个问题，我们设置阈值来匹配标记和未标记图像之间的分布。在框级，我们遵循[43]并应用每个类别阈值。对于每个类别，原则是保持每个图像的平均实例数与标记和未标记的数据集相匹配。类似地，在过滤低质量框之后，我们设置像素级阈值以保持前景与背景像素的比例相等。由于遮罩预测是针对ROI进行的，因此我们只计算边界框中的像素。此外，该阈值是类不可知的，因为掩码和类预测通常是解耦的。请注意，在测试阶段，我们仍然采用0.5的阈值，因为我们无法访问测试数据集的分布。步骤3：学生模型训练。通过在框级和像素级进行阈值处理，我们获得了带有掩码注释的伪标签（伪掩码）。它们被视为训练学生模型的地面实况标签。根据以前的工作，半监督学习，迪-16829×(a)（b）第（1）款图3：实例分割中像素级噪声的图示。（a）：像素的平均准确度与它们到边界的相对距离。(b)：伪掩码标签和它们的地面实况标签之间的平均IoU与他们的尺寸。更接近边界的像素更有可能是噪声，减小尺寸可以抑制噪声。学生模型的多样性至关重要[49]，数据扩充也很重要[46，47，38]。因此，我们在训练学生模型时对图像进行数据增强，主要包括颜色变换和剪切。我们称之为强增强，以区别于伪标签生成步骤。请注意，为了公平比较，我们在测试阶段不采用任何增强策略。3.2. 抗噪掩模头上述框架使我们能够训练半监督实例分割模型。然而，伪掩模中固有地存在噪声，这妨碍了性能。我们需要一种抗噪音的学习来对抗它。当训练学生模型时，RPN [44]生成的每个建议将被分配一个来自伪标签的掩码。在RoI-Align和掩模头之后，生成掩模预测。分配的掩码监督这个学习过程。在伪掩模情况下，分配的标签并不总是准确的。不正确的标签会误导学习并降低性能。我们设计了一个噪声容忍掩码头（NTM），以帮助我们的模型更好地抵抗伪标签中的噪声。为了在学习过程中抵抗噪声，我们需要investi- gate哪些像素更有可能是噪声。答案是：更接近边界的像素。边界相关区域的噪声更大，因为它们通常与决策边界相对应此外，它们包含难以学习的详细信息。为了进一步验证这一点，我们对Cityscapes数据集进行了实证研究[16]，并将其绘制在图3a中。像素的平均准确度很高，超过90%。然而，对于非常接近边界的像素，平均精度明显较低。因此，要抑制伪掩模中的噪声，关键在于边界相关区域。它们的细节和特征只有在掩模分辨率足够高时才可见。在Mask RCNN [19]中，图4：我们的抗噪面罩头的结构。我们添加了一个分支，用于预测低分辨率的结果。低分辨率掩模更好地抵抗噪声，从而使网络更具噪声容忍度。除非另有说明，否则箭头表示conv或deconv层。Conv内核大小与Mask RCNN中的大小相同C表示类别的数量掩模地面实况通常被缩小到28 28。当图像尺寸变小、分辨率降低时，图像的细节会变得不明显，而噪声主要存在于细节中。这在图3b的数值分析中得到证明。随着掩码大小的减小，伪标签及其对应的地面真值标签之间的整体掩码IoU增加了一点，边界IoU [14]显着改善。我们得出结论，缩小掩模有利于伪标签的质量，特别是对于边界附近的区域。基于上述分析，我们提出了一种抗噪声的掩模头.我们为低分辨率掩码预测添加一个分支，其结构如图4所示。这个分支由一个较小的掩码（我们在实践中采用14由于体积小，分辨率低，其特点是更干净，更抗噪。因此，该分支能够利用更准确的信息，这有助于在半监督集合中进行学习。然而，由于分辨率低，预测的分割结果是粗糙的，很难保留细节。因此，仍然保留了原有的高分辨率掩模头。具体来说，原始的高分辨率分支旨在学习细粒度的信息，这更有可能受到噪声的影响，而低分辨率分支则旨在学习粗糙但干净的信息。来自低分辨率分支的特征被融合到高分辨率分支中以传递干净的消息。通过这种结构，我们实现了更强的噪声容忍学习。在测试阶段，我们只应用高分辨率分支。3.3. 保边界映射通过噪声容忍掩模头，我们的模型更好地抵抗来自边界相关区域的噪声然而，边界对于例如分割也是必不可少的，因为其中的详细信息对于预测掩模的质量是必要的。在本节中，我们提出了一个16830∇∇∇图5：现有边界保持模型在全监督和半监督任务上的性能。这些方法对于全监督任务显著提高了性能，但是由于边界区域中的噪声，这些方法在半监督设置边界保持映射（BPM），以协助半监督任务中的边界学习。在PointRend [28]、BMask RCNN [15]和RefineMask[58]等近期作品中讨论了促进边界学习。这些方法对于全监督学习是有效的，但仅限于半监督任务。为了证实这一点，我们在Cityscapes数据集上进行了实验，其中40%的随机选择的图像作为标记图像，并在图5中绘制了所获取的掩模AP。据观察，这些方法在全监督任务中提高了与Mask RCNN基线的2%以上的原因在于嘈杂的边界。在半监督任务中，传统方法以增加边界感知噪声的不利影响为代价来促进边界学习。因此，这些方法不适合于半监督分割。因此，在半监督学习中，重要的是保持边界，而不是放大噪声。为了促进边界学习，模型应该更多地关注更接近边界的像素。为了减少噪声，在训练期间应该抑制最有可能是噪声的像素。图3a表明，对于那些到边界的距离非常小的像素，噪声过大。所以我们需要抑制这些像素。基于上述分析，我们提出了我们的边界保持映射。在BPM中，像素的值与其到边界的距离负相关。唯一的例外是非常接近边界的像素，其值应该很小以抑制噪声。所有像素的距离计算是有效的，但计算复杂，大大降低了训练速度。将sigmoid函数输出的掩码概率表示为p=[pij]。我们发现，拉普拉斯运算的概率图，2p，很好地满足上述要求，是计算效率。因此，我们采用2p作为我们的BPM。我们直接使用我们的BPM为不同的像素重新加权蒙版损失，这是一个（一）(b)（c）第（1）款图6：我们的边界保持重新加权的图示。（a）：说明性实例，（b）：2pvs. 像素到边界的距离，（c）：像素精度的平均值与. 其值为0.2P。简单但有效的策略。我们在图中展示了BPM的说明性示例六、对于属于边界相关区域但不位于沿边界的窄带中的像素，它们的值最高。这些像素通常包含详细的信息，并且相对干净，因此应该引起注意。此外，由于这种设计，我们的BPM有点不依赖于噪声。有了这个属性，我们的BPM的好处边界学习，并没有增加噪音的影响。这使得它适合于半监督任务。4. 实验我们在Cityscapes [16]，MS COCO [36]和BDD 100K[56]上评估了我们提出的方法。Cityscapes为训练集提供了2，975张图像。此外，它由20，000张带有粗略注释的图像组成。COCO包含118，287张图片。它还提供了123，403个未标记的图像。BDD 100K是一个关于视觉驾驶场景的多样化数据集。只有BDD 100K的一个子集是像素级注释的：大约7k图像带有掩模注释，70k图像带有框注释。其中，67k图像具有框级注释，但没有像素级标签。我们的方法是用 Pytorch [42] 和MMDetection [10]实现的。除非另有说明，否则我们使用Mask RCNN [19]与ResNet50 [20]和FPN [34]。4.1. 城市景观实验使用不同百分比的标记图像进行实验我们在Cityscapes验证集上评估我们的方法。我们从训练集中随机选择一定比例的图像由于半监督实例分割是一个新的任务，我们扩展了两个最相关的任务-半监督对象检测和语义分割的方法进行比较。结果来自Tab。1建议16831††→→表1：在Cityscapes上的实验结果，具有不同百分比的标记图像。表示在半监督训练中采用相同的数据增强§表示将焦点损失用于检测分支。方法百分之五百分之十百分之二十百分之三十百分之四十监督11.816.822.326.327.7监督的†11.316.422.626.628.3半监督目标检测方法DD [43]13.719.224.627.429.5STAC [47]11.918.222.929.029.8CSD [25]14.117.924.627.528.9[第38话]16.020.027.128.029.6半监督语义分割方法CCT [41]15.218.624.726.528.4双分支[39]13.918.924.028.928.9半监督实例分割方法基线15.720.225.528.329.5我们17.122.129.032.433.0我们的§21.223.730.833.234.1这些方法都是强有力的基线。没有数据增强的伪标签方法NTM和BPM是我们的半监督实例分割基线。结果列在选项卡中。1.一、我们的方法在不同程度的监督数据下表现得更好。与无偏老师[38]相比，半监督对象检测中最先进的检测器，我们的方法在各种设置下都有很大的优势。当标记率为30%和40%时，AP提高达4.4%和3.4%。对于CCT [41]，最近一种有效的半监督语义分割方法，我们的方法在30%的设置中超过了近6%。与半监督实例分割基线相比，我们的方法基本上将掩模AP提高了3%。当标记率为中等时，增加更多：20%和30%标记率分别为3.5%和4.1%。这表明我们的方法从噪声边界中学习得更好。与有监督的同行相比，我们实现了超过6%的改善。验证了未标记图像的重要性和半监督实例分割的必要性我们的方法旨在从半监督实例分割的噪声边界中学习，从而针对掩码预测分支。焦点丢失[35]已被证明有利于半监督对象检测。我们对检测分支应用焦点损失，分割精度可以进一步提高。特别地，当标记百分比为40%时，掩模AP为34.1%，这高于其中所有图像都是像素注释的全监督方法（33.8%）。当标记图像为30%时，33.2%的AP也相当。这证明了半监督学习的巨大潜力。粗注释图像的实验。我们也表2：使用粗注释图像的Cityscapes实验结果。表示在半监督训练中采用相同的数据增强。§de-注意到使用检测分支的焦点损失。方法APAP50AP75监督33.861.831.4监督的†粗燃气轮机34.723.361.849.433.718.3粗微调34.259.932.3细→粗→细我们的35.839.362.965.635.338.9我们的§41.168.242.1使用来自训练集的所有图像进行实验，并将额外粗注释的图像用作未标记的图像。我们设计了以下实验进行比较。粗GT：直接使用给定的粗注释;粗微调：首先使用粗注释图像进行训练，然后使用细注释图像进行微调;细粗精：首先使用细注释图像训练模型，然后使用粗注释图像进行学习，最后使用细注释图像进行微调，正如[57]。从Tab。2，我们注意到，对于20，000张图像，我们的方法实现了39.3%的AP，超过了监督学习5.5%。这表明，我们的半监督方法帮助模型摆脱了数据集规模的限制。我们的方法比使用人工标记的粗糙注释的设计方法更好-比它们高出3.5%以上。利用un-beled图像获得更好的性能比使用人类标记的图像！这证明了我们的方法利用未标记信息的高效性。随着焦点丢失，我们获得41.1%的AP。这种卓越的性能证实了半监督实例分割的实际应用能力4.2. 消融研究我们使用30%的图像作为标记图像对Cityscapes进行消融研究结果在Tab中。3 .第三章。我们采用一般掩模AP和边界AP[14]来分别评估掩模和边界的质量。数据扩充。我们首先在学生模型训练步骤中评估数据增强的效果。数据扩增增加了输入样本的多样性，从而有助于提高性能。然而，它在全监督学习中受到限制，仅带来0.3%的改进。即使所有图像都被标记，AP的增加仍然小于1%。相比之下，对于半监督学习，数据增强将分割AP从28.3%增加改善更为显著，几乎为2%。这与以前的作品[46，47，38]中的结论一致，即数据增强是cru-半监督学习中的学生模型。16832图7：Cityscapes上的示例性结果，以显示我们的NTM和BPM的有效性。NTM有助于更正确地检测到实例（放大的绿色框），BPM有助于更精确的边界（放大的黄色框）。表3：Cityscapes的消融研究。DA：数据扩充，NTM：噪声容限掩模头，BPM：边界保持图。我们评估掩模AP和边界AP，缩写为APbd。注释DA NTM BPMAPAPbd30%标记✓26.326.68.27.828.310.0✓✓✓✓✓30%标记70%未标记30.231.131.010.410.911.6✓✓✓32.411.6100%标示✓33.834.712.712.9抗噪面罩头。选项卡中的结果。3表明，我们的NTM有助于提高掩模AP0.9%，而边界AP的改善并不显著。这表明NTM有助于半监督学习，主要是因为它有利于整体分割性能，如更正确的检测实例或整体掩码。由于伪标签中的噪声对网络的学习产生误导，影响了网络的整体识别能力。我们的NTM解决了这个问题，因此有助于掩模AP。图中的说明性结果7也证实了我们的分析。在第一和第三图像中，由于NTM，错过的自行车被在第二个图像中，检测到中间的汽车可视化结果与数值计算结果和我们的分析相一致边界保持映射从Tab。3，我们观察到在BPM的帮助下，掩模AP提高了0.8%。与NTM不同，BPM也显著改善了边界AP这表明BPM有助于性能，主要是因为它有助于边界的质量。这一事实与BPM的功能密切相关：它有助于模型关注边界区域并学习更详细的信息。这一点也得到了图1所示结果的7 .第一次会议。在第一幅图像中，使用BPM，人的轮廓，特别是在头部，更真实。同样的事情也发生在第二幅图中的汽车顶部和第三幅图中的电动机前轮。这证明了我们的BPM对边界学习的有效性。4.3. COCO实验我们还在具有挑战性的COCO数据集上进行了实验。同样，我们从COCO 2017训练集中随机选择一定比例的图像作为标记数据，16833†图8：我们的方法在COCO（第一行）和BDD 100K（第二行）上的实例分割结果。表4：具有不同百分比的标记图像的COCO上的结果。表示数据扩充。我们使用COCO 120k未标记图像进行100%实验。方法百分之一百分之二百分之五百分之十百分之三十百分百监督3.59.417.322.028.934.5监督的†DD [43]3.53.89.511.817.420.421.924.229.030.537.135.7我们7.716.324.929.232.838.6表5：BDD 100K的实验结果。注释方法AP7k带面罩Mask RCNN21.6Mask RCNN24.57k带面罩[27]第二十七话21.067k（含包装盒）[59]第59话24.8[59]第五十九章：你是谁？26.27k带面罩半基线24.467 k w/o标签我们26.3其余的都是没有标签的。对于30%的设置，我们简单地使用COCO 2014验证集的35k子集对于100%设置，我们使用COCO 2017训练集的所有图像作为标记图像，120k COCO未标记图像作为未标记图像。我们在选项卡中列出掩码AP。4.第一章我们的方法仍然优于监督基线。当标记图像为5%和10%时，我们的半监督学习将监督学习提高了7%以上，这是非常突出的。对于100%的实验，其中所有像素注释的图像被采用，并且利用的数据更多，我们的方法实现了38.6%的AP。上述实验验证了我们的半监督实例分割的价值。4.4. BDD 100K实验我们进一步在BDD 100K数据集上进行基准测试我们使用带有掩模注释的7k图像作为标记图像，16834将仅具有框级注释的67k图像作为未标记的图像。它们的框注释不参与训练。我们将我们的结果与[59]中的方法进行比较，其中67k图像的框注释用于部分监督学习。作为Tab。5显示，我们的方法获得了26.3%的AP，超过其监督基线4.7%。我们的方法比MaskRCNN w/ ShapeProp [59]更好，其中使用了框注释。这进一步表明，我们的方法充分利用了未标记图像中的信息，因此利用未标记图像优于采用框级注释图像的先前方法。5. 结论考虑到标记掩码注释的巨大开销，我们提出了半监督实例分割任务。它使模型能够充分挖掘可用信息，探索更广泛的资源。使用伪标签，未标记的图像参与训练并帮助提高性能。通过进一步从噪声边界中学习，我们减轻了噪声伪标签带来的负面影响，并利用边界相关区域内更有价值的信息。在基准数据集上的非凡性能证明了我们方法的强大能力。半监督实例分割是一个具有挑战性但有趣的问题。我们希望我们简单而有效的框架将促进未来沿着这个方向的研究。确认本研究得到了国家 “ 十四五 ” 重点发展项目2021QY1702、2021YFF0602103、2021YFF0602102的资助。我们也感谢研究经费，批准号：2019GQG0001来自清华大学郭强研究所。16835引用[1] Murat Seckin Ayhan和Philipp Berens。用于估计深度神经网络中异方差任意不确定性的测试时数据在MIDL，2018年。3[2] 约瑟芬·本吉奥，奥利维耶·德拉洛，尼古拉斯·勒鲁。标签传播和二次准则。2006. 3[3] 大卫·贝特洛、尼古拉斯·卡利尼、伊金·D·库布克、亚历克斯·库-拉金、孙奇赫、张涵和科林·拉菲尔。Remix-match ：具有分布对齐和增强锚定的半监督学习在ICLR，2020年。3[4] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin Raffel 。Mixmatch：半监督学习的整体方法。NeurIPS，2019。3[5] Daniel Bolya，Chong Zhou，Fanyi Xiao，and Yong JaeLee. Yolact：实时实例分割。在CVPR，2019年。一、二[6] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn：深入研究高质量的对象检测。在CVPR，2018年。2[7] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn：高质量的对象检测和实例分割。TPAMI，2019。2[8] 陈浩，孙昆阳，田智，沈春华，黄永明，严友良.Blendmask：自上而下与自下而上相结合，用于实例分割。在CVPR，2020年。2[9] 陈凯，庞江淼，王佳琪，熊宇，李晓，孙树阳，冯万森，刘紫薇，石建平，欧阳万里，等.混合任务级联实例分割.在CVPR，2019年。2[10] Kai Chen，Jiaqi Wang，Jiangmiao Pang，Yuhang Cao，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jiarui Xu，et al. Mmdetection：Open mmlabdetection tool- box and benchmark.arXiv 预印本 arXiv：1906.07155，2019。5[11] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML，2020。3[12] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv：2003.04297，2020。3[13] Xinlei Chen，Kaiming He.探索简单的连体表示学习。在CVPR，2021年。3[14] 郑博文，罗斯·格希克，彼得·多尔·拉尔，亚历山大·基里洛夫。边界iou：改进以对象为中心的图像分割评价。在CVPR，2021年。四、六[15] Tianheng Cheng，Xinggang Wang，Lichao Huang，andWenyu Liu.边界保持掩模r-cnn。在ECCV，2020年。二、五[16] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。一、二、四、五[17] Chen Fan，Qibin Hou，Ming-Ming Cheng，Gang Yu，Ralph R Martin，and Shi-Min Hu.关联图像间弱监督语义分割的突出实例。在ECCV，2018。2[18] 布莱恩·R·吉布森，蒂莫西·T·罗杰斯，朱晓金。半监督学习。认知科学专题，2013年。1[19] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick. 面具 R-CNN 。 InICCV ， 2017. 一、二、三、四、五[20] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。5[21] Ruifei He，Jihan Yang，and Xiaojuan Qi.重新分配半监督语义分割的有偏伪标签：基线调查。ICCV，2021。第1、3条[22] 许正春、许光瑞、蔡中琪、林燕玉、庄永玉。使用边界框紧密度先验的弱监督实例分割。NeurIPS，2019。一、二[23] RonghangHu，PiotrDolla'r，KaimingHe，TrevorDarrell，andRoss Girshick. 学会把每一件事都分割开来。在CVPR，2018年。2[24] Zhaojin Huang，Lichao Huang，Yongchao Gong，ChangHuang，and Xinggang Wang.面具得分r-cnn。在CVPR，2019年。一、二[25] Jisoo Jeong ， Seungeui Lee ， Jeesoo Kim ， and NojunKwak.基于一致性的对象检测半监督学习。NeurIPS，2019。一、三、六[26] 张汉柯，邱迪，李凯灿，严琼，刘永成.基于像素半监督学习的引导协作训练。在ECCV，2020年。3[27] Anna Khoreva 、 Rodrigo Benenson 、 Jan Hosang 、Matthias Hein和Bernt Schiele。很简单：弱监督实例和语义分割。在CVPR，2017年。8[28] 亚历山大·基里洛夫，吴宇新，何开明，罗斯·吉尔希克.点趋势：图像分割作为渲染。在CVPR，2020年。二、五[29] Weicheng Kuo，Anelia Angelova，Jitendra Malik，andTsung-Yi Lin. Shapemask：通过细化形状先验来学习分割新对象。在CVPR，2019年。2[30] Samuli Laine和Timo Aila用于半监督学习的时间集成在ICLR，2017。2[31] 亚历山大·拉图雷特和桑德拉·R·韦克斯曼。一个小的标签走了很长的路：婴儿期的半监督学习发展科学，2019年。1[32] 李东贤伪标签：用于深度神经网络的简单高效的半监督学习方法。InICMLW，2013. 3[33] Jungbeom Lee，Jihun Yi，Chaehun Shin，and SungrohYoon.Bbam：弱监督语义和实例分割的边界框属性图。在CVPR，2021年。2[34] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR，2017年。5[35] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。InICCV，2017.6[36] Tsung-Yi Lin，Michael Maire，Serge Belongie，James16836Hays ， PietroPerona ， DevaRamanan ， PiotrDolla'r ，andCLa wrence16837齐特尼克 Microsoft coco：上下文中的公共对象。在ECCV，2014年。一、二、五[37] 刘舒，陆琪，秦海防，石建平，贾佳雅。用于实例分段的路径聚合网络。在CVPR，2018年。2[38] Yen-Cheng Liu ，Chih-Yao Ma， Zijian He， Chia-WenKuo ， Kan Chen ， Peizhao Zhang ， Bichen Wu ， ZsoltKira，and Peter Vajda.无偏见的教师半监督对象检测。ICLR，2021年。一二三四六[39] 洛文峰，杨梦。基于强弱双分支网络的半监督语义分割。在ECCV，2020年。一、三、六[40] Takeru Miyato、Shin-ichi Maeda、Masanori Koyama和Shin Ishii。虚拟对抗训练：一种用于监督和半监督学习的正则化方法TPAMI，2018年。2[41] YassineOuali，C e'lineHudelot，andMyriamTami. 具有交叉一致性训练的半在CVPR，2020年。一、三、六[42] Adam Paszke ， Sam Gross ， Francisco Massa ， AdamLerer ， James Bradbury ， Gregory Chanan ， TrevorKilleen ， Zeming Lin ， Natalia Gimelshein ， LucaAntiga ， et al. Pytorch ： An imperative style ， high-performance deep learning library. NeurIPS，2019。5[43] IlijaRadosavo vic ， PiotrDolla'r ， RossGirshick ， GeorgiaGkioxari，and Kaiming He.数据蒸馏：走向全监督学习。在CVPR，2018年。三六八[44] 任少卿、何开明、罗斯·格尔希克、孙健。Faster r-cnn ： Towards real-time object detection with regionproposal networks.InNeurIPS，2015. 二、四[45] Yunhang Shen ， Rongrong Ji ， Yan Wang ， YongjianWu，and Liujuan Cao.用于弱监督联合检测和分割的循环引导。在CVPR，2019年。一、二[46] Kihyuk Sohn，David Berthelot，Chun-Liang Li，ZizhaoZhang ， Nicholas Carlini ， Ekin D Cubuk ， AlexKurakin，Han Zhang，and Colin Raffel.Fixmatch：用一致性和信心简化半监督学习。在

下载后可阅读完整内容，剩余1页未读，立即下载