自适应早期学习校正的噪声标注分割算法

179 浏览量更新于2023-10-26 收藏 1.55MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2606自适应早期学习校正的噪声标注分割算法刘胜*1刘康宁*1朱伟成1沈一秋1Carlos Fernando-Granda1，21纽约大学数据科学中心2纽约大学柯朗数学科学摘要存在噪声注释的深度学习在分类中得到了广泛的研究，但在分割任务中研究得很少。在这项工作中，我们研究了在不准确的注释数据上训练的深度分割网络我们观察到一个以前在分类背景下报道过的现象：网络倾向于在“早期学习”阶段首先拟合干净的像素级标签然而，与分类相反，记忆中的分割并不同时出现受这些研究结果的启发，我们提出了一种新的方法，从噪声注释分割两个关键要素。首先，我们在训练过程中分别检测每个类别的记忆阶段的开始。这使我们能够自适应地纠正嘈杂的注释，以利用早期学习。其次，我们引入了一个正则化项，该项可以强制跨尺度的一致性，以提高对注释噪声的鲁棒性。我们的方法优于标准方法的医学成像分割任务，噪声合成模仿人类注释错误。它还为弱监督语义分割中存在的真实噪声注释提供了鲁棒性，在PASCAL VOC 2012上实现了最先进的结果11. 介绍语义分割是计算机视觉中的一个基本问题目标是为每个像素分配一个标签在图像中，指示其语义类别。基于卷积神经网络（CNN）的深度学习模型实现了最先进的性能[9，39，51，65]。这些模型通常以监督的方式进行训练，这需要像素级注释。不幸的是，收集像素级注释的成本非常高，并且在某些应用中可能需要重要的领域专业知识[17，32，40，48]。此外，注释噪声在某些应用中是不可避免的。*前两位作者贡献相等，顺序由抛硬币决定1代码可在https://github.com/Kangningthu/阿黛尔输入地面实况基线基线+ADELE图1.基线方法SEAM [52]的分割结果的可视化以及基线与提议的自适应早期学习校正（ADELE）的结合。我们提出的ADELE提高了分割质量。更多示例见附录A.1。阳离子例如，在医学成像中，分割注释可能会受到阅读者之间注释变化的影响[22，63]。因此，学习从噪声注释中执行语义分割是实践中的一个重要课题先前关于从噪声标签中学习的工作集中在分类任务上[33，46，57]。关于分段的工作相对较少，其中现有的工作集中在设计噪声鲁棒网络架构[50]或并入特定于域的先验知识[42]。相反，我们专注于通过研究学习动态来提高更一般的性能。我们观察到，网络倾向于在“早期学习”阶段首先适应干净的注释这种现象在分类的背景下已经报道[33]。然而，语义分割中的这种现象与语义分割中的这种现象有显著的不同。按以下方式分类：• 分割标签中的噪声通常是空间相关的。因此，在训练期间利用空间信息是有益的。• 在语义分割中，由于像素不平衡的标签，所有语义类别的早期学习和记忆不会同时发生。以前的方法[28，33]在嘈杂的标签分类往往假设类2607类别标签噪声分割鸟凸轮人狗沙发自行车逐像素噪声注释训练图像图像分割模型逐像素初始注释分类模型图2.一个普遍的培训WSSS的管道。我们的目标是改善噪声注释的分割模型。平衡数据，从而同时检测或处理不同类别的错误标签。• 语义分割中的注释噪声可能是普遍存在的（所有示例都有一些错误），而分类中的最新方法[28，33，67]假设一些样本是完全干净的。受这些观察的启发，我们提出了一种新的方法，ADELE（自适应早期学习校正），这是专为从噪声注释分割我们的方法通过在训练过程中监测每个类别的交集（IoU）曲线来检测记忆阶段的开始这使得它能够自适应地纠正嘈杂的我们还引入了正则化项来提高空间一致性，这进一步提高了分割网络对注释噪声的鲁棒性。为了验证我们的方法的有效性，我们考虑了一个设置，其中嘈杂的注释是合成和可控的。我们还考虑了一种实用的设置-我们专注于WSSS中的一个流行管道。该管道由两个步骤组成（参见图2）。首先，使用分类模型来生成像素级注释。这通常是通过应用类激活图（CAM）的变体[66]结合后处理技术[3，25]来实现的其次，这些像素级注释用于训练分割模型（例如deeplabv1 [8]）。由分类模型生成，提供给分割模型的逐像素注释不可避免地是有噪声的，因此第二步确实是有噪声的分割问题。因此，我们将ADELE应用于第二步。综上所述，我们的主要贡献包括：• 我们分析了分割网络在使用噪声像素级注释进行训练时的行为。我们表明，在带有注释噪声的分割中，训练动态可以分为早期学习和记忆阶段。重要的是，我们发现这些动态在每个语义类别中都是不同的。• 我们提出了一种新的方法（ADELE）来执行带有噪声像素级注释的语义分割，该方法通过使用模型输出自适应地校正注释来利用早期学习• 我们评估ADELE在胸部器官分割任务中的注释被损坏，类似于人为错误。ADELE能够避免死记硬背，超越标准基线。我们还进行了广泛的实验，研究ADELE对各种类型和水平的噪音。• ADELE在PASCAL VOC 2012 for WSSS上达到了最先进的水平。我们表明，ADELE可以与几种不同的现有方法相结合，用于在WSSS中提取像素级注释[3，14，52]，从而持续大幅提高分割性能。2. 方法2.1. 从噪声注释中分割的早期学习和记忆在具有标签噪声的典型分类设置中，图像的子集被错误地标记。在先前的工作中已经观察到，深度神经网络倾向于在早期学习阶段首先用干净的标签拟合训练数据，然后最终记住带有不正确标签的示例[4，33]。在这里，我们表明，这种现象也发生在分割时，可用的像素方式的符号是嘈杂的（即。某些像素不正确）。我们考虑两个不同的问题。首先，医学成像中的分割，其中注释噪声主要是由于人为错误。第二，弱监督语义分割中由于分类模型的偏差而产生的标注噪声，因为它们大多集中在可区分的区域上，并且后处理错误可能导致系统的过分割或欠分割。给定我们知道基本事实的噪声注释，我们可以通过分析错误标记的模型输出来量化早期学习和记忆现象：• 早期学习IoU_el：我们使用输出与被错误标记的像素上的对应的地面真实值标签之间的重叠（根据并集上的交集（IoU）度量测量）来量化早期学习，由IoU_el表示。• 记忆IoUm：我们使用CNN输出和不正确标签之间的重叠（以IoU测量）来量化记忆，由IoUm表示。图 3 展示了随机损坏的 CT 扫描分割数据集（SegTHOR [27]）上的早期学习和记忆我们分析学习2608100食管心脏气管主动脉8060402001 20 40 60 80 100 1 20 40 60 80 100 1 20 40 60 80 100 1 20 40 60 80 100时代时代时代时代IoUm memorization IoUel early-learning IoUm memorization（ADELE）IoUel early-learning（ADELE）图3.我们可视化了早期学习（IoUel，绿色曲线）和记忆（IoUm，红色曲线）对医疗数据集SegThor的每个前景类别的（实线）和（虚线）ADELE的错误注释像素的影响[27]。该模型是一个UNet，用模仿人为错误的嘈杂注释进行训练。IoU_el是模型输出与在不正确标记的像素上计算的地面实况之间的IOU。IoUm是模型输出和错误注释之间的IOU。对于所有类，IoUm随着训练的进行而大幅增加，因为模型会逐渐记住不正确的注释。对于不同的类别，这以不同的速度发生。相比之下，IoUel首先在模型学习正确分割错误标记的像素的早期学习阶段增加，但最终随着记忆的发生而减少与记忆一样，早期学习也会以不同的速度对不同的语义类别进行学习。PASCAL VOC图见附录中的图10在训练过程中，在注释不正确的像素上绘制曲线该图显示了不同训练时期的IoUm（红色虚线）和IoUel对于所有类，输出和不正确标签之间的IoU（IoUm）随着训练的进行而大幅增加，因为模型会逐渐记住不正确的注释。对于不同的语义类别，这种记忆过程以不同的速度发生（将心脏和动脉与SegThor数据集中的气管或食道进行输出和正确标签之间的IoU（IoUel）遵循一个完全不同的轨迹：它首先在早期学习阶段增加，在此阶段模型学习正确分割标记错误的像素，但最终随着记忆的发生而减少（对于WSSS数据集，我们观察到一个非常相似的现象，如图11中的Ap-pendant所示）。与记忆一样，早期学习也会以不同的速度对不同的语义类别进行学习。图4说明了早期学习和备忘录化对模型输出的影响在医学成像应用中，噪声注释（第三列）被合成为类似于人类注释错误，其错过或包含地面实况区域（与第二列相比）。在早期学习之后，这些区域由分割模型识别（第四列），但是在备忘录化之后，模型过度拟合不正确的注释并且忘记如何正确地分割这些区域（第五列）。在WSSS中观察到类似的效果，其中由分类模型生成的噪声注释丢失了一些对象区域，这可能是因为它们不是特别有区别的（例如，第一排、第二排和第四排的狗、猫和人的身体，或者第三排的公共汽车的上半部分）。分割模型首先识别这些区域，但最终过度拟合到不正确的注释。我们在这项工作中的目标是修改在有噪声的注释上训练分割模型，以防止记忆。这是通过结合下面两节中描述的两种策略来实现的图3和图4显示，所得到的方法基本上减轻了记忆（红色实线），并促进了早期学习阶段之后的持续学习（绿色实线）。2.2. 基于早期学习的自适应标记校正上一节中描述的早期学习现象表明了一种增强分割模型的策略类似的想法启发了带有噪声标签的分类工作[33，37，46，60]。然而，与噪声主要是样本方式的分类任务不同，注释噪声在示例中无处不在，并且以像素方式。这种方法要想成功，有一个关键的考虑因素确定何时使用模型输出校正像素级注释具有挑战性，原因有二：• 同时纠正所有类可能是次优的。• 在训练过程中，我们无法访问模型在地面实况注释上的性能（否则，我们将首先使用它们来训练模型！）。为了克服这些挑战，我们提出在不同的时间更新对应于不同类别的注释，通过检测早期学习何时发生以及记忆何时即将开始使用模型的训练性能。在我们的实验中，我们观察到训练集上的分割性能（由IoU测量）是-IoU（%）2609早期学习≥输入地面实况噪声注释模型输出记忆后的模型输出更正ADELE中的注释图4.直观的例子说明早期学习和记忆现象。对于医学数据集Segthor [27]（顶部两行）和WSSS数据集VOC 2012 [13]（底部四行）中的几个图像，我们显示了地面实况注释（第二列），通过医疗数据的合成腐败过程和WSSS的基于分类的SEAM [52]模型获得的噪声注释（第三列），早期学习后在噪声注释上训练的模型分割模型的输出（第四列），以及记忆后相同模型的输出（第五列）。医疗数据集的模型是UNet。WSSS模型是使用SEAM注释训练的标准如图3中的图表所示，在早期学习之后，模型纠正了一些注释错误，但这些错误在记忆之后再次出现。ADELE能够利用早期学习输出纠正标签，从而避免记忆（第六列）。我们将背景颜色设置为浅灰色以便于可视化。模型输出和噪声注释之间的差异）在早期学习中快速提高，然后在记忆过程中缓慢得多（参见图5中最右边的图）。我们建议使用这种减速来决定何时更新嘈杂的注释。为了估计减速，我们首先将以下指数参数模型拟合到训练中和c0是拟合参数。然后我们计算参数模型在t= 1和当前迭代时关于t的导数f 0（t）。2对于每个语义类别，当导数的相对变化高于某个阈值r时，即，当使用最小二乘法的IoU：f（ t）= a 1，1-二氯苯并噻吩（1）|>r，（2）|>r,(2)|（1）|其中t表示训练时间，0

下载后可阅读完整内容，剩余1页未读，立即下载