超越语义的实例分割：语义知识转移和自细化的方法

181 浏览量更新于2023-10-25 收藏 1.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4278超越语义到实例分割：通过语义知识转移和自细化的Beomyoung Kim1Youngjoon Yoo1，2Chae Eun Rhee3Junmo Kim4NAVER CLOVA1NAVER AI Lab2Inha University3KAIST4摘要弱监督实例分割（WSIS）被认为是比弱监督语义分割（WSSS）更具挑战性的任务。与WSSS相比，WSIS需要实例本地化，这很难从图像级标签中提取。为了解决这个问题，大多数WSIS方法使用现成的建议技术，这些技术需要使用实例或对象级别标签进行预训练，偏离了完全图像级别监督设置的基本定义在本文中，我们提出了一种新的方法，包括两个创新的组成部分。首先，我们提出了一个语义知识转移，以获得伪实例标签的知识转移的WSSS到WSIS，同时消除了需要的现成的建议。其次，我们提出了一种自我改进的方法来改进的伪实例标签在一个自我监督的计划，并使用改进的标签进行训练，在一个在线的方式。在这里，我们发现了一个错误的现象，语义漂移，发生的情况下，失踪的伪实例标签归类为背景类。这种语义漂移会造成训练过程中背景和实例之间的混淆，从而降低分割性能。我们把这个问题称为语义漂移问题，并表明我们提出的自求精方法消除了语义漂移问题。在PASCAL VOC 2012和MS COCO上的大量实验证明了我们方法的有效性，并且我们在没有现成建议技术的情况下实现了相当大的性能该代码可从https：//github.com/clovaai/BESTIE网站。1. 介绍最近的弱监督语义分割（WSSS）方法[21，28，29，45]已经实现了令人印象深刻的性能增强，通常使用类激活图（CAM）[46]从图像级标签获得类局部化图然而，微弱的-(1)依赖现成的建议技术（2）语义漂移问题输入图像预训练建议技术伪标号0…奶牛（图像级标签）先前方法奶牛背景缺少实例（=背景）图1.以前的WSIS方法的两个局限性：（1）依赖于现成的建议技术，需要用包括对象或实例信息的高级标签进行预训练。（2）作为背景类引导的伪标签中缺失实例导致的语义漂移问题我们提出的BESTIE旨在同时解决这两个问题。使用图像级标签的监督实例分割（WSIS）仍然是一个开放的任务，因为CAM不提供逐实例定位图。为了提取实例信息，大多数WSIS方法使用现成的建议技术。PRM [47]从MCG [38]生成的分段建议中获取合适的实例掩码，并生成伪实例标签。此外，LIID [33]利用预训练的显着实例分割器[12]，其产生类不可知的实例级掩码。我们注意到，每种方法中使用的MCG和显著实例分割器分别需要使用对象边界标签和类不可知实例掩码进行预训练然而，如图1所示，以提案为导向的WSIS方法有两个局限性。首先，它们对现成的建议技术的依赖性相当高，并且这使得这些方法难以应用于其他特定领域，例如医学图像，因为建议技术主要针对一般对象。此外，在严格意义上第二，这些方法不能处理由包含丢失的实例的噪声伪标签引起的性能降级（即，假阴性）。如图1所示，左边两个丢失的奶牛被引导到后台类4279并且正确的奶牛被引导到奶牛类，尽管所有奶牛具有语义上相似的视觉提示。我们称之为语义漂移问题。这种背景和实例之间的语义漂移使网络混淆，并恶化了稳定的训练收敛。在本文中，我们提出了一个新的 WSIS 方法，BESTIE：BEyond语义分割实例分割。BESTIE不赞成使用现成的技术来严格遵循完全图像级别的监督设置。BESTIE还解决了语义漂移问题。为了解决这两个问题，BESTIE提出了语义知识转移和自求精两个创新组件。具体来说，在语义知识转移方面，我们将研究比较深入的WSSS知识转移到WSIS中为了从图像级标签中获得实例提示，我们提出了峰值注意模块（PAM），使CAM突出对象的稀疏代表区域。我们注意到，建议的组件只使用图像级标签，包括WSSS，这消除了对现成建议技术的需要。此外，为了解决语义漂移问题，我们引入了实例感知的指导，动态分配的指导区域只标记的实例区域。该策略允许更稳定地训练网络，并逐步捕获缺失实例的实例级信息。与此策略一起，为了进一步细化伪标签，我们提出了自监督实例标签细化方法，该方法通过自监督方式将伪标签中的假阴性转换为真阳性，并以在线方式将其反映到训练中。这种方法，简称为自细化，随着训练的进行，提高了伪标签的在PASCAL VOC 2012 [11]和MS COCO 2017 [31]上进行的大量实验表明了所提出设计的有效性即使没有现成的建议技术，我们的方法在VOC 2012上也实现了51.0%mAP50 的最先进性能，在 COCO 上实现了28.0%AP50数据集。此外，我们通过将实例线索替换为点标签来对点监督实例分割进行建模，并且可以以经济的注释成本进一步提高性能。我们的贡献可概括如下：• 我们提出了一种新的WSIS方法，只使用图像级标签，严格遵循全图像级监督设置，而不需要通过对象或实例级标签预先训练的建议技术的帮助。• 我们设计了语义知识转移策略来获取伪实例标签。这将从拟议的PAM中提取的WSSS和实例线索的知识转移到WSIS，同时消除了使用现成的提案技术。• 我们提出了一种自细化方法，以自监督的方式细化伪实例标签，并以在线方式将其反映回训练。在这里，我们引入实例感知的指导策略来解决本文新发现的语义漂移2. 相关工作2.1. 弱监督语义分割大多数处理图像级标签的弱监督语义分割（WSSS）研究使用CAM [46]来局部化类对象区域。然而，CAMs主要集中在稀疏和有区别的目标区域。为了解决这个问题，最近的WSSS方法提出了许多方法来扩大激活区域。AE-PSL [44]通过将注意力转移到相邻的非区分区域来重新移动区分对象区域DRS [21]提出了一种抑制区分区域以扩展激活区域的模块。然而，这些方法依赖于现成的指导，即：显着图。为了消除显着图的使用，还提出了无显着图的方法：RRM[45]提出了一种端到端网络，该网络联合产生CAM和分割输出，以仅从可靠像素生成伪标签。PMM [29]提出了通过变化平滑的比例伪掩模生成。此外，一些方法已经显示了WSSS扩展到各种领域的可能性，例如医学[6]和卫星[35]图像。2.2. 实例分割与在类级别对像素区域进行分类的语义分割不同，实例分割需要实例级别的掩码。最广泛使用的方法是基于框的两阶段方法，例如， Mask R-CNN [15]，预测边界框，然后为每个边界框提取实例掩码;这种方法以最先进的性能占据了统治地位。最近，对于简单的实例分割过程，已经提出了无框一阶段实例分割方法[7，34]它们使用2维（2D）偏移矢量表示每个实例每个实例的中心点从中心热图[7]中提取或通过聚类2D偏移向量[34]提取，并且实例掩码从具有中心点和2D偏移向量的实例分组中获得。2.3. 弱监督实例分割解决弱监督实例分割（WSIS）的主要困难在于从图像级标签获取实例级信息的过程为了解决这个问题，PRM [47]产生了峰值响应图4280语义知识转移实例提示自监督伪标签细化向前指导中心聚类前景掩模拒绝接受输入网络弱监督语义分割3个输出分支细化偏移贴图输出语义图伪语义图细化中心图输出中心图伪中心图伪实例标签联系我们输出偏移映射伪偏移映射Pam图2.该框架包括两个创新的步骤：语义知识转移和自求精。在语义知识传递中，我们从WSSS的知识和实例线索中获得伪实例标签在这里，我们使用峰值注意力模块（PAM）获得实例提示。在自精化中，网络以自监督的方式精化伪标签，并以在线方式将其反映到训练对于稳定的训练缓解语义漂移问题，我们采用实例感知的指导策略。我们注意到，整个过程只使用图像级标签。使用建议的峰值反向传播，然后选择MCG生成的适当分段建议[38]。Arun等人。 [3]在分段建议的帮助下定义了伪标签生成中的不确定性，并以离线方式使用伪标签迭代地训练网络。Fan等人。 [13]和LIID [33]）使用显着的实例分割器[12]，当它们生成伪标签时，它会生成此外，基于框的两阶段方法[14，19]使用选择性搜索[42]方法来生成框提案。然而，现成的建议技术需要用高级监督进行预训练：用于MCG的类不可知对象边界和用于显著实例分割器的类不可知实例掩码。此外，由于这些提议技术针对一般对象，因此干扰了它们在诸如医学图像的其他领域中的利用。IRN[1]提出了一种无命题的方法，专注于一对像素之间的类等价关系，并使用它们的位移场表示实例级信息。然而，IRN在获得准确的实例级信息方面存在困难，因为IRN中使用的像素间关系是基于类间的，而不是实例间的。据我们所知，现有方法没有考虑伪标签中缺失实例引起的语义漂移问题，这是WSIS应该解决的一个基本挑战。在本文中，我们发现和解决语义漂移问题，明确的第一次，并取得了改进的结果，在一个完全图像级的监督设置。3. 该方法3.1. 概述如图2的左半部分所示，我们首先使用WSSS和实例线索的知识获得伪实例标签，这个过程称为语义知识转移。在这里，我们使用建议的峰值注意力模块（PAM）模块从图像级标签中提取实例线索。然后，我们应用自监督伪标签细化，简称为自细化策略，其在自监督方案中细化伪实例标签，并以在线方式将它们反映到训练中，如图2的右侧部分所述。为了解决为了解决语义漂移问题，保证训练的稳定性，引入了实例感知的指导策略。我们注意到，我们的框架只使用图像级别的标签作为我们的指导来源，包括WSSS部分，以在整个过程中弃用现成的建议技术我们还在补充材料中为每个建议的组件提供了Pytorch风格的伪代码，表明我们的方法非常容易实现和简单。3.2. 初步：实例表示受Panoptic-DeepLab [7]的启发，我们将实例表示为中心点和相应的2D偏移矢量。2D偏移向量指向每个实例的中心点。采用这种表示方法，我们可以4281O∈∈∈··图像CAM PAM来自CAM的实例提示来自PAM的图3. CAM和PAM的激活图。PAM有助于提取比CAM更准确的实例提示。按照Panoptic-DeepLab的体系结构构建了一个实例分割网络，该网络由三个输出分支组成：语义分割图、中心图和偏移图。语义分割图确定前景区域。对于后处理，我们从中心图中提取每个实例的中心点;中心图的最大池化前后具有相同值的像素位置被视为中心点。然后，我们在像素级分配每个实例的ID，这个过程称为实例分组;当提取的第n个中心点表示为（xn，yn），偏移图表示为像素位置（i，j）处的（i，j）时，像素（i，j）处的实例IDki，j变为k i，j= argmin||时间复杂度O（i，j）||.（一）K3.3. 语义知识转移拟议的语义知识转移转移 WSS 的知识转移到WSIS。对于迁移，我们重新考虑了语义分割和实例分割两个条件。第一个条件是实例分割应该分离相同类的重叠实例，这与分离分割不同。第二个条件是当同一类的实例不重叠时，语义分割和实例分割是彼此等价的。基于这些条件，我们产生伪实例标签利用WSSS的知识。根据WSSS输出和实例存在提示，我们检查实例是否重叠。然后，我们选择一个非重叠的实例掩码作为伪实例掩码，如图2的左侧部分所述。具体来说，通过对每个类的WSSS输出执行连接组件标记（CCL）[16]算法，我们获得了实例掩码候选者，并检查每个实例掩码候选者中包含多少个实例提示在第二个条件之后，选择仅具有一个实例提示的实例掩码候选者作为伪实例掩码。图4. PAM架构。从选择器中选择峰区域的标准为了更好地解释，其中三个用红点表示。然后，控制器利用控制值确定对峰值区域的关注度要加强多少，并且每个值被示出为蓝线的长度。利用标准点和控制值设定峰区的边界，刺激器通过使值低于边界的噪声区域去激活来加强对峰区的注意为了正确的语义知识转移，我们需要准确的实例线索提取方法，只使用图像级标签。以前的工作，PRM[47]，从CAM [46]中提取实例提示。然而，CAM在获得准确的实例提示方面具有限制，因为由于如图3所示的噪声激活区域，可能在单个实例中提取若干实例提示。它干扰了伪实例标签的生成，因为它违反了第二个条件。为了解决这个限制，我们提出了一个峰值注意力模块（PAM），以每个实例提取一个适当的实例提示，由DRS [21]驱动 DRS抑制区分对象区域，以自我监督的方式将注意力分散到相邻的非区分区域。与DRS相反，我们的PAM旨在加强对峰值区域的关注，同时减弱对噪声激活区域的关注PAM由三部分组成，如图4所示：选择器、控制器和峰值刺激器。我们将中间特征图表示为XRH×W×K，其中H、W和K分别是X的高度、宽度和通道数。选择器利用X的全局最大池化选择峰区域的标准点，标准点记为SpR1×1×K。该控制器决定了对峰区的注意力加强的程度，记为Gp[0，1]1×1×K。我们加强对峰值区域的注意，通过停用对噪声区域的注意。特别地，τp=SpGp起峰区域的边界的作用，其中是逐元素乘法。X中高于τ p的区域被认为是峰值区域，否则被认为是噪声区域。我们通过将值设置为零来停用噪声区域，专注于峰值区域。对于控制器，我们采用了DRS的不可学习设置，即，所有的元素Gp设置为一个常数α;α设置为0.7，我们发现，在0.3和0.7之间的α的变化不会显着影响WSIS的性能PAM被插入到分类器中，我们生成激活图峰值注意力模块（PAM）峰值刺激器……控制器峰区边界��×�� ×��峰区控制值按元素相乘��×�� ×��…4282S · O·C·WC（i，j）=pseudo（2）否则，早期训练阶段中级训练阶段训练后期伪标签输出精制标签输出精制标签输出精制标签图5.偏移和中心贴图的比较随着训练迭代的进行，网络生成更高质量的细化标签。其定位如图3所示的每个对象的稀疏代表区域并且然后提取局部最大点（即，实例线索）。请注意，我们的PAM不需要自适应训练参数，并且使用PAM的分类器通过自适应地关注峰值区域同时增加分类能力来使用二进制交叉熵目标函数进行优化结合WSSS的知识和从PAM中提取的实例线索，我们获得伪实例掩码，并按照我们的实例表示方法将这些掩码转换为伪中心和偏移映射，如图2所示。对于中心图，每个伪实例掩码的质心点被编码在具有6个像素的标准偏差的2D高斯核中。对于偏移贴图，伪实例遮罩中的所有像素都包含指向相应中心点的2D3.4. 实例感知制导在使用语义知识迁移得到的伪实例标签进行训练时，需要处理语义漂移问题。由于伪标签中的缺失实例被作为背景类引导，背景和实例之间的语义漂移恶化了稳定的训练收敛。为了缓解这个问题，我们引入了一个实例感知的指导，采取的优势，我们的实例表示方法。在3.2节的实例表示中，偏移和中心图表示由语义分割图确定的前景区域内的实例级信息这意味着偏移和中心图的背景区域可以被视为忽略区域。相应地，我们动态地将偏移和中心映射的引导区域仅分配给标记实例的区域;这种策略称为实例感知引导，有助于缓解语义漂移问题，因为该区域的偏移和中心地图的失踪在-3.5. 自监督伪标签细化即使我们可以缓解语义漂移问题，伪标签中的真阳性数量仍然不足以训练网络。例如，我们在VOC 2012的伪标签中只能有30%的真阳性在这里，我们提出了一种自监督的伪标签细化策略，简称为自细化，它通过以自监督的方式将假阴性转换为真阳性来细化伪标签自我优化的整个过程在图二、首先，通过使用实例感知指导策略使用伪实例标签进行训练，网络稳定地去泛化能力并逐渐捕获缺失实例的实例级信息（即，假阴性）。其次，在Eq。（1），我们使用网络输出执行实例分组。然后，我们从实例分组创建的实例掩码中生成细化的偏移和中心映射。最后，细化的地图被用作网络的指导。为了更好地细化，我们通过在输出偏移图中聚类2D偏移向量来提取中心点我们称这个过程为中心聚类，并在补充材料中解释详细的算法。即使输出的中心图丢失了一些中心点，我们也会使用聚类的中心点来补充细化的中心图。我们使用伪标签和精炼标签来训练网络。我们将网络输出语义分割、偏移映射和中心映射分别表示为（）、（）和（）。对于偏移和中心图的实例感知引导，我们从伪和细化标签中收集标记的实例区域的像素集合，并且每个集合被表示为P伪和P细化。为了利用细化标签作为软标签，我们设计了一个权重掩码W（i，j）：n.C（xn，yn）（i，j）∈Pn，姿态（例如，图2中伪偏移映射的白色区域）没有反映在目标函数中。因此，如图5所示，随着训练的进行，网络可以稳定地捕获缺失实例的实例级信息。其中，细化标签中的第n个实例的中心点表示为（xn，yn），并且（xn，yn）表示第n个实例的置信度分数。用作细化标签的目标函数的权重。的W4283COOSSPΣ中心图的目标函数定义为：表1.最先进的WSIS方法在VOC 2012val-set上的比较。†表示应用MRCNN细化。我们表示L中心1= |Ppseudo| （i，j）∈Ppseudo（C（i，j）− C（i，j））2+监督源为：F（全掩模）、I（图像级标签）、P（点）、C（对象计数）。现成的建议技术表示如下：M（段建议[38]），R（区域1|P精炼|（i，j）∈P精化W（i，j）·（C（i，j）−C<$（i，j））2，（三）ˆproposal[42]），SI（显式实例分析器[12]）。其中伪中心图和细化中心图是（i，j）和（i，j）。此外，目标函数的关闭-集合映射定义为：L偏移1= |P个伪|（i，j）∈Ppseudo|+|+1|P精炼|（i，j）∈PW（i，j）·|O（i，j）−O<$（i，j）|、（四）其中，伪偏移映射和细化偏移映射是k（i，j），并且（i，j）。最后，目标函数分割图定义为：表2.在MS COCO 2017数据集上定量比较最先进的WSIS方法。1ΣLsem=−log S（i，j），（5）|（i，j）∈Psem|(i,j)∈Psem其中是输出语义映射，sem是所有像素的集合。用上述目标函数对网络进行联合训练，最终目标函数为：L=λcenterLcenter+λoffsetLoffset+λsemLsem，（6）COCO val2017Coco test-dev其中λ是权重参数，并且设置λ中心= 200，λ偏移= 0。01，且λsem= 1，如[7]中所用通过自求精策略，伪标签可以转化为高质量的精化标签。在每一个小批量中，以在线方式从网络生成精炼由于自求精的大部分操作都可以在GPU上执行，因此自求精的吞吐量很小。4. 实验4.1. 数据集和评估指标我们在Pascal VOC 2012 [11]和COCO [31]数据集上证明了所提出方法的有效性。对于VOC 2012数据集，遵循以前作品中的常见做法[1，33]，我们使用包含10，582个训练和1，449个验证图像的增强数据集，其中包含20个对象类别。COCO数据集由115K训练，5K验证和20K测试图像组成，具有80个对象类别。我们使用平均精度（mAP）评估性能，VOC 2012的交并（IoU）阈值为0.25、0.5、0.7和0.75，COCO的平均AP超过IoU阈值为0.5至0.95C方法Sup额外映射25映射50地图70映射75[15]第十五话F-76.767.952.544.9PRM [47]我我我我MMRM、R44.326.8-9.0[48]第四十八话45.928.3-11.9标签-PEnet [14]49.230.2-12.9[19]56.638.1-12.3BESTIE（我们的）我-53.541.828.324.2OCIS [9][23]第二十三话CPMM48.553.530.243.0--14.425.9BESTIE（我们的）P-58.646.733.126.3[24]第二十四话伊朗伊斯兰共和国[1]我我我我我-49.2-41.746.7-23.523.7-[33]第三十三话Arun等人[3]M、S和I-59.748.450.9-30.224.928.5方法Sup额外AP AP50AP75[15]第十五话WS-JDS [39][23]第二十三话FIP-MM35.46.17.857.311.718.237.55.58.8BESTIE（我们的）BESTIE（我们我P--14.317.728.034.013.216.4[15]第十五话Fan等人 [33]第三十三话F我我-SIM，SI35.713.716.058.025.527.137.813.516.5BESTIE（我们的）我P--14.417.828.034.113.516.74284××4.2. 实现细节对于语义知识转移，我们从配备了我们的PAM的分类器中提取我们在补充材料中描述了分类器的详细结构和对于全图像级别的监督设置，我们采用PMM[29]作为我们的WSSS方法，因为它不使用显着图。对于实例分割网络，我们遵循Panoptic-DeepLab [7]的网络结构并进行了修改。我们将中心图从类不可知改为类方式，以获得更准确的实例分组。我们采用HRNet48 [40]作为我们的骨干网络。训练的输入大小为416 416，我们保留原始分辨率进行评估。我们使用Adam优化器[22]以5 10- 5的学习率和多项式学习率调度[32]训练网络70个epoch，具有32个批次大小。一些方法[1，33]在Mask R-CNN [15]上采用了额外的训练步骤;我们将此步骤表示为MRCNN细化，并按照官方4285表3. 所提出的方法的效果：PAM，IAG（实例感知指导），精炼（自精炼）和聚类（中心聚类）。PAM IAG精炼簇mAP50表4.分析WSSS结果对WSIS性能的影响。我们根据WSSS方法测量mAP50实例分割性能。表5.迭代训练策略对我们方法的影响。iters=0意味着没有迭代训练策略。# iters 映射50041.8141.9241.9图6.VOC 2012列车集上真阳性数量的演变图7. VOC 2012 val-set上mAP50的演变使用我们的网络生成的伪标签训练配方。我们使用PyTorch 1.7框架[37]与CUDA 10.1，CuDNN 7和8个NVIDIA V100 GPU。4.3. 点监督实例分割在我们的框架中，点标号可以作为弱监督.根据[4，5]，注释成本如下：图像级（20.0 sec/img），对象计数（ 22.2 sec/img ），点（ 23.3 sec/img ），边界框（38.1 sec/img），全掩模（239.7 sec/img）。点标签是一种经济的标签，比图像级标签贵16%。对于我们的点监督设置，我们将PAM的实例线索替换为点标签以进行语义知识传递，并将伪中心图和改进的中心图替换为地面实况中心图以进行自我改进。使用点监督，由于准确的实例提示，我们可以在VOC 2012的伪标签中获得10%以上的真阳性，从而提高性能，如表1所示。4.4. 最新技术水平比较我们将我们的BESTIE与表1中VOC 2012和表2中COCO数据集的现有最先进的WSIS方法进行了比较。即使没有现成的建议，BESTIE优于现有的方法，特别是在AP50指标。尽管LIID [33]在COCO上实现了比我们高1.6%的AP，但他们利用了两种建议技术，需要使用高级标签进行预训练，从而破坏了完全图像级监督设置。与全图像级监督方法IRN [1]相比，我们的性能优于该方法（51.0% vs. 46.7%），因为它们的位移场与我们的偏移距图相似，考虑语义漂移问题。此外，IRN经常无法分割重叠的实例，如图8所示，因为它们的像素间关系是从类信息中导出的鉴于点监督，我们以合理的成本进一步增加了与其他方法的性能差距，并与之前的最佳点监督方法Wise-Net相比，在VOC和COCO数据集上实现了新的最先进性能[24]。4.5. 消融研究和分析为了进行分析，我们跳过Mask R-CNN的细化，并遵循上述的实现细节。我们在图6中计算了包含1，464张图像和3，507个实例的VOC 2012训练集上的真阳性数量，并在图 7 中测量了 VOC 2012 验证集上的mAP50。PAM的效果：如图3所示，由于激活区域的噪声，然而，使用我们的PAM，我们可以提取适当的实例线索，这有助于正确的语义知识转移，并获得比CAM多三倍的真阳性训练样本，如图6所示，如表3的第一行和第二行所示，提高了16.4%。在本节中，我们将实例感知指导称为IAG。为了分析，我们在没有IAG的情况下训练网络;这意味着偏移和中心映射的整个区域（包括背景区域）都反映在目标函数中。如表3的第一行和第三行所示，在没有IAG的情况下，性能下降了9.9%，因为它受到语义✗ ✗✗✗12.9✓✗✗✗29.3✓ ✓✗✗39.2✓ ✓✓✗41.5✓ ✓✓✓41.8语义分割实例分割WSSS方法Miou映射50单级[2]62.739.7RRM [45]66.341.1PMM [29]70.041.8地面实况-49.44286输入伪伪伪输出输出输出我们伊朗[1]图像偏移映射中心地图语义地图偏移映射中心地图语义映射实例掩码实例掩码图8.我们的BESTIE在VOC 2012数据集上进行图像级监督训练的定性结果如方法部分所述的漂移问题。此外，如图7所示，没有IAG的模型似乎陷入了局部最小值，而有IAG的模型似乎避免了局部最小值，随着训练的进行，性能得到了提高。这一结果使我们相信，IAG是有效的，以减轻语义漂移问题。自优化的效果：在这里，我们比较了仅使用伪标签而不进行自优化的网络的结果。如图6所示，随着训练的进行，具有自优化的网络由于自细化的细化标签被引导到训练中，因此网络可以进一步捕获实例级特征，并将性能提高2.3%，如表3的第三和第四行所示。中心聚类的效果如表3的第四行和最后一行，当使用中心聚类时，0.3%的改进表明中心聚类可以完成细化标签的生成。WSSS方法的影响：表4中的结果显示了WSSS结果如何影响WSIS。最初，我们采用PMM [29]用于我们的WSSS方法，该方法在VOC 2012验证集上显示70.0%mIoU 。采用降低 7.3% 和 3.7% mIoU 的 WSSS 方法（SingleStage [2]和RRM [45]）使mAP50下降2.1%和0.7%。结果表明，WSIS的性能比WSSS具有更好的鲁棒性此外，我们使用真实语义分割标签进行训练，并获得了7.6%mAP50的性能增益;这一结果为我们提供了机会，WSSS方法的ad-vNavisphere可以改进我们的方法。迭代训练有帮助吗？一些弱监督方法[3，20，43]通过迭代训练策略最大化其性能;它们在训练完成时生成伪标签，并以离线方式使用伪标签重新训练网络。这种策略提供了一个渐进的改进，但需要一个巨大的训练复杂性。然而，这种策略并没有像表5中那样给我们带来明显的改进，我们表明我们的单步在线自细化对于标签细化是非常有效定性结果：我们在图8中提供了一些定性结果。尽管伪标签包含一些实例，标签，BESTIE可以准确地表示实例级信息，实现高质量的实例掩码。局限性和未来发展方向：尽管提出的BESTIE的性能显着提高，它仍然有更多的空间来改进。在我们的方法中，伪标签中真阳性的数量受到图像中重叠对象的限制（参见图8）。重叠对象的数量因数据集而异，即，对于VOC数据集来说较少，但是对于COCO数据集来说很多，这在某种程度上影响了性能。虽然我们的方法在伪标签中只有30%的真阳性的VOC数据集上取得了令人满意的结果，但未来的一个方向将是为各种数据条件提出更有效的真阳性获取规则。5. 结论我们提出了一种新的方法，通过解决以前的方法的痛点：对现成的建议和语义漂移问题的依赖在语义知识转移中，我们将WSSS的知识结合实例线索转移到WSIS中，并获得伪实例标签。在这里，我们提出了PAM提取实例线索。在我们的自我改进中，我们在一个自我监督的方案中对伪标签进行了改进，并在训练中使用它们。为了解决语义漂移问题，我们引入了实例感知的指导策略。我们的方法优于以前的方法，只使用图像级别的标签，没有任何现成的亲。最后，我们得出结论，这项研究不包含潜在的负面社会影响。6. 确认这项工作得到了韩国政府（MSIT）资助的信息通信技术规划科学部，ICT未来规划（NRF-2021 R1 A2C2008946）。4287引用[1] Jiwoon Ahn，Sunghyun Cho，和Suha Kwak.具有像素间关系的实例分割的弱监督学习在IEEE计算机视觉和模式识别会议论文集，第2209-2218页，2019年。三六七[2] 尼基塔·阿拉斯拉诺夫和斯特凡·罗斯单级seman- 从图像标签进行tic分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第4253-4262页，2020年。七、八[3] Aditya Arun，CV Jawahar和M Pawan Kumar。通过学习标注一致实例实现弱在欧洲计算机视觉会议上，第254-270页。Springer，2020年。三六八[4] Amy Bearman，Olga Russakovsky，Vittorio Ferrari和LiFei-Fei。重点是什么欧洲计算机视觉会议，第549-565页。施普林格，2016年。7[5] M´ıriamBellver Bueno，Amaia Salvador Aguilera，JordiTor-resVi n´ als，andX a vierGi ro´Nieto.Budget-aw是半监督语义和实例分割。在IEEE计算机视觉和模式识别会议（CVPR）研讨会，2019年，第93-102页7[6] Lyndon Chan ， Mahdi S Hosseini ， Corwyn Rowsell ，Kon- stantinos N Plataniotis ， and Savvas Damaskinos.Histoseg-net：在整个切片图像中进行组织学组织类型的语义分割。在IEEE/CVF国际计算机视觉会议论文集，第10662- 10671页2[7] Bowen Cheng，Maxwell D Collins，Yukun Zhu，TingLiu，Thomas S Huang，Hartwig Adam，and Liang-ChiehChen. Panoptic-deeplab：一个简单、强大、快速的自底向上全景分割基线。在IEEE/CVF计算机视觉和模式识别会议论文集，第12475-12485页，2020年。二、三、六[8] 崔俊锡李承浩和沈贤贞用于弱监督单对象局部化和语义分割的基于注意力的丢弃层。IEEE Transactions onPattern Analysis and Machine Intelligence，2020。8[9] Hisham Cholakkal、Guolei Sun、Fahad Shahbaz Khan和Ling Shao。具有图像级监控的对象计数和实例分割。在IEEE计算机视觉和模式识别会议论文集，第12397-12405页，2019年。6[10] 戴季峰、何开明、孙建。Boxsup：利用边界框来监督卷积网络进行语义分割。在Proceedings of the IEEEinternational conference on computer vision ，第 1635-1643页8[11] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303-338，2010。二、六[12] 范若尘、程明明、侯启斌、穆泰江、王京东、胡世敏。S4net：单阶段显著实例分割。InProceedings of theIEEE/CVF计算机视觉和模式识别会议，第6103-6112页，2019年。一、三、六[13] Chen Fan，Qibin Hou，Ming-Ming Cheng，Gang Yu，Ralph R Martin，and Shi-Min Hu.弱监督语义分割的图像间显著实例关联。在欧洲计算机视觉会议（ECCV）的会议记录中，第367-383页，2018年。三、六[14] Weifeng Ge，Sheng Guo，Weilin Huang，and MatthewR Scott. Label-penet：用于弱监督实例分割的顺序标签传播和增强网络在IEEE计算机视觉国际会议论文集，第3345-3354页三、六[15] 凯明赫、吉奥吉亚·吉奥萨里、彼得·多尔拉尔和罗斯·吉尔希克。面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页二、六[16] 何立峰，赵玉燕，铃木健二，吴克胜。快速连接组件标记。Pattern recognition，42（9）：1977-1987，2009. 4[17] Seunhoon Hong，Donghun Yeo，Suha Kwak，HonglakLee，and Bohyung Han.使用网络抓取视频的弱监督语义分割。在IEEE计算机视觉和模式识别会议论文集，第7322-7330页，2017年。8[18] 许正春、许光瑞、蔡中琪、林燕玉、庄永玉弱监督实例分割使用边界框紧密性先验。神经信息处理系统的进展，32：6586 8[19] Jaedong Hwang 、 Seohyun Kim 、Jeany Son和BohyungHan。通过深度社区学习进行弱监督实例分割。在IEEE/CVF Winter计算机视觉应用会议论文集，第1020-1029页，2021年。三、六[20] Anna Khoreva 、 Rodrigo Benenson 、 Jan Hosang 、Matthias Hein和Bernt Schiele。很简单：弱监督实例和语义分割。在IEEE计算机视觉和模式识别会议论文集，第876-885页，2017年。8[21] 金范英韩三根金俊模用于弱监督语义分割的区分区域抑制。在AAAI人工智能会议论文集，第35卷，第1754-1761页，2021年。一、二、四[22] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[23] Issam H Laradji 、 Negar Rostamzadeh 、 Pedro OPinheiro、David Vazquez和Mark Schmidt。基于建议的实例分割与点监督。在2020年IEEE国际图像处理会议（ICIP）上，第2126IEEE，2020年。6[24] 我是H·拉腊吉，D·维德·瓦兹奎兹，还有马克·施密特。模板在哪里：使用图像级超视的实例分割。在BMVC，2019。六、七[25] Jungbeom Lee ， Jooyoung Choi ， Jisoo Mok ， andSungroh Yoon.减弱弱超网络4288语义分割神经信息处理系统的进展，34，2021。8[26] Jungbeom Lee、Eunji Kim、Sungmin Lee、Jangho Lee和Sungroh Yoon。Ficklenet：Weakly and semi-supervisedse-mantic image segmentation using stochastic inference.在IEEE/CVF计算机视觉和模式识别会议论文集，第5267-5276页，2019年。8[27] Jungbeom Lee，Jihun Yi，Chaehun Shin，and SungrohYoon.Bbam：弱监督语义和实例分割的边界框属性图。在IEEE/CVF计算机视觉和模式识别会议论文集，第2643-2652页，2021年。8[28] Seungho Lee ， Minhyun Lee ， Jongwuk Lee ， andHyunjung Shim. Railroad is not a train ： Saliency aspseudo-pix

下载后可阅读完整内容，剩余1页未读，立即下载