2
相关工作
虽然长期的研究已经考虑了完全监督的语义分割,
例如,
[5,27,29,46,
47],最近,弱监督语义分割已经脱颖而出。早期的工作,如[41]依赖于手工制
作的特征,如颜色,纹理和直方图信息来构建图形模型。然而,随着卷积神经
网络(CNN)方法的出现,这种传统方法已经逐渐被取代,因为它在具有挑战
性的基准测试中的性能较低[11]。因此,我们只讨论基于CNN的弱监督语义分
割工作在[32]中,Papandreou
等人
使用期望最大化算法[8]来基于注释的边界框和
图像级标签执行弱监督语义分割。类似地,Qi
等人。
[36]使用多尺度组合分组
(MCG)[35]生成的建议来帮助定位语义上有意义的对象。涂鸦和点被进一步
用作额外的监督。在[26]中,Lin
等人
利用基于区域的图形模型,通过涂鸦提供
地面实况注释来训练分割网络。 Bearman
等人
[2]类似杠杆
从人工标注的点获取知识作为监督。
其他作品仅依赖于图像级标签。Pathak
等人。
[33]通过引入一系列约束来解决
弱监督语义分割问题Pinheiro
等人
[ 34]将这个问题视为多实例学习问题。 在[23]
中,设计了三个损失函数来逐渐扩大注意力模型[48]所定位的区域。 Wei
等人
[ 42]使用对抗擦除方案改进了这种方法,以获得更有意义的区域,从而为训练提
供更准确的启发式线索。在[43]中,Wei
等人
提出了一个简单到复杂的框架,该
框架使用[6,21]中的方法产生的显着图作为初始指南。侯
等人。
[19]通过将显着
图[18]与注意力图[45]相结合来改进这种方法。最近,Oh
等人。
[31]和Chaudhry
等人。
[4]考虑将显着性和注意线索联系在一起,但他们采用不同的策略来获得
语义对象。Roy和Todorovic[38]利用自下而上和自上而下的注意力线索,并通过
条件随机场将它们融合为循环网络。最近的工作[17,22]使用来自互联网的图像
或视频解决了弱监督语义分割问题。尽管如此,用于获得启发式线索的想法是类
似的那些在以前的作品。
在本文中,不同于所有上述方法,我们提出了一个弱监督分割框架,使用显
着的情况。我们将标签分配给显著实例,以生成用于完全监督分割网络的代理
地面实况。标签分配问题被建模为图分区,其中考虑了整个数据集中所有显着
实例之间的关系以及它们内部的信息。
3
概述和网络结构
我们现在提出一个概述我们的管道,然后讨论我们的网络结构和标签分配算
法。我们提出的框架如图所示。二、大多数以前的工作,依赖于像素级线索
(如显着性,边缘和注意力地图)regards实例歧视作为一个关键的任务。然
而,随着深发展