Web监督语义分割：弱监督算法的研究及在PASCALVOC2012分割基准上的优化

100 浏览量更新于2023-10-17 收藏 1.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Web监督语义分割Bin JinIC，EPFLbin. epfl.chMaria V. Ortiz SegoviaOce的打印逻辑技术Maria. oce.comSabineSüsstrunkIC，EPFLsabine. epfl.ch摘要我们提出了一个弱监督的语义分割算法，使用图像标签的监督。我们在查询中应用标签来收集三组Web图像，它们编码了类的干净前景、共同背景和真实场景。我们引入了一个新的三阶段训练管道来逐步学习语义分割模型。我们首先训练和改进一个特定于类的浅层神经网络，以获得每个类的分割掩码。然后将所有类的浅层神经网络组装成一个深度卷积神经网络，用于端到端的训练和测试。实验结果表明，我们的方法在PASCAL VOC 2012分割基准上明显优于以前最先进的弱监督语义分割方法我们进一步将类特定的浅层神经网络应用于目标分割，取得了良好的效果。1. 介绍语义分割是指在图像中准确地将语义标签标记到对应的像素上，是计算机视觉中积极研究的一项具有挑战性的任务。最近在语义分割方面的突破[1，2，3，4，5，6]主要是由于在包含图像及其像素级注释的数据集上应用卷积神经网络（CNN）的全监督算法，例如，PASCAL VOC [7]和Microsoft COCO [8]。这些算法在这些数据集所覆盖的有限数量的类上报告了出色的性能。PAS-CAL VOC分割集分别包含20个对象类，每个类500个图像，Microsoft COCO 91对象类，每个类3.5K个图像。然而，将全监督算法扩展到更多的对象类需要收集大量的像素级注释，这既耗时又昂贵。如[9]所述，PASCAL VOC 2012数据集中的平均注释时间为239.7秒/图像。因此，其他不太精确但收集速度更快的符号，例如图1：为了监督语义分割，我们提取了三组Web图像：白色背景的图像{Wk}、包含普通背景场景C的图像和逼真图像{Rk}。{Wk}和C集用于分割模型的初始训练。之后，这些模型在真实图像集上迭代细化{Rk}。最后再次采用{Rk}训练一个端到端的语义切分网络。点、涂鸦或边界框也被用来监督语义分割[9，10，11，12]。我们提出的语义分割算法只使用图像标签作为监督。图像标签表示图像中存在哪些对象类。它们通常比上述其他人类注释更容易和更快地获得，因此已用于许多弱监督语义分割方法[13，14，15，16，17，18，19，20，21，22]。但是，作为OP-假设由逐像素注释获得的分割掩模，图像标签不指示图像中对象的位置，因此使语义分割362623627挑战性更大在我们的框架中，我们利用了互联网上大量的图像及其丰富的背景。通过巧妙地查询和利用Web图像，我们可以构建一个管道来自动为每个类别生成我们只使用图像标签来查询Web图像和训练网络。不需要额外的人工注释或交互。我们提取三组图像来监督语义分割，如图1所示。这三组图像包括白色背景上的物体、普通背景和班级的真实场景我们提出了一个新的三阶段过程来逐步训练我们的语义分割模型，如图2所示。在第一阶段，首先训练一个浅层神经网络（SNN）来预测特定于类别的分割掩码，使用来自白色背景图像和普通背景图像的超列特征[23然后，我们在该类的一组真实图像上迭代地细化每个类的SNN，以生成更好的分割掩模。在最后一个阶段中，通过使用来自SNN的预测的多标签分割掩码来训练DCNN，将所有类别的SNN装配到一个深度卷积神经网络在最后一个训练阶段之后，DCNN在PAS-CAL VOC 2012分割基准[7]上的表现明显优于当前最先进的弱监督语义分割算法。综上所述，我们的主要贡献包括：• 我们建议收集三组有用的网页图像进行监督分割。第一组包含具有白色背景的图像，第二组包含具有常见背景场景的图像，第三组包含每个类别的真实图像。• 我们提出了一种新的三阶段流水线，使用三个收集的web来训练图像集。分割性能随着训练流水线而逐步提高。• 经过三个训练阶段，我们的 DCNN在PASCALVOC2012分割基准，优于以前的弱监督语义分割算法超过3%。• 来自前两个训练阶段的SNN产生现有技术导致对象分割应用。2. 相关工作弱监督语义分割我们的方法属于弱监督语义分割家族分割算法，只需要图像标签注释。在这里，我们回顾了基于CNN的方法，因为这些方法[13，14，15，16，17，18，19，20，21，22]在具有挑战性的PASCALVOC基准上提供了早期的作品[13，14，16]扩展了多实例学习（MIL）[24]框架，用于弱监督语义分割，其中损失函数建立在图像标签级别上。他们采用不同的方法，最大池[13]或Log-Sum-Exp [14]，以将像素级概率预测汇集到图像级损失中。在这些框架中不考虑对象位置信息，从而导致粗略的最近的方法[18，19，20，21，22]研究了如何在没有像素注释的情况下自动推断每个类的位置。[20]和[19]都通过在ImageNet [26]上反转预先训练的分类网络[25不同之处在于[20]为所有类构建了通用对象度量，而[19]则专注于类特定的显着性图。[18]在[19]中，类似的位置线索它们进一步将种子损失与编码更多位置信息的另外两个损失相结合。自下而上的分段建议[27]被用作另一种方法来获得[21，22]中每个类别的位置我们不是使用对象或显着图来推断每个类别的粗略使用这些分割掩码，我们进一步训练了一个DCNN，它实现了语义分割的最新结果。利用网络图像来监督计算机视觉算法的想法已经在几个任务中进行了探索，例如对象分类[28]，对象检测[29]，对象部分定位[30]和对象分割[17，31，32，33]。最近，Wei等人 [17]还提出使用Web图像来训练CNN进行语义分割。虽然我们提取了两组图像，将前景和背景区分开来，[17]但使用的Flickr图像可能具有混乱的背景。此外，我们应用了迭代细化步骤，显著提高了性能。我们的方法实现了更好的准确性（4。在PASCAL VOC 2012测试集上，mIoU比他们的方法高2%，同时使用更少的Web图像进行监督。完全监督语义分割为了完整起见，我们还快速回顾了一些完全监督的语义分割方法[1，2，3，4，5，6]，这些方法依赖于逐像素注释进行训练。毫不奇怪，他们在标准细分基准上报告了出色的性能。这些方法建立在全卷积网络（FCN）架构[1]的基础上，以执行端到端训练。条件随机（Conditional Random）23628图2：拟议的三阶段培训管道。(a)第一阶段：使用来自Wk和C的超列特征对SNN进行初始训练。(b)第二阶段：SNN在真实图像Rk上的迭代细化。(c)第三阶段：所有SNN被组装到一个DCNN中用于端到端训练和测试。场（ CRF ） [2 ， 3 ， 4] 、反卷积 [5] 和边界神经场（BNF）[6]进一步与FCN相结合。然而，由于逐像素注释获得起来是昂贵且耗时的，因此这些方法的可扩展性是有限的。3. Web图像集数以亿计的图像已经在网上发布，其中包含丰富的上下文信息。通过巧妙地从这个巨大的集合中查询，分析和提取图像，我们提出了一种新的管道，它只需要图像标签监督就可以学习语义分割模型。在本节中，我们将描述如何查询Web图像集合，以及检索哪些类型的Web图像来监督语义分割。对于类k，收集三组web图像，其覆盖类的对象和背景的视觉外观。通过查询基于文本的图像搜索引擎来构建白色背景集（表示为Wk），谷歌或微软必应，与查询使用此查询检索的图像大多在干净的背景前具有显著对象，因此易于分割。我们使用密集条件随机场（CRF）[34]分割这些图像，使用[35]中的显着性图作为一元项。样品IM-图3中示出了来自Wk集合的年龄和对应的分段掩码。由于来自Wk 的图像相对容易分割，因此由显着性和CRF算法生成而实验在Sec. 5表明，使用这些掩模，我们的分割网络实现了可靠的分割性能。图3：来自Wcar的样本图像以及由显着性与密集CRF相结合生成的相应分割掩模。Wk集合中的图像编码类别k的前景信息，而背景缺失。因此，我们收集另一组图像C，其不太可能包含感兴趣的类别，但包含共同的背景场景，23629我我KK我我.我Σ.Σ如天空、大海、草地等。C可以通过从图像共享网站检索图像来构建，例如，Flickr或Imgur1，具有常见的背景关键字。另一种方法是使用xk属于k类。（0，如果xk来自C现有的在线数据集，主要包含共同的回-tk=我1、如果xk来自Wf（三）Ik地面场景，如假日数据集[36]。第三集合Rk包含描绘现实场景的kRk可以通过抓取具有给定类名的图像共享网站或使用已经覆盖该类的现有数据集来构造。这三个集合的示例图像如图1所示。请注意，每个类都有一个单独的Wk和Rk集，同时共享相同的C集，因为C集包含大多数类的公共背景。4. 训练网络基于这三组Web图像，我们提出了一个新的三阶段训练管道来学习语义分割模型，如图2所示。对于每个类别k，首先训练一个浅神经网络（SNN），使用来自Wk（具有干净前景的图像）和C（具有共同背景信息的图像）的超列特征输出特定于类别的分割掩码。然后，SNN在Rk中的真实图像上迭代细化。在最后一个阶段，使用由所有类的SNN生成的多标签分割掩码来训练DCNN。4.1. 第一阶段：初步培训我们表示k ={1，2，...，N}作为类名的集合，其中N是类的数量。对于每个类k∈k，使用Wk和C中的图像训练SNN，其参数表示为Θk。由于Wk中的对象被白色背景包围，因此来自Wk的前景像素（表示为Wf）表示类别k的视觉外观。相应地，C中的像素表示共同背景的视觉外观。我们使用从预训练的相同数量的超列特征被随机地执行，从C和Wf中提取，形成用于训练SNN的平衡集。在初始训练之后，类k的SNN可以预测像素属于类k的概率，有效地输出图像的类特定掩码。超列特征和SNN的组合实际上类似于全卷积网络（FCN）的功能[1]。我们将这两个步骤分开，以轻松平衡类分布并并行处理不同类的训练。此外，由于用于提取超列特征的网络是预先训练和共享的，因此我们只需要为新类存储Θk。对于浅网络，Θ k相对较小（在我们的实验中，每个类约为3.6 MB），可以有效地存储和检索大量的类。4.2. 第二阶段：精炼Θk最初被训练来分离类的对象。K来自共同的背景。然而，类k的现实背景可能不同于普通背景。因此，如图2（b）所示，我们进一步迭代地细化真实图像上的Θk。我们利用多重CRF 迭代来改进我们的SNN。CRF已被证明有助于语义分割，因为它可以恢复丢失的部分并细化分割掩码中的边界[2，18，20]。不像大多数方法应用一次CRF作为后处理，我们在每次细化迭代中应用CRF，并学习根据 CRF细化的掩码更新SNN。因此，SNN被迫逐渐学习以生成具有更好边界的更完整的分割掩码。假设xk表示集合中的第i个像素，像素从现实的图像集Rk。hk和yk是它的VGG16网络[25]编码视觉外观。因为我我每个像素xk从Wf或C，我们计算它的超列对应的超列特征和标签（0表示后我功能：Khk=H（xk）（1）地面和1为前景）。我们细化了Θk损失：通过最小化iiX.Σ.Σ ⌘这里H表示计算超列的操作min−yklogf（hk，θk）+（1−yk）log1−f（hk，θk）功能. 然后，我们使用C中的超列特性Fθki i我我我（四）和Wk来训练SNN，如图2（a）所示。训练Θk以最小化二进制交叉熵损失：给定SNN的参数Θk，通过最小化密集CRF能量函数来预测标签{yk}X轴k k k kX Xminφk（yk）+φk（yk，yk）（5）minθk我-tilogf（hi，θk）+（1−ti）log1−f（hi，θk）（二）{yk}iiii、ji，ji j这里f（hk，θk）表示SNN输出。SNN采取其中，SNNik.Σ ⌘并输出概率φk（yk）= −log ykf（hk，Θ）+（1−yk）1−f（hk，Θ）1www.flickr.com和www.imgur.com我我Ik（六）53630我我我我我我我成对项被设置为标准颜色和空间距离，如[34]所示采用期望最大化（EM）算法来迭代优化等式4和等式5。在每次迭代中，我们首先通过使用[34]中的方法最小化等式5来更新所有像素{yk} 然后，通过使用反向传播最小化等式4来更新参数Θ k。在等式5中使用新参数Θk以获得新的{yk}作为新迭代的开始。图4显示了标签{yk}通过迭代的演变。可以清楚地看到，由SNN预测的分割掩模随着迭代而逐步改善，恢复丢失的部分并产生更好的边界。我们发现，2次优化迭代已经显著提高了性能，同时仍然有效地节省了训练时间。更多的迭代导致较小的性能增益，但更长的训练时间。图4：通过迭代进化标签{yk}改进分割掩码。4.3. 第三阶段：集合类SNN针对每个类独立训练。为了对多个类执行语义分割，在这个阶段，我们将所有SNN组装到一个深度卷积神经网络（DCNN）中，如图2（c）所示。我们使用[2]中提出的DCNN架构，由于其出色的性能和良好的文档。DCNN是一个完全卷积的神经网络，它接收图像并直接预测多标签分割掩码。我们在{Rk}中的所有真实图像上训练DCNN。由于没有为训练提供逐像素的人类注释，因此我们使用SNN来自动生成多标签分割掩码作为监督。具体地，如果{Rk}中的一个图像被标记有标签Cj，则第i个像素的预测标签yi为：yi= argmaxf（hk，Θk）（7）在所有标签上的能力图，包括背景（表示为标签0）。背景概率被设置为1减去最大前景概率。在使用SNN生成多标签分割掩码之后，我们将它们视为地面实况分割掩码并执行DCNN的端到端训练。这些多标签分割掩模不是人类注释，而是从我们的SNN自动生成的掩模，其在训练期间仅需要图像标签。因此，[2]中的全监督DCNN训练在我们的框架中被转换5. 实验5.1. 设置数据集我们在标准PAS- CAL VOC 2012分割基准上验证了我们的算法[7]。在[13，14，16，18，19，20，21，22]之后，我们使用[37]中的额外注释对其进行了增强，得到了10，582张图像的增强训练（trainaug）集，1，449张图像的验证集和1，456张图像的测试集，覆盖20个类。我们在验证集和测试集上报告标准的Intersection over Union（IoU）对于三阶段训练，我们通过使用20个类（使用第3节中解释的策略）查询Google来构建{Wk}，并平均获得每个类340张图像（总共6807张图像）。假日数据集[36]包含1491个假日图像，用作C集，因为这些图像覆盖了一些常见的背景场景，例如，天空，山脉，草地。我们使用PASCAL VOC 2012 的 trainaug 集作为{Rk}，因为它们都是20个类的真实图像不使用trainaug集的逐像素注释。在训练的前两个阶段，所有图像都被调整大小，使得较大的维度等于340。在第三阶段，根据[2]以其原始大小使用图像。训练和测试训练过程中的超列特征是从预先训练好的VGG16模型的conv1 2（64个通道）、conv2 2（128个通道）、conv3 3（256个通道）、conv4 3（512个通道）和conv5 3（512个通道）层中提取的，得到一个1472维的向量。在第一个训练阶段中，Wk的每个图像包含1000个随机选择的超列特征。从C中随机选择相同数量的超列特征，形成用于初始训练的平衡集。在细化阶段，从Rk中的每幅图像的前景和背景区域中随机选择1000个超列特征。k∈{0}Cf（h0，Θ0）= 1−maxf（hk，Θk）（8）k∈C有效地，组合的多标记分割掩模通过取概率的像素最大值来产生。SNN被设置为4层（1472→ 512→ 256→ 64→ 1）的全连通网络，在隐藏层之间设置Relu激活，在最后一层之后设置Sigmoid网络在初始训练阶段用Adam优化器（lr= 0.0002）训练50个时期，63631每次细化迭代中有20个epoch。通过对100张单独的验证图像进行交叉验证来设置CRF参数[2]。分割性能对CRF参数具有鲁棒性。所有的实验都是在NVIDIATITAN X GPU上进行的，内存为12GB。初始训练每个SNN大约需要10分钟，每次细化迭代需要20分钟。这部分在Theano框架中实现[38]。第三个训练阶段使用Deeplab 代码[2]执行，该代码基于Caffe框架[39]。Deeplab训练的参数根据[2]设置。5.2. 各阶段性能由于我们使用Web图像来监督语义分割，我们称我们的方法为WebS。表1说明了我们的方法在PASCALVOC 2012数据集的验证集上表1：我们的方法在不同阶段对PASCAL VOC2012验证集的方法MiouWebS-i46.4WebS-i151.6WebS-i253.4为了正确评估所有类别的语义分割性能，始终应用将所有SNN组装成DCNN的第三阶段WebS-i代表了直接将第一阶段与第三阶段结合起来的模型，绕过了细化阶段。WebS-i1和WebS-i2是通过所有三个阶段训练的模型，分别具有一个WebS-i模型的mIoU为46。4%已经与几种最新的弱监督语义分割方法[11，13，14，16，19]相当，参见表4。这证明了我们收集的Web图像（{Wk}和C）用于语义分割的有效性。在每次细化迭代之后，性能逐渐提高。第一次迭代将性能提高5。2%至51。6%，已经为弱监督语义分割提供了最佳性能。WebS-i2模型将性能进一步提高了1. 8%，mIoU值为53。百分之四这一事实清楚地表明了在我们的改进阶段采用CRF的好处。三种模型的定性结果见图5和补充材料。我们可以观察到，WebS-i模型产生了对象的粗略位置，但丢失了一些部分。每次细化迭代都会显示对象的更多细节。WebS-i2模型产生具有细粒度边界的精确分割掩模，即使对于一些非平凡的对象，例如第三排中部分被遮挡的狗和第四排中骑在马上的人。在低层次的统计数据，如颜色，并产生更好的边界。因此，从CRF细化的掩模学习的SNN也产生更准确的在最后一幅图像中，我们的方法未能将火车从铁轨上分割出来，因为这两个对象经常一起出现这是大多数弱监督方法的典型失败案例，也在[18]中讨论过。5.3. Wk和Rk中的图像数量我们进一步评估了{Wk}和{Rk}中图像数量对分割性能的影响。在表2中，我们展示了WebS-i2模型在不同训练图像数量下的性能。对于{ W k }只有2，000个图像，对于{ R k }只有2，000个图像（每个类100个图像），我们的方法实现了45的mIoU。9%，已经好于[11，13，16，19]，后者使用PASCAL VOC的整个训练集（10，582张图像）进行监督。甚至是9。比[14]好3%，参见表4，其中使用了来自ILSVRC [ 26 ]的额外700K图像。显然，通过添加更多的图像进行监督，我们的方法的性能得到了提高。我们计划通过收集更多的网络图像来进一步提高我们的性能。仅使用6，807个 Google 图像、 2 ， 1 ， 491 个假日图像和 10 ， 582 个PASCAL VOC图像，我们的方法的性能明显优于所有最先进的方法。与[ 17 ]相比，[ 17]也使用Web图像来监督语义分割，我们的方法需要更少的图像（[17]使用41K Flickr图像以及PASCALVOC的trainaug集），但仍然在两个验证集上产生更好的结果（ +3 。6%mIoU）和测试集（+4. 1% mIoU）。表2：使用不同数量的训练图像对WebS-i2{Wk}中的图像数{Rk}中的图像数Miou2,0002,00045.92,00010,58248.94,00010,58251.56,8072,00050.66,8076,00051.06,80710,58253.45.4. 与弱监督方法的比较在本小节中，我们将我们的方法与其他基于CNN的弱监督语义分割算法进行了比较。表4和表5显示了性能在PASCAL VOC 2012验证和测试集上，在这里，我们只与除了图像标签之外不需要额外人类注释第五排。这是因为在每一个iter-由于Google搜索限制和版权保护，CRF基于2恢复对象的丢失部分。63632图5：我们的方法在改进迭代之前和之后的PASCAL VOC 2012验证集的定性结果。在屏幕上看得更好。[11、13、14、16、17、18、19、20]。为了完整起见，与需要额外人工注释的方法我们的方法在PASCAL VOC的验证和测试集上都产生了出色的结果，优于所有最先进的弱监督语义分割方法。在验证集上，我们比以前最先进的SEC [18]方法改进了2。7%，在所有方法中，在21个班级（包括背景）中的12个班级中取得最好成绩。在测试集上观察到类似的结果，其中评估由PASCAL VOC评估服务器执行。我们的方法达到3。mIoU比最先进的方法高出6%，在21个班级中的14个班级中获得最佳成绩。5.5. 使用SNN的我们还研究了特定于类的SNN在对象分割任务中的性能，表3：我们的SNN和其他对象分割方法在OD数据集上的比较。方法车马飞机MiouJoulin等人 [第四十届]37.230.215.427.6Joulin等人 [41个]35.229.511.725.5Rubinstein等人 [三十一]64.451.755.857.3Chen等人 [33个]64.933.440.346.2SNN-i67.752.453.858.0SNN-i174.559.655.463.263633表4：仅使用图像标签监督的PASCAL VOC 2012验证集的语义分割方法的性能。* 表示应用密集CRF [34]作为后处理。方法BG Aero BIC 鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视Miou美国空军[13]EM-Adapt [11]美国军用sppxl*[14]CCCN*[16]DCSM*[19]BFBP*[20]STC*[17]美国证券交易委员会 *-- 七十七点二68.576.779.284.582.4-- 三十七点三25.545.160.168.062.9--十八点四18.024.620.419.526.4--25.425.440.850.760.561.6--二十八点二20.223.041.242.527.6--31.936.334.846.344.838.1--41.646.861.062.668.466.6--四十八点一47.151.949.264.062.7--50.748.052.462.364.875.2-- 十二点七分15.815.513.314.522.1--45.737.945.949.752.053.5-- 十四点六21.032.738.122.828.3--50.944.554.958.458.065.8--44.134.548.649.055.357.8-- 三十九点二46.257.457.057.862.3--37.940.751.848.260.552.5-- 二十八点三30.438.227.840.632.5--44.036.355.455.156.762.6-- 十九点六22.232.229.623.032.1-- 三十七点六38.842.654.657.145.4--35.036.939.626.631.245.324.938.236.635.344.146.649.850.7我们的：WebS-i2*84.3 65.3 27.4 65.4 53.9 46.3 70.1 69.8 79.4 13.8 61.1 17.4 73.8 58.157.856.235.766.5 22.0 50.1 46.2 53.4表5：仅使用图像标签监督的PASCAL VOC 2012语义分割方法测试集的性能。* 表示应用密集CRF [34]作为后处理。方法BG Aero BIC 鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视Miou美国空军[13]EM-Adapt [11]美国军用sppxl*[14]CCCN*[16]DCSM*[19]BFBP*[20]STC*[17]美国证券交易委员会 *-76.374.7-78.180.385.283.5-37.138.824.243.857.562.756.4-21.919.819.926.324.121.128.5-41.627.526.349.866.958.064.1-26.121.718.619.531.731.423.6-38.532.838.140.343.055.046.5-50.840.051.761.667.568.870.6-44.950.142.953.948.663.958.5-48.947.148.252.756.763.771.3-16.77.215.613.712.614.223.2-40.844.837.247.350.957.654.0-29.415.818.334.842.628.328.0-47.149.443.050.359.463.068.1-45.847.338.248.952.959.862.1-54.836.652.269.065.067.670.0-28.236.440.049.744.861.755.0-30.024.333.838.441.342.938.4-44.044.536.057.151.161.058.0-29.221.021.634.033.723.239.9-34.331.533.438.044.452.438.4-46.041.338.340.033.233.148.325.739.635.835.645.148.051.251.7我们的：WebS-i2*85.8 66.1 30.0 64.1 47.9 58.6 70.7 68.5 75.2 11.3 62.6 19.0 75.6 67.272.861.444.771.5 23.1 42.3 43.6 55.3用户提供他们想要在图像中分割的类的标签。注意，该任务不同于典型的语义分割，其中在测试期间不给出图像的标签。我们评估了对象发现（OD）数据集[31]的性能，该数据集包含三个类别（飞机，汽车，马），每个类别100张图像。SNN被应用于使用第4.3节中解释的策略生成分割掩码。图像的标签用于在生成掩模的同时检索正确的SNN，如图2（c）所示。我们在表3中比较了mIoU值与最先进的对象分割方法[31，33，40，41]。SNN-i，[40][41][31][33]第二届中国国际航空航天博览会图6：我们的方法和其他最先进的方法在OD数据集上的样本结果。63634SNN-i1和SSN-i2分别是初始训练、第一次细化迭代和第二次细化我们的SNN-i2方法比以前的最先进的方法有很大的改进（7. 5%）。甚至SNN-i模型也已经达到了最先进的性能，再次证明了我们的网络图像集用于监督分割模型的有效性我们在图6和补充材料中显示了我们的方法与以前的方法虽然以前的方法要么错过部分对象，要么分割一些背景区域作为对象，但我们的SNN成功地分割出具有准确边界的整个对象。6. 结论我们提出了一种新的三阶段训练管道，从三组Web图像中逐步学习语义分割模型。我们证明了我们的方法优于PASCAL VOC 2012 benchemark上以前最先进的弱监督语义分割算法。在前两个训练阶段学习的类特定浅层神经网络（SNN）在用于对象分割时也会产生出色的结果。注意，当学习SNN时，不使用逐像素的人类注释。采用这些SNN，许多完全监督的计算机视觉方法，如语义分割[1，2，3，6]和对象检测[42]，可以很容易地转换为弱监督框架，这符合我们未来的计划。63635引用[1] J.朗，E. Shelhamer和T. Darrell，3431- 3440，2015。一、二、四、八[2] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L. Yuille，一二三四五六八[3] S. Zheng，S. Jayasumana湾Romera-Paredes，V.维尼特，Z. Su，D.杜角，澳-地Huang，和P.H. Torr，1529一二三八[4] G.林角，澳-地申岛Reid等人，一、二、三[5] H. Noh，S. Hong和B. Han，1520一、二、三[6] G. Bertasius，J. Shi和L. Torresani，一二三八[7] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K.威廉斯，J.Winn和A. Zisserman，“The pascal visual object classes（VOC）chal- lenge”，International Journal of Computer Vision，vol.88，no.第2页。第303-338页，2010年。一、二、五[8] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Doll a'r 和 C. L. Zitnick ， 740-755 ，2014。1[9] A. Bearman，O. Russakovsky，V. Ferrari和L.飞飞，“有什么意义： Semantic segmentation with point super-vision，”在欧洲计算机视觉会议上，2016年。1[10] D. Lin，J. Dai，J. Jia，K. He和J. Sun，“Scribble- sup：Scribble-supervised convolutional networks for seman- ticsegmentation，”in IEEE Conference on Computer Visionand Pattern Recognition，2016. 1[11] G. 帕潘德里欧湖C. Chen，K.P. Murphy和A.L. Yuille，1742- 1750，2015年。一、六、七、八[12] J. Dai ， K. He ， and J. Sun ， “Boxsup ： Exploitingbounding boxes to supervise convolutional networks forsemanticsegmentation，”inIEEEInternationalConference on Computer Vision ， pp. 1635-1643 ， 2015年。1[13] D. Pathak，E.Shelhamer，J.Long和T.Darrell，一、二、五、六、七、八[14] P. O. Pinheiro和R.Collobert，1713- 1721，2015年。一、二、五、六、七、八[15] N. Pourian ， S. Karthikeyan 和 B. Manjunath ， 1359-1367，2015。一、二[16] D. Pathak，P. Krahenbuhl，and T. Darrell，1796-1804年，2015年。一、二、五、六、七、八[17] Y. Wei，X.Liang，Y.Chen，X.沈，M.-M. 郑，Y.Zhao和S. Yan，一二六七八[18] A. Kolesnikov和C. H. Lampert，“播种、扩展和约束：Threeprinciplesforweakly-supervisedimagesegmentation ， ”in European Conference on ComputerVision，2016. 一、二、四、五、六、七、八[19] W. Shimoda和K. Yanai，218一、二、五、六、七、八[20] F. Saleh ， M. S. A. Akbarian ， M.萨尔茨曼湖Pe-tersson，S. Gould和J. M. Alvarez，413-432，2016年。一、二、四、五、七、八[21] X.齐，Z. Liu，J. Shi，H.赵和J。贾，“图像级监督下的语义分割中的增强反馈”，欧洲计算机视觉会议，pp. 90-105，2016。一、二、五[22] Y. Wei，X. Liang，Y. Chen，Z.杰，Y.肖氏Y. zhao和S. Yan，模式识别，2016年。一、二、五[23] B. 哈里哈兰山口阿尔韦阿埃斯河Girshick和J. Malik，447-456，2015。二、四[24] S.安德鲁斯岛Tsochantaridis和T. Hofmann，561 2[25] K. Simonyan和A. Zisserman，二、四[26]O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A. 卡帕西A.科斯拉，M。伯恩斯坦A. C. Berg和L. Fei-Fei，“Imagenet大规模视觉识别挑战”，国际计算机视觉杂志，第115卷，第116期。第3页。211-252页，2015年。二、六[27]P. Arbel a'ez，J. Pont-T u s et，J. T. Barron，F. Marques和J·马利克， “多尺度组合分组” 在IEEE63636计算机视觉与模式识别会议，pp。328-335，2014。2[28] D. 蔡氏 Jing，Y. Liu，H. A. Rowley，S. Ioffe，以及J. M. Rehg, “Large-scale image annotation using visualsynset,” in 611-618，2011。2[29] X. Chen和A. Gupta，1431-1439，2015。2[30] D. Novotny，D.Larlus，和A.Vedaldi，2[31] M. Rubinstein，A.Joulin，J.Kopf，和C.Liu，1939-1946年，2013年。二七八[32] E. Ahmed，S. Cohen和B. Price，3150-3157，2014。2[33] X. Chen，中国山核桃A. Shrivastava和A. Gupta，2027-2034年，2014年。二七八[34] P. K raühenbuühl和V. Koltun，109三、五、八[35] C.扬湖，澳-地Zhang，H. Lu、X.阮和M.- H. Yang，3166-3173，2013。3[36] H. 我也是M. Douze和C. Schmid，四、五[37] B. 哈里哈兰山口阿贝湖。 Bourd ev，S. Maji和J. 马力，991-998，2011。5[38] Theano开发团队，“Theano：A Python framework for fastcomputation of mathematical expressions ， ”arXiv e-prints，vol. abs/1605.02688，May 2016. 6[39] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S.Guadarrama和T.Darrell，6[40] A. Joulin、F. Bach和J. Ponce，“Discriminative clustering forimage co-segmentation”，IEEE Conference on Computer Visionand Pattern Recognition，pp. 1943七、八[41] A. Joulin、F. Bach和J. Ponce，“Multi-class cosegmenta-tion”，在IEEE计算机视觉和模式识别会议上，pp. 542-549，2012。七、八[42] M. Najibi，M. Rastegari和L. S.戴维斯，“G-cnn：基于迭代网格的对象检测器”，IEEE计算机视觉和模式识别会议，2016年。8

下载后可阅读完整内容，剩余1页未读，立即下载