深度学习方法:WILDCAT-图像分类、定位和分割的卷积神经网络模型

150 浏览量更新于2023-10-15 收藏 1.52MB PDF 举报

深度学习

图像分类

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

642野猫：脆弱受监督学习的深ConvNets为图像分类、逐点定位和分割蒂博特杜兰德（ 1 ），泰勒莫丹（ 1 ），（二），尼古拉斯托马斯（ 3 ），马修绳索（一）(1) 索邦大学一个我V埃尔西te"S 、UPMC一个我V P阿里斯06, CNRS ，LIP6 UMR 7606, 4地点Jussieu ，75005 P阿里斯(2) 泰雷兹光学S.A.S. ， 2 AV enue同性恋吕萨克，78990 E"兰科特，法国(3) Cedric-康瑟V Atoire国家从艺术家和M .e"第三，292街道圣马丁，75003 P阿里斯，法国{蒂博 · 杜兰德泰勒 · 莫丹尼古拉斯 · 托姆matthieu.cord}@lip6.fr摘要本文介绍了WILDCAT，这是一种深度学习方法，它结合了对齐图像区域以获得空间不变性和学习强局部化特征。我们的模型仅使用全局图像进行训练，并致力于三种主要的视觉识别任务：形象分类、弱的受监督点式对象本地化和语义分割。WILDCAT 将最先进的卷积神经网络扩展到三个主要级别：使用全卷积网络进行维护空间性决议，The显式设计在The net - 与不同类模态相关的本地功能的工作，以及A新方式至游泳池这些功能至提供A全球年龄预测必填为弱的受监督培训。广泛的实验表明，我们的模型性能显著超出了最先进的水平方法。1. 简介在过去的几年里，深度学习和卷积神经网络（ CNN ）已经成为最先进的技术。方法为视觉识别、包括形象分类 - 作用[34，56，28]，对象检测[21，20，10]或语义分割[8，42，9]. CNN经常要求A巨大的培训示例数量：一种常见的做法是在大规模数据集上使用预先训练的模型，例如.ImageNet [53并将其微调到目标域。就空间信息而言，ImageNet（主要包含居中对象）与其他常见数据集之间存在很大差异，例如. VOC 或MS可可，包含多个对象和强规模和翻译变体。为了在此上下文中实现最佳性能域适应性，有必要使信息与形象区域、例如. 由检测对象[44，29]，⋆相等贡献本研究由 DGA-MRIS 支持奖学金。(a) 原件形象（ b ）最后预测(c) 做g热图1（头部）（ d ）狗狗热图 2 （腿部）图 1 . WILDCAT 示例执行本地化和分割（ b ），基于不同的类特定模态，此处为 head （ c ）和 legs（ d ）狗狗阶级。零件 [68，69，70，35 [ 或上下文 ] 23，13].虽然有些作品公司更多精确注释持久培训，例如.边界框 [ ] 43，21增加的注释成本阻止了其广泛使用，特别是对于大数据集和像素级标签，I . E.分割遮罩[3].在本文中，我们提出了WILDCAT（深度卷积神经网络的弱超模糊学习），一种学习与类模态相关的局部视觉特征的方法，例如.狗的头或腿 - 见图1（ c ）和1（ d ） .所提出的模型可用于执行图像年龄分类，就像弱监督的点式对象定位和分割一样（图 1 ）。1（ b ））。WILDCAT 的总体体系结构（图2在三个主要级别改进现有的深度弱监督学习（ WSL ）模型。首先，我们使用最新的全卷积网络（FCNs）作为后端模块，例如. Resnet [28（图左）2）. FCNs 最近拥有显示杰出预制件为完全超级 -643图2. 野猫架构。它是基于上FCN ResNet - 101至提取物本地功能从整体图像与好的空间性决议（第3.1）.使用 WSL 多映射传输层将所有区域编码为多个类模态。3.2）.然后是功能映射。组合单独至收益率特定于类别热图那可以贝全球合并至获得A单身概率为每个人类，使用A新的空间聚合模块（第3.3）. WILDCAT 以 WSL 方式使用图像级标签进行训练，并应用于复杂场景理解、 WSL 对象检测和语义分割。3.4）.目标检测 [10和语义分割 [ ] 9] ，我们调整它们的能力以保存空间信息在我们的 WSL背景。其次，我们公司A新多地图wsl传输层（图中间）2），其明确地学习与补充类模态相关的多个本地化特征，例如.图中狗的头和腿1.我们的多地图策略不是专门为任何特定类型的特征设计的。例如.部分或基于视图的功能，因为有一些方法 [16，22，10，9].最后，我们解决了将空间分数聚合到全局预测中的问题，这是WSL培训的一个关键问题。我们提出了一个新的合并策略（右）图中2这概括了几种方法容量，包括（顶部）最大池数 [44，39全球平均池 [ ] 70 [ 或负面证据模型 ] 47，12，13].我们也现在A梭罗评价的The WILDCAT 模型基于六个数据集，报告了出色的分类性能、 WSL 逐点检测和分段任务。2. 相关工作尽管如此优秀性能、深ConvNets [34，56，28携带有限不变性，I . E.池层中的小变化 - 方差62，55，7].这适用于具有强缩放和平移变化的对象或场景数据库。检测信息丰富的图像区域的一个选项是重新访问单词袋（ BoW ）模型。[57，2]，由使用深功能作为本地区域激活 -选项 [27，25，24] 或通过设计特定的 BoW 层，例如. NetVLAD[1].获得强不变性的另一个选择是考虑弱监督学习框架（ WSL ），其中我们可以显式对齐图像区域。WSL 的一个重要范例是多实例学习（ MIL ）。11] ，将映像视为一袋实例（区域）主要问题涉及聚合函数，以将现有分数合并到全局预测中。不同的策略已经已探索至组合深模型和米尔。最大池化 [44] 仅选择 MIL 预测的最佳信息区域。最近的替代方案包括 Global平均年龄池（ GAP ）70 LSE 池中的软最大值 [58从标签比例（ LLP ）中学习65，36和最高最高评分 [39].负面证据模型 [ 编辑 ] 47，12，13] 显式选择计算类缺勤的区域。在 WILDCAT 中，我们建议纳入负面证据见解，但要有积极和有区别的见解。负贡献过程。关于 WSL 本地化任务， [5使用美丽的共现信息和基于深度特征映射的粗糙到精细的策略来预测对象位置。ProNet [ ] 58使用两个网络级联：第一个生成边界框，第二个对它们进行分类。类似地， [6提出了一种具有两个分支的特定体系结构，专门用于分类和检测。另一个重要的WSL应用是分段。许多 meth - ods 基于 MIL 框架：MIL-FCN [49延长 MIL至多类分割、MIL-Base [50]介绍644MIL 的软扩展， EM-Adapt [45包括对 MIL 框架的自适应偏差，以及约束 CNN （ CCNN ）48使用针对输出空间上的任何线性约束集优化的损失函数CNN 。类似于 WSL ，基于注意力的模型63，29，66，64选择相关区域以支持决策。WSL方法通常在选择过程中包含一些结构，而它在基于注意力的方法中是隐含的不同的语义范畴通常以多重性为特征已本地化属性通信至不同的类模态（参见示例狗狗图中的类1）.种子 DMP 模型 [ ] 16包括严重性模板地区为决定有已经广泛地研究 [ 编辑 ] 54，46] ，可选地合并先验，例如。稀疏性或多样性，以便学习敏感模型30，59].当 [22，60] 是 DMP 对 CNN 、 R-FCN的直接概括 [10通过显式学习多个部分模型并使用为精确空间定位而设计并直接插入到网络顶部的基于部分的特征池来提高性能。CNN [ 编辑 ] 19通过用一组固定的几个局部特征对对象建模来利用多种模态（例如.部分、上下文）并结合分段线索。最近还通过显式上下文模型解决了不同区域的组合问题。23] ，或通过建模区域相关性，如 RRSVM [61].对于细粒度识别，具有多特征检测已经被卡住在The完全受监督设置[67，40，68]和在 WSL 中[33].当本地计算具有深度模型时，最简单的方法是将每个区域重新缩放到固定大小。向量改编至The CNN体系结构、作为做了在早期作品为检测、例如. R-CNN [21]，或场景理解 [27，25，43，12].由于这种方法效率极低，在那里有已经广泛尝试为使用卷积 - 卷积层至共享功能计算、为形象分类[44，13，70对象检测 [22，20，52图像分割 [8，42].然而，完全连接的层在标准深度体系结构中是有益的，例如. Alexnet [ 编辑 ] 34 [ 或 VGG ] 56].最近，用于图像分类的全Convo—lutionnal Networks（FCN）取得了巨大的成功，例如. Resnet [28] ，已经成功地驱动了使用 FCN 进行完全监督的对象检测的方法[10和图像年龄分割 [ ] 9] ，可实现完整的共享功能和最先进的性能。我们的方法将这些见解从这些最新的国家联络点调整到 WSL设置。3. 野猫模型图3. WILDCAT本地特征编码和池化。类模态使用多映射WSL传输层进行编码，并针对所有类单独进行池化。局部特征是聚集的，然后是门控的与A全球空间性池化至收益率A单身得分每阶级。部分模型。3.1. 完全卷积的架构在特征映射中选择相关信息是WSL中的一个主要问题。它影响本地化The学习代表和The精确度的The结果（例如.语义分割或对象检测。我们期待The解决方案的The功能地图至贝A密钥化合物为野猫：罚款地图保持更多空间性解决方案并引导至更具体的区域（例如.对象，零件）。为此，我们利用了最近推出的 NCF ResNet -101 。28（图左）2它自然地保存整个网络的空间信息。它还将所有地区的本地功能合并到一个单一的转发通道中，而不会重新调整它们。相比之下，ResNet 体系结构在图像分类方面是有效的参数 -和时间效率 [28].这种类型的体系结构已被用于加速计算并在完全监督的设置中产生精确的空间预测。例如.在对象检测中 [10和语义分割[9].我们使用在 Ima-geNet 数据集上预训练的公开发布模型 [ ] 53并删除最后一层（全球平均年龄）池化和完全已连接）至替换他们与WSL 转移和野猫池层（图3（如中所述）跟随。3.2. 多地图传输层我们介绍A多地图wsl转移层那学习多个类相关模态，编码为M .按类别划分的功能映射1 个×1个卷积（无花果中间）2）.模式是学习在一个WSL 时尚只有The图像级别标签和The转移层保持水疗中心 - tial决议，密钥在WSL 。我们注W × h × DThe尺寸的conv5地图的ResNet - 101 ，什么是W× H× 2048为安3232总体 WIDLCAT 体系结构（图2）是基于在适用于空间预测的 FCN 上42] 、与类相关联的多映射 WSL 传输层编码模态以及用于学习精确本地化的 WSL 的全局池。我们现在正在进入三个原件形象的尺寸W × H× 3 [28]. 的转移输出然后是尺寸W×h×MC（图3）.的M .专业化时的 AIM 模式类特定功能、例如.零件 [9，10图中狗的头和腿1或视图 [16，22]. 我们强调差异与645Z¯一些特定的编码方法：R-FCN 中的位置敏感 RoI池10基于位置的部队专业化（相对）至The对象）while我们方法可以也学习另一种特征，例如.语义部分（图1）.以同样的方式 DMP [ ] 16只在我们的多地图中学习辨别部分转移模型可以查找更多将军特征、例如.背景。此外，与DMP不同的是，在DMP中，每个视图都学习不同的模型，我们在FCN中共享大部分计算，这更有效。我们注意到这一点M.=1个这简化为标准分类层，I. E.进入c .类。3.3. 野猫池化WILDCAT 从图像级标签中学习，因此我们需要一种方法来总结每个类的特征映射中包含的所有信息（图右）2）.我们注意到有否更多学习参数在这池化层，这意味着我们可以在此级别直接解释和可视化功能地图。70，10].我们分两步完成（图3类级池（方程（1（ b ）结合了M .来自多映射传输层的映射，然后是空间池化模型（2（））选择与地图内的区域相关的区域以支持预测这将导致野猫池化，A两阶段池化操作至计算The得分s C的类C：k+k— α池化100最大值[44]k/ρ n00顶级实例 [39/LLP [65]n00平均值[70]kk1威尔顿[13]表1.的概括野猫使用相应参数将空间池与其他现有MIL方法进行比较。n是总数的区域、ρ是The比例的阳性标签在LLP ，k是要访问的区域的任意数量选择。Σ在哪里Hk是这样那h>Hk满意的h我，j>{0，1}和i ， jh i ， j= k. 它由在选取为每个人类C Thek+（分别） k-）R e吉昂与The最高（分别） L o（西）活动 -V国家从输入Z¯C. 的输出sC为类C的这层是The加权平均值的分数的全部The选定区域。我们只考虑卷积特征中由单个神经元定义的区域映射。已经使用了几种类似的 MIL 方法，但我们提出了模型概括他们在数量的方式。表中描述了相应的参数1.标准最大池 MIL 方法 [ 编辑 ] 44] 仅使用一个元素，和两者都有顶部实例模型[39]，使用标签比例学习 [65] 和全球平均池 - ing [70]可以贝已获得与更多。图纸从负面证据 [47，12，13我们可以合并最低分数 -支持分类和我们的空间的区域池化Ci ， j = CL. 游泳池M{\displaystyle{\displaystyle{}1，...，M .}C、Mi，j（一）函数可以简化为 kMax + kMin 层[13].sC=Sp. PoOL（i ， j）{\displaystyle {\displaystyle {}1，...，W} × {1，...，h}Ci，j（2）最大值和最小值评分地区两者都有是我带来良好的结果 [12，13但不要提供相同类型的信息。我们探索的相对权重两者都有在哪里Z是The输出的The转移层，CL. 游泳池是The按类选择池函数和SP. 游泳池是水疗中心 - tial 聚集过程。按类别分组。第一步是将M .独立映射到所有类，并在等式（1具有通用池函数CL. 游泳池.我们在下面使用平均池。地图从W×h×MC至W×h×c .（图3）.何时M .=1 个不需要此操作，因为每个类都已由单个类表示地图。我们注意到，即使由平均年龄池跟随的多映射在功能上等价于单卷积（I. E. M .=1它带来的显式结构M .模态有重要实用的优点制作训练很容易。我们经验性地证明了这一点M >1 个收益率高于常规收益率M .= 1.空间池。我们现在推出新的空间聚合方法实施The第二，空间性将步骤合并到方程式（2每个地图C：通过引入因子确定区域类型α在这两个术语之间交易相对重要性。我们假设最大评分区域更适合分类，因为它们直接支持决策，而最小评分区域基本上充当正则化。与α<1 个WILDCAT 应更多地关注歧视性再歧视吉昂和然后更好本地化功能比与α = 1.讨论WILDCAT体系结构由传输层和池组成。因为没有参数要在池化模块中学习，传输层性能分类和它是轻松至可视化热图与直接区分区域的局部化。我们注意到，这种类型的建筑在 [70其中池化是执行的之前The最后完全已连接层，作为在The原始ResNet 体系结构28 [ 例如。然而，这种或多种方式需要一种非自然的方式来可视化特定于类的热图。[70].s C=最大1Σ h我，jZ¯C+α最小1Σ h我，jZ¯C（3）它显示在 [70如果空间聚合方法它是线性的，例如.全球平均池，然后排序两层是不重要的是，目标The二配置可以是h>Hk +k+ZZ¯646i，ji，jhHk-k-i，ji，j与这样的非线性池化函数不同作为64732野猫空间性池。的差别是更多重要何时k++k-是LoW，I . E. 何时W他DC在空间性池化真的不同从全球平均值池。我们评估影响的这设计选择和的The所选池化func -ION在The实验和表演那我们架构产量更好结果。3.4. 野猫应用程序训练阶段。我们的 WILDCAT 模型基于 ResNet - 101主干体系结构。28].我们从A模型预培训上图像网[53]和火车它随机梯度下降（ SOD ），仅带图像级标签。网络的所有层都经过微调。输入图像以给定比例扭曲为正方形大小。我们使用多尺度设置，其中为每个尺度学习不同的模型，并将它们组合在一起使用对象库 [38]策略。WILDCAT 旨在从图像级学习仅限 SuperVision ：相同的训练过程用于图像分类，弱的受监督点式对象检测和弱的受监督语义学细分。何时学习 WILDCAT ，梯度反向传播通过标准协议。MS COCO数据集（分别为VOC 2012 行动），我们遵循 [44（分别为[13]）.详细信息可在部分中找到1个补充—三。我们首先将我们的模型与最先进的冰毒进行比较，然后分析我们的贡献。4.1. 与最新技术水平的比较方法我们比较野猫与多个最先进的技术对象分类模型。我们模型的参数已设置为M .=4 个和α=0. 7.对象类的结果 - 分类（表2显示 WILDCAT 的性能明显优于所有最近的方法。我们可以指出一个与使用 ResNet - 101 在整个图像上计算的深度特征相比，有很大的改进。28] ： 2007 年 VOC 为 5.2分， 2012 年 VOC 为 4.2 分。请注意，这些差异直接措施The相关性的The建议wsl方法，因为野猫是基于上ResNet - 101 。我们也比较 - 将我们的模型与区域选择方法进行比较：DeepMIL [ ] 44威尔顿 [ 编辑 ] 13 [ 和 RRSVM ] 61].尽管使用多个区域，如[44，13，61很重要，我们在这里展示那我们可以进一步显著改进通过学习多种方式提高绩效分类。The野猫层仅限内部Thek++k-选定R e吉昂人，全部其他梯度存在已取消[13]. 的选择的反向传播的正确区域是在没有任何空间监督的情况下学习精确定位特征的关键[58].推理阶段。预测因任务而异在手中。对于图像分类，预测简单地采用网络的单值输出（如在训练中）。对象检测和语义分段需要空间预测所以我们提取物The特定于类别地图之前水疗中心 - tial池化至保持空间性决议。他们是在解决方案1关于 ResNet - 101 架构的输入映像[28]. 用于弱的受监督点式对象检测，我们提取区域（I . E.特征图中的神经元），具有每个类的最大分数，并将其用于逐点局部化，如 [44，5].对于弱监督语义分割，我们计算最终的分割掩码他者由拍摄The类与最大值得分在每个空间位置独立于或由应用A CRF为温泉预测是常见的做法 [ 编辑 ] 8，48].4. 分类实验我们正在评估WILDCAT的分类任务。我们的模型是用 Torch7 （http://torch.ch/）.在非常不同的环境中展示我们方法的稳健性上下文，我们评估它上六数据集：对象重新设计（ VOC 2007 ）14] ，VOC 2012 [ ] 15] ，场景分类法（ MIT67 ）51和 15个场景 [37视觉识别上下文起着重要作用的视觉识别（ MS COCO ）41]，VOC 2012行动[1 5]）. 的绩效上MIT67 、 15 Scene 、 VOC 2007 和 2012 的评价如下The表2. 对象和识别数据集的分类性能（MAP）。我们使用VOC评估服务器在VOC 2012上进行评估。（ * ）使用在线代码获得结果的方式https://github.com/facebook/fb.resnet.torch.在表3，我们比较野猫结果为场景cat - 用于图像分类的最新全局图像表示的 egorization深度特征[71，28] ，以及在 im-age 上计算的具有深度特征的全局图像表示地区：MOP CNN [25]和紧凑型双语合并 [18].同样，WILDCAT获得了最好的结果，显示了我们的模型搜索有区别的部分区域的能力，其中背景和非信息部分被纳入图像表示与其他方法。我们也比较野猫至存在基于零件包括培训期间负面证据的模型 [ 编辑 ] 47非线性部分分类器与部分相关软池相结合35]. WILDCAT 还通过不同的空间池策略在最近的 WSL 模型中表现出色：17 分，尊重 GAP GoogleNet [70] 使用全球平均年龄池和 6 分尊重 WELDON [ ] 13]什么方法VOC2007VOC2012VGG16[56]89.389.0DeepMIL[44]—86.3威尔顿[13]90.2—ResNet - 101 （ * ）[28]89.889.2ProNet[58]—89.3RRSVM[61]92.9—SPLeaP[35]88.0—野猫95.093.4648使用A kmax + kmin池。这个验证The相关性从我们的空间池。方法15场景MIT67CaffeNet 地点[71]90.268.2MOP CNN[25]—68.9负部件[47]—77.1GoogleNet 差距[70]88.366.6威尔顿[13]94.378.0紧凑型双列池[18]—76.2ResNet - 101 （ * ）[28]91.978.0SPLeaP[35]—73.5野猫94.484.0表3. 现场性能评级（多等级准确度）数据集。方法VOC07VOC12 行动MIT67建筑（一）89.078.969.6建筑（ b ）87.377.568.1表5. 分类绩效为体系结构（一）和（ b ）。请注意，体系结构策略（ a ）与（ b ）有着非常不同的解释：（ a ）对每个区域进行独立分类，然后对区域得分进行汇总，其中（ b ）对区域得分进行汇总The输出的The卷积地图和然后在池中执行图像分类空间。参数的影响α. 我们研究了参数的影响α对性能进行分类。从结果 - 图中的结果4很明显，纳入负 EVI -发病率，I . E. α >0与标准最大池化相比，I . E.α=0.我们进一步注意到使用不同的重量为最大值和最小值分数，最后，我们报告了野生 -I. E.α1，产量更好结果比与α = 1从[13]，猫上上下文数据集在表4. 我们比较我们模型到 ResNet - 101 深度功能28] 根据完整图像和最新的 WSL 图像分类模型计算：DeepMIL [ ] 44威尔顿[ 编辑 ] 13和 ProNet [58]. 野生 -CAT 在两个数据集上的表现优于 ResNet - 101（满分 8 分），再次验证了我们的 WSL 模型背景。方法VOC 2012行动MS可可DeepMIL[44]—62.8威尔顿[13]75.068.8ResNet - 101 （ * ）[28]77.972.5ProNet[58]—70.9野猫86.080.7表4. 分类绩效（地图）上上下文数据集。4.2. 更进一步分析我们详细介绍了我们对三个数据集的贡献的影响：VOC 2007、VOC 2012行动和MIT67。我们现在结果为安输入形象的尺寸448 ×448和k+=k-=1，BUT类似贝赫A Viors是观察员V ed为其他比例和LA R g e Rk+和k-. 通过来自f奥特，我们模型参数 -埃特斯α和M .已设置为1.深层结构。首先，为了验证提议的 WILDCAT 架构的设计选择，我们评估了两个dif - ferent 配置（请参阅前面的讨论3.4）：(a) conv5 + conv + 池（我们的体系结构） ;(b) conv5 + pooling + conv （建议的架构）70对于非线性，这两种配置是不同的野猫池化方案已描述在节3.3和他们的比较是已报告在表5. 我们可以看到我们的体系结构（ a ）比 GAP 中使用的体系结构（ b ）有了持续的改进70在所有三个数据集中，例如.1.7 PT ONVOC07 .649最佳改进为1.6分（分别为2和1.8）以及α=0. 6.（分别）0. 7 个和0. 8 2007 年（分别） VOC 2012行动和MIT67）。这证实了对负面证据使用相对权重的相关性。更重要的是，我们的模型是稳健的，尊重α.图4. 参数分析α.模态数量。另一个重要的超参数的我们模型是The编号的模态（M .（已使用在The多地图转移层。的绩效对于不同的值M .在表中报告6.显式学习多模态，I. E. M >1在标准层分类方面，收益很大，I . E. M .=1 个[13].然而，编码比所需更多的模态（例如. M .=16这可能导致自绩效减少。的最好的改进是3.5 PT （分别）4.3和3.5）M.=8.（分别）2007 年 VOC 上的 8 和 12 ）（分别） VOC 2012行动和MIT 67 ）。示例热图为The相同类别是显示在图6.消融研究。我们表演安消融研究至说明效果的每个人贡献。我们的基线是A wsl与M .=1 个和空间池α=1. 的650M.12481216方法VOC2012MS可可VOC200789.091.091.692.592.392.0DeepMIL[44]74.541.2VOCAaction 78.981.582.183.283.082.7ProNet[58]77.746.4MIT6769.671.872.072.873.172.9WSLocalization[5]79.749.2表6. 分析的多地图转移层。结果是已报告在表7. 来自这消融研究，我们可以画下面的结论：– 两者都有α=0. 7 个和M .=4 个改进导致整体性能的大幅提高数据集 ;– 组合α=0. 7个和M.=4个进一步改进可提高性能：2007年VOC为0.4分，2012年VOC行动为0.8分，MIT67为0.8分。这显示了两者的互补性。贡献。最大+最小α=0. 7M .=4VOC07VOCACMIT67c.89.078.969.6c.c.90.380.971.3c.c.91.682.172.0c.c.c.92.082.972.8表7. VOC 2007、VOC 2012行动（VO—CAc）和MIT67的消融研究。结果与以下结果不同节4.1因为此仅使用一个比例分析。5. 脆弱受监督实验在本节中，我们展示了我们的模型可以应用于各种任务，而只接受全球图像标签的培训。我们正在评估WILDCAT的两个具有挑战性的弱监督应用程序：点式定位和分段。5.1. 弱监督点式本地化我们评估我们的本地化性能PASCAL VOC 2012上的模型验证设置 [15] 和 MS可可验证设置[41].的绩效是评估与基于点的对象定位度量由 [44].这个公制措施The质量的The检测、while与 IoU 等其他指标相比，对失调不敏感15] ，需要使用附加步骤（例如.边界框回归）。野猫本地化绩效是已报告在塔 - 布尔8.我们的模型显著优于现有模型弱监督方法。我们可以注意到重大改进中间野猫和基于 MIL DeepMIL 架构 [44这证实了我们的重要性空间池函数。尽管我们的模型具有简单、多用途的架构，但它的性能在很大程度上超过了 ProNet 的复杂级联架构。58].它也表现出了最近监管不力的模式。5 3.2 分（分别）4.2 2012年VOC（分别为MS COCO ），它使用比我们的模型更复杂的策略，基于搜索 - 树来预测地点。野猫82.953.4表8. 点式对象本地化绩效（地图）上帕斯卡尔VOC 2012和MS可可。注：由于位置预测基于分类分数，好的分类性能是这对于健壮的对象定位非常重要。在图中5我们评估分类和本地化性能，α在 VOC 2012 上。分类和本地化曲线是非常相似。的最好的本地化每 -形式是已获得为α>[ 0 ]. 6，0. [ 7 ]，和The改进 - 介于α=1 个和α=0. 7个它是1.6磅。我可以注意到获得最差性能的原因α=0这证实了情报是由迷你mum 用于两种分类和本地化。图5. 分类和本地化绩效与尊重α在 VOC 上2012.5.2. 弱监督细分我们在 PASCAL VOC 2012 年图像年龄细分数据集上评估了我们的模型。15由 20 个前向对象类和一个背景对象类组成。我们用它训练我们的模型火车集合（ 1，464 张图片）和由 [ ] 提供的附加注释26] （结果是一组 10，582 张图片），并在验证集合（ 1，449 张图片）。性能是根据 21世纪的平均像素相交度（ IoU ）来衡量的。大猩猩 !在现有方法中，我们添加了一个完全连接的 CRF （ FC-CRF ） [32后处理最终输出标签 -ing 。分割结果。我们方法的结果见表9.我们将其与在培训过程中仅使用图像标签的弱监督方法进行了比较。我们可以看到，没有 CRF 的 WILDCAT 表现不佳受监督模型由A大保证金。我们注A651(a) 原件形象（ b ）地面真理（ c ）热图 1（ d ）热图 2WILDCAT 预测图6. 分割示例上VOC 2012. 我们的预测是正确例外为The火车（最后行）在哪里我们模型聚合轨道和火车区域。用于对象作为鸟或飞机，一个可以看到如何二热图（热图 1 ）（ c ）和热图 2（ d ）代表The相同类别：分别鸟，飞机，狗狗和火车）已成功至焦点上不同的目标相关零件的The对象。根据基于（软）最大池的 MIL 模型获得较大收益[49，50]，什么验证The相关性的我们用于分段的池。WILD—CAT与CRF和最佳模型之间的改进为7.1分。这证实了我们的模型能够学习有区别的和高度局部化的特征。我们可以注意到，表中评估的所有方法9有可比性复杂性。方法平均值你MIL-FCM[49]24.9MIL-Base + ILP + SP-sppxl[50]36.6EM 适应性+ FC-CRF [45]33.8CNN +FC-CRF [48]35.3野猫39.2野猫+FC-CRF43.7表9. 比较的弱的受监督语义学细分VOC 方法2012.更复杂的战略，最新的[31]出席印象深刻结果（ 50.7 ）我）。的[ 中的列车运行方案31] 包含专门针对细分量身定制的不同术语：一个强制分割遮罩以匹配低级别图像边界，另一个一个合并先验知识至支持预测类将占据一定比例的图像。与此同时，野猫使用A单身模型什么是培训在The同样的方式为三个任务，I . E.分类、本地化和细分。定性结果。在图中6我们显示预测的出血增加面具为四个图像。已比较至地面真值（（ b ）列），我们可以看到，我们预测

下载后可阅读完整内容，剩余1页未读，立即下载