没有合适的资源?快使用搜索试试~ 我知道了~
642野猫 :脆弱受 监督学习的深ConvNets为图像 分类 、 逐 点 定位 和分割蒂 博特杜 兰德( 1 ),泰勒莫 丹( 1 ),( 二 ),尼古拉斯托马斯( 3 ),马修绳索( 一 )(1) 索 邦 大学一 个我V埃尔 西te"S 、UPMC一 个我V P阿里斯06, CNRS ,LIP6 UMR 7606, 4地点Jussieu ,75005 P阿里斯(2) 泰 雷兹光学S.A.S. , 2 AV enue同性 恋吕萨克 ,78990 E"兰科特 ,法国(3) Cedric-康 瑟V Atoire国家从艺术 家和M .e"第 三 ,292街道圣马丁 ,75003 P阿里斯 ,法国{蒂博 · 杜 兰德 泰勒 · 莫 丹 尼古拉斯 · 托姆matthieu.cord}@lip6.fr摘要本文介绍了WILDCAT,这是一种深度学习方法,它结合了对齐图像区域以获得空间不变性和学习强局部化特征。我们 的 模型 仅 使用 全局 图像 进行 训练 ,并 致力 于 三 种 主要 的 视觉 识别 任务 :形象分类 、弱 的受 监督点 式对象本地 化 和 语义 分割 。WILDCAT 将 最 先进 的 卷积 神经 网络 扩展 到 三 个主要 级别 :使用 全 卷积 网络 进行 维护空间 性决议 ,The显 式设计在The net - 与 不同 类 模态 相关 的本地 功能 的 工作 , 以及A新方式至游泳 池这些功能至提供A全球年龄预测必填为弱 的受 监督培训 。 广泛的 实验 表明 , 我们 的 模型 性能 显著 超出 了 最 先进 的 水平方法 。1. 简介在 过去 的 几 年 里 , 深度 学习 和 卷积 神经 网络( CNN ) 已经 成为 最 先进 的 技术 。方法为视觉识别 、包括形象分类 - 作用[34,56,28],对象检测[21,20,10]或语义 分割[8,42,9]. CNN经常要求A巨大 的培训 示例 数量 :一 种 常见 的 做法 是 在 大规模 数据 集 上 使用 预先 训练 的 模型 ,例如.ImageNet [53并 将 其 微调 到 目标域 。就空间信息而言,ImageNet(主要包含居中对象)与其他常见数据集之间存在很大差异,例如. VOC 或MS可可 ,包含多 个对象和强规模和 翻译 变体 。为了 在 此 上下 文 中 实现 最 佳 性能 域 适应 性 , 有必要 使 信息 与形象区域 、例如. 由检测对象[44,29],⋆相等贡献本 研究 由 DGA-MRIS 支持奖学 金 。(a) 原件形象( b ) 最 后预测(c) 做g热图1( 头部 )( d )狗狗热图 2 ( 腿部 )图 1 . WILDCAT 示例 执行 本地 化 和 分割 ( b ) ,基于 不同 的 类 特定 模态 , 此处 为 head ( c ) 和 legs( d )狗狗阶级 。零件 [68,69,70,35 [ 或 上下文 ] 23,13].虽然 有些作品公司更多精确注释持久培训 ,例如.边界 框 [ ] 43,21增加 的 注释 成本 阻止 了 其广泛 使用 , 特别 是 对于 大 数据 集 和 像素 级 标签 ,I . E.分割 遮罩[3].在本文中,我们提出了WILDCAT(深度卷积神经网络的弱超模糊学习),一种学习与类模态相关的局部视觉特征的方法,例如.狗 的 头 或 腿 - 见 图1( c ) 和1( d ) .所 提出 的 模型 可 用于 执行 图像年龄 分类 , 就 像 弱 监督 的 点 式 对象 定位 和 分割一样 ( 图 1 ) 。1( b ) ) 。WILDCAT 的 总体 体系 结构 ( 图2在 三 个 主要级别 改进 现有 的 深度 弱 监督 学习 ( WSL ) 模型 。首先,我们使用最新的全卷积网络(FCNs)作为后端模块,例如. Resnet [28( 图 左 )2). FCNs 最近拥有显示杰出预制 件为完全超级 -643图2. 野猫架构 。 它是基于上FCN ResNet - 101至提取 物本地功能从整体图像与好 的空间 性决议 ( 第3.1).使用 WSL 多 映射传输 层 将 所有 区域 编码 为 多 个 类 模态 。3.2).然后 是 功能 映射 。组合单独至收益 率特定 于 类别热图那可以贝全球合并至获得A单身概率为每个 人类 ,使用A新 的 空间 聚合 模块 ( 第3.3). WILDCAT 以 WSL 方式 使用 图像 级 标签 进行 训练 , 并 应用 于 复杂 场景 理解 、 WSL 对象 检测 和 语义 分割 。3.4).目标 检测 [10和 语义 分割 [ ] 9] , 我们 调整 它们 的能力 以 保存 空间 信息在 我们 的 WSL背景 。其次 ,我们公司A新多 地图wsl传输 层 ( 图 中间 )2) , 其 明确 地 学习 与 补充 类 模态 相关 的多 个 本地 化 特征 ,例如.图 中 狗 的 头 和 腿1.我们的多地图策略不是专门为任何特定类型的特征设计的。例如.部分 或 基于 视图 的 功能 , 因为 有 一些方法 [16,22,10,9].最后,我们解决了将空间分数聚合到全局预测中的问题,这是WSL培训的一个关键问题。我们 提出 了一 个 新 的 合并 策略 ( 右 )图 中2这 概括 了 几 种方法容量 , 包括 ( 顶部 ) 最 大 池 数 [44,39全球平均 池 [ ] 70 [ 或 负面 证据 模型 ] 47,12,13].我们也现在A梭罗评价的The WILDCAT 模型 基于六 个 数据 集 , 报告 了 出色 的 分类 性能 、 WSL 逐点 检测 和 分段任务 。2. 相关工作尽管 如此优秀性能 、深ConvNets [34,56,28携带有限 不 变性 ,I . E.池 层 中 的 小 变化 - 方差62,55,7].这适用于具有强缩放和平移变化的对象或场景数据库。检测 信息 丰富 的 图像 区域 的 一 个 选项 是重新 访问 单词 袋 ( BoW ) 模型 。[57,2],由使用深功能作为本地区域激活 -选项 [27,25,24] 或 通过 设计 特定 的 BoW 层 ,例如. NetVLAD[1].获得 强 不 变性 的 另 一 个 选择 是 考虑弱 监督 学习 框架 ( WSL ) , 其中我们 可以 显 式 对齐 图像区域 。WSL 的 一 个 重要 范例 是 多 实例 学习( MIL ) 。11] , 将 映像 视为 一 袋 实例 ( 区域 )主要问题涉及聚合函数,以将现有分数合并到全局预测中。不同 的 策略已经已 探索至组合深模型和米尔 。 最 大 池 化 [44] 仅 选择 MIL 预测 的 最 佳 信息区域 。最近 的 替代 方案 包括 Global平均 年龄 池( GAP )70 LSE 池 中 的 软 最 大 值 [58从 标签 比例( LLP ) 中 学习65,36和 最 高 最 高 评分 [39].负面证据 模型 [ 编辑 ] 47,12,13] 显 式 选择 计算 类 缺勤 的 区域 。在 WILDCAT 中 , 我们 建议 纳入 负面证据 见解 , 但 要 有 积极 和 有 区别 的 见解 。负 贡献过程 。关于 WSL 本地 化 任务 , [5使用 美丽 的 共 现 信息 和 基于 深度 特征 映射 的 粗糙 到 精细 的 策略 来预测 对象 位置 。ProNet [ ] 58使用 两 个 网络 级联 :第 一 个 生成 边界 框 , 第 二 个 对 它们 进行 分类 。类似 地 , [6提出 了 一 种 具有 两 个 分支 的 特定 体系 结构 , 专门 用于 分类 和 检测 。另一个重要的WSL应用是分段。许多 meth - ods 基于 MIL 框架 :MIL-FCN [49延长 MIL至多 类分割 、MIL-Base [50]介绍644MIL 的 软 扩展 , EM-Adapt [45包括 对 MIL 框架 的自 适应 偏差 , 以及 约束 CNN ( CCNN )48使用 针对 输出 空间 上 的 任何 线性 约束 集 优化 的 损失 函数CNN 。类似 于 WSL , 基于 注意 力 的 模型63,29,66,64选择 相关 区域 以 支持 决策 。WSL方法通常在选择过程中包含一些结构,而它在基于注意力的方法中是隐含的不同 的 语义 范畴 通常 以 多重 性 为 特征已 本地化属性通信至不同 的类 模态 ( 参见 示例狗狗图 中的 类1).种子 DMP 模型 [ ] 16包括 严重 性模板地区为决定有已经广泛 地研究 [ 编辑 ] 54,46] , 可选 地 合并 先验 ,例如 。稀疏 性 或 多样 性 , 以便 学习 敏感 模型30,59].当 [22,60] 是 DMP 对 CNN 、 R-FCN的 直接 概括 [10通过 显 式 学习 多 个 部分 模型 并 使用 为 精确 空间 定位 而 设计 并 直接 插入 到 网络 顶部 的 基于 部分 的 特征 池 来 提高 性能 。CNN [ 编辑 ] 19通过 用 一 组 固定 的 几 个 局部 特征 对 对象建模 来 利用 多种 模态 (例如.部分、上下文)并结合分段线索。最近 还 通过 显 式 上下文 模型 解决 了 不同 区域 的 组合 问题 。23] , 或 通过 建模 区域 相关性 , 如 RRSVM [61].对于 细 粒度 识别 , 具有 多 特征 检测已经被 卡住在The完全受 监督设置[67,40,68]和 在 WSL 中[33].当 本地 计算 具有 深度 模型 时 , 最 简单 的 方法是 将 每个 区域 重新 缩放 到 固定 大小 。向量改编至The CNN体系 结构 、作为做 了在早期 作品为检测 、例如. R-CNN [21],或场景理解 [27,25,43,12].由于 这种 方法 效率 极 低 ,在 那里有已经广泛尝试为使用卷积 - 卷积层至共享功能计算 、为形象分类[44,13,70对象 检测 [22,20,52图像 分割 [8,42].然而,完全连接的层在标准深度体系结构中是有益的,例如. Alexnet [ 编辑 ] 34 [ 或 VGG ] 56].最近,用于图像分类的全Convo—lutionnal Networks(FCN)取得了巨大的成功,例如. Resnet [28] , 已经 成功 地 驱动 了 使用 FCN 进行 完全 监督 的 对象 检测 的 方法[10和 图像 年龄 分割 [ ] 9] , 可 实现 完整 的 共享 功能 和 最 先进 的 性能 。我们 的 方法 将 这些 见解 从这些 最 新 的 国家 联络 点 调整 到 WSL设置 。3. 野猫模型图3. WILDCAT本地特征编码和池化。类模态使用多映射WSL传输层进行编码,并针对所有类单独进行池化。局部特征 是 聚集 的 , 然后 是 门 控 的与A全球空间 性池 化至收益 率A单身得分每阶级 。部分模型 。3.1. 完全卷积 的架构在特征映射中选择相关信息是WSL中的一个主要问题。它 影响 本地 化The学习代表和The精确 度的The结果 (例如.语义分割或对象检测。我们 期待The解决方案的The功能地图至贝A密钥化合 物为野猫 :罚款地图保持更多空间 性解决 方案 并 引导 至 更 具体 的区域 (例如.对象 ,零件 ) 。为此 , 我们 利用 了 最近 推出 的 NCF ResNet -101 。28( 图 左 )2它 自然 地 保存 整个 网络 的 空间 信息 。它还将所有地区的本地功能合并到一个单一的转发通道中,而不会重新调整它们。相比 之 下 ,ResNet 体系 结构 在 图像 分类 方面 是 有效 的参数 -和 时间 效率 [28].这种类型的体系结构已被用于加速计算并在完全监督的设置中产生精确的空间预测。例如.在 对象 检测 中 [10和 语义 分割[9].我们 使用 在 Ima-geNet 数据 集 上 预 训练 的 公开发布 模型 [ ] 53并 删除 最 后 一 层 ( 全球 平均 年龄 )池 化和完全已 连接 )至替换他们与WSL 转移 和野猫池 层 ( 图3( 如 中 所 述 )跟随 。3.2. 多 地图 传输层我们介绍A多 地图wsl转移层那学习 多 个 类 相关模态 , 编码 为M .按 类别 划分 的 功能 映射1 个×1个卷积 ( 无花果 中间 )2).模式 是 学习 在 一 个WSL 时尚 只有The图像 级别标签和The转移层保持水疗 中心 - tial决议 ,密钥在WSL 。 我们注W × h × DThe尺寸的conv5地图的ResNet - 101 ,什么是W× H× 2048为安3232总体 WIDLCAT 体系 结构 ( 图2) 是基于在 适用 于 空间 预测 的 FCN 上42] 、 与 类 相 关联 的多 映射 WSL 传输 层 编码 模态 以及 用于 学习 精确本地 化 的 WSL 的 全局 池 。 我们 现在 正在 进入三个原件形象的尺寸W × H× 3 [28]. 的转移输出然后 是 尺寸W×h×MC( 图3).的M .专业 化 时 的 AIM 模式类特定功能、例如.零件 [9,10图 中 狗 的 头 和 腿1或 视图 [16,22]. 我们 强调 差异与645Z¯一些 特定 的 编码 方法 :R-FCN 中 的 位置 敏感 RoI池10基于 位置 的 部队专业 化 ( 相对 )至The对象 )while我们方法可以也学习另 一 种 特征 ,例如.语义部分 ( 图1).以 同样 的 方式 DMP [ ] 16只 在 我们 的多 地图 中 学习 辨别 部分转移模型可以查找更多将军特征 、例如.背景。此外,与DMP不同的是,在DMP中,每个视图都学习不同的模型,我们在FCN中共享大部分计算,这更有效。我们注意到这一点M.=1个这简化为标准分类层,I. E.进入c .类 。3.3. 野 猫池 化WILDCAT 从 图像 级 标签 中 学习 , 因此 我们 需要 一 种 方法 来 总结 每个 类 的 特征 映射 中 包含 的所有 信息 ( 图 右 )2).我们 注意 到 有否更多学习参数在这池 化层 ,这 意味 着 我们 可以 在 此 级别 直接 解释 和 可视化 功能 地图 。70,10].我们 分 两 步 完成 ( 图3类 级 池 ( 方程 (1( b ) 结合 了M .来自 多 映射 传输 层 的 映射 , 然后 是 空间 池 化 模型 (2( ) ) 选择 与 地图 内 的区域 相关 的 区域 以 支持 预测 这 将 导致野猫池化 ,A两 阶段池 化操作至计算The得分s C的类C:k+k— α池化100最 大 值[44]k/ρ n00顶级 实例 [39/LLP [65]n00平均 值[70]kk1威尔顿[13]表1.的概括野猫使用相应参数将空间池与其他现有MIL方法进行比较。n是 总数的区域 、ρ是The比例的阳性标签在LLP ,k是 要 访问 的 区域 的 任意 数量选择 。Σ在 哪里Hk是这样那h>Hk满意 的h我,j>{0,1}和i , jh i , j= k. 它由在选取为每个 人类C Thek+( 分别 ) k-)R e吉昂与The最 高( 分别 ) L o( 西 )活动 -V国家从输入Z¯C. 的输出sC为类C的这层是The加权平均 值的分数的全部The选定区域 。我们只 考虑 卷积 特征 中 由 单个 神经 元 定义 的 区域映射 。已经 使用 了 几 种 类似 的 MIL 方法 , 但 我们 提出 了模型概括他们在数量的方式 。 表 中 描述 了 相应 的 参数1.标准 最 大 池 MIL 方法 [ 编辑 ] 44] 仅 使用一 个元素 ,和两者 都 有顶部实例模型[39],使用标签 比例 学习 [65] 和 全球 平均 池 - ing [70]可以贝已获得与更多 。 图纸从负面 证据 [47,12,13我们 可以合并 最 低 分数 -支持 分类 和 我们 的 空间 的 区域池化Ci , j = CL. 游泳 池M{\displaystyle{\displaystyle{}1,...,M .}C、Mi,j(一)函数 可以 简化 为 kMax + kMin 层[13].sC=Sp. PoOL(i , j){\displaystyle {\displaystyle {}1,...,W} × {1,...,h}Ci,j(2)最 大 值和最 小 值评分地区两者 都 有是我带来 良好 的 结果 [12,13但 不要 提供 相同 类型 的 信息 。我们 探索 的 相对 权重两者 都 有在 哪里Z是The输出的The转移层 ,CL. 游泳 池是The按类选择池函数和SP. 游泳 池是 水疗 中心 - tial 聚集过程 。按类别分组。第 一 步 是 将M .独立 映射 到 所有类 , 并 在 等式 (1具有 通用 池 函数CL. 游泳池.我们在下面使用平均池。地图 从W×h×MC至W×h×c .( 图3).何时M .=1 个不 需要 此 操作 , 因为 每个 类都 已 由 单个 类 表示地图 。我们注意到,即使由平均年龄池跟随的多映射在功能上等价于单卷积(I. E. M .=1它 带来 的 显 式 结构M .模态有重要实用 的优点制作训练 很 容易 。我们经验 性 地 证明 了 这 一 点M >1 个收益 率 高于 常规收益 率M .= 1.空间池。我们 现在 推出 新 的 空间 聚合方法实施The第 二 ,空间 性将 步骤 合并 到 方程式 (2每个 地图C:通过引入因子确定区域类型α在这两个术语之间交易相对重要性。我们假设最大评分区域更适合分类,因为它们直接支持决策,而最小评分区域基本上充当正则化。 与α<1 个WILDCAT 应 更多 地 关注 歧视 性 再歧视吉昂和然后更 好本地 化功能比与α = 1.讨论WILDCAT体系结构由传输层和池组成。因为 没有参数 要在 池 化 模块 中 学习 , 传输 层 性能 分类和它是轻松至可视化热图与直接区分 区域 的 局部 化 。我们 注意 到 , 这种 类型 的 建筑 在 [70其中 池 化 是执行 的之前The最 后完全已 连接层 ,作为在The原始ResNet 体系 结构28 [ 例如 。然而 , 这种 或 多种 方式 需要 一 种 非 自然 的 方式 来 可视化 特定 于 类 的热图 。[70].s C=最大1Σ h我,jZ¯C+α最小1Σ h我,jZ¯C(3)它 显示 在 [70如果 空间 聚合方法它是线性的,例如.全球 平均 池 , 然后 排序两 层是不重要 的 是 ,目标The二配置可以是h>Hk +k+ZZ¯646i,ji,jhHk-k-i,ji,j与这样的非线性池化函数不同作为64732野猫空间 性池 。 的差别是更多重要何时k++k-是LoW,I . E. 何时W他DC在空间 性池 化真 的不同从全球平均 值池 。 我们评估影响的这设计选择和的The所 选池 化func -ION在The实验和表演那我们架构产量更 好结果 。3.4. 野猫应用 程序训练阶段。我们 的 WILDCAT 模型 基于 ResNet - 101主干 体系 结构 。28].我们 从A模型预 培训上图像 网[53]和火车它随机 梯度 下降 ( SOD ) , 仅 带 图像级 标签 。网络的所有层都经过微调。输入图像以给定比例扭曲为正方形大小。我们 使用 多 尺度 设置 , 其中 为 每个 尺度 学习 不同 的 模型 , 并 将 它们 组合在 一起使用 对象 库 [38]策略 。WILDCAT 旨 在 从 图 像 级 学 习 仅 限 SuperVision :相同 的 训练 过程 用于 图像 分类 ,弱 的受监督点 式对象检测 和弱 的受 监督语义 学细分 。何时学习 WILDCAT , 梯度 反向 传播通过标准协议。MS COCO数据集(分别为VOC 2012 行动 ) , 我们 遵循 [44( 分别 为[13]).详细信息可在部分中找到1个补充—三。我们 首先 将 我们 的 模型与 最 先进 的 冰毒 进行 比较 , 然后 分析 我们 的贡献 。4.1. 与 最 新 技术 水平 的 比较方法我们比较野猫与多 个最 先进 的 技术对象 分类 模型 。我们 模型 的 参数已 设置 为M .=4 个和α=0. 7.对象 类 的 结果 - 分类 ( 表2显示 WILDCAT 的 性能 明显 优于 所有 最近 的 方法 。我们 可以 指出 一 个与使用 ResNet - 101 在 整个 图像 上 计算 的 深度 特征相比 , 有 很 大 的 改进 。28] : 2007 年 VOC 为 5.2分 , 2012 年 VOC 为 4.2 分 。请 注意 , 这些 差异 直接措施The相关 性的The建议wsl方法 , 因为野猫是基于上ResNet - 101 。 我们也比较 - 将 我们 的 模型 与区域 选择 方法 进行 比较 :DeepMIL [ ] 44威尔顿 [ 编辑 ] 13 [ 和 RRSVM ] 61].尽管 使用 多 个 区域 , 如[44,13,61很 重要 , 我们 在 这里 展示那我们可以进一步显著改进通过 学习 多种 方式 提高 绩效分类 。The野猫层仅 限内部Thek++k-选定R e吉昂 人 ,全部其他梯度存在已 取消[13]. 的选择的反向 传播 的 正确 区域 是 在 没有 任何 空间 监督 的 情况 下学习 精确 定位 特征 的 关键[58].推理阶段。 预测因任务而异在手中。对于图像分类,预测简单地采用网络的单值输出(如在训练中)。对象 检测 和 语义 分段 需要 空间 预测所以我们提取 物The特定 于 类别地图之前水疗 中心 - tial池化至保持空间 性决议 。 他们是在解决 方案1关于 ResNet - 101 架构 的 输入 映像[28]. 用于弱 的受 监督点 式对象检测 , 我们 提取 区域 (I . E.特征图 中 的 神经 元 ) , 具有 每个 类 的 最 大 分数 ,并 将 其 用于 逐 点 局部 化 , 如 [44,5].对于 弱 监督语义 分割 , 我们 计算 最终 的 分割 掩码他 者由拍摄The类与最 大 值得分在每个 空间位置独立 于或由应用A CRF为温泉 预测 是 常见 的 做法 [ 编辑 ] 8,48].4. 分类实验我们正在评估WILDCAT的分类任务。我们 的 模型是 用 Torch7 (http://torch.ch/).在 非常 不同 的 环境中 展示 我们 方法 的 稳健 性上下文 ,我们评估它上六数据 集 :对象重新 设计 ( VOC 2007 )14] ,VOC 2012 [ ] 15] , 场景分类 法 ( MIT67 )51和 15个 场景 [37视觉 识别 上下文 起 着 重要 作用 的 视觉识别 ( MS COCO )41],VOC 2012行动[1 5]). 的绩效上MIT67 、 15 Scene 、 VOC 2007 和 2012 的 评价如下The表2. 对象和识别数据集的分类性能(MAP)。我们使用VOC评估服务器在VOC 2012上进行评估。( * ) 使用 在线代码获得结果的方式https://github.com/facebook/fb.resnet.torch.在表3,我们比较野猫结果为场景cat - 用于 图像 分类 的 最 新 全局 图像 表示 的 egorization深度 特征[71,28] , 以及 在 im-age 上 计算 的 具有 深度 特征的 全局 图像 表示地区 :MOP CNN [25]和紧凑 型双语合并 [18].同样,WILDCAT获得了最好的结果,显示了我们的模型搜索有区别的部分区域的能力,其中背景和非信息部分被纳入图像表示与其他方法。我们也比较野猫至存在基于 零件包括 培训 期间 负面 证据的 模型 [ 编辑 ] 47非 线性 部分 分类 器 与 部分 相关软 池 相 结合35]. WILDCAT 还 通过 不同 的 空间 池策略 在 最近 的 WSL 模型 中 表现 出色 :17 分 , 尊重 GAP GoogleNet [70] 使用 全球 平均 年龄 池 和 6 分尊重 WELDON [ ] 13]什么方法VOC2007VOC2012VGG16[56]89.389.0DeepMIL[44]—86.3威尔顿[13]90.2—ResNet - 101 ( * )[28]89.889.2ProNet[58]—89.3RRSVM[61]92.9—SPLeaP[35]88.0—野猫95.093.4648使用A kmax + kmin池 。 这个验证The相关 性从 我们的 空间池 。方法15场景MIT67CaffeNet 地点[71]90.268.2MOP CNN[25]—68.9负 部件[47]—77.1GoogleNet 差距[70]88.366.6威尔顿[13]94.378.0紧凑 型 双 列 池[18]—76.2ResNet - 101 ( * )[28]91.978.0SPLeaP[35]—73.5野猫94.484.0表3. 现场 性能 评级 ( 多 等级 准确 度 )数据 集 。方法VOC07VOC12 行动MIT67建筑( 一 )89.078.969.6建筑( b )87.377.568.1表5. 分类绩效为体系 结构( 一 )和( b ) 。请 注意 , 体系 结构 策略 ( a ) 与 ( b ) 有 着非常 不同 的 解释 :( a ) 对 每个 区域 进行 独立 分类 , 然后 对 区域 得分 进行 汇总 , 其中 ( b ) 对区域 得分 进行 汇总The输出的The卷积地图和然后在池 中 执行 图像 分类空间 。参数的影响α. 我们研究了参数的影响α对性能进行分类。从 结果 - 图 中 的 结果4很 明显 , 纳入 负 EVI -发病 率 ,I . E. α >0与 标准 最 大 池 化 相比 ,I . E.α=0.我们 进一步 注意 到 使用不同 的重量为最 大 值和最 小 值分数 ,最 后 , 我们 报告 了野生 -I. E.α1,产量更 好结果比与α = 1从[13],猫上上下文数据 集在表4. 我们比较我们模型到 ResNet - 101 深度 功能28] 根据 完整 图像 和 最 新的 WSL 图像 分类 模型 计算 :DeepMIL [ ] 44威尔顿[ 编辑 ] 13和 ProNet [58]. 野生 -CAT 在 两 个 数据 集 上 的 表现 优于 ResNet - 101( 满分 8 分 ) , 再次 验证 了 我们 的 WSL 模型背景 。方法VOC 2012行动MS可可DeepMIL[44]—62.8威尔顿[13]75.068.8ResNet - 101 ( * )[28]77.972.5ProNet[58]—70.9野猫86.080.7表4. 分类绩效( 地图 )上上下文数据 集 。4.2. 更 进一步分析我们详细介绍了我们对三个数据集的贡献的影响:VOC 2007、VOC 2012行动和MIT67。我们 现在结果为安输入形象的尺寸448 ×448和k+=k-=1,BUT类似贝赫A Viors是观察 员V ed为其他比例和LA R g e Rk+和k-. 通过来自f奥特 ,我们模型参数 -埃特斯α和M .已 设置 为1.深层结构。 首先 , 为了 验证 提议 的 WILDCAT 架构 的 设计 选择 , 我们 评估 了 两 个dif - ferent 配置( 请 参阅 前面 的 讨论3.4):(a) conv5 + conv + 池 ( 我们 的体系 结构 ) ;(b) conv5 + pooling + conv ( 建议 的 架构 )70对于非 线性 , 这 两 种 配置 是 不同 的野猫池 化方案已描述在节3.3和他们 的比较是已 报告在表5. 我们可以看到我们 的 体系 结构 ( a ) 比 GAP 中 使用 的 体系结构 ( b ) 有 了 持续 的 改进70在 所有 三 个 数据集中 ,例如.1.7 PT ONVOC07 .649最佳改进为1.6分(分别为2和1.8)以及α=0. 6.(分别)0. 7 个和0. 8 2007 年 ( 分别 ) VOC 2012行动和MIT67)。这证实了对负面证据使用相对权重的相关性。 更 重要 的 是 , 我们 的 模型 是 稳健的 , 尊重α.图4. 参数 分析α.模态数量。另 一 个 重要 的 超 参数的我们模型是The编号的模态(M .( 已 使用在The多 地图转移层 。 的绩效对于 不同 的 值M .在 表 中 报告6.显式学习多模态,I. E. M >1在 标准 层 分类 方面 ,收益 很 大 ,I . E. M .=1 个[13].然而,编码比所需更多的模态(例如. M .=16这 可能 导致 自绩效减少 。 的最 好 的改进是3.5 PT ( 分别 )4.3和3.5)M.=8.(分别)2007 年 VOC 上 的 8 和 12 )( 分别 ) VOC 2012行动和MIT 67 ) 。 示例热图为The相同类别是显示在图6.消融研究 。 我们表演安消融研究至说明效果的每个 人贡献 。 我们 的基线是A wsl与M .=1 个和 空间 池α=1. 的650M.12481216方法VOC2012MS可可VOC200789.091.091.692.592.392.0DeepMIL[44]74.541.2VOCAaction 78.981.582.183.283.082.7ProNet[58]77.746.4MIT6769.671.872.072.873.172.9WSLocalization[5]79.749.2表6. 分析的多 地图转移层 。结果是已 报告在表7. 来自这消融研究 ,我们 可以 画下面 的结论 :– 两者 都 有α=0. 7 个和M .=4 个改进 导致 整体 性能 的 大幅 提高数据 集 ;– 组合α=0. 7个和M.=4个进一步改进可提高性能:2007年VOC为0.4分,2012年VOC行动为0.8分,MIT67为0.8分。这 显示 了 两者 的 互补 性 。贡献 。最大+最小α=0. 7M .=4VOC07VOCACMIT67c.89.078.969.6c.c.90.380.971.3c.c.91.682.172.0c.c.c.92.082.972.8表7. VOC 2007、VOC 2012行动(VO—CAc)和MIT67的消融研究。结果 与 以下 结果 不同节4.1因为 此 仅 使用 一 个 比例分析 。5. 脆弱受 监督实验在本节中,我们展示了我们的模型可以应用于各种任务,而只接受全球图像标签的培训。我们正在评估WILDCAT的两个具有挑战性的弱监督应用程序:点式定位和分段。5.1. 弱 监督 点 式本地 化我们 评估 我们 的 本地 化 性能PASCAL VOC 2012上 的 模型验证设置 [15] 和 MS可可验证设置[41].的绩效是评估与基于 点 的 对象 定位 度量 由 [44].这个公制措施The质量的The检测 、while与 IoU 等 其他 指标相比 , 对 失调 不 敏感15] , 需要 使用 附加 步骤(例如.边界 框回归 ) 。野猫本地 化绩效是已 报告在塔 - 布尔8.我们 的 模型 显著 优于 现有 模型弱 监督 方法 。我们 可以 注意到 重大 改进中间野猫和基于 MIL DeepMIL 架构 [44这证实 了 我们 的 重要 性空间 池 函数 。尽管 我们 的模型 具有 简单 、 多 用途 的 架构 , 但 它 的 性能 在很 大 程度 上 超过 了 ProNet 的 复杂 级联 架构 。58].它 也 表现 出 了 最近 监管 不力 的 模式 。5 3.2 分( 分别 )4.2 2012年VOC(分别为MS COCO ) , 它使用 比 我们 的 模型 更 复杂 的 策略 , 基于 搜索 - 树来 预测地点 。野猫82.953.4表8. 点 式对象本地 化绩效( 地图 )上帕斯卡尔VOC 2012和MS可可 。注 : 由于 位置 预测 基于 分类分数 ,好 的分类性能是这 对于 健壮 的 对象 定位 非常 重要 。在 图 中5我们 评估 分类 和 本地 化 性能 ,α在 VOC 2012 上 。分类 和 本地 化曲线是非常相似 。 的最 好 的本地 化每 -形式是已 获得为α>[ 0 ]. 6,0. [ 7 ],和The改进 - 介于α=1 个和α=0. 7个它是1.6磅。我 可以 注意 到获得 最差 性能 的 原因α=0这 证实 了 情报 是 由迷你mum 用于 两 种 分类 和本地 化 。图5. 分类和本地 化绩效与尊重α在 VOC 上2012.5.2. 弱 监督细分我们 在 PASCAL VOC 2012 年 图像 年龄 细分 数据集 上 评估 了 我们 的 模型 。15由 20 个 前 向 对象 类和 一 个 背景 对象 类 组成 。我们 用 它 训练 我们 的模型火车集合 ( 1,464 张 图片 ) 和 由 [ ] 提供 的附加 注释26] ( 结果 是 一 组 10,582 张 图片 ) ,并 在验证集合 ( 1,449 张 图片 ) 。性能 是 根据 21世纪 的 平均 像素 相交 度 ( IoU ) 来 衡量 的 。大猩猩 !在 现有 方法 中 , 我们 添加 了 一 个 完全 连接的 CRF ( FC-CRF ) [32后 处理 最终 输出 标签 -ing 。分割结果。我们 方法 的 结果 见 表9.我们将其与在培训过程中仅使用图像标签的弱监督方法进行了比较。我们 可以 看到 , 没有 CRF 的 WILDCAT 表现 不 佳受 监督模型由A大保证 金 。 我们注A651(a) 原件形象( b )地面真理( c )热图 1( d )热图 2WILDCAT 预测图6. 分割示例上VOC 2012. 我们 的预测是正确例外为The火车( 最 后行 )在 哪里我们模型聚合轨道 和火车区域 。 用于对象作为鸟或飞机,一 个可以看到如何二热图( 热图 1 )( c )和热图 2( d )代表The相同类别 : 分别鸟 ,飞机 ,狗狗和火车)已 成功至焦点上不同 的目标相关零件的The对象 。根据 基于 ( 软 ) 最 大 池 的 MIL 模型 获得 较大 收益[49,50],什么验证The相关 性的我们用于 分段 的池 。WILD—CAT与CRF和最佳模型之间的改进为7.1分。这证实了我们的模型能够学习有区别的和高度局部化的特征。我们 可以 注意 到 , 表 中 评估 的 所有方法9有 可比 性复杂 性 。方法平均 值你MIL-FCM[49]24.9MIL-Base + ILP + SP-sppxl[50]36.6EM 适应 性+ FC-CRF [45]33.8CNN +FC-CRF [48]35.3野猫39.2野猫+FC-CRF43.7表9. 比较的弱 的受 监督语义 学细分VOC 方法2012.更 复杂 的 战略 , 最 新 的[31]出席印象 深刻结果( 50.7 )我 ) 。 的[ 中 的 列车 运行 方案31] 包含 专门 针对 细分 量 身 定制 的 不同 术语 :一 个 强制 分割 遮罩 以 匹配 低 级别 图像 边界 , 另 一 个一 个合并先验知识至支持预测 类 将 占据 一定 比例 的 图像 。与 此 同时 , 野猫使用A单身模型什么是培训在The同样 的 方式 为 三 个 任务 ,I . E.分类 、本地 化和细分 。定性结果。在 图 中6我们 显示 预测 的 出血 增加面具为四 个图像 。 已 比较至地面真 值 ( ( b ) 列 ) ,我们 可以 看到 , 我们 预测
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功