完全卷积的实例感知语义分割

151 浏览量更新于2023-10-15 收藏 1.63MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2359完全卷积的实例感知语义分割李毅1，2齐浩志2戴继峰2季向阳1魏一晨21清华大学2微软亚洲研究院{liyi14，xyji}@ tsinghua.edu.cn，{v-haoq，jifdai，yichenw}@microsoft.com摘要我们提出了第一个完全卷积的端到端解决方案，用于实例感知的语义分割任务。它继承了用于语义分割[29]和实例掩码建议[5]的FCN的所有优点它检测和分割的对象实例联合和同时。通过引入位置敏感的内部/外部得分图，底层卷积表示在两个子任务之间以及在所有感兴趣区域之间完全共享。建议的网络是高度集成的，并实现了国家的最先进的性能，在准确性和效率。在COCO 2016细分市场竞争中以较大优势胜出。代码将在https上发布//github.com/daijifeng001/TA-FCN网站。1. 介绍全卷积网络（FCN）[29]最近主导了语义图像分割领域。FCN采用任意大小的输入图像，应用一系列卷积层，并为所有语义类别生成每像素似然得分图，如图1（a）所示由于卷积的简单性、效率和局部权重共享特性，FCN为语义分割提供了准确、快速和端到端的解决方案。然而，传统的FCNs不工作的实例感知的语义分割任务，这需要检测和分割的个别对象实例。局限性是固有的。因为卷积是平移不变的，所以相同的图像像素接收相同的响应（因此分类分数），而不管其在上下文中的相对位置如何然而，实例感知的语义分割需要在区域级别上进行操作，同一个像素在不同的区域可能具有不同的语义。此行为无法通过整个映像上的单个FCN进行建模该问题在图2中举例说明。*同等缴款。这项工作是李毅和齐浩志在微软研究院实习时完成的。需要某些翻译变体属性来解决该问题。在一个流行的实例感知语义分割方法家族[7，16，8]中，通过在三个阶段中采用不同类型的子网络1)在整个图像上应用FCN以生成中间和共享特征图;2）从共享特征图，池化层将每个感兴趣区域（ROI）扭曲成固定大小的每ROI特征图[17，12]; 3）最后一个网络中的一个或多个全连接（fc）层将每ROI特征图转换为每ROI掩模。请注意，在最后一步中，在fc层中引入了translation-variant属性。这样的方法具有若干缺点。首先，ROI池化步骤由于特征扭曲和扭曲而损失空间细节，然而，这对于获得固定大小的表示（例如，[8]中的14×14）。这种扭曲和固定大小的表示降低了段，定位精度，特别是对于大型物体。其次，fc层过度参数化任务，而不使用局部权重共享的正则化。例如，最后一个fc层具有高维784路输出以估计28×28掩码。最后，在最后步骤不在ROI之间共享。根据经验观察，在最后一步中需要相当复杂的子网络才能获得良好的精度[36，9]。因此，对于大量的ROI（通常是数百或数千个区域提议）来说是缓慢的例如，在2015年COCO分割挑战赛[25]中获得第一名的MNC方法[8]中，ResNet-101模型[18]中的10层保留在每个ROI子网络中。该方法需要1。每个图像4秒，其中超过80%的时间花费在最后的每个ROI步骤上。这些缺点促使我们提出这样一个问题：我们能否利用FCN的优点进行端到端的实例感知语义分割？最近，已经提出了一种完全卷积的方法，用于例如掩码建议生成[5]。该算法将传统的FCNs中的平移不变的分数映射扩展到位置敏感的分数映射，而位置敏感的分数映射是某种程度上的变异。这在图1（b）中示出。该方法仅用于掩模提议生成，并且存在若干缺点。它是盲目的语义猫-2360逐像素softmax地图内的ROI实例掩码conv组装逐像素MaxAve.&投赞成位置敏感的内部得分图位置敏感的外部得分图ROI超出标测图类别可能性第c类conv组装实例掩码建议（c）我们的完全卷积实例感知语义分割图1. 说明我们的想法。(a)传统的全卷积网络（FCN）[29]用于语义分割。每个类别都使用一个单独的得分图，它不知道单个对象实例。（b）InstanceFCN [5]用于例如分段建议，其中使用3×3位置敏感的得分图来编码相对位置信息。下游网络用于分段建议分类。(c)我们的完全卷积实例感知语义分割方法（FCIS），其中位置敏感的内部/外部得分图用于联合和并行地执行对象分割和检测。并需要下游网络进行检测。对象分割和检测子任务是分开的，并且解决方案不是端到端的。它在正方形、固定大小的滑动窗口（224×224像素）上操作，并采用耗时的图像金字塔扫描来查找不同尺度的实例。在这项工作中，我们提出了第一个端到端的完全卷积方法的实例感知语义分割。称为FCIS，它扩展了[5]中的方法。底层卷积表示和分数图通过没有额外参数的新颖联合公式完全共享用于对象分割和检测子任务。该网络结构集成度高、效率高。每ROI计算简单、快速，并且不涉及任何扭曲或调整大小操作。图1（c）简要说明了该方法。它在框建议而不是滑动窗口上操作，享受对象检测的最新进展[34]。大量的实验验证了所提出的方法是国家的最先进的准确性和效率。它在大规模COCO数据集[25]上实现了比之前的挑战获胜方法MNC [8]更高的准确性。它在COCO 2016年的细分竞赛中获得第一名，准确率相对第二名高出12%它很快。 COCO竞赛中的推理每幅图像需要0.24秒使用ResNet-101模型[18]（Nvidia K40），它是6×比MNC快[8]。代码将在https上发布：//github.com/daijifeng001/TA-FCN网站。2. 我们的方法2.1. 位置敏感评分图参数化在FCN [29]中，分类器被训练来预测每个像素它是平移不变的，并且不知道单个对象实例。例如，同一像素可以在一个对象上被前置，但在另一个（相邻的）对象上被背景。每个类别的单个得分图不足以区分这两种情况。为了引入隐变量的性质，文献[5]中首次提出了一种全卷积解，例如掩码方案。它使用k2位置敏感的得分地图，对应于对象的k×k这如图1（b）（k=3）所示。每个分数图都有原始图像的相同空间范围（在较低分辨率下，例如，16×更小）。每个分数表示“像素属于相对位置处的某个对象实例”的可能性例如，第一映射用于在训练和推理期间，对于固定大小的正方形滑动窗口（224×224像素），其逐像素前景似然图是通过从对应的得分图组装（复制-粘贴）其k×k个单元来以这种方式，aconv第c类得分图（a）用于语义分割的常规FCN位置敏感分数图（b）InstanceFCN，用于例如掩模提议范畴不可知的2361投票是的N/A投票是的没有左/右：位置敏感内部/外部得分图上图：标测图内ROI下图：标测图外ROI上：实例掩码下：类别可能性图2.不同ROI的实例分割和分类结果（分数图由不同的ROI和两个子任务共享红点指示在不同ROI中具有不同语义的一个像素。在不同的实例中，像素可以具有不同的分数，只要像素在这些实例中处于不同的相对位置如[5]所示，该方法是对象掩码建议任务的最新技术。但也受到任务的限制。只使用固定大小的方形滑动窗口。该网络应用于多尺度图像，以找到不同大小的对象实例。该方法对对象类别是盲目的。只有一个单独的子网络用于将窗口分类为对象或背景。对于实例感知语义分割任务，使用单独的下游网络将掩码建议进一步分类为对象类别[5]。2.2. 联合掩码预测和分类对于实例感知语义分割任务，不仅[5]，而且许多其他最先进的方法，如SDS [15]，Hypercolumn [16]，CFM [7]，MNC [8]和MultiPathNet [42]，共享类似的结构：两个子网络用于目标分割和检测。子任务，分别和顺序。显然，在这样的环境中的设计选择，例如，这两个网络的结构、参数和执行顺序是任意的。它们可以很容易地为方便而不是为基本的考虑。我们推测，分离的子网络设计可能无法充分利用这两个任务之间的紧密相关性。我们加强了两个子任务共享相同的得分图集合以及底层卷积表示。我们的方法没有带来额外的参数，并消除了非必要的设计选择。我们相信它可以更好地利用两个子任务之间的强相关性。我们的方法如图1（c）和图2所示。给定感兴趣区域（ROI），其逐像素分数图通过ROI内的组装操作产生。对于ROI中的每个像素，有两个任务：1）检测：投票2362它是否属于相对位置处的对象边界框（检测+）或不属于对象边界框（检测-）; 2）分段：它是否在对象实例的边界内（segmentation+）或不在（segmentation-）。一个简单的解决方案是分别训练两个分类器这（单独的评分图）见表1。在这种情况下，两个类器是两个1 ×1的conv层，每个只使用一个任务我们的联合公式将两个答案融合成两个分数：内外。有三种情况：1）内部得分高，外部得分低：检测+ ，分割 +; 2 ）低内分高外分： detection- tion+ ，segmentation-; 3）两个分数都很低：检测-、分割-。这两个分数通过softmax和max运算共同回答这两个问题。对于检测，我们使用max来区分情况1）-2）（检测+）和情况3)（检测-）。然后，通过对所有像素的似然度进行平均池化（随后是对所有类别的softmax算子）来获得整个ROI的检测分数。对于分割，我们使用softmax在每个像素处区分情况1）（分割+）和2）（分割-）。ROI的前景掩模（以概率计）是每像素分割分数（针对每个类别）的并集。同样，这两组分数来自两个1×1转换层。内部/外部分类器在它们接收来自外部的反向传播梯度时被联合训练。分割和检测损失。该方法具有许多期望的特性。所有的每ROI组件（如图1（c））没有自由参数。分数图由单个FCN产生，不涉及任何特征扭曲、扭曲或fc层。所有的特征和分数图都遵循原始图像的纵横比。局部权重共享属性的FCNs被保存，并作为一个正规化机制。所有的每ROI计算都是简单的（k2单元格划分、分数图复制、softmax、max、平均池化）和快速的，从而产生可忽略的每ROI计算成本。2.3. 端到端解决方案图3显示了我们的端到端解决方案的体系结构。虽然可以使用任何卷积网络架构[39，40]，但在这项工作中，我们采用了ResNet模型[18]。1000路分类的最后一个全连接层被丢弃。只有以前的卷积层被重新-保持。所得到的特征图具有2048个通道。在它的顶部，添加了一个1×1卷积层，以将维度减少到1024。在原始的ResNet中，网络顶部的有效特征步幅（特征图分辨率的降低）为32。这对于实例感知的语义分割来说太粗糙了。为了减少特征步幅并保持视野，应用了conv5的第一个块中的步幅卷积层从2减少到1。因此，为了保持视场，通过将膨胀设置为2，将我们使用区域建议网络（RPN）[34]来生成ROI。为了与MNC方法[8]进行公平比较，它以相同的方式添加到conv4层的顶部请注意，RPN也是完全卷积的。从conv 5特征图中，产生2k2×（C+1）得分图（C对象类别，一个背景类别，每个类别两组k2得分图，k=7，通过de-实验中的错误）使用1×1卷积层。在分数图上，每个ROI都被投影到一个16倍小的地区其分割概率图和分类所有类别的得分按第2.2节所述计算。遵循现代目标检测系统，使用边界框（bbox）回归[13，12]来细化初始输入ROI。在conv5特征图上添加一个具有4k2通道的兄弟1×1卷积层，以估计位置和大小的边界框偏移。下面我们讨论推理和训练中的更多细节对于输入图像，从RPN生成具有最高分数的300个它们通过bbox回归分支并产生另外300个ROI。对于每个ROI，我们得到其分类分数和所有类别的前景掩模（概率）。图2示出了示例。非最大抑制（NMS），交集大于并集（IoU）阈值为0。3用于过滤掉高度重叠的ROI。剩余的ROI被分类为具有最高分类分数的类别。它们的前景掩码通过掩码投票[8]获得，如下所示。对于正在考虑的ROI，我们发现IoU得分高于0.5的所有ROI（来自600）。它们的类别的前景掩模在每个像素的基础上平均，由它们的分类得分加权。的平均掩码被二值化作为输出。如果ROI相对于最近的地面实况对象的框IoU大于0，则ROI为正。5、其他方面是负的。每个ROI有三个相等权重的损失项：在C + 1个类别上的softmax检测损失、仅在地面实况类别的前景掩模上的softmax分割损失1、以及如[ 12 ]中的bbox回归损失。后两个损失项仅对正ROI有效。在训练过程中，模型从ImageNet分类上的预训练模型初始化[18]。预先训练的模型中存在的层被随机初始化。调整训练图像的大小，使其具有600像素的短边我们使用SGD优化。我们使用8个GPU来训练模型，每个GPU保存一个图像小批，从而产生1该术语对ROI上的每像素损失进行求和，并通过ROI的大小对总和进行归一化2363组装像素级softmax2（+ 1）nsde/out sde转换转换实例掩码2 + 1 ×2逐像素MaxAve.&投票是/否RPN类别可能性conv第c类位置灵敏内部/外部得分图图3. FCIS的总体架构。区域建议网络（RPN）[34]与FCIS共享卷积特征图。所提出的区域的利益（ROI）的得分地图上应用的联合对象分割和检测。可学习的权重层是完全卷积的，并在整个图像上计算。每个ROI的计算成本可以忽略不计。有效批量×8。对于PASCAL VOC[11]的实验，执行了30 k次迭代，其中在前20 k次和最后10 k次迭代中的学习率分别为10 - 3和10 - 4。COCO [ 25 ]上的实验迭代次数为×8。由于每个ROI的计算可以忽略不计，因此训练受益于以较小的训练成本检查更多的ROI。具体来说，我们应用在线硬示例挖掘（OHEM）[38]。在每个小批量中，对一个图像上的所有300个建议的ROI执行前向传播。其中，128个具有最高损失的ROI被选择来反向传播它们的误差梯度。对于RPN建议，默认使用9个锚点（3个尺度×3个纵横比）3个更精细的额外锚点用于COCO数据集上的实验[25]。为了实现FCIS和RPN之间的特征共享，执行联合训练[8，35]。3. 相关工作语义图像分割任务是为图像中的每个像素分配语义类别标签。它不区分对象实例。最近，该领域一直由基于FCN的流行方法家族主导[29]。通过全局上下文[28]、多尺度特征融合[4]和反卷积[31]扩展了FCN。[3，43，37，24]中的最近工作将FCN与条件随机场（CRF）集成。在[2]中，用更有效的域变换代替了昂贵的CRF。由于每像素类别标记是昂贵的，因此FCN中的监督信号已经放松到框[6]，涂鸦[23]或弱监督图像类别标签[19，20]。对象段建议任务是生成与类别无关的对象段。传统的方法，例如，MCG [1]和选择性搜索[41]，使用低级别的图像特征。最近，该任务通过深度学习方法来实现，例如DeepMask [32]和SharpMask [33]。最近，在[5]中提出了一种完全卷积的方法，这激发了这项工作。实例感知的语义分割该任务要求对对象实例进行分类和分割。通常，这两个子任务是分别完成的通常，分割任务依赖于分段建议方法，分类任务建立在基于区域的方法上[13，12，34]。该范例包括大多数最先进的方法，如SDS [15]、Hyper- column [16]、CFM[7]、MNC [8]、MultiPathNet [42]和迭代方法[21]。这种方法有一定的缺点，如第1节和2.2节所讨论的.在这项工作中，我们提出了一个完全卷积的方法与集成的联合制定的两个子任务。有一些尝试[22，26]试图通过分组/聚类FCN的输出来扩展FCN以用于实例感知的语义分割然而，所有这些方法都依赖于复杂的手工后处理，并且不是端到端的。性能也不尽如人意。用于对象检测的FCNs [ 5 ]中的“位置敏感得分图”的想法将得分图从前景-背景分割可能性重新用于对象类别可能性。R-FCN [9]只执行对象分类。它不知道实例分段任务。然而，它可以以直接的方式与[5]组合用于实例感知语义分割任务我们的实验对此进行了研究（第4.1节）。23644. 实验4.1. PASCAL VOC进行消融实验，以研究PASCAL VOC数据集上提出的FCIS方法[11]。根据[15，7，16，8]中的方案，在VOC 2012训练集上执行模型训练，并在VOC 2012验证集上执行评估，并使用[14]中的附加实例掩码注释准确度通过平均精度mAP r[15]进行评估，掩模级IoU（交叉-联合）阈值为0。5和0。7 .第一次会议。建议的FCIS方法进行了比较，改变-原生（几乎）完全卷积基线方法，以及具有不同设计选择的FCIS变体。为了公平比较，ImageNet [10]预训练的ResNet-101模型[18]用于所有方法。OHEM不适用。幼稚的跨国公司。该基线类似于MNC [8]，不同之处在于ResNet-101的所有卷积层都应用于整个图像以获得特征图，然后在conv 5层的最后一块上进行ROI池化。将784路fc图层应用于ROI合并要素以进行掩膜预测（分辨率为28×28），以及用于分类的21路fc层。A` Trous技巧也适用于为了公平比较。它几乎是完全卷积的，在每ROI计算中仅具有单层fc子网络。InstFCN + R-FCN 。类不可知掩码建议首先由InstFCN [5] 生成，然后由 R-FCN [9] 分类。它是InstFCN和R-FCN的简单组合。这两个FCN分别被训练和应用于掩模预测和分类。FCIS（translation invariant）。为了验证由位置敏感得分图引入的平移变量属性的重要性，该基线在FCIS方法中设置k=1以使其平移不变。FCIS（单独评分图）。为了验证用于掩模预测和分类的联合公式，该基线针对两个子任务分别使用两组得分图。第一组k2得分图仅用于分割，与[5]中的方式类似。第二组仅用于分类，与R-FCN [9]中的方式相同。因此，用于两组分数图的先前卷积分类器不相关，而较浅的卷积特征图仍然是共享的。表1示出了结果。初始MNC基线的mAPr评分为59.1%，IoU阈值为36.0%。0.5分别为0.7。它们比原始MNC [8]低5.5%和12.9%，原始MNC在每个ROI子网络中保留了ResNet-101中的10层这验证了尊重实例感知语义分割的解释变量属性“InstFCN + R-FCN”的结果推理速度为方法RmAP@0.5（%）RmAP@0.7（%）幼稚MNC59.136.0简体中文62.741.5平移不变量52.538.5FCIS（单独评分图）63.949.7FCIS65.752.1表1. PASCAL VOC 2012验证集上（几乎）完全卷积方法的消融研究。速度也很慢（在Nvidia K40 GPU上每幅图像需要1.27秒）。所提出的FCIS方法取得了最好的结果。这验证了我们的端到端解决方案的有效性。其退化版本“FCIS（translation invariant）”更差，表明位置敏感的分数图参数化是至关重要的。其退化版本4.2. COCO实验根据COCO [25]实验指南，在80k+40k训练值图像上执行训练，并在测试开发集上报告结果。我们使用标准 COCO 评估指标 mAPr @[0.5 ： 0.95] 以及传统的mAPr@0.5指标来评估性能。与MNC的比较我们将提出的FCIS方法与2015年COCO细分挑战赛的第一名MNC [8]进行了比较。这两种方法在ROI中执行掩模预测和分类，并且共享类似的训练/推断过程。为了公平比较，我们保持它们的通用实现细节相同。表2显示了使用ResNet-101模型的结果。当不使用OHEM 时， FCIS 在 COCO 测试 - 开发集上的mAPr@[0.5：0.95]得分为28.8%，比MNC绝对高4.2%（相对高17%）。根据COCO标准分割的对象大小，精度的提高是更大的对象，表明FCIS可以更好地捕捉详细的空间信息。FCIS也比MNC快得多在推断中，FCIS花费0.24秒，Nvidia K40 GPU上的图像（网络转发为0.19秒，掩码投票为0.05秒），比MNC快1.66倍FCIS在训练中也快了4倍。此外，FCIS很容易从OHEM中受益，因为其几乎没有每ROI成本，实现了29.2%的mAPr @[0.5：0.95]得分。同时，OHEM对于MNC来说是负担不起的，因为在训练期间会增加相当大的计算开销2365方法采样策略在训练中列车时间/img test time/imgRmAP @[0.5：0.95]（%）RmAP@0.5（%）RmAP @[0.5：0.95]（%）（小）mAPr @[0.5：0.95]（%）（中）RmAP @[0.5：0.95]（%）（大）MNCFCIS随机随机2.05s0.53s1.37s0.24s24.628.844.348.74.76.825.930.843.649.5MNCFCIS欧姆欧姆3.22s0.54s1.37s0.24sN/A29.2N/A49.5N/A7.1N/A31.3N/A50.0表2.使用ResNet-101模型，在COCO测试开发集上与MNC [8]进行比较在Nvidia K40 GPU上评估时序网络架构RmAP @[0.5：0.95]（%）RmAP@0.5（%）test time/imgResNet-5027.146.70.16sResNet-10129.249.50.24sResNet-15229.549.80.27s表3.在FCIS中使用不同深度网络的结果RmAP @[0.5：0.95]（%）RmAP@0.5（%）04 The Fall（2015）电影MNC+G-RMI（2016）25.028.433.845.651.656.9FCIS基线29.249.5+多尺度测试32.051.9+水平翻转32.752.7+多规模培训33.654.5+合奏37.659.9表4.COCO测试开发集上COCO分割挑战（2015年和2016年）不同条目的实例感知语义分割结果仍然从单个尺度（较短侧600）计算多尺度测试使准确率提高了2. 8%。水平翻转。与[42]类似，FCIS方法应用于原始图像和翻转图像，并对相应ROI中的结果进行平均。这有助于将精度提高0.7%。多层次培训。我们进一步在与多尺度推理相同的尺度上应用多尺度训练。对于更精细的尺度，由于内存问题，随机600×600图像块被裁剪用于训练，如[27]所示准确度提高了0.9%。合奏。在[18]之后，使用集成生成区域建议，并且通过集成处理建议的并集以进行掩码预测和分类。我们使用6个网络的集合。最终结果为37.6%，比2016年第二名G-RMI高3.8%（相对11%），比2015年第一名MNC+高9.2%（相对32%）。一些示例结果在图4中可视化。COCO检测所提出的FCIS方法在框级对象检测上也表现良好。通过取不同深度的网络表3显示了在FCIS方法中使用不同深度的ResNet的结果。当网络深度从50增加到101时，精度有所提高，当深度达到152时，精度趋于饱和。COCO细分挑战赛2016参赛作品基于FCIS方法，我们参加了COCO细分挑战赛2016并获得了第一名。表4列出了我们的参赛作品和其他参赛作品在2015年和2016年COCO细分挑战赛中的结果我们的条目是基于FCIS的，有一些简单的铃铛和哨子。FCIS基线。基线FCIS方法实现了29.2%的竞争性mAPr @[0.5：0.95]得分，这已经高于2015年的获奖条目MNC+ [8多尺度测试。在[17，18]之后，位置敏感的得分图是计算对一金字塔的测试图像，哪里的短侧具有{480，576，688，864，1200，1400}像素。对于每一个国王，我们从ROI的像素数最接近224×224的比例中获得结果。请注意，RPN建议是将实例掩码的封闭框作为检测到的绑定框，通过标准mAPb @[0.5：0.95]分数测量，在COCO测试开发集上实现了39.7%的对象检测准确率。结果在COCO物体检测排行榜中排名第二5. 结论我们提出了第一个用于实例感知语义分割的完全卷积方法。它扩展了以前基于FCN的方法，并在任务的准确性和效率方面显着推动了最先进的技术高性能得益于高度集成和高效的网络架构，特别是一种新颖的联合配方。引用[1] P. Arbelaez，J. Pont-Tuset，J. T. Barron，F. Marques和J·马利克多尺度组合分组CVPR，2014。5[2]L- C.陈建堂<英>来华传教士。，1939--人巴伦湾Papandreou，K.墨菲和A. L. 尤尔。具有特定任务的语义图像分割2366羊羊绵羊绵羊羊羊羊羊斑马斑马斑马斑马斑马斑马斑马斑马斑马车辆转向大象大象大象大象大象长颈鹿长颈鹿长颈鹿斑马斑马斑马斑马斑马斑马人人人人人person人，人person人，person人person person人personpersonpersonperson人person人personpersonperson人椅人人personpersonperson personpersonpersonopnerpsoenrsonpersonpersonperson珀恩松人personpersonperson人person personpersonperson人个人persochnpaeirrsonperson人人人人人人personperson person person person person人椅子人person person person 人人person人人棒球棒一人一棒球手套人人时钟电视人人每一个人人每一个人人人person人，人人人人人人人人主持人persocnhairchair人椅chlapilaroptoppersonchair人椅子人椅子人椅子人椅子笔记本电脑使用者笔记本椅子椅子椅子椅子伞ppeeeprrseornsnopnersuomnbruemllabrella伞人personperspoenrpsoernpsoepnrpseeorrsnsonnn人人perspopoenrson人人人瓶人应用程序人单人椅人香蕉餐桌花瓶花瓶花瓶杯人人人人人杯人弓角鸮杯碗杯杯杯碗碗杯形杯碗匙杯餐桌勺子微波盆栽盆栽瓶杯形瓶背包椅子沙发bobttoletle背包书椅子沙发电视笔记本餐桌用餐tacbhle空气椅子餐桌餐桌椅椅子椅子椅子餐桌椅椅子椅子椅子餐桌椅子椅子椅子椅子椅子Dbinoionkgtable餐桌椅子椅子椅子椅子椅子餐桌杯形瓶碗酒杯盆栽bbottltele瓶瓶bottbtolletbtolle瓶书背包人椅子椅子酒杯人瓶酒杯勺子吃饭的时候，椅子碗碗勺子主持人电视电视tv电视电视椅子椅子主持人人电视电视椅子chairdiningtabclehair人键盘船船小艇人船我在船上船人人载人艇人船每一个人，每一个人，船人人载人艇载人艇人人飞机飞机飞机飞机飞机飞机飞机飞机人盆栽彭佩定先生人盆栽人人卡车摩托车卡车自行车车车载人卡车车船船船船小艇船船船船小艇小艇船船人船船船船我的儿子person人人人人人冲浪板人人人冲浪板冲浪板运动球网球拍网球拍爱好者人一种网球拍柄person人人滑雪板人滑雪板滑雪板滑雪板滑雪者人石咀山滑雪者人人甜甜圈甜甜圈Don't甜甜圈donut donut甜甜圈不要用螺母甜甜圈甜甜圈甜甜圈甜甜圈甜甜圈甜甜圈甜甜圈甜甜圈西兰花西兰花西兰花西兰花西兰花西兰花西兰花西兰花西兰花西兰花西兰花西兰花西兰花西兰花西兰花西兰花西兰花西兰花西兰花西兰花西兰花瓶瓶瓶橙色橙色碗碗碗花瓶人椅子人披萨椅子Perspoinzza蛋糕勺子碗杯布罗克波伊人碗人酒杯披萨餐桌披萨披萨叉人椅子西兰花比萨饼叉伞PPRSEORPNPENRSPOSORNP PERSBOINCL PEE SORSNPERSBOIN CLPE ES ORN P NN P ESBO I Nbubpsuerson每一个人总线我的儿子自行车北京赛车pk10开奖结果自行车自行车人自行车自行车自行车人自行车自行车车交通灯交通信号灯人背包个人手提包人总线总线pbeursson货车人自行车总线车car汽车车车car汽车车车辆转向架车车汽车摩托车车车车车car汽车卡车人车车人摩托车个人摩托车车车车车人人personpersonperson人人行李箱个人背包人人人行李箱行李箱行李箱人行李箱人人人人人人背包行李箱行李箱手提箱人行李箱行李箱行李箱人行李箱行李箱行李箱背包行李箱伞伞伞手袋手袋人手bpaegrson手袋手袋人板凳人人盆栽车车盆栽盆栽盆栽盆栽盆栽盆栽植物植物盆栽花瓶花瓶花瓶pottedplantpotted盆栽花瓶花瓶花瓶花瓶花瓶盆栽植物盆栽盆栽植物花瓶花瓶花瓶花瓶花瓶花瓶2367tedd ytebdatebdeeyrebdatreddybdeeyat reddy b d e e y a t r eddybdeyatreddybdeyateeyatr eddy bdey a treddyatreddybdeyateyatreddyatreddybdeya t泰迪熊泰迪熊泰迪熊泰迪熊泰迪熊泰迪熊泰迪熊teddteydbdeyabrear泰迪熊泰迪熊是一只泰迪熊人泰迪熊泰迪熊泰迪是一只泰迪熊泰迪是一只泰迪熊Teddy Bear泰迪熊泰迪熊泰迪熊泰迪熊泰迪熊泰迪熊Bteadrdy熊泰迪熊泰迪熊泰迪Teddy BearTeddytbeeed ad rybear泰迪熊泰迪熊Beatreddy熊泰迪熊泰迪熊泰迪熊图4. 所提出的FCIS方法在COCO测试集上的实例感知语义分割结果示例。查看github.com/daijifeng001/TA-FCN，获取COCO测试集上前5k个图像的示例结果。2368使用CNNS和有区别地训练的域变换的边缘检测。在CVPR，2016年。5[3] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crf的语义图像分割。2015年，国际会议。四、五[4] L- C. Chen，Y.杨，J.Wang，W.Xu和A.L. 尤尔。注意比例：尺度感知语义图像分割。在CVPR，2016年。5[5] J. Dai，K.他，Y. Li，S. Ren和J. Sun.实例敏感的全卷积网络。在ECCV，2016年。一二三五六[6] J. Dai，K. He和J. Sun. Boxsup：利用边界框来监督卷积网络进行语义分割。在ICCV，2015年。5[7] J. Dai，K.He和J.太阳用于联合对象和填充物分割的卷积特征掩蔽CVPR，2015。一二三五六[8] J. Dai，K. He和J. Sun.通过多任务网络级联的实例感知语义分割。在CVPR，2016年。一、二、三、四、五、六、七[9] J.戴，Y. Li，K. He和J. Sun. R-fcn：通过基于区域的全卷积网络的目标检测。在NIPS，2016年。一、五、六[10] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。 Imagenet ：一个大规模的分层图像数据库。CVPR，2009。6[11] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K.威廉斯，J.Winn和A.齐瑟曼。 PASCAL Visual Object Classes（VOC）挑战. IJCV，2010年。五、六[12] R.娘娘腔。快速R-CNN。在ICCV，2015年。一、四、五[13] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。CVPR，2014。四、五[14] B. 哈里哈兰山口阿尔韦湖Bourdev，S.Maji和J.马利克从反向检测器的语义轮廓。见ICCV，2011年。6[15] B. 哈里哈兰山口阿尔韦阿埃斯河Girshick和J. 马利克同时检测和分割。在ECCV。2014. 三五六[16] B. 哈里哈兰山口阿尔韦阿埃斯河Girshick和J. 马利克用于对象分割和细粒度定位的炒作r列。CVPR，2015。一二三五六[17] K. 他，X。Zhang，S.Ren和J.太阳用于视觉识别的深度卷积网络中的空间金字塔2014年，在ECCV。1、7[18] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。一二四六七[19] S. Hong，H. Noh和B.韩用于半监督语义分割的解耦深度神经网络。2015年，在NIPS中。5[20] S.洪，J。哦，B。Han和H.李你用深度卷积神经网络学习语义分割的可传递知识。在CVPR，2016年。5[21] K. 李湾，澳-地Hariharan和J.马利克迭代实例分割。在CVPR，2016年。5[22] X. Liang，Y. Wei，X.沈军，杨立. Lin和S.燕.用于实例级对象分割的无建议网络。arXiv预印本，2015年。5[23] D. Lin，J. Dai，J. Jia，K. He和J.太阳 Scribble- sup：用于语义分割的Scribble-supervised卷积网络。在CVPR，2016年。5[24] G.林角，澳-地Shen，中国古猿A.范登亨格尔和我里德用于语义分割的深度结构化模型的高效分段训练。在CVPR，2016年。5[25] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C.L.Zitnick.MicrosoftCOCO ：上下文中的通用对象。在ECCV。2014. 一、二、五、六[26] S. Liu，X. Qi，J. Shi，H. zhang和J.贾同时检测和分割的多尺度块聚集在CVPR，2016年。5[27] W. Liu，L.安格洛夫，D。埃尔汉角Szegedy和S.里德Ssd：单发多盒探测器。在ECCV，2016年。7[28] W. Liu ，中国粘蝇 A. Rabinovich 和 A. C. 伯格。Parsenet：看得更宽，看得更好。ICLR研讨会，2016年。5[29] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR，2015。一、二、四、五[30] S.马拉特信号处理的小波之旅。学术出版社，1999年。4[31] H. Noh，S. Hong和B.韩用于语义分割的学习反卷积网络。在ICCV，2015年。5[32] P. O.皮涅罗河Collobert和P.美元.学习分割候选对象。2015年，在NIPS中。5[33] P. O. 皮涅罗，T.Y. 林河，巴西-地Collobert和P.美元. 学习细化对象分段。在ECCV，2016年。5[34] S. Ren，K.赫利河Girshick和J.太阳更快的R-CNN：用区域建议网络进行实时目标检测。2015年，在NIPS中。二、四、五[35] S. Ren，K.赫利河Girshick和J.太阳更快的R-CNN：用区域建议网络进行实时目标检测。PAMI，2016. 5[36] S. Ren，K.赫利河格希克，X。zhang和J.太阳基于卷积特征图的目标检测网络。arXiv预印本，2015年。1[37] A. G. Schwing和R.乌塔松完全连接的深层结构网络。arXiv预印本，2015年。5[38] A.什里瓦斯塔瓦A. Gupta和R.娘娘腔。利用在线硬示例挖掘训练基于区域的对象检测器。在CVPR，2016年。5[39] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2015年，国际会议。4[40] C. 塞格迪W. 刘先生， Y. 贾， P. Sermanet S. 里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A. 拉比诺维奇。更深的回旋。CVPR，2015。4[41] K. E. A. van de Sande，J.R. R. Uijlings，T.Gevers和A. W. M.史默德斯分割作为对象识别的选择性搜索。见ICCV，2011年。5[42] S. Zago

下载后可阅读完整内容，剩余1页未读，立即下载