提议自由的实时实例分割方法基于空间嵌入和聚类带宽

14 浏览量更新于2023-10-19 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1联合优化空间嵌入和聚类带宽Davy Neven Bert De Brabandere Marc Proesmans Luc Van Gool Dept.语音和图像KU Leuven，比利时{firstname.lastname}@ esat.kuleuven.be摘要当前最先进的实例分割方法不适合于像自动驾驶这样的实时应用，其需要高精度的快速执行时间。虽然目前占主导地位的基于提议的方法具有高精度，但它们速度慢并且以固定且低的分辨率生成掩模。相比之下，无建议方法可以以高分辨率生成掩模，并且通常更快，但无法达到与基于建议的方法相同的精度。在这项工作中，我们提出了一个新的聚类损失函数的建议自由的实例分割。损失函数将属于同一实例的像素的空间嵌入拉在一起，并共同学习特定于实例的聚类带宽，最大化所得到的实例掩码的交集。当与快速架构相结合时，该网络可以实时执行实例分割，同时保持高精度。我们在具有挑战性的Cityscapes基准上评估了我们的方法，并在2 MP图像上以超过10 fps的速度获得了最佳结果（比Mask R-CNN提高了5%）。11. 介绍语义实例分割是定位图像中所有对象的任务，将每个对象分配到特定的类，并为每个对象生成像素完美的掩模，完美地描绘它们的这与标准的边界框检测方法形成对比，在标准的边界框检测方法中，每个对象由粗糙的矩形框表示。由于在许多应用中，从自动驾驶和机器人应用到照片编辑/分析应用，每个对象都需要（并且必须）具有二进制掩码，因此实例分割仍然是一个重要的研究主题。1对于其他数据集上的实验，我们参考本文的arXiv版本。图1.我们的损失函数鼓励像素指向对象中心周围的最佳对象特定区域对于大的物体，这个区域会更大，从而缓解边缘像素的损失，这些像素离中心更远。左下角显示学习的偏移向量（以颜色编码）。右下角显示位移的像素，位移与学习的偏移矢量.通过利用学习的最佳聚类区域围绕每个中心进行聚类来恢复聚类。目前，例如分割的主要方法是基于检测和分割方法，其中使用边界框检测方法检测对象，然后为每个对象生成二进制掩码。尽管过去进行了许多尝试，但Mask R-CNN框架是第一个在许多基准上取得出色结果的框架，并且仍然是迄今为止最常用的分割方法。虽然该方法在准确性方面提供了良好的结果，但它产生了不总是期望的低分辨率掩模（例如，用于照片编辑应用），并且以低帧速率操作，使得其对于诸如自动驾驶的实时应用是不实际的实例分割方法的另一个流行分支是无建议方法，它主要基于88378838嵌入损失函数或像素亲和性学习。由于这些方法通常依赖于密集预测网络，因此它们生成的实例掩码可以具有高分辨率。此外，无提议的方法通常比基于提议的方法报告更快的虽然这些方法是有前途的，但它们不能像Mask R-CNN那样执行在本文中，我们为无建议实例分割制定了一个新的损失函数，结合了两个世界的好处：精确、高分辨率掩模与实时性能相结合。我们的方法是基于这样的原则，即像素可以通过指向该对象的中心与该对象相关联与以前的作品，适用于所有像素的标准回归损失，迫使他们直接指向对象的中心，我们引入了一个新的损失函数，优化每个对象的掩模的交集。因此，我们的损失函数将间接迫使对象像素指向对象对于大的物体，网络将学习使这个区域更大，放松远离物体中心的像素的损失在推理时，实例通过围绕每个对象见图1我们在具有挑战性的Cityscapes数据集上测试了我们的方法，并表明我们获得了最佳结果，超过了Mask R-CNN，平均精度得分为27.6 vs.26.2，帧速率超过10fps。我们还观察到，我们的方法在汽车和行人上表现得非常好，达到了与在Cityscapes和COCO组合上训练的Mask R-CNN模型相似的准确度分数。在Cityscapes数据集上，我们的方法是第一个实时运行，同时保持高精度的方法。总之，我们（1）提出了一个新的损失函数，它通过将像素拉入最佳的特定于对象的聚类区域来直接优化每个实例的交集，（2）在Cityscapes数据集上实时获得最佳结果。2. 相关工作当前性能最好的实例分割方法是基于提议的，并且依赖于Faster R-CNN [23]对象检测框架，该框架是大多数对象检测基准中的当前领导者。先前的实例分割方法依赖于其检测输出来获得对象建议，然后将其细化为实例掩码[4，12，21，22]。Mask R-CNN [8]及其衍生PANet [16]通过用预测对象掩码的分支来增强Faster R-CNN网络来改进和简化该管道。尽管它们是在流行的基准测试中得分最高的方法，例如COCO，但它们的实例掩码是以低分辨率（32 × 32像素），并且实际上不常用于实时应用。实例分割方法的另一个分支依赖于密集预测、分割网络来以输入分辨率生成实例掩码。大部分的冰毒-ODS [6，18，11，5，19]基于嵌入损失函数，该函数迫使属于同一对象的像素的特征向量彼此相似，并且与属于其它对象的像素的特征向量足够不相似。最近，作品[19，14]已经表明，全卷积网络的空间不变性质对于嵌入方法并不理想，并且提出结合坐标映射[14]或使用所谓的半卷积[19]来缓解这个问题。然而，在目前的时间，这些方法仍然无法实现相同的性能，基于建议的。鉴于此，Kendall等人提出了一种更有前途和简单的方法。[10]，受[13]的启发，他们提出通过指向对象的中心来为对象分配像素。这样，它们通过学习位置相对偏移矢量来避免上述空间不变性的问题我们的方法是基于相同的概念，但integates后处理聚类步骤直接到损失函数，并优化每个对象的掩模的交集与我们的方法相关的是Novotny等人最近的工作。[19 ]第10段。虽然概念相似，但它们使用不同的损失函数，仍然应用检测优先原则。同样受到[10]启发的是Box2Pix，这是Uhrig等人提出的一项工作。[25]，其中他们首先基于单次检测方法预测边界框，然后通过指向对象中心来关联像素，之后可以有效地聚类。它的重点放在实时实例分割上，并在Cityscapes数据集上显示出有希望的结果。我们的方法还显示了Cityscapes数据集的实时性能，但精度要高得多。我们通过学习最佳聚类间隔的损失松弛与[20，9]有一些相似之处，其中他们将任意的不确定性整合到损失函数中。与这些工作相比，我们直接使用学习的保证金在测试时。3. 方法我们将实例分割视为像素分配问题，我们希望将像素与正确的对象相关联。为此，我们学习每个像素的偏移向量，指向其对象与我们在3.1中进一步解释的标准回归方法不同，我们还为每个对象学习了一个最佳聚类区域，通过这样做，我们放松了远离中心的像素的损失这在3.2中解释。为了定位对象8839NKK在3.5图2图示了管道。3.1. 回归实例质心实例分割的目标是对像素集合 X={x0 ， x1 ，x2，...，x N}，其中x是2维坐标向量，分解为一组实例S ={S0，S1，… Sk}。一种常用的方法是将p个像素分配给它们的核心，被分成两个不同的实例。如果数据集包含小对象和大对象，则该约束会对大对象的准确性产生负面影响，因为远离质心的像素虽然使用铰链损失将聚类合并到损失函数中，但是考虑到所述缺点，其在实践中不可用。为了解决这个问题，我们建议学习一个实例spe-响应实例质心Ck=1x∈Sk X. 这是cific margin。对于小的情况，通过学习每个像素xi的偏移向量oi来实现，使得所得到的（空间）嵌入ei=xi+oi指向其对应的实例质心。通常，使用具有直接监督的回归损失函数来学习偏移向量Σn对于较大的物体，被偏爱。通过这种方式，我们放松了远离实例质心的像素的损失，因为它们不再被迫精确地指向实例质心。为了做到这一点，我们建议使用高斯函数-对于每个实例Sk，它将（空间）像素嵌入ei=xi+oi与Lregr=i=1（1）第一章：将实例质心Ck转化为属于该实例的概率：其中oi=Ck−xi，xi∈S k。然而，上述方法在推理时提出了两个问题。第一个，LOCA-φ（e）=exp. e−C-I K（五）必须确定实例质心的位置，其次，必须将像素分配给特定的实例质心。为了解决这些问题，以前的方法依赖于在基于密度的聚类算法上，首先定位一组质心C={C0，C1，.， C K}，然后基于最小质心距离度量将像素分配给特定实例：ei∈Sk：k=argmin <$ei −C<$（2）C由于该后处理步骤（中心定位和聚类）未集成在损失函数内，因此网络不能端到端地优化，例如分段，从而导致较差的结果。3.2. 可学习边际像素到实例质心的分配可以通过替换标准Ki2σ2高概率意味着像素嵌入e 接近实例质心，并且可能属于该实例，而低概率意味着该像素更可能属于背景（或另一实例）。更具体地，如果φ k（e i）>0。5，则在位置xi处的像素将被分配给实例k。因此，通过修改映射函数的sigma参数，可以控制裕度：.margin=−2σ2ln 0. 第五条（六）较大的sigma将导致较大的利润，而较小的sigma将导致较小的利润。这还需要网络在每个像素位置输出σi我们将σk定义为属于实例k的所有σi带有铰链损失变量的回归损失，迫使像素位于实例质心周围的指定余量δ（铰链余量）内：1σk=|SK|Σσiσi∈Sk（七）ΣKL铰链=Σmax（ei−Ck<$−δ，0）（3）因为对于每个实例k，高斯输出一个前-在地面/背景概率图中，这可以通过使用二进制分类损失来优化，其中每个实例的二进制前方/背景图作为地面实况。k=1ei∈Sk这样，在测试时，通过在具有此固定余量的质心周围聚类，将像素分配给质心：ei∈Sk<$$>ei−Ck<$<δ（4）然而，这种方法的缺点是，必须基于最小的对象来选择边距δ，以确保如果两个小对象彼此相邻，它们仍然可以8840与使用标准交叉熵损失函数相反，我们选择使用Lovasz铰链损失[27]。由于该损失函数是Jaccard损失的（分段线性）凸替代，因此它直接优化每个实例的交集。因此，我们不需要考虑背景和背景之间的阶级不平衡.注意，不存在对网络的西格玛和偏移向量输出的直接监督（如图1所示）。88412σ2σe−K种子店实例分支c）类别特定的种子映射汽车人自行车采样图2.实例分段管道。网络的底部分支预测：a）每个像素的sigma值，其直接转化为每个对象的聚类裕度。较大的物体更蓝，意味着更大的边缘，较小的物体更黄，意味着更小的边缘。b）每个像素的偏移矢量，指向吸引中心，并使用颜色编码显示，其中颜色指示矢量的角度顶部分支预测每个语义类的种子映射高值表示该像素的偏移矢量直接指向对象中心。因此，请注意，边界的值很低，因为它们很难知道指向哪个中心。像素嵌入（=偏移向量+坐标向量）和从预测的sigma计算的边缘也被显示。聚类中心是从种子图中得到的。标准回归损失（Standard Regression Loss）相反，它们被联合优化以最大化每个实例掩码的交集，通过反向传播接收梯度会产生一个循环的边界。然而，我们可以修改映射函数以使用二维sigma：通过Lovasz铰链损失函数和通过高斯函数的作用3.3. 直觉φk（ ei）=exp.（eix−Ckx）2-2KXΣ（eiy−Cky）2-2KY（八）让我们首先考虑高斯函数的sigma（裕度）保持固定的情况。与上面解释的标准回归损失相比，我们相反，通过最小化二进制损失，实例像素现在被间接地强制位于实例质心周围的区域内，并且背景像素被强制指向该区域之外。当sigma不是固定的，而是一个可学习的参数时，网络现在也可以修改sigma，以更有效地最小化损失。除了在实例质心周围的（通常很小的）区域内拉实例像素并将背景像素推到该区域外之外，它现在还可以修改sigma，使得区域的大小更适合于该特定实例。直观地说，这意味着对于大对象，它会调整sigma以使质心周围的区域更大，以便更多的实例像素可以指向该区域内，而对于小对象，通过这样做，网络还具有学习椭圆边缘的可能性，这可能更适合于诸如行人或火车的细长对象。注意，在这种情况下，网络必须输出两个sigma映射，一个用于σx，一个用于σy。可学习的吸引中心另一个修改可以在高斯函数的中心上进行。目前，我们将高斯分布放在每个物体的质心Ck上。通过这样做，像素嵌入被拉向实例质心。然而，我们也可以让网络学习一个更优的吸引力中心。这可以通过将中心定义为实例k的嵌入的平均值来这样，网络可以通过改变嵌入的位置来影响吸引力中心的位置对象选择较小的区域，以便背景像素更容易指向该区域之外。.1Σ我|SK|2Σej∈Skej3.4. 损失扩展φk（ei）=exp−2σ2（九）在上述高斯函数的公式中，我们使用了sigma的标量值。这我们将在消融实验部分测试这些修改。a）sigma图b）像素偏移向量（x，y）利润率xMAPy映射8842KK2σ最大历元3.5. 种子地图在推理时，我们需要围绕总损失：1Σ2每个物体。由于上述损失函数迫使像素嵌入靠近对象的中心，我们可以采样一个好的因此，对于每个像素嵌入，我们了解它在多大程度L平滑=|S|4. 实验σi∈Skσi−σk（十二）从实例中心删除非常靠近实例中心的像素嵌入将在种子图中获得高分，远离实例中心的像素嵌入这样，在推理时，我们可以选择具有高种子分数的像素嵌入，这表明该嵌入将非常接近对象事实上，像素嵌入的种子分数应该等于高斯函数的输出，因为它将嵌入和实例中心之间的距离转换为接近度分数。嵌入越靠近中心，输出越接近1。因此，我们用回归损失函数训练种子图。背景像素被回归到零，并且前景像素被回归到高斯的输出。我们为每个语义类训练一个种子映射，损失函数如下：ΣN在本节中，我们将评估我们的实例分割方法在Cityscapes数据集上的性能。为了找到损失函数的最佳设置，我们首先分析消融研究中的不同方面之后，我们报告了我们最好的模型在Cityscapes测试集上的结果，并与其他表现最好的方法进行了比较。由于我们的方法是针对快速实例分割进行优化的，因此我们还报告了与其他实例分割方法的时间比较。4.1. 实现细节网络架构我们使用的ERFNet-架构[24]作为基础网络。ERFNet是一个密集预测编码器-解码器网络针对实时语义分割进行了优化。我们通过共享编码器部分并具有2个单独的解码器，将模型转换第一个分支预测sigma和偏移值，3或4个输出通道取决于sigma（σvsσxy）。其他分支输出1L=0s−φ（e）s−0N个种子映射，每个语义类一个偏移值种子N{si∈Sk}ik我我{si∈bg}我（十）限制在[-1，1]之间，具有tanh激活函数，通过使用指数函数使sigma严格为正。其中si是像素i的网络请注意，这次我们将φk（ei）视为标量：仅计算si的梯度。3.6. 后处理在推理时，我们对每个类特定的种子图遵循顺序聚类方法。种子贴图中具有最高值的像素指示哪些嵌入最接近对象程序是取样具有最高种子值的嵌入，并使用该位置作为实例中心C_k。在相同的位置，我们还计算了sigma值σk。通过使用该中心和伴随的sigma，我们将像素嵌入聚类到实例中Sk：激活函数，有效地让网络预测log（12）.坐标映射由于Cityscapes图像的大小为2048x1024，我们构建像素坐标映射，使x坐标在[0，2]范围内，y坐标在[0，1]范围内。这样，两个相邻像素之间的坐标差在x和y方向上都是由于偏移向量可以具有[-1，1]之间的值，因此每个像素可以指向距离其当前位置最多1024个像素的位置。训练过程我们首先在500x500 crops上预训练我们的模型，这些crops是从原始的2048x1024训练图像中提取出来的，并以一个对象为中心，持续200个epoch，.12 - 12是批量大小。这样我们就ei∈ Sk公司简介−ei−Ck2σˆ2>0。第五条（十一）在没有任何物质的情况下对背景补丁的计算时间。之后，我们对网络进行了另外 50 个时期的微调，1024x1024个作物，批量大小为2到10英寸。接下来，我们屏蔽掉种子图中的所有聚类像素，继续采样，直到所有种子被掩蔽。我们对所有类重复在无法完全适应500x500裁剪的较大对象上提高性能。在此阶段，我们保持批量归一化统计信息不变。我们使用为了确保的期间采样σk σk=Adam优化器和多项式学习率衰减1|SK|σi∈Sk 我们为每一个in添加一个平滑项，（1−epoch）0. 9 .第九条。在预训练期间，我们使用初始8843方法训练数据APAP50人骑手车卡车总线火车mcycle自行车DIN标准[2]细+粗23.445.220.918.431.722.831.131.019.611.7[第15话]细+粗25.044.921.820.139.424.833.230.817.712.4PolygonRNN++[1]罚款25.545.529.421.848.321.132.323.713.613.6Mask R-CNN [8]罚款26.249.930.523.746.922.832.218.619.116.0GMIS [17]细+粗27.644.629.324.142.725.437.232.917.611.9PANet [16]罚款31.857.136.830.454.827.036.325.522.620.8Mask R-CNN [8]fine + COCO31.958.134.827.049.130.140.930.924.118.7PANet [16]fine + COCO36.463.141.533.658.231.845.328.728.224.1我们罚款27.650.934.526.152.421.731.216.420.118.9表1.Cityscapes测试集的结果与仅罚款的方法相比，我们以27.6 AP的分数在基准测试中排名第二使用它们各自的对象数量来降低类：人骑手车卡车总线火车mcycle自行车17.9k1.8k26.9k0.5k0.4k0.2k0.7k3.7k平均精密度（AP）图3.Cityscapes基准测试中实例分割方法之间的速度准确性我们的方法是第一个具有高精度的实时方法。图片来自[25]学习率为5e-4，我们将其降低到5e-5进行微调。在两个NVIDIA 1080 Ti GPU除了随机裁剪，我们还应用随机水平镜像作为数据增强。4.2. Cityscapes数据集Cityscapes数据集是用于城市场景理解的高质量数据集。它由5，000个2048 × 1024像素的精细注释图像（精细）和20，000个仅具有语义注释的粗略注释图像（粗略）组成，精细注释图像具有语义注释和实例注释。对象大小的宽范围和变化的场景布局使其成为具有挑战性的数据集，例如分割方法。实例分割任务包括检测8个不同语义类的对象，并为每个对象生成一个的性能进行评估的平均精度（AP）的标准在区域一级上，并平均在不同的类。除AP外，还报告了50%重叠的AP 50%、分别限制为100 m和50m的对象的AP100m和AP在下面的实验中，我们将只使用训练我们的模型，其中包括以下内容-请注意，某些类别（卡车、公共汽车、火车）是高度欠代表的，这将对模型在这些特定类别上的测试性能产生负面4.3. 消融实验在本节中，我们评估损失函数的不同参数对Cityscapes验证集的影响：我们研究了可学习的sigma的重要性、使用实例质心或可学习的中心作为吸引中心的差异以及使用标量或二维sigma的差异。由于我们想要测量对实例部分的影响，因此我们通过使用地面实况注释来定位对象并分配正确的语义类（在表中指示为APgt）来从等式中移除对象检测和分类部分。固定sigma与可学习sigma在这个实验中，我们评估了可学习的、实例唯一的sigma相对于固定sigma的重要性如第3.2节所述，当使用固定sigma时，必须基于我们仍然希望能够分离的最小对象的大小来选择该值，因此将其设置为与20像素的边距相对应。结果可见于表2中。显著的性能差异（28 AP与38.7 AP）显示了为每个实例提供唯一的、可学习的西格玛的重要性。还请注意，对于具有相对较多小实例的类，正如预期的那样，差异不太明显。固定与可学习的吸引力中心如方法部分所述，实例的吸引中心（CoA）可以定义为质心，或者更一般地，定义为通过对属于该实例的所有空间嵌入取平均值而计算出的可学习中心直观地说，通过让网络有机会决定CoA本身的位置，它可以学习更优化的Box2Pix（我辨别损失Mask R-CNNPanetSGNFPS实时8844σ/σxyCOAAP[val]gt人骑手车卡车总线火车mcycle自行车σ固定质心28.032.328.145.130.237.314.419.916.9σ质心38.736.433.654.542.756.036.724.924.5σ可学习39.539.435.456.040.357.634.626.126.5σxy质心39.138.033.954.542.059.437.823.024.5σxy可学习40.539.334.555.544.359.841.224.825.0表2.使用地面实况采样方法在Cityscapes验证集上评估消融实验我们测量固定sigma的性能，使用标量与2维西格玛和使用质心或可学习中心作为吸引力中心的差异。图4.根据对象的大小学习边距。每个点代表数据集中的一个对象。正如预测的那样，我们注意到边缘和对象大小之间的正相关性位置比标准质心。在表2中，我们使用地面实况采样方法评估了Cityscapes验证集上的两种不同方法，无论是标量还是二维sigma。正如预测的那样，在这两种情况下，当使用可学习的中心而不是固定的质心时，我们都获得了更高的AP分数，并且在所有类别中都有明显的改善。循环与椭圆边缘每个实例的边缘由高斯函数中的可学习σ参数定义。该sigma可以是标量（σ），其导致圆形边缘，或者是二维向量（σxy），其导致椭圆形边缘。对于矩形对象（例如行人），圆形边缘不是最佳的，因为它只能扩展到最短的边界。然而，椭圆边缘将具有拉伸和适应对象的形状的可能性，可能导致更高的准确度。在表2中，我们比较了两种方法，并验证了二维sigma（椭圆边缘）确实比标量（圆形边缘）更好。由于sigma是一个可学习的参数，我们没有直接的控制其价值。直觉上，由于sigma控制着聚类边缘，我们推测对于大对象，sigma会更大，导致更大的边缘，而对于小对象，sigma会更小。为了验证这一点，在图4中，我们绘制了sigma与物体大小的函数关系正如预测的那样，物体的大小和sigma之间确实存在正相关关系4.4. Cityscapes的结果在表1中，我们报告了Cityscapes测试集的结果，并与其他高性能方法进行了比较。然而，请注意，重要的是要注意训练方法的训练数据。由于卡车、公共汽车和火车类在精细集合中的代表性非常低，因此仅在该集合上训练的方法在这些类上的执行比使用粗糙或COCO集合来增加其数据集的方法要少。把我们的方法和另一种只罚款的方法进行我们以27.6的AP得分位居第二，介于流行的Mask R-CNN（26.2）和PANet（31.8）之间然而，请注意，我们在人（34.5 vs 30.5），骑手（26.1 vs 23.7）和汽车类（52.4 vs 46.9）上做得比Mask R-CNN好得多。如果我们将我们的方法与GMIS（一种在精细集和粗糙集上训练的方法）进行比较，我们注意到尽管它与我们的方法具有相同的AP分数，但它只在卡车，公共汽车和火车类上表现更好（因为额外的粗糙集），而在所有其他类上表现更差。虽然将我们的方法与在fine+COCO上训练的方法进行比较是不公平的，但我们确实注意到，我们在人（34.5 vs 34.8）和骑手（26.1 vs 27.0）上取得了类似的结果，甚至在汽车（52.4 vs 49.1）和自行车（18.9vs 18.7）上表现更好。4.5. 定时在表3中，我们比较了不同方法的执行速度。这也在图3中描绘。到目前为止，大多数方法都专注于准确性而不是执行速度。Mask-RCNN（26.2 AP - 1fps）及其衍生物具有较高的精度，但速度较慢。其他方法，如鉴别丢失（17.5 AP -5 fps）或Box 2 Pix（13.1 AP -10.9fps），通过下采样分辨率或使用单镜头检测方法实现更高的帧速率，但在准确性方面明显不足8845图5. Cityscapes数据集上的结果。从左至右：输入图像地面实况和我们的预测请注意，我们的方法非常擅长检测小对象，并且通常预测比地面实况中注释的更正确的对象。方法APAP50FPS[26]第二十六话2.33.65[25]第二十五话13.127.210.9BAIS [7]17.436.7<1歧视损失[5]17.535.95DWT [3]19.435.3<3动态网络[2]20.038.3<3[第15话]25.044.90.6[8]第八届全国政协委员26.249.92.2PANet [16]31.857.1<1我们27.650.911表3.实例分割方法在2048x1024分辨率下的近似时序结果，测试集精度[25]。速度太慢或精度很低的方法被排除在外。与Mask R-CNN相比。由于我们的方法是基于ERFNet网络，并结合聚类损失函数，我们是第一个实现高精度com。结合实时性能（27.6 AP -11 fps）。更具体地，在2MP的分辨率下的前向传递花费65ms，并且聚类步骤需要26ms。5. 结论在这项工作中，我们提出了一个新的聚类损失函数的实例分割。通过使用高斯函数将像素嵌入转换为前景/背景概率，我们可以直接优化每个对象掩码的交集，并学习最佳的特定于对象的聚类边缘。我们表明，当应用于实时，密集预测网络时，我们在Cityscapes基准上以超过10 fps的速度获得了最佳结果，使我们的方法成为第一个具有高准确度的无建议实时实例分割方法。鸣谢：这项工作得到了Toy-ota的支持，并在KULeuven 的 TRACE 实验室（ Toyota Research onAutomated Cars in Europe-Leuven）进行。8846引用[1] D. Acuna，H.Ling、红腹锦鸡儿A.Kar和S.菲德勒用polygon-rnn++实现分割数据集的高效在IEEE计算机视觉和模式识别会议论文集，第859-868页，2018年。6[2] A. Arnab和P. H.乇使用动态实例化网络的逐像素实例分段。六、八[3] M. Bai和R.乌塔松深度分水岭变换用于实例分割.2017年IEEE计算机视觉和模式识别会议（CVPR），第2858IEEE，2017年。8[4] J. Dai，K. He和J. Sun.通过多任务网络级联的实例感知语义分割在IEEE计算机视觉和模式识别会议论文集，第3150-3158页2[5] B. De Brabandere，D. Neven和L.范古尔基于判别损失函数的语义实例分割。arXiv预印本arXiv：1708.02551，2017。二、八[6] A. Fathi，Z. Wojna，V. Rathod，P. Wang，H. O. 歌、S. Guadarrama和K. P·墨菲基于深度度量学习的语义实例分割。arXiv预印本arXiv：1703.10277，2017。2[7] Z. Hayder，X.他和M。萨尔茨曼边界感知物体分割。在第30届计算机视觉和模式识别会议（Cvpr 2017）上，编号CONF。2017年，伊斯坦堡。8[8] K. 他，G. Gkioxari，P. Doll a'r 和R. 娘娘腔。面具r-cnn。在计算机视觉（ICCV），2017年IEEE国际会议上，第2980-2988页。IEEE，2017年。二、六、八[9] A. Kendall和Y.加贝叶斯深度学习在计算机视觉中需要哪些不确定性？神经信息处理系统的进展，第5574-5584页，2017年2[10] A. Kendall，Y.Gal和R.西波拉使用不确定性来权衡场景几何和语义损失的多任务学习arXiv预印本arXiv：1705.07115，3，2017。2[11] S. Kong和C.福克斯用于实例分组的递归像素嵌入。在IEEE计算机视觉和模式识别会议论文集，第9018- 9028页，2018年。2[12] Y. Li，H. Qi，J. Dai，X. Ji和Y.伟.完全卷积的实例感知语义分割。arXiv预印本arXiv：1611.07709，2016。2[13] X. Liang，Y. Wei，X.沈军，杨立. Lin和S.燕.用于实例级对象分割的无建议网络。 arXiv 预印本 arXiv ：1509.02636，2015年。2[14] R. 刘先生，雷曼兄弟， P. Molino， F. P.这样， E.弗兰克A. Sergeev和J.尤辛斯基一个有趣的失败的卷积神经网络和 coordconv 解决方案。 arXiv 预印本 arXiv ：1807.03247，2018。2[15] S. Liu，J. Jia，S. Fidler和R.乌塔松Sgn：用于实例分段的顺序分组网络。 IEEE 国际计算机视觉会议（ICCV），2017。六、八[16] S.柳湖，加-地Qi，H. Qin，J. Shi，and J.贾用于实例分段的路径聚合网络InProceedings of theIEEE计算机视觉和模式识别会议，第8759-8768页，2018年。二、六、八[17] Y. Liu，S.扬湾，澳-地Li，W. Zhou，J. Xu，H. Li和Y.陆实例分割中的仿射推导和图合并。在欧洲计算机视觉会议（ECCV）的会议记录中，第686-703页，2018年。6[18] A. Newell，Z. Huang和J.邓小平更关联嵌入：用于联合检测和分组的端到端学习。神经信息处理系统进展，第2277-2287页，2017年。2[19] D. Novotny，S. Albanie，D. Larlus，A. Vedaldi、A. 纳格拉尼，S. Albanie，A. Zisserman，T. H.哦R雅伦斯里角Kim等人，Semi-convolutional operators for instance segmenta-tion。arXiv预印本arXiv：1807.10712，2018。2[20] D. Novotny，D. Larlus，和A.维达尔迪通过观察周围的物体来学习3d物体的类别。在IEEE计算机视觉国际会议论文集，第5218-5227页，2017年。2[21] P. O. 皮涅罗河Collobert和P. 多尔拉。学习对候选对象进行分类。神经信息处理系统进展，第1990-1998页，2015年。2[22] P. O. P i nheiro，T.- Y. 林河，巴西-地Collobert和P. 娃娃。学习细化对象分段。欧洲计算机视觉会议，第75-91页。施普林格，2016年。2[23] S. Ren，K.赫利河Girshick和J.太阳Faster r-cnn：Towardsreal-time object detection with region proposal networks.在神经信息处理系统的进展，第91-99页，2015年。2[24] E.罗米拉，J.M.阿尔瓦雷斯湖M. Bergasa和R.阿罗约Erfnet：用于实时语义分割的高效残差分解Convnet。IEEE Transactions on Intelligent Transportation Systems，19（1）：263-272，2018。5[25] J. Uhrig，E. B.t.de r，B. 弗赖希，美国 Fran k e和T. 布洛克斯Box2pix：通过将像素分配给对象框来进行单次实例分割。在IEEE智能车辆研讨会（IV），2018年。二、六、八[26] J. van den Brand，M. Ochs，R. Mester基于深度轮廓的车辆实例级分割。在亚洲计算机视觉会议上，第477施普林格，2016年。8[27] J. Yu和M.布拉施科学习如何使用l o v a′ sz铰链来减少次模块损失。在国际机器学习会议上，第1623-1631页，2015年3

下载后可阅读完整内容，剩余1页未读，立即下载