没有合适的资源?快使用搜索试试~ 我知道了~
用于实例分割的David Novotny[0000 - 0002 - 9517 - 1464],Samuel Albanie[0000 - 0003 - 1732 -9198],Diane Larlus[0000 - 0003 - 1374 - 2858],Andrea1牛津大学工程科学系视觉几何组{david,albanie,vedaldi}@ robots.ox.ac.uk2计算机视觉组,NAVER LABS欧洲diane. naverlabs.com抽象的。对象检测和实例分割由基于区域的方法(如MaskRCNN)主导。然而,人们越来越关注将这些问题减少到像素标记任务,因为后者可能更有效,可以无缝地集成在图像到图像网络架构中,如在许多其他任务中使用的,并且对于边界框不能很好地近似的对象可能更准确。 在本文中,我们从理论上和经验上证明,使用卷积运算符无法轻松实现可以分离对象实例的密集像素嵌入。 与此同时,我们表明,简单的修改,我们称之为半卷积,有更好的机会成功完成这项任务。我们使用后者来显示与Hough投票以及由卷积网络空间引导的双边内核的变体的连接我们证明,这些算子也可以用于改进MaskRCNN等方法,证明复杂生物形状和PASCALVOC类别的分割比单独使用Mask RCNN关键词:实例嵌入,对象检测,实例分割,着色,半卷积1介绍用于检测图像中的对象的最先进的方法,如R-CNN [19,18,46],YOLO [44]和SSD [38],可以被视为相同范例的变体:提出了一定数量的候选图像区域,无论是动态的还是从一个固定的池,然后使用卷积神经网络(CNN)来决定这些区域中的哪一个紧密地包围感兴趣对象的实例。这种策略的一个重要优点,我们称之为建议验证(P V),是它与标准CNN配合得特别好然而,P V也有几个显著的缺点,从矩形建议只能近似对象的实际形状的事实开始;分割对象,特别是,需要两步方法,其中,如在Mask R-CNN [23]中,首先平等贡献2Novotny D.,阿尔巴尼·S拉卢斯·D韦达尔迪河Fig. 1. 例如,基于经由卷积像素嵌入的密集着色的分割方法不能容易地区分对象的相同副本。在本文中,我们提出了一种新的半卷积嵌入,更适合于实例分割。使用简单的形状(如矩形)检测对象实例,然后才将检测细化为像素精确的分割。可以克服这种限制的PV的替代方案是直接用对应对象出现的标识符标记各个像素。这种方法,我们称之为实例着色(IC),可以有效地表示任何数量的任意形状的对象,通过预测一个单一的标签映射。因此原则上,IC比P V更有效。IC的另一个吸引力是,它可以被公式化为图像到图像的回归问题,类似于其他图像理解任务,例如去噪、深度和法线估计以及语义分割。因此,这种策略可以更容易地构建统一的架构,例如[27,25],可以解决实例分割以及其他问题。尽管IC的理论上的好处,但是,P-V方法目前占主导地位本文的目的是探讨这种差距的一些原因,并提出解决办法。部分问题可能在于密集标签的性质给对象着色的最明显的方法是将其编号,并将其与编号上的内容一起“绘制”。然而,后者是一个全局操作,因为它需要知道图像中的所有对象。CNN是局部的和平移不变的,因此可能不适合直接枚举。因此,一些作者探索了更适合卷积网络的替代着色方案一个流行的方法是分配一个任意的颜色(通常在一个真正的矢量的幌子),以每个对象出现,唯一的要求,不同的颜色应该用于不同的对象[15,6,28]。然后,所得到的颜色亲和力可以用于经由非卷积算法来容易地枚举对象的后验。在本文中,我们认为,即使是后一种技术也不足以使IC适合CNN计算。原因是,由于CNN是平移不变的,它们仍然必须将相同的颜色分配给对象的相同副本,使得副本无法通过卷积着色来区分。这一论点,这是严格发展证券交易委员会。3.6,保持在极限,因为在实践中,大多数CNN的感受野大小几乎与整体一样大。Novotny等人:用于实例分割的半卷积算子3然而,它表明网络的卷积结构至少不自然地适合IC。为了克服这个问题,我们建议用于IC的架构不应该是平移不变的;虽然这似乎与卷积网络有很大的不同,但我们也证明了对标准CNN的小修改可以克服这个问题。我们通过定义半卷积算子来实现这一点,半卷积算子将从标准卷积网络中提取的信息与关于像素的全局位置的信息混合在一起(第二节)。3.1和图1)。我们训练后者(sec.)。3.2)使得算子的响应对于属于相同对象实例的所有像素大致相同,使得这种嵌入自然适合于IC。我们表明,如果混合函数是添加剂,那么由此产生的运营商承担一些相似的霍夫投票和相关的检测方法。在将嵌入扩展到包含捕获外观线索的标准卷积响应之后(第二节),3.3),我们用它来诱导像素的亲和力,并显示后者如何可以被解释为一个双边内核的转向版本(sec. 3. 4)。最后,我们展示了如何将这种亲和性也集成到Mask RCNN等方法中(第二节)。3. 5)。我们评估我们的方法与几个实验。我们首先调查我们的方法对简单的合成数据的极限属性然后,我们证明了我们的半卷积特征提取器可以成功地与最先进的方法相结合,以解决包含重叠和铰接生物体的生物图像的解析4. 2)。最后,我们将后者应用于标准的实例分割基准PASCAL VOC(sec.第四章3)。在所有这些情况下,我们表明使用半卷积特征可以提高最先进的实例分割方法(如MaskRCNN)的性能。2相关工作在过去的几年里,由于Faster-RCNN [46],SSD [38]或其他类似方法[11,44,34]等强大的基线,对象检测得到了很大的改进,所有这些都来自于建议的验证策略。随着目标检测和语义分割的成功,实例级分割这一具有挑战性的任务越来越受到人们的关注。已经提出了几种非常不同的方法。基于建议的实例分割。虽然早期的方法依赖于自下而上的分割[18,9],但绝大多数最近的实例级方法将分割建议与强大的对象分类器结合在一起。一般来说,他们实现了一个多级管道,首先生成区域建议或类别不可知框,然后对它们进行分类[29,20,7,42,10,43,32]。例如,DeepMask [42]和后续方法[43,8]学习提出然后分类的分段候选。MNC方法[10]基于Faster-RCNN [46],重复这个过程两次[10],而[32]则多次重复。[22]扩展[10]以模拟物体的形状。[31]的完全卷积实例分割方法还使用位置敏感的得分图将分割建议4Novotny D.,阿尔巴尼·S拉卢斯·D韦达尔迪河一些方法首先从语义分割开始,然后将针对每个类别获得的区域切割成多个实例[26,4,37],可能涉及高阶CRF [3]。在迄今为止最成功的方法中,Mask-RCNN [23]扩展了Faster R-CNN[46],其中一个小的全卷积网络分支[40]为检测分支预测的每个感兴趣区域生成尽管Mask-RCNN具有出色的结果,但它也有缺点:它依赖于一组小的预定义区域建议和非最大抑制,使得它对强遮挡,拥挤的场景或具有基本非矩形形状的对象的鲁棒性3. 6)。实例敏感嵌入。一些作品已经探索了在聚类任务的上下文中使用像素级嵌入,将它们用作聚类分配的软的可区分代理[53,21,15,12,41,28]。这是无监督图像分割方法的核心[48,16]。它已用于身体关节[41],语义分割[1,21,6]和光流[1],并且与我们的工作更相关,用于实例分割[15,12,6,28]。这类方法的目标是使属于同一实例的点在嵌入空间中彼此靠近,使得两个像素属于同一实例的决定可以通过简单的距离函数直接测量。这样的嵌入需要对对象的内部外观具有高度的不变性在最新的方法中,[15]将嵌入与贪婪机制相结合,以选择种子像素,用作构建实例片段的起点。[6]将嵌入、低秩矩阵和稠密连接随机场联系起来。[28]嵌入像素,然后将它们分组到具有均值漂移变体的实例中,该变体被实现为递归神经网络。所有这些方法都是基于卷积,其通过构造是局部和平移不变的,因此本质上不适合区分同一对象的几个相同实例(参见第2节中关于卷积着色困境的3. 6)。最近的工作[25]采用位置敏感的卷积嵌入,其使each pixel的质心的位置回归。我们主要通过以下方式进行区分,以确定每个实例的不受约束的代表点。在使用聚类组件的其他方法中,[49]利用了覆盖率损失,[55,50,51]利用了深度信息。特别是,[51]训练网络预测每个像素朝向其实例中心的方向以及单眼深度和语义标记。然后应用模板匹配和建议融合技术。其他实例分割方法。几种方法[42,43,33,24]从 块 预 处 理 器 中 移动,并使用Faster-RCNN[46]来预处理“cement t e r - n e ss“的cor e s oneachpixel i s e t e ad。在第二阶段中,该直接喷射器喷射出掩模。这种方法的问题是物体不一定适合感受野。递归方法顺序地生成单个段的列表例如,[2]使用LSTM进行具有置换不变损失的检测,Novotny等人:用于实例分割的半卷积算子5[47]使用LSTM为每个实例生成二进制分割掩码[45]扩展[47]通过使用箱形网络在每个窗口中细化分割这些方法是缓慢的,并且不能扩展到大型和拥挤的图像。一些方法使用分水岭算法。[4]预测像素级能量值,然后使用分水岭算法对图像进行分区。[26]将分水岭算法与实例感知边界图相结合。这种方法创建断开的区域,特别是在存在遮挡的情况下。3方法3.1用于着色的设x ∈ X= RH×W×3是一个图像,u∈H={1,. . .,H} × {1,. . .,W}像素。在实例分割中,目标是将图像映射到集合Sx={S1,. . . ..符号S0=−kSk将表示代表背景的互补区域。区域及其数量是图像的函数,目标是预测两者。在本文中,我们感兴趣的方法,减少实例分割的像素标记问题。也就是说,我们试图学习一个函数Φ:X → L,该函数将每个像素u与某个标签Φu(x)∈ L相关联,因此,作为一个整体,标签对分割Sx进行编码。直观地说,这可以通过用不同的“颜色”(也称为像素表)绘制不同的区域来完成,这些区域在后处理中被视为要恢复的对象。我们称之为过程实例着色(IC)。一种流行的IC方法是使用实向量L=Rd作为颜色,然后要求不同区域的颜色充分分离。形式上,应该存在裕度M >0,使得:.u,v∈≤ 1 −M,k:u,v∈Sk,≥ 1 + M, 否则(一)如果是这种情况,则聚类颜色会平凡地重建区域。不幸的是,卷积算子Φ难以满足约束(1)或类似约束。虽然这在SEC中得到了正式证明3.6,现在一个直觉就足够了:如果图像包含相同对象的副本,那么卷积网络,这是平移不变的,必须为每个副本分配相同的颜色。如果卷积运算符不合适,那么我们必须放弃它们,转而使用非卷积运算符。虽然这听起来很复杂,但我们建议对卷积算子进行非常简单的修改,我们称之为半卷积,可能就足够了。特别地,如果Φu(x)是卷积运算符在像素u处的输出,那么我们可以通过将其与关于像素位置的信息混合来构建非卷积响应。在数学上,我们可以将半卷积算子定义为:f(x)=f(x)= f(x)6Novotny D.,阿尔巴尼·S拉卢斯·D韦达尔迪河¨Ψ其中f:L×λ→ L′是一个合适的混合函数。作为这种算子的主要例子,我们考虑一种特别简单的混合函数,即加法。在这里,EQ。(2)专门从事:<$u(x)= Φu(x)+u,Φu(x)∈L =R2.(三)虽然这种选择是限制性的,但它具有非常简单的解释的好处假设实际上得到的嵌入可以完美地分离实例,在这个意义上,<$u(x)=<$v(x)惠<$k:(u,v)∈Sk。然后,对于区域Sk的所有像素,我们可以特别地写:u∈Sk:Φu(x)+u=ck(4)其中ck∈R2是一个实例特定的点。换句话说,我们看到学习这种半卷积嵌入(例如分割)的效果是预测位移场Φ(x),该位移场将对象实例的所有像素映射到实例特定的质心ck。位移场的图示可以在图2中找到。2.与Hough投票和隐式形状模型的关系。 当量 (3)和(4)让人想起计算机视觉中众所周知的检测方法:霍夫投票[13,5]和隐式形状模型(ISM)[30]。回想一下,这两种方法都将图像块映射到可能出现的对象的参数θ的投票。在简单的情况下,θ∈R2可以是一个对象的质心,并且投票可以具有类似于等式的形式。(4).这建立了基于投票的对象检测方法和着色方法(例如分割)之间的明确联系与此同时,也存在显著差异。首先,这里的目标是对像素进行分组,而不是重建对象实例的参数(例如其质心和比例)。当量(3)可能有这种解释,但更一般的版本eq。(2)不。其次,在Hough或ISM等方法中,质心被先验地定义为对象的实际中心;这里质心ck没有明确的含义,但被自动推断为有用但任意的参考点。第三,在传统的投票方案中,投票集成了从各个小块提取的局部信息;这里,Φu(x)的感受野大小可能足以包含整个对象或更多。EQ的目标。(2)和(3)不是汇集本地信息,而是解决代表性问题。3.2学习加性半卷积特征学习eq的半卷积特征。(2)可以用许多不同的方式来表达。在这里,我们采用了一个简单的直接公式,灵感来自[12],并通过考虑每个图像x和其分段中的实例S∈ S,每个像素u∈S的嵌入与这些嵌入的分段平均值之间的距离来构建损失:L(L)|x,S)= ΣS∈S1|S|¨Σ¨¨¨u∈Su(x)−1|S|Σu∈S¨¨¨u(x)?。 ¨(五)Novotny等人:用于实例分割的半卷积算子7布吕德图2. 半卷积嵌入。 嵌入Φu(x)的前两个维度被可视化为从对应的像素位置u开始的箭头。 来自同一实例的箭头倾向于指向特定于实例的位置ck。请注意,虽然这个量类似于每个片段的嵌入值的方差,但它不是距离的平方;这被发现更鲁棒。还要注意,这种损失比边际条件(1)简单,[12]中提出的损失,与(1)更接近。特别地,这仅是一种“限制”,以使针对一个片段的嵌入值都等于某个平均值,但并不明确地鼓励为不同的片段分配不同的嵌入值。虽然这也可以做到,但经验上我们发现,最小化eq.(5)足以学习良好的加性半卷积嵌入。3.3Coloringinstancesusingindiduals实际上,很少有图像包含特定对象的精确复制品。相反,更典型的是,不同的事件具有一些独特的个体特征。例如,不同的人通常以不同的方式穿着在实例分割中,可以使用这样的线索来立即区分实例。此外,这些线索可以通过传统的卷积算子来提取。为了在我们的加性半卷积公式中包含这样的线索,我们将推导出exp=u(x)=u+Φu(x)。 然而,我们假设Φu(x)∈Rd,以使更多的两种情况d>2。对于更多,我们将u定义为通过零填充扩展的u、ux和uy的像素坐标Σ Σu=uxuy0. -是的-是的 0∈R.(六)通过这种方式,嵌入的最后d-2维可以作为传统的卷积特征,并且可以正常提取特定于实例的特征8Novotny D.,阿尔巴尼·S拉卢斯·D韦达尔迪河uuu3.4转向双侧核函数像素嵌入向量u(x)最终必须被解码为一组图像区域。同样,有几种可能的策略,从简单的K均值聚类开始,可以用来做到这一点。在本节中,我们考虑在两个像素之间的亲和矩阵中转换嵌入,因为后者可以用于许多算法。为了定义像素u、v∈n之间的亲和度,首先考虑高斯核K(u,v)= exp.ǁΨu(x)−Ψv(x)ǁ2−2Σ.(七)我觉得这是个好主意。(6)利用φu(x)=u∈+Φu(x)的定义,我们可以将Φu(x)分解为几何部分Φg(x)∈R2和外观部分Φa(x)∈Rd−2,并将该核展开如下:K(u,v)= exp. <$(u + Φg(x))−(v+ Φg(x))<$2<$-u v2exp.ǁΦa(x)− Φa(x)ǁ2Σ-uv.2(八)将此定义与双边内核的定义进行比较是很有趣的:3Kbil(u,v)= exp.u − v−2exp.ǁΦa(x)−Φa(x)ǁ2Σ-uv2.(九)双边核函数在图像滤波、均值漂移聚类等领域有着广泛的应用.双边核的思想是,如果像素在空间和外观上都很接近,则将它们视为相似在这里,我们已经证明了内核(8)和内核(7)可以被解释为这个内核的泛化,其中空间位置被网络操纵(扭曲),以将属于同一底层对象实例的像素移动得更近。在这些内核的实际实现中,向量应该在比较之前重新缩放,例如为了平衡空间和外观分量。在我们的例子中,由于嵌入是端到端训练的,网络可以学习自动执行这种平衡,但事实上(4)隐式定义了内核空间分量的缩放。因此,我们修改EQ。(7)以两种方式:通过引入可学习的标量参数σ和通过考虑拉普拉斯算子而不是高斯核:Kσ(u,v)= exp.Σ−u(x)−v(x)σ.(十)这个核对离群值更鲁棒(因为它使用欧几里得距离而不是平方),并且仍然是正定的[17]。在下一节中,我们将展示一个如何使用此内核执行实例着色的示例。3在双边核中,常见的选择是设置Φa(x)=xu R3作为RGB外观特征的三元组。Novotny等人:用于实例分割的半卷积算子93.5半卷积Mask-RCNN我们在sec中提出的半卷积框架。3.1是非常通用的,可以与许多现有的方法相结合。在这里,我们描述了它如何能够与Mask-RCNN(MRCNN)框架[23]结合,这是实例分割的当前最先进技术。MRCNN基于RCNN提出的验证策略,首先产生一组矩形区域R,其中每个矩形R∈ R紧密包围一个候选实例。然后,一个全卷积网络(FCN)产生每个候选区域内的前地/背景分割。在实践中,它用前景得分logits(ui)∈R来标记R中的每个像素ui。然而,这不是用于铰接对象或遮挡场景的最佳策略(如第2节中所验证的)。4. 2),因为标准FCN难以执行单独的前景/背景预测。因此,我们利用像素级平移敏感嵌入来提高预测s(u,i)的质量。扩展MRCNN。我们的方法是基于两个直觉:第一,一些点比其他点更容易被识别为前景,第二,一旦一个这样的种子点已被确定,其与其他像素的亲和力可以用来切割出前景区域。在 实 践 中 , 我 们 首 先 使 用 MR-CNN 前 景 置 信 度 得 分 图 s = [s(u1),. . .,s(u| R|)].我们选择最置信的种子点为us= argmax 1 ≤i≤|R|s(ui),在提取用于该区域中的种子和种子的嵌入后,评估转向的双边核Kσ(us,u),并且将转向的双边核K σ(ui)确定为sσ(ui)=s(ui)+l〇gKσ(us,ui)。由于提高了数值稳定性,因此在对数空间中执行了对所述计算和所述核的计算。在[ 23]中,最终的每个像素都可以通过简单的(s_i(u_i))获得。整个架构-区域选择机制,前景预测和像素级嵌入-都是端到端训练的。对于可区分性,这需要以下修改:我们用得分ps = softmax(s)上的软最大值替换最大值算子,并且我们获得种子嵌入us作为概率密度ps下嵌入u上的期望。网络优化器与MRCNN损失一起最小化图像级嵌入损失L(k |x,S),并进一步附加次级二进制交叉熵损失,该次级二进制交叉熵损失类似于MRCNN掩码预测器,最小化内核输出Kσ(us,ui)与地面实况实例掩码之间的二进制交叉熵。我们的半卷积特征的预测器被实现为一个浅层子网络的输出,在所有FPN层之间共享。这个子网由一个256通道的1×1卷积滤波器,然后是ReLU,最后是一个3×3卷积滤波器,产生D = 8维嵌入的卷积。由于RPN分量对底层FPN表示的扰动过度敏感,我们将由浅子网络生成并由共享FPN张量接收的梯度缩小10倍。10Novotny D.,阿尔巴尼·S拉卢斯·D韦达尔迪河u3.6卷积着色困境在本节中,我们证明了卷积算子与解决实例分割问题有关的一些性质。为了做到这一点,我们需要从形式化问题开始。我们考虑x:n→R类型的信号(图像),其中域n是Zm或Rm。4在分割中,我们给出一个这样的信号族x ∈ X,每个信号都与某个划分Sx={S1,. . .,SKx}。我们的目标是构造一个分割算法A:x<$→Sx来计算这个函数。我们特别关注通过为域的每个点u∈L分配标签Φu(x)∈L来预处理信号的算法。此外,我们假设这个标记算子Φ是局部的和平移不变的,以便用卷积神经网络实现。有两类算法可用于以这种方式分割信号,下面将讨论。建议核实。第一类算法提交所有可能的区域为方便起见,用变量r索引,到标记函数Φr(x)∈{0, 1},验证哪些属于分割Sx(即Φr(x)=1惠Sr∈ Sx)。由于在实践中,它是不可能的,以测试所有可能的子集的建议,这样的算法必须集中在一个较小的集合的区域。典型的选择是考虑所有平移的正方形(或矩形)Su=[−H,H]m+u。以来索引变量u∈x现在是平移,算子Φu(x)具有上面讨论的形式,尽管它不一定是局部或平移不变的。实例着色。第二类方法直接用相应区域的索引对像素进行着色(标记),即, Φu(x)= k惠u ∈ Sk. 与P& V不同,它可以有效地表示任意形状。然而,映射Φ需要隐式地决定为每个区域分配哪个数字,这是一个全局操作。几位作者试图使其更适合卷积网络。一种流行的方法[15,12]是任意地对像素进行着色(例如使用矢量嵌入),以便将相似的颜色分配给同一区域中的像素,并且在区域之间使用不同的颜色,如已经在等式中详细描述的。(1).卷积着色难题。这里我 们 表 明 , 即 使 有 上 面 讨 论 的 变体,IC也不能用卷积算子来逼近,即使在卷积算子可以用PV工作的uS−2S−1S0S 1S 2我们通过考虑一个简单的1D示例来这样做。设X是周期2的信号(即,xu+2=xu)其中对于u∈[−1,1],信号由xu=min(1−u,1+u)给出4.我们假设区域扩展到无穷大,以避免必须显式处理边界条件。5我们知道对于所有的三角形 如果存在一个常数M> 0使得xu= xu′,则我们说它也是局部的|u− u′|
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功