没有合适的资源?快使用搜索试试~ 我知道了~
密集滑动窗口实例分割的TensorMask框架
1TensorMask:密集对象分割XinleiChen RossGirshick KaimingHe PiotrDolla`rFacebookAI Research(FAIR)摘要在密集的规则网格上生成边界框对象预测的滑动窗口对象检测器相比之下,现代实例分割方法主要是首先检测对象边界框,然后裁剪和分割这些区域的方法,如Mask R-CNN所推广的那样在这项工作中,我们研究了密集滑动窗口实例分割的范例,这是令人惊讶的探索不足。我们的核心观察结果是,该任务与其他密集预测任务(如语义分割或边界框对象检测)基本不同,因为每个空间位置的输出本身就是一个具有自身空间维度的几何结构。 为了形式化这一点,我们将密集实例分割视为4D张量上的预测任务,并提出了一个名为TensorMask的通用框架,该框架明确捕获这种几何形状,并在4D张量上启用新的运算符。我们证明了张量视图导致了比忽略这种结构的基线更大的增益,并导致了与Mask R-CNN相当的结果这些有希望的结果表明,TensorMask可以作为密集掩模预测的新进展和更完整地理解任务的基础将提供代码。1. 介绍滑动窗口范例-通过查看放置在密集图像位置集上的每个窗口来-是计算机视觉中最早和最成功的概念之一[36,38,9,10],并且自然地连接到卷积网络[20]。然而,虽然当今这类方法主导了COCO检测挑战[24]。最近,避开细化步骤并专注于直接滑动窗口预处理的边界盒对象检测器被提出。图1.TensorMask的选定输出,我们提出的用于执行密集滑动窗口实例分割的框架。我们将密集实例分割视为结构化4D张量 的 预 测 任 务 。 除 了 获 得 有 竞 争 力 的 定 量 结 果 外 ,TensorMask还获得了定性合理的结果。观察小的和大的物体都被很好地描绘出来,并且更关键的重叠物体被正确地处理。例如,SSD [27]和RetinaNet [23]已经见证了复苏并显示出有希望的结果。相比之下,该领域在密集滑动窗口实例分割方面没有取得同等进展;没有类似于SSD /RetinaNet的用于掩模预测的直接、密集的方法。为什么密集的方法在盒子检测中蓬勃发展,但却完全缺失了例如分割?这是一个基本的科学问题。这项工作的目标是弥合这一差距,并为探索密集实例分割提供基础。我们的主要观点是,定义密集掩码表示的核心概念以及这些概念在神经网络中的有效不像边界框,其具有固定的低维表示而不管尺度如何,分割掩模可以受益于更丰富、更结构化的表示。例如,每个遮罩本身就是一个2D空间贴图,而用于较大对象的遮罩可以受益于使用较大的空间贴图。为密集掩码开发有效的表示是实现密集实例分割的关键一步。为了解决这个问题,我们定义了一组核心概念,用于用高维张量表示掩码,从而可以探索用于密集掩码预测的新型网络架构我们提出并实验了几个这样的网络,以证明亲的优点2061人人人人人人花瓶碗人人人 人人杯n人杯人杯人人叉杯人pers杯杯杯人人碗酒杯餐桌人人酒杯披萨蛋糕杯杯刀酒杯酒杯杯碗每碗杯20622k2k伞伞车人车人人火长 颈人人人人人长 颈火人人人玩滑 板人火人人人人人人人运 动 球滑 板铁铁运 动 球滑 板伞伞车车人人人火长 颈人人人人人长 颈火人人人人人火人人人人人人人运 动 球滑 板铁铁运 动 球滑 板滑 板图2.具有ResNet-101-FPN主干的TensorMask和Mask R-CNN [17]的示例结果(在与图1中使用的相同的图像Mask R-CNN[17])。结果是定量和定性相似,表明密集滑动窗口范例确实可以有效的实例分割任务。我们要求读者识别哪些结果是由TensorMask生成1提出的陈述。我们的框架,称为TensorMask,建立了第一个密集的滑动窗口实例分割系统,实现了接近Mask R-CNN的结果。TensorMask表示的中心思想是使用结构化的4D张量来表示空间域上的掩码。这种观点与先前关于分割类不可知对象程序的相关任务的工作形成对比,例如使用非结构化3D张量的DeepMask [31]和InstanceFCN [7]与表示对象位置的轴不同,通道轴不具有明确的几何意义,因此难以操纵。通过使用基本通道表示,人们错过了使用结构数组将掩模表示为2D实体的机会-类似于MLP和ConvNets [20]之间的差异,用于表示2D图像。与这些面向通道的方法不同,我们提出利用形状(V,U,H,W)的4D张量,其中表示对象位置的(H,W)和表示相对掩模位置的(V,U)都是几何子张量,即,它们的轴具有明确定义的单位和几何意义w.r. t。形象从在非结构化信道轴中编码掩码到使用结构化几何子张量的这种视角转变使得能够定义新颖的操作和网络架构。这些网络可以以几何上有意义的方式直接对(V,U)子张量进行操作,包括坐标变换、放大/缩小以及使用比例金字塔。通过TensorMask框架,我们在4D张量的标度索引列表上开发了一个金字塔结构,我们称之为张量双金字塔。类似于特征金字塔,它是位于多个位置的特征图列表尺度,张量双金字塔包含具有形状(2kV,2kU,1H,1W)的4D张量列表,其中k≥0索引尺度。这种结构在(H,W)和(V,U)几何子张量上都具有金字塔形状,但在相反的方向上生长。这种自然的设计抓住了理想的属性大的物体有高分辨率的面具,图12,Mask R-CNN结果在顶部; TensorMask结果在底部。空间定位(大k),并且小对象具有具有精细空间定位(小k)的低分辨率掩模。我们将这些组件组合成一个网络骨干和训练过程,紧密遵循RetinaNet [23],其中我们的密集掩码预测器扩展了原始的密集边界框预测器。通过详细的消融实验,我们评估了TensorMask框架的有效性最后,我们展示了TensorMask产生与其Mask R-CNN对应部分类似的结果1和2)。这些有希望的结果表明,该框架可以帮助铺平道路,为未来的密集滑动窗口实例分割的研究。2. 相关工作分类面具建议。现代实例分割任务是由Hariharan等人引入的。[15][24 ][25][26][27]在他们的工作中,为这项任务提出的方法涉及首先生成对象掩码建议[37,1],然后对这些建议进行分类[15]。在早期的工作中,分类掩码建议方法被用于其他任务。例如,选择性搜索[37]和原始的R-CNN [12]分类掩码建议,以获得框检测和语义分割结果;这些方法可以容易地应用于实例分割。这些早期方法依赖于由前深度学习时代方法[37,1]计算的自下而上的掩模提议;我们的工作与Deep-Mask [31]开创的用于掩模对象提议的密集滑动窗口方法更密切相关。我们将很快讨论这种联系。检测然后分段。目前,实例分割的主要范例涉及首先用框检测对象,然后使用框作为指导分割每个对象[8,39,21,17]。也许最成功的检测然后分割方法是Mask R-CNN [17],它用一个简单的掩码预测器扩展了Faster R-CNN [34]检测器。建立在Mask R-CNN [26,30,4]上的方法占据了排行榜最近的挑战[24,29,6]。与绑定框不同2063检测,其中滑动窗口[27,33,23]和基于区域的[11,34]方法都蓬勃发展,在实例分割领域,对密集滑动窗口方法的研究一直缺失。我们的工作旨在缩小这一差距。标记像素然后聚类。实例分割的第三类方法(例如,[3,19,2,25])建立在为语义分割[28,5]开发的模型上。这些方法用类别和一些辅助信息标记每个图像像素,聚类算法可以使用这些信息将像素分组为对象实例。这些方法受益于语义分割的改进,并原生地预测更大对象的更高分辨率掩码。与检测-然后-分割方法相比,标记-像素-然后-聚类方法在流行基准点的准确性方面落后[24,29,6]。TensorMask没有采用全卷积模型进行密集像素标记,而是探索了构建全卷积(即,密集滑动窗口)模型,用于密集掩模预测,其中每个空间位置处的输出本身是2D空间图。密集滑动窗口方法。据我们所知,没有任何先验方法可以用于密集滑动窗口实例分割。提出的TensorMask框架是第一个这样的方法。最接近的方法是用于类不可知掩码建议生成的相关任务,特别是DeepMask[31,32]和InstanceFCN [7]等模型,它们应用卷积神经网络以密集滑动窗口方式生成掩码建议与这些方法一样,TensorMask是一个密集的滑动窗口模型,但它跨越 了 一 个 更 具 表 现 力 的 设 计 空 间 。 DeepMask 和InstanceFCN可以自然地表示为类不可知的TensorMask模型,但TensorMask能够实现性能更好的新型架构。此外,与这些类不可知的方法不同,TensorMask执行多个3.1. 长度单位在我们的框架中,每个空间轴的长度单位(或简称单位)是理解4D张量的必要概念。直观地说,轴的单位定义了沿着它的一个像素不同的轴可以有不同的单位。H和W轴的单位,表示为σHW,可以是 设置为步幅w.r.t.输入图像(例如,ResNet- 50 [18]的res4具有σHW=16个图像像素)。类似地,V和U轴定义另一个2D空间域,并具有自己的单位,表示为σVU。沿着V或U轴移位一个像素对应于在输入图像上移位σVU个像素。单位σVU不需要等于单位σHW,这是我们的模型将受益的属性。定义单位是必要的,因为如果不指定单位,则张量形状(V,U,H,W)的解释是不明确的例如,(V,U)表示V×U窗口如果σVU=1个图像像素,则在图像像素中,但是2V×2U绕组-如果σVU=2个图像像素,则图像像素中的dow。 的单位以及它们如何因放大/缩小操作而变化是多尺度表示的核心(更多信息见第3.6节)。3.2. 自然表示通过单位的定义,我们可以形式化地描述(V,U,H,W)张量的表示意义在我们最简单的定义中,这个张量表示在(H,W)上滑动的窗口。我们称之为自然表征。将α=σVU/σHW表示为单位比,形式上我们有:自然表示:对于形状为(V,U,H,W)的4D张量,其在坐标(v,u,y,x)处的值表示以(y,x)为中心的αV×αU窗口中(y+αv,x+αu)处的掩码值。2这里(v,u,y,x)∈[−V,V)×[−U,U)×[0,H)×[0,W),22 22类分类与掩码预测并行,因此可以应用于实例分割的任务。3. 面具的张量表示TensorMask框架的中心思想是使用结构化的高维张量来表示图像内容(例如掩模)在一组密集滑动窗口中。考虑一个V×U窗口在一个宽度为W、高度为H的特征图上滑动。可以代表所有通过形状(C,H,W)的张量在所有滑动窗口位置中进行掩模,其中每个掩模通过C=V·U像素进行参数化这是DeepMask中使用的表示[31]。然而,这种表示的基本精神实际上是具有形状的高维(4D)张量(V,U,H,W)。子张量(V,U)将掩模表示为2D空间实体。张量视角支持几个重要概念,而不是将通道维度C视为一个黑盒子,其中安排了一个V×U遮罩用于表示密集掩模,下面讨论。其中“×”表示卡方积。从概念上讲,张量可以被认为是这个域中的连续函数。为了实现,我们必须将4D张量作为定义在采样位置上的离散函数。我们假设采样率为每单位一个采样,采样位于整数坐标(例如,如果U=3,则u∈{−1,0,1})。这个假设允许相同的值U以单位表示轴的长度(例如,3σVU)以及为轴存储的离散样本的数量这对于处理由离散且具有长度的神经网络产生的张量很方便。图3(左)示出了当V=U=3并且α为1时的示例。自然表示是直观的,并且很容易作为网络的输出进行解析,但它并不是深度网络中唯一可能的表示,如下所述。2推导:在输入图像像素上,滑动窗口的中心是(y·σHW,x·σHW ) , 并 且 位 于 w.r.t. 该 窗 口 为 ( y·σHW+v·σVU ,x·σHW+u·σVU)。投影到HW域(即,用单位σHW归一 化)给出(y,x)和(y+αv,x+αu)。2064U(v,u)(y+v,x+u)=(y−1,x−1)VV、U(y−v,y−u)V,U为简单起见,我们假设两种表示中的单位相同:即, σHW=σHW,且σV U=σV U,因此α=α(对于更一般的情况,参见§A.1)。比较自然与自然的定义。对齐表示,我们有以下两个关系x,u:x+αu=xx=x<$−α<$u<$。 当α=α时,解出x和ug的方程:x=x+αu和u=u。类似的结果也适用于y,v。因此,从对齐表示(F)自然表示(F)的值为:=(−1,−1)W(y,x)H(v,u)=(−1,−1)W=(y+1,x+1)HF(v,u,y,x)=F<$(v,u,y+αv,x+αu).(1)我们称这个变换为align2nat。同样,解决这个问题图3.左:自然表示。像素处的(V,U)子张量表示以该像素为中心的窗口右:对齐的表示。在pixel处的(V,U)子张量表示值在这个像素在每个窗口重叠它。3.3. 对齐表示在自然表示中,位于(y,x)处的子张量(V,U)表示偏移像素(y+αv,x+αu)处的值,而不是直接在(y,x)处。当使用卷积计算特征时,保持输入像素和预测输出像素之间的像素到像素对齐可能导致改进(这类似于RoIAlign的动机[17])。接下来,我们描述了张量视角下的密集掩模的像素对齐表示。形式上,我们将对齐表示定义为:对齐表示:F或4D张量(V,U,H,W),其在坐标(v,u,y,x)处的值表示以(y− αv,x− αu)为中心的αV × α U窗口中(y,x)处的掩码值。α=σV U/σHW是对齐表示中的单位比。在这里,在pix el(y(,x())处的子张量(V( ,U()是表示在该像素处取得的值,即,它是对齐的。子空间(V,U)不表示单个掩码,但在-x和u的两个关系的集合给出了nat2align的逆变换:F(v,u,y,x)=F(v,u,y−αv,x−αu). 虽然在这项工作中提出的所有模型都只使用2012年,我们提出这两种情况下的完整性。在没有对α的限制的情况下,这些变换可以涉及在非整数坐标处索引张量,例如如果x+αu不是整数。由于我们在实现中只允许整数坐标,因此我们采用一个简单的策略:当调用op align2nat时,我们确保α是正整数。我们可以通过使用放大/缩小操作来改变单位来满足对α的约束,如下所述。3.5. 升级转换对齐表示允许使用粗糙的(V,U)子张量来创建更精细的(V,U)子张量,这被 证明是非常有用的。图4说明了这种转换,我们称之为“2nat”,并在下面进行描述upalign2natop接受(V,U,H,W)张量作为输入。(V,U)子张量比所需输出粗λ×(因此其单位大λ×)。它在(V,U)域中执行双线性上采样(上双线性)λ,将底层单位减少λ×。接下来,该函数将输出转换为自然表示。的stead枚举所有V·U中的掩码值的窗户图1中显示了满载的Nat 20004.第一章overerlappi x el(y,x).F i g. 图3(右)示出了当V=U=3(九个重叠风)且α为1时的示例。注意,我们将对齐表示中的张量表示为(V,U,H,W)(对于坐标/单位也是如此)。这符合“命名张量”的精神我们的对齐表示与InstanceFCN [7]中提出的实例敏感得分图相关。我们证明(在§ A.2中)这些分数图的行为与我们的对齐表示相似,但在(V,U)上具有最近邻插值,这使得它们不对齐。我们测试实验,并表明它严重降低结果。3.4.坐标变换我们引入了自然和对齐表示之间的坐标变换,因此它们可以在单个网络中互换使用。这为我们设计新型网络架构提供了额外的灵活性。2065正如我们的实验所证明的那样,OP对于生成高分辨率掩模是有效的,而不会增加先前特征图中的通道计数。这进而实现了新颖的架构,如接下来所描述的。3.6. 张量双锥在多尺度框检测中,通常的做法是使用较低分辨率的特征图来提取较大尺度的对象[10,22]-这是因为较低分辨率图上的固定大小这也适用于多尺度掩模检测。然而,与总是由四个数字表示而不管其比例的盒子不同,遮罩的像素大小必须随对象大小缩放,以保持恒定的分辨率密度。因此,而不是总是使用V×U单元来表示不同尺度的掩模,我们提出根据尺度来调整掩模像素的数量。2066HWσVU=λsσHW=sU=sσHW=sσVU=sσHW=sσVU=λsσW=sσVU=sσHW=sσVU=sσHW=λsup_bilinear 2nat图4.up_nat_op被定义为两个op的序列它采用一个输入张量,该张量对V <$U <$具有粗糙的λ×较低分辨率(因此单位σ<$VU是λ× lar ger)。运算器对VU执行上采样,上采样量为λ,然后是λ 2nat,结果为输出,其中σ VU =σ HW =s(其中s是步幅)。up_align2nat子样本图5. 交换操作符2natop由两个op定义。它将输入放大2nat(图4),然后在HW域上执行子采样。注意操作如何在V U和HW域之间交换单元。在实践中,我们在适当的位置实现了这个操作,因此复杂度与λ无关。考虑最精细级别的特征图上的自然表示(V,U,H,W)。这里,(H,W)域具有最高分辨率(最小单位)。我们期望这个级别处理最小的对象,因此(V,U)域应该具有最低的分辨率。参考此,我们构建了逐渐减少(H,W)和增加(V,U)的金字塔。形式上,我们将张量双金字塔定义为:张量双锥:张量双金字塔是一个形状张量列表:(2kV,2kU,1H,1W),其中k=0,1,2,. . . ,与(a) 简单自然(b) 简单对齐(c) 高档天然(d) 高档对齐conv+reshapeconv+reshapeconv+reshapeconv+reshape2nat上双线性2019- 02 - 222k 2k图6. 基线掩模预测头: 四个单位σk+1=σk和σk+1= 2σk,pk10。VU VU HW HW因为单位σk在所有水平上都是相同的,k kVU所示的头部从特征图开始(例如,从一个FPN [22])与任意信道号C。然后进行1×1转换层将特征投影到适当数量的通道中,其通过整形形成指定的4D张量。输出单元2V×2U掩模在输入图像中具有4k×更多像素。在(H,W)域,因为单位σk随着k增加,这四个头的值是相同的,并且σVU=σHW。如所期望的,对于较大的掩模,预测掩模的数量减少。请注意,每个级别的总大小是相同的( 它是V·U·H·W)。张量双金字塔可以使用下面描述的交换矩阵2nat操作来构造这种交换方法由两个步骤组成首先,输入张量,其中细(H,W)和粗(V,U)4.1. 掩模预测头我们的掩码预测分支连接到卷积主干。我们使用FPN [22],它生成一个具有固定数量大小(C,1H,1W)2k 2k使用最多12nat将其放大到(2kV,2kU,H,W)。然后对(H,W)进行二次采样以获得最终形状。向上对齐2nat和子样本的组合,如图所示。5,被称为交换单元2nat:该操作之前和之后的单元被交换。为了效率,没有必要从上到下计算形状的中间张量(2kV,2kU,H,W),这将是禁止的。这是因为在子采样之后,该中间张量中的值的仅一小部分出现在最终输出虽然Fig.5显示了概念计算,在实践中,我们将swap align2nat实现为单个操作,该操作仅执行必要的计算,并且具有O(V·U·H ·W)的复杂性,不需要k。4. TensorMask架构我们现在展示由TensorMask表示启用的模型。这些模型具有在滑动窗口中生成掩码的掩码预测头和预测对象类别的分类头,类似于滑动窗口对象检测器中的框回归和分类头[27,23]。Box预测对于TensorMask模型不是必需的,但可以很容易地包含在内。每级k的信道C的误码率。 这些映射用作每个预测头的输入:掩码、类和框。头的权重在级别之间共享,但不在任务之间共享。输出表示。我们总是使用自然表示(§3.2)作为网络的输出格式。任何表示(自然、对齐等)可以在中间层中使用,但它将被转换为输出的自然表示。这种标准化将损耗定义与网络设计分离,使不同表示的使用更简单。此外,我们的掩码输出是类不可知的,即窗口总是预测单个掩码,而不管类别;掩码的类别由分类头预测。类不可知掩码预测避免将输出大小乘以类的数量底线人头。我们考虑一组四个基线头,如图所示。六、每个头部接受任何(H,W)的形状(C,H,W)的输入特征图。然后,它应用具有适当数量的输出通道的1×1卷积层(使用ReLU),以便将其重塑为4D 张 量 为 下 一 层 产 生 期 望 的 形 状 , 表 示 为“conv+reshape”。图6a和6b是使用自然和对齐表示的简单头部V、U、H、WλV, λU,H,WλV,λU,H,WV、U、H、WλV,λU,H,W11λV,λU,H,WλλC、H、WV、U、H、WC、H、WV、U、H、WV、U、H、WC、H、W11VU、H、WλλV、U、H、WC、H、W1ˆ 1ˆ ˆ ˆVU、H、WλλV、U、H、W2067σVU=sσHW= 2 s任意基线水头σVU= 4sσHW= 4sσVU= 2sσHW= 2sσVU=sσHW=s11C、4H、4W1 14×向上conv1 1+C、H、W4V、 4U、4H、4W2×上转换1 1+C、H、W2V、 2U、2H、2WconvC、H、WC、H、WV、U、H、W图8.从(C,1H,1W)转换FPN特征图(a) 特征金字塔2k2kswap_b2nat头到(C,H,W),用于张量双金字塔(见图2)。7b)。 为FPN水平(C,1小时,1W),我们将双线性插值应用于2k2k(b) 张量双锥σHW= 4sσVU=sσHW=s将特征图上采样2k倍。由于升级可能很大,我们将最精细的级别特征映射添加到所有级别(包括最精细的级别本身),然后使用ReLU进行一个3×3conv。在风的一侧,即max(U·σV U,V·σV U)。3(ii) 中心性:m的边界框的中心图7.概念比较:(a)具有任何一个基线头部的特征金字塔(图12)。6)附加,以及(b)使用交换矩阵2nat的张量双金字塔(图5)。特征金字塔上的基线头部对于每个级别具有σVU=σHW,这意味着用于大对象和小对象的掩模是使用相同数量的像素进行预测。另一方面,交换光掩模头可以保持高的掩模分辨率(即,尽管硬件分辨率发生变化,但各级别的σ VU相同。外观方面在这两种情况下,我们使用V·U输出通道进行1×1conv,在后一种情况下使用align2nat图6c和图6d分别是使用自然表示和对齐表示的放大头。它们的1×1conv的输出通道比简单磁头少λ2倍在基线TensorMask模型中,选择这四个头部中的一个并将其附加到所有FPN级别。输出形成(V,U,1H,1W)的金字塔,参见图7a。对于每个头,窗口中心的一个单位(σVU),单位为λ2距离。(iii) 唯一性:不存在满足其他两个条件的其他掩码m′i=m如果m满足这三个条件,则窗口被标记为正例,其地面真值掩码、对象类别和框由m给出。否则,该窗口将被标记为反面示例。与用于滑动窗口检测器中的框的基于IoU的分配规则(例如RPN [34],SSD [27],RetinaNet [23]),我们的规则是掩码驱动的。实验表明,我们的规则工作良好,甚至当只使用1或2个窗口大小与一个单一的纵横比为1:1,与,例如RetinaNet损失对于掩模预测头,我们采用了每像素的二进制分类损失。在我们的设置中,滑动窗口内的地面实况遮罩通常有很宽的边缘,导致前景与背景之间的不平衡。背景输出滑动窗口始终具有与其滑动的特征图相同的单位:所有水平的σVU=σHW。张量双锥头。与基线头部不同,张量双金字塔头部(§3.6)接受所有级别的精细分辨率(H,W)的特征图。图8示出了FPN的微小修改以获得这些图。 对于每个结果级别,现在都是(C,H,W),我们首先使用conv+reshape来产生适当的4D张量,然后使用swap_repeat 2nat运行掩码预测头,参见图7b。张量 双 金 字 塔 模 型 是 本 工 作 中 探 索 的 最 有 效 的TensorMask变体。4.2. 培训标签分配。我们使用DeepMask分配规则[31]的一个版本来标记每个窗口。一个窗口满足三个条件w.r.t.地面实况掩模m是正的:(i) 遏制:窗口完全包含m,并且m的长边(以图像像素为单位)至少是长边的1/2像素为了解决这种不平衡,我们为前景像素为1。5在二进制交叉熵损失。窗口的掩模损失在窗口中的所有像素上被平均(注意,在张量双金字塔中,窗口大小跨级别变化),并且总掩模损失在所有正窗口上被平均(负窗口不对掩模损失有贡献)。对于分类头,我们再次采用γ=3和α=0的FL。3 .第三章。对于箱回归,我们使用无参数的101损失。总损失是所有任务损失的加权和。实作详细数据。我们的FPN实现严格遵循[23];每个FPN级别由四个3×3Conv层的C通道与ReLU输出(而不是原始FPN中的一个Conv[22])。 和头一样,重量也是共享的跨级别,但不是任务之间。此外,我们发现平均(而不是求和[22])FPN中的自上而下和横向连接提高了训练稳定性。我们3使用回退来提高小对象的召回率:小于最小可分配尺寸的掩码被分配给最小尺寸的窗口。1 1C、H、W4V、 4U、4H、4W1 1C、H、W2V、 2U、2H、2W1 1C、4H、1 1V、U、4H、C、H、WV、U、H、W1 1C、2H、1 1V、U、2H、C、H、WV、U、H、WσVU= s2068λ2头APAP50AP75APSAPMAPL自然28.552.228.614.430.240.1对齐28.952.529.314.630.840.7表1.简单的头:自然vs.对齐(图6avs.6b)与V×U=15×15,如果不使用升频,则执行降频。图9. 基线放大股骨头(λ=5)。上图:自然放大头部(a)产生粗糙的掩模,并且对于大λ无效。左:对于简单场景,未对齐的头部(b)和对齐的头部(c)(分别使用最近邻插值和双线性插值)的行为类似。右:对于重叠对象,差异是惊人的:未对准的磁头产生严重的伪像。使用FPN级别2到7(k=0,. . . ,5),其中C=128个通道用于掩码和盒分支中的四个卷积层,并且C=256(与RetinaNet [23]相同)用于分类分支。除非另有说明,否则我们使用ResNet-50 [18]。对于训练,所有模型都从ImageNet预训练的权重初始化。我们使用缩放抖动,其中较短的图像侧从[640,800]像素中随机采样[16]。继SSD [27]和YOLO[33]之后,比[23,17]更长(1065和160个minibatch大小为8个GPU中的16个图像 基本学习率为0。02,具有1k次迭代的线性预热[14]。其他超参数与[13]相同。4.3. 推理推理类似于密集滑动窗口对象检测器。对于较短的图像侧,我们使用800像素的单个比例。我们的模型为每个滑动窗口输出一个掩码预测,一个类得分和一个预测框。根据[22]中的设置,使用回归框上的框IoU将非最大抑制(NMS)应用于最高得分预测。为了将预测的软掩码转换为原始图像分辨率的二进制掩码,我们使用与Mask R-CNN相同的方法和超参数[17]。5. 实验我们报告了COCO实例分割的结果[24]。所有模型都在118ktrain2017图像并在5kval2017图像上进行了测试。最终结果正在测试开发中。我们使用COCO掩模平均精度(由AP表示)。当报告框AP时,我们将其表示为APbb。5.1. TensorMask表示首先,我们探索使用V=U=15和ResNet-50-FPN主干的掩码的各种张量表示我们将定量结果报告在表1中。图2中示出了定性比较,图3中示出了定性2和9。头脑简单。选项卡. 1比较自然vs.具有简单头部的对齐表示(图6 a vs. (见第6段b)。两种代表的表现相似,边际差距为0.4 AP。简单的自然头部可以被认为是DeepMask [31]的类别特定变体,具有FPN骨干[22]和焦点损失[23]。由于我们的目标是使用较低分辨率的中间表示,我们接下来将探索升级头部。升级头。选项卡. 2a比较自然vs.与放大头对齐的代表(图6 c vs. 6d)。输出尺寸固定为V×U=15×15。给定放大因子λ,图6中的conv具有1V U通道,例如,9个通道,λ=5(vs. 225个信道(如果没有升级)。对于大的λ,准确度的差异很大:当λ=5时,对齐的变体比自然头部(48%相对)提高了AP+9.2。视觉上的差异在图中很明显。9 a(自然)vs. 9c(对齐)。高档对准的头部仍然产生具有大λ的尖锐掩模。这对于张量双金字塔至关重要2kV×2kU的输出,这是实现的具有较大的放大因子λ=2k(例如,32);见图。五、插值。张量vi_e将(V_ ,U_)子张量表示为可以操纵的2D空间实体。选项卡. 2b比较了高档对齐股骨头与双线性股骨头(de fault)vs. 在(V_i ,U_i )上的最近邻插值。我们将后一种变体称为未对齐的,因为量化破坏了像素到像素的对齐。未对齐的变体与InstanceFCN [7]相关(参见第A.2节)。我们在Tab中观察。2b,双线性插值比最近邻插值产生可靠的改进,特别是如果λ很大(ΔAP=3.1)。当物体重叠时,这些插值方法会导致惊人的视觉差异:见图。9 b(不结盟)与9c(对齐)。张量双锥用张量双金字塔替换最佳特征金字塔模型,可大幅改善5.1 AP(表1)。第2c段)。这里,在k=0级,掩模尺寸为V×U=15×15,在k=5级,掩模尺寸为32V×32U=480×480;见图。7b. 高分辨率掩模预测为大对象(例如, 在k=5时)具有明显的益处:AP L跳跃铁人人铁联 系 人人人人人人人人人人人人人人人斑 马人人人人人人人斑 马人人人人人人人联 系人人人人人人联 系人铁铁铁人人人联 系 人人人人人人人人人人人人网 球 拍斑 马人人人人人斑 马人person人人人人人人人联 系人人人人人人铁人人铁人铁铁人人人人人人人人人人人人人人人人斑 马人人人人人斑 马人人人人人人人人网 球 拍联 系人person人人人人(c)对齐(a)自然(b)未对齐(nn)2069λ2头λAPAP50AP75∆对齐-自然自然1.528.051.727.8+0.9+0.7+1.5对齐28.952.429.3自然324.748.422.7+4.1+3.9+6.4对齐28.852.329.1自然519.242.115.6+9.2+9.7+13.0对齐28.451.828.6头λAPAP50AP75双线性最接近最近1.528.652.129.0+0.3+0.3+0.3双线性28.952.429.3最近327.851.028.0+1.0+1.3+1.1双线性28.852.329.1最近525.347.625.0+3.1+4.2+3.6双线性28.451.828.6(a)按比例增加的人头:自然人头与对齐的头部(图6 c vs.6d)。V×U=15×15输出放大λ×:conv+reshape使用1V U输出通道作为输入。当λ较大时,对齐表示比其自然对应物具有较大的增益。头APAP50AP75APSAPMAPL特征金字塔,最佳28.952.529.314.630.840.7张量双锥34.055.235.815.336.348.4∆+5.1+2.7+6.5+0.7+5.5+7.7(c)与最佳基线头部相比,张量双锥大大改善了结果(Tab. 2a,行2)上的特征金字塔(图2a)。7a)。(b)升级:双线性与最近邻插值对齐的头部(图6 d)。输出为V×U=15×15 。 使 用 最 近 邻 插 值 , 对 齐 的 放 大 头 类 似 于InstanceFCN [7]头。当λ较大时,双线性插值显示出较大的增益。V×UAPAP50AP75APSAPMAPL15×1534.055.235.815.336.348.415×15、11×1135.256.437.017.437.449.7∆+1.2+1.2+1.2+2.1+1.1+1.3(d)窗口大小:从一个V×U窗口大小(每级)扩展到两个,增加了所有AP指标。两行都使用张量双金字塔。表2.COCOval2017上TensorMask表示的消融。所有变体都使用ResNet-50-FPN和72 epoch时间表。方法骨干Aug历元APAP50AP75APSAPMAPLMask R-CNN [13]R-50-FPN2434.957.236.915.436.650.8面具R-CNN,我们的R-50-FPN2434.956.836.815.136.750.6面具R-CNN,我们的R-50-FPNC7236.859.239.317.138.752.1TensorMaskR-50-FPNC7235.457.237.316.336.849.3面具R-CNN,我们的R-101-FPNC7238.361.240.818.240.654.1TensorMaskR-101-FPNC7237.159.339.417.439.151.6表3.与Mask R-CNN的比较,例如COCOtest-dev上的分割。7.7分。这种改进不会以更密集的窗口为代价,因为k=5的输出是(H,W)分辨率。建立了一个公平和坚实的比较基线。Tab中最好的TensorMask 2d达到35.4掩模AP32 32我们再次注意到,480双通道转换器使用双线性插值的放大对齐头部是使张量双金字塔成为可能的关键。多种窗口尺寸。到目前为止,我们已经为所有模型使用了单个窗口大小(每级),即,V×U=15×15。类似于RPN [34]中锚的概念,其也用于电流检测器[33,27,23],我们将我们的方法扩展到多个窗口大小。 我们设置V×U∈{15×15,11×11},导致每个级别有两个头。选项卡. 2d显示了具有两个窗口大小的好处:AP增加1.2点更多的窗口尺寸和纵横比是可能的,这表明还有改进的余地。5.2. 与Mask R CNN的比较选项卡. 3总结了test-dev上最好的TensorMask模型,并将其与当前COCO实例分割的主要方法进行了比较:Mask R- CNN [17].我们使用Detectron[13]代码来反映自[17]发表以来的改进。我们修改它以匹配我们的实现细节(FPN平均融合、1k预热和 1盒丢失)。选项卡. 3行1 2版本-说明这些细微之处的影响可以忽略不计。然后,我们使用训练时间尺度增强和更长的时间表[16],这会产生102 AP的增加(表1)。3行3)和在test-dev上(选项卡3行4),接近掩模R-CNN计数 器 使 用 ResNet-101 , TensorMask 实 现 了 37.1 掩 码AP,在Mask R-CNN后面有1.2 AP间隙。这些结果表明,密集滑动窗口方法可以缩小与“检测然后分割”系统的差距定性结果示于图1A和1B中。2、10和11。我们在§A.3中报告了TensorMask的框AP。 此外,与Mask R-CNN相比,TensorMask的一个有趣的特性是掩码独立于盒子。事实上,我们发现盒子和掩码的联合训练只会比仅使用掩码的训练带来边际增益,参见§A.4。速度方面,最好的R-101-FPN TensorMask在V100GPU上的运行速度为0.38秒/分(包括所有后处理),而 屏 蔽 R-CNN 的 0.09s/im 。 在 密 集 的 滑 动 窗 口(>100k)中预测掩码会导致计算开销,而不是。在≤ 100个最终框上屏蔽R-CNN加速是可能的,但超出了本工作的范围。结论TensorMask是一个密集的滑动窗口实例分割框架,它第一次在定性和定量上实现了接近成熟的MaskR-CNN框架的结果。它建立了一个概念上互补的方向,例如分割研究。我们希望我们的工作将创造新的机会,使两个方向蓬勃发展。2070引用[1] 巴勃罗·阿贝·拉伊兹、乔迪·蓬-图塞特、乔纳森·T·巴伦、费 兰·马克斯和吉滕德拉·马利克.多尺度组合分组CVPR,2014。2[2] Anurag Arnab和Philip HS Torr。使用动态实例化网络的逐像素实例分段。在CVPR,2017年。3[3] 白敏和拉奎尔·乌塔孙用于实例分割的深分水岭变换。在CVPR,201
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功