基于时空图神经网络的视频实例分割

48 浏览量更新于2023-10-13 收藏 1.65MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10797检测节点特征图特征融合分割边缘特征跟踪基于时空图神经网络的端到端视频实例分割王涛1，徐宁2，陈克安1，林伟耀1*1上海交通大学，中国上海2Adobe Research†，San Jose，USAwangtao1111@sjtu.edu.cn，nxu@adobe.com，ckadashuaige@sjtu.edu.cn，wylin@sjtu.edu.cn摘要视频实例分割是将图像实例分割扩展到视频域的具有挑战性的任务。(a) 现有方法检测分割协会现有的方法要么只依赖于单帧信息的检测和分割子问题或汉检测分割DLE跟踪作为单独的后处理步骤，这限制了他们的能力，充分利用和共享有用的时空信息的所有子问题。在本文中，我们提出了一种新的基于图神经网络（GNN）具体地，表示实例特征的图节点用于检测和分割，而表示实例关系的图边缘用于跟踪。帧内和帧内信息都通过图更新和所有子问题（即，子问题）有效地传播和共享。检测、分割和跟踪）在统一的框架中被联合优化。与现有方法相比，我们的方法在YoutubeVIS验证数据集上的性能有了很大的提高，并在ResNet-50主干上实现了36.5%的AP，以22 FPS运行1. 介绍视频实例分割（VIS）是计算机视觉中一项具有挑战性的基础性任务。在图像域中，实例分割需要同时检测和分割对象实例[10]，而在时域中，视频实例分割[32]更具挑战性，因为它还需要在整个视频中准确跟踪对象。现有的VIS方法通常采用两种不同的策略来处理实例跟踪任务。第一个策略是采用检测跟踪框架，该框架*通讯作者，电子邮件：wylin@sjtu.edu.cn†本论文部分得到以下资助：国家重点研究发展计划项目（编号： 2018AAA0100400 ）、国家自然科学基金项目（编号：2018AAA0100400）61971277）和Adobe Gift Funding。(b) 我们的方法历史实例图1.现有方法与本文方法的比较。(a)大多数现有方法单独解决VIS子问题，忽略了时间特征融合。(b)在我们的方法中，我们使用图神经网络模型的实例级关系和融合时空特征。同时，检测，分割和跟踪结果的联合预测的基础上的图形特征。首先用复杂的图像实例分割模型逐帧预测候选检测和分割，然后通过分类或重新识别将这些候选相关联以生成掩码序列[5，18，32]，如图1（a）所示。其性能在很大程度上依赖于图像级实例分割的质量另一种策略是通过将实例掩码从中心帧传播到整个视频剪辑来预测剪辑级实例掩码，并合并这些剪辑级序列以生成视频级结果[2]。这种传播过程通常依赖于一些启发式算法，因此需要大量的后处理和细化操作此外，这两种策略都有一个共同的局限性，即它们的跟踪是与检测和分割模块分开的步骤，禁止在不同任务之间共享有用的信息。例如，一个新...10798与类预测标签为“dog”的现有序列相关联的被检测实例反之亦然，改进的检测和分割也应该有助于改进跟踪。然而，现有方法不能容易地利用这些益处。现有方法的另一个常见限制是它们忽略帧间和帧内实例关系信息。帧间实例关系是指不同帧的实例之间的关系，而帧内实例关系是指同一帧内的实例之间的关系。这种帧间和帧内关系通常包含丰富的时空信息，这对所有VIS任务都是有用的。然而，许多现有的方法直接检测和分割单帧特征的实例。它们[2，5，18，32]还独立地将每个新候选与现有实例序列相关联和跟踪，而不具有来自其他候选实例的全局视图。一些最近的方法[1，2]已经注意到这个问题，但是它们直接在整个帧级融合来自相邻帧的特征，这可能导致不准确的信息传播，从而负面地影响此外，它们仅利用这样的信息用于检测和分割，但不用于跟踪。我们认为，在不同的子任务之间共享信息和提取帧间和帧内信息对于VIS任务是至关重要的。因此，在本文中，我们提出了一个新的框架，以实现这两点在同一时间，如图1（b）所示。给定一对参考框架和目标框架，该方法首先建立一个图神经网络（GNN）来连接这两个框架，其中节点表示实例候选，而边表示实例关系。然后，时空特征可以通过图消息传递获得。我们的检测和分割分支受到最近的无锚图像检测和分割方法[36，22]的启发，利用更新的节点特征来预测目标帧的检测和分割。而跟踪分支将更新的边缘特征作为输入并执行二进制分类以预测关联。通过迭代GNN更新，包含在图边缘中的跟踪信息和包含在图节点中的检测/分割我们的模型是端到端训练的，在推理过程中，它是applied迭代对连续帧，以获得检测，分割和跟踪结果的同时。我们的方法的另一个新颖之处是分割分支。鉴于GNN特征是高级别的，可能不包含足够的形状信息，这些信息对掩模预测更有用，我们提出了一种新的掩模信息传播模块来扭曲低级别的信息。将参考帧的站立形状特征转换为目标帧。通过结合目标帧的变形特征和形状特征，我们的掩模预测头可以达到更好的分割效果。我们在YoutubeVIS数据集上训练和评估了我们的方法，我们的ResNet-50主干模型达到了36。5%AP，优于大多数现有方法。我们的方法也非常有效，因为它的统一框架，以22 FPS的速度运行。总之，我们的方法有四个主要贡献：• 我们提出了一种新的和有效的GNN为基础的框架工作VIS同时检测，分割和关联的实例。• 我们建议通过GNN中的特征聚合来利用帧间和帧内特征，这被证明对所有VIS子任务都是有效的。• 我们提出了一个掩模信息传播模块来融合历史形状信息，以获得更准确的掩模预测。• 我们在基准数据集上评估了我们的方法，并与现有方法相比取得了有竞争力的结果我们的论文的其余部分组织如下。在第二节中，我们简要介绍了相关的任务，并说明我们的方法和现有的VIS方法之间的在第3节中，我们详细描述了我们的方法。实验结果在第4节中给出，我们在第5节中总结论文。2. 相关工作图像实例分割：实例分割的目的是将像素分组到不同的对象实例中，以获得对象的类、分割掩码和唯一标识[10]。大多数实例分割方法可以分为两阶段方法和一阶段方法。两阶段方法总是首先生成检测边界框，并在这些框上预测掩码。Mask R-CNN [11]仍然是图像实例分割和视频实例分割中最广泛使用的两阶段框架，其通过区域建议网络生成对象建议，并使用两个单独的分支来预测从特征图上的建议区域获得的ROI特征上的边界框和分割掩模。Mask Scoring R-CNN [13]设计了一个MaskIOU分支来评估掩码的准确性，而不是直接使用Mask R-CNN中的PANet [25]使用自底向上的路径增强、自适应特征池化和全连接融合来提高分割的准确性。在一阶段实例分割方法中，掩模是从图像直接预测的，而不生成大的10799k中的框实例特征作物实例级关系建模与特征融合L迭代I背骨图形功能更新我回来骨变平……融合节点功能……边缘特征掩码信息传播扭曲的历史掩模信息分割模块检测模块节点类边缘分类器跟踪结果……帧k中的实例敏感历史掩码信息传播关节跟踪和分割分割结果图2.我们的框架概述给定参考帧Ik和目标帧It，我们的方法首先在两个帧之间构建图，并执行消息传递以获得目标帧的聚合时空特征，其在红框中示出然后，我们的方法基于图节点特征预测目标帧的检测和分割结果，并基于图边缘特征预测跟踪关联，如蓝色框所示。此外，我们的分割分支具有掩模信息传播模块（在黑框中示出），以将参考帧的实例形状信息传播到目标帧，这可以提高分割精度。所有的模块都是端到端训练的，我们的方法在一个统一的框架中处理VIS检测、分割和跟踪。各个模块的详细结构请参见图3和图4。首先是提案数量。PolarMask [30]使用16条光线来表示掩模，并将这些表示添加到FCOS [23]框架上以实现实例分割。CondInst [22]将条件卷积引入FCOS，并使用动态实例敏感卷积滤波器来表示掩码。YOLACT [3]使用一组模板和系数来表示掩码，并设计了一个完全卷积的网络来预测它们。视频实例分割：视频实例分割任务比视频对象分割[16]更具挑战性，视频对象分割需要对每个帧中的实例进行分类和分割，并跨帧链接相同的实例[32]。它可以应用于许多其他计算机视觉领域，包括人类行为分析[17]和对象位置估计[34]。基线方法Mask-Track R-CNN [32]在MaskR-CNN [11]上添加嵌入分支，并使用历史实例特征队列来关联跨帧的实例掩码。Maskprop[2] propa- gates前面帧中的遮罩，以预测它们在后面帧中的位置和形状VisTR [27]引入了变换器，并使用对编码特征的查询来从视频剪辑中获取实例序列SipMask [5]设计了一种新的图像实例分割方法，并使用与MaskTrack R-CNN [32]相同的关联策略来链接跨帧的实例掩码STEM-Seg [1]模型视频剪辑作为三维时空体，并通过基于时空嵌入的像素聚类生成实例序列。我们发现这些方法大多是对每个实例分别进行跟踪和分割，没有提取和利用实例间的关系信息，而我们的方法利用图神经网络提取的实例级关系来指导特征融合，在一个框架内学习联合检测、分割和跟踪，不仅效率更高，而且可以提高所有VIS子问题的精度。用于关系和跟踪的图形神经网络：图神经网络首先被提出来使用神经网络处理具有图结构的数据[9]。在GNN中，构造具有彼此相关的节点和边的图，并且基于关系更新节点和边上的特征。GNN已被用于目标检测和多目标跟踪中，以提高精度。在对象检测中，GNN通常用于融合相关对象或建议的特征，以提高检测准确性[26，6，21，31]。对于MOT，大多数方法使用GNN [4，14，15，28]将数据关联公式化为边缘分类问题，其中每个节点表示对象的检测或序列，并且每个边缘表示检测和序列之间的相似性。在基于对象的节点特征和边特征聚合之后10800…………我E∈RIJE∈R×KKKKKK不不不不不不我J--------关系，最终的关联结果可以通过对边缘进行分类来获得。然而，在MOT中，跟踪通常是而在我们的方法中，利用图来融合时空特征，这不仅对跟踪有用，而且对检测和分割等其他任务也有用。3. 方法为了在统一的框架中同时检测、分割和关联实例，并利用有用的帧间和帧内特征，我们引入GNN来对实例级关系进行建模。具体地，当前帧的特征图经由GNN与先前帧的实例特征聚合（第二节）。[26]。在图卷积和更新的一些迭代之后，当前帧的聚合节点特征将用于预测检测（第二节）。3.3)和分割结果（Sec.3.4），而边缘特征将用于预测跟踪结果（第3.4节）。3.5）。此外，为了更好地利用前一帧的掩模预测，我们引入了另一个新颖的模块（Sec.3.4)以将前一帧的实例敏感掩码滤波器扭曲到当前帧，以获得更精确的掩码预测。我们的方法的整个框架如图2所示。3.1. 问题定义在训练期间，给定在时间k，t处的视频的一对帧Ik和It，以及在k处的包括被表示为Bk=B1，B2，…和表示为Mk=M1，M2，… 其中m是现有实例的数量，我们的目标是获得帧t处的实例候选的集合，其中检测为Bt=B1，B2，…Bn和掩码Mt=M1，M2，…其中n是可以不同于m的新实例的数量。此外，我们需要将n个实例分配给现有的m个实例序列，或者将不匹配的候选者初始化为新的实例序列。在推理过程中，我们对上述过程进行了边缘特征跟踪跟踪结果边缘修剪边缘分类器类别检测高×宽×宽历史掩码信息节点特征Reshape整形��（HW）×D……渠道缩减掩模+传播实例过滤器参数分配位置编码Concat分割分割结果动态面罩头控制器负责人长方体偏移高度区域头图3.我们的检测，分割和跟踪分支的详细结构Ft.此外，我们还希望同步预测跟踪结果。所有目标都是通过GNN实现的，GNN解释如下。图的构造：我们的图G（V，E）由一个节点集V和一个边集E组成。节点定义对于帧k和t是不同的，因为在帧k处我们已经知道实例候选，而在帧t处我们不知道因此，对于帧k，我们将每个实例候选定义为节点。节点特征被定义为ROIAlign [11]对Fk的裁剪特征，并进一步下采样和平坦化为一个D维特征向量（如图2所示）2）的情况。对于帧t，受诸如CenterNet [36]的无锚图像检测方法的启发，我们将Ft的每个像素位置（x，y）定义为节点，并且将Ft（x，y）D定义为其节点特征。尽管定义不同，我们用hv表示特征在成对的连续帧上（即，It-1和It），以获得整个视频序列的预测我们的方法是在集合V中的节点i。集合E中的边eij表示无向连接。也能够处理现有实例的情况。节点i和j以及he之间的关系表示边特征序列在帧I t-1被遮挡，但在帧I t重新出现，其被初始化为|h v− h v|. 我们的图是稀疏一致的-这将在第二节中详细说明。三点六3.2. 基于GNN的时空特征融合与图像不同，视频包含跨不同帧和不同空间位置的丰富信息。给定特征图F k，F tk帧的H×W×D以及由CNN编码器提取的t（例如，ResNet-50），我们的方法旨在为帧t生成一个聚合特征图Ft，它融合了帧间（Fk）和帧内（Ft）特征，比使用单帧特征与以下两个标准相关。首先，只有跨帧的节点可以连接（如图2所示）。2）的情况。其次，对于帧k处的中心为（x，y）的实例节点，其仅连接到帧t处的与（x，y）的距离小于阈值（例如，围绕中心的我们的选择有三个动机第一个原因是内存和计算问题，因为密集图将花费太多资源[26]。其次，我们的方法使用边缘特征来预测跟踪结果，因此只有跨帧边缘是有意义的。三是10801·×我×vIJ我ij ij ij ij相邻帧之间的实例的位移通常是局部的。还应该注意的是，尽管我们的图仅具有帧间连接，但迭代图更新仍然可以将有用的帧内特征聚合到融合特征图F^t中，这将在下文中解释。图形功能更新：我们遵循以前的消息传递网络[8，4]的机制来更新我们的图。具体而言，在每次迭代时，节点和边特征按以下顺序传播和更新：1)边特征由其两个端点更新，2）节点特征由其连接的边更新，其过程可以表示如下。he（l）=Ne（[he（l−1），hv（l−1），hv（l−1）]）（1）��控制器头( , )实例敏感滤波器参数帧测试Atten有线电视新闻网CNN偏置……�P于我��可变形曲线( , )……��∈RH×W ×��图4.我们的warping模块在segmentation分支中的结构该模块使用可变形卷积[7]来hv（l）=N（[he（l），hv（l−1）]）（2）扭曲历史实例卷积核并将其与由控制器头预测以获得最终实例敏感的滤波器参数的那些参数。其中Ne和Nv表示两个可学习函数，在我们的实验中是两个多层感知器（MLP）[]表示级联操作。在总共L次迭代之后，帧t处的更新的节点特征被整形为RH×W×D以创建聚集特征Ft，其将用于预测检测和分割结果，而更新的边缘特征将用于预测跟踪3.4.分段分支受最近的图像实例分割方法[22]的启发，该方法预测每个实例候选的动态卷积滤波器，我们的分割分支也有一个控制器头来预测这种实例敏感的结果值得注意的是，只要图更新迭代-卷积滤波器θtD∈RH×W ×D。所述卷积滤波器在L≥2的情况下，更新的节点和边特征将是θt（x，y）∈ R在一个实例位置（x，y）则可以是保留帧间和帧内特征，即使我们的图没有帧内连接。由于一个节点将在其连接的另一帧的公共节点在第一次迭代之后聚合其所有信息之后接收同一帧的其附近节点的信息这样的设计使我们的图是稀疏连接，从而需要更少的计算资源，同时仍然设法提取有用的时空特征。3.3.使用节点特征进行对于检测分支，我们使用经聚集的空间-时间特征图Ft我们遵循无锚点图像检测方法CenterNet [36]，通过找到它们的中心点和边界框大小来预测对象类别和位置。具体地，将Ft馈送到三卷积头中以获得位置热图、大小图和坐标细化图。位置热图估计实例中心点及其类别。大小图估计边界框大小。细化图有助于细化中心点的位置。我们的检测分支的损失遵循CenterNet[36]中的损失，其包括中心点损失、大小损失和偏移损失：Ldet其中，λsize和λoffset平衡了三个损耗。用作 11 掩模头中的卷积核（即全卷积网络（FCN））来预测相应的实例掩码（如图3所示）。一个区别是，我们的控制器头利用了空间-时间特征F^t，其包含比单个帧更丰富的信息此外，在我们的设置中，表示历史实例掩码和形状信息的参考帧k处的实例敏感的内核θk也是可用的，这对于细化帧t处的分割结果可能是有用的。因此，我们提出了另一种新颖的模块，以基于两个帧的特征差异将θk具体地，如图4所示，给定两个特征图Fk和Ft，它们的差被馈送到CNN中以估计一组偏移。偏移量被整形为用于X和y轴的两个3 × 3滤波器，然后用作可变形卷积参数。可变形卷积的输入是θk，而输出是当前帧的扭曲核θwarp帧t的最终实例敏感内核θt是两个内核θt和θwarp经由注意掩码的组合我们的变形模块与MaskProp[2]中的对齐操作有着相似的精神，但有两个主要区别。首先，我们的变形操作在特征级，而MaskProp变形在掩码级。其次，我们的方法同时扭曲所有实例过滤器，而MaskProp扭曲一个实例过滤器J|eij∈E10802不×IJ我边Σ实例掩码，因此比我们的效率低最后，为了预测位置（x，y）处的实例掩码，我们的掩码头将合并的实例敏感的内核θt（x，y）以及空间-时间特征映射Ft作为输入作为如下的位置编码映射Px，y[22]。Mx，y=MaskHead（[Fd，Px，y];θt（x，y））（4）其中[·]表示级联运算，Fd是基因r-3.6. 训练和测试训练：我们从视频序列中随机选择两个帧Ik和It作为参考帧和目标帧，其中k和t之间的时间间隔应小于5. 我们使用参考帧的地面真值检测我们使用控制器头来获得参考帧的实例敏感卷积滤波器。我们模型的总损失函数可以是通过11卷积将信道维度减少到8。Px，y是一个双通道位置图，它对从（x，y）到其他位置的相对x轴和y轴偏移进行编码。我们的MaskHead操作与[22]相同。此外，我们将分割分支L掩码的损失函数定义为预测实例掩码和地面真实掩码之间的骰子损失[19]。可以看出，我们的分割分支利用了两种类型的时空信息，即经由GNN的聚合语义特征和来自前一帧的历史形状相关3.5. 使用边特征进行跟踪我们的跟踪分支利用图形边缘来关联现有的轨道或初始化新的轨道。然而，由于帧t处的许多图形节点在检测分支中被分类为背景，因此仍然保持这些边缘是冗余的，并且因此在跟踪预测之前将它们移除。此外，在帧t处的一些图节点具有与它们在帧k处的连接图节点不同的类预测。这些也是无意义的边，因为没有实例可以改变它的类。因此，我们也从图中移除这种类型的边保留剩余的边缘用于跟踪预测。具体地，对于每个剩余的边缘e ij，其最终边缘特征he（L）被馈送到二进制分类器中，以预测帧k处的节点i与帧t处的节点j之间的关联关系。正预测指示两个节点属于同一实例，反之亦然。因此，我们的跟踪分支机构的损失定义为：L总=λ1Ldet+λ2L掩模+λ3L边缘（6）损失函数应用于目标帧，而分割损失L掩模也应用于参考帧。测试：给定一个视频序列，我们的方法遵循在线策略，迭代地处理一对连续帧I t-1（参考帧）和I t（目标帧），直到视频序列结束。对于第一帧，由于没有参考帧，我们只使用普通检测和分割分支（即没有空间-时间特征，也没有内核扭曲模块）以得到其实例预测。通过连接每对连续帧的跟踪预测，可以容易地获得完整的跟踪结果。然而，参考帧I t-1中的实例可能不与当前帧I t中的任何实例匹配，指示实例在I t中被遮挡。在这种情况下，我们的方法将不匹配的实例标识与其裁剪的节点特征h v以及其实例敏感的卷积滤波器θt−1（x，y）一起放在内存中。当进行到下一对帧I t和I t+1时，我们将添加不匹配节点特征作为帧t处的前实例节点，并将新估计的参考帧θ t（x，y）的卷积滤波器替换为θt−1（x，y），因为短时间间隔θt内的实例位移通常很小。为了使假设成立，我们仅在时间间隔Δt内将不匹配的实例保留在存储器中，在我们的实验中，该时间间隔Δ t被设置为7。L=−1y|e ij ∈ Eprune|eij∈E prunelogg（yij）+（1−yij）logg（1−y（ij）（五）4. 实验4.1. 数据集和指标其中y（ij）是对边缘eij的预测，并且Eprune表示去除冗余边缘之后的修剪边缘集。正预测指示节点j是节点i在当前帧中的延伸，并且因此应当关联到同一轨道。对于具有多个匹配边缘的那些实例，我们的方法仅保留具有最高分类得分的边缘，并移除剩余的边缘。而如果帧t的实例在边缘分类之后不与任何现有序列匹配，则将初始化基于该实例的新轨迹在本节中，我们在YouTubeVIS [32]数据集上进行了实验，该数据集包含2238个训练，302个验证和343个测试视频片段。该数据集是annotated与40个类别，对象边界框，segmenta和灰面具和实例身份标签。视频实例分割是通过AP（平均精度）和AR（平均召回）的指标进行评估。为了达到良好的性能，该方法必须准确地分割实例，并在同一时间正确地关联跨帧的实例。IJ10803×迭代APAP50AP75AR1AR10132.153.934.131.736.5235.356.437.833.938.9336.558.639.035.540.8436.058.138.835.040.3表1.当GNN中的更新迭代次数从1增加到4时，YoutubeVIS数据集上的性能4.2. 实现细节网络：我们使用ResNet-50 [12]作为我们的特征提取主干，并构建与CenterNet [36]相同的检测分支。我们还使用FPN模块在我们的框架。地面实况实例根据其大小被分配到不同的FPN级别。对FPN输出的每个特征图进行关系建模和特征融合。在CondInst [22]中的分割模块的设置之后，我们使用三个卷积层作为我们的动态掩模FCN头，因此，动态控制器头必须输出169通道参数图，包括每个潜在实例的Hff实例敏感滤波器参数向量在Prop中使用的可变形卷积[7]的核大小分枝为3 ×3。训练：我们使用在COCO数据集上预训练的骨干模型初始学习率为1 e-2，批量大小为16。学习率在时期16和22处降低10倍。我们还在训练过程中使用多尺度数据增强。4.3. 消融实验在本节中，我们进行了一些烧蚀实验，以研究每个模块的改进，并找到最佳的超参数。GNN更新的迭代：为了研究GNN特征更新的迭代的影响，我们将更新迭代设置为1到4，并在Youtube- VIS[32]验证数据集上评估模型。从表1中，我们可以观察到，当更新迭代从1增加到3时，验证数据集上的AP增加，因为特征图中的每个像素可以从来自最后一帧的其邻近实例然而，当迭代大于3时，AP下降。原因是当图神经网络的层数增加时，节点和边特征会收敛到平均特征，使网络失去表达能力[20]。因此，分类和分割头无法从这些包含较少信息的特征中预测特征融合策略：我们认为，基于关系建模的特征融合是重要的，以提高视频实例分割的准确性。为了证明这一点，我们使用不同的特征融合策略，在我们的消融实验。表2.特征融合、跟踪策略和掩模信息传播模块的烧蚀实验结果。不使用多尺度训练。 “Relation” and “Edge features”denote our feature fusion and tracking strategy based on gnn,while实验从表2中，我们发现使用基于关系建模的融合策略的模型比没有融合的模型获得更高的AP。原因是前者基于接收到的时间信息输出更准确的掩模和跟踪关系。基于关系建模的融合策略也优于直接将两帧图像的拼接作为输入进行融合的策略。这是因为，与场景级信息相比，实例级关系和实例对应信息更有帮助，而直接使用CNN融合特征的方法忽略了它们。联合检测、分割和跟踪：为了证明基于实例级关系的联合学习检测、分割和跟踪有利于提高视频实例分割任务的性能，我们使用不同的关联策略进行了实验。对于使用与Mask- Track R-CNN中相同的分类损失来训练嵌入头。至于我们比较了这两种关联策略的性能与我们的边缘特征为基础的关联策略。我们发现，基于边缘特征的关联策略优于他们。基于偏移的关联执行得更差，因为YoutubeVIS [32]数据集从视频中每5帧注释1帧，而偏移跟踪依赖于高fps视频。同时，与MOT情况不同，MOT的类别仅包括人和车辆，这意味着物体的运动模式相对容易学习，在YoutubeVIS中，有各种类别的物体，特征融合联想策略传播AP无融合嵌入’31.6Concat嵌入’32.1关系偏移’32.6关系嵌入’33.4关系边缘特征’34.8无融合嵌入C32.0关系嵌入C33.9关系边缘特征C35.210804方法APAP50AP75AR1AR10DeepSORT[29]26.142.926.127.831.3[第24话]26.942.029.729.933.4OSMN[33]27.545.129.128.633.1MaskTrack R-CNN[32]30.351.132.631.035.5面具道具[2]40.0-42.9--STEm-Seg[1]30.650.733.531.637.1VisTR[27]34.455.736.533.538.9SipMask[5]33.754.135.8--VisSTG（我们的）w/oms35.255.738.033.638.5VisSTG（我们的）36.558.639.035.540.8表3. YouTube-VIS验证数据集上的视频实例分割结果。我们比较我们的方法与其他现有的方法的指标AP，AP50和AP75。所有方法都使用ResNet-50作为主干。我们的方法优于大多数现有的方法。图5.我们的方法在YoutubeVIS数据集上的可视化结果。最好用彩色观看。很难模拟它们的运动模式对于基于嵌入的关联，虽然嵌入头与分割头一起训练，但它将两帧之间的关联视为N类分类问题，其中N是前一帧中的实例。然而，N在每个帧中变化，并且难以学习分类器。此外，当前帧中的每个候选者被单独分类，而不使用来自其他候选者的信息。基于GNN的关系建模利用来自所有实例和候选者的特征，并且用于边缘的二进制分类器也更鲁棒，因此它比基于嵌入的关联执行得更掩码信息传播分支：大多数VIS方法通过将融合的特征图馈送到预测头来利用时间信息，但忽略了由历史实例掩码提供的具体掩码级信息。从表2中，我们发现添加掩码信息传播分支有助于提高AP值。原因在于，通过合并来自上一帧的变形滤波器信息，掩模头不仅基于融合特征图F（t）分割实例，而且还利用来自前一帧的实例级除了经由GNN融合时间信息之外，使用传播分支将为掩模预测头提供4.4. 主要结果我们将我们的方法与表3中的现有VIS方法进行比较。我们使用指标AP，AP75和AP50来评估这些方法。为了消除主干的影响，表中的所有方法都使用ResNet-50 [12]作为主干。我们可以观察到，我们的方法实现了更高的AP值比大多数现有的VIS方法。特别是，我们的方法的AP值比基线方法高6.2%MaskTrack R-CNN [32]比基于Transformer的最近方法VisTR注意，我们的方法的AP 低于MaskProp [2]的AP。我们认为这是由复杂的后处理步骤和更强大的网络引起的，而我们的方法在单个框架中处理分割，检测和跟踪，因此具有比[2]快得多的FPS（22vs.2）的情况。我们的方法在YouTube-VIS验证数据集上的一些可视化结果如图5所示。每一行中的图像都是从相同的视频中采样的，并且具有相同颜色的实例遮罩属于相同的对象。我们观察到，我们的方法可以跟踪和分割，以及在各种情况下，即使一些实例被遮挡或重叠。5. 结论我们提出了一种端到端的视频实例分割方法，同时学习分类，检测，分割和跟踪。为了更好地利用来自先前帧和相关实例的时空信息，我们使用GNN来建模实例级关系并指导时空信息融合。检测和分割结果的预测从融合的节点特征，而跟踪结果可以得到的边缘特征，通过一个二进制边缘分类器同时。为了进一步提高分割精度，我们增加了一个传播分支来获取历史掩码级信息，并使用融合的实例敏感滤波器通过每个实例的动态掩码头来预测掩码。我们的方法为所有VIS子问题使用实例级时空信息，在YoutubeVIS验证数据集上实现了良好的性能。引用[1] Ali Athar、Sabarinath Mahadevan、Aljosa Osep、LauraLeal-Taixe'和BastianLeibe。Stem-se g：时空em-10805例如视频中的分割。欧洲计算机视觉会议，第158-177页。Springer，2020年。[2] Gedas Bertasius和Lorenzo Torresani分类，分割，并跟踪对象实例在视频中与掩模传播。在IEEE/CVF计算机视觉和模式识别会议论文集，第9739- 9748页[3] Daniel Bolya，Chong Zhou，Fanyi Xiao，and Yong JaeLee. Yolact：实时实例分割。在IEEE/CVF计算机视觉国际会议论文集，第9157-9166页计算机视觉应用冬季会议，第719-728页，2020年。[16] Yuxi Li ， Ning Xu ， Jinlong Peng ， John See ， andWeiyao Lin.深入研究了半监督视频对象分割中的循环机制神经信息处理系统的进展，2020。[17] Weiyao Lin，Huabin Liu，Shizhan Liu，Yuxi Li，RuiQian，Tao Wang，Ning Xu，Hongkai Xiong，Guo-JunQi，and Nicu Sebe.Human in events：复杂事件中以人为中心的视频分析的大规模基准arXiv预印本arXiv：2005.04490，2020。[18] Jonathon Luiten、Philip Torr和Bastian Leibe。视频输入-[4] 吉勒姆·布拉斯奥和劳拉·里尔-泰克斯。学习新-立场分割2019：一个成功的方法，为com-用于多个对象跟踪的ral求解器。在IEEE/CVF计算机视觉和模式识别会议论文集，第6247-6257页[5] JialeCao、Rao Muhammad Anwer、HishamCholakkal、Fa-hadShahbazKhan 、 YanweiPang 和 LingShao 。Sipmask：用于快速图像和视频实例分割的空间信息保留。arXiv预印本arXiv：2007.14772，2020。[6] Shengjia Chen，Zhixin Li，and Zhenjun Tang.Relation r-cnn：一个基于图的关系感知网络，用于对象检测。IEEE Signal Processing Letters，27：1680[7] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在Proceedings of the IEEE international conference oncomputer vision，第764-773页[8] Justin Gilmer、Samuel S Schoenholz、Patrick F Riley、Oriol Vinyals和George E Dahl。量子化学的神经信息传递。国际机器学习会议，第1263-1272页。PMLR，2017年。[9] Marco Gori，Gabriele Monfardini，and Franco Scarselli.一种新的图域学习模型。在诉讼中。2005年IEEE神经网络国际联合会议，2005年。，第2卷，第729-734页。IEEE，2005年。[10] Bhara thHariharan，PabloArbela' ez，RossGirshick，andJi-tendra Malik.同时检测和分割。欧洲计算机视觉会议，第297-312页。Springer，2014.[11] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[13] Zhaojin Huang，Lichao Huang，Yongchao Gong，ChangHuang ， and Xinggang Wang. 面具得分 r-cnn 。在IEEE/CVF计算机视觉和模式识别会议的论文集中，第6409-6418页[14] 姜小龙、李培昭、李燕京、甄仙童。基于图神经的端到端数据关联框架，用于在线多目标跟踪。arXiv预印本arXiv：1907.05315，2019。[15] 李嘉禾，徐高，蒋婷婷。用于多对象跟踪的图形网络。IEEE/CVF论文集联合检测、分割、分类和跟踪。在IEEE/CVF计算机视觉研讨会国际会议论文集，第0-0页[19] Fausto Milletari Nassir Navab和Seyed-Ahmad Ahmadi。V-net：用于体积医学图像分割的全卷积神经网络。2016年第四届3D视觉国际会议（3DV），第565IEEE，2016.[20] 大野健太和铃木太二。图神经网络exponentially失去了节点分类的表达能力arXiv预印本arXiv：1905.10947，2019。[21] Weijing Shi和Raj RajkumarPoint-gnn：用于点云中的3D对象检测的图形神经网络在IEEE/CVF计算机视觉和模式识别会议论文集，第1711-1719页[22] 智天，春华，陈昊。用于实例分割的条件卷积。arXiv预印本arXiv：2003.05664，2020。[23] Zhi Tian ， ChunhuaShen ， Hao Chen ， and Tong He.Fcos：完全卷积的一阶段对象检测。在IEEE/CVF计算机视觉国际会议论文集，第9627-9636页，2019年[24] Paul Voigtlaender ， Yunning Chai ， Florian Schroff ，Hartwig Adam ，Bastian Leibe ，and Liang-Chieh Chen.Feelvos：用于视频对象分割的快速端到端嵌入学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第9481-9490页，2019年。[25] 王凯欣、刘俊浩、邹应天、周大全、冯嘉世。Panet：具有原型对齐的少镜头图像语义分割。在IEEE/CVF计算机视觉国际会议论文集，第9197-9206页[26] Yongxin Wang，Xinshuo Weng，and Kris Kitani.图神经网络联合arXiv预印本arXiv：2006.13164，2020。[27] Yuqing Wang，Zhaoliang Xu，Xinlong Wang，ChunhuaShen，Baoshan Cheng，Hao Shen，and Huaxia Xia. 使用Transformers进行端到端视频实例分割。arXiv预印本arXiv：2011.14503，2020。[28] 翁新硕，王永新，曼云泽，和 Kris M Ki-tani.Gnn3dmot：用于3D多目标跟踪的图形神经网络，具有2D-3D多特征学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第6499-650

下载后可阅读完整内容，剩余1页未读，立即下载