基于网格的在线视频实例分割方法

133 浏览量更新于2023-10-25 收藏 5.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

289660准确度（AP）VISOLO：基于网格的空时聚合，用于高效的在线视频实例分割Su Ho Han1、Sukjun Hwang1、Seean-Wug Oh2、YeonchoolPark3、Hyunwoo Kim4、Min-Jung Kim5和Seon Joo Kim11延世大学2Adobe Research3 LG电子4LG AI Research5 KAIST{hansuho123，sj.hwang，seonjookim}@seoh@adobe.comlge.comemjay73@kaist.ac.krhwkim@lgresearch.ai yonsei.ac.kr摘要4341对于在线视频实例分割（VIS），完全使用将来自先前帧的信息以有效的39方式对于实时应用是必不可少的。Most Mr.我们的方法遵循两个阶段的方法，需要额外的35常规计算，如RPN和RoIAlign，并且不充分利用视频中所有33个子任务。在本文中，我们提出了一种新的单-31基于网格结构化特征表示，建立了在线可视化信息系统的阶段框架。基于网格的特征29让我们能够使用完全卷积的网络，速度（FPS）时间处理，并且还易于在不同组件内重用和共享特征。我们还介绍了协同操作模块，聚合信息，从可用的帧，以丰富功能的所有子任务在VIS。我们的设计以有效的方式充分利用VIS中所有任务的网格形式的先前信息，并且我们在在线VIS方法中在YouTube-VIS 2019和2021数据集上实现了最新的准确度（38.6 AP和36.9AP）和速度（40.0 FPS）。该代码可在https：//github上获得。com/SuHoHan95/VISOLO.1. 介绍在[33]中介绍的视频实例分割通过添加实例跟踪将图像域中的实例分割扩展到视频给定一个视频，视频中的所有物体都需要定位和分类，为所有物体生成时空像素掩模。VIS吸引了大量的关注，因为它是一种用于整体视频理解的基本技术，具有各种应用，如视频编辑，机器人和汽车的自主导航以及增强现实。最近引入的VIS离线方法通过掩码传播和变换器解决了这个问题[2，13，图1.在YouTube-VIS 2019数据集上比较以前的视频实例分割方法的质量和速度。橙色和蓝色标记分别表示在线和离线方法。我们的框架（VISOLO）是在线方法中最快和最准确的，并且正在接近离线方法的性能。16、31]。虽然这些方法表现出良好的性能，但它们不能用于实时应用，因为它以离线方式操作，需要在进行预测之前处理整个视频。在本文中，我们解决了在线视频实例分割的问题，视频帧进行处理序列。虽然在线处理视频对于许多VIS应用（例如，机器人导航）是有益的，但是与离线方法相比，其更具挑战性，因为应当在没有来自未来帧的信息的情况下处理对象外观随时间的变化以及由多个对象对于在线VIS，许多算法执行帧级分类和分割，而没有充分利用先前帧的信息。然而，当从帧级结果跟踪实例时，对象类别的不一致性和对象掩模的错误降低了 VIS 的性能例如， MaskTrack R-CNN [33] 使用Mask R的分类和分割结果。[16]第十六话国际金维索洛STEm-Seg [1]CrossVIS [34]VisTR [31]SG-Net [20]SipMask [4]STMask [14]MaskTrack R-CNN [33]010203040501202897CNN [10]，并且仅使用前一帧信息进行跟踪。SipMask[4]和SG-Net [20]提高了图像级分割性能，而无需使用先前帧中可用的节奏线索。虽然CrossVIS [34]在训练期间使用时间信息来增强分割和跟踪的实例特征，但它在推理和分类期间不使用时间信息STMask [14]使用来自前一帧的信息，但它仅使用相邻帧进行分割。在本文中，我们提出了一个框架，利用信息，从以前的帧不仅跟踪，而且分类和分割，这是有利于提高整体VIS性能。我们新设计的动机是，充分利用所有子任务的过去帧的可用信息是很重要的，因为在线VIS不能像离线VIS那样访问整个视频。此外，实时处理对于在线VIS应用也很重要。因此，有必要提出一个框架，可以充分利用以前的帧的信息CompFeat [9]最近提出了时间和空间注意力模块，该模块聚合时间特征以用于非局部操作的分割和分类[28]。然而，它需要大量的计算，因为它采用基于Mask-RCNN的两阶段框架，并包括额外的编码器来获得STM中的键和值特征[24]。为此，我们引入了一种新的实时视频实例分割框架，称为VISOLO。顾名思义，我们的工作建立在最近引入的单阶段图像实例分割SOLO [29，30]的基础上，该方法将输入图像划分为均匀的网格，并输出每个网格的语义类别得分和实例掩码。使用单级VIS的网格表示法有几个优点。它通过采用全卷积网络结构并摆脱RPN [27]和RoI-Align [10]等中间阶段来提高速度在网格结构中管理和存储功能也变得更加容易，从而能够添加额外的模块来共享多个子任务（分类、分段和跟踪）的功能，这反过来又提升了VIS的整体性能。为了充分利用网格结构的表示，我们增加了一个内存匹配模块，计算不同帧的网格之间的相似性。然后将计算出的网格相似性用于实例匹配。通过将先前帧的网格结构特征图存储在存储器中，可以通过存储器匹配模块随时计算网格相似度这使我们能够获得对遮挡和再现的鲁棒性。此外，我们提出了额外的模块，称为时间聚合和分数重新加权模块，利用以前的帧的信息，以提高分类和分割每。通过使用具有边际开销的存储的特征图来实现。在VISOLO中，子任务头（分类，分割和跟踪）使用网格结构特征相互依赖地操作，因此它们可以有效地共享特征并作为整个网络进行优化。我们工作的技术贡献如下：• 我们提出了一种新的在线视频实例分割框架，该框架建立在SOLO的网格结构表示的基础上[29，30]。利用网格结构，我们可以建立一个单阶段的VIS 算法，避免计算繁重的过程，如 RPN 和RoIAlign在两个阶段的方法，实现实时性能。• 我们引入了新的模块-利用存储先前帧的特征的存储器，这些模块协同工作，以丰富VIS的每个子任务的特征，从而提高VIS的整体性能。• 与所有其他在线VIS方法相比，我们在YouTube-VIS 2019和2021数据集[33]（38.6 AP和36.9 AP）上实现了最新的准确性。我们的方法还可以实时运行（40.0 FPS），这是在线算法中最快的（图10）。1）。2. 相关工作2.1. 图像实例分割实例分割是将图像中的每个像素分类到对象类别并将其分组为对象实例的任务，并作为VIS的基础实例分割可以分为两个阶段[7，8，10，12，15，21]和单阶段[3，6，26，29，30，32]方法。两阶段方法首先使用区域预测网络（RPN）[27]生成对象建议，然后使用聚合的ROI特征执行框回归、分类和掩码预测。单阶段方法不使用建议生成，而是采用完全卷积的网络结构来直接预测边界框和实例掩码。大多数VIS算法通过添加跟踪头来扩展图像实例分割。许多以前的VIS方法[2，9，16，33]采用Mask R-CNN [10]，这是一种两阶段方法，并通过添加跟踪头或掩码传播头来跟踪视频中的实例。相比之下，我们的方法采用网格结构表示的单阶段方法[29]，这使我们能够采用完全卷积网络来提高效率。2.2. 视频实例分割离线方法。最近引入的许多VIS方法都是以脱机方式解决这个问题的2898KKC CP（）M M我不知道BKC⊕REM⊕B⊛I你好我好我好图2.我们的框架VISOLO概述我们将ResNet50 [11]作为编码器的骨干网络我们的网络由两个分支组成：类别分支，掩码分支和三个额外的模块。来自类别和掩码分支的键（K）、类别（C）和掩码（M）特征图被存储在存储器队列中以供将来使用。点箭头表示来自先前帧的信息的使用。“0”表示逐元素求和，“0”表示卷积。通过掩码传播和变换器[2，13，16，31]。MaskProp [2]通过道具实例蒙版生成多个重叠剪辑然后，片段级轨道被聚合以创建整个视频的实例序列。与MaskProp [2]不同，SeqMask R-CNN [16]通过从多个关键帧传播实例掩码来为整个视频生成实例序列，最近，还引入了基于 Transformer 的 VIS 系统（ VisTR [31] 和 IFC[13]），其将DETR [5]扩展到VIS任务。在线方法尽管上述方法已经显示出VIS的良好性能，但是它们在实时应用中受到限制，因为它们离线操作，需要在预测之前处理整个视频。最近，已经引入了许多用于处理在线视频实例分割任务的方法[4，9，14，20，33，34]。MaskTrack R-CNN [33]是基于Mask R-CNN [10]构建的，添加了一个跟踪分支，为每个候选框分配一个实例标签。SipMask [4]提出了一个空间保留（SP）模块，以提高掩模预测性能。它还添加了一个生成跟踪特征图的分支。然后，它使用这些特征图匹配帧的实例，其度量与MaskTrack R-CNN [33]相似。SG-Net [20]通过动态划分目标来将实例划分为子区域，对每个区域进行分割，并添加跟踪头，跟踪实例的中心。CrossVIS [34]提出了一种交叉学习方案，该方案使用当前帧中的实例特征对其他帧中的相同实例进行像素定位。STMask [14]提出了一种空间校准，以获得锚框的更精确的空间特征。该算法还增加了一个时间融合模块，通过获取相邻帧之间的时间相关性来推断实例掩码和跟踪。CompFeat [9]提出了时间和空间注意力模块，该模块聚合时间特征以获得具有非局部匹配的分割和分类结果[28]。提出了基于相关性的跟踪模块，该模块同时生成空间似然和目标相似度，用于跟踪。虽然在线方法显示出有希望的结果，但这些方法没有充分利用非连续帧的信息。VISOLO采用新颖的设计，在空间和时间上有效地存储、管理和聚合基于网格的特征，与以前的在线方法相比，VISOLO实时运行，并大幅提高了性能，接近离线方法的准确性。3. 方法概述VISOLO的整体框架如图2所示。使用来自SOLO [29]（掩码和类别分支）的网格结构特征表示和内存2899××存储来自先前帧的网格特征，我们添加了三个模块来有效地聚合每个子任务的特征的VIS。3.1. SOLO评论SOLO是最近引入的一种高性能的单阶段图像实例分割方法。在SOLO中，输入图像首先在概念上被划分为uni.K K×4��×��h ×��w ×��×4（）h）w）×/2��×⊗��×（））×（�� ））形成网格S S，然后通过两个分支：K类别分支和掩码分支。如果网格单元包含Hw hW/2×（��对象的中心，该网格单元负责分别在类别分支和掩码分支中预测该对象在SOLOv2 [30]中，作者引入了动态头，其中掩码分支被解耦为特征分支和内核分支。特征分支通过解码器预测细粒度的实例感知特征图，并且内核分支预测以每个网格的位置为条件的11个卷积内核权重。掩码分支通过在具有生成的内核权重的特征图上运行卷积来输出每个网格的实例掩码我们使用这个动态头部作为掩码分支。我们对掩码和类别分支进行了一些结构修改，使其适合VIS。首先，我们的掩码分支不再依赖于特征金字塔网络（FPN）[17]。FPN对于当前的VIS基准测试[33]无效，该基准测试主要由大型和不同的对象组成。同时，网格的多层次性也给网格相似度的优化带来了相反，我们采用编码器-解码器结构，该结构已被证明对于在视频分段中生成高质量对象掩码是有效的[23，25]。其次，使用类别和掩码分支的中间特征具体地说，使用类别分支的关键特征图（K）通过记忆匹配模块来获得与先前帧的网格相似性通过时间聚集模块增强类别（C）和来自类别和掩码分支的掩码特征图（M），以便改进每帧分类和分割。3.2. VISOLO概述VISOLO旨在利用SOLO的网格形状特征进行VIS，通过时间聚合丰富特征。对于每个帧，计算的特征（K，C，M）被存储在存储器队列中记忆匹配模块通过比较帧间的关键特征（K）来预测网格相似性。计算出的网格相似性用于跟踪跨帧的实例以及收集来自先前帧的信息。临时聚合模块负责提供��h×��图3.详细实现了内存匹配模块的操作.它将内存队列和类别分支中的关键特征映射作为输入。Sh和Sw分别是高度和宽度的网格数，E是输入特征图维度。点箭头表示卷积层并且类别分支和具有丰富的先前帧信息的掩码分支。在该模块中，使用网格相似性来组合分数重加权模块用于通过动态校准输出分数图来增强分类分支中的分类。注意，分数重新加权模块还使用计算的网格相似性。特征聚合和流的有效设计是我们的方法与以前的方法的区别。先前的在线方法没有充分利用VIS中所有子任务的先前帧的信息相比之下，我们框架中的组件和模块是紧密耦合的，它们之间有高效的信息流。从先前帧到当前帧的信息流仅增加边际开销，因为它们利用来自存储器匹配模块的已经计算的网格结构特征和网格这使得VISOLO能够最大限度地利用可用信息，从而实现实时运行的高性能VIS系统4. 方法详情4.1. 内存匹配模块内存匹配模块通过迭代成对比较来预测内存中当前帧和先前帧的网格之间的网格相似性（Sim当前帧和前一帧的类别分支中第一层的输出（关键特征图）用作输入。两个输入分别经过卷积层，然后通过矩阵内积合并以生成网格相似性。内存匹配模块的细节如图3所示。因为我们的方法输出语义类别，2900总氮含量（ % ）P（−）��NI（）的方式∈∈⊗−∈×˜IDXIDXIDXIDXIDXIDX每个网格的实例的掩码，如果我们可以找出与对应于当前帧的实例的网格相同的先前帧的网格，则可以通过匹配那些网格的实例来执行跟踪。因此，为了获得跨帧的相同实例的网格信息，我们设计了内存匹配模块来预测网格相似度。此外，网格相似性用于读取先前帧的实例外观信息，以增强时间聚合和分数重新加权模块中的分类和分割性能你好，我是来找你的你好！( )4.2. 时间聚合模块时间聚集模块通过聚集时间信息来提高分类和分割性能。对于每个网格，时间聚合模块使用来自分类匹配模块的网格相似性从过去收集外观信息。存储器队列（CTMT）RT×Sh×Sw×E）进一步通过卷积层处理并重新整形为R（T·Sh·Sw）×E，然后通过加权求和将这些特征聚集，其中权重（WTR（Sh·Sw）×（T·Sh·Sw））通过对网格相似性应用softmax函数来计算。具体地，时间聚合模块的输出特征图可以如下放置：CA=WT<$CT，（1）MA=WT<$MT，（2）其中"“表示矩阵内积。检索到的特征CA和MA与当前帧的类别和掩码特征图一起添加我们的时间聚合操作与STM [24，25]中的操作相关，因为两者都检索出现的图4.当前帧（t）和前一帧（t1）之间的实例跟踪操作的概述。 Gidx表示包含实例中心的网格的索引。从类别分支，使用来自记忆匹配模块的网格相似性。我们使用当前帧和两个先前帧（Sim1和Sim2）之间的两个网格为了匹配Cat的维数，首先通过取相似矩阵的每一行的最大值来重塑每个相似矩阵（SimR（Sn·SW）×（Sn·SW）），然后将其转换为大小为Sn·SW的矩阵。为了方便起见，我们将重塑的相似性称为Sim1和Si m2。Cat中的每个网格乘以Si m1和Si m2中相应网格的平均值，得到最终分类得分P：P=CatAVG（Sim1，Sim2），（3）其中，k表示每个通道的逐元素乘法。4.4.实例跟踪实例跟踪操作如图4所示。在当前帧t处，我们首先将矩阵NMS [30]应用于来自掩码分支和类别分支来自具有软权重的先前帧的同步信息为了获得网格Gt的指数包含了然而，STM [24，25]需要重新编码每个额外的实例。跟踪是通过比较网格通过ResNet编码器获取内存帧的值Gt之间的相似性值当前帧的功能.另一方面，我们的时态聚合模块通过重用类别和上一帧的Gt−1当前的实例基本上是用高-将分支估计相似度值。如果Gt之间的相似性和4.3.分数重新加权模块为了进一步提高分类性能，我们提出了分数重新加权模块，它动态校准类别分支的输出分数。由于分数重新加权模块使用基本的tensor操作，网格相似性已经在内存匹配模块中计算，它只增加了一个小的开销。分数重新加权模块计算Cat∈RSh×Sw×C中每个网格的权重，这是输出分数如果G t-1都低于某个阈值（0.1），则我们继续前进到下一个前一帧，其中包含未能跟踪的实例，并使用过去帧的网格相似性来查看当前实例是否与该帧中的任何实例匹配。请注意，我们保留了用于计算网格相似性的特征图，以及前一帧和包含未能跟踪的实例的过去帧的G失败。这使我们能够处理闭塞和再现问题。如果当前实例与以前的任何实例都不匹配，则将其声明为新实例。2901方法骨干FPSAPAP50AP75AR1AR10线下面具道具[2][16]第十六话ResNet-50ResNet-503−.840.040.46−3.042.943.84−1.14−9.7VisTR [31]ResNet-5051.135.656.837.035.240.2国际金融公司[13]ResNet-50107.141.265.144.642.349.6近在线STEm-Seg [1]ResNet-1013.034.655.837.934.441.6MaskTrack-RCNN [33]ResNet-5026.130.351.132.631.035.5SipMask [4]ResNet-5035.533.754.135.835.440.1SG-Net [20]ResNet-5023.0米34.856.136.835.840.8SG-Net [20]ResNet-10119.8米36.357.139.635.943.0在线CompFeat [9]CrossVIS [34]ResNet-50ResNet-502−5.635.336.356.056.838.638.933.135.640.340.7CrossVIS [34]ResNet-10123.336.657.339.736.042.0STMask [14]ResNet-50†26.133.552.136.931.139.2STMask [14]ResNet-101系列22.436.856.838.034.841.8我们的VISOLOResNet-5040.038.656.343.735.742.5表1. YouTube-VIS 2019[33]验证集的定量评估。[20]没有提供官方的检查点，所以我们推断[20]中报告的速度（FPS带上标“”）。4.5.训练和推理我们以端到端的方式联合训练分类，分割和网格相似性预测任务我们将训练损失函数定义如下：L=Lclass+λLmask+Lgrid，（4）每个损失对应于类别分支损失，mask方法MaskTrack-RCNNSipMask CrossVISSTMask我们的VISOLOAP AP50 AP75 AR1 AR10 28.648.9 29.6 26.5 33.831.7 52.5 34.034.2 54.4 37.9 30.430.6 49.4 32.0 26.4 36.036.9 54.7 40.2 30.6分支损失和网格相似性损失。我们将焦点损失[18]用于L类和L网格，并将骰子损失[22]用于L掩模。仅为存在地面实况对象的网格计算L掩码和L网格λ在方程中（4）设置为3。在推理过程中，来自类别和掩码分支的中间特征被存储到外部存储器上。对于时间聚合模块，使用更多的框架有助于丰富类别和掩码分支的中间特征。然而，将所有先前帧的特征写入到存储器中是低效的，因此我们通过简单的规则选择要保留在存储器中的帧。默认情况下，前两帧的特征总是被保存，因为它们为跟踪提供了有价值的外观信息，并且也用于分数重新加权模块。对于中间帧，我们简单地保存每5帧的特征对于输入视频中的第一帧，我们将其放入内存并将其用作参考。5. 实验我们使用 YouTube-VIS 2019 和 2021 数据集上的ResNet 50主干来评估我们的模型YouTube-表2. YouTube-VIS 2021有效期的定量评估-设置。我们参考[34]中报道的结果。所有模型都使用ResNet-50 [11]作为骨干网络，除了使用ResNet-50-DCN的 STMask[14VIS 2019是第一个用于视频实例分割的大规模数据集，YouTube-VIS 2021是YouTube-VIS 2019的改进版本我们对YouTube-VIS 2019和2021数据集的验证集进行了我们测量了平均视频平均精度（AP），IoU阈值为50%和75%的视频平均精度（AP50，AP75），每个视频1和10个实例的平均召回率（AR1，AR10）和每秒帧数（FPS）。5.1. 实现细节首先，我们的网络在COCO [19]数据集上进行了预训练，就像其他VIS方法一样。在预训练之后，我们使用COCO在Youtube VIS 2019或2021训练集上微调我们的网络，具体取决于测试数据集。我们将网格的数量设置为输入视频的宽高比（S=（12，21））。我们将在补充材料中提供进一步的2902图5.我们将我们的视频实例分割结果与MaskTrack R-CNN [33]结果进行了比较。不同的实例分配有不同的颜色。存储器帧FPSAP AP50AP752帧40.436.754.240.410帧39.537.555.341.320帧38.737.755.441.4每5帧40.038.656.343.7表3.在YouTube-VIS 2019数据集上估计的S核心R加权模块（SR）和Temporal聚集5.2. 定量结果YouTube-VIS 2019评测结果。我们将我们的方法与表1中最先进的离线和在线方法进行了比较。我们报告的准确性和速度。我们使用官方代码在同一环境中使用单个2080 Ti GPU测量大多数先前方法的每秒帧数（FPS）。如表1所示，我们的方法在精度（38.6 AP）和速度（40.0 FPS）上都优于所有在线方法，缩小了在线和离线VIS算法之间的差距。YouTube-VIS 2021 评测结果。表 2 总结了我们在YouTube-VIS 2021验证集上的性能同样，我们的方法优于所有在线方法的大幅度。5.3. 定性结果在图5中，我们比较了VI-SOLO与MaskTrack R-CNN的定性结果 [33]。我们选择的例子表4.在YouTube-VIS 2019数据集的验证集上进行时间聚合模块分析的参考帧数量[33]。我们比较了不同记忆存储规则的结果。来自YouTube-VIS 2019数据集验证视频的视频[33]。从图中可以看出，我们的方法在VIS的各个方面都表现得更好，包括实例分类、分割和跟踪，即使在有遮挡和复杂运动的困难情况下也是如此。5.4. 分析每个组件的贡献。我们首先进行烧蚀研究，以验证我们的框架中每个组件的贡献（表3）。在这项消融研究中，我们测试了三个组成部分从结果中可以看出，所有组件都起着重要的作用，当我们将所有组件组合在一起时，可以实现最佳性能。记忆框架的影响。我们还在表4中分析了存储不同帧数对存储器的影响。如表中所示，与其他在线方法相比，我们模型的所有变化都达到了最先进的精度，除了使用两个先前的帧。我们选择��R −�� NNSrTATA（类别）（面具）AP AP50 AP7534.6 51.5 36.8✓35.6 53.8 37.936.4 54.4 39.3✓✓✓37.7 56.6 40.3中国38.6 56.3 43.7I��R −�� NNI29031615105017图6.在第二行的分数重新加权模块中对每个网格的权重进行可视化第一行显示原始帧。R图7.可视化我们的时态聚合模块操作。首先计算查询网格与所有参考框架网格之间的相似度，并通过softmax运算获得软权重。然后，我们可视化参考帧的归一化软权重。查询网格和参考帧的每个网格相对于查询网格的权重被分配有不同的颜色。4610101图8.我们方法的一些失败案例。考虑到精度和速度之间的权衡，我们最终选择了每5帧一个中间帧的模型。可视化。在图6中，我们可视化了在我们的分数重新加权模块中为每个网格计算的权重。如可以观察到的，包含对象中心的网格被分数重新加权模块准确地强调。我们还示出了用于在时间聚合模块中检索参考帧的信息的软权重，即参考帧的每个网格相对于查询网格的权重。图7可视化了对查询帧的公牛和斗牛士有贡献的参考网格的权重。这表明我们的时间聚合模块准确地从参考帧中收集外观信息局限性。首先，我们在图8中展示了我们的方法的一些失败案例。如果一个新的对象与以前的实例有相似的外观，我们的方法会混淆身份的区分此外，我们的方法可能难以检测小物体。原始的SOLO [29，30]框架使用特征金字塔网络（FPN），并为每个级别设置不同数量的网格来检测各种大小的对象然而，考虑到YouTube-VIS的特点，包括大尺寸和不同的运动对象，VISOLO只使用一个级别来提高效率。因此，如果多个实例属于同一个网格，我们的方法可能无法检测到小对象。第二，VISOLO性能高度依赖于网格相似性。由记忆匹配模块计算的网格相似性不仅用于跟踪实例，而且用于时间聚合和分数重新加权模块。这种设计使我们的方法有效地工作，但同时，如果网格相似性有问题，则性能有可能6. 结论提出了一种基于网格结构特征表示的在线视频我们充分利用了基于网格的特征，使得特征可以被重用和共享，最大限度地利用了以前帧中的信息。通过我们高效设计的框架，我们在性能上获得了显着改进，与YouTube-VIS 2019和2021数据集上的其他在线方法相比，实现了最先进的准确性和速度致谢这项研究得到了LG电子的支持，也得到了韩国政府（ MSIT ）资助的信息通信技术规划评估研究所（IITP）的资助，延世大学人工智能研究生院计划，补助金2020-0-01361。2904引用[1] AliAthar，Sabarinath Mahadevan，Aljosˇa Osˇep，LauraLeal-Taixe´，andBastianLeibe. Stem-se g：用于视频中的实例分割的时空嵌入在 2020 年欧洲计算机视觉会议（ECCV）上。6[2] Gedas Bertasius和Lorenzo Torresani分类，分割，并跟踪对象实例在视频中与掩模传播。IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月。一、二、三、六[3] Daniel Bolya，Chong Zhou，Fanyi Xiao，and Yong JaeLee. Yolact：实时实例分割。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，2019年10月。2[4] JialeCao、Rao Muhammad Anwer、HishamCholakkal、Fa-hadShahbazKhan 、 YanweiPang 和 LingShao 。Sipmask：用于快速实例分割的空间信息保存。欧洲计算机视觉会议（ECCV），2020年。二、三、六[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测欧洲计算机视觉会议（ECCV），2020年。3[6] 陈浩，孙昆阳，田智，沈春华，黄永明，严友良.Blendmask：自上而下与自下而上相结合，用于实例分割。在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2020年6月。2[7] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang ，Chen Change Loy ，andDahua Lin.用于实例分段的混合任务级联。在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2019年6月。2[8] Hao-Shu Fang，Jianhua Sun，Runzhong Wang，MinghaoGou，Yong-Lu Li，and Cewu Lu. Instaboost：通过概率图引导复制粘贴来提升实例分割。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，2019年10月。2[9] 杨福，杨林杰，刘丁，托马斯·S. Huang和HumphreyShi。Compfeat：用于视频实例分割的综合特征聚合。2021年AAAI人工智能会议。二、三、六[10] 何凯明、乔治亚·吉克萨里、彼得·多勒和罗斯·吉尔希克。面具 R-CNN 。在 IEEE 计算机视觉国际会议（ICCV）的会议记录中，2017年10月。二、三[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2016年6月。三、六[12] Zhaojin Huang，Lichao Huang，Yongchao Gong，ChangHuang ， and Xinggang Wang. 面具得分 r-cnn 。在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2019年6月。2[13] Sukjun Hwang，Miran Heo，Seeking Wug Oh，and SeonJoo Kim.使用帧间通信变换器的视频实例分割。在NeurIPS，2021年。一、三、六[14] 李明翰，李帅，李丽达，张磊。空间特征校准和时间融合用于有效的一阶段视频实例分割。在CVPR，2021年。二、三、六[15] 李毅、齐昊之、戴季风、季向阳、魏一完全卷积的实例感知语义分割。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年7月。2[16] 林怀佳，吴瑞正，刘舒，卢江波，贾继亚.基于propose-reduce范式的视频实例分割。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，第1739二零二一年十月。一、二、三、六[17] Tsung-Yi Lin ， Piotr Dollar ， Ross Girshick ， KaimingHe，Bharath Hariharan，and Serge Belongie.用于对象检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年7月。4[18] Tsung-Yi Lin ， Priya Goyal ， Ross Girshick ， KaimingHe，and Piotr Dollar.用于密集对象检测的焦点损失。在IEEE国际计算机视觉会议（ICCV）的会议记录中，2017年10月。6[19] 林宗义、迈克尔·梅尔、塞尔日·J·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德韦·拉马南、皮奥特·多尔·拉尔和C.劳伦斯·齐尼克。 Microsoft coco：上下文中的公共对象。在欧洲计算机视觉会议（ECCV）上，2014年9月。6[20] Dongfang Liu，Yiming Cui，Wenbo Tan，and YingjieChen. Sg-net：用于单阶段视频实例分割的空间粒度网络。IEEE/CVF计算机视觉和模式识别会议论文集，2021年。二、三、六[21] 刘舒，陆琪，秦海防，石建平，贾佳雅。用于实例分段的路径聚合网络在IEEE计算机视觉和模式识别会议（CVPR）上，2018年6月。2[22] F.米列塔里N. Navab和S.艾哈迈迪V-net：用于体积医学图像分割的全卷积神经网络。2016年第四届3D视觉国际会议（3DV），第565-571页，2016年。6[23] Seoung Wug Oh、Joon-Young Lee、Kalyan Sunkavalli和Seon Joo Kim。参考引导掩模传播的快速视频对象分割。在 IEEE 计算机视觉和模式识别会议论文集（CVPR），2018年6月。4[24] Seoung Wug Oh，Joon-Young Lee，Ning Xu，and SeonJoo Kim. 使用时空记忆网络的视频对象分割。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，2019年10月。二、五[25] Seoung Wug Oh，Joon-Young Lee，Ning Xu，and SeonJoo Kim. 时空记忆网络用于用户引导的视频对象分割IEEE Transactions on Pattern Analysis and MachineIntelligence，2020。四、五[26] 彭思达、姜文、皮怀金、李秀丽、鲍虎军、周晓伟。用于实时实例分段的深度蛇-2905第在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2020年6月。2[27] 任少卿、何开明、罗斯·格尔希克、孙健。Faster R-CNN： Towards Real-time Object Detection with RegionProposal Networks. 神经信息处理系统进展（NIPS），2015。2[28] 王晓龙，Ross Girshick，Abhinav Gupta，和Kaiming He.非局部神经网络。在IEEE计算机视觉和模式识别会议，2018年6月。二、三[29] 王新龙，孔涛，沈春华，姜语宁，李磊。SOLO：按位置分割对象。在2020年欧洲计算机视觉会议（ECCV）上。二、三、八[30] 王新龙，张如锋，孔涛，李磊，沈春华.Solov2：动态和快速的实例分割。神经信息处理系统进展（NeurIPS），2020。二、四、五、八[31] Yuqing Wang，Zhaoliang Xu，Xinlong Wang，ChunhuaShen，Baoshan Cheng，Hao Shen，and Huaxia Xia.使用Transformers进行端到端视频实例分割。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的论文集中，第8741-8750页，2021年6月。一、三、六[32] Wenqiang Xu，Haiyang Wang，Fubo Qi，and Cewu Lu.用于实时实例分割的显式形状编码在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，2019年10月。2[33] 杨林杰，樊宇晨，徐宁。视频实例分段。在IEEE/CVF计算机视觉国际会议（ICCV）中，2019年10月一二三四六七[34] Shusheng Yang，Yuxin Fang，Xinggang Wang，Yu Li，Chen Fang，Ying Shan，Bin Feng，and Wenyu Liu.用于快速在线视频实例分割的交叉学习。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，第8043-8052页，2021年10月。二、三、六

下载后可阅读完整内容，剩余1页未读，立即下载