原型记忆网络用于无监督视频目标分割

73 浏览量更新于2023-10-16 收藏 15.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Minhyeok1111Lee1,2,∗{hydragon516,chosuhwan,shlee423,chaewon28,syleee}@yonsei.ac.kr𝐹𝑡Memory bankSampling & UpdatecMaskpredictioncMaskpredictionPrototype ScoringPrototype Scoring𝐹𝑡−1𝑀𝑡−1𝑀𝑡𝑀𝑡+1Sampling & Update59240通过原型记忆网络进行无监督视频目标分割01 韩国延世大学 2 韩国科学技术研究院（KIST）0摘要0无监督视频目标分割旨在在视频中分割目标对象，而不需要初始帧中的地面实况掩码。这项具有挑战性的任务要求提取视频序列中最显著的共同对象的特征。这个困难可以通过使用光流等运动信息来解决，但仅使用相邻帧之间的信息会导致远距离帧之间的连接性差和性能差。为了解决这个问题，我们提出了一种新颖的原型记忆网络架构。所提出的模型通过从输入的RGB图像和光流图中提取基于超像素的组件原型，有效地提取RGB和运动信息。此外，该模型根据自学习算法评分每帧中组件原型的有用性，并自适应地将最有用的原型存储在内存中并丢弃过时的原型。我们使用内存库中的原型来预测下一个查询帧的掩码，从而增强远距离帧之间的关联，有助于准确的掩码预测。我们的方法在三个数据集上进行评估，取得了最先进的性能。我们通过各种消融研究证明了所提模型的有效性。01. 引言0视频目标分割（VOS）旨在在每个帧中绘制像素级显著对象掩码。VOS用作视频字幕[45]、交互分割[39]和光流估计[6]的预处理。它还广泛应用于机器人和自动驾驶车辆[1, 24,29]。VOS任务根据是否提供视频序列第一帧的地面实况掩码分为半监督[7, 31, 52]和无监督VOS[13, 43, 63,15]。更具体地说，半监督VOS旨在跟踪和分割视频初始帧中的指定对象。然而，在无监督VOS任务中，模型必须在第一帧中没有给定特定掩码的情况下跟踪和分割最显著的对象。0图1.所提方法的整体流程。我们将图像分割成超像素，并创建覆盖每个超像素区域的原型。通过与内存库中的先前原型一起评估原型的有用性，并将最有用的原型存储在内存库中，以便在下一个序列中进行掩码预测。0因此，无监督VOS任务非常具有挑战性，因为重要的是在输入视频序列中搜索共同对象并有效地提取它们的特征。为了提取共同一致的特征，传统的手工制作方法[33, 11, 62, 49,32]应用了时间轨迹、显著性先验和对象提议技术。然而，这些方法在目标对象随时间的复杂形态变化和极端光照条件下表现不佳。为了解决这个问题，基于深度学习的无监督VOS模型[13, 43, 63, 15, 19,5]最近备受关注。特别是，许多模型[13, 43, 63,15]从光流中提取额外的运动信息，并将其用作共同对象的指导。然而，由于这些模型生成两个相邻帧之间的光流图，它们忽略了远距离帧之间的特征关联，导致性能不佳。由于RGB图像和光流之间存在较大的域差异，有效地融合这两个特征也是困难的。为了解决这些问题59250问题，Schmidtt等人[37]应用3D卷积来使模型学习长距离帧依赖性，但该方法无法进行实时预测。我们提出了一种新颖的原型记忆网络（PMN）来解决无监督VOS的上述困难。图1显示了所提方法的整体流程。许多分割任务的研究[44,3,54]表明，使用超像素进行预处理可以为模型提供有用的特征，并通过对图像像素进行聚类来提高性能。因此，我们首先使用简单的线性迭代聚类（SLIC）算法[2]将RGB图像和光流图分割成超像素，以有效地提取RGB图像的各种细节和纹理信息以及光流图的运动信息。然后，我们从超像素掩码中创建组件原型，重点是原型学习，这在少样本分割任务中被广泛使用[9, 46,26]。我们还提出了原型评分模块（PSM）和记忆库，以增强远距离帧之间的常见特征关联。PSM评分生成的原型的有用性，并仅采样得分最高的原型特征。PSM选择的原型存储在记忆库中，并与下一帧图像生成的原型组合。PSM通过为原型提供新的得分来更新记忆库中的原型。因此，记忆库可以存储过去帧中目标对象的有用特征，以便模型可以在未来帧中进行预测。所提出的PSM是通过自学习技术进行训练的，因为无法手动标记原型的有用性得分。我们在三个流行的数据集上测试了我们的方法：DAVIS16 [34]，FBMS[32]和YouTube-Objects[35]。这些数据集包含各种具有挑战性的场景，所提出的模型在所有三个数据集上都达到了最先进的性能。此外，我们进行了各种消融研究，以证明所提出模型的有效性，并展示了在具有挑战性的视频序列中可以实现稳健的VOS。我们的主要贡献可以总结如下：0•我们提出了一种新颖的PMN，从RGB图像中提取详细信息，从光流中提取运动信息，并加强远距离帧之间的连接性。受少样本分割任务中使用的原型学习的启发，所提出的模型基于超像素算法生成组件原型。0•我们提出了一种PSM来评分生成的原型的有用性，并更新记忆中得分最高的原型。PSM是自我监督的，因为无法标记原型的实用性得分。0• 所提出的网络在DAVIS-16 [34]，FBMS[32]和YouTube-Objects[35]数据集上实现了最先进的性能。此外，我们通过各种消融研究证明了所提出方法的有效性。02. 相关工作0无监督VOS。无监督VOS旨在在视频序列中分割引人注目的对象，无需人工干预。这是以前的单图像显著对象检测任务的扩展，更具挑战性，因为它在视频序列中检测常见的显著对象。传统方法[33, 11, 62, 49,32]使用运动边界、长期点轨迹和物体性来分割常见对象。然而，这些方法经常因为目标对象的遮挡、光照极端和复杂的前景和背景结构而失败。为了在这种具有挑战性的情况下进行稳健的VOS，深度学习方法近年来备受关注。特别是，专注于对象的运动信息的方法[13, 43, 63, 15,16]在无监督VOS任务中表现良好。例如，Fragkiadaki等人[13]通过融合光流和静态边界对段落提案进行排名。Tokmakov等人[43]仅使用光流捕捉运动线索，但由于缺乏详细信息，使用他们的方法难以分割静态对象。此外，MATNet[63]使用运动信息来增强时空对象表示。然而，这种静态和运动信息融合方法在复杂的移动背景下表现不佳，并且存在依赖光流图准确性的问题。原型学习。原型学习是一种学习度量空间的方法，通过计算到每个特征的原型表示的距离来区分特征。特别是，基于原型学习的深度学习模型[9, 46,26, 53, 57,20]在少样本分割任务中表现良好。例如，Wang等人[46]提出了一种模型，使用从支持特征生成的原型创建查询掩码，然后使用从查询特征生成的原型创建支持掩码。Yang等人[53]提出了一种原型混合模型，有效地融合前景和背景原型。Li等人[20]通过基于聚类的自适应原型学习提取稳健特征，并提高了少样本分割性能。我们提出了一种受原型学习启发的记忆原型采样架构，以有效地从视频序列中提取主要对象的特征。然而，与以前的少样本分割方法不同，所提出的方法使用SLIC[2]算法生成代表对象的各种原型。它还通过采样常见对象的原型并将其存储在记忆库中来改善无监督VOS性能。PGMPSM��RGB encoderFlow encoder��Decoder��PGMPSMCMGMCMGMRGB memory bankFlow memory bank��RGB sequenceFlow sequence��RGB superpixel mapFlow superpixel mapPredictive mask sequence��c: ConcatenationThe PGM generates prototypes from the multiscale en-coder features E1, E2, and E3. As shown in Figure. 3, thePGM ﬁrst integrates E1, E2, and E3 using 1 × 1 convolu-tion and upsampling to generate E ∈ RC× H8 × W8 . This ar-chitecture, based on a feature pyramid network (FPN) [23],effectively integrates multiscale features from the encoder.Furthermore, the PGM generates superpixel masks SMt,�� (��or ��)��1��2�� × �� conv & Up-sampling��1��2��3��1��2��3��−2��−1��59260c0c0图2.所提出的原型记忆网络（PMN）的整体架构。原型生成模块（PGM）从图像和光流图中生成原型。原型采样模块（PSM）通过评分提取的原型的有用性来采样最有用的原型。记忆库存储采样的原型，以帮助预测下一帧的掩码。最后，相关性图生成模块（CMGM）从采样的原型生成相关性图。03. 提出的方法03.1. 整体架构0图2显示了所提出的PMN的整体架构。作为输入，PMN使用视频序列中时间t的RGB图像I t RGB ∈ R 3 × H ×W和由I t RGB和I t + 1 RGB及其超像素图S t RGB，S tF生成的光流图I t F ∈ R 3 × H ×W。所提出的模型由三个主要部分组成：PGM，PSM和CMGM。我们还创建了一个RGB记忆库和一个光流记忆库，用于存储在时间t生成的有用原型，并在时间t +1上使用它们进行掩码预测。PMN还具有用于RGB图像和光流图的两个编码器和一个解码器。03.2. 原型生成模块0从时间t的超像素图St中提取N个二进制掩码通道，其中每个通道是一个超像素的二进制掩码，N是超像素的数量。为了从E中生成原型，我们使用SM t作为掩码执行掩码平均池化（MAP），其中SMt被调整为与E相同的大小。因此，PGM生成N个原型0超像素掩码0编码器特征0MAP0原型0��0图3.PGM的架构可视化，它创建代表构成超像素的子区域的整体特征的原型。0类型P E 1，P E 2，...，P E N ∈ R 1 ×C来自E。PGM过程可以总结如下：0P E x =08 � SM tx × GAP � SM t x ◦ E �，(1)0其中GAP（.）是全局平均池化，�（.）是所有像素值的总和，◦是逐元素乘法。此外，x = 1, 2, ...,N。在典型的少样本分割任务[9, 46, 26, 53, 57,20]中，原型学习为每个对象提取一个代表性原型。然而，与以前的方法不同，++��1��2��3��2��−2��−1��1��2��3��+��−2��+��−1��+��cos��1′��2′��3′��1��2��3��+��−2��+��−1��+��′��59270c0多头注意力0最大池化0Sigmoid0��0Transformer块0图4. 所提出的PSM和记忆库的结构。PSM评分新提取的原型的有用性，并将得分最高的原型存储在记忆库中。0所提出的方法基于超像素提取各种组件原型，以便保留RGB图像和光流的各种特征。03.3. 原型评分模块和记忆库0从PGM中提取的原型具有用于创建对象掩码的特征，但也具有不适用的特征。PSM采样最有用的原型并将其存储在记忆库中。换句话说，记忆库存储了前1到t时间帧中的有用原型，并在第t +1帧出现更有用的原型时进行更新。然而，由于我们无法使用地面真值定义原型的有用性，所提出的PSM使用自监督机制进行训练。因此，PSM侧重于包含显著对象一致特征的原型之间的相关性。图4显示了所提出的PSM和记忆库的结构。PSM的第一步是通过连接编码器提取的原型P E 1，P E2，...，P E N和时间t的记忆库M t中的原型P M t 1，P M t2，...，P M t K来生成原型块PB t，其中K是Mt中的原型数量。因此，PB t的大小为（N + K）×C。下一步是一个Transformer块，受到各种视觉Transformer研究的启发[10, 61,51]，以增强原型之间的相关性。与一般的视觉Transformer不同，省略了补丁嵌入过程，因为输入是原型块而不是2D图像。此外，由于所提出的PSM采样了从预提取的对象特征向量中提取的有用原型，所以它由一个Transformer层而不是多个层组成。图4所示的Transformer块由两个层归一化步骤、一个多头注意力层、一个多层感知机层和一个Sigmoid层的串联组成。因此，原型的大小0来自编码器的特征0得分原型相关性0映射0图5.所提出模型的整体流程。我们的模型从超像素图中生成和采样组件原型。它还比较从组件原型创建的相关性图的可靠性，以生成预测的掩码。0通过变换器块传递的原型之间增强的相关性的块大小为(N+K)×C，与输入原型块大小相等。最后，通过最大池化计算采样向量Υ∈[0,1](N+K)，以选择一个有用的原型。最后，将输入原型块PB乘以该采样向量，产生采样的原型块SPBt∈R(N+K)×C。我们还通过从采样的原型SP1，SP2，...，SPN+K中选择具有较大Υ值的前K个样本来更新Mt为Mt+1。因此，内存库更新过程为�PMt+1n�←{SPn}，其中n=1,2,...,K。03.4. 相关性图生成模块0CMGM从采样的原型SP1，SP2，...，SPK和通过1x1卷积层传递的编码器特征E′1，E′2和E′3生成相关性图。因此，我们计算编码器特征和采样原型之间的逐像素余弦相似度，如图5所示。从SPn和E′r生成的相关性图τr表示如下：,(2)59280τr(x,y)=concatn0�E′r(x,y)∙SPn0∥E′r(x,y)∥∥SPn∥0�0其中(x,y)是像素坐标，r=1,2,3，concatn(.)是通道连接运算符，其中n=1,2,...,K。该过程允许模型从关键原型生成自适应的相关性图。03.5. 损失函数0我们使用目标函数L来优化模型，其中L是预测显著图Ipred和真实掩码I gt之间的交并比(IOU)损失[22]，表示为：0L = 1 - min(Ipred(x,y), Igt(x,y)) / max(Ipred(x,y),Igt(x,y))，(3)0其中min(.,.)和max(.,.)表示将两个映射作为输入并输出逐元素最小值和最大值的函数。(x,y)是像素坐标。04. 实验04.1. 数据集和评估指标0我们在以下三个流行的无监督VOS基准数据集上进行实验，以验证我们提出的方法的有效性：DAVIS-16 [34]，FBMS[32]和Youtube-Objects[35]。请注意，大多数现有的无监督VOS方法都使用这些数据集作为测试集[61, 68,32]。因此，我们遵循相同的做法，以确保公平比较。DAVIS-16. DAVIS-16[34]是最受欢迎的无监督VOS数据集，包含30个训练和20个验证的标注视频序列。我们使用三个评估指标：区域相似度J，边界准确度F和整体J&F得分，即J和F得分的平均值。J和F的定义如下：0J = S pred ∩ S gt / S pred ∪ S gt，(4)0F = 2 ×0精确率+召回率，(5)0其中Precision = S pred ∩ S gt / S pred，Recall = S pred∩ S gt / S gt。FBMS. FBMS[32]包含59个视频序列，其中29个用作训练集，30个用于测试。我们使用区域相似度J在没有训练的情况下评估我们的方法。YouTube-Objects. YouTube-Objects[35]包含10个对象类别的126个视频序列。地面真值0在YouTube-Objects中，每10帧中只有一帧进行了稀疏标注。我们按照[56,28,63]的方法，在没有训练的情况下使用区域相似度J来评估我们的方法在测试集上的性能。04.2. 模型训练0我们按照先前的工作[15,36,25,28]的训练方法，将模型分为三个步骤进行训练。首先，我们使用一个著名的显著性数据集DUTS[47]对模型进行预训练，以避免过拟合。DUTS[47]数据集包含单个RGB图像和掩码。因此，只有图2中RGB流的RGB编码器、PGM、PSM、CMGM和解码器进行了预训练。其次，由于提出的模型在RGB流和光流流之间具有完美的对称性，我们将RGB流的预训练参数等同地应用于光流流。最后，整个模型使用DAVIS-16[34]的训练集（30个序列）进行微调。用于预训练和微调的光流图是使用RAFT[42]生成的，RAFT是一个预训练的光流估计模型。此外，创建了30个内存库，与DAVIS-16[34]的序列数量相同，并存储了每个序列中创建的原型。为了防止PSM过度拟合某些原型，每个epoch都会重置所有内存块。04.3. 模型测试0我们按照标准基准[12,34]在DAVIS-16[34]的验证集、FBMS[32]的测试集和Youtube-Objects[35]的测试集上测试我们的模型。与训练阶段类似，我们使用RAFT[42]生成光流图，RAFT是一个在三个测试集上预训练的光流预测模型。此外，我们在每个测试阶段初始化内存库，并为测试数据集中的每个序列创建空的内存库。04.4. 实现细节0我们将超像素的数量N设置为100，内存库中的原型数量K设置为50。骨干编码器网络采用VGG16[38]，预训练于ImageNet[8]。所有图像在训练和推断时都统一调整为352×352像素。对于网络的训练和微调，我们使用Adam优化器[17]，其中β1=0.9，β2=0.999，ϵ=10^-8。学习率采用余弦退火调度器[27]从10^-4衰减到10^-5。总共进行200个epochs，批量大小为12。实验在一块NVIDIA RTX 3090GPU上进行。我们使用开源的深度学习框架PyTorch实现了提出的方法。04.5. 结果0在表1、表2、表3和图6中，我们将提出的模型与先前的最新方法进行了比较。一些研究生成预测掩码和59290表1. 在DAVIS-16[34]数据集上与其他最新方法的性能比较。得分越高越好。最佳和次佳分别用红色和蓝色突出显示。0方法年份骨干网络 CRF J & F ↑ J -均值 ↑ F -均值 ↑0AGS [50] CVPR 2019 ResNet101 [14] � 78.6 79.7 77.4 COSNet [28] CVPR 2019 DeepLabv3 [4] � 80.080.5 79.4 AD-Net [56] ICCV 2019 ResNet101 [14] 81.1 81.7 80.5 AGNN [48] ICCV 2019 DeepLabv3[4] � 79.9 80.7 79.1 MATNet [63] AAAI 2020 ResNet101 [14] 81.6 82.4 80.7 WCS-Net [59] ECCV2020 Ef�cientNetv2 [41] � 81.5 82.2 80.7 DFNet [60] ECCV 2020 DeepLabv3 [4] � 82.6 83.4 81.83DC-Seg [30] BMVC 2020 ResNet152 [14] 84.5 84.3 84.7 F2Net [25] AAAI 2021 DeepLabv3 [4] 83.883.1 84.4 RTNet [36] CVPR 2021 ResNet101 [14] � 85.2 85.6 84.7 FSNet [15] ICCV 2021 ResNet50[14] � 83.3 83.4 83.1 TransportNet [58] ICCV 2021 ResNet101 [14] 84.8 84.5 85.0 AMC-Net [55]ICCV 2021 ResNet101 [14] � 84.6 84.5 84.6 CFAM [5] WACV 2022 ResNet101 [14] 82.8 83.5 82.0IMP [19] AAAI 2022 ResNet50 [14] 85.6 84.5 86.70我们的 VGG16 [38] 85.9 85.4 86.40我们的 VGG16 [38] - 85.9 85.6 86.20表2.与FBMS[32]数据集上其他最先进方法的性能比较。得分越高越好。最佳和次佳分别用红色和蓝色突出显示。0方法年份骨干网络 CRF J-Mean ↑0SFL [6] CVPR 2017 ResNet101 [14] - 56.0 IET [21] CVPR 2018DeepLabv2 [4] - 71.9 PDB [40] ECCV 2018 ResNet50 [14] - 74.0COSNet [28] CVPR 2019 DeepLabv3 [4] - 75.6 F2Net [25] AAAI2021 DeepLabv3 [4] 77.5 AMC-Net [55] ICCV 2021 ResNet101[14] - 76.5 IMP [19] AAAI 2022 ResNet50 [14] 77.50我们的 VGG16 [38] 77.70我们的 VGG16 [38] - 77.80表3.与Youtube-Objects[35]数据集上其他最先进方法的性能比较。得分越高越好。最佳和次佳分别用红色和蓝色突出显示。0方法年份骨干网络 CRF J-Mean0AGS [50] CVPR 2019 ResNet101 [14] - 69.7 COSNet [28] CVPR 2019DeepLabv3 [4] - 70.5 AGNN [48] ICCV 2019 DeepLabv3 [4] - 70.8MATNet [63] AAAI 2020 ResNet101 [14] 69.0 WCS-Net [59] ECCV2020 Ef�cientNetv2 [41] - 70.9 RTNet [36] CVPR 2021 ResNet101[14] - 71.0 AMC-Net [55] ICCV 2021 ResNet101 [14] - 71.10我们的 VGG16 [38] 71.80我们的 VGG16 [38] - 71.80然后对其应用条件随机场（CRF）[18]进行后处理。因此，表1、表2和表3还展示了我们的模型应用CRF的结果。定量结果。表1、表2和表3显示了定量结果。0提出的SPSN在所有三个具有挑战性的数据集上都取得了最先进的性能，即使在不使用CRF进行后处理的情况下。我们通过下一节的各种消融研究来证明所提出模块的有效性。定性结果。图6显示了我们的模型在各种具有挑战性的视频序列中的可视化结果。首先，在Breakdance序列中，所提出的模型在复杂的背景情况下表现出鲁棒性，背景中有许多外观类似于目标对象的物体。在BMX-Trees序列中，即使目标对象被遮挡，也可以实现准确的掩码生成。最后，Motocross-Jump序列显示了所提出的模型能够在对象的尺度发生极端变化时进行一致的特征提取。这些结果表明，所提出的SPSN从先前帧中提取目标对象的共同特征，并将其存储在记忆库中，从而排除对非共同对象的影响。04.6.消融分析0我们通过各种消融研究验证了我们模型的性能。表4显示了所提出模块在不同组合中的效果。表4中的指标(c)、(d)、(e)和(f)显示了所提出的PSM和记忆库的效果。此外，我们将所提出的变压器块与简单的多层感知器（MLP）的性能进行了比较。表4显示，使用PSMN提出的变压器块比使用简单的MLP更有效。这些结果表明，自注意机制59300时间0我们的COSNetMATNetFSNet我们的COSNetMATNetFSNet我们的COSNetMATNetFSNet0BreakdanceBmx-TreesMotocross-Jump0图6.将我们的方法与之前的最先进方法FSNet [15]、MATNet [63]和COSNet[28]进行定性比较。我们的方法在各种具有挑战性的视频中展示了鲁棒的掩码预测。0PSMN中的变压器块机制可以增强原型之间的相关性，并有效地提取有用的特征。此外，当使用所提出的记忆库时，它显示出显著的性能改进。这是因为PSM和记忆库可以递归地采样和存储用于准确的掩码预测的有用原型。0超像素算法的影响。表5显示了在DAVIS-16[34]数据集上不同原型提取方法的性能。随机采样方法(a)将图像中的随机像素视为超像素，并从该坐标生成原型。网格方法(b)使用均匀分割的方形掩码从图像中生成原型。我们将原型的数量设置为84.284.484.684.885.085.285.485.685.886.086.20102030405060708090100J&FJ-MeanF-Mean59310表4. 在DAVIS-16 [34]数据集上，使用我们的不同组合的性能。得分越高越好。RE和FE分别表示RGB图像和流图的编码器。0索引0方法0J & F↑ J-Mean↑ F-Mean↑ 编码器 PSMN 内存库 CMGM RE&PGM FE&PGM Transformer MLP0(a) 82.5 82.3 83.7 (b) 83.3 83.0 83.6 (c) 84.1 84.0 83.9 (d) 85.0 84.9 85.1 (e) 84.5 84.4 84.6 (f) 85.9 85.4 86.40表5. 在DAVIS-16[34]数据集上原型采样方法的统计比较。得分越高越好。0索引方法 J & F↑ J-Mean↑ F-Mean↑0(a) 随机 85.0 85.0 85.1 (b) 网格 85.2 85.1 85.3 (c)超像素 85.9 85.4 86.40将原型的数量N设置为相同的值，N =100。如表5所示，我们提出的基于超像素的组件采样方法优于其他方法，表明其捕捉视频序列的共同特征的能力强。内存库的大小图7比较了DAVIS-16 [34]上的J &F↑得分，根据存储在内存库中的原型的最大数量K。结果显示，当K =50时，模型的性能最佳，当K大于50时，性能变化很小。这表明，如果内存库的容量超过一定水平，可以容纳足够数量的原型用于目标对象提取。此外，我们在图8中可视化了新添加原型的位置。如图8所示，新添加的原型通常位于显著对象上，表明所提出的模型可以采样到有用的原型。05. 结论0我们提出了一种新颖的PMN架构，用于无监督的VOS任务。PMN从RGB图像中提取外观特征，从流图中提取运动特征，通过从输入中生成组件原型。此外，模型评分每帧中原型的有用性，并自适应地将最有利的原型存储在内存中，并删除过时的原型。存储在内存库中的原型通过强调远距离帧之间的连通性来增强掩码预测性能。我们的模型在三个流行的数据集上进行了评估，取得了最先进的性能。0K0图7. 在DAVIS-16 [34]数据集上，根据K的性能特征比较。设置K =0与不使用内存库相同。0Car-Roundabout0图8.在Car-Roundabout类别的测试中，可视化得分最高的两个原型添加到内存库中。红色标记的超像素区域表示每个序列中新添加到内存库中的部分。0致谢。本研究得到了韩国国家研究基金会（NRF）通过高级综合智能识别（AIID）研发计划的支持（NRF-2018M3E3A1057289），韩国科学技术部（NRF）资助的KIST机构计划（项目编号2E31051-21-203）以及2021年延世大学研究基金（2021-22-0001）的支持。0参考文献0[1] Alexey Abramov, Karl Pauwels, Jeremie Papon, FlorentinW¨org¨otter, and Babette Dellen. Depth-supportedreal-time video segmentation with the kinect. In 2012 IEEEworkshop on the applications of computer vision (WACV),pages 457–464. IEEE, 2012.0[2] Radhakrishna Achanta，Appu Shaji，Kevin Smith，Aurelien59320Lucchi，Pascal Fua和SabineS¨usstrunk。与最先进的超像素方法相比，Slic超像素。IEEE模式分析与机器智能交易，34（11）：2274-2282，2012年。0[3] Alberto Bailoni，Constantin Pape，NathanH¨utsch，Steffen Wolf，Thorsten Beier，AnnaKreshuk和Fred AHamprecht。Gasp，用于带符号图的凝聚聚类的广义框架及其在实例分割中的应用。在IEEE/CVF计算机视觉和模式识别会议论文集中，页码11645-11655，2022年。0[4] Liang-Chieh Chen，George Papandreou，FlorianSchroff和HartwigAdam。重新思考用于语义图像分割的空洞卷积。arXiv预印本arXiv:1706.05587，2017年。0[5] Yi-Wen Chen，Xiaojie Jin，Xiaohui Shen和Ming-HsuanYang。通过对比特征和注意力模块进行视频显著对象检测。在IEEE/CVF冬季计算机视觉应用会议论文集中，页码1320-1329，2022年。0[6] Jingchun Cheng，Yi-Hsuan Tsai，ShengjinWang和Ming-HsuanYang。Seg�ow：视频对象分割和光流的联合学习。在IEEE国际计算机视觉会议论文集中，页码686-695，2017年。0[7] Suhwan Cho，Heansung Lee，Minjung Kim，SungjunJang和SangyounLee。用于视频对象分割的像素级双射匹配。在IEEE/CVF冬季计算机视觉应用会议论文集中，页码129-138，2022年。0[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，Kai Li和LiFei-Fei。Imagenet：一个大规模的分层图像数据库。在2009年IEEE计算机视觉和模式识别会议上，页码248-255。IEEE，2009年。0[9] Nanqing Dong和Eric PXing。原型学习的少样本语义分割。在BMVC中，卷3，2018年。0[10] Alexey Dosovitskiy，Lucas Beyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner，Mostafa Dehghani，Matthias Minderer，GeorgHeigold，SylvainGelly等。一幅图像相当于16x16个单词：用于图像识别的Transformer。arXiv预印本arXiv:2010.11929，2020年。0[11] Alon Faktor和MichalIrani。非局部一致性投票进行视频分割。在BMVC中，卷2，第8页，2014年。0[12] Deng-Ping Fan，Wenguan Wang，Ming-MingCheng和JianbingShen。将更多注意力转移到视频显著对象检测上。在IEEE/CVF计算机视觉和模式识别会议论文集中，页码8554-8564，2019年。0[13] Katerina Fragkiadaki，Pablo Arbelaez，PannaFelsen和JitendraMalik。学习在视频中分割移动对象。在IEEE计算机视觉和模式识别会议论文集中，页码4083

下载后可阅读完整内容，剩余1页未读，立即下载