无监督视频对象分割的运动选项网络

125 浏览量更新于2023-10-15 收藏 2.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5140RGB图像分割掩码在无监督视频对象分割Suhwan Cho1Minhyeok Lee1Seunhoon Lee1ChaewonPark1 Donghyeong Kim1Sangyoun Lee1，21延世大学2韩国科学技术学院（KIST）流量图（一）流图或RGB图像（b）第（1）款图1.（a）传统的双流VOS网络和（b）我们提出的运动选项网络的可视化比较摘要无监督视频对象分割（VOS）的目的是在像素级上检测视频序列中最显著的对象。在无监督VOS中，除了外观线索之外，大多数现有技术的方法还利用从光流图获得的运动线索来利用突出对象与背景相比通常具有独特运动的特性。然而，由于它们过度依赖于运动线索，这在某些情况下可能是不可靠的为了减少现有双流VOS方法的这种运动依赖性，我们提出了一种新的运动选项网络，该网络可选地利用运动线索。此外，为了充分利用所提出的网络的属性，即运动并不总是需要的，我们引入了一个协作网络学习策略。在所有公共基准数据集上，我们提出的网络提供了最先进的性能和实时推理速度。代码和型号可在https://github.com/suhwan-cho/TMO上获得。1. 介绍视频对象分割（VOS）是计算机视觉中的一项基本在像素级的给定视频序列中。由于其在实际应用中的强大适用性，例如机器人、视频编辑和自动驾驶，它被广泛应用于许多视觉系统。根据对分割对象的引导，VOS可分为半监督VOS（初始掩码引导）、无监督VOS（无引导）、弱监督VOS（初始框引导）、交互式VOS（人工引导）和参考VOS（语言引导）等子类别。本文研究的对象是无监督的VOS，也称为零激发VOS，它不需要对待分割的目标对象进行人工标注由于没有提供关于对象的明确指导，目的是自动定义给定视频序列的显著对象，并一致地分割整个帧的对象。受显著对象与背景相比通常具有独特运动的观察的启发，用于无监督VOS的最近方法利用从光流图获得的运动线索以及从RGB图像获得的外观线索。外观和运动提示在特征嵌入过程中融合，以提供相互指导，如图1（a）所示。MATNet [41]包括用于对象外观和运动之间的分层交互的深度交织编码器架构。FSNet [7]包括用于相互校正和双向交互的关系交叉注意模块。此外，AMC-Net [35]具有多模态共同关注门，以将跨模态特征集成到统一的特征表示中。虽然这些RGB图像分割掩码5141JJG方法实现了显著的性能，但是它们对低质量的光流图敏感，因为它们强烈地依赖于运动提示。为了克服这一限制，我们设计了一种新的网络，该网络的运行与运动可用性无关，称为运动选项网络，如图1（b）所示。建议的网络是基于简单的编码器-解码器架构。编码器从RGB图像和光流图中提取语义特征，而解码器通过融合和解码这些特征来生成对象分割掩模与现有的双流VOS方法（如MATNet、FSNet和AMC-Net）相比，我们分别对相应的线索进行编码，并在特征嵌入过程之后通过简单的求和来融合它们。此外，运动流自适应地打开或关闭，使其更少地依赖于运动线索。如果运动流被打开，则运动提示被添加到外观提示以构造最终提示，并且如果运动流被关闭，则仅外观提示被用于构造最终提示（RGB图像被用作运动编码器的输入与现有的双流方法相比，所提出的运动选择网络具有两个主要优点：1）它对低质量光流图是鲁棒的，因为网络是在将运动视为选项的同时学习的; 2）在推理过程中不需要使用优化流图，大大提高了算法的适用性和可用性。为了充分利用所提出的运动选项网络的特性，我们还提出了一种协作网络学习策略。由于在所提出的网络中可选地采用运动线索，因此需要在训练阶段提供具有光流图和不具有光流图的训练样本，获得这些训练样本的一种直接方法是有意地和随机地丢弃VOS训练样本中的光流图然而，为了更好地利用光学流图并不总是需要的优势，我们还采用了显著对象检测（SOD）训练样本来提供大规模数据。当运动流被打开时，使用VOS训练样本，并且光流图被馈送到运动编码器中作为输入。当运动流关闭时，使用SOD训练样本，并将RGB图像作为输入送入运动编码器。我们在无监督VOS的公共基准数据集上验证了我们提出的方法，DAVIS 2016 [21]验证集，FBMS [19]测试集和YouTube-Objects [22]数据集，通过定量和定性地将其与其他最先进的方法进行比较。在所有基准数据集上，我们提出的方法优于现有方法，同时在单个GeForce RTX 2080 Ti GPU上保持40+ fps的异常快速的推理速度。我们相信，我们的简单，快速，强大的解决方案朝着高效和适用的VOS迈出了有意义的一步，并可以作为未来研究的坚实基础。我们的主要贡献可概括如下：• 我们引入了一种新的运动作为选项的网络，可选地利用运动线索和协作网络学习策略，最大限度地提高了所提出的网络的优势。• 所提出的运动作为选项网络对低质量的光流图表现强劲，甚至可以在没有光流图的情况下运行。• 在公共基准数据集上，所提出的网络实现了最先进的性能，在DAVIS 2016验证集上的得分为86.1%，在FBMS测试集上的得分为79.9%，在YouTube对象数据集上的得分为71.5%。• 与其他采用复杂架构设计的最新方法相比，我们的方法采用简单的编码器-解码器架构设计2. 相关工作时间相干性。视频的关键属性是相同视频序列的不同帧共享彼此高度相关的类似内容。在无监督VOS中，一些方法已经利用了视频的这种局部性，即，在视频的每一帧COSNet [17]从整体观点强调视频帧之间的该算法采用全局共同注意机制来捕捉视频中频繁出现的显著对象。AGNN [30]通过将每个帧视为节点并将帧之间的关系视为边缘来解决显著对象的再现问题。通过对帧的迭代信息融合，可以获得对视频内容的完整DFNet [40]通过从全局角度学习区分性表示来获得视频不同帧之间的固有长期相关性AD-Net [36]和F2 Net [16]通过在参考帧和查询帧的像素嵌入之间建立密集的对应关系，重新考虑视频中的长期时间依赖性。由于这些方法需要多个帧来计算相干性，因此不能独立地推断视频中的每个单独的帧。运动信息。为了利用显著对象通常具有可以与背景区分开的独特运动的特性，一些方法已经利用了从预先训练的光流估计模型获得的短期运动信息。MATNet[41]有一个双流编码器，采用RGB图像和光流图分别处理外观和运动，这是第一次执行RTNet [23]关注的问题是，运动信息有时5142------分割掩码图2.我们提出的网络架构分别从RGB图像和RGB图像或光流图中分离地提取外观和运动特征如果打开运动流，则同时利用外观和运动提示，而如果关闭运动流，则仅利用外观提示。融合后的特征在外观和运动嵌入后由解码器逐步解码，以预测最终的二值分割掩码。太嘈杂，这会导致对物体的误导。为了解决这个问题，提出了一种互逆变换网络来关联帧内对比度、运动线索和重复出现对象的时间相干性。FSNet [7]引入了一种全双工策略，以更好地在外观和运动信息之间交换有用的线索。它包括一个关系交叉注意模块，以实现跨嵌入子空间的双向消息传播。Trans- portNet [38]建立了感知和运动线索之间的对应关系，同时通过使用Sinkhorn层的最佳结构匹配来抑制分散注意力的AMC-Net [35]调节外观和运动特征的权重，并通过评估每个模态的重要性来抑制冗余和错误引导信息。由于在这些双流方法中分别处理每个帧，因此仅需要RGB图像和光流图来推断每个帧。然而，由于它们高度依赖于光流图的质量（易受低质量光流图的影响），因此不能实现稳定且可靠的预测。网络学习策略。由于与其他视觉任务相比，无监督VOS的训练数据量不足，现有方法采用各种网络学习策略进行有效的网络训练。AGS [31]利用两个图像SOD数据集DUT [34]和PASCAL-S [14]，两者都提供静态凝视数据和分割注释用作外部数据。COSNet和AGNN使用在MSRA 10K [2]和DUT上训练的预训练分割模型，并在DAVIS 2016 [21]训练集上微调网络。RTNet和FS-Net在对视频进行主要训练之前对DUTS [29IMP [13]采用在大型数据集上训练的预训练半监督VOS模型，如COCO [15]和YouTube-VOS 2018 [33]。3. 方法3.1. 问题公式化无监督VOS旨在预测二进制分割掩码O：=O0，O1，.，OL−1使用输入RGB图像I：=I0，I1，.，IL-1，其中L是给定视频序列的长度。为了利用运动以及外观信息，光流图F1=F0，F1，.，FL-1使用预先训练的光流模型生成，并在将2通道运动矢量转换为3通道RGB值后用作输入。遵循现有的双流VOS方法，例如MATNet [41]、FSNet [7]和AMC-Net [35]，在我们的方法中逐帧处理输入视频。当推断O i时，仅需要I i和F i。3.2. 运动选择网络为了减少现有的双流方法的运动依赖性，这是容易受到低质量的光流图，我们提出了一种新的运动选项网络，灵活地利用运动线索，以减少运动依赖性。图2显示了我们提出的运动选项网络的架构。单独的编码器。考虑到外观和运动线索具有不同的优势，可以互补，现有的双流方法采用强连接编码器。在每个编码块之后，外观和运动特征交换它们的信息，彼此施加约束。由于外观编码器和运动编码器不能分离，因此它们可以被视为具有RGB图像和光流图作为其输入的单个编码器。因此，现有的双流VOS方法非常依赖于从光流图中提取的运动线索，这在使用低质量光流图作为输入时导致严重错误。解码块RGB图像流图或RGB图像X3X2X1X3X2X1M1A1M2A2M3A3M4A4X4X4D1D2D3ConvCBAM起5143k=1k=1k=1k=1⊕联系我们- -与现有的双流方法不同，我们使用两个单独的编码器来独立地嵌入外观特征和运动特征。让我们将外观特征表示为A kK，将运动特征表示为M kK其中K是编码器中的块的数量，并且较高的k值指示较高级别的特征。从RGB图像中提取外观特征，而从RGB图像或光流图中获得运动特征。在融合了外观特征和运动特征后，结构，融合特征{X k}K 可以被定义为X k=A k+ M k。（一）由于外观特征和运动特征分别嵌入，然后融合，可以很容易地实现分离的外观这使得我们的网络对不准确的运动线索具有鲁棒性，因为网络变得不那么依赖于运动流。此外，考虑到RGB图像和光流图都用作网络训练期间运动编码器的输入，可以防止网络过度拟合到显式运动提示。这也极大地增加了运动作为选项网络的可用性和适用性，因为它在推理期间不一定需要光流图。译码器解码器细化融合的特征并生成二进制分割掩码。为了产生高分辨率的掩模，融合的特征使用设计类似于TBD [4]的解码块逐渐细化每个解码块包括混合不同特征的卷积层，增强通道和空间特征表示的CBAM层[32]，以及增加特征空间大小的上采样层并不总是需要流图当采用VOS样本时，光流图用作运动编码器的输入，而当采用SOD样本时，RGB图像用作运动编码器的输入。虽然以协作方式提供训练样本听起来很合理，因为它最大限度地提高了所提出的网络的效率，但由于VOS和SOD数据的格式不同，它不能简单地在GPU设备上实现。为了使批量训练能够加速网络训练并确保稳定性，我们使用了一个简单的索引技巧。首先，从包括VOS和SOD训练样本的数据集生成训练数据样本对于每个VOS训练样本，加载RGB图像、光流图和地面实况分割掩模。相比之下，对于每个SOD训练样本，加载RGB图像和地面真值分割掩码。然后，为了确保样本具有相同的格式，生成空张量并将其视为SOD样本的光流图为了验证光流图的有效性，为每个训练样本分配运动有效性指数。对于VOS和SOD样本，其分别设置为1和0。使用生成的索引，实现特征融合过程，如代码清单1所示。假设k表示第k个解码块，其中，较高的k值指示较高的分辨率、解码特征{Dk}K可以获得.k（XK−k+1）k=1Dk=k（Dk−1<$XK−k+1）否则，（二）其中表示信道级联。在K个解码块之后，可以在使用argmax操作的值量化之后定义最终分割掩码0。第一和第二通道分别表示背景和前景分割图。3.3. 协作学习策略所提出的运动作为选项网络的关键属性是其可选地利用光流图。为了按照我们的网络设计目标训练网络，在网络训练期间需要具有和不具有光流图的一个简单的方法来实现这一点是故意和随机丢弃光流图的VOS训练样本。然而，我们采用SOD训练样本，充分发挥了所提出的网络的优势，光学代码列表1.批量训练的特征融合过程。3.4. 实现细节光流图。为了利用运动信息以及外观信息，我们从光流图中提取语义运动线索。为了在帧i处生成流图，我们将帧i视为起始帧并且将帧i+1视为目标帧。如果i是视频的最后一帧，即， L1，我们把i1作为目标帧。作为光流估计网络，我们使用RAFT [28]在# A：外观特点# M：运动特征# X：融合功能A，M，X={}，{}，{}# image：（Bx3xHxW），RGB图像#提取外观特征a= image对于K中的 k：A[k]=app_block_k（a）a= A[ k]# i：（Bx1x1x1），运动有效性索引# flow：（Bx3xHxW），光流图#提取运动特征m= i*流量+（1- i）*图像对于K中的 k：M[ k] = mo_block_k（m）m= M[ k]#生成融合特征对于K中的 k：X[ k] = A[ k] + M[ k]5144×JF J.FJ=. MGJF.Mgt.× ×Sintel [1] dataset.在不改变VOS数据样本的原始分辨率的情况下执行光流图生成为了减少冗余的训练和测试时间，我们提前生成并保存光流图，而不是在推理过程中立即计算它们编码器。遵循大多数现有的非监督VOS方法，例如COSNet [17]，AD-Net [36]和MAT-Net [41]，我们采用ResNet-101 [5]作为我们的骨干编码器。它总共包括四个区块，即，K=4。与输入分辨率相比，从第k个块提取的特征具有1/2k+1的比例为了保留从大量训练样本中学习到的丰富特征表示，我们使用ImageNet [12]预训练版本初始化外观和运动3.5. 网络训练数据准备为了获得训练数据的多样性，我们采用VOS和SOD数据集，如第3.3节所述。作为VOS训练数据集，采用DAVIS 2016 [21]训练集。请注意，FBMS [19]也有一个训练集，但不适用于遵循无监督VOS中通用协议的作为SOD训练数据集，采用DUTS [29]我们使用DUTS训练集和测试集作为我们的训练数据集。训练数据分别以25%和75%的固定概率从VOS和SOD样本中随机采样。培训详情。在所有的训练阶段，我们重新调整大小的RGB图像，光流图，和分割掩模到384 384分辨率。我们使用双三次插值来调整RGB图像和光流图的大小，而最近插值用于分割掩模以将值维持为0或1。对于网络优化，我们使用交叉熵损失和亚当优化器[10]。学习速率被设置为1 e-5而不学习速率衰减，4.1. 数据集为了验证我们提出的方法的有效性，我们使用了四个数据集，广泛采用的非监督VOS。对于网络训练，使用DUTS [29]和DAVIS 2016 [21]。对于网络测试，使用 DAVIS 2016 ， FBMS [19] 和 YouTube-Objects[22]。DUTS。DUTS是最大的SOD数据集，包括10，553个训练图像和5，019个测试图像，每个图像都有密集注释的地面真值分割掩码。DAVIS 2016. DAVIS 2016是VOS任务最受欢迎的数据集之一。它包含30个训练视频序列和20个验证视频序列，仅包含单对象场景。FBMS。FBMS包括59个视频序列，并且总共720个帧被注释。在一些序列中，多个对象被注释为显著对象。YouTube-Objects.YouTube-Objects 数据集由从YouTube收集的视频组成，包含10个对象类。每个类包含9至24个视频序列。由于没有训练集/测试集分离，因此它仅用于网络验证。4.2. 评估指标无监督VOS方法的性能可以使用与一般图像分割任务类似的协议进行定量评估。通常采用两种测量方法：和.是测量区域准确度的度量。它等于正常的交并（IoU）度量，可以表示为. 我很高兴。GTpred并且批量大小被设置为16。遵循现有的半监督VOS算法，例如STM [20]，KMN [25]，CFBI [37]和BMVOS[3]，我们在训练期间冻结所有批次标准化层[6网络训练在两个GeForce RTX 2080 Ti GPU上实现，耗时更少其中，Mgt和Mpred分别表示地面实况和预测的二进制分割掩码。轮廓精度也是一个基于IoU的指标，但它仅针对对象边界计算，超过20小时。精度=. 我很高兴。、（四）4. 实验在本节中，我们首先在第4.1节中描述了本研究中使用的数据集。定量评价方法性能的评价指标见第4.2节。我们的方法与其他最先进的方法的定量和定性比较分别在第4.3节和第4.4最后，我们thor- oughly验证我们提出的方法的有效性进行了广泛的分析，在第4.5节。我们的方法简称为TMO。.Mpred.Recall=. 我很高兴。、（五）2精度召回=.（6）精确度+召回率度量是和的平均值，也是评估VOS性能的广泛使用的度量。F∪M、（3）5145××××××××××××××GGG表1.DAVIS 2016验证集和FBMS测试集的定量评价OF和PP分别表示光流估计模型和后处理技术的使用DAVIS 2016 FBMS方法出版物分辨率PP fpsGMJMFMJMPDB [27] ECCVMOTAdapt [26] ICRAAGS [31] CVPRCOSNet [17] CVPRAD-Net [36] ICCVAGNN [30] ICCVMATNet [41] AAAIWCS-Net [39] ECCVDFNet [40] ECCV[16]第十六届全国人大常委会委员长会议[23]第21届中国国际纺织品展览会FSNet [7] ICCV[38] ICCVAMC-Net [35] ICCVD2 Conv3D [24] WACVIMP [13] AAAITMO384×38443.2 86.1 85.6 86.679.9表2.YouTube-Objects数据集上的定量评估性能用J均值报告4.3. 定量结果我们定量评估了我们的方法的性能，并将其与其他最先进的方法在三个流行的基准数据集上进行了比较：DAVIS 2016 [21]验证集，FBMS [19]测试集和YouTube-Objects [22]数据集。DAVIS 2016. 在表1中，我们评估了我们的方法在DAVIS 2016验证集上的性能。为了进行公平比较，我们还报告了后处理技术的使用，例如全连接CRF [11]和AD-Net [36]中提出的实例此外，为了考虑每种方法的效率，报告了FPS公开可用的方法的推理时间。注意，不考虑后处理时间和光流图生成时间。该表显示D2 Conv3D [24]它的得分为86.0%，但由于它基于3D卷积层，因此需要大量的网络预训练数据，例如Kinetics 400 [9]和Sports-1 M [8]。IMP [13]也表现出显著的性能，得分为85.6%，但由于它需要对视频的所有帧进行全局观察以选择最佳起始帧，因此无法以在线方式运行与牺牲适用性以获得更高精度的方法不同，WCS-Net [39]非常实用，推理速度相对较快，为33.3 fps。然而，其性能无法与其他最先进的方法相比。即使没有后处理技术和保持在线可用性，我们的方法也优于所有其他方法，得分为86.1%，推断速度异常快，为43.2 fps。FBMS。 FBMS测试集的定量评价也见表1。在现有的方法中，反式-33.381.582.280.7-✓3.5782.683.481.8-✓4.5584.584.384.7-10.083.783.184.477.5✓ ✓-85.285.684.7-12.5分83.383.483.1-方法飞机鸟船车猫牛狗马摩托车火车是说[第27话]78.080.058.976.563.064.170.167.658.435.365.5AGS [31]87.776.772.278.669.264.673.364.462.148.269.7COSNet [17]81.175.771.377.666.569.876.867.467.746.870.5AGNN [30]71.175.970.778.167.969.777.467.368.347.870.8MATNet [41]72.977.566.979.073.767.475.963.262.651.069.0WCS-Net [39]81.881.167.779.264.765.873.468.669.749.270.5RTNet [23]84.180.270.179.571.870.171.365.164.653.371.0[35]第三十五话78.980.967.482.069.069.675.863.063.457.871.1TMO85.780.070.178.073.670.376.866.258.647.071.55146JJ图3.DAVIS 2016验证集上不同方法的定性比较portNet [38]以78.7% 的得分获得最佳性能。F2Net[16] 和 IMP 的表现也令人印象深刻，J 得分为77.5%。我们的方法通过所有其他方法，J得分为79.9%。YouTube-Objects. 在表2中，对YouTube-Objects数据集上的现有技术方法的性能进行了定量比较。对于YouTube-Objects数据集，使用类别准确度和总体准确度评估模型性能，类别准确度表示每个类别中序列的平均得分，总体准确度表示所有序列的平均得分整个数据集中的序列。TMO的总体准确率最高，为71.5%。YouTube-Objects数据集上的性能证明了我们的方法在挑战性场景中的有效性。4.4. 定性结果我们在图3中的DAVIS 2016 [21]验证集上将我们的方法与最先进的MATNet [41]和FSNet [7]进行了定性比较。为了进行公平的比较，我们选择了利用从TMOFSNetMATNet流量图RGB图像TMOFSNetMATNet流量图RGB图像5147G预训练的光流估计模型作为我们提出的方法。如图所示，MATNet和FSNet会产生噪声结果，特别是当光流图令人困惑或不清楚时，例如，第三和第四帧表3.消融研究网络训练和测试协议。训练表示网络训练采用的训练协议.测试表明输入的运动编码器在推理过程中。D、F 和 Y 分别表示 DAVIS 2016 验证集、 FBMS 测试集和YouTube-Objects数据集。低序。在这种情况下，他们不能...最后处理流图的错误，因为网络高度依赖于运动提示。与这些方法不同，TMO即使在流图的质量较低时也可以始终如一地生成精细和准确的分割掩模，因为整个管道是通过将运动视为选项来学习的。定性结果还表明，我们的方法可靠和稳定的VOS相比，其他国家的最先进的VOS方法的优越性。4.5. 分析我们对表3中我们的方法的网络训练和测试协议进行消融研究。使用VOS样本训练的网络、使用SOD和VOS样本顺序训练的网络以及使用VOS和SOD样本协作训练的网络在使用和不使用运动流的情况下进行比较。如第3.5节所述，我们使用DAVIS 2016 [21]训练集作为VOS样本，使用DUTS [29]训练集和测试集作为SOD样本。对于网络测试，DAVIS 2016采用分数验证集，而对于 FBMS [19] 测试集和 YouTube-Objects [22]数据集，采用J评分协作学习策略。我们通过比较模型I、模型II和模型III来验证我们提出的协作网络学习策略的有效性。如果仅采用VOS样本进行网络训练，如模型I，由于DAVIS2016训练集中的训练样本数量较少，性能不理想。在所有数据集上的低性能表明网络过拟合发生。为了防止过拟合问题，现有的双流方法，包括COSNet [17]和FSNet [7]，在SOD数据集上预训练网络，如MSRA10K[2]和DUTS数据集，然后在DAVIS 2016训练集上对其进行微调为了模拟这个协议进行公平的比较，我们首先在SOD样本上对网络进行预训练，然后在VOS样本上对其进行微调，如模型II所示。虽然这种方法可以在一定程度上缓解过拟合问题，但网络仍然过度拟合训练集。相比之下，如果采用我们提出的协作网络学习策略，如在模型III中，该模型不会遭受过拟合问题，因为VOS和SOD样本都被联合用于网络训练。在所有测试数据集上，我们的方法优于其他训练协议，证明了协作网络学习策略的有效性运动依赖性。为了确定每个训练策略在多大程度上使模型依赖于运动线索，我们还报告了RGB图像输入运动编码器时的性能。对于使用VOS样本并使用SOD和VOS样本进行顺序训练，当光流图不可用时，DAVIS 2016验证集的性能下降很而采用协同学习策略时，性能下降仅为6.1%，证明了协同学习策略大大降低了网络的运动依赖性。值得注意的是，与DAVIS 2016验证集、FBMS测试集和YouTube-Objects数据集的一致性似乎并不依赖于运动提示。具体来说，模型VI在FBMS测试集和YouTube-Objects数据集上的得分高于模型III。这也支持将运动视为减少运动依赖性的选项的需要，因为光流图并不总是可靠的。5. 结论在无监督的VOS中，外观流和运动流的组合使用是一种有效而强大的工具。然而，现有的双流方法由于在早期融合了感知和运动线索，因此它们非常依赖于运动线索。这使得它们容易受到低质量光流图的影响，降低了它们的可用性和可靠性。为了缓解这种担忧，我们提出了一种运动作为选项的网络，它不高度依赖于运动线索，也可以只与外观线索。此外，为了充分利用这一特性，提出了一种协作在所有公共基准数据集上，我们的方法提供了一个新的最先进的性能与实时推理速度。我们相信，我们简单，快速，强大的方法可以作为一个坚实的基础，为未来的VOS研究。谢谢。这项工作得到了&&韩国政府（MSIT）资助的信息通信技术规划评估研究所（IITP）的支持（编号：2021-0-00172，基于CCTV摄像头的人类再识别和蒙面人脸识别的开发）和KIST机构计划（项目编号2E31051 -21-203）。版本培训测试D F Y我VOS流76.559.257.2IIIIISOD→ VOSVOS SOD流量流量82.186.174.779.963.071.5IVVOS图像63.752.852.6五、六SOD→ VOSVOS SOD图像Image73.080.076.880.069.373.15148引用[1] D. J. Butler，J. Wulff，G. B. Stanley和M. J.布莱克。一个自然的开放源代码电影光流评估。在A.菲茨吉本等人（编），编辑，欧洲会议关于计算机视觉（ECCV），第IV部分，LNCS 7577，第611-625页。Springer-Verlag，Oct. 2012年。[2] 作者：Niloy J. Mitra，Xiaolei Huang，PhilipH. S. Torr和Shi-Min Hu.基于全局对比度的显著区域检测。IEEE TPAMI，37（3）：569[3] Suhwan Cho，Heansung Lee ，Minjung Kim ，SungjunJang，and Sangyoun Lee.用于视频对象分割的像素级双射匹配。在IEEE/CVF Winter计算机视觉应用会议论文集，第129[4] Suhwan Cho，Heansung Lee，Minhyeok Lee，ChaewonPark，Sungjun Jang，Minjung Kim，and Sangyoun Lee.解决视频对象分割中的背景干扰问题。arXiv预印本arXiv：2207.06953，2022。[5] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[6] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。[7] Ge-Peng Ji ， Keren Fu ， Zhe Wu ， Deng-Ping Fan ，Jianbing Shen，and Ling Shao.视频对象分割的全双工策略。在IEEE/CVF计算机视觉国际会议论文集，第4922-4933页[8] Andrej Karpathy ， George Toderici ， Sanketh Shetty ，Thomas Leung，Rahul Sukthankar，and Li Fei-Fei.使用卷积神经网络进行大规模在IEEE计算机视觉和模式识别会议的论文集，第1725-1732页[9] Will Kay ， Joao Carreira ， Karen Simonyan ， BrianZhang，Chloe Hillier，Sudheendra Vijayanarasimhan ，Fabio Viola，Tim Green，Trevor Back，Paul Natsev，etal. 人体运动视频数据集。 arXiv 预印本 arXiv ：1705.06950，2017。[10] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[11] Phi l ippKr aühenbuühl和VladlenKoltun。具有高斯边势的全连通crfs的有效推理神经信息处理系统的进展，24，2011。[12] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。Communications of the ACM，60（6）：84[13] Youngjo Lee，Hongje Seong，and Euntai Kim.迭代地选择一个简单的参考帧，使无监督的视频对象分割更容易。在AAAI人工智能会议论文集，第36卷，第1245-1253页[14] Yin Li，Xiaodi Hou，Christof Koch，James M Rehg，and Alan L Yuille.显着对象分割的秘密。在IEEE计算机视觉和模式识别会议论文集，第280-287页[15] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[16] 刘岱宗、董东余、王长虎、潘周。F2net：学习专注于无监督视频对象分割的前景在AAAI人工智能会议论文集，第35卷，第2109- 2117页[17] Xiankai Lu ， Wenguan Wang ， Chao Ma ， JianbingShen，Ling Shao，and Fatih Porikli.查看更多，了解更多：基于共同注意连体网络的无监督视频对象分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第3623-3632页[18] Sabarinath Mahadevan ， Ali Athar ， Aljosˇa Osˇep ，Sebastian Hennen ， LauraLeal-T ai xe´ ， andBastianLeibe.为视频中的对象分割制作3d卷积的案例arXiv预印本arXiv：2008.11516，2020。[19] Peter Ochs，Jitendra Malik，and Thomas Brox.通过长时间视频分析分割运动对象。 IEEE Transactions onPattern Analysis and Machine Intelligence，36（6 ）：1187[20] Seoung Wug Oh，Joon-Young Lee，Ning Xu，and SeonJoo Kim. 使用时空记忆网络的视频对象分割。在IEEE/CVF计算机视觉国际会议论文集，第9226-9235页[21] Federico Perazzi、Jordi Pont-Tuset、Brian McWilliams、Luc Van Gool 、 Markus Gross 和 Alexander Sorkine-Hornung。视频对象分割的基准数据集和评估方法。在IEEE计算机视觉和模式识别会议论文集，第724- 732页[22] Alessandro Prest 、 Christian Leistner 、 Javier Civera 、Cordelia Schmid和Vittorio Ferrari。从弱注释视频中学习对象类2012年IEEE计算机视觉和模式识别会议，第3282-3289页。IEEE，2012。[23] 任素成，刘文喜，刘永拓，陈浩新，韩国强，何胜峰.无监督视频对象分割的互逆变换。在IEEE/CVF计算机视觉和模式识别会议论文集，第15455-15464页[24] Christian Schmidt，Ali Athar，Sabarinath Mahadevan，and Bastian Leibe. D2conv3d：用于视频中对象分割的动态扩张卷积。在IEEE/CVF计算机视觉应用冬季会议论文集，第1200-1209页[25] Hongje Seong，Junhyuk Hyun，and Euntai Kim.用于视频对象分割的核化存储网络欧洲计算机视觉会议，第629-645页Springer，2020年。[26] Mennatullah Siam ， Chen Jiang ， Steven Lu ， LauraPetrich ， Mahmoud Gamal ， Mohamed Elhoseiny ， andMartin Jager- sand. 在人机交互（hri）环境中使用师生自适应的视频对象分割2019年在-5149机器人与自动化国际会议（ICRA），第50-56页。IEEE，2019。[27] Hongmei Song ， Wenguan Wang ， Sanyuan Zhao ，Jianbing Shen，and Kin-Man Lam.视频显著目标检测的金字塔扩展深度卷积。在欧洲计算机视觉会议（ECCV）的会议记录中，第715- 731页[28] Zachary Teed和Jia Deng。筏：光流的在欧洲计算机视觉会议上，第402-419页Springer，2020年。[29] Lijun Wang ， Huchuan Lu ， Yifan Wang ， MengyangFeng，Dong Wang，Baocai Yin，and Xiang Ruan.学习使用图像级监督来检测显著对象。在CVPR，2017年。[30] 王文冠，陆宪凯，沈建兵，大卫J Cran- dall，和LingShao.零镜头视频对象分割通过关注图神经网络。在IEEE/CVF计算机视觉，第9236-9245页[31] Wenguan Wang ， Hongmei Song ， Shuyang Zhao ，Jianbing Shen ， Sanyuan Zhao ， Steven CH Hoi ， andHaibin Ling.通

下载后可阅读完整内容，剩余1页未读，立即下载