没有合适的资源?快使用搜索试试~ 我知道了~
7177基于运动分组的自监督视频对象分割牛津大学视觉几何小组{charig,lamdouar,erika,az,weidi} @ robots.ox.ac.ukhttps://charigyang.github.io/motiongroup/图1:分割伪装的动物。 运动在增强我们的视觉系统在复杂场景中感知分组的能力方面起着关键作用-例如,在这些序列中(MoCA数据集[ 39 ]),视觉外观(RGB图像)显然是没有信息的。在本文中,我们提出了一个自我监督的方法来分割对象只使用运动,即。光流从上到下,我们显示了视频帧,连续帧之间的光流,以及我们的方法产生的分割摘要动物已经进化出高度功能性的视觉系统来理解运动,即使在复杂的环境下也能辅助感知。 在本文中,我们致力于开发一个计算机视觉系统,能够分割的对象,利用运动线索,即。运动分割为了实现这一点,我们引入了一个简单的变形Transformer分割光流帧成主要对象和背景,它可以在一个自我监督的方式,即训练。而不使用任何手动注释。尽管仅使用光流,而没 有 外 观 信 息 作 为 输 入 , 但 与 公 共 基 准 测 试(DAVIS2016,SegTrackv2,FBMS59)上的先前最先进的自监督方法相比,我们的方法实现了更好的结果,同时速度快了一个数量级。在具有挑战性的伪装数据集(MoCA)上,我们显著优于其他自监督方法,并且与顶部监督方法具有竞争力,突出了运动线索的重要性和现有视频分割模型中对外观的潜在偏见。1. 介绍当我们环顾世界时,我们毫不费力地将复杂的场景视为一组不同的对象。这种现象被称为感知分组-组织传入视觉信息的过程-并且通常被认为是一种基本的认知能力,能够有效地理解世界并与世界互动。我们如何实现这样一个显着的知觉成就,给定的视觉输入,在某种意义上,只是一个空间分布的各种颜色的个别点/像素?1923年,Wertheimer [80]首次引入了格式塔原则,目的是制定感觉数据组织成组或格式塔的根本原因。这些原则很像具有“一袋技巧”的数学家在计算机视觉中,感知分组往往与分割问题密切相关,即从杂乱的场景中提取具有任意形状的对象(逐像素标签)。在最近的语义学或实例学我们的预测光流RGB图像7178在图像分割方面,通过在图像或视频数据集上训练深度神经网络已经取得了巨大进展虽然看到具有检测、分割和分类图像或视频帧中的对象的能力的机器是令人兴奋的,但是通过监督学习来训练这样的分割模型需要大量的人类注释,并且因此限制了它们的可扩展性。甚至更重要的是,假设对象可以通过它们在静态帧中的单独外观来很好地识别,这例如,当试图从背景中发现伪装的动物/物体时(图1),通常需要额外的线索,例如运动或声音。在众多的线索中,运动通常很容易获得,因为它可以从未标记的视频中生成。在本文中,我们的目标是利用这种线索的对象分割在一个自我监督的方式,即。训练不需要人工注释。在高水平上,我们的目标是利用共同命运原则,基本假设是,如果元素以相同的速度沿相同的方向移动(具有相似的光流),则它们倾向于被视为一组。具体来说,我们通过训练生成模型来解决这个问题,该生成模型将光流分解为前景(对象)和背景层,将每个层描述为均匀的场,仅在层之间发生不连续性我们采用了Transformer [72]的变体,其中self-attention被slot attention [44]取代随着一些关键的架构变化,我们表明,像素经历类似的运动分组在一起,并分配到同一层。总而言之,我们做出了以下贡献:首先,我们介绍了一个简单的架构,视频对象分割利用运动,只使用opti- cal流作为输入。其次,我们提出了一个自我监督的代理任务,用于训练的架构,没有任何人工监督。为了验证这些贡献,我们对我们架构成功的关键组件进行了彻底的消融研究,例如根据各种帧间隙计算的光流上的一致性损失。 我们评估所提出的架构在公共基准测试(DAVIS2016 [55],SegTrackv2 [40]和FBMS59 [52])上,表现优于之前最先进的自监督模型。此外,我们还对伪装数据集(MoCA [39])进行了评估,证明了与其他自监督方法相比的显著性能改进,具有与最佳监督方法相当的性能,突出了运动线索的重要性,以及现有视频分割模型中对视觉外观的潜在偏见。2. 相关工作视频对象分割是一项长期的任务在计算机视觉中,涉及将图像的像素(或边缘)分配到组中(例如,对象)。在最近的文献[4,9,11,15,23,24,30,33,34,37,38,47,48,49]中,50、51、53、54、56、56、70、73、74、75、76、84、87]、两个协议吸引了视觉界越来越多的兴趣,即半监督视频对象分割(半监督VOS)和无监督视频对象分割(无监督VOS)。前者的目的是重新定位一个或多个目标,指定在第一帧的视频与像素掩模,后者考虑自动分割的对象的兴趣(通常是最显着的)从背景中的视频序列。尽管被称为无监督VOS,但在实践中,解决这些问题的流行方法广泛依赖于监督训练,例如,通过使用在大规模外部数据集上训练的双流网络[15,30,54,70作为替代方案,在这项工作中,我们考虑了一种完全无监督的方法,其中没有手动注释用于任何训练运动分割与未监督的VOS有一些相似之处,但侧重于发现运动对象。在文献中,[9,34,51,62,83]考虑聚类具有相似运动模式的像素;[15,69,70]训练深度网络将运动映射到分割掩码。另一种工作方式通过明确地利用移动对象与其背景之间的运动的独立性例如,[86]提出了一种对抗性设置,其中生成器被训练来生成掩码,改变输入流,使得inpainter无法估计缺失的信息。在[5,6,39]中,作者提出通过补偿背景运动来突出显示独立移动的对象,无论是通过配准连续帧,还是明确估计相机运动。在受限场景中,例如自动驾驶,[60]提出联合优化深度、相机运动、光流和运动分割。光流计算是计算机视觉的基本任务之一。深度学习方法允许有效计算光流,无论是在合成数据[67,68]上的训练,还是在自我监督[42,43]设置中的光度损失的学习。在实践中,流对于各种各样的问题都很有用,例如,姿势估计[18],表示学习[29,49],分割[9],偶尔甚至用于代替外观线索(RGB图像)进行跟踪[61]。Transformer架构已经证明非常擅长通过注意机制建模输入序列内的长期关系。最初用于语言任务[8,17,72],它们已被用于解决流行的计算机视觉问题,如图像分类 [19], 一代 [13, 59], 视频下-站立[3,26,79],目标检测[12]和零镜头分类[57]。在这项工作中,我们从一个7179PRtt `n“ÿt-t `n t-t`n自我注意力的特定变体,即槽注意力[44],其被证明对于在合成数据上学习以对象为中心的表示是有效的,例如CLEVR [31].分层表示最初由Wang和Adelson [77]提出,以将视频表示为具有更简单运动的层的组合。从那时起,分层表示已被广泛采用的计算机视觉[7,32,36,85,90],往往是估计光学流量[65,66,81,82]。最近,基于深度学习的层分解方法已被用于推断新视图合成的深度[64,88],分离反射和其他半透明效果[1,2,25,45],或执行前景/背景估计[25]。这些工作对RGB输入进行操作并产生RGB层,而我们提出了一种用于无监督移动对象发现的光流输入的分层分解。以对象为中心的表示将“对象”解释为基本构建块(而不是单个像素)的场景关于这个主题有丰富的文献,例如,IODINE [28]使用迭代变分推断来递归地推断一组潜变量,每个潜变量表示图像中的一个对象类似地,MONet [10]和GENESIS [20]也采用多个编码-解码步骤。相比之下,[44]提出了时隙注意力,其使得能够使用迭代注意力进行单步编码-解码然而,上述所有工作仅显示了对合成数据集的应用,例如。CLEVR[31].在本文中,我们是第一个演示它的使用对象分割的现实视频,利用运动,其中具有挑战性的细微差别,在视觉外观(例如。复杂的背景纹理)已经被移除。3. 方法我们的目标是采取一个输入光流帧,并预测一段包含移动对象。我们建议训练这个模型在一个自我监督的方式,自动编码器类型的框架。具体来说,我们的模型输出两层:一个表示背景,另一个表示前景中的一个或多个移动对象,以及它们的不透明层(加权掩模)。形式上:3.1. 流分段架构为了简单起见,我们首先考虑单个流场作为输入的情况(如图2的顶部所示)。整个模型由三部分组成:(1)CNN编码器,用于提取紧凑的特征表示,(2)具有可学习查询的迭代绑定模块,其起到与软聚类类似的作用,即,将每个像素分配给运动组中的一个,以及(3)CNN解码器,其将每个查询单独解码为全分辨率层输出(其中对alpha通道进行阈值处理产生预测片段)。CNN编码器。我们首先将两帧之间的预先计算的光流Itt`n3H0W0传递给CNN编码器Φenc,它输出一个较低分辨率的特征图:Ftt`n其中H0、W0和H,W分别指输入和输出特征图的空间维度。请注意,我们使用光流文献[67]中的传统方法将流转换为三通道图像。迭代绑定。迭代绑定模块Φbind的目标是基于它们在运动中的相似性将图像区域分组为单个实体,即以相同速率在相同方向上移动的像素应该被分组在一起。直观地,这样的绑定过程需要依赖于数据的参数更新机制,迭代地丰富模型,逐渐包括经历类似运动的更多像素。为了完成这项任务,我们采用了槽注意力的一个简单变体[44],其中我们使用可学习的查询向量,而不是高斯初始化的槽。槽注意力最近表现出显着的性能为以对象为中心的表示学习,其中查询向量竞争,以解释部分的输入通过softmax为基础的注意力机制,和这些槽的表示迭代更新与经常性的更新功能。在我们的运动分割的情况下,理想地,每个查询向量中的最终表示分别对运动对象或背景进行编码,然后可以对其进行解码和组合以重建输入流场。tIi,αiuN“Φ p I t t ` n q(1)形式上,我们对Φbind的输入是特征映射Ft-t`nt?t`n t?t`n i和两个可学习的查询(代表前台和其中,It-t`n指t到t`n的输入流(当n∝0时为反向流),Φp¨q为参数化模型,背景)QPRD?2.可学习的空间位置编码与Ft-t`n相加;ˆitt `n 是第i层重建,αi是它的面具我们仍然把这个和称为F t-t`n。 我们使用三而N2是层数(前景和背景)。然后可以将这些层线性合成为不同的线性变换来生成查询、键和值:qPRD2,k,vPRDHW,重建输入图像It-t`n:NI?t?t`nI(二)q,k,vQ¨Q,WK¨Ft?t`n,W V�Ft�t`n(4)i我其中WQ,WK,WVPRDD。71801p´αtt `ntt `nLtt-图2:管道。 我们的模型将光流作为输入,并输出一组重建层和不透明度层。 具体而言,它由三个部分组成:特征编码、迭代绑定和解码到层,它们被组合以重构输入流。为了解决光流中的运动模糊性(小运动)或噪声,在训练期间强制在不同帧间隙下计算的两个流场之间的一致性在推断时,仅图的上半部分用于从单步流预测掩码与标准Transformer [72]相比,插槽注意力中的系数在所有插槽上进行归一化。这种归一化的选择引入了槽之间的竞争来解释输入的部分,并确保每个像素被分配给查询向量:eMi,j解码器是广播到用可学习的空间位置编码增强的2D网格上的时隙向量。重建一旦每个时隙已经被解码,我们将softmax应用于时隙维度上的alpha掩码,并将它们用作混合权重以获得重构。(Eq.) 2)的情况。我们的重建损失是L2损失attni,j:l1M:“?DkT¨q,attnPRHW¨ 2ΩpPΩ为了将输入值聚合到其分配的查询槽,如下使用加权平均值U:其中p是像素索引,Ω是整个空间网格。熵正则化我们对推断的掩模施加逐像素熵正则化:其中Ai、j收件人i,j:1Lentr1tt`npPΩppqlogα1ppq(9)为了保持查询槽Q的平滑更新,聚合向量U被馈送到递归函数中,该递归函数用门控递归单元(GRU)参数化。Q:然后将整个绑定过程迭代T次。伪代码可以在补充材料中找到。CNN解码器。CNN解码器Φdec将每个时隙单独解码为原始分辨率的输出。´α0t`nppqlogα0t`nppqq当Alpha通道是一热通道时,此损失为零,当它们具有相等的概率时,此损失最大。直观地说,这有助于鼓励掩码是二进制的,这与我们获得分割掩码的目标一致。实例规范化。在运动分割的情况下,只有当对象经历与摄像机无关的运动时,才能检测到对象;因此,先前的工作试图补偿相机运动[5,39]。我们(I)(i)(i)(iit?t`nuPR4H0W0),其中包括受到这些想法的启发,但不是明确地估计(未归一化)单通道Alpha遮罩和重构流场具体地说,特征嵌入广播+编码器+迭代结合解码器+位置编码可学习查询位置编码特征嵌入广播+编码器+迭代结合解码器+位置编码可学习查询位置编码,αL侦察|第二(8)条|2(8)l,j7181单应性或摄像机运动, 我们把穷人通过简单地使用实例规范化(IN)[71]7182tu Pt'upüqÿ|α缺点“Ωt?t`n1t?t`n2DAVIS2016 [55]共包含50个序列(30个用于在CNN编码器和解码器中,其独立地归一化训练样本的每个通道。直观地,平均激活倾向于由大的均匀区域中的运动主导,该区域通常是背景。这种标准化与ReLU激活相结合,有助于逐渐将背景运动与前景运动分开。这在第5.13.2. 自监督时间一致性损失针对当前帧计算的分段应当是相同的,而不管“第二”帧是连续的,还是在时间上更早或更我们利用这一约束,形成一个自我监督的时间一致性损失,首先定义了一组“第二”帧,然后要求他们的成对预测之间的一致性。我们先描述集合,然后是损失。多步流动。由于对象对于某些帧可能是静态的,因此我们通过利用来自多个时间步的观察来 我们考虑从不同的时间间隙计算的流场作为一个输入集,即It-t`n1,I t-t`n2 ,n1,n2二、1, 1, 2,并使用置换不变一致性损失来鼓励模型预测集合中所有流场一致性损失。我们从输入集中随机采样两个流场,并将它们通过模型(Φ),输出每个流场的流重建和alpha掩模。由于重建损失是可交换的,因此不能保证相同的时隙将总是输出背景层;因此,我们使用置换不变的一致性损失,即。仅通过最低误差每突变反向传播RGB图像[44],其有用性在合成数据(CLEVR [31])上得到了证明,其中对象由具有简单纹理的原始形状组成。然而,这种假设在自然图像或视频的情况下不太可能成立,使得推广这种以对象为中心的表示具有挑战性。在这项工作中,我们建立在这样的见解,即虽然图像中的对象可能不是自然无纹理的,但它们的运动通常是。因此,我们通过利用它们的光流来开发自监督对象分割模型,其中视觉外观中的细微差别被丢弃,因此不限于简单的合成情况。作为初始试验,我们使用与[ 44 ]相同的设置进行实验,其中查询向量从高斯分布中采样;但是我们无法训练它。相反,我们在这里使用可学习的嵌入,我们强调这是我们模型成功的关键架构变化之一。其他关键变化包括实例规范化和时间一致性,我们将在5.1节的消融中演示。为什么它适用于运动分割?所提出的想法可以被看作是训练生成模型来分割流场。利用分层公式,重构被限制为从单个时隙向量解码的逐层流的简单线性组合从概念上讲,这种设计有效地引入了一个表示瓶颈,鼓励每个槽向量表示最少的信息,即均匀运动,并且在时隙之间具有最小冗余(互信息)。所有这些属性使得这样的架构非常适合于分割经历独立运动的对象的任务。4. 实验装置L“1 minp|α1pPΩppq´α1ppq|二、4.1. 数据集1t?t`n1pPΩ0t?t`n2ppq|2Q培训和20验证),描绘不同的移动物体,如动物、人和汽车。数据集注意,这种一致性实施仅在训练期间发生。在推理时,使用单步流程,如图2的上半部分所示。完全损失。训练架构的总损失是:Ltotal我们使用γr 102,γc10′ 2和γe10′ 2,但我们发现模型对这些超参数相当鲁棒。3.3. 讨论与Slot Attention的区别槽注意力最初是为自监督对象分割引入的包含3455个1080p帧,其中对于主要移动的对象具有480p的逐像素注释。SegTrackv2 [40]包含14个序列和976个注释帧。每个序列包含1-6个移动对象,并且呈现包括运动模糊、外观变化、复杂变形、遮挡、慢动作和交互对象的挑战。FBMS59 [52]由59个序列和720个注释帧(每20帧注释一次)组成,图像分辨率变化很大。 序列涉及多个移动对象,其中一些对象可能在一段时间内是静态的Moving Camouflaged Animals(MoCA)[39]包含141个高清视频序列,描绘了67种伪装的动物。pp q ′α7183Jˆ“ˆpüqPt'ur'sPt'uJ“`“在自然场景中移动的动物。时间和空间注释都以用于每第5帧的紧密边界框的形式提供。使用所提供的运动标签(运动、变形、静态),我们过滤掉主要没有运动的视频,得到88个视频序列和4803帧。4.2. 评估指标分割(Jaccard)。对于DAVIS 2016、SegTrackv 2和FBMS 59,提供逐像素分割;因此,我们报告标准度量,区域相似性(),计算测试集的平均值。对于FBMS59和SegTrackv2,我们遵循常见的做法[30,86]并将多个对象组合为一个单一的前景。本地化(Jaccard成功率)。由于MoCA数据集仅提供边界框注释,因此我们评估检测任务并以以下形式报告结果的检测成功率[21,41],对于不同的IoU阈值(τ P t 0. 5,0。6,0。七比零。八比零。9uq.4.3. 实现细节我们评估了用于计算光流的三种不同方法,即PWC-Net [67],RAFT [68]和ARFlow [42];前两种是监督的,而后者是自监督的。我们以图像对的原始分辨率提取光流,对于所有数据集,除了FBMS59之外,帧间隙为n2, 1, 1,其中我们使用n6, 3, 3, 6来补偿小的运动。为了生成对网络的输入以用于训练,将流的大小调整为128224(并相应地缩放),转换为具有用于光流的标准可视化的3通道图像,并归一化为1, 1。在迭代绑定模块(Φbind)中,我们使用两个可学习的查询向量(因为我们考虑从背景中分割单个移动对象的情况),并选择T5次迭代(如第3.1节所述)。我们采用一个简单的VGG风格的网络用于CNN编码器和解码器,并进行实例归一化。我们使用64张图像的批量大小进行训练,并使用Adam优化器[35],初始学习率为5 10´4,每80k次迭代减少一次。准确的体系结构描述和培训时间表见补充材料。5. 结果在本节中,我们主要与在没有手动注释的情况下训练的最佳性能方法进行比较然而,由于架构、输入分辨率、模态和后处理都不同,我们尽最大努力尽可能公平地进行比较。注意,通过简单地对预测的掩模进行上采样来以全分辨率评估基准。5.1. 消融研究我们在DAVIS2016上进行所有消融研究,每次改变一个变量,如表1所示。光流算法的选择。使用相同的流提取方法(PWC-Net),我们提出的模型(Ours-A)比CIS高出约4。平均 Jaccard ( ) 上 的 5 个 点 , 并 且 使 用 改 进 的 光 流(RAFT)提供了进一步的性能增益。因此,我们从这里开始使用RAFT。实例规范化和分组。我们观察到两种现象:首先,当分组迭代次数T(3或5)保持恒定时,用实例归一化训练的模型始终表现得更好;第二,用T5训练的迭代分组比用T3训练的迭代分组好。然而,在T8,模型没有在相同数量的训练步骤中收敛,因此我们没有将其包含在表中。对于实验的剩余部分,我们使用实例归一化和T一致性和熵正则化。在比较Ours-B和Ours-I时,我们观察到性能显著下降而没有时间一致性损失,并且熵正则化也很重要,如Ours-B和Ours-H所示。5.2. 与最新技术水平的我们在表2中显示了我们的结果。在DAVIS2016上,我们对无监督方法(CIS)的最新技术进行了大幅改进(9. 1%)。 如图3所示,尽管在训练期间不使用任何像素级注释,但我们的方法接近在数千张图像上训练的监督模型的性能。此外,我们认为,运动分割在现实的场景,例如.由捕食者或猎物,可能需要快速处理。我们的模型以超过80fps的小分辨率(可能牺牲一些精度)运行。我们的方法的效率增益主要来自两个来源:首先,我们的模型是一个轻量级的VGG风格的网络,只有4.77 M个参数;其次,我们忽略了以前方法中使用的任何后处理,例如。跨多个流步骤、跨多个作物、时间平滑或CRF对预测求平均,其总共花费超过10秒。对于SegTrackv2和FBMS59,它们偶尔会在单个视频中包含多个对象,并且只有其中的一个子集在移动,这使得使用仅流输入来发现所有对象具有挑战性,但我们实现了具有竞争力的性能尽管如此我们在下面讨论这个限制5.3. 伪装破除此外,我们还对MoCA数据集上的伪装对象检测模型进行了基准测试,其中视觉线索通常不如运动线索有效。为了与CIS [86]进行公平的比较,我们使用了作者发布的代码和模型,并在MoCA上对他们的模型进行了微调。7184ˆ模型流在 不LeLcDAVIS(J)独联体[86]PWC-Net––––59.2我们的-APWC-Net✓5✓✓63.7我们的-B筏✓5✓✓68.3Ours-CARFlow✓5✓✓53.2Ours-D筏✓3✓✓65.8Ours-E筏✗3✓✓63.3我们的-F筏✗5✓✓64.5Ours-G筏✓5✗✗48.0表1: 关于流提取方法、实例归一化(IN)、分组迭代(T)、熵正则化(Le)和集合一致性(Lc)的消融研究。图3:DAVIS2016上的比较。请注意,监督方法可能使用ImageNet预训练[16],但在这里我们只对具有像素注释的图像进行计数。✓ ✓ ✓ 854 480[70]第70话:[46]第一届全国政协副主席、全国政协委员、全国政协委员MATNet [89] ✓ 4734733DC-Seg [48] ✓ ✓ 85475.9 57.3 65.176.2 57.2 59.8 74.5秒80.582.484.3表2:关于移动对象分割(无监督视频分割)的完全比较。我们考虑三个流行的数据集,DAVIS 2016,SegTrack-v2(STv 2)和FBMS 59。水平分界线以上的模型在不使用任何手动标注的情况下进行训练,而下面的模型在训练时需要地面实况标注。括号中的数字表示重要的后处理的额外使用,例如多步流、多裁剪、时间平滑、CRF。运行时不包括光流计算。自我监督的方式。我们通过在预测掩码中的最大连接区域周围绘制边界框来将输出segmenta- tion掩码转换为边界框。我们在表3中报告了定量结果,并在图4中显示了定性结果。我们的模型显著优于CIS(14%,当不允许后处理时),以前的监督方法,例如。COD [39](Jac卡上的18.5%),甚至COSNet [46](DAVIS上的顶级监督方法我们推测,COSNet这是特别有趣的,因为它清楚地表明,没有一个单一的信息线索能够完美地完成任务,呼应了双流假说[27],即两个外观和运动对于视觉系统是必不可少的。5.4. 限制尽管在准确度和运行时间方面显示出对运动分割的显著改进,但我们注意到所提出的方法的以下限制(如图4所示)并将其视为未来的工作:首先,现有的基准测试大多局限于运动分割为前景和背景,因此,本文选择使用两个槽;然而,在真实场景中,视频可能包含多个独立移动的对象,当前模型将其分配给单个层。可能希望进一步将这些对象分离到不同的层中。第二,我们只探索了运动(光流)模型辅助核算RGB流Res.DAVIS16(J)STv2(Jσ)FBMS59(J)运行时间(秒)SAGE [78]✗✓✓–42.657.661.20.9sNLC [22]✗✓✓–55.167.251.511s切割[34]✗✓✓–55.254.357.2103sFTS [54]✗✓✓–55.847.847.70.5s独联体[86]我们✗✗✓✗✓✓192ˆ 384128ˆ 22459.2(71.5)68.345.6(62.0)58.636.8(63.5)53.10的情况。1秒(11秒)0.012sSFL [14]FSEG [30]✓✓✓854ˆ 48067.470.7––7.9s–7185图4:定性结果。在DAVIS2016(左)上,我们的方法能够分割各种具有挑战性的对象,通常与顶级监督方法相当。在MoCA(右)上,即使以前的监督方法完全失败(第3列,第4列),我们的模型也能够准确地分割伪装良好的对象。我们展示了一个失败案例(左),其中人创建的飞溅被错误地包括在我们的预测片段中,以及另一个失败案例(右),其中动物仅部分移动,因此部分分割。成功率模型辅助核算RGB流Jτ-0。5τ-0。6τ-0。7τ-0。8τ-0。9SR均值COD [39]✓✗✓44.90.4140.3300.2350.1400.0590.236[39]第39话✓ ✓✓55.30.6020.5230.4130.2670.0880.379COSNet [46]✓ ✓✗50.70.5880.5340.4570.3370.1670.41764.20.7120.6700.5990.4920.2460.544MATNet[89]✓ ✓✓独联体✗✓ ✓49.40.5560.4630.3290.1760.0300.311CIS(后处理)✗✓ ✓54.10.6310.5420.3990.2100.0330.36363.40.7420.6540.5240.3510.1470.484我们✗✗ ✓表3:MoCA数据集的比较结果。我们报告了不同阈值τ的成功定位率(见第4.2节)。CIS和Ours都在DAVIS上进行了预训练,并以自我监督的方式在MoCA上进行了微调。我们的方法实现了与MATNet(DAVIS上的第二好模型)相当的Jaccard(J),而不使用RGB输入,也不需要任何手动注释进行训练。作为输入,这在流是无信息的或不完整的(如图4中,右)时显著地限制了分割对象第三,当前方法在光流有噪声或低质量时可能失败(图4,左);在这种情况下,联合优化流和6. 结论在本文中,我们提出了一个自监督模型的运动分割。该算法仅以流量作为输入,并且在没有任何手动注释的情况下进行训练,超越了之前在DAVIS 2016等公共基准上的自监督方法,并缩小了与SU-2016的差距检查方法。在更具挑战性的伪装数据集(MoCA)上,我们的模型实际上与经过大量监督训练的视频对象分割中的顶级方法相比毫不逊色。随着计算能力的增长和更多高质量的视频变得可用,我们相信自监督学习算法可以作为监督同行的强大竞争对手,因为它们的可扩展性和可推广性。7. 确认这项研究得到了Google-DeepMind Studentship,UKEPSRC CDT in AIMS , Schlumberger Studentship ,Royal Society Research Professorship 和 UK EPSRCProgramme Grant Visual AI(EP/T028572/1)的支持。7186引用[1] Jean-Bapt i steAlayrac , Jo a oCarreira , andAndr ewZisser-man. The visual centrifuge:无模型分层视频表示。在IEEE计算机视觉和模式识别集,2019年。[2] Jean-BaptisteAlayrac,JoaoCarreira,ReljaArandjelovic,还有安德鲁·齐瑟曼用于结构化分层视频分解的可控注意力在2019年国际计算机视觉会议论文集[3] Gedas Bertasius , Heng Wang , and Lorenzo Torresani.是时空注意力你需要视频理解吗?2021年国际机器学习会议论文集[4] Pia Bideau和Erik Learned-Miller详细的标题运动分割arXiv预印本arXiv:1610.10033,2016。[5] Pia Bideau和Erik Learned-Miller 它在动! 一个问题,在移动摄像机视频中的因果运动分割的概率模型。2016年欧洲计算机视觉会议论文集[6] Pia Bideau,Rakesh R Menon,and Erik Learned-Miller.Moa-net:自监督运动分割。在2018年欧洲计算机视觉工作室会议上[7] Gabriel J Brostow和Irfan A Essa。 基于运动的decom视频的定位。1999年国际计算机视觉会议论文集[8] 汤姆湾主演:Benjamin Mann,Nick Ryderbiah , Jared Kaplan , Prafulla Dhariwal , ArvindNeelakan-tan , Pranav Shyam , Girish Sastry , AmandaAskell , Sand- hini Agarwal , Ariel Herbert-Voss ,Gretchen Krueger , Tom Henighan , Rewon Child ,Aditya Ramesh , Daniel M.Ziegler 、 Jeffrey Wu 、Clemens Winter、Christopher Hesse、Mark Chen、EricSigler、Mateusz Litwin、Scott Gray、Benjamin Chess、Jack Clark、Christopher Berner、Sam McCandlish、AlecRadford、Ilya Sutskever和Dario Amodei。语言模型是很少机会的学习者。在神经信息处理系统的进展,2020年。[9] 托马斯·布洛克斯和吉坦德拉·马利克 对象分割点轨迹的长期分析。2010年欧洲计算机视觉会议论文集[10] 克里斯托弗·P伯吉斯,罗伊·马齐,尼古拉斯·沃特斯Rishabh Kabra , Irina Higgins , Matt Botvinick , andAlexan-der Lerchner.莫奈:无监督场景分解和表示。arXiv预印本arXiv:1901.11390,2019。[11] Sergi Caelles, 凯维斯·科基齐·曼尼尼斯 乔迪·蓬图塞LauraLeal-Taix e' ,D a nielCremers,andLucVanGool. 单镜头视频对象分割。在IEEE计算机视觉和模式识别会议论文集,2017年。[12] Nicolas Carion , Francisco Massa , Gabriel Synnaeve ,NicolasUsunier,Alexander Kirillov,and Sergey Zagoruyko.使用变压器进行端到端对象检测在欧洲计算机视觉会议论文集,2020年。[13] Mark Chen,Alec Radford,Rewon Child,Jeffrey Wu,Hee-吴俊、大卫·卢安和伊利亚·苏茨基弗。从像素生成预训练。在2020年机器学习国际会议论文集[14] 程景春,蔡义轩,王胜金,杨明轩。Segflow:视频对象分割和光流的联合学习。国际计算机视觉会议论文集,2017年。[15] 阿查尔·戴夫帕维尔·托克马科夫和德瓦·拉玛南朝向分割任何移动的物体在2019年国际计算机视觉研讨会会议记录中[16] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,Kai Li,还有李飞飞Imagenet:一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议论文集,2009年。[17] Jacob Devlin、Ming-Wei Chang、Kenton Lee和Kristina图坦诺娃Bert:用于语言理解的深度双向变换器的预训练。在NAACL人类语言技术会议记录中,2019年。[18] Carl Doersch和Andrew Zisserman。Sim2real传输用于3D人体姿势估计的学习:到休息室的动议。神经信息处理系统进展,2019。[19] Alexey Dosovitskiy Lucas Beyer Alexander KolesnikovDirk Weissenborn,Xiaohua Zhai,Thomas Unterthiner,Mostafa Dehghani,Matthias Minderer,Georg Heigold,Sylvain Gelly,et al.一张图片相当于16x16个单词:用于大规模图像识别的变换器.在2021年学习代表国际会议论文集。[20] Martin Engelcke,Adam R Kosiorek,Oiwi Parker Jones,,还有英格玛·波斯纳创世纪:以对象为中心的潜在表征的生成场景推理在2020年学习代表国际会议上[21] 放大图片作者:Mark Everingham,Luc Van Gool,ChrisK.I. 威廉姆斯,约翰温恩和安德鲁·齐瑟曼。PASCAL Visual Object Classes(VOC)International Journal of Computer Vision,88(2):303[22] Alon Faktor和Michal Irani。 视频分割的非地方协商一致表决。在2014年英国机器视觉会议上[23] 范小平,王文冠,程明明,和沈建兵。将更多的注意力转移到视频显著对象检测上。在IEEE计算机视觉和模式识别会议论文集,2019。[24] Katerina Fragkiadaki,Geng Zhang,and Jianbo Shi. 视频通过跟踪轨迹嵌入中的不连续性进行分割。在2012年IEEE计算机视觉和模式识别会议论文集中[25] Yossi 甘德尔斯曼 Assaf Shocher 和 米哈尔·伊拉尼“双DIP”:通过耦合深度图像先验的无监督图像分解。在IEEE计算机视觉和模式识别会议论文集,2019年。[26] Rohit Girdhar,Joa o Carreira,Carl Doersch,and Andre wZis-瑟曼视频行动Transformer网络。在IEEE计算机视觉和模式识别会议上,2019年。[27] Melvyn A. Goodale和A. 大卫·米尔纳分离vi-感知和行动的路径。神经科学趋势,15(1):20[28]克劳斯·格雷夫 拉斐尔·洛佩兹·考夫曼 RishabhKabra,Nick Watters,Chris Burgess,Daniel Zoran,Loic Matthey,7187Matthew Botvinick和Alexander Lerchner。多目标表示学习与迭代变分推理。在2019年国际机器学习会议上[29]Tengda Han,Weidi Xie,and Andrew Zisserman.自我-用于视频表示学习的监督式协同训练。在神经信息处理系统进展,2020年。[30] Suyog Dutt Jain,Bo Xiong,and Kristen Grauman.融合-分段:学习结合运动和外观,实现视频中通用对象的全自动分割。在IEEE计算机视觉和模式识别会议上,2017年。[31] 贾斯汀·约翰逊巴拉斯·哈里哈兰劳伦斯·范德马滕李飞飞,C劳伦斯Zitnick,和罗斯Girshick。Clevr:Adiagnostic dataset for composite language and elementaryvisual reasoning.在IEEE计算机视觉和模式识别会议论文集,2017年。[32] Njegica Jojic和B.J.弗雷在视频中学习灵活的精灵层。IEEE计算机视觉与模式识别会议论文集,2001年。[33] Yeong Jun Koh和Chan
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功