没有合适的资源?快使用搜索试试~ 我知道了~
未标记视频中的对象看不见的类的自动生成方法
3375学习使用未标记的视频俞明杜洋肖文森特·莱佩蒂特LIGM,Ecole des Ponts,Uni v Gustav e Eif fel,CNRS,Marne-la-valle´ e,法国{yuming.du,yang.xiao,vincent.lepetit} @ enpc.frhttps://dulucas.github.io/gbopt/摘要从看不见的类中定位和分割对象的能力将为新的应用打开大门,例如主动视觉中的自主对象学习。尽管如此,提高对看不见的类的性能需要额外的训练数据,而手动注释看不见的类的对象可能是劳动密集且昂贵的。在本文中,我们探讨了使用未标记的视频序列自动生成训练数据的对象看不见的类。原则上可以将现有的视频分割方法应用于未标记的视频并自动获得对象掩模,然后可以将其用作训练集,即使对于没有可用的手动标记的类。然而,我们的实验表明,这些方法不执行足够好,用于此目的。因此,我们引入了一种专门设计用于自动创建这样的训练集的贝叶斯方法:我们的方法从一组对象建议开始,并依赖于(非现实的)合成分析,通过同时对所有帧执行有效的优化来选择正确的对象。通过大量的实验,我们表明,我们的方法可以生成一个高质量的训练集,显着提高的性能分割对象的看不见的类。因此,我们相信,我们的方法可以打开大门,开放世界的实例分割,利用丰富的互联网视频。1. 介绍实例分割模型现在能够预测查询图像中已知类别的对象的掩模[19,50,55],为许多下游应用提供丰富的信息,例如场景理解[17,47]和机器人抓取[53,59,62]。不幸的是,现有的实例分割方法在新类上表现不佳[12]。这是在开放世界中发展自治系统的一个障碍,在开放世界中总是有不属于已知类的对象。能够图1.从在一些类上训练的实例分割模型开始,我们希望学习在没有任何人类标签的情况下从新类中定位和分割对象。我们通过使用未标记的视频来做到这一点,这是一个丰富的数据来源。我们的方法可以自动检测和选择视频中的对象遮罩。然后,我们使用选定的掩码重新训练初始模型,然后可以在静态帧中定位和分割新类中的对象,而不会损失旧类的性能。例如,检测和分割这些对象将是学习抓取和操纵它们的起点如图1所示,我们的目标是自动提高实例分割模型在包含新类对象的静态图像上的性能,而无需人工干预。这与先前的工作形成对比,这些工作旨在通过仅使用边界框[21,28,65]或开发少量拍摄技术[15,60]来限制对象分割的手动标记负担,但仍然需要人为干预新的类别。更具体地说,我们的目标不是预测这些新对象的类别,而是专注于鲁棒本地化和准确分割它们。从这个意义上说,我们的工作因此与最近的对象发现方法更相关,这些方法试图通过根据一些标准对像素进行分组来在没有手动分割标签的情况下分割对象[3,18,33,45,57]。然而,这些方法仍然非常脆弱,因为它们很容易受到颜色、照明或纹理中的低水平扰动的影响。因此,我们的策略是依赖于未标记的视频序列,因为未标记的视频可以毫不费力地获得,同时提供丰富的信息。使用的总体思路3376输入图像置信度得分> 0。5置信度得分>0。1置信度得分>0。01图2.“tortoise”类通过降低在COCO上训练的Mask R-CNN [19]的置信度阈值,我们最终可以以引入许多误报的代价我们使用未标记的视频数据过滤这些误报。视频自我监督不是新的[11,23,30,34,54,56]。在这里,我们认为视频序列自动生成的对象在其帧中可见的面具。然后,使用这些掩码来训练实例分割模型应该使其在视频中可见的新对象上表现得更好,即使在该过程中没有提供人为干预。在我们的实验中,我们仍然提供视频,但可以想象一个自己捕获视频的系统。不幸的是,我们的早期实验表明,最先进的视频分割方法[14,35,42,30,51]不足以实现此目的。因此,我们开发了自己的方法,用于从视频中自动创建对象遮罩。请注意,我们的任务与视频分割方法略有不同,后者旨在跟踪连续帧上的对象。对于我们自己的目标,这是不需要的,我们只专注于正确定位和分割每帧中的对象像一些视频分割方法[35]一样,我们从使用预训练的类不可知实例分割获得的视频中可见的对象的掩模假设开始这种模型在某种程度上推广到了来自不可见类的对象,但代价是引入了许多误报[41]。图2示出了当置信度阈值降低时,来自看不见的类的对象的检测和不正确的检测都被接受。然而,可以使用由视频提供的信息来过滤不正确的掩模。 一些方法[8,29,35,37,44]依赖于tracklet来跟踪和过滤掩码。我们认为这种策略不是最优的,特别是对于我们的目标:图像背景未被充分利用,而它通过指示对象的不存在而可能是非常有用的;光流未被使用或未被充分利用,而它给出关于视频中的移动对象的强烈提示。充分利用跨未标记视频帧的背景和运动信息,因此我们开发了(非现实的)合成分析方法。使用贝叶斯框架,我们推导出一个目标函数与一个额外的非重叠约束。由三个损失项组成的目标函数被设计成探索背景和运动信息以去除不正确的掩模并选择在整个视频上时间上一致的掩模非重叠约束来自一个像素最多可以属于图像中的一个对象的事实,并且有助于拒绝一些误报。此外,我们提供了一个两阶段的优化算法,以有效地优化这个目标函数。为了评估我们的方法,我们基于YouTube视频实例分 割 (YouTube-VIS ) 数 据 集 [61]创 建 了 一个 名 为Unseen-VIS的新数据集,其中包含不属于COCO类的对象。从Unseen-VIS训练部分生成的原始掩码开始,使 用 在 COCO 数 据 集 上 预 训 练 的 类 不 可 知 掩 码 R-CNN,我们应用我们的我们证明,使用这些掩码可以提高掩码R-CNN在Unseen-VIS测试集上的性能,而不会损失COCO类的性能总结我们的贡献:• 我们提出了一种贝叶斯方法来生成高质量的面具在未标记的视频包含看不见的类;• 我们创建了一个基准来评估未标记视频上生成的掩模的质量;• 我们证明了我们的基准,我们提出的方法可以用来提高性能的实例分割模型上看不见的类。2. 相关工作在本节中,我们首先回顾了最近的工作,从彩色图像的实例分割,特别是那些针对新的类。我们还回顾了未标记图像的自学习方法。最后,我们回顾了几个视频对象分割的工作,因为这个主题是密切相关的,我们的方法。图像级实例分割。虽然用于对象检测和分割的最先进方法[19,50,55]依赖于大量手动标记的图像,但一些工作旨在减少学习检测和分割对象类的注释负担。然而,它们仍然需要手动注释:弱监督方法不需要遮罩注释,但边界框注释[21,28,65]和少量方法需要(少量)手动对象遮罩[15,60]。未标记数据的自学习。近年来,有几种方法被提出来探索自我监督。3377M {}ing未标记的静态图像。他们使用数据蒸馏[46],来自网络的未标记图像[31],图像翻转的一致性[24]或预测不确定性的估计[38]。虽然这种方法非常有趣,但未标记的视频很容易获得,并且有可能使结果更加可靠。我们比较我们的方法对最有代表性的方法在我们的实验,并显示我们取得了更好的性能。另一种类型的方法通过将具有相似颜色或图像特征的像素分组以生成掩模[3,18,33,45,57]而以自下而上的方式进行。然而,这很容易受到局部纹理或颜色的影响,并且其中一些方法仅在合成图像上进行了演示因为它从预先训练的实例分割模型开始,所以我们的方法更加健壮。像我们一样,一些方法利用未标记的视频进行城市场景分割[6]以及人脸和人体检测[25]。然而,这些工作只集中在如何提高现有类的模型性能,并没有考虑新的类。[40]利用立体视频数据以及深度信息来重建静态背景,然后通过减法从前景区域生成对象提议虽然这是一种有趣的方法,但它们需要深度数据和静态背景.视频对象分割。我们的工作还涉及到单镜头,零镜头视频对象分割(VOS)和基于显着性的视频对象分割。One-Shot VOS的目标是在给定帧的地面真值分割时分割视频中的对象。单次VOS方法通常将所提供的分割扭曲到其他帧[4,30,54]。因此,它们需要手动注释,并且如果出现新的对象,则不能生成新的预测。一些Zero-Shot方法[9,39,51,52]使用可见类上的视频标签进行训练,并且能够推广到不可见类,但是视频标签非常耗费劳动力。一些方法在视频中寻找显著区域[7,10,11,14,22,27,34,42],因为显著区域往往对应于对象。然而,显着性预测对于我们的目的有两个主要限制:(a)它可以被不显眼的伪装物体愚弄。(b)两个相邻的对象将被合并到一个单一的显着区域,而我们希望单独识别它们。像我们一样,一些方法已经采用了基于提议的方法[2,35,37],但依赖于经典的跟踪算法来跟踪诸如tracklet的提议。相比之下,我们的方法依赖于综合分析。综合分析是计算机视觉中的一个老概念,但最近越来越受欢迎。它以解释整个图像为目标,可以开发更多的信息。此外,它在概念上是简单的,并且需要很少的易于修复的超参数。我们在实验中表明,我们的方法为了生成对象掩模的目的,其性能优于现有技术的视频对象分割方法UnOVOST [353. 方法如第1节所述,我们的目标是提高预训练的类不可知实例分割在看不见的类上的性能我们的管道包括三个步骤:• 掩码生成:我们使用我们的基线实例分割网络上的未标记的视频包含看不见的面具生成类;• 遮罩选择:我们应用我们的方法来自动选择正确的面具上未标记的视频;• 模型细化:我们使用我们生成的掩码来微调或重新训练我们的基线网络,以提高其对看不见的类的性能。在本节中,我们将介绍我们的基线实例分割网络以及通过探索视频信息自动选择高质量蒙版的方法如我们将在以下部分中所示,与穷举搜索相比,我们的方法是高效的,并且需要很少的易于修复的超参数。3.1. 用于掩码生成的为了从未标记的视频中生成掩码,我们使用类不可知的Mask R-CNN [19],其ResNet-50- FPN [32]骨干作为我们的基线网络。根据以前的工作[41],我们将这种类别不可知 的Mask R-CNN称为Mask Proposal R-CNN的注意,在实践中,Mask R-CNN可以由任何其他可训练实例分割方法替换。如我们在第1节中提到的,实例分割网络可以为一些正确检测的未见过的类分配低置信度分数。因此,在掩模生成阶段期间,我们将置信度分数阈值设置为0以获得尽可能多的检测。3.2. 掩码选择给定T个帧的视频,我们从掩码候选集合t=Mt,1.对于使用我们的基线网络获得的每个帧I t,N,其中N是I t中的掩码候选的数量。为了选择实际对应于对象的掩码候选,我们利用以下线索和约束:• “背景线索”:分割典型的背景,如天空或草地,给我们一个关于物体在哪里的• The• “一致性提示”:所选择的掩码不仅在连续帧之间应该一致,而且在长序列中也应该一致3378.ΣLMΣL--LLLLM MLMMλF.Σ。Σ¨¨• “非重叠约束”:通常被忽视的附加约束是掩模不应重叠:理想地,图像中的正如我们将在以下部分中所示,每个线索对应于最终目标函数中的损失项它们中的每一个和非重叠约束都有助于消除假阳性,如我们在第4.3节中的消融研究所证明的。为了结合这些线索来选择给定视频序列中的正确掩码,我们依赖于贝叶斯框架。该选择问题可以被形式化为在给定视频帧的情况下最大化检测到的掩模的概率:PCl,.., CT|I1,… I T,(1)其中Ct是一组二进制随机变量,Ct,i= 1对应于选择掩码Mt,i的事件,并且Ct,i = 0对应于不选择掩码Mt,i的事件 我们在补充材料中表明,最大化该概率相当于最小化以下目标函数:argmin{∆1,..,∆T}Σt.. λ ILI。It,∆t)+Σ图3.为了评估Eq.(3)比较图像的预测背景和所选掩模的背景。Fg(∆t)是t中掩码的二进制图像,使得δ t,i= 1。对于f,我们使用[26]中提出的网络架构,在与我们的基线网络相同的训练数据上进行训练,以生成掩码。关于分段网络f的细节可以在补充材料中找到。3.2.2 流量损失LλpLp(∆t,∆t+1),在下面将详细描述的非重叠约束下。λI、λF和λp是常数权重。 F t表示帧对(I t,I t+1)的光流。∆t=δt,1,..,δ t,N表示Ct的实现,其中δ t,i是随机二进制变量Ct,i的实现。当选择Mt,i时,δt,i= 1,否则δt,i= 0。我们称I为背景损失,F为流动损失,因为它们分别利用背景线索和流动线索。p强制连续帧之间的一致选择我们在下面详细介绍这三种损失3.2.1背景损失LI我们使用I来利用暗示对象所在位置的背景线索如图3所示,为了对其进行评估,我们通过计算它们的交叉熵来比较针对所选掩模生成的二进制图像和由二进制分割网络f预测的前景/背景概率图,因为图像背景应该与所选掩模的背景匹配。通过在所有图像位置上进行这种比较,我们可以利用整个图像的信息来指导掩码选择-我们将依赖于其他术语的相同策略。形式上,我们采取LIIt,∆t=CE Bg(It),1− Fg(∆t),(3)其中CE表示交叉熵,Bg(It)是每个像素属于预测的背景的概率图我们使用F来利用Flow提示:光流是物体运动和相机运动的结果,因此也暗示了物体在哪里。即使物体是静止的但相机是运动的,当相机与背景之间的距离足够大时,相对运动将使物体区域的光流从背景光流中突出。图4显示了我们如何评估这个术语。我们比较由光流估计器g预测的流和使用在t和t +1中选择的掩模生成的与I项类似,这种比较允许我们利用来自所有图像位置的信息在实践中,我们对g使用[49]的方法。为了生成合成光流,我们使用所选掩模中的像素的颜色我们对不属于任何掩模的像素上的Ft中的流进行平均,以将结果值分配给这些像素的详细补充材料中可找到程序。使用该程序,测量的流量Ft=g(It,It+1),并且当在两个帧中正确地选择所有移动对象时,即使当相机处于运动中时,合成流程也是类似的。更正式地说,我们采取:LF. Ft,It,It+1,∆t,∆t+1Σ=Ft−Ft1,(4)其中,Ft=Ft(It,It+1,∆t,∆t+1)是在t和t+1中针对所选掩模生成的合成流。我们使用L1范数来比较两个流,以使其对预测流中非常常见的离群值具有鲁棒性图4示出了Ft和Ft的示例。Ft,It,It+1,∆t, ∆t+1+(二)F3379LL∼L∼∼.ΣL.Σ。ΣLMP M图4. 为了评估方程的流动损失F,在公式(4)中,我们比较了在两个连续图像之间估计的光流和针对在两个图像中选择的掩模计算的光流。图5.为了评估等式1的正则化损失P,(5)中,我们在两个连续图像中比较所选掩模的二值图像。3.2.3正则化损失L_p与约束如上文所论述,Eq.(2)应该在没有为相同帧选择的掩模彼此重叠的约束下进行。p∆t,∆t+1在跟踪问题中通常被解释为运动模型。我们用它来强制执行一个consis-帐篷之间的连续帧选择口罩 图5示出了我们如何计算它:我们使用一个非常简单的运动模型,并假设对象移动缓慢,换句话说,分割为对象的区域在两个连续的帧之间不会突然改变。形式上,我们采取:Lp∆t,∆t+1= −IoUFg(∆t), Fg(∆t+1),(5)I.E. - 为帧I t和I t+1选择的掩模的二进制图像之间的负交并。当没有为两个图像中的任何一个选择蒙版时,该值设置为0。3.3. 两阶段优化在本节中,我们将介绍一种有效的方法来最小化方程。(二)、请注意,最小化此函数需要同时优化所有帧。一种简单的方法是对问题的解应用穷举搜索,其中目标函数的评估的数量将是O(2NT),其中N是每帧的掩码候选的数量,T是帧的数量(典型地,N值N= 15和T= 180将需要10810次评估)。这在计算上显然是禁止的。我们在这里提供了一个有效的两阶段算法,如图6所示。在第一阶段中,基于背景损耗I和非重叠约束,我们独立地为每个帧选择前K个注意,破坏非重叠约束的组合被简单地丢弃。然后,在第二阶段中,我们同时优化所有帧上的完整目标函数,以找到每个帧的最佳组合。对于这两个阶段,我们可以使用Dijkstra在最 坏 的 情 况 下 , 目 标 函 数 的 求 值 次 数 变 为 O(KTN3+K2T2)。我们在实践中使用K= 10,这将所需的评估从10810减少到 对于上面的数字示例,这个优化问题与许多以前的多对象跟踪工作有关[1,36,44,58,63,64],这些工作通常使用基于图的方法来有效地解决相关问题。与这些作品的主要区别之一此外,我们不能访问对象类,并且我们的优化是在遮罩不重叠的约束下进行的,而这些工作通常依赖于当对象彼此接近时可以重叠的边界框。1. 映像级优化。在这个阶段,对于每个帧I t,我们寻找幂集(t)中的掩码的前K个组合,其最小化等式(1)。(3)在非重叠约束下。穷举搜索将对目标函数进行2N次然而,我们注意到,该问题可以被公式化为二叉树中的K-最短路径搜索问题,其中节点的每对分支对应于是否选择掩码,并且每个分支具有相关联的权重:如果分支对应于与其祖先之一重叠的掩码的选择,则该权重被设置为无穷大,否则它取决于仅在掩码上计算的I的值。面具通过迭代地应用Dijkstra注意,我们提出的算法对于t中的掩码候选的顺序是不可知的。更多详情请参阅补充资料-里亚尔.2. 视频级优化。如图6所示,我们生成一个图,其中每个帧的剩余前K个掩码组合:每个节点对应于一个组合,并且每个边用等式(1)中给出的损失标记。(2)对于它所链接的两个组合为每一帧寻找最佳组合就变成了寻找的问题3380图6.给定一个视频,我们首先对每个帧运行图像级优化,并获得每个帧的前K个视频级优化通过解决最短路径问题有效地为每个帧选择最佳组合。对于该图,K被设置为3。更多详情见第3.3节。图中的最短路径。代替对目标函数进行2KT计算的次数减少到O(K2T2)。补充材料更详细地解释了我们如何构建图表。4. 实验在本节中,我们首先介绍用于评估我们的方法的基准然后,我们比较了我们的方法与几个以前的方法为目的产生的面具上未标记的视频和分析的结果。我们还进行了彻底的消融研究,以显示我们的方法的不同组成部分的影响由于空间限制,实施细节移至补充材料。4.1. 实验装置实施详情。如第3.1节所述,我们使用具有ResNet-50-FPN [32]主干的类不可知掩码R-CNN [19]作为掩码生成的基线。我们的基线是在COCO数据集上预先训练的,该数据集包含80个类和115k个训练图像。我们遵循[19]中描述的训练策略。我们取λ I=λ F= 1和λ p=0。5,在Eq.(2)在我们所有的实验中。评价为了测试我们的方法我们创建了一个数据集,我们称之为“Unseen-VIS”。“Unseen-VIS”的训练部分“Unseen- VIS”的测试部分原始的YouTube VIS数据集包含2,883个视频,其中包含跨越40个类的131k对象实例,其中其中24个与COCO一致。因此,我们将剩余的16个类1视为未看见的类,这总共产生795个视频。我们随机选择了595个视频作为训练集,我们称之为Unseen-VIS-train。剩余200个视频中标记的静态图像用于评估,我们将其称为Unseen-VIS测试。Unseen-VIS-train的所有视频都被用作未标记的视频,并且它们的地面真值掩码被忽略。对于定量评估,我们依赖于标准的COCO指标:AP、AP50、AP75以及AR1、AR3和AR5,因为我们的测试集中每个图像的最大对象数量是4。我们不使用APS 、 APM 和 APL , 因 为 COCO 中 的 对 象 比 例 与YouTube VIS有很大不同。4.2. Unseen-VIS检测结果4.2.1无视频注释的掩模生成我们首先将我们的方法与其他方法进行比较,这些方法也可以在不使用任何视频注释的情况下生成给定视频序列的掩码。 每种方法首先应用于Unseen-VIS-train数据集以生成掩码,然后在对这些掩码进行微调后,我们比较了MP R-CNN在Unseen-VIS测试集上的性能。由于在Unseen-VIS-train中仅注释了五个帧中的一个(总共19352个注释帧),因此我们仅使用这些帧的掩码进行训练,以在不同方法之间进行公平比较。显着性/基于流量的方法。FST [42]和NLC [14]可以通过估计视频中对象的显着性和运动来从视频中生成掩码。IOA [10]在无监督软前向分割算法[48]的输出上训练深度神经网络,以分割视频中的对象。这些方法可以识别视频中的运动区域,但不能分离图像中的相邻对象,因此由这些方法生成的建议实际上可能对应于多个对象。基于跟踪的方法。TWB [2]和UnOVOST [35]依赖于应用于掩模提议的逐帧跟踪流水线。这些方法是最接近我们的方法,因为我们都依赖于一个实例分割模型来生成提案。然而,正如我们之前提到的,对于我们的最终目标(训练更好的对象检测器),我们不需要跟踪检测到的对象。相似性传播给定帧的掩码,UVC [30]基于估计的连续帧之间的对应关系将这些掩码扭曲到连续帧。对于该实验,我们在零激发设置(“ZS-UVC”)中使用它,其中第一帧的掩码反而通过对MP R-CNN的第一帧预测的置信度分数进行阈值化来生成(我们使用0的阈值)。1在实践中)。1熊猫,蜥蜴,海豹,鲨鱼,老鼠,青蛙,老虎,豹,狐狸,鹿,猿,蛇,猴子,兔子,鱼,乌龟。3381用于掩模生成的方法AP AP50不可见VIS试验AP75AR1AR3AR5(bef. 微调)35.8 61.238.1 33.347.350.3用于掩模生成的方法观看视频注释不可见AP不可见VIS试验AP50AP75AR1AR3AR5(bef. 微调)35.861.238.133.347.350.3RVOS [51]✓--✓✓✓38.568.938.035.449.552.8我们39.067.941.335.248.951.4OS-UVC [30]41.573.742.939.152.754.9使用GT42.775.145.337.353.453.6与GT一起50.880.954.643.658.660.6表1. 没有视频注释的掩模生成。MP R-CNN在Unseen-VIS测试中的性能,在对由应用于Unseen-VIS训练的各种方法生成的掩码进行微调后,不使用任何视频注释。自我训练方法。我们还将我们的方法与自学习数据蒸馏(DD)方法进行了比较[46]。我们遵循他们提出的测试时间增强来独立地在Unseen-VIS训练视频的每一帧上生成掩码,因为这种方法在单个图像上执行。我们在表1中报告了结果。与基于显着性/流的方法和基于跟踪的方法相比,该方法生成的掩码质量高,在所有指标上都能大大提高基线网络的性能。我们的方法还大大优于用于两阶段对象检测的最先进的自训练方法(DD)[46]。4.2.2依赖于视频注释的掩模生成除上述方法外,我们还进一步比较了两种采用不同设置的方法,并探讨了我们方法的上界。RVOS。 RVOS [51]是一个直接在视频上运行的端到端视频对象分割框架,它需要标记的视频进行训练。我们采用RVOS的Zero-Shot设置,其中它使用ResNet 50[20]作为YouTube VIS的1089个视频(总共25869个注释帧)的骨干进行训练,并直接应用于Unseen-VIS训练视频以生成掩码。OS-UVC。在这里,我们考虑UVC的单次设置,其中第一帧的地面真实掩模针对所有Unseen-VIS-train视频给出。使用GT选择。我们使用Unseen-VIS-train的地面真值掩码标签来选择MP R-CNN预测的掩码。基于它们的Intersection-over-Union来评估掩模之间的相似性,并且使用匈牙利这可以被认为是我们可以实现MP R-CNN预测的上限。与GT一起训练我们报告了用Unseen-VIS-train的地面真实掩码标签微调的MP R-CNN的性能。这也可以被认为是上界,表2. 使用视频注释的掩码生成。MP R-CNN在Unseen-VIS测试中的性能,在通过各种方法生成的掩码上进行微调后,这些方法需要手动视频注释,除了我们的方法。RVOS使用Seen类的标记视频进行训练。OS-UVC使用用于第一帧的真实掩模来生成掩模。”Selected using GT” represents the masks方法使用未标记的数据JF&是说是说 ReJ呼叫衰减是说回复F呼叫衰减UnOVOST [35]✓56.254.463.7-0.0157.965.00.00联系我们59.959.170.0-0.0660.870.8-0.03表3. DAVIS数据集上的零拍摄视频对象分割评估[43]。UnOVOST [35]依赖于实例分割网络来生成掩码UnOVOST+row:在使用我们的方法生成的掩码在DAVIS训练数据集上微调其掩码生成网络之后,它在所有指标上都取得了更高的结果。所有的类都已经看过了。我们在表2中报告了结果。与使用标记视频训练的RVOS [51]相比,我们的方法仍然可以在召回方面取得相当的结果,同时在AP75上大幅超越他们的结果,这意味着我们的方法选择的掩模质量更好。对于实际应用来说,重要的是,我们的方法能够处理COCO中的图像(我们在其上预训练MP R-CNN)和YouTube VIS中的帧(我们在其上应用和评估我们的方法)之间的大域间隙。RVOS在来自YouTube VIS的视频上进行了训练和应用,因此没有遇到域差距。虽然OS-UVC [30]比我们的方法实现了更高的结果,但它主要依赖于高质量的第一帧掩码:当我们用预测的掩模(表1中的“ZS-UVC”)替换地面实况掩模(表2中的“OS-UVC”)时,我们观察到大的性能下降。此外,它只能跟踪第一帧中可见的对象,因为它不处理新对象的出现。在对80个可见COCO类和我们的方法在Unseen-VIS-train上生成的掩码进行简单的从头再训练之后,MP R-CNN 在 COCO minival 上 实 现 了 35.2 个 掩 码 AP , 在Unseen-VIS- test上实现了38.9个掩码AP与仅用COCO数据集预训练的MP R-CNN相比,它在COCO minival上实现了35.3个掩码AP,我们在Unseen-VIS-test上实现了更好的性能,同时保持了COCO上的性能更多详情请参见补充材料。NLC [14]1.23.81.02.45.36.9[10]2.48.50.96.98.79.5FST [42]17.041.811.322.030.633.1UnOVOST [35]31.155.632.229.944.548.2TWB [2]31.253.432.831.546.750.0DD [46]36.663.838.532.546.249.3ZS-UVC [30]21.242.619.926.340.043.2我们39.067.941.335.248.951.43382LLLLL图7. Unseen-VIS-train上的选定掩码的定性结果和在这些选定掩码上微调之后Unseen-VIS-test上的新类别的检测。顶部:第一行:由我们的基线网络MP R-CNN在来自Unseen-VIS-train的两个序列上检测到的掩码;第二排:UnOVOST [ 35 ]选择的面罩;第三行:通过我们的方法选择的面具。请注意,我们保留熊猫和兔子的遮罩,并拒绝不对应于真实对象的遮罩。底部:在Unseen-VIS测试的静态图像中检测到的遮罩。第四行:MP R-CNN检测到的掩码,然后我们在Unseen-VIS-train上对我们的方法选择的掩码进行微调;第五行:微调后MP R-CNN检测到的掩码。通过我们的方法生成的掩码为新类带来了更好的模型:我们现在可以在新视频中正确地分割熊猫和兔子,即使没有提供熊猫和兔子的手动分割有关更多示例,请参阅补充材料中的视频。应用于零镜头视频对象分割。作为最先进的零镜头视频对象片段之一LIOverl.Constr.LFLpAPAP50AP75AR1AR3AR535.861.2 38.133.347.350.3分割方法2,UnOVOST [35]通过链接每个帧上的实例分割网络预测的掩码来分割视频中的对象。如表3所示,✓✓ ✓✓ ✓36.665.2 37.833.347.750.838.164.6 40.234.248.551.238.767.0 40.534.748.751.3通过使用我们的方法在DAVIS训练数据集[43]上生成的掩模上微调原始掩模生成模型,我们获得了更好的结果。这表明,下游任务可以从我们的方法带来的性能提升中受益。4.3. 消融研究表 4 示 出 了 由 等 式 中 的 每 个 损 失 项 和 约 束 所(二)、 通过仅应用背景损失I获得的掩模已经可以改善基线对看不见的类的性能。类似地,添加掩模不应重叠的约束、流损失F或正则化损失P具有正影响。特别地,这示出了流损失F和正则化损失P两者都有助于对由背景损失给出的掩模的组合进行重新排序5. 结论在本文中,我们攻击的问题,定位和分割对象从看不见的类,没有任何手动的掩模标签。我们表明,基于在一些可见的类上预训练的实例分割模型,我们的方法为未见过的类提供了高质量的掩码。2https://davischallenge.org/challenge2019/leaderboards.html网站✓✓ ✓✓39.067.941.335.248.951.4表4.对我们方法的不同组件进行消融研究。分析未标记的视频,而不需要难以调整的超参数。此外,我们通过将计算上禁止的优化分解为两阶段优化来提供有效的实现然而,应该注意的是,在无监督的情况下,对象的概念是非常不明确的。“事物”和“东西”之间的界限如果有人推这块石头怎么办?问题的严重性也不清楚:我们应该把一个人看作一个物体,还是把他们的每件衣服看作单独的物体?这种模糊性不会出现在监督的通过其形状或其功能来重新考虑对象的定义可能是重要的,以使非监督对象分割的评估更有意义。致谢我们感谢Ze Chen,Zerui Chen,Changqian Yu,Enze Xie,Tianze Xiao,Yinda Xu,Xi Shen,MathisPetrovich和Philippe Chiberre提供宝贵的反馈。该项目得到了CHIST-ERA IPALM项目的资助。3383引用[1] 我是Berclaz,FrancoisFleuret,EnginTuretk en,andPas-cal Fua. 基于K-最短路径优 化的多目标跟踪。 IEEETPAMI,33(9),2011。[2] PhilippBe r gmann,TimMe i nhardt,andLauraLeal-Taixe'.没有铃声和口哨的追踪在CVPR,2019年。[3] 克 里 斯 托 弗 ·P Burgess 、 Loic Matthey 、 NicholasWatters、Rishabh Kabra、Irina Higgins、Matt Botvinick和Alexan der Lerchner。莫奈:无监督场景分解和表示。在arXiv,2019年。[4] Sergi Caelles , Kevis-Kokitsi Maninis , Jordi Pont-Tuset,LauraLeal-Taixe',DanielCremers和LucVanGool。单次视频对象分割。在CVPR,2017年。[5] Holger Caesar Jasper Uijlings和Vittorio FerrariCOCO-材料:上下文中的事物和东西类。在CVPR,2018年。[6] 放 大 图 片 作 者 : Chen Liang-Chieh , Raphael GontijoLopes , Bowen Cheng , Maxwell D. Collins , Ekin D.Cubuk , Barret Zoph , Hartwig Adam , and JonathonShlens.天真学生:在视频序列中利用半监督学习进行城市场景分割。在ECCV,2020年。[7] 陈怡文、蔡怡萱、林燕宇、杨明萱。VOSTR:通过可转移表示的视频对象分割IJCV,128(4),2020.[8] Jingchun Cheng , Yi-Hsuan Tsai , Wei-Chih Hung ,Shengjin Wang,Ming-Hsuan Yang.通过跟踪部分快速准确地在线视频对象分割。在CVPR,2018年。[9] 程景春,蔡义轩,王胜金,杨明轩。SegFlow:视频对象分割和光流的联合学习InICCV,2017.[10] IoanaCroitoruSimion-VladBogolin和MariusLeordeanu。从视频中检测单幅图像中前景对象的无监督学习。 InICCV,2017.[11] 阿查尔·戴夫帕维尔·托克马科夫和德瓦·拉玛南对任何移动的东西进行分段。在ICCV,2019年。[12] Akshay Dhamija,Manuel Gunther,Jonathan Ventura,和Terrance Boult。被忽视的物体检测大象:打开设置。在WACV,2020年。[13] Edsger W. 迪 杰 斯 特 拉 关 于 图 的 两 个 问 题 的 注 记Numerische mathematik,1(1),1959.[14] Alon Faktor和Michal Irani。基于非局部一致性投票的视频分割。InBMVC,2014.[15] 范志波,余金刚,梁志豪,欧家荣,高长新,G. Xia和Y.李FGN:用于少镜头实例分割的完全引导网络。在CVPR,2020年。[16] D. A. Forsyth,J. Malik,M. M. Fleck,H. Greenspan,T.K. Leung,S.贝隆吉角Carson和C.布莱格勒在大型图像集合中查找对象的照片。计算机视觉中的对象表示,1996年。[17] Georgia Gkioxari Jitendra Malik和Justin Johnson 网格R-CNN。在ICCV,2019年。[18] KlausGref f 、 Raphae¨ lLopezKaufman 、 RishabhKabra 、NickWatters、Christopher Burgess、Daniel Zoran、LoicMatthey、Matthew Botvinick和Alexander Lerchner。多目标表示学习与迭代变分推理。在ICML,2019。[19] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面罩R-CNN。InICCV,2017.[20] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[21] RonghangHu,PiotrDolla'r,KaimingHe,TrevorDarrell,andRoss Girshick.学会分割每一件事。在CVPR,2018年。[22] Suyog Dutt Jain,Bo Xiong,and Kristen Grauman.融合-分段:学习结合运动和外观,用于视频中通用对象的全自动分割。在CVPR,2017年。[23] Tomas Jakab 、 Ankush Gupta 、 Hakan Bilen 和 AndreaVedaldi。从未标记的视频中自监督学习可解释的关键点。在CVPR,2020年。[24] Jisoo Jeong , Seungeui Lee , Jeesoo Kim , and NojunKwak.基于一致性的半监督学习目标检测。NeurIPS,2019。[25] SouYoung Jin,Aruni Roychowdhury,Huaiizu Jiang,Ashish Singh,Aditya Prasad ,Deep Chakraborty,andErik Learne
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功