没有合适的资源?快使用搜索试试~ 我知道了~
视频框模板生成:基于时空一致性的视频对象分割方法
13556基于时空一致性的视频框模板生成算法Zhao Bin Goutam Bhat Martin Danelljan Luc Van Gool Radu Timofte计算机视觉实验室,D-ITET,ETH苏黎世,瑞士{bzhao,goutam.bhat,martin.danelljan,vangool,radu.timofte} @ ethz.ch图1.当仅使用单个帧时,从边界框预测对象遮罩通常会导致失败(左),因为对象的轮廓难以解析。通过使用视频,我们的方法聚合了多个帧的信息。在这个例子中,它通过相邻帧将汽车识别为背景,而滑板车保持在框内,允许它被准确地分割。摘要分割视频中的对象是一项基本的计算机视觉任务。当前基于深度学习的范式提供了一种强大但数据饥渴的解决方案。然而,当前的数据集受到在视频中注释对象掩模的成本和人力的限制这有效地限制了现有视频分割方法的性能和泛化能力。为了解决这个问题,我们探索较弱形式的边界框注释。我们介绍了一种方法,用于从视频中的每帧边界框注释生成分割掩模。为此,我们提出了一个时空聚合模块,有效地挖掘跨多个帧的对象和背景外观我们使用 我 们 的 预 测 准 确 的 面 具 来 训 练 视 频 对 象 分 割(VOS)网络的跟踪域,其中只有手动边界框注释可用。的广告,广告数据提供了更好的泛化性能,导致国家的最先进的标准跟踪基准的结果代码和型号可在https://github.com/visionml/pytracking获得。1. 介绍分割视频中的对象是一项重要但具有挑战性的任务,在自动驾驶[51,55],监控[11,15]和视频编辑中有许多应用。该领域一直受到基于深度学习方法的惊人性能的推动[7,44,58]。然而,这些方法需要大量的具有逐像素注释的训练图像在视频中手动注释分割因此,具有分割标签的现有视频数据集[49,63]无法提供深度学习所需的大规模多样性。这有效地限制了当前最先进方法的潜力。为了解决这个问题,考虑较弱形式的人工注释是很有吸引力的。特别地,对象绑定框提供了有趣的替代方案。框提供对分段掩码的范围的水平和垂直约束,同时也显著更快地进行标注。因此,一种有效地利用绑定框注释来训练视频分割模型的方法将大大简化将这些模型部署到新领域的过程理想情况下,只需将视频13557对对象掩模的框注释将允许现有的视频分割方法使用标准的监督技术来集成这些注释,而不需要对损失或结构进行任何修改。这种转换网络本身可以使用可用的掩模注释数据来训练因此,我们调查的问题,生成对象分割框注释的视频。从框注释的视频生成掩码是一项具有欺骗性的挑战性任务。背景场景通常是杂乱的或包含类似的对象。物体可以迅速改变外观,并且经常经历严重的遮挡。现有方法[38,60]仅解决单帧情况,其中这些模糊性是困难的,或者有时由于有限的信息而不可能解决。然而,如果我们可以利用视频中的多个帧,则可以大大缓解上述问题当对象相对于背景移动时,我们可以在对象和背景的几个示例视图上找到虽然对象区域应该始终保持在框内,但是背景块可以在视频序列的持续时间内从对象框的内部移动到外部。例如,在图。由于背景汽车,单帧方法不能正确地分割踏板车。相反,我们的基于视频的方法可以在较早和较晚的帧中将汽车识别为因此,汽车很容易从所有帧中的最终分割中排除。然而,有效地利用在时间信息中编码的信息是高度挑战性的问题。由于对象和背景在每帧中移动和变化,标准融合操作不能提取期望的一致性和关系。相反,我们从深度声明性网络的新兴方向中获得灵感,提出了一个时空聚合模块[17]。我们的模块被制定为一个优化问题,其目的是找到最好地解释所观察到的对象和背景出现在每帧中的底层对象表示。它允许我们的方法来挖掘时空一致性,通过联合推理所有输入帧中的所有图像补丁然后由解码器处理每个帧的所得掩码嵌入以生成最终分割输出。贡献:我们的主要贡献如下。(i)我们提出了一种用于从视频中的边界框预测对象掩模的方法。(ii)我们开发了一个时空聚合模块,该模块有效地挖掘多个帧上的(iii)通过迭代公式,我们可以通过第二个聚合模块进一步细化掩码。(iv)我们利用我们的方法用对象掩模来注释大规模跟踪数据集,然后利用所述对象掩模来将视频对象分割(VOS)扩展到跟踪域。我们进行了大量的实验,证明了我们的方法在有限的数据域的有效性。此外,我们表明,由我们的方法生成的数据在我们的伪注释跟踪视频上训练的现有VOS方法[7]在标准跟踪基准上实现了最先进的性能,达到了0的EAO分数。VOT2020上的510和86。GOT-10 k确认集上的7个代码、模型和生成的注释将公开提供。2. 相关工作半监督视频对象分割:半监督视频对象分割(VOS)是在第一帧中给定目标真实掩模的情况下将视频序列中的所有像素分类为前景和背景的任务。近年来,已经提出了许多不同的方法用于VOS,包括基于检测的方法[8,40,59]、基于传播的方法[27,35,37]、基于传播的方法[28,39]、基于传播的方法[29,39]。46,62]、特征匹配技术[10,22,44,58],以及基于元学习的方法[3,7,50]。VOS最近取得进展的一个关键因素是高质量数据集的发布,如DAVIS [49]和YouTube-VOS [63]。然而,为VOS数据集执行逐像素掩模注释是极其耗时的任务。因此,VOS数据集的大小仍然相对较小,并且包含有限数量的对象类、运动类型等。与诸如对象检测和跟踪的其他领域相比这对训练真实世界应用程序的通用VOS模型提出了重大挑战。弱监督分割:由于收集像素级标签的成本很高,最近已经使用不同类型的弱标记来指导分割任务,例如图像级监督[1,24,29,47,66],点[2,41], scribbles [37,57]和边界框[12、21、26、31、45]。 最近的工作[21]通过利用边界框的紧密性来设计多实例学习(MIL)损失。我们的工作是更多地涉及到包围盒监督分割。在[12,26]中,使用GrabCut [52]和MCG建议[48]生成用于训练的伪分割掩码。Voigtlaender等[61]采用了[38]中引入的框到掩码转换模型本着与[61]类似的精神,我们的方法利用掩码注释视频池来训练视频框到掩码转换网络,然后使用框注释来生成伪标签。然而,与[61]不同,我们的方法在标记框注释视频时不需要任何额外的掩码注释。此外,通过利用跨视频帧将框转换为分割蒙版:生成135581----图2.概述了我们的架构,用于从框注释的视频分割对象我们从每帧中提取深度特征然后,将特征xt和框bt给予对象编码器(Sec.3.1)以生成对象感知表示et。时空聚合模块(Sec.3.2)输入来自所有帧的对象编码和深度特征 其输出s_t被解码为对象掩码y_t。 我们通过迭代该过程来细化掩码(Sec. 3.3)与次级对象编码器和聚集模块一起生成最终输出y(t)。来自给定对象边界框的分割掩模是实例分割中的基本子任务,尤其是基于检测的方法[13,18,19,36]。这些方法遵循多任务学习策略,其中骨干网络首先提取深度特征并生成一组提议。然后分别使用检测和分割 头 来 预 测 该 建 议 的 准 确 边 界 框 和 分 割 掩 码 。ShapeMask [32]采用边界框检测作为初始形状估计,并使用形状先验集合逐渐对其进行细化。Luiten等人[38]训练修改后的DeepLabv3 [9]模型输出掩码,给定包含对象的裁剪作为输入。与以前的方法相比,只对单个图像进行操作,我们解决了给定框注释视频作为输入生成掩码的任务。我们的方法可以利用视频中的额外的时间信息来预测更准确的掩模,相比单一图像的方法。对象共分割:对象共分割是从一组图像中分割出共同对象的任务。 这个概念首先由Rother等人提出。在[53]中,其最小化包含MRF平滑先验和直方图匹配项的能量函数。后续工作[54]结合视觉显著性和密集SIFT匹配来捕获一组图像中常见对象的稀疏性工作[34]将互相关层集成到基于CNN的Siamese架构中以执行共同分割。与联合分割方法类似,我们使用多幅图像分割对象然而,我们的图像是从同一个视频中获得的。这使得能够利用视频中的强时间一致性来提高分割精度。3. 方法我们提出了一个端到端的可训练架构的问题,分割视频中的对象,在每一帧中的边界框。 我们的完整架构如图所示。二、 为了充分利用时间维度,我们的目标是不仅使用目标的详细信息,而且还使用背景上下文。因此,我们的骨干特征网络F首先分别编码包含对象以及实质背景的视频帧I t T。所提取的深度特征x t=F(I t)连同对应的边界框b t被给予对象编码器B,对象编码器B提供每个单独帧的对象感知表示。 通过结合对象包围盒,它提供了关于假想对象和背景区域的信息。来自所有帧的对象编码和深度特征Xt被输入到时空聚合模块S。该模块的目标是为每个帧生成对象分割的编码。模块S通过有效且可区分的优化过程来聚合来自所有帧和位置的迭代过程通过找到对象的底层表示来融合外观(xt,et)的不同观察。然后,该表示生成分割编码st,其由分割解码器D处理以预测初始对象掩模为yt=D(st,xt)。我们灵活的体系结构允许我们通过将结果馈送到第二个时空聚合模块来进一步改进掩码,该模块预测一组细化的分割编码13559×∈∈∈∈22111不不不不st. 然后,由相同的解码器网络生成最终的分段掩码y(t=D(s(t,xt))。我们的整个体系结构都是以完全监督的方式进行端到端培训的在下一节中,我们首先详细介绍对象编码器。3.1. 对象编码器精确分割一个指定的对象,只有一个单一的帧是一个具有挑战性的问题。由于我们的目标是通用对象分割,在推理过程中指定的对象类型甚至可能不会在训练集中表示。通常,因此难以评估单个边界框内的哪个图像区域属于所讨论的对象。这由于杂乱的场景或背景中类似于对象本身的干扰物区域的存在而进一步复杂化。在这些情况下,确定物体边界特别困难。此外,多个对象经常重叠,使得甚至在给定边界框的情况下分割哪个对象的决定也是一项不明确的任务。如果我们可以利用来自视频序列的几个帧,则大大缓解所有上述问题当对象相对于背景移动时,我们可以在对象出现的几个视图上搜索一致性。虽然对象区域应始终保持在框内,但背景块可在序列的持续时间内从框内移动到框外。这种对一致性的搜索由我们的时空聚合S通过迭代优化过程来执行。它operates上的信息提取的个别帧的对象编码器,我们首先在这里详细介绍。直接从单个帧中提取分割是困难的然而,我们可以从单个帧生成对象编码,捕获多个可能的分割假设。每一帧都提供了关于图像块、结构和模式的详细信息,这些信息肯定不是对象本身的一部分。这些是严格位于边界框之外的图像区域,当与序列中的其他帧组合时,这些图像区域提供重要的为了提取这样的逐帧对象信息,我们集成了对象编码器B。它通过输入深度图像表示xt=F(It)以及对象边界框bt来获取帧t中可用的信息。我们首先将框bt转换为输入图像坐标中的对应直角掩模表示然后,通过几个卷积和池处理所有输出具有与特征xt相同的空间分辨率H W。抽象嵌入et保存关于候选对象形状和图像It中的背景区域的信息。直观地,在空间位置(i,j)处,激活向量et[i,j]RC对对应图像区域的可能分割进行编码。注意,该编码的确定性et[i,j]可以在空间上并且在特征通道上变化。例如,边界框外的区域肯定不是对象的一部分,而框内的区域为了对et[i,j]中的这种不确定性进行建模,我们还为et中的每个元素预测相应的置信度权重wt。输出mt也包含单帧对象编码,类似于et然而,m_t被直接输入到分段解码器D。相反,编码et及其置信度wt被给予时空聚合模块,接下来详细描述。3.2. 时空聚合时空聚合模块的任务是在多个帧上挖掘对象信息。然而,设计能够有效地整合来自多个帧的信息的神经网络模块是一个具有挑战性和复杂的问题,因为对象在每个帧中改变位置和姿势。结果,时间池化、级联或卷积不能找到所需的一致性。此外,这些操作不考虑详细的全局信息。当决定一个补丁是否对应于前景或背景时,我们需要找到并推理给定帧中的所有相似补丁我们的公式的主要思想是找到最好地解释所观察到的对象嵌入et的基础对象表示z。也就是说,表示z应当指示深度图像特征Xt与对应的对象嵌入et之间的一致局部相关性。我们将其表述为找到从特征向量xt[i,j]RD到对应嵌入向量et[i,j]RC的最佳拟合局部线性映射的问题。这最方便地表示为与滤波器z RK×K×D×C的卷积,其中K是内核大小。使用平方误差来测量拟合,我们的时间聚合模块被公式化为{s t}T=S。{(xt,et,wt)}T<$={xt<$z<$}T 其中(2a)不层,这增加了维度,同时减少了使空间分辨率与深度特征相同z=arg min 1<$W·(xz−e)<$+λz。(2b)xt.然后将所得到的激活与特征Xt级联,并由若干残差块进一步处理通过深度特征Xt,对象编码器B可以提取候选对象形状,当在若干帧上搜索一致性具体地说,对象编码器具有三个输出,(et,wt,mt)= B(xt,bt),et,wt,mt∈RH×W×C. (一)因此,滤波器z被优化以从特征xt预测嵌入et。为了最小化的目标,过滤器必须专注于一致的本地相关性之间的xt和et,而忽略不重新发生的偶然关系。预测的置信度w通过逐元素乘法主动地对每个空间-时间位置和信道维度处的误差进行加权我们的网络可以zt=1135601--.Σ∗不不×11不不 不不不 不联系我们因此,学会通过预测低权重wt来忽略ET中被认为是不确定的信息,同时通过给出大的重要性权重来强调其他信息。在训练期间学习正则化权重λ在推理和训练期间,需要为网络的每个前向传递求解优化问题(2b)。因此,求解器需要是高效的,以确保实际的训练和推理时间。此外,解z*必须是相对于t可微的。输入(xt,et,wt)T和λ。虽然可以直接计算(2b)的闭合形式解,但它涉及计算量大的大规模矩阵运算。因此,我们采用[5,7]中使用的基于展开最速下降的由于该算法通过可微分的封闭形式表达式对z进行迭代更新,因此通过在深度学习库中实现的标准自动微分自动实现在通过迭代最小化(2b)挖掘时空一致性之后,过滤器z*包含对象的强表示。它封装了对象的一致模式和相关性,集成了空间和时间信息。时空聚合模块的输出分割编码st通过将优化表示z*应用于(2a)中的每个帧的深度特征xt来实现,如st=xt z*。然后,这被输入到我们的解码器yt=D(st,mt,xt),其生成最终的对象分割yt。与[7]的关系:我们的方法可以被视为LWL VOS方法[7]中采用的内部学习者的扩展。LWL解决了几次学习问题,其目标是使用第一帧中提供的掩模注释来然后将该模型应用于后续测试帧以分割目标。相比之下,我们的公式(2)不假设访问任何分割注释。相反地,因此通过将输出分段掩码反馈回聚合步骤来利用该信息。为此,我们创建次级对象编码器B(,采用预测掩码yt)。由于初始掩码yt已经封装了对象范围的详细表示,我们发现它足以生成聚合模块使用的对象嵌入et和置信度权重wt因此,对于我们预测的每一帧,(et,wt)=B(yt), et,wt∈RH×W×C.(三)注意,我们不重新生成稍后由解码器使用的单帧信息。相反,我们采用源自原始对象编码器(1)的一个。对象编码et和相应的权重wt现在包括关于对象的新的和更准确的信息。 我们通过将其输入到我们的时空聚合模块(2)以生成n个分段编码stT=S(xt,et,wt)T来将其集成用于掩码预测。注意,这意味着求解新的优化问题(2b),其挖掘空间-时间一致性。使用与y(t=D(s(t,mt,xt)相同的解码器模块来获得最终分段掩码y(t)。虽然该过程可以重复多次,但我们没有观察到第三次迭代的明显改善。然而,这是预期的,因为解码器的强分段先验已经在第二迭代中被聚合模块3.4. 培训我们的完整模型是完全可区分的,因此可以使用现有的掩码注释视频数据集进行端到端训练。从地面真实掩模yGT,我们通过取包含掩模yGT的最小轴对准框来提取相应的边界框bt。我们的网络是通过最小化损失在长度为TT T我们利用输入中的时空一致性帧,以仅使用框注释来输出针对每个帧的分割编码St因此,制剂(2)用于L=1Σ(y,yG T)+1Σ(y,yG T).(四)t=1t=1在我们的方法中的时空融合的目的,而不是在LWL几杆学习目标。3.3.迭代细化在本节中,我们描述了使用我们的体系结构中的现有组件来进一步细化对象分割的方法解码器模块通过整合来自不同级别的深度特征来学习强大的分割先验它能够提取准确的对象边界并过滤掉潜在的错误。因此,由时空聚合模块(2)预测的分割嵌入st被这些先验丰富,以便生成输出分割yt。注意,这表示聚合模块在第一遍中未看到的新知识。我们可以在此,yt和yt分别是由初始预测和细化生成的分段输出此外,表示一般分割损失。对于我们的实验,我们使用YouTube-VOS [63]和DAVIS 2017 [49]数据集。我们使用比DAVIS 2017训练集高6倍的概率对YouTube- VOS的两个数据集的序列进行采样然后,我们在长度为100的时间窗口内随机采样长度为T= 3帧的子序列对于每一帧,我们首先裁剪一个比地面实况边界框大5倍的补丁,同时确保最大大小等于图像本身。然后,我们将裁剪后的面片大小调整为832 480,具有相同的纵横比。只有随机 hori-zontal翻转采用数据扩增。13561JJJJJJ我们使用来自[42]的Mask R-CNN权重初始化我们的骨干ResNet-50。所有剩余的模块都使用[20]初始化。我们使用Lovasz [4]损失作为(4)中的分割损失。网络参数使用ADAM [28]优化器学习,批量大小为4。我们在固定骨干权重的情况下训练我们的网络进行8万次迭代学习率初始化为10- 2,然后在30 k和60 k次迭代后减少5倍。整个训练在单个GPU上需要32小时。3.5.实现细节体系结构:在这里,我们给出了关于我们的体系结构的进一步细节。我们使用ResNet-50骨干网络作为特征提取器。对于对象编码器B和时空聚合模块S,我们采用第三残差块并添加另一个卷积层,其将维度减小到512。 对象编码器生成输出(1)具有维度C= 16。 我们采用分段解码器使用[7,50]。我们首先将来自(2)的分段嵌入st与来自(1)的单帧信息mt然后,解码器逐渐增加分辨率,同时集成来自F中的不同级别的深度特征。对于时空聚合模块(2),我们首先将对象表示z初始化为零。然后,我们在训练期间应用5次最速下降迭代[7]来优化(2b)。z的核大小被设置为K= 3。推断:对于给定的输入视频,我们提取T帧序列。由于我们的方法受益于使用目标和背景的不同视图,我们不直接提取后续帧,因为它们是高度相关的。相反,我们采用帧间间隔为∆。为了分割所有帧,我们简单地通过每次将子序列移位一步来进行。我们通常采用T= 9和∆ = 15。我们 分 析 了 秒 中 的 序 列 长 度 T4.1. 对 于 时 空 聚 集(4),我们发现在推断期间将最陡下降迭代的数量增加到15是有益的4. 实验我们进行全面的实验,以验证我们的贡献。我们的结构的详细烧蚀分析见第10节。4.1.我们在第4.2节中证明了我们的方法对VOS的部分监督训练的有效性。最后,在第4.3,我们使用我们的网络来注释大规模跟踪数据集,并使用生成的注释显示改进的跟踪性能。4.1. 消融研究我们进行了详细的烧蚀研究,分析了我们的方法中的关键组件的影响。对DAVIS 2017验证集以及先前在[7,25]中使用的YT300集进行分析公司简介-锡永结果以JaccardJ指数示出由300个序列组成,这些序列从YouTube-VOS 2019训练集中随机抽样,不用于训练我们的模型。使用平均Jaccard指数的方法进行评价除非另有规定,否则使用第2.2节中所述的设置进行推断。三点五由于DAVIS的运动更快,我们仅采用不同的∆ = 5使用多帧的影响:我们调查的影响,利用信息从多个帧转换盒掩模通过评估我们的方法,使用不同的输入帧的数量。该比较的结果示于表1中,并且定性示例在图1中提供。3.第三章。当使用单个帧作为输入时,我们的方法获得84的分数。2和78。7分别在YT300和DAVIS 2017验证集上。当使用多个输入帧时,我们的方法的性能大大提高。当使用9帧时获得最佳结果,得分为81。2017年DAVIS上。这些结果清楚地证明了使用多帧来执行精确的框到掩码转换的优点架构分析:在这里,我们分析了我们的架构中不同组件的影响。我们评估我们的方法的四个变体; i)单个图像:单个图像基线,其仅使用单帧对象表示m t来独立地将框转换为每一帧中的掩模。ii)多帧:我们的时空聚合模块用于通过利用多个帧来获得分段编码。iii)MultiFrame+:除了分段编码st之外,单帧对象表示m_t被传递到分段解码器。iv)多帧迭代:我们采用第3.3节中描述的迭代细化策略来细化使用MultiFrame+获得的初始分割预测。结果见表1。二、 SingleImage获得83分。3和77。2分别在YT300和DAVIS 2017验证利用来自多个帧的对象信息的MultiFrame模型实现了显著更好的结果,具有+2的改进。2017年DAVIS上的6分。这证明了我们的时空聚合模块在有效地组合来自多个帧的信息方面结合分段编码st使用单帧对象表示mt提供了轻微的改进。最后,执行初始分割预测的迭代细化提供了+1的进一步改进。DAVIS 2017上的1分。这表明,分割解码器包含丰富的先验信息,可以完成Num. 帧1 3 5 7 9 11公司简介84.2 85.2 85.5 85.6 85.6DAVIS2017验证78.7 80.4 80.9 81.1 81.2 81.2表1.使用多帧对框到遮罩转换器13562JJ图3.在推理过程中使用单个(第二行)和多个(第三行)图像时,我们的框到掩码转换网络的定性结果我们的方法可以有效地利用多帧处理具有挑战性的情况下,挖掘时空一致性。[38]第38话SingleImage康卡特STA我们公司简介-83.383.483.285.6DAVIS2017验证79.377.277.878.581.2表2.拟议办法中不同组成部分的影响结果以JaccardJ评分报告。我们的时空聚合模块。时空聚合:在这里,我们比较了我们的方法与其他策略,从多个帧聚合信息。我们用两种不同的方法替换我们的聚合模块; i)STA:我们执行[ 44 ]中使用的密集空时匹配以聚合帧上的信息,使用特征Xt作为键,并且编码Et作为值; ii)Concat:我们沿着信道维度在所有帧上级联Et,并且使其通过小网络以获得融合分段编码St。此外,我们还包括我们的SingleImage变体,以及现成的单帧框到掩码转换网络Box2Seg(来自[38]的建议细化网络结果见表1。3 .第三章。STA和Concat方法都未能有效地融合来自多个帧的信息,仅提供了比SingleImage基线小的改进。相比之下,我们的方法优于单帧Box2Seg网络+1。在DAVIS 2017 val上得分9,证明其可有效-有效地集成来自多个帧的信息。4.2. 部分监督的VOS培训在本节中,我们验证了我们的方法的有效性,以生成用于VOS模型的部分监督训练的伪标签。我们考虑的情况下,逐像素分割标签仅适用于少量的训练序列,而其余的序列具有对象的边界框注释这是一个非常实用的场景,因为生成边界框标签的速度明显快于获得像素级表3.根据Jaccard评分,与整合来自多个帧的信息的替代方法进行比较。Box2Seg的结果来自[60]。只有密耳MIL+CRF我们FS76.977.7 77.8 78.9表4.在YT300数据集上与其他部分监督训练方法的JaccardJ指数比较遮罩注释。在这种情况下,期望利用边界框注释来执行部分监督训练,以便受益于更多的训练数据。为了评估我们在这种情况下的方法,我们使用YouTube-VOS 2019训练集模拟了训练场景我们将YouTube-VOS训练集以1:9的比例随机分为两个子集A和B。分割标签可用于集合A,而仅边界框注释可用于集合B中的视频。我们使用来自集合A的掩码注释视频来训练我们的视频框到掩码转换网络。然后,仅使用边界框注释,使用经训练的模型来生成集合B中的视频的伪标签然后使用组合的数据集A和B训练VOS模型我们使用最近引入的多实例学习(MIL)损失[21]来计算来自集合B的框注释视频的训练损失。ii)MIL+CRF我们使用MIL损失与[56]中引入的CRF正则化器组合来计算训练损失。此外,我们还报告了仅使用完全注释的集合A进行训练时获得的结果(仅A),以及使用具有掩码注释(FS)的完整YouTube VOS训练集时获得的上限我们使用最近引入的LWL [7]方法作为本实验的VOS模型LWL网络使用部分监督方法中的每一个进行训练,进行100k次迭代。的mt stIter公司简介DAVIS2017 ValSingleImage✓✓✓ ✓✓ ✓✓83.377.2多帧84.679.8MultiFrame+84.880.1多帧迭代85.681.213563JJSTM[44]中文(简体)OceanPlus[65]RPT[39]LWLLWL-我们的SiamRPN++[33]DiMP-50[5]KYS[6]SiamRCNN[60]LWLLWL-我们的表5. VOT2020在预期平均重叠(EAO)、准确性和鲁棒性方面的最新比较。SiamRPN++[33]DiMP-50 [5]PrDiMP-50 [4]LWLLWL-我们的SR 0。5(%)82.888.789.692.495.1SR 0。75(%)-68.872.882.285.2AO(%)73.075.377.884.686.7表6.在重叠阈值0.5和0.75时,在平均重叠(AO)和成功率(SR)方面对GOT-10 k验证集进行最新技术水平比较在YT300装置上的这种比较的结果示于表4MIL和MIL+CRF方法均获得约+0的改善。9分,与只使用集合A中的掩码注释视频进行训练的naiv¨ e基线我们的生成伪标签的方法获得了最好的结果,在MIL基线上实现了超过+1的得分的实质性改进。这些结果证明了从我们的用于执行VOS的部分监督训练的方法生成的掩模4.3. 跟踪域我们利用使用框注释执行部分监督的VOS训练的能力来在大规模跟踪数据集上训练VOS方法,以便获得改进的跟踪性能。我们使用我们的网络来注释跟踪数据集LaSOT [16]和GOT10k [23],分别包含1120和9340个训练序列。这些数据集包含各种对象类和运动类型,这些对象类和运动类型通常不包括在标准VOS数据集中[49,63]。伪注释的跟踪序列以及完全注释的YouTube-VOS和DAVIS数据集然后用于微调VOS模型。 我们从使用固定骨干权重训练的LWL [7]模型开始。完整的模型,包括骨干特征提取器,然后在组合的YouTube- VOS,DAVIS,LaSOT和GOT-10 k数据集上进行训练,用于120 k迭代。我们将此模型(表示为LWL-Ours)与VOT 2020 [30],GOT 10 K [23]和TrackingNet [43]数据集上的最新技术进行比较。为了进 行 比 较 , 我 们 还 报 告 了 仅 使 用 YouTube-VOS 和DAVIS数据集进行微调的标准LWL模型的结果。VOT 2020 [30]:我们在由60个具有挑战性的序列组成的VOT 2020数据集上评估了我们的LWL-Ours模型。类似于半监督VOS,跟踪器被提供初始对象掩模。为了获得鲁棒的性能测量,使用不同的起始帧在每个序列上对跟踪器进行多次评估跟踪器进行比较,使用的准确性,鲁棒性,和预期的平均重叠EAO措施。精度表示跟踪器预测和地面实况之间的平均重叠表7.TrackingNet测试集在精度、标准化精度和成功率方面的最新比较而鲁棒性测量在跟踪丢失之前平均跟踪的序列的分数。将这两种测量组合以获得EAO评分。LWL-我们在跟踪数据集上进行了微调,与LWL基线相比,EAO评分 获得 了超 过10%( 五) 。此 外, 尽 管执 行 香草VOS,LWL-Ours优于现有的跟踪方法,实现了第二好的EAO分数。这些结果表明,从我们的方法产生的掩模可以用来提高通用跟踪数据集上的VOS模型的一般化。GOT 10 k [23]:我们在GOT 10 k数据集的验证分割上评 估 LWL-Ours , 该 数 据 集 由 180 个 视 频 组 成 。 与VOT2020不同,跟踪器只提供了一个初始框,并要求为每帧输出一个目标框。因此,我们使用我们的框到掩码转换网络来获得初始分割掩码。然后使用生成的掩码运行VOS模型在每个后续帧中,我们简单地使用预测的分割掩码的极值点来计算目标框在我们的伪注释跟踪视频上微调LWL提供了2的改进。在AO中超过基线LWL模型的1%(见表1)。(六)。此外,LWL-ours显著优于现有的跟踪器,AO评分为86。百分之七。TrackingNet [43]:我们报告了由511个视频组成的TrackingNet数据集的测试分割结果,使用与GOT10k数据集相同的评估策略。在跟踪数据集上使用我们生成的掩模进行微调将LWL模型的结果提高了0。5%的成功 分 数 ( 见 表 1 ) 。 ( 七 ) . 此 外 , LWL-Ours 与SiamRCNN [60]在成功评分方面获得了所有方法中的最佳结果。5. 结论我们提出了一种端到端的可训练方法,用于从视频中的边界框预测对象遮罩。我们的方法可以有效地挖掘对象和背景信息在多帧使用一种新的时空聚合模块。使用迭代公式进一步细化预测的掩模。我们的方法获得了优越的分割精度,相比单一的图像基线。我们进一步证明了我们的方法部分监督VOS训练跟踪的有用性。鸣谢:本工作得到了华为技术公司(芬兰)项目、ETHZuürich基金(OK)、Amazon AWS赠款和Nvidia的支持EAO0.3080.4820.4910.5300.4630.510精度0.7510.7540.6850.700 0.7190.732稳健性0.5740.7770.8420.8690.7980.824精密度(%)诺姆预处理(%)69.480.068.780.168.880.080.085.478.484.479.184.7成功(AUC)(%)73.374.074.081.280.781.213564引用[1] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。在IEEE计算机视觉和模式识别会议论文集,第4981-4990页2[2] Amy Bearman,Olga Russakovsky,Vittorio Ferrari和LiFei-Fei。重点是什么欧洲计算机视觉会议,第549-565页。施普林格,2016年。2[3] Harkirat Singh Behl、Mohammad Najafi、Anurag Arnab和Philip HS Torr。 Meta学习深度视觉词用于快速视频对象分割。arXiv预印本arXiv:1812.01397,2018。2[4] Maxim Berman , Amal Rannen Triki , and Matthew BBlasch k o.lova'sz-softmaxloss:神经网络中交叉-联合测量优化的易处理的surrogate在IEEE计算机视觉和模式识别会议论文集,第4413- 4421页,2018年。6[5] Goutam Bhat , Martin Danelljan , Luc Van Gool , andRadu Timofte. 学习判别模型预测跟踪。在IEEE计算机视觉国际会议论文集,第6182-6191页五、八[6] Goutam Bhat , Martin Danelljan , Luc Van Gool , andRadu Timofte.了解你的周围环境:利用场景信息进行目标跟踪。在欧洲计算机视觉会议(ECCV)上。8[7] GoutamBhat、FelixJéremoLa win、MartinDanellja n、An-dreas Robinson、Michael Felsberg、Luc Van Gool和RaduTimofte。学习视频对象分割的学习内容。欧洲计算机视觉会议(ECCV),2020年。一、二、五、六、七、八[8] Sergi Caelles , Kevis-Kokitsi Maninis , Jordi Pont-Tuset , LauraLeal-Taixe' , DanielCremers 和LucVanGool。单镜头视频对象分割。在IEEE计算机视觉和模式识别会议论文集,第221-230页,2017年。2[9] 陈良杰,Y. Zhu,G. Papandreou,Florian Schroff,andH.Adam.编码器-解码器与atrous可分离卷积的语义图像分割。在ECCV,2018。3[10] Yuhua Chen , Jordi Pont-Tuset , Alberto Montes , andLuc Van Gool.快速视频对象分割与像素级度量学习。在IEEE计算机视觉和模式识别会议论文集,第1189-1198页2[11] Isaac Cohen和Gerard Medioni用于视频监控的运动目标在诉讼中。1999年IEEE计算机协会计算机视觉和模式识别会议(Cat. No PR 00149),第2卷,第319-325页。IEEE,1999年。1[12] 戴季峰、何开明、孙建。Boxsup:利用边界框来监督卷积网络进行语义分割。在Proceedings of the IEEEInternational Conference on Computer Vision,第16352[13] 戴季峰、何开明、孙建。通过多任务网络级联的实例感知语义分割。在IEEE计算机视觉和模式识别会议论文集,第3150-3158页,2016年。3[14] Martin Danelljan Luc Van Gool和Radu Timofte用于视觉跟踪的概率回归。在IEEE/CVF计算机视觉和模式识别会议论文集,第7183-7192页,2020年。8[15] 还有Erdelyi,TiborBara t,Patri ckValet,ThomasWinkler和Bernhard Rinner。自适应漫画隐私保护摄像机网络。在2014 年 第 11 届 IEEE高 级 视 频 和 基 于 信 号 的 监 视(AVSS)国际会议上,第44-49页IEEE,2014。1[16] Heng Fan , Liting Lin , Fan Yang , Peng Chu , GeDeng , Si-jia Yu , Hexin Bai , Yong Xu , ChunyuanLiao,and Haibin Ling. Lasot:用于大规模单个目标跟踪的高质量基准在IEEE计算机视觉和模式识别会议论文集,第5374-5383页,2019年。8[17] 史蒂芬·古尔德理查德·哈特利迪伦·坎贝尔深度声明性网络:新的希望。CoRR,abs/1909.04866,2019。2[18] Bharat hHariharan,PabloArbela' ez,RossGirshick,andJi-tendra Malik.同时检测和分割。欧洲计算机视觉会议,第297Springer,2014. 3[19] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集,第2961-2969页3[20] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.深入研究整流器:超越人类水平的图像分类性能。在IEEE计算机视觉国际会议论文集,第1026-1034页,2015年。6[21] 许正春、许光瑞、蔡中琪、林燕玉、庄永玉。使用边界
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功