没有合适的资源?快使用搜索试试~ 我知道了~
1328快速在线对象跟踪和分割:统一的方法公司简介qiang.wang邮件nlpr.ia.ac.cn张莉牛津大学lz@robots.ox.ac.uk卢卡·贝尔蒂内托(LucaBertinetto)luca. five.ai胡伟明wmhu@nlpr.ia.ac.cnPhilip H.S.牛津大学philip. eng.ox.ac.uk摘要在本文中,我们说明了如何执行视觉对象跟踪和半监督视频对象分割,在实时,一个简单的方法。我们的方法被称为SiamMask,通过使用二进制分割任务增加其损失,改进了用于对象跟踪的流行全卷积Siamese方法的离线训练过程。经过训练后,SiamMask仅依赖于单个边界框初始化并在线操作,以每秒55帧的速度产生与类别无关的对象分割掩码和旋转边界框。尽管它的简单性,多功能性和快速的速度,我们的战略使我们能够建立一个新的国家的最先进的实时跟踪,Init图1.估计我们的方法针对任务我们在VOT-2018上展示了具有竞争力的性能和DAVIS-2016和DAVIS-2017上半监督视频对象分割任务的最佳速度。项目网址为http://www.robots.ox.ac.uk/ SiamMask.1. 介绍跟踪是任何视频应用中的一项基本任务,需要对感兴趣的对象进行一定程度的推理,因为它允许在帧之间建立对象对应关系[38]。它可用于各种场景,如自动监控、车辆导航、视频标记、人机交互和活动识别。给定视频第一帧中任意感兴趣目标的位置,视觉对象跟踪的目的是以最佳精度估计其在所有后续帧中的位置[69,65,55]。对于许多应用程序,重要的是,跟踪可以在线执行,而视频是流。换句话说,跟踪器不应利用未来帧来跟踪。*同等缴款。的视觉跟踪和视频对象分割,实现高实用方便。像传统的物体跟踪器一样,它依赖于一个简单的边界框初始化(蓝色)并在线操作与ECO [14](红色)等最先进的跟踪器不同,SiamMask(绿色)能够产生二进制分割掩码,可以更准确地描述目标对象。关于当前位置的对象的原因[30]。这是由视觉对象跟踪基准线描绘的场景,其表示具有简单的轴对齐[62,34,42,59,43]或旋转[30]边界框的目标对象这样一个简单的注释有助于保持低成本的数据标记,更重要的是,它允许用户执行一个快速和简单的初始化的目标。类似于对象跟踪,半监督视频对象分割(VOS)的任务需要估计在视频的第一帧中指定的任意目标的位置。然而,在这种情况下,对象表示由二进制分割掩码组成,该掩码表示像素是否属于目标[46]。对于需要像素级信息的应用程序(如视频编辑[44]和旋转描记[41]),更需要这种详细的表示。可以理解的是,产生像素级估计需要更多的计算重新计算,1329源比一个简单的边界框。因此,VOS方法传统上很慢,通常每帧需要几秒钟(例如,[61,57,45,2])。最近,人们对更快的方法的兴趣激增[66,40,63,10,9,24,23]。然而,即使是最快的也不能实时运行。在本文中,我们的目标是缩小之间的差距,任意对象跟踪和VOS提出SiamMask,一个简单的多任务学习方法,可以使用来解决这两个问题。 我们的方法的动机是基于全卷积连体网络[4]的快速跟踪方法的成功,该网络在数百万对视频帧(例如,[31,71,17,67])以及最近可用的YouTube-VOS [64],一个具有像素注释的大型视频数据集我们的目标是保留这些方法的离线可训练性和在线速度,同时显着改进它们对目标对象的表示,这仅限于简单的轴对齐边界框。为了实现这一目标,我们同时在三个任务上训练暹罗网络,每个任务对应于不同的策略,以在新帧中的目标对象和候选区域之间建立对应关系如在Bertinetto等人的全卷积方法中。[4]中,一个任务是以滑动窗口方式学习目标对象与多个候选者输出是密集响应图,其仅指示对象的位置,而不提供关于其空间范围的任何信息。为了完善这些信息,我们同时学习了两个进一步的任务:边界框回归使用区域建议网络[53,31]和类不可知的二进制分割[49]。值得注意的是,仅在离线训练期间需要二进制标签来计算分割损失,而在分割/跟踪期间不需要在线在我们提出的架构中,每个任务都由一个不同的分支表示,该分支从一个共享的CNN出发,并对最终的损失做出贡献,该损失将三个输出相加在一起。一旦训练,SiamMask只依赖于一个单一的绑定框初始化,在线操作而无需更新,并以每秒55帧的速度生成对象分割掩码和旋转绑定框。尽管它的简单和快速,SiamMask 在VOT-2018上建立了一个 新的最此外,相同的方法与DAVIS-2016和DAVIS-2017上最近的半监督VOS方法相比也非常具有竞争力这一结果是通过简单的边界框初始化(与掩码相反)实现的,并且不采用VOS方法经常使用的昂贵技术,例如微调[39,45,2,60],数据增强[25,33]和光流[57,2,45,33,10]。本文的其余部分组织如下。 第2简要概述了视觉对象跟踪和半监督VOS中一些最相关的先前工作;第3节描述了我们的建议;第4节评估了四个基准点,并说明了几个烧蚀研究;第5节总结了论文。2. 相关工作在本节中,我们简要介绍了本文中解决的两个问题的最具代表性的技术。视觉对象跟踪。 可以说,直到最近,用于跟踪任意对象的最流行的范例一直是在线训练区别性分类器,不包括视频的第一帧中提供的地面实况信息(然后在线更新它)。这种策略通常被称为检测跟踪(例如,[1,55])。在过去的几年中,相关滤波器,一个简单的算法,允许区分之间的模板的任意目标和它的2D平移,上升到突出的特别快速和有效的战略跟踪检测感谢Bolme等人的开创性工作。[6]的文件。然后,通过采用多通道公式[26,22]、空间约束[27,15,37,32]和深度特征(例如,[14,58])。最近,一种完全不同的方法被引入[4,21,56]。这些方法不是在线学习判别式分类器,而是离线训练视频帧对的相似性函数。在测试时,可以在新视频上简单地评估此函数,每帧一次。特别是,全卷积Siamese方法[4]的演变通过利用区域建议[31],硬负挖掘[71],集成[17]和记忆网络[67]大大提高了跟踪性能。大多数现代跟踪器,包括上面提到的所有跟踪器,都使用矩形边界框来初始化目标并估计其在后续帧中的位置。尽管简单的矩形很方便,但它经常不能正确地表示对象,这在图1的示例中很明显。这促使我们提出一个跟踪器能够产生二进制分割掩模,同时仍然只依赖于边界框初始化。有趣的是,在过去,跟踪器产生目标对象的粗略二进制掩码(例如,[13、48、5])。然而,据我们所知,最近唯一的跟踪器,像我们一样,能够在线操作,并产生一个二进制掩码从边界框初始化开始是基于超像素的方法Yeo等。[68]第二章。然而,在每秒4帧(fps)的情况下,其最快的变体比我们的提议慢得多。此外,当使用CNN功能时,其速度会受到60倍的影响,低于0.1 fps。最后,在现代跟踪或VOS基准测试中,它没有表现出竞争力。1330θal. [45]和Ciet al.[12]也可以从矩形开始,输出每帧的掩码。然而,它们需要在测试时进行微调,这使得它们速度变慢。半监督视频对象分割。用于任意对象跟踪的基准点(例如. [55,30])假设跟踪器以顺序方式接收输入帧。这方面通常是指与属性在线或因果[30].此外,方法通常集中在实现超过典型视频帧速率的速度[29]。相反,半监督VOS算法传统上更关注感兴趣对象的准确表示[44,46]。为了利用视频帧之间的一致性,几种方法通过图标记方法(例如,[61,47,57,40,2])。特别地,Baoet al. [2]最近提出了一种非常精确的方法,该方法利用时空MRF,其中时间依赖性由光流建模,而空间依赖性由CNN表示。另一种流行的策略是独立地处理视频帧(例如,[39,45,60]),类似于大多数跟踪方法中发生的情况。例如,在OSVOS-S Maniniset al. [39]不要使用任何时间信息。他们依赖于一个预先训练好的全卷积网络进行分类,然后在测试时,他们使用第一帧中提供的地面真实掩码对其进行微调。MaskTrack [45]是在单个图像上从头开始训练的,但它确实在测试时通过使用最新的掩模预测和光流作为网络的额外输入来利用某种形式的节奏。为了达到尽可能高的精度,在测试时VOS方法通常具有计算密集型技术,如微调[39,45,2,60],数据增强,站[25,33]和光流[57,2,45,33,10]。因此,这些方法通常以低帧率和不能在线操作为特征。例如,对于只有几秒钟长的视频,方法需要几分钟[45,11]甚至几小时[57,2]并不罕见,就像DAVIS的视频一样。最近,VOS社区对更快的方法越来越感兴趣[40,63,10,9,24,23]。据我们所知,最快的方法与性能竞争的最先进的是杨等人。[66] Wuget al. [63]。前者使用元网络“调制器”,以快速适应参数的分段网络在测试时间,而后者不使用任何微调,并采用编码器-解码器连体架构训练在多个阶段。这两种方法的运行速度都低于每秒10帧,而我们的速度快了六倍多,并且只依赖于边界框初始化。3. 方法为了允许在线可操作性和快速速度,我们采用了Bertinetto等人的全卷积Siamese框架。[4]的文件。此外,为了说明我们的方法对用作起点的特定全卷积方法是不可知的(例如,[4,31,71,67,18]),我们将流行的SiamFC [4]和SiamRPN [31]作为两个代表性示例。我们首先在3.1节介绍它们,然后在3.2节描述我们的方法。3.1. 全卷积Siamese网络SiamFC Bertinetto 等[4]提出使 用离线训练 的全卷积Siamese网络作为跟踪系统的基本构建块,该网络将样本图像z与(较大的)搜索图像x进行比较以获得密集响应图。z和x分别是以目标对象为中心的w×h裁剪和以目标的最后估计位置为的两个输入由相同的CNNfθ处理,产生两个互相关的特征图:gθ(z,x)=fθ(z)fθ(x).(一)在本文中,我们指的是响应图的每个空间元素(等式2的左手侧)。1)作为候选窗口(RoW)的响应。例如,gn(z,x)对示例z和x中的第n个候选窗口之间的相似性进行编码.对于SiamFC,目标是响应图的最大值对应于搜索区域x中的目标位置。相反,为了允许每个RoW对关于目标对象的更丰富的信息进行编码,我们替换了Eq.1与深度方向互相关[3],并产生多通道响应图。SiamFC在数百万个视频帧上进行离线训练,物流损失[4,2.2节],我们称之为Lsim。SiamRPN。Li等[31]通过依赖区域建议网络(RPN)[53,16]显著提高了SiamFC的性能,该网络允许使用可变纵横比的边界框估计目标特别地,在SiamRPN中,每个RoW编码一组k个锚框pro-bodies和相应的对象/背景得分。因此,SiamRPN与分类评分并行输出框预测。两个输出分支使用平滑L1和交叉熵损失进行训练[31,Sec.2009]。第3.2条]。在下文中,我们将它们称为L盒,L分别得分3.2. SiamMask与现有的跟踪方法,依赖于低保真度的对象表示,我们认为每帧的二进制分割掩模的重要性。为了这个目的,我们表明,除了相似性分数和边界框坐标,它是可能的世界其他地区的1331θn127*127*3布吕德31*31*256255*255*3(a) 三分支变异体系结构(b) 双分支变体磁头图2.SiamMask变体的示意图:(a)三分支架构(完整),(b)两分支架构(头部)。d表示深度方向互相关。为简单起见,这里省略上采样层和掩码细化模块,并在附录中详细说明卷积暹罗网络也编码产生逐像素二进制掩码所需的这可以通过用额外的分支和损失扩展现有的暹罗跟踪器来实现我们使用一个简单的两层神经网络hφ预测w×h二进制掩码(每个RoW一个),该网络具有可学习的参数,直径φ令mn表示对应于第n个RoW的预测掩码,object.特别地,在我们的例子中,该表示对应于由fθ( z ) 和 fθ ( x ) 之 间 的 深 度 方 向 互 相 关 产 生 的(17×17)RoW之一。重要的是,分割任务的网络hφ由两个1×1卷积层组成,一个具有256个通道,另一个具有632个通道(图2)。这允许每个像素分类器利用整个世界其他地区包含的信息,从而具有其对应候选者的完整视图mn= hφ(gn(z,x))。(二)X中的窗口,这对于消除看起来像目标的物体之间的歧义是关键的(例如,图4的最后一行),从等式我们可以看到,掩模预测是要分割的图像x和z中的目标对象的函数。以这种方式,z可以用作指导分割过程的参考,使得可以跟踪任何任意类别的对象这显然意味着,给定不同的参考图像z,网络将为x生成不同的分割掩码。损失函数在训练期间,每个RoW被标记有地面实况二进制标签yn∈ {±1},并且还与大小为w×h的逐像素地面实况掩码cn相关联。 令cij∈ {±1}表示对应于第n个候选RoW中的对象掩模的像素(i,j)的标签。损失函数L掩模(等式3)对于掩码预测任务,是所有RoW上的L(θ,φ)=<$(1+yn<$log(1+e−cijmij也被称为干扰物[52,71]。为了产生更准确的对象掩模,我们遵循[50]的策略,该策略使用由上采样层和跳过连接组成的多个细化模块合并低分辨率和高分辨率特征(见附录)。两种变体。对于我们的实验,我们用我们的分段分支和损失L掩码增强了SiamFC [4]和SiamRPN [31]的架构,获得了我们称之为SiamMask的两分支和三分支变体这些分别优化了多任务损失L2B和L3B,定义为:L2B=λ1·Lmask+λ2·Lsim,(4)L3B=λ1·Lmask+λ2·Lscore+λ3·Lbox。(5)我们请读者参考[4,第2.2节]的Lsim和[31,第3.2节]中的L框和L评分。 对于L3B,世界其他地区是掩模2白色尼伊季nn))的情况下。( 三)侧边正(yn=1)如果其锚箱之一具有因此,hφ的分类层由w×h个分类器组成,每个分类器指示给定像素是否属于候选窗口中的对象。请注意,L掩码仅适用于正RoW(即,n=1)。掩 码 表 示 。 与 语 义 分 割 方 法 a`-laFCN[36] 和 MaskR-CNN[19]相比,它们在整个网络中保持显式的空间信息,我们的方法遵循[49,50]的精神,并从平面表示开始生成掩码。17*17*(63*63)ℎɸ掩模1*1*(63*63)世界其他地评分17*17*117*17*256���ω17*17*(63*63)ℎɸ1*1*(63*63)127*127*1掩模拉瓜框世界其他地���φ评分17*17*2K17*17*4k17*17*25615*15*2561332IOU与地面实况箱至少为0.6和负(yn=-1)否则。对于L2B,我们采用与[4]相同的策略来定义正样本和负样本.我们没有搜索Eq的超参数4和方程式5,并简单地设置λ1=32,如[49]和λ2=λ3=1。框和分数输出的特定于任务的分支由以下组成:由两个1×1卷积层组成。图2示出了SiamMask的两个变体。盒子生成。请注意,虽然VOS基准测试需要二进制掩码,但典型的跟踪基准测试,例如1333三分支变体,我们发现更有效地利用盒分支的最高得分输出作为参考。图3.为了从二进制掩码(黄色)生成边界框,我们用三种不同的方法进行了实验。Min-max:轴对齐框(红色),MBR:最小边界矩形(绿色)和Opt:VOT- 2016 [28]中提出的优化策略(蓝色)。VOT [30]需要一个边界框作为目标对象的最终表示。我们考虑三种不同的策略来从二进制掩码生成边界框(图3):(1)轴对齐的边界矩形(Min-max),(2)旋转的最小边界矩形(MBR)和(3)用于VOT-2016 [28](Opt)中提出的自动边界框生成的优化策略。我们在第4节(表1)中对这些替代方案进行了经验评估。3.3. 实现细节网络架构。对于我们的两个变体,我们使用ResNet-50 [20]直到第4阶段的最后一个卷积层作为我们的骨干fθ。为了在更深层中获得高空间分辨率,我们通过使用步长为1的卷积将输出步长减少到8此外,我们通过使用扩张卷积来增加感受野[8]。在我们的模型中,我们在共享主干fθ上添加了一个非共享调整层(1×1conv,256个输出)。为了简单起见,我们省略了在Eq。1.一、 我们将在更多的详情见附录。训练像SiamFC [4]一样,我们使用示例并分别搜索127×127和255×255像素的图像块。在训练过程中,我们随机抖动样本,4. 实验在本节中,我们将评估我们在两个相关任务上的方法:视觉对象跟踪(VOT-2016和VOT-2018)和半监督视频对象分割(DAVIS- 2016和DAVIS-2017)。我们分别用SiamMask-2B和SiamMask指代我们的两分支和三分支变体。4.1. 视觉目标跟踪的评价数据集和设置。我们采用两个广泛使用的基准来评估对象跟踪任务:VOT- 2016 [28]和VOT-2018 [29],均使用旋转边界框进行注释。我们使用VOT-2016进行实验,以了解不同类型的表示如何影响性能。对于第一个实验,我们使用平均交集大于并集(IOU)和平均精度(AP)@{0. 5,0。7}借条。然后,我们使用官方的VOT工具包,预期平均重叠(EAO),一种考虑跟踪器的准确性和鲁棒性的度量[29]。对象表示有多重要?现有的跟踪方法通常预测具有固定[4,22,15,37]或可变[31,21,71]纵横比的轴对齐边界框。我们有兴趣了解在何种程度上产生每帧的二进制掩码可以改善跟踪。为了关注表示准确性,对于该实验,我们仅忽略时间方面并且随机地对视频帧进行采样。下一段中描述的方法在随机裁剪的搜索补丁(随机移位在±16像素内,搜索补丁。 具体来说,我们考虑随机transla-选择(最多±8像素)和重新缩放(2±1/8和2±1/4分别用于示例和搜索网络骨干在ImageNet-1k分类任务上进行了预训练。我们使用带有第一预热阶段的SGD,在第一预热阶段中,对于前5个epoch,学习率从10−3线性增加到5×10−3然后在15分钟内递减到5×10−4更多时代我们使用COCO [35]训练所有模型[54]第54话,我的朋友们推理。在跟踪过程中,SiamMask只是每帧评估一次,没有任何适应。在我们的两个变体中,我们使用在分类分支中获得最大分数的位置来选择输出掩码然后,在应用了每像素的sigmoid之后,我们用阈值0对掩码分支的输出进行二进制化。五、在双分支变体中,对于第一个视频帧之后的每个视频帧,我们用最小-最大框拟合输出掩码,并将其用作参考来裁剪下一帧搜索区域。相反,在比例变形高达21±0. 25)从VOT-2016的序列。在表1中,我们使用Min-max、MBR和Opt方法(在3.2节末尾和图3中描述)比较了我们的三分支变体为了透视,我们还报告了SiamFC和SiamRPN的结果,作为固定和可变宽高比方法的代表,以及三个可以访问每帧地面实况信息并作为不同表示策略的上限的预言机(1)固定长宽比或缩放使用每帧的地面实况区域和中心位置,但将长宽比固定为第一帧的长宽比,并产生轴对齐的边界框。(2)最小-最大预言机使用旋转地面实况边界框的最小外接矩形来产生轴对齐边界框。(3)最后,MBRoracle使用地面实况的旋转的最小边界矩形注意,(1)、(2)和(3)可以分别被认为是1334mIOU(%)mAP@0.5IOUmAP@0.7IOU固定a.r. Oracle73.4390.1562.52最小-最大Oracle77.7088.8465.16MBROracle84.0797.7780.68SiamFC [4]50.4856.429.28SiamRPN [71]60.0276.2032.47SiamMask-最小-最大65.0582.9943.09SiamMask-MBR67.1585.4250.86SiamMask-可选71.6890.7760.47表1. VOT-2016上不同边界框表示策略的性能SiamFC、SiamRPN和SiamMask。表1显示,无论使用何种盒生成策略,我们的方法都能实现最佳的mIOU(图3)。Al-beit SiamMask-Opt提供最高的IOU和mAP,由于其缓慢的优化过程,它需要大量的计算资源[28]。SiamMask-MBR在0.5 IOU下的mAP@85。4、各自改进+29和+9。2分w.r.t. 两个全卷积基线 有趣的是,当考虑在0.7 IOU的较高精度范围下的mAP+41。6 + 184分别。值得注意的是,我们的准确性结果是不远的固定长宽比的甲骨文。此外,比较由预言机表示的上限性能,可以注意到,通过简单地改变边界框表示,有很大的改进空间(例如,+10。固定长宽比和MBR预言机之间的mIOU提高了6%)。总的来说,这项研究显示了如何MBR的策略,以获得旋转的边界框从一个二进制掩码的对象提供了一个显着的优势,比流行的策略,简单地报告轴对齐的边界框。VOT-2018和-2016的结果。在表2中,我们将SiamMask的两种变体与MBR策略和SiamMask-除非另有说明,否则SiamMask是指我们的MBR策略的三分支SiamMask的两个变体都实现了出色的性能和实时运行。特别是,我们的三分支变体显著优于最近和性能最高的DaSiamRPN [71],实现了0的EAO。380,55fps。即使没有盒回归- sion分支,我们更简单的两个分支的变体(SiamMask- 2B)实现了0的高EAO。334,与SA SiamR [17]相当,优于已发表文献中的任何其他实时此外,SiamMask这是预期的,因为盒子优化策略需要更多的计算来提供更高的IOU。我们的模型在准确性度量下特别强大,相对于基于相关滤波器的跟踪器CSRDCF[37],STRCF [32]显示出显著的优势这这并不奇怪,因为SiamMask依赖于更丰富的对象表示,如表1所示。有趣的是,与我们相似,Heet al. (SASiam R)[17]的动机是通过考虑多个旋转和重新缩放的边界框来实现更准确的目标表示。然而,它们的表示仍然被约束为固定的纵横比框。表3给出了在VOT-2018和-2016上具有不同框生成策略的SiamMask的进一步结果。SiamMask-box意味着尽管掩码分支已经被训练,但仍采用SiamMask-box分支进行推理。我们可以观察到所有评估的明显改善-通过使用掩码分支来生成框。4.2. 半监督VOS我们的模型,一旦训练,也可以用于VOS的任务,以实现有竞争力的性能,而无需在测试时进行任何调整。重要的是,与典型的VOS方法不同,我们的方法可以在线操作,实时运行,只需要一个简单的边界框初始化。数据集和设置。我们报告了SiamMask在DAVIS-2016[46]、DAVIS-2017 [51]和[64]第六十四话对于这两个DAVIS数据集,我们使用官方的性能指标:Jaccard指数(J)表示区域相似性,F-测度(F )表示轮廓精度。 对于每个度量C ∈ {J,F},考虑三个统计量:平均值CM、召回率CO和衰减C D,这告诉我们性能随时间的增益/损失[46]。 在[64]之后,YouTube-VOS上的最终结果O是四个指标的平均值:J表示已看到的类别,F表示已看到的类别,J表示未看到的类别,F表示未看到的类别。要初始化SiamMask, 我们提取出轴向对齐的边界框(最小-最大策略,图3)从第一帧中与大多数VOS方法类似,在同一视频中存在多个对象的情况下(DAVIS-2017),我们只需执行多个推断。DAVIS和YouTube-VOS的结果。在半监督设置中,VOS方法使用二进制掩码[44]进行初始化,并且其中许多方法在测试时需要计算密集型技术,例如微调[39,45,2,60],数据增强[25,33],推断MRF/CRF [61,57,40,2]和光流[57,2,45,33,10]。因此,VOS技术需要几分钟来处理短序列并不罕见。显然,这些策略使得在线应用(这是我们的重点)成为不可能。出于这个原因,在我们的比较中(表4、5和6),我们主要关注快速的最先进方法。这三个表格显示了SiamMask如何被视为在线VOS的强大基线。首先,它比OnAVOS [60]或SFL [11]等精确方法快近两个数量级。二是竞争力强1335SiamMask-可选SiamMaskSiamMask-2B [71]第七十一话 SiamRPN [三十一]SA 泰国[17][32]第三十二话EAO↑0.3870.3800.3340.3260.2440.3370.2630.345准确度↑0.6420.6090.5750.5690.4900.5660.4660.523稳健性↓0.2950.2760.3040.3370.4600.2580.3180.215速度(fps)↑5556016020032.448.92.9表2.在VOT-2018基准测试中,与EAO、准确度和稳健性下的最新技术水平进行比较EAO↑A↑R↓EAO↑A↑R↓速度↑SiamMask-box 0.3630.5840.3000.4120.6230.23376SiamMask0.3800.6090.2760.4330.6390.21455SiamMask-可选0.3870.6420.2950.4420.6700.2335表3. VOT-2018基准(左)和VOT-2016基准(右)的结果。速度以每秒帧数(fps)为单位。表7.VOT-2018和DAVIS-2016的消融研究表4. DAVIS 2016上的结果(验证集)。FT和Mre-tune表示该方法是否需要微调以及它是用掩码(mask)还是边界框(bounding box)初始化的。速度以每秒帧数(fps)为单位。FTM JM↑ JO↑ JD↓ FM↑ FO↑ FD↓速度OnAVOS[60]✔✔61.667.427.969.175.426.60.1OSVOS [7]✔✔56.663.826.163.973.827.00.1Favos [10]✘✔54.661.114.161.872.318.00.8OSMN [66]✘✔52.560.921.557.166.124.38.0SiamMask✘✘54.362.819.358.567.520.955表5.DAVIS 2017上的结果(验证集)。FTMJS↑ JU↑FS↑FU↑O ↑速度↑OnAVOS[60]✔✔60.146.662.751.455.20.1OSVOS [7]✔✔59.854.260.560.758.80.1OSMN [66]✘✔60.040.660.144.051.28.0SiamMask✘✘60.245.158.247.752.855表6.YouTube-VOS结果(验证集)。最近的VOS方法不采用微调,而效率是最快方法随着时间的推移,因此它被指示用于特别长的序列。VOT和DAVIS序列的SiamMask定性结果见图4和附录。尽管速度很高,SiamMask即使在干扰物存在的情况下也能产生准确的4.3. 进一步分析在本节中,我们说明了消融研究,失败的情况下,我们的方法和时间。网络架构。在表7中,AN和RN表示我们是否使用AlexNet或ResNet-50作为共享骨干fθ(图2),而“w/o R”表示该方法不使用Pinheiro等人的细化策略。[50 ]第50段。根据表7的结果,可以进行若干观察。(1)表7中的第一组行显示,通过简单地更新fθ的架构,可以实现重要的性能改进。然而,这是以速度 为 代 价 的 , 特 别 是 对 于 SiamRPN 。 (2 )SiamMask-2B和SiamMask相对于它们的基线(具有相同的fθ)SiamFC和SiamRPN有显著的改善。(3)有趣的是,Pinheiro等人 [50]对于轮廓精度F M是非常重要的,但是对于其它度量不是那么重要。多任务训练。我们进行了两个进一步的实验,以解开多任务训练的效果。结果见表7和表3。为了实现这一点,我们修改了SiamMask的两个变体,(即OSMN [66]和RGMP [63])。有趣的是,我们注意到SiamMask在DAVIS-2016和DAVIS-2017上实现了区域相似性(JD)和轮廓精度(FD)的低衰减[46]这表明我们的方法是稳健的因此,它们分别报告来自分数分支(SiamMask-2B-score)或框分支(SiamMask-box)的轴对齐边界框。因此,尽管已经训练过,但在输入期间不使用掩码分支一个RNEAO↑JM↑ FM↑速度(fps)SiamFC✔✔✔✔0.188--86SiamFC0.251--40SiamRPN0.243--200SiamRPN0.359--76SiamMask-2B w/o R✔0.32662.355.643SiamMask w/o R✔0.37568.657.858SiamMask-2B评分✔0.265--40SiamMask-box✔0.363--76SiamMask-2B✔0.33467.463.560SiamMask✔0.38071.767.855FTM JM↑J O↑ JD↓ FM↑ FO↑ FD↓速度OnAVOS[60]✔✔86.1九十六点一5.284.989.75.80.08MSK [45]✔✔79.7 九十三点一8.975.487.19.00.1捷克斯洛伐克[45] ✔✘69.6-----0.1SFL [11]✔✔76.1 九十点六12.176.085.510.40.1Favos [10]✘✔82.4 九十六点五4.579.589.45.50.8RGMP [63]✘✔81.5 九十一点七10.982.090.810.18PML [9]✘✔75.5 八十8.579.393.47.83.61336图4.我们的方法属于对象跟踪和视频对象分割基准序列的定性结果篮球和自然来自VOT-2018 [29];车影来自DAVIS-2016 [46];狗跳和猪是DAVIS-2017 [51]。聚焦于可以从前景中明确分割出来的物体图5.失效案例:运动模糊和“非对象”图案。会议。我们可以观察到两种变体如何相对于它们的无掩码分支计数器(SiamFC和SiamRPN)获得改进:在VOT 2018上,对于两个分支,从0.251到0.265 EAO,对于三个分支,从0.359到0.363。因此,差距完全是由于多任务培训的好处。时机SiamMask在线运行,无需对测试序列进行任何调整。在单个NVIDIA Titan X GPU上,我们测量了两个分支和三个分支变体的平均速度分别为每秒55帧和60帧。注意,最高的计算负担来自特征提取器fθ。故障案例。最后,我们讨论SiamMask失败的两种情况:运动模糊和尽管性质不同,但这两种情况可以说是由于在训练集中完全缺乏类似的训练样本,例如YouTube-VOS [64],5. 结论我们介绍了SiamMask,这是一种简单的方法,可以使全卷积的Siamese跟踪器产生目标对象的类不可知的二进制分割掩码。我们展示了它如何可以成功地应用于视觉对象跟踪和半监督视频对象分割的任务,表现出比最先进的跟踪器更好的准确性,同时,VOS方法中速度最快我们提出的SiamMask的两个变体使用简单的边界框进行初始化,在线操作,实时运行,并且不需要对测试序列进行任何调整我们希望我们的工作将启发进一步的研究,考虑两个问题的视觉对象跟踪和视频对象分割在一起。致谢本工作得到了ERC赠款ERC-2012-AdG 321162-HELIOS,EPSRC的授权Seebibyte EP/M013774/1和EPSRC/MURI授权EP/N019474/1。我们还要感谢皇家工程学院和FiveAI。狗-跳猪车影性质篮球1337引用[1] B. Babenko,M. H. Yang和S.贝隆吉在线多实例学习的视觉跟踪。IEEE计算机视觉与模式识别会议,2009年。2[2] L.鲍湾,巴西-地Wu,和W.刘某mrf中的Cnn:在基于cnn的高阶时空mrf中经由推断的视频对象分割。在IEEE计算机视觉和模式识别会议上,2018。二、三、六[3] L. 贝尔蒂内托F. Henriques,J.瓦尔马德尔山口H. S. 托和A.维达尔迪学习前馈一次性学习器。在神经信息处理系统的优势,2016年。3[4] L.贝尔蒂内托瓦尔马德雷J. F.亨里克斯A. Vedaldi和P. H.乇用于对象跟踪的全卷积连体网络。2016年欧洲计算机视觉研讨会。二三四五六[5] C. 毕比和我。里德鲁棒的实时视觉跟踪使用-ing像素明智后验。2008年欧洲计算机视觉会议。2[6] D. S.博尔梅贝弗里奇湾A. Draper和Y. M.律使用自适应相关滤波器的视觉目标跟踪。在IEEE计算机视觉和模式识别会议上,2010年。2[7] S. 凯尔斯,K.- K. Maninis,J. 蓬-图塞特湖Leal-Taixe',D. Cremers和L.范古尔单镜头视频对象分割。2017年在IEEE计算机视觉和模式识别会议上发表。7[8] L- C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab:使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。IEEE Transactionson Pattern Analysis and Machine Intelligence,2018。5[9] Y. Chen,J. Pont-Tuset,A. Montes和L.范古尔Blaz-ingly快速视频对象分割与像素度量学习。在IEEE计算机视觉和模式识别会议上,2018年。二、三、七[10] J. 郑,Y.-H. 蔡文雄C. 洪,S。王和MH. 杨通过跟踪部分快速准确地在线视频对象分割在IEEE计算机视觉和模式识别上,2018年。二三六七[11] J. Cheng,Y.- H. Tsai,S.王和M H.杨Segflow:用于视频 对 象 分 割 和 光 流 的 联 合 学 习 。 IEEEInternationalConference on Computer Vision,2017。三六七[12] H. Ci、C.Wang和Y.王. 通过学习位置敏感嵌入的视频对象分割在欧洲计算机视觉会议上,2018年。3[13] D.科马尼丘河谷Ramesh和P.米尔利用均值漂移对非刚性物体进行实时跟踪。IEEE计算机视觉和模式识别会议,2000。2[14] M.达内尔扬湾Bhat,F. S.汗,M。Felsberg等人Eco:用于跟踪的高效卷积算子。在IEEE计算机视觉和模式识别会议上,2017年。一、二[15] M. 达内尔扬湾 H?ge r,F. S. khan和M. 费尔斯贝河学习空间正则相关滤波器的视觉跟踪。IEEE国际计算机视觉会议,2015。二、五[16] C. Feichtenhofer、A.Pinz和A.齐瑟曼。检测跟踪和跟踪检 测 。 IEEEInternational Conference on ComputerVision,2017。3[17] A. 他,C.Luo,X.Tian和W.小曾。基于暹罗网络的视觉目标跟踪器中的更好在欧洲计算机视觉研讨会,2018年。二六七[18] A.他,C. Luo,X. Tian和W.小曾。用于实时目标跟踪的双重连体网络。在IEEE计算机视觉和模式识别会议上,2018。3[19] K. 他,G. Gkioxari,P. Dol la'r 和R. 娘娘腔。面具r-cnn。IEEEInternational Conference on Computer Vision,2017。4[20] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。2016年在IEEE计算机视觉和模式识别会议上发表。5[21] D. Held,S. Thrun和S. Savarese学习使用深度回归网络以100 fps的速度跟踪。2016年欧洲计算机视觉会议。二、五[22] J. F.恩里克斯河Caseiro,P. Martin
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功