没有合适的资源?快使用搜索试试~ 我知道了~
【论述总结】连续复制粘贴的一级多目标跟踪与分割方法的介绍与实现
15323连续复制粘贴的一级多目标跟踪与分割Zhenbo Xu1,2,3,4,5 *,Ajin Meng1 *,Zhenbo Shi1,Wei Yang1†,Zhi Chen1,Liusheng Huang11中国科学技术大学2中国杭州北京航空航天大学杭州创新研究院3北京航空航天大学计算机科学工程北京市数字媒体重点实验室4北京航空航天大学国家重点实验室虚拟现实技术系统北京5世方科技股份有限公司中国杭州†通讯作者。电子邮件地址:qubit@ustc.edu.cn摘要目前的一步多目标跟踪和分割(MOTS)方法落后于最近的两步方法。通过将实例分割阶段与跟踪阶段分离,两步法可以利用非视频数据集作为用于训练实例分割的额外数据此外,可以收集属于不同帧上的不同ID的实例,而不是原始连续帧中的有限数量的实例,以允许在跟踪器的训练中进行更有效的硬示例挖掘。在本文中,我们提出了一种新的数据增强策略,连续复制粘贴(CCP)弥合这一差距CCP背后的在不对框架进行任何修改的情况下,当前的MOTS方法在使用CCP训练时实现了显着的性能增益。基于CCP,我们提出了第一个有效的一步在线MOTS方法命名为CCPNet,它产生的立场面具以及跟踪结果在一个镜头。我们的CCPNet大大超过了所有最先进的方法(3.8% 的 sMOTSA 和 4. 在 KITTI MOTS 验 证 中 , 行 人 的MOTSA提高了1%),并在KITTI MOTS排行榜上排名第一。对三个数据集的评估也证明了CCP和CCPNet的有 效 性 。 我 们 的 代 码 可 在 以 下 网 址 公 开 获 取 :https://github.com/detectRecog/CCP。1. 介绍多目标跟踪(MOT)[30]在自动驾驶和视频监控领域具有根本的重要性。最近,多目标跟踪和分割(MOTS)[23]作为一种流行的扩展被引入*前两位作者对本书的贡献相当基于边界框(bbox)的MOT。MOTS提供了每像素的分割掩模,比相对粗糙的bboxes更准确地定位对象。由于实例掩模精确地描绘了拥挤场景中的可见对象边界,MOTS在检测和跟踪中很大程度上消除了由严重重叠的bbox引起的模糊性当前的一步MOTS方法努力使额外的re-ID分支适应现有的实例分割方法,以在单个前向传递中获得实例掩 码 及 其 re-ID 特 征 。 Voigtlaender 等 人 [23]在 Mask-RCNN上构建TRCNN,并采用完全连接的层来预测对象命题的关联向量同样基于Mask-RCNN,MOTSNet[16]提出了一种新的掩码池层,专注于前景分割区域,而不是关联向量提取中的bbox。最近,两步方法PointTrack [26]和PointTrack++ [27]将跟踪阶段与实例分割阶段分开,并将紧凑图像表示转换为无序2D点云表示,以用于学习区分性实例嵌入。这种分离带来了两个优点:(i)额外的帧级实例分割数据集也可以用于训练[26];(ii)用于跟踪的训练数据不限于连续帧,因此允许训练小批量中的更多唯一实例ID [27]。当跟踪TRCNN产生的实例分割结果时,PointTrack将ID开关(IDS)减少了55%[26]。到目前为止,主要的成功主要是在多步骤方法[12,26,27]。一步法和多步法之间的显著差距表明,将跟踪与实例分割相结合是一个重要的问题。在本文中,我们假设一步法和多步法之间性能差距的两个主要原因[26,27]是:(i)用于实例分割的具有挑战性的训练数据是有限的; ㈡用于跟踪的高质量训练样本有限。由于已知MOTS所需的像素级注释获得起来是昂贵的15324TRCNNTRCNN+CCPVIP-DeepLabPointTrackPointTrack+CCPPointTrack++远程CCPNet85757080657560对于实例块上的所有操作,我们保留每个实例块中N个裁剪的相对位置最后,我们将这些实例块粘贴到70656080 85 9095MOTSA车555065 70 75 80 85MOTSA行人前景像素的数量的降序。CCP与最近的作品[27,6]中提出的复制粘贴在两个方面不同。首先,我们将实例块视为图 1. 我 们 的 CCPNet 和 KITTI MOTS 汽 车 ( 左 ) 和 行 人(右)排行榜上最ST表示自我训练(见第4.3小节)。当前的MOTS数据集[23,26]通常具有有限的帧和实例,特别是对于像行人这样的非刚性对象经常出现检测失败的拥挤场景更是罕见(KITTI MOTS中66%的行人不与任何人相邻)。此外,对于KITTI MOTS pedes-trians,两个相邻帧包含用于训练集中的训练跟踪器的有效三元组的概率仅为26。8%。然而,为了使实例分割网络和跟踪器更鲁棒,在训练中期望具有允许挖掘更难样本的不同实例ID的更多实例。因此,当前的一步方法[23,9,16]通过结合更多的帧(例如:8帧[23]),并相应地减小输入图像大小以节省GPU内存。然而,我们认为,简单地堆叠更多的帧并不能解决缺乏高质量的跟踪训练数据的问题。由于KITTI MOTS行人的训练小批量包含n个相邻帧,当n=2时,实例ID的平均数量为1。56个,并且平均实例数为3个。1.一、当n=8时,尽管实例的平均数量增加到12。5,实例ID的平均数量(1. 70)并没有发生巨大的变化。实例ID的稀缺性使得难以挖掘硬三元组,从而导致有限的跟踪性能。为了弥补一步方法和多步方法之间的差距,本文提出了一种新的视频复制-粘贴数据增强策略连续复制-粘贴(CCP)。CCP背后的直觉是充分利用MOTS提供的逐像素注释来积极增加训练中的实例和实例ID的数量为了构造由n帧组成的训练小批,CCP首先从真实视频或从单个图像伪造的视频中获得n个连续帧作为模板。然后,我们从初始化期间构建的数据库中检索几个实例块每个实例块具有属于相同instID的n个作物。这些作物是从时间上接近但不一定彼此相邻的n个帧中提取的。为了模拟新出现的实例和离开的实例,η个实例块中的两个将分别移位到其他实例块将粘贴到其原始位置。值得注意粘贴单位并保持实例块内CCP不仅增加了实例密度,而且还专注于创建高质量的三元组进行跟踪。第二,我们不建模周围的视觉环境或随机选择粘贴的位置。除了移位到图像边界的实例块之外,从不同图像裁剪的实例块中的实例保持在其原始位置。如图1、将CCP与TRCNN相结合,检验CCP的有效性[23]和PointTrack [26]。在CCP的基础上,我们进一步提出了第一个有效的在线MOTS的一阶段方法CCPNet.CCPNet遵循编码器-解码器结构,并预测逐像素分类置信度、指向实例中心的2D偏移、聚类参数、前景重建和像素嵌入。在后处理过程中对于每个分组的实例,我们对所有前景像素的嵌入应用最大池化以获得实例嵌入。之后,根据实例嵌入之间的距离和实例掩码之间的掩码IOU来关联实例。由于CCP,尽管CCPNet以在线方式运行,但它击败了最先进的方法,包括多个数据集上的3D跟踪方法和离线跟踪方法。此外,我们提出了一种CCPNet的自训练方法①的人。我们的主要贡献总结如下:• 我们提出了一种新的数据增强策略命名为CCP训练MOTS方法。CCP带来了显着的性能增益,目前的MOTS方法,而无需修改其框架。• 提出了第一种有效的单阶段MOTS方法CCPNet,该方法在一个镜头中执行实例分割和跟踪。• 在三个数据集的评估表明,CCPNet优于所有现有的MOTS方法的大幅度。此外,CCPNet在KITTIMOTS排行榜上排名第一。2. 相关工作MOTS最近的MOTS方法可以分为两种类型:一步法[23,16,19,20]和多步法[23,16,19,20请访问http://www.cvlibs.net/datasets/kitti/old_eval_mots.php查看排行榜TRCNNTRCNN+CCPVIP-DeepLabPointTrackPointTrack+CCPPointTrack++远程CCPNetCCPNet+STsMOTSAsMOTSA15325{|}{|}{ {}|}}{|}{|}{−†|}图2. 当每个训练小批次包含三个帧时的CCP的图示。步骤方法[26,27,12,22]。开创性的一步工作,如TRCNN [23]和MOTSNet [16],通过采用额外的re-ID分支来预测对象提案的关联向量,修改此外,与基于Mask-RCNN的方法不同,第一个单阶段在线方法STE[9]学习具有单细胞深度估计的实例分割,并引入3D卷积来学习空间-时间像素嵌入。嵌入紧密的像素被分组为实例,并且所有所属前景像素的平均嵌入被认为是当前实例的嵌入。最近,类似于STE,离线方法ViP-DeepLab [19]通过添加深度预测头以执行单眼深度估计和用于帧之间的对象关联的下一帧实例分支来扩展Panoptic-DeepLab[2]与一步法不同,多步法将MOTS分解为多个阶段。PointTrack [26]和PointTrack++[27]分别为跟踪阶段和实例分割阶段训练两个单独的网络。3D跟踪方法MOTSFusion [12]使用2D光流建立短轨迹,然后将这些短轨迹融合到动态3D对象重建中。目前的多步法比一步法获得更有竞争力的结果。我们提出的CCP通过积极增加实例和实例ID的数量来弥合这一差距。复制-粘贴一般目的的数据增强方法,如随机调整大小,已广泛用于基于bbox的视觉任务[7]。最近,已经发现复制粘贴对于实例分割方法[4]和检测方法[3,10]都是有效的。然而,视频处理领域中的复制粘贴很少被研究。3. 连续复制-粘贴如图 2、CCP包含三个主要阶段:(i) 准备模板;(ii)从实例数据库构建实例块;(iii)粘贴在模板上。我们的CCP数据增强策略可以集成到任何现有MOTS框架的训练管道中,因为它对与训练框架完全解耦的训练数据进行操作。为了简洁起见,我们在图2中以汽车为例进行说明。更为了获得训练小批量,我们需要构造实例数据库Ei,i=1,2,…,其被绘制在图的底部。二、每个条目E k = S j j = 1,2,… Lk实例数据库中的实例ID对应于训练集中的唯一实例IDUk分割项,或者说是实例Sj,包含前景像素的值以及它们在特定时间tamp在2D图像平面上的位置条目Lk的长度等于轨道Uk的长度。在MOTS数据扩充策略中,根据实例ID保存实例的分割数据是非常重要的,因为我们可以方便地在有限的训练模板中扩充实例ID选择属于不同实例ID的实例。1) 准备模板。在准备训练小批量的第一步骤中,将n个帧Fmm=1,2,…n是从训练视频中选择的,或者是基于单个帧生成的。 当从训练视频中选择时,我们首先随机选择2n+1个连续帧。之后,在所选帧中随机选择n个为了利用非视频实例分割数据集,CCP还支持从单个图像生成连续帧当从单个图像I生成时,随机生成重新缩放比率种子r0和重新缩放步长r5。然后,我们计算n帧的重新缩放比率为Rm=r0+(m1)rδm=1,2,…,n. 然后,通过重新缩放I来生成n个图像。最后,我们通过中心填充或中心裁剪将n个图像的分辨率调整到相同的输入分辨率如图2、通过连续地重新缩放单个图像,我们可以生成视觉上合理的图像Fm。2) 构造实例块。 我们构造t个实例块(Bi)i=1,2,…t,其中t是表示将在训练小批量中添加多少附加实例ID的超参数。实例块被定义为在时间上接近但不一定彼此相邻的n个作物。如图2,我们随机选择t个条目Eii=1,2,…从实例数据库中检索。然后,对于每个条目Ek,类似于从视频中选择帧,我们随机选择2n+1个连续的分割项。之后,随机选取n个分割项构造实例块具体介绍如下。{BEk ={bl,b2,… bn}}。 我们采用实例块作为0)初始化。之前的三个主要阶段的基本单位为复制粘贴而不是裁剪,因为15326----{|}皮皮汽车行人wo CCP wo CCP wo CCP实例的AN10.7937.794.6329.35实例ID3.7712.991.5810.37表1.培训与CCP VS无CCP的训练,其中n=3t=15。AN表示平均数。实例块保留了同一实例ID在连续时间段内的位置变化,这对于训练跟踪器至关重要。对于图中的每个实例块,2,为了清楚起见,我们只绘制所有作物的最小外接矩形面积。3)粘贴在模板上。在将实例块粘贴到n个准备好的模板上之前,我们对每个实例块应用三个变换:(i)随机重放; ㈡边界转移;(iii)随机底部剪切。首先,我们随机重放实例块通过改变b1,b2,…Bn到bn,bn−1,...,b1. 第二,模仿新出现的实例和离开实例,我们随机选择两个实例块,并将它们向左和向右一次完成分割结果和实例嵌入。当在相同分割结果上与PointTrack [26]相比时,CCPNet实现了更好的跟踪性能(见表2和表4)。在训练阶段,CCPNet接受多个帧作为输入,并利用所有输入帧上的实例进行度量学习。为了简单起见,我们只绘制两个帧,只考虑一个类通过联合考虑两个相邻帧中的实例嵌入和实例掩码的IOU之间的相似性来在线跟踪实例。4.1. CCPNet如图在图3中,对于时间戳T处的输入图像IT,由四个解码器预测五个不同的映射。在这里,我们首先介绍了四个解码器,然后制定CCPNet的损失函数。聚类解码器在SpatialEmbedding[15]之后,聚类解码器预测2维偏移映射(Tu,Tv)以及2维sigma映射(σu,σv)。对于坐标为(xi,yi)的每个像素pi,(Tu,Tv)表示2D边界,分别。如图2所示,在三个偏离皮皮打印的实例块,左侧实例块将移动到左侧边界,右侧实例块将移动到右侧边界。第三,对于非刚性物体,如脚踏车,实例的底部通常被障碍物或其他物体遮挡。因此,我们还以小概率对非刚性对象应用随机底部剪切。在这些变换之后,我们将处理过的t个实例块粘贴到Fmm=1,2,…n,以实例大小的降序排列,该实例大小由粘贴的像素的数量测量。如图2、CCP策略可以主动增加实例ID的数量,生成视觉上合理的图像。CCP后,-中从1增加到16,实例数从1增加到48。表3列出了使用CCP训练和不使用CCP训练之间KITTI MOTS的差异。4. 方法在本节中,我们将介绍CCPNet,它由一个共享编码器和四个不同的解码器组成:(i)聚类解码器;(ii)分类解码器;(iii)重构解码器;(iv)嵌入解码器。前三个解码器具有相同的网络结构,并接受由编码器输出的多尺度特征作为输入。如图3,对于嵌入解码器,为了使其知道逐像素位置信息,我们向输入添加类似于 [ 31 ] 的 附 加 位 置 嵌 入 层 。 CCPNet 扩 展 了SpatialEmbedding [15],通过添加嵌入解码器来学习逐像素嵌入,并添加重构解码器来重构前区的输入图像,从而在测试阶段,CCPNet预测实例(xi,yi)到其在图像平面上的对应实例中心。(σu,σv)表示学习的逐像素聚类带宽。聚类解码器学习类别不可知的实例聚类参数,其对于将前景像素分组到实例中是分 类 解 码 器 。 假 设 有 c 个 类 , 分 类 解 码 器 预 测(c+1)-dim分类图。 为了简单起见,我们仅绘制两个帧并且仅考虑单个类(例如,行人)在图。3.第三章。分类解码器输出实例不可知的语义分割图,其表示要针对每个类聚类的前景像素。嵌入解码器。嵌入图M包含32-dim逐像素嵌入,其被利用来相对于不同实例的所有前景像素构造实例嵌入。与STE [9]不同,CCPNet的学习目标是基于实例的三元组而不是实例像素。我们认为,很难迫使属于相同实例的像素的嵌入是相同的,特别是对于位于拥挤场景中的两个相邻实例的边界上的像素。相反,在三个实例上学习不仅减轻了学习的难度,而且鼓励网络专注于区分实例而不是像素。重构解码器。PointTrack [26]提出,深度2D/3D卷积层在卷积过程中不可避免地混淆了相邻实例之间的因此,在PointTrack [26]中,使用原始图像像素而不是深度卷积特征作为输入,并且使用多个MLP而不是卷积层来提取特征。与PointTrack不同的是,我们认为目前的跟踪器的主要弱点在于15327- ∈ −|∈{|}||v2u u2vKKpipiCLS|IT|百分之五十我|SK|pi∈SkpiK|SK|pi∈SkCLUKTKKpi −piIPIP IPI图3.CCPNet由一个共享的编码器和多个针对不同预测目标设计的解码器组成从训练无效而不是2D/3D卷积中。然而,PointTrack的成功揭示了像颜色和纹理这样的低级特征可以作为区分实例的强有力线索因此,为了在编码器中保留更多的低级特征,我们建议与其他目标一起学习现在,我们想描述的损失函数,沿着第一维度的张量,以获得最终的32维实例嵌入Ak。分类损失Lcls. 我们采用焦点损失[11]使用在线硬示例挖掘[21]来训练分类解码器。在Lcls中仅考虑具有较高损失的50%的像素。CCPNet,在此之前,我们先介绍一些符号设IT的分辨率为(H,W)且有K不L=1Σ最大FL(p)(4)实例Skk=1,… KT在IT上。对于每个像素pi,我们将其在图像平面中的坐标表示为(xi,yi)xi[0,W1],yi[0,H1]。每个像素P1的预测中心C被公式化为:Cp=(Cx,Cy)=(Tu+xi,Tv+yi)(1)其中,IT是不属于“不关心”的像素的数量聚类损失Lclu. 聚类损失由sigma损失Lsigma和实例损失组成。Lσ被用于迫使属于相同实例的所有前景像素具有相同的σ值。其中(Tu,Tv)由聚类解码器预测虽然每个像素都指向其预测中心,但它是不同的。L=1Σ∥σ −σ+σ-σ(5)ficult迫使所有像素准确地指向它们的中心。要放宽远离实例中心的像素的损失,请执行以下操作:Sigma|Sk|派克pi∈Sk派克之后,我们采用可学习的聚类带宽σu和σv[15]。对于每个实例Sk,如下计算聚类带宽:例如Sk,实例损失被公式化为k和地面真实二元掩码GTk之间的Lovasz铰链损失[29]。是根据等式(1)计算的分割置信度图。(三)、sigma损失和σu=1Σσu,σv=1Σσv(二)实例损失由所有实例平均因此,总体聚类损失被公式化为:哪里|SK|表示前景像素的数量。L=1Σ(β*L(欧洲联盟,瑞士)(6)在像素和S的实例中心(Cx,Cy)之间是1≤k≤KT由高斯函数计算:k kk其中β默认设置为10。n=exp(−xCx)2−y−Cy)2)(3)重建损失Lrec. Lrec是针对e个地面像素的所有IT和重建的I(T)之间pi2(σu)22(σv)2埃尔斯1L=Σ(IT−I(T)2(7)此外,为了获得实例嵌入,例如Sk,我们收集所有前景像素prec|p|p pp∈∪Sk(1≤k≤KT)(C(Cpi∈ITKpi基于学习的聚类带宽,距离Sigma15328||×| |SK。结果张量的形状是Sk32。如图所示。3,我们将max pooling应用于结果其中P表示所有前景实例pix的数量。埃尔斯15329Ij嵌入损失Lemb. 假设有两帧汽车行人T与K实例和IT−1,其中KT−1 中的实例sMOTSAMOTSAsMOTSAMOTSASTE [9]46.161.3--训练mini-batch,我们首先收集实例嵌入A对于所有KT+KT−1个实例。然后,根据这些实例的ID构造三元组之后,我们利用批处理硬三重态损失[8]进行训练。损失函数CCPNet的总损失函数被公式化为:L=αLcls+Lclu+γLrec+Lemb(8)其中α默认设置为1.0,γ默认设置为0.1。4.2. 后处理在推理阶段,实例被逐类聚集。对于每个类,后处理的工作方式如下。如图中的三个橙色框所示。在图3中,我们通过将置信度阈值tcls应用于分类图来选择所有前景像素。对于所有前景像素,我们以递归方式分两步对实例进行分组。首先,我们选择具有最高分类置信度的像素p,并获得其预测实例中心Cp。其次,根据等式(1)计算所有前景像素的预测中心与Cp之间的距离。(三)、距离低于距离阈值tdist的像素被认为属于要分组的实例。在这些像素被分组到新实例之后,属于该实例的像素被认为是背景。通过应用这两个步骤,所有在获得每个实例掩码之后,我们聚集嵌入图M上的所有前景像素的嵌入。受PointNet [17]的启发,使用最大池化操作来获得最终的固定长度实例嵌入。通过联合考虑跨帧实例之间的欧几里得距离和相邻帧中的实例之间的掩码IOU给定时刻t0的实例段St0和实例段St1TRCNN [23] 76.2 87.8 46.8 65.1CCPNet87.36 96.23 69.35CCPNet(无记录)86.85 95.74 68.35 84.55CCPNet+PointTrack 87.07 96.00 69.29 84.97表2. KITTI MOTS确认结果。Rec.表示重构解码器。4.3. 自我训练我们进一步提出了一个自我训练策略,可以与CCP相结合,让CCPNet学习无标签的在每个训练时期之后,我们利用CCPNet来检测和跟踪原始数据中的实例。由CCPNet提供的伪标签被认为是地面实况MOTS注释。值得注意的是,为了减轻实例边界中的分类歧义。我们将分类置信度在tcls/2和tcls之间的像素设置为在每个训练阶段,我们利用伪标记的原始数据作为模板,并粘贴更多的实例块。KITTI MOTS测试集的结果(见表3)验证了自训练有助于CCPNet实现更高的性能。5. 实验在 本 节 中 , 我 们 首 先 介 绍 KITTI MOTS [23] ,APOLLO MOTS [23]以及MOTS20的[23]第10段。由于我们的CCP可以集成到许多MOTS框架的训练管道中,因此我们还将其分别与TR-CNN [23]和PointTrack [27然后,我们展示了CCP的消融研究。公制。 继以前的作品[9,23,16,12,26,I j以及它们的实例嵌入Ai和Aj,相似度SI计算如下:SI=−D(Ai,Aj)+IOU(St0,St1)*(t1−t0== 1)其中D表示欧几里得距离,并且仅对于属于相邻帧的实例考虑掩码IOU当且仅当SI高于阈值t_sim时,两个实例相关联。 我们将所有轨道的默认活动阈值设置为0。如果轨道在ta0帧内未更新,则其将被终止。此外,对于接近边界的实例,我们分配一个小得多的存活阈值27,28,19],我们集中于sMOTSA和MOTSA。我们不关注ID开关(IDS),因为它随实例分割结果而变化。例如,在一些情况下,更多的假阴性导致更少的IDS。我们只在相同的分割结果下比较IDS。此外,KITTI MOTS 的 主 要 指 标 于 二 零 二 一 年 二 月 底 由sMOTSA更新为HOTA [13]HOTA是MOT的高阶度量,更关注跟踪性能。由于以前的方法没有提供新的HOTA指标的结果,我们提供了HOTA在KITTI MOTS排行榜上的主要结果(见表3),而不是KITTI MOTS验证。ta1。值得注意的是,我们的后期处理没有涉及复杂的跟踪策略(例如卡尔曼滤波器(KF)[24]),因为它超出了本文的范围。如果考虑,我们相信CCPNet可以实现更高的跟踪性能。我们使用他们的开源代码,对数据加载器进行微小修改,使其与CCP一起工作。在 提 交 本 文 时 更 新 了 HOTA 原 始 评 估 服 务 器 可 在http://www.cvlibs.net/datasets/kitti/old_eval_mots.phpMOTSNet [16]78.187.254.669.3MOTSFusion [12]85.594.658.971.9[26]第二十六话85.594.962.477.3[第27话]86.8195.9565.5181.54(九)15330··××汽车行人sMOTSAMOTSAHOTAsMOTSAMOTSAHOTA[23]第二十三话67.0079.6056.6347.3066.1041.93TRCNN+CCP72.0585.2457.8948.3766.6543.92MOTSNet [16]71.0081.70-48.7062.00-MOTSFusion [12]75.0084.1073.6358.7072.9054.04[26]第二十六话78.5090.9061.9561.5076.5054.44PointTrack+CCP81.5292.8167.9464.3478.4158.44[第27话]82.8092.6067.2868.1083.6056.67遥控器[28]75.9286.7471.6165.9781.3358.81VIP-DeepLab [19]81.0390.7476.3868.7684.5264.31CCPNet84.4794.4073.6170.1685.8560.50CCPNet+自训练84.4794.3675.1270.5586.3662.22表3.KITTI MOTS排行榜上的结果实验设置。对于KITTI MOTS,在PointTrack [26]之后,我们在KINS数据集[18]和KITTI MOTS的组合上预训练CCPNet。来自KINS数据集的图像被用作模板的附加源。 CCPNet的预训练需要30个epoch5的学习率 10- 4。 对于阿波罗MOTS以及MOTS 20,我们使用CCP从头开始训练CCPNet-额外的训练数据。CCPNet的训练需要15个epoch,学习率为2 10- 4。值得注意的是,与最近的Copy-Paste [6]类似,由于更高的实例密度,使用CCP的训练比没有CCP的训练快得多。对于CCP,我们默认采用n=3帧。对于视频帧,每个帧将被视为概率为0的孤立图像。2,并用于通过重新缩放该帧来生成n个帧。我们分别为KITTI MOTS和APOLLO MOTS添加了最多15个实例块(表6中提供了比较)。由于MOTS20的输入图像是KITTI MOTS的四倍,因此我们最多为MOTS20添加25个实例块添加到每个帧的实例块的数量此外,当我们为每个实例块选择分割项时,默认情况下将nb设置为7随机重放的概率为0。随机底部剪切的概率为0。二、值得注意的是,基于对KITTI MOTS和MOTS20的特征的观察,我们仅将随机底部剪切和边界移动应用于相对较大的实例。对于CCPNet,KITTI MOTS和APOLLO MOTS的输入分辨率为1248 384。对于MOTS20,输入分辨率为1088 1280。由于输入分辨率要大得多,我们以半精度训练CCPNet。 tcls设置为0的情况。4并且t_dist被设置为0。41、行人和汽车 tsim是7。5默认。此外,ta0和ta1分别设置为8和3。 此外,我们利用原始KITTI数据[5]自我训练。 关于KITTI MOTS,CCPNet进程在单个2080Ti卡上测试时,以7 FPS的速度拍摄图像。5.1. 主要结果我们比较最近的作品MOTS:[23],[24],[25],[26],[27],[28],[29]PointTrack++[27]、REMOTS [28]和ViP-DeepLab [19]。KITTI MOTS确认结果。KITTI MOTS确认结果总结 见 表 2 。 对 于 汽 车 , CCPNet 仅 实 现 了 0. 5% 的sMOTSA。然而,对于非刚性实例,如pedes-trians,CCPNet在sMOTSA上超过PointTrack++近4%。对行人的大幅改善不仅证明了CCP的有效性,但也表明,在行人的MOTS性能仍有很大的改进空间。此外,在没有重构解码器的情况下,与跟踪性能密切相关的MOTSA对于行人降低了1%。请注意,添加重建解码器不会影响CCPNet的速度,因为它在推理阶段被放弃。定性结果见图。4.第一章KITTI MOTS排行榜上的结果。我们在表3中给出了主要结果。当使用自训练策略进行训练时,CCPNet在排行榜上获得最高的sMOTSA分数。演示视频可在补充材料中找到。此外,值得注意的是,将CCP与当前MOTS方法相结合可以显著提高性能,而无需对其框架进行任何修改。为TRCNN带来了5.0% 的 sMOTSA 的 汽 车 和 PointTrack 的 增 长 超 过 3% 的sMOTSA 的 汽 车 和 行 人 。 对 于 最 近 更 新 的 度 量HOTA,我们稍微落后于离线跟踪方法ViP-Deeplab。我们认为,一个更复杂的跟踪战略可以弥补这一差距。然而,这已经超出了本文的讨论范围.APOLLO MOTS 验 证结 果。我们遵 循PointTrack[26]来验证CCPNet在APOLLO MOTS上的有效性。CCPNet 在 sMOTSA 和 MOTSA 上 都 此 外 , 当 检 查CCPNet产生的相同分割结果时,CCP-请访问http://www.cvlibs.net/datasets/kitti/old_eval_mots.php查看排行榜15331图4.CCPNet的定量结果。 相同轨迹ID的实例以相同颜色绘制。隔离区sMOTSAMOTSADeepSort [25]TRCNN45.7157.06[23]第二十三话TRCNN49.8461.19深度排序PointTrack64.6973.97[26]第二十六话PointTrack70.7680.05PointTrackCCPNet72.8982.22CCPNetCCPNet73.2082.53表4.APOLLO MOTS验证结果sMOTSAMOTSA表的前两行 6,用n = 3的训练示出了汽车的更好的MOTS性能。然而,n = 2和n= 3之间的差距很小,这表明帧数对CCP的有效性影响很小。CCP边界转移的影响。为了验证边界移位的有效性,我们固定了除嵌入解码器之外的编码器和解码器的参数,以确保分割结果不会改变。然后我们隐私检测公共美国有线电视新闻网[23]UBVision 52.8 67.4分类[1] 55.0 68.3CCPNet分类ReID 55.8 69.1在边界偏移的情况下训练CCPNet,以及消除边界偏移。如表的第三行所示。6,虽然MOTSA仅略微降低,但IDS从24降至17,从23降至17。检测 遥控器[28] 70.4 84.4表5.MOTS20排行榜上的结果汽车行人sMOTSAMOTSAsMOTSAMOTSAn=2(MA=15)87.33 96.1869.35 85.69n=3(MA=15)87.36 96.2368.76 85.45wo BS 87.23 96.09 68.65 84.94沪公网安备31010502000112号沪ICP备15026669号-1沪ICP备15024556号-1表6.CCP消融研究BS表示边界移位。Net获得了0.3%的MOTSA提高,IDS降低了15%。当采用PointTrack [26]跟踪CCPNet的分割结果时(见表2的最后一行和表4的倒数第二行),CCPNet显示出更高的跟踪性能。MOTS20排行榜上的结果。MOTS20建立在MOT16[14]的基础上,是一个非常具有挑战性的MOTS数据集,具有许多拥挤的场景。通过由大型数据集预训练的模型生成的强大的预计算公共检测结果,第五届BMTT MOTChallenge研讨会中的方法(如REMOTS[28])实现了非常高的性能。相比之下,我们的CCPNet是经过训练的在MOTS20上从头开始,使用大约2000张图像作为训练集。为了公平比较,我们将CCPNet与使用私有检测的方法进行如Ta所示在表5中,我们的CCPNet在MOTS20排行榜上取得了最先进的性能,sMOTSA和MOTSA更高。5.2. 消融研究CCP输入帧的影响我们只测试n = 2,由于GPU内存限制,n=3所示18、行人CCP的最大实例块数的影响。我们研究了KITTIMOTS的实例块的最大数量的影响。如表6中的最后三行所示,当最大数量从5增加到10时,性能增益是显著的。当最大数量增加到25时,性能开始下降。虽然添加更多实例会带来更多拥挤的场景,但它会使域偏差如此显著,从而损害验证集的性能。6. 结论在本文中,我们提出了一个有效的数据扩充方法命名为CCP,以帮助MOTS方法实现更高的性能,而无需修改其框架。CCP可以将非视频帧利用到MOTS训练中,并且连续地将实例复制-粘贴到连续帧,以增加实例的数量和唯一实例ID的数量。当用CCP训练时,当前方法实现了很大的性能增益。此外,我们提出了第一个有效的一阶段MOTS方法命名为CCPNet,完成实例分割和实例关联在一个单一的向前通过。在三个数据集的评估表明,我们的CCP-网络实现了最先进的结果,优于以前的方法大幅度。确认这 项 工 作 得 到 了 安 徽 量 子 信 息 技 术 倡 议 ( No.AHY150300)。15332引用[1] Alex Bewley、Zongyuan Ge、Lionel Ott、Fabio Ramos和Ben Upcroft。简单的在线和实时跟踪。2016年IEEE图像处理国际会议(ICIP),第3464-3468页。IEEE,2016. 8[2] Bowen Cheng,Maxwell D Collins,Yukun Zhu,TingLiu,Thomas S Huang,Hartwig Adam,and Liang-ChiehChen. Panoptic-deeplab:用于自下而上全景分割的简单、强大且快速的基线。在IEEE/CVF计算机视觉和模式识别会议论文集,第12475-12485页,2020年。3[3] Debidatta Dwibedi,Ishan Misra,and Martial Hebert.剪切、粘贴和学习:令人惊讶的简单合成,例如检测。在IEEE国际计算机视觉会议论文集,第1301-1310页,2017年。3[4] Hao-Shu Fang,Jianhua Sun,Runzhong Wang,MinghaoGou,Yong-Lu Li,and Cewu Lu. Instaboost:通过概率图引导复制粘贴来提升实例分割。在IEEE/CVF计算机视觉国际会议论文集,第682-691页3[5] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?Kitti Vision基准套件。2012年IEEE计算机视觉和模式识别会议,第3354-3361页。IEEE,2012。7[6] 林宗义,崔银,史瑞文,林宗义,林志玲.阔克?库布克Le和Barret Zoph.简单的复制粘贴是一种强大的数据增 强 方 法 , 用 于 实 例 分 割 。 arXiv 预 印 本 arXiv :2012.07177,2020。二、七[7] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。在IEEE计算机视觉国际会议论文集,第2961-2969页3[8] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为了防止三重丢失,进行人员重新鉴定。arXiv预印本arXiv:1703.07737,2017。6[9] Anthony Hu,Alex Kendall和Roberto Cipolla。学习用于视 频 实 例 分 割 的 时 空 嵌 入 arXiv 预 印 本 arXiv :1912.08969,2019。二三四六七[10] Mate Kisantal 、 Zbigniew Wojna 、 Jakub Murawski 、Jacek Naruniec和Kyunhyun Cho。用于小物体检测的增强。在第九届计算和信息技术进展国际会议(ACITY2019),第119-133页。Aircc出版公司,12月。2019. 3[11] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集,第2980-2988页,2017年5[12] J. Luiten,T. Fischer和B. Leibe跟踪重建和重建跟踪。IEEE Robotics and Automation Lette
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功