没有合适的资源?快使用搜索试试~ 我知道了~
61620GradNet:基于梯度引导的视觉目标跟踪网络0Peixia Li†,Boyu Chen†,Wanli Ouyang§,Dong Wang†�,Xiaoyun Yang‡,Huchuan Lu†0† 大连理工大学,中国,§ 悉尼大学,澳大利亚,‡ 中国科学智云科技有限公司0{ pxli,bychen } @mail.dlut.edu.cn,wanli.ouyang@sydney.edu.au,{ wdice,lhchuan } @dlut.edu.cn,xiaoyun.yang@intellicloud.ai0摘要0基于模板匹配的全卷积孪生网络在视觉跟踪中显示出巨大的潜力。在测试过程中,模板与初始目标特征固定,性能完全依赖于孪生网络的一般匹配能力。然而,这种方式无法捕捉目标或背景杂波的时间变化。在这项工作中,我们提出了一种新颖的梯度引导网络,通过前向和后向操作利用梯度中的区分信息并更新孪生网络中的模板。具体而言,该算法可以利用梯度信息来更新当前帧中的模板。此外,还提出了一种模板泛化训练方法,以更好地利用梯度信息并避免过拟合。据我们所知,这项工作是第一次尝试利用梯度中的信息来更新孪生网络中的模板。对最近的基准进行了大量实验证明,我们的方法比其他最先进的跟踪器具有更好的性能。源代码可在https://github.com/LPXTT/GradNet-Tensor�ow上获得。01. 引言0视觉目标跟踪是计算机视觉中的重要课题,其中目标对象在初始视频帧中被识别,并在后续帧中连续跟踪。近年来,深度网络[37, 3, 19, 44, 23,39]由于其表示能力的提升,显著改善了跟踪性能。基于深度学习的跟踪器分为两组。第一组[36, 28, 32,4]通过频繁的在线更新提高了深度网络的区分能力。它们利用第一帧来初始化模型并更新模型。0� 通讯作者:王东博士0图1.我们算法的动机。第一列和第三列的图像是SiameseFC中的目标区域。其他图像显示了它们的梯度的绝对值,其中红色区域具有较大的梯度。正如我们所看到的,梯度值可以反映目标的变化和背景杂波。0每隔几帧。及时的在线更新使得跟踪器能够捕捉目标的变化,但也需要更多的计算时间。因此,这些跟踪器的速度通常无法满足实时要求。基于孪生网络的跟踪器是第二组中的代表[3, 44,22],完全基于离线训练。它们通过大量的离线训练学习不同帧中物体之间的相似性。在在线测试期间,初始目标特征被视为模板,并用于在后续帧中搜索目标。这些方法不需要在线更新,因此通常以实时速度运行。然而,这些方法在没有重要的在线适应性的情况下无法适应目标的外观变化,从而增加了跟踪漂移的风险。为了解决这个问题,许多研究[16, 45,40]提出了不同的机制来更新模板特征。然而,这些方法只关注组合先前的目标特征,忽略了背景杂波中的区分信息。这导致了孪生网络跟踪器与具有在线更新的跟踪器之间存在较大的准确性差距。通常,梯度是通过考虑正负候选项的最终损失来计算的。61630表1. 更新SiameseFC模板所需的反向迭代次数。'LR'表示学习率;'n×'表示n倍的基本学习率;'ITERs'表示收敛所需的迭代次数。没有适当的步长可以在一次迭代中收敛。0学习率 1 × 3 × 5 × 7 × 9 × 10 × 30 × 50 × 70 × 90 × 100 × 500 × 1000 × 3000 × 5000 ×0ITERs 449 136 77 64 60 58 59 51 54 56 55 54 61 67 ∞0因此,梯度包含了区分目标变化并将目标与背景杂波区分开的信息。如图1所示,当目标被噪声遮挡或者相似的对象存在于目标附近时,这些位置的梯度的绝对值往往更高。梯度中的高值可以迫使模板集中在这些区域并捕捉核心的区分信息。大多数基于梯度的跟踪器[36,32]集中于手动设计的优化算法,如动量[34]、Adagrad[11]、ADAM[20]等。这些算法需要数百次迭代才能收敛,这导致了更多的计算和较低的速度。如何在速度和更新准确性之间取得平衡仍然是一个问题。如果我们希望减少训练迭代次数但仍然通过梯度进行在线更新,极端情况是通过一次反向传播来调整模板。然而,通过一次反向传播进行训练是一项困难的任务。如表1所示,没有适当的学习率可以使SiameseFC的模板在一次迭代中收敛。通常情况下,即使使用最佳步长,仅根据一次迭代的梯度移动也无法正确更新模板,因为正常的基于梯度的优化是一个非线性过程。另一方面,我们可以通过CNN学习一个非线性函数,通过探索梯度中的丰富信息来模拟非线性的基于梯度的优化。因此,我们提出了一个梯度引导网络(GradNet)来进行视觉跟踪中的梯度引导适应。GradNet集成了由两个前向计算和一个反向计算组成的适应过程,简化了基于梯度的优化过程。由于两个主要原因,训练一个稳健的GradNet是一项非常困难的任务。第一个原因是网络容易使用模板的外观而不是梯度进行跟踪(详细信息可以在第3.3节中找到),因为学习使用梯度比学习使用外观更困难。第二个原因是网络容易过拟合。如图2所示,通过正常训练(Ours-T)的模型可以迅速获得较低的距离误差,但其测试准确性不如我们的模型。为了解决这些问题,我们提出了一种模板泛化方法来有效地探索梯度信息并避免过拟合。主要贡献可以总结如下:0• 提出了GradNet来进行梯度引导的模板更新,用于视觉跟踪。0OursOurs-T0OursOurs-T0训练损失0测试准确性0图2.通过正常训练(Ours-T)和我们的训练方法(Ours)的模型的训练和测试曲线。左图显示了训练过程中预测地图与真实地图之间的误差,右图显示了测试过程中的准确性。0• 提出了一种模板泛化方法,以确保强大的适应能力并避免过拟合。0•在四个流行的基准测试上进行了广泛的实验,结果表明所提出的跟踪器在实时速度为80fps时取得了有希望的结果。02. 相关工作02.1. 基于Siamese网络的跟踪0SiameseFC[3]是基于模板匹配的最具代表性的跟踪器。Bertinetto等人[3]提出了一个具有两个共享分支的Siamese网络,用于提取目标和搜索区域的特征。在线跟踪过程中,模板被固定为初始目标特征,跟踪性能主要依赖于离线训练的网络的区分能力。没有在线更新,该跟踪器实现了超过实时速度。类似地,SINT[33]也设计了一个网络,用于将初始目标与新帧中的候选目标进行匹配。由于将数百个候选补丁送入网络而不是一个搜索图像,其速度要低得多。另一个基于Siamese的跟踪器是GOTURN[17],它提出了一个Siamese网络来回归目标边界框,速度为100fps。所有这些方法都缺乏重要的在线更新。固定的模型无法适应外观变化,使得跟踪器容易受到相似实例或背景噪声的干扰。在本文中,我们选择SiameseFC作为我们的基本模型,并提出了一种梯度引导的方法来更新模板。02.2.跟踪中的模型更新0及时更新对于保持跟踪器的鲁棒性至关重要。模型更新有三种主要策略,包括模板组合、梯度下降和基于相关性的策略。61640模板组合。基于模板组合的算法[16,45]旨在有效地组合来自先前帧的目标特征。Guo等人[16]提出了一个快速的转换学习模型,以实现对先前帧的有效在线学习。Zhu等人[45]利用光流信息转换模板,并根据其权重进行整合。所有这些方法都侧重于使用模板的信息,而忽略了背景杂波。与这些方法不同,我们充分利用后向梯度中的区分信息,而不仅仅是整合先前的模板。0基于梯度下降的方法。基于梯度下降的深度跟踪器[36,32]通过后向梯度中的区分信息来通过数百次迭代更新模型。Wang等人[36]训练两个独立的卷积层,用初始帧回归高斯图,并每隔几帧更新这些层。类似地,Song等人[32]在初始化和在线更新过程中也利用了多次梯度下降迭代。这些跟踪器需要许多训练迭代来捕捉目标的外观变化,这使得跟踪器的效果较差,远离实时要求。我们提出了一个只需要一次反向传播和两次前向传播就能有效更新模板的GradNet。此外,我们的模板泛化方法用于处理过拟合,在现有的工作中没有进行研究。0基于相关性的跟踪。基于相关性的跟踪器[18, 26, 10, 43,42,6]通过循环卷积训练分类器,可以在傅里叶域中快速计算。最终的分类器通过求解优化函数的闭式解来进行训练和更新。由于深度网络无法完全模拟分类器训练,因此大多数基于相关性的跟踪器只利用深度网络提取鲁棒特征。不同的是,我们的方法旨在通过端到端网络更新模板。02.3.梯度利用0目前,大多数深度神经网络采用基于手动设计的优化策略的离线训练梯度,例如动量[34],Adagrad[11],ADAM[20]等。这些方法通常需要昂贵的计算和大规模的数据集。如何加速深度网络的训练是计算机视觉中的热门话题。0元学习。元学习方法可以广泛分为不同的类别,包括基于优化的方法[1],基于记忆的方法[31],基于变量的方法[14,30,24]等。我们的算法可以看作是优化方法[1]的改进版本,以适应视觉跟踪中的更新任务。与[1]相比,我们的方法有三个主要区别。首先,我们只学习更新模板,而不是搜索区域的网络分支。这是专门设计的0对于跟踪任务,我们的更新过程只包含一个迭代,而不是多次迭代。最后,我们的优化器训练包括二阶梯度,而[1]中没有使用。跟踪的元学习。尽管元学习在许多领域中很受欢迎,但很少有作品[40,29]将其应用于视觉跟踪。Yang等人[40]设计了一个内存结构,用于动态写入和读取用于模型更新的先前模板。不同的是,我们专注于探索梯度的区分信息。Eun-byung等人[29]使用离线的像素级学习率训练滤波器的初始化参数,并利用矩阵乘法来更新滤波器。更新是一个线性过程。而我们的模板更新是一个非线性过程,使用卷积层和Relu。此外,我们使用目标特征作为先验信息,通过提供一个良好的初始值来加速更新过程。03. 提出的算法0GradNet的整个流程如图3所示,由两个分支组成。一个分支提取搜索区域X的特征,另一个分支根据目标信息和梯度生成模板,详见第3.2节。模板生成过程包括初始嵌入、梯度计算和模板更新。首先,将浅层目标特征f2(Z)发送到一个子网络U1(图3中的紫色部分)以获得初始模板β,用于计算初始损失L。其次,通过反向传播计算浅层目标特征的梯度,并将其发送到另一个子网络U2(图3中的橙色部分),以非线性方式转换为更好的梯度表示。最后,将转换后的梯度添加到浅层目标特征中,得到更新后的目标特征,再次发送到子网络U1以输出最佳模板。需要注意的是,初始嵌入和模板更新过程中的两个子网络共享参数。最佳模板通过交叉相关卷积在搜索区域上搜索目标。03.1. 基本跟踪器0我们采用SiameseFC[3]作为基本跟踪器。fx(.)用于建模搜索区域的特征提取分支,fz(.)用于建模目标区域的特征提取分支。我们假设目标在两个连续帧之间的运动是平滑的。因此,我们可以裁剪一个比当前帧中的目标补丁Z更大的搜索区域X,以目标在上一帧中的位置为中心。最终的得分图通过以下方式计算:0S = β * fx(X), (1)0其中β是在搜索区域X上执行穷举搜索的模板,*表示交叉相关卷积**h2(Z) = f2(Z) + U2(61650模板帧0当前帧0目标补丁127*127*30搜索区域255*255*30Z0X0f2(.)0fx(.)0SY0S*0正向反向0ββ*0U1(.) U1(.) U1(.)0图3.所提算法的流程图,由两个分支组成。底部分支提取搜索区域X的特征,顶部分支(称为更新分支)负责模板生成。图中的两个紫色梯形表示具有共享参数的子网络;实线和虚线分别表示正向传播和反向传播。0其中S表示用于找到目标的得分图。在SiameseFC中,模板β被定义为深层目标特征:0βsia = fz(Z), (2)0其中Z是第一帧中的目标补丁。为了提高在线跟踪中模板β的区分能力,我们设计了更新分支U(α)来探索梯度中的丰富信息:0βour = U(Z, X, α), (3)0其中α是更新分支的参数,不仅可以捕捉Z中的模板信息,还可以通过梯度捕捉X中的背景信息。03.2. 模板生成0初始嵌入。给定图像对(X,Z),我们希望得到适合于在搜索区域X中区分目标和背景的最佳模板β*。首先,我们获取目标特征f2(Z)(使用两个卷积层),并将f2(Z)发送到子网络U1以获取初始模板β:0β = U1(f2(Z), α1), (4)0其中α1是U1的参数。初始模板只包含模板信息,没有背景信息。因此,我们需要探索梯度中的区分信息,使其更加鲁棒。在获得β后,通过方程(1)计算初始得分图S。0梯度计算。基于初始得分图 S 和训练标签 Y,我们可以通过以下方式获得初始损失 L :0L = l ( S , Y ) , (5)0其中 l ( . ) 是逻辑损失函数。我们利用该损失来计算 f 2 ( Z )的梯度并将其添加到 f 2 ( Z )中。然后,通过以下方式获得更新后的目标特征:0∂f 2 ( Z ) , α 2 ) 。 (6)0其中 α 2 是 U 2 的参数。在这里,梯度与 U 1相关,并作为子网络 U 2的输入用于计算最终损失,因此在子网络 U 1的参数训练中引入了二阶引导。0模板更新。最后,我们将更新后的目标特征 h 2 ( Z )再次发送到子网络 U 1 中,通过以下方式获得最优模板 β �和最终得分图 S � :0β � = U 1 ( h 2 ( Z ) , α 1 ) ,0S � = β � � f x ( X ) 。 (7)0最优得分图 S � 用于估计目标位置。我们的目标是让 S �在目标位置具有最高值,在其他位置具有较低值。因此,我们利用由 S � 计算的损失来训练更新分支:arg min α � l ( S �, Y ) 。 (8)0据我们所知,这项工作是首次尝试利用梯度的区分信息来更新SiameseFC中的模板。为了简化模板生成过程的介绍,我们只使用了一个图像对。在下一小节中,我们将更一般和详细地讨论训练方法。03.3. 模板泛化0基本优化问题。来自不同视频的图像对及其训练标签构成训练集OursOurs-T0.002 0.003 0.004 0.005 0.006 0.007 0.008 0.009 0.010 0.011̸arg minα61660权重比例分布0图4. 梯度和特征之间的权重比例分布。权重比例由 α 2的绝对值计算得出,反映了模板更新过程中梯度的比例。不同位置的矩形代表该范围内的点数。0T = { ( X 1 , Z 1 , Y 1 ) , ( X 2 , Z 2 , Y 2 ) , . . . , ( X n ,Z n , Y n ) } ,X i 是搜索区域,大于目标补丁 Z i ,Y i是训练标签,n 是训练样本的数量。需要注意的是 X i 和 Z i来自同一视频的不同帧,而 X i 和 X j ( i ≠ j )来自不同的视频。训练网络的一个简单想法是利用训练集 T中的图像对 ( X i , Z i , Y i ) 来通过方程式 ( 4 − 7 )获得最优模板 β � i 和最终得分图 S � i。更新分支通过以下方式进行训练:0i =1 l ( S � i , Y i ) 。 (9)0根据我们的实验,这种方法存在两个主要问题。第一个问题是网络的更新分支很容易专注于模板的外观而不是梯度,因为学习使用梯度比建模相似度度量更困难。如图4所示,没有进行模板泛化训练的网络具有较低的梯度权重比例。这意味着网络对梯度的关注较少。第二个问题是在这种训练过程中网络无法避免过拟合,如图2所示。0模板泛化。我们的目标是使更新分支专注于梯度并避免过拟合。基于这些要求,我们提出了一种模板泛化方法,该方法利用来自不同视频的搜索区域来获得一个多功能模板,并使其在每个训练批次中的所有搜索区域上表现良好。我们在图5中基于四个图像对展示了没有模板泛化 ( a ) 和有模板泛化( b )的模型的训练过程。主要区别在于我们使用一个模板(而不是四个模板)在来自不同视频的四个图像上搜索目标。我们从训练集 T 中选择 k ( k = 4 在图5中)个训练图像对组成一个训练批次,并利用第一个图像对中的目标补丁 Z 1 计算目标特征 f 2 ( Z 1 ) 。初始模板 β 1可以获得0f2(z1)0f2(z2)0f2(z3)0f2(z4)0* fx(x1)0* fx(x2)0* fx(x3)0* fx(x4)0f2(z1)0* fx(x1)0* fx(x2)0* fx(x3)0* fx(x4)0a) Ours-T b) Ours0图5.‘Ours-T’和‘Ours’在利用模板上的示意图。‘Ours-T’表示没有模板泛化的训练;‘Ours’表示通过模板泛化进行训练。0根据公式(4)。这里,β1表示通过Z1计算的模板。然后,我们使用β1在所有搜索区域上找到目标:0Si = β1 � fx(Xi),i = 1, 2, ..., k. (10)0然后,我们可以通过公式(5)获得初始损失,并通过公式(6,7)更新模板β1。在获得更新的模板β�1后,我们使用它在所有搜索区域(X1, X2, ...,Xk)中搜索目标,并通过公式(9)训练更新分支。这样,β�1需要同时跟踪X1, X2, ...,Xk中的目标。为了说明,我们在算法1中展示了详细过程。模板泛化提供了具有多个搜索区域的目标特征,并旨在获得在所有搜索区域上表现良好的通用模板特征。这种策略可以迫使网络在离线训练期间专注于梯度,因为初始目标特征不对齐,而梯度是对齐的。子网络U1和U2需要根据梯度纠正初始不对齐的模板,从而根据梯度获得更新模板的强大能力。如图2和图4所示,模板泛化算法可以有效避免过拟合,并关注梯度。03.4. 在线跟踪0离线训练后,更新分支完全固定,并在在线测试期间用于初始化和更新。初始化。给定第一帧中的真实值,我们裁剪目标补丁Z1和搜索区域X1作为网络的输入。然后,我们可以获得最优模板β�0根据公式(4-7)计算。此外,通过公式(6)计算更新的目标特征h2(Z1),并用于更新后续帧中的模板。在线更新。我们通过一次迭代使用一个可靠的训练样本来更新模板β�。根据跟踪结果保存可靠样本(Xi,Yi),并使用它根据公式(4-7)(将f2(Z),X,Y替换为h2(Z),Xi,Yi)来更新当前模板β�。换句话说,我们通过初始帧获得更新的特征h2(Z1)。然后,使用网络的更新分支。05101520253035404550Location error threshold00.10.20.30.40.50.6PrecisionPrecision plots of OPE on LaSOT[0.374] MDNet[0.372] VITAL[0.351] Ours[0.341] SiamFC[0.340] StructSiam[0.329] DSiam[0.299] SINT[0.298] ECO[0.292] STRCF[0.272] ECO_HC[0.265] CFNet[0.250] HCFT[0.243] PTAV00.20.40.60.81Overlap threshold00.10.20.30.40.50.60.70.8Success rateSuccess plots of OPE on LaSOT[0.413] MDNet[0.412] VITAL[0.365] Ours[0.358] SiamFC[0.356] StructSiam[0.353] DSiam[0.340] ECO[0.339] SINT[0.315] STRCF[0.311] ECO_HC[0.296] CFNet[0.285] TRACA[0.280] MEEM61670算法1. 更新分支的离线训练输入:来自不同视频的训练样本(I1, I2, ..., In)和高斯图(Y1,Y2, ..., Yn) 输出:更新分支的训练权重α。0使用权重α0初始化更新分支。使用SiameseFC[3]的参数初始化跟踪器的特征提取部分。从训练样本中裁剪模板图像Z和搜索区域X,构建训练集T = {(X1, Z1,Y1), (X2, Z2, Y2), ..., (Xn, Zn,Yn)}。当未收敛时执行以下操作:1.从T中随机选择k个训练样本。2.使用更新分支获取β1和β�1。对于i∈0,...,k,执行以下操作:(a). β1 = U1(f2(Z1), α1) (b). Si = β1 � fx(Xi) (c). L =Σki=1 l(Si, Yi) (d). 根据公式(6)获取h2(Z1) (e). β�1 =U1(h2(Z1), α1)。结束for循环。3.通过最小化损失训练更新分支。对于i∈0,...,k,执行以下操作:(a). Si� = β�1 � fx(Xi) (b). L� = Σki=1 l(Si�, Yi) (c).通过SGD最小化L�来更新α0。结束for循环。结束while循环。0根据可靠样本(Xi,Yi)更新h2(Z1)并生成回归部分的最优模板β�。03.5.实现细节0搜索区域的特征提取fx(.)由具有与SiameseFC[3]相同结构和参数的五个卷积层组成。浅目标特征f2(.)来自SiameseFC的第二个卷积层。U1中有三个卷积层,其结构与SiameseFC的最后三个层相同。U2中卷积层的卷积核大小为3×3。模板β和β�的大小为6×6,得分图的大小为17×17。在跟踪过程中,我们每5帧更新一次模板β�。可靠的训练样本是根据得分图的最大值选择的。我们将第一帧得分图的最大值设置为阈值thre。如果当前得分图的最大值大于thre�0.5,则认为结果准确,并将训练样本Xt裁剪为可靠的训练样本。所提出方法中的尺度评估、学习率和训练轮数与SiameseFC[3]中的相同。为了在快速适应和误差积累之间取得平衡,通过组合初始模板和β�获得最终模板。0图6.在OTB-2015数据集上的精度和成功曲线。0图7.在TC128数据集上的精度和成功曲线。0图8.在LaSOT数据集上的精度和成功曲线。0和β�。我们只在ILSVRC2014VID数据集上训练网络,并在推理过程中固定整个网络。04.实验0我们的跟踪器使用Tensorflow框架在Python中实现,使用Intel i7 3.2GHz CPU和32G内存以及Nvidia 1080tiGPU和11G内存,以80fps的速度运行。我们将我们的跟踪器与许多具有实时性能(即速度快于25fps)的最新跟踪器在最近的基准测试中进行比较,包括OTB-2015[38],TC-128 [25],VOT-2017 [21]和LaSOT [12]。04.1.对OTB-2015数据集的评估0OTB-2015[38]数据集是最受欢迎的基准之一,包含100个具有11个不同属性的具有挑战性的视频剪辑。关于OTB-2015上不同跟踪器的更详细信息,请参阅[38]。在这里,我们采用成功和精度曲线来评估OTB-2015上的不同跟踪器。精度曲线报告了中心位置误差小于某个阈值的百分比。ECO-HCACTSiamRPNSiameFCKCFOursOurs0.5070.3750.247SiamRPN0.4900.4600.244CSRDCF++0.4590.3980.212SiamFC0.5020.6040.182ECO HC0.4940.5710.177Staple0.5300.6880.170KFebT0.4510.6840.169SSKCF0.5300.6560.164CSRDCFf0.4750.6460.158UCT0.4900.7770.145MOSSEca0.4000.8100.139SiamDCF0.5030.9880.13561680图9.在OTB-2015数据集上不同跟踪算法的代表性视觉结果。0表2.不同跟踪器在VOT2017上的准确性(A),鲁棒性(R)和预期平均重叠(EAO)得分。0跟踪器 A R EAO0旧的。而成功的绘图报告了预测和地面真实边界框之间重叠高于一系列给定比率的帧的百分比。我们将我们的算法与包括九个实时深度跟踪器(ACT [5],StructSiam[44],SiamRPN [22],ECO-HC [7],PTAV [13],CFNet[35],Dsiam [16],LCT [27],SiameFC[3])和三个传统跟踪器(Staple [2],DSST [8],KCF[18])在内的十二个最新跟踪器进行比较。图6显示了OTB-2015上所有比较跟踪器的精度和成功曲线,表明我们提出的跟踪器表现非常好(仅在成功方面略低于ECO-HC)。特别是,我们的跟踪器在精度上比基准模型(SiameseFC)提高了近8%,在成功上提高了6%。为了进行更详细的分析,我们在图9中展示了一些代表性方法的视觉结果。从这些图中,我们可以看出我们的方法可以很好地处理各种具有挑战性的因素,并始终取得良好的性能。04.2. TC-128数据集上的评估0TC128[25]数据集由128个完全注释的图像序列组成,包含11个不同的挑战因素,比OTB-2015大,并且更注重颜色信息。我们还采用精度和成功率曲线来评估不同的跟踪器(与OTB-2015相同的评估协议)。我们将我们的算法与ACT[5]、PTAV [13]、Dsiam [16]、SiameFC [3]、HCFT[26]、FCNT [36]、STCT [37]、BACF [15]、SRDCF[9]、KCF [18]和MEEM[41]等十一个跟踪器进行比较。图7显示,我们的跟踪器在精度和成功率两个标准上取得了最好的结果。04.3. VOT2017数据集上的评估0VOT2017[21]数据集包含60个短序列,注释有6个不同的属性。根据其评估协议,每当检测到跟踪失败时,测试的跟踪器会重新初始化。在这个基准测试中,准确性(A)和鲁棒性(R)以及预期平均重叠(EAO)是三个重要的标准。根据EAO标准对不同的跟踪器进行排名。我们参考[21]了解更详细的信息。在这个小节中,我们将我们的算法与VOT2017实时挑战赛[21]中排名前十的跟踪器以及另一个最先进的跟踪器SiamRPN[22]进行比较。表2显示,我们的跟踪器在EAO方面表现最好,同时保持了非常有竞争力的准确性和鲁棒性。我们的跟踪器的EAO比VOT2017实时挑战赛的获胜者(CSRDCF++)高出3.5%。我们的跟踪器也可以比SiamRPN表现更好,SiamRPN的训练数据(超过100,000个视频)比我们的(约4,000个视频)要多得多。Ours0.8610.63980Ours w 2U0.8330.62880Ours-baseline0.7710.58294616904.4. LaSOT数据集上的评估0LaSOT[12]数据集是一个非常大规模的数据集,包含1400个序列,70个类别,总共超过350万帧。该数据集的平均帧长度超过2500帧。到目前为止,这个数据集是视觉跟踪中最大的。根据一次性评估,不同的跟踪器根据精度、归一化精度和成功率等三个标准进行比较。我们还采用精度和成功率曲线来比较35个跟踪器,并在图8中展示了前12个跟踪器的性能(更多比较结果在补充材料中呈现)。从图8中可以看出,我们的跟踪器在这个数据集中表现第三好。尽管MDNet和VITAL的准确性比我们的跟踪算法更好,但它们的速度远远不能满足实时要求(MDNet,1fps,VITAL,1.5fps)。04.5. 剔除分析0自我比较。为了验证我们算法中每个组件的贡献,我们在OTB-2015上实现和评估了我们方法(Ours)的几个变体。这些版本包括:(1)'Ours无M':没有模板泛化训练过程的GradNet;(2)'Ours无MG':去除了模板泛化训练过程和梯度应用的GradNet。可以看作是具有两个不共享分支的SiameseFC;(3)'Ours无U':没有模板更新的提议方法;(4)'Ours w2U':图3中的两个子网(紫色部分)不共享参数;(5)'Ours-基线':SiameseFC。0表3. OTB-2015上不同变体的精度和成功得分。0变体 PRE IOU FPS0Ours无M 0.823 0.615 800Ours无MG 0.717 0.524 940Ours无U 0.775 0.552 850所有变体和我们最终方法的性能报告在表3中,从中我们可以看出,所有组件都有助于提高跟踪准确性。例如,'Ours无M'和最终方法的比较表明,模板泛化训练方法可以有效地学习到预期的GradNet。在相同数量的训练数据下,'Ours'将'Ours-基线'的精度和IOU得分分别提高了约9%和5%,这证明了GradNet的有效性。0训练分析。为了进一步分析模板泛化,我们在图10中展示了两种不同训练方法的初始得分图S和最优得分图S�。0图10.第一行显示了来自不同视频的搜索区域。我们的模型的S和S�分别显示在(a)和(b)中;没有模板泛化的模型的S和S�分别显示在(c)和(d)中。通过模板泛化的模型可以获得通用的初始得分图S和最优的最终得分图S�。0模板泛化模型的初始得分图(a)是噪声得分图,其中所有对象的近似区域具有高响应值。在基于梯度的模板更新之后,有希望的得分图(b)只在目标位置具有高响应。而没有模板泛化的模型很可能直接输出具有高响应的初始得分图(c)。因此,我们认为通过模板泛化训练的模型在初始嵌入和模板更新过程中学习了不同的任务。在初始嵌入过程中,它学习了一个通用模板来检测目标和背景杂波。这种方式为模型提供了更具判别性的梯度。然后,模型根据这些梯度学习更新模板。判别性梯度使得网络能够快速适应。05. 结论0在这项工作中,我们提出了一种GradNet用于模板更新,实现了高速准确的跟踪。GradNet中的两个子网络通过前向和后向操作利用梯度中的判别信息,并加速了手动设计的优化过程。为了充分利用梯度并获得多功能模板,在离线训练期间应用了一种模板泛化方法,该方法可以迫使更新分支集中在梯度上并避免过拟合。在四个基准测试中的实验证明,与其他实时跟踪器相比,我们的方法显著提高了跟踪性能。致谢:本文部分工作得到了中国国家自然科学基金(No.61725202,61829102,61751212)和中央高校基本科研业务费(DUT19GJ201,DUT18JC30)的支持。[1] Marcin Andrychowicz, Misha Denil, Sergio Gomez Col-menarejo, Matthew W. Hoffman, David Pfau, Tom Schaul,and Nando de Freitas. Learning to learn by gradient descentby gradient descent. In NIPS, 2016.[2] Luca Bertinetto, Jack Valmadre, Stuart Golodetz, OndrejMiksik, and Philip H. S. Torr. Staple: Complementary learn-ers for real-time tracking. In CVPR, 2016.[3] Luca Bertinetto, Jack Valmadre, Jo˜ao F Henriques, AndreaVedaldi, and Philip HS Torr. Fully-convolutional siamesenetworks for object tracking. In ECCV, 2016.[4] Boyu Chen, Peixia Li, Chong Sun, Dong Wang, Gang Yang,and Huchuan Lu. Multi attention module for visual tracking.Pattern Recognition, 87:80–93, 2019.[5] Boyu Chen, Dong Wang, Peixia Li, and Huchuan Lu. Real-time ’actor-critic’ tracking. In ECCV, 2018.[6] Kenan Dai, Dong Wang, Huchuan Lu, Chong Sun, and Jian-hua Li.Visual tracking via adaptive spatially-regularizedcorrelation filters. In ICCV, 2019.[7] Martin Danelljan, Goutam Bhat, Fahad Shahbaz Khan, andMichael Felsberg. ECO: efficient convolution operators fortracking. In CVPR, 2017.[8] Martin Danelljan, Gustav H¨ager, Fahad Shahbaz Khan, andMichael Felsberg. Accurate scale estimation for robust vi-sual tracking. In BMVC, 2014.[9] Martin Danelljan, Gustav H¨ager, Fahad Shahbaz Khan, andMichael Felsberg. Learning spatially regularized correlationfilters for visual tracking. In ICCV, 2015.[10] Martin Danelljan, Andreas Robinson, Fahad Shahbaz Khan,and Michael Felsberg.Beyond correlation filters: Learn-ing continuous convolution operators for visual tracking. InECCV, 2016.[11] John C. Duchi, Elad Hazan, and Yoram Singer. Adaptivesubgradient methods for online learning and stochastic opti-mization. Journal of Machine Learning Research, 12:2121–2159, 2011.[12] Heng Fan, Liting Lin, Fan Yang, Peng Chu, Ge Deng, SijiaYu, Hexin Bai, Yong Xu, Chunyuan Liao, and Haibin Ling.LaSOT: A high-quality benchmark for large-scale single ob-ject tracking. CoRR, abs/1809.07845, 2018.[13] Heng Fan and Haibin Ling. Parallel tracking and verifying:A framework for real-time and high accuracy visual tracking.In ICCV, 2017.[14] Chelsea Finn, Pieter Abbeel, and Sergey Levine.Model-agnostic meta-learning for fast adaptation of deep networks.In ICML, 2017.[15] Hamed Kiani Galoogahi, Ashton Fagg, and Simon Lucey.Learning background-aware correlation filters for visualtracki
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功