卷积神经网络的BranchOut技术在视觉跟踪中表现出鲁棒性和多样性，成为最先进的方法

57 浏览量更新于2023-10-15 收藏 1.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3356BranchOut：卷积神经网络Bohyung HanPOSTECH，韩国bhhan@postech.ac.krJack SimGoogle Inc.jacksim@google.com哈特维希亚当谷歌公司hadam@google.com摘要我们提出了一种非常简单但有效的卷积神经网络（CNN）正则化技术，称为BranchOut，用于在线集成跟踪。我们的算法采用CNN进行目标表示，它具有共同的卷积层，但具有多个完全连接层的分支。为了更好地正则化，每当需要更新目标外观模型时，随机选择CNN中的分支子集用于在线学习。每个分支可以具有不同数量的层以维持目标外观的可变抽象多层次目标表示的BranchOut算法能够有效地学习具有多样性的鲁棒目标外观模型，并有效地处理视觉跟踪问题中的各种挑战。该算法在标准跟踪基准测试中进行了评估，即使没有额外的外部跟踪序列的预训练，也显示出最先进的性能。1. 介绍视觉跟踪是高级视频理解的低级信息的宝贵来源，因此它已被应用于许多计算机视觉任务，如动作识别[6，35]，事件检测[24]，视频中的对象检测[21]等。尽管有大量的效果，视觉跟踪仍然被认为是一个具有挑战性的问题，因为存在很多变化的目标和周围的背景，它是不简单的处理所有的变化在一个单一的框架。最重要的是，学习具有代表性但自适应的特征来进行鲁棒跟踪是非常困难的，特别是在在线场景中。我们提出了一种新的视觉跟踪算法，专注于目标外观建模，其中外观是通过具有多个分支的卷积神经网络（CNN）学习的，如图1所示。目标状态由所有分支的集合估计，而在线模型更新由标准误差反向传播执行此外，我们允许各个分支具有不同数量的完全连接层，并保持多层次的目标表示。这种集成方法的主要挑战是如何将多个分支去相关并使学习模型多样化，以最大限度地提高集成的效益。请注意，我们的问题特别具有挑战性，因为在存在标签噪声的情况下，训练应该在线进行，只有有限数量的训练样本为了处理这些挑战，我们采取了一个非常简单的策略，BranchOut，它随机忽略CNN chosen中的分支子集进行模型更新。该技术有助于保持目标外观模型的多样性，并实现确定性方法的性能改进所提出的学习框架与Dropout [32]和DropConnect [34]共享动机，其中在训练期间，对于每个小批量，全连接层中的激活或权重的子集被随机设置为零。我们的贡献概述如下：• 我们提出了一个简单但有效的正则化技术，BranchOut ，这是非常适合于在线 en 的跟踪。BranchOut消除了幼稚的集成学习方法-缺乏模型多样性和训练数据的噪声标签。• 我们的网络在各个分支中有不同数量的全连接层，并使用分支基于CNN维护• 我们探索了各种在线集成学习的视觉跟踪选项，并验证了BranchOut和多级表示的有效性。我们的算法-Rithm说明了即使没有使用外部跟踪视频进行预训练的最先进性能。本文的其余部分组织如下。我们首先在第2节中回顾现有的视觉跟踪算法。第3节和第4节分别介绍了拟议的在线随机学习和视觉跟踪算法设计。第5节给出了实验结果并进行了讨论，第6节总结了我们的论文。3357conv1conv2conv3FC4FC5平均池fc6-softmax96@51×51256@11×11512@3×3512512512 2图1.建议的架构。该网络由三个卷积层组成，并具有多个具有完全连接层的分支每个分支可能有不同的层数，并且在我们的实验中集成了一个或两个完全连接的层2. 相关工作视觉跟踪有着悠久的历史，在过去的几十年里发表了大量的论文然而，由于篇幅所限，我们将在本节中仅回顾几种活跃的方法论。基于相关滤波器的跟踪算法是流行的这些天。这一趋势主要归功于其在准确性和效率方面的出色表现。Bolme等人[3]引入了用于视觉跟踪的最小输出平方误差和（MOSSE）滤波器。使用循环矩阵[15]的核相关滤波器（KCF）用于处理傅立叶域中的多通道特征。DSST [7]使用平移和缩放滤波器实现精确的尺度估计，而MUSTER [17]受心理记忆模型的激励，利用短期和长期记忆存储进行稳健的外观建模。依赖于相关滤波器的跟踪算法经常受到边界效应的影响。为了缓解这个问题，[11]提出了交替方向乘法（ADMM）技术，空间正则化区分相关滤波器（SRDCF）[9]引入了空间正则化项。近年来，随着机器学习技术在目标检测中的应用取得了很大的进展，基于检测的跟踪成为视觉跟踪的标准方法之一在此框架中，使用区分目标对象与背景的分类器来执行跟踪。这种方法的关键挑战是如何避免在线学习过程中的漂移问题，其中只有少量的训练样本可用，并且标签可能存在噪声。已经研究了各种学习框架，它们包括结构化SVM [14]，多实例学习[1]，P-N学习[20]，在线提升[13]等。尽管上述方法在约束环境中工作得相当好，但它们有一个共同的固有局限性，它们依赖于低级手工制作的特征，这些特征对于施加在目标对象上的各种挑战不够鲁棒CNN在许多计算机视觉任务中取得了很大的性能改进，视觉跟踪也不例外。最近的方法经常在大规模数据集（如ImageNet）上预训练CNN [31]。CNN-SVM [16]结合了预训练的CNN和在线SVM，以获得用于跟踪和分割的特定目标显着性图。 Wang等人[36]雇用一个完全卷积的框架，并提出了一种特征图选择方法来生成前景热图，而Maet al.[28]在预训练的CNN中使用特征层次自适应地训练相关滤波器。DeepSRDCF [8]将基于CNN的功能集成到[9]中以提高性能。为了减少单分辨率特征图的缺点，[10]提出通过隐式插值来集成多分辨率深度特征图。由于为图像分类任务训练的CNN可能不适合视觉跟踪，MDNet [30]尝试在多域学习框架中使用外部跟踪序列训练CNN。这种方法是非常成功的，并且与所有现有方法相比显示出出色的性能;即使没有多域预训练阶段，其性能也是有竞争力的。基于CNN的包围学习已经被积极地研究用于视觉跟踪。TCNN [29]在树结构中维护多个CNN，以学习集成模型并估计目标状态，同时允许所有CNN共享卷积层。这种方法甚至可以在不对跟踪序列进行预训练的情况下达到与MDNet竞争的性能。STCT [37]与我们的动机相似，因为基于CNN的集成分类器被训练以减少模型之间的相关性。我们的算法与[26]密切相关，它使用bagging [4]标准方法实现随机学习，以使集成学习的训练样本多样化。a1a2一个K-输入3@107×107...3358∗∗12112∂3. 随机包围学习本节描述了我们的随机集成学习技术，称为BranchOut，用于视觉跟踪，并讨论了为什么所提出的框架是有效的，以保持模型的多样性和提高跟踪性能的潜力。3.1. 正则化的随机学习我们的主要目标是通过适当的正则化，开发一种基于多分支CNN的集成跟踪算法。这一目标很难实现，特别是因为只有有限数量的训练样本，而标签可能有噪声，因为它们需要分布特别地，如果我们假设存在K个分支，则二元随机变量α k（k=1，...，K）由下式获得：αk<$Bernoulli（pk），（ 1）其中pk是伯努利分布对应于第k个分支的参数。二进制变量αk指示是否选择第k个分支进行更新。注意，我们的正则化不是在每一个小批量中执行，而是在每一个批量中执行;这是因为训练集很小，并且由于在线学习限制和视频的时间相干性而大部分是冗余的。在通过由θ k（k=1，.，K），对应于所有分支的总损耗由下式给出：通过不完美的跟踪算法来估计处理在这种具有挑战性的情况下，我们随机选择一个分支子集进行模型更新，并希望每个模型都能进化L=−乌克兰b⎡αk介子⎤ΣyiF（xi;θk），（2）随着时间的推移独立。这个想法与随机森林中的装袋技术[4]，但我们需要更多i=1k=1∈{+，−}可靠的方法非常适合于在线视觉跟踪，因为训练数据的大小很小，并且由于时间相干性而存在许多冗余的示例。在深度神经网络中，有一些技术是出于同样的动机提出的。Dropout [32]将全连接层中的激活子集设置为零，其中Mb是小批量大小，F+（·;θk）和F−（·;θk）表示在RMAX层中节点的输出，分别响应于阳性和阴性标签通过计算所有相关分支的偏导数来计算每个小批量的梯度，其形式上由下式给出：去规范CNN。这个想法在[34]中得到了推广，其中，不是关闭激活，而是随机忽略权重的子集对于卷积层的正则化，[33]引入了SpatialDropout技术，Lθk乌克兰b=−i=1k=1⎡αk介子θk⎤ΣyiF<$（xi;θk）<$.（三）∈{+，−}这使得随机选择的信道中的所有值都为零。该技术已成功应用于人体关节点估计。Wang等人[37]指出了SpatialDropout [33]的潜在缺点，并将二元掩码应用于卷积特征图的输出，以用于视觉跟踪应用中的模型正则化。具有随机深度的CNN [19]是一种用于正则化的新颖的交互式框架，其中层的子集被随机丢弃并被身份函数绕过。Lee等[25]提出了一种有效的随机多项选择学习的随机梯度下降方法，该方法最大限度地减少了与预言机有关的损失。虽然由于缺乏模型选择技术，该算法是不切实际的，但它从概念上证明了随机学习可能有助于提高集成分类器的性能。3.2. BranchOut设D ={（xi，yi）|i =1，…M}是用于目标外观模型更新的训练数据集，其中xi是图像patch和yi=（yi，yi）是xi的二进制标记，即，我们只更新全连接层，并且只采用其中一个或两个来提高训练效率，因为很难基于有限数量的训练数据在线学习两个以上的全连接层。3.3. 讨论我们声称BranchOut提供了多样的模型和有效的正则化。假设模型在t1时刻，表示为Ft（xi;θk），在时间t2演化为Ft（xi;θk）。在我们的在线学习场景中，训练数据集Dt随时间动态变化，但在时间上接近的数据集之间存在大量重叠，例如Dt和Dt+1。然而，为了简单起见，让我们假设，t1 和 t2 之间的所有训练数据集是相同的，即，Dt+1=Dt+2=···=Dt，并比较了确定性方法和随机方法学习的两种模型。请注意，确定性学习意味着每当触发模型更新时，所有K个模型都会更新后|t2−t1|使用相同的训练数据集进行确定性模型更新，所有分支使用相同的architec-真的很可能会收敛到几乎相同的模式，因为+ −（1，0）为正，（0，1）为负。当我们训练一个有多个分支的CNN时，CNN在图1中，分支的子集由伯努利随机选择对于大量的迭代，用相同的数据更新它们与模型相反，使用BranchOut的随机学习应该至少有几个不同的3359X不不11不不11tt模型-欠拟合模型、接近最优模型和过拟合模型-取决于每个模型参与更新的次数。从所有分支。目标状态估计为：ΣKx= arg maxF+（xi;θk），（4）如果我们考虑更一般的情况，随着训练数据集的不断变化，随机学习方法的多样性一个原因是，即使在时间步长彼此接近的训练数据集之间有大量重叠，在一定数量的时间步长之后，它也可以隐式地生成训练数据集的各种组合。另一方面，通过在多个模型之间分担风险，可以减少从失败目标获得的噪声标签的负面影响。在计算复杂度方面，BranchOut方法明显比所有分支的简单更新更便宜。4. 跟踪算法本节描述了我们基于CNN的跟踪算法，该CNN具有多个分支，使用BranchOut技术进行随机集成。4.1. 美国有线电视新闻网在我们的跟踪算法中集成的CNN有三个卷积层（CONV1-3），每个卷积层后面都有一个矩形线性单元（RCU）层和一个最大池化（MAXPOOL）层，如图1所示。三个卷积层使用在ImageNet [31]上预训练的VGG-M [5]进行初始化。假设有K个单独的分支连接到最后一个MAXPOOL层，并且基于全连接（FC）层的每个分支由θ k（k=1，...，K）。在我们的实现中，分支的数量是10，并且每个分支由一个或两个FC层组成。当两个FC是employed，DROPOUT层位于两个FC层之间。所有FC层中的所有权重使用零均值高斯分布随机初始化。在第一帧中，我们根据地面实况边界框信息提取正训练集和负训练集，分别用S+和S-表示，并使用标准的随机梯度下降方法训练网络中的FC所有分支机构均接受相同的培训例如，但它们是独立的，使得每个分支至少具有一定程度的多样性。4.2. 跟踪主回路一旦构建了初始模型，我们就开始跟踪第一帧定义的目标。给定时间t处的输入帧，我们绘制密集样本xi（i=1，.，N）从在平移和缩放维度上以先前目标状态为中心的高斯分布，并计算分数tittk=1其中，F+（xi;θk）表示来自第k个分支的最后一个MAX层的xi为了提高定位精度，我们采用了[30]中建议的边界框回归[12]。我们仅在第一帧使用1000个训练样本训练边界框回归量边界框回归器的详细实现在[12]中描述。在线学习的关键因素之一是如何构建训练示例。如果估计目标在帧t的得分为正，我们将收集训练样本用于未来的模型更新。由于无法获得地面实况我们通常依赖于估计的目标位置。从帧t中提取的正例（用S+表示）由大于0.7 IoU的边界框组成，而S-中的示例小于0.3 IoU。4.3. 模型更新策略维持目标外观模型的CNN需要适应新的训练样本。我们使用Bran-chOut进行第3节中描述的在线学习。具体地说，给定K个具有FC层的分支，每当需要模型更新时，我们的算法随机地选择分支的子集我们不更新任何卷积层，只微调全连接层。用随机梯度下降法对模型进行了优化。有两种不同的情况触发模型更新模块。一种是定期更新，它只是定期修改我们基于CNN的模型，每10帧。另一种是当估计目标的阳性分类得分x在等式中为0时，（4）低于0.5。在这两种情况下，我们使用BranchOut技术训练CNN，训练示例从最近的τ成功帧中获得，在这些帧处估计的目标分数为正。4.4. 实现细节我们利用MDNet [30]的实现作为基线。为了训练CNN，我们基于第4.2节中描述的IoU度量提取了50个阳性示例和200个阴性示例。然而，在第一帧，由于我们必须从头开始初始化FC层，因此我们提取了很多更多的例子在我们的实现中，|S+|=500和|=5000|=5000. 我们将存储上一个训练示例τ=20个成功帧。3360不不不不不不v∈T11tt算法1通过BranchOut进行随机集成跟踪要求：具有FC层的K个分支的CNN由Θ ={θ1，.，θ K}和初始目标状态x 1确保：估计的目标状态x阈值一曰：随机初始化Θ ={θ1，.， θ K}。2：训练边界框回归模型。第三章：绘制正样本S+和负样本S−。外部比较我们的算法，由Bran- chOut表示，与另外九种竞争性跟踪方法进行了比较，包括C-COT [10]，TCNN [29]，Deep- SRDCF [8]，HCF [28]，CNN-SVM[16]，MUSTER [17]，[36][37][38][39][39][39]][39][39][39] 除了 MUSTER ，DSST和SRDCF之外，所有方法都是基于卷积神经网络的特征。14：使用S+和S-更新Θ。第五章： T ←{1}。6：重复1图2（a）说明了总体成功和精确度分别基于边界框重叠率和中心定位误差绘制。它说明了BranchOut-7：绘制目标候选样本xi（i=1，.，N）。8：通过等式10找到最佳目标状态xx，（四）、9：如果Ft，+（x≠ 0）>0。5那时10：绘制训练样本S+和S-。11：T ← T {t}.12：如果|不|>τ，则图13：T ← T\{minv∈Tv}。14：如果结束15：使用边界框回归调整x范围。16：如果结束17：如果Ft，+（x≠）<0。5或tmod 10 = 0，则18：使用等式18选择用于模型更新的Θ′Θ（一）.在这两项措施中执行最先进的跟踪器，BranchOut的性能与MDNet [30]一样具有竞争力（甚至更好），MDNet [ 30 ]需要使用外部跟踪序列进行预训练过程以实现最佳性能。请注意，MDNet在成功和精度图中分别显示0.678和0.909，如表2所示。除了跟踪器的标准可视化，我们还说明了每个跟踪器如何在更具挑战性的视频序列子集上执行。该信息将有助于分析跟踪器性能，因为最近最先进的跟踪器在大多数简单序列中几乎同样准确，并且其结果基于19：使用S+更新Θ′20：如果结束二十一：直到序列结束S−v∈T 由等式（三）、在更现实的情况下，对数据集中的所有序列的预测常常不能显示性能因此，我们基于10个比较算法的平均准确度构建了OTB 100的两个子集;这两个子集由具有较低平均边界框重叠Ra的序列组成。在每帧搜索目标时，我们抽取N=256个样本进行观察。如果CNN的分类分数低于预定值，我们会疯狂地扩大搜索空间。连续超过10帧的定义阈值如果需要目标外观模型更新，则基于来自具有pk = 0的伯努利分布的α k来选择分支的子集。五、小批量的大小为128，其中包括36个正例和92个负例。对于在线学习，以学习速率0.0001执行30次迭代，并且动量和权重衰减分别被设置为0.9和0.0005。我们的算法的总体过程在算法1中给出。5. 实验我们在两个标准的公共基准-对象跟踪基准（OTB100）[39]和VOT 2015 [22]上展示了具有集成跟踪应用的BranchOut技术的性能，并将我们的算法与最先进的跟踪器进行了比较。5.1. OTB评价OTB100 [39]是一个流行的基准数据集，其中包含100个完全注释的视频，具有大量的变化和挑战。在我们的实验中采用了两个评估指标：边界框重叠率和中心定位误差在一次通过评估（OPE）协议。这两个阈值分别为0.7和0.5。这两个子集包括69和21个序列，并且可以被视为硬1和非常硬的示例2。如图2（b）和2（c）所示，我们的算法与其他算法之间的差距更加明显。图3显示了单个挑战属性的成功图。如图所示，BranchOut一直稳健应对所有挑战。消融实验为了验证我们算法中每个组件的贡献，我们实现并评估了我们方法的几个变体我们的随机集成策略的有效性进行了测试，通过比较两个选项-一个天真的确定性集成和贪婪的BranchOut集成。在朴素集成方法中，每当模型更新时，所有分支都使用相同的训练样本进行1硬序列：basketball，biker，bird1，blurBody，blurOwl，board，bol2，bolt，box，car1，car24，carScale，clifBar，coke，couple，couple，coupon，crowds，diving，dog，dragonBaby，jumeetface，football 1，football，freeman 1，freeman 3，freeman 4，girl 2，girl ， gym ， human2 ， human3 ， human4 ， human5 ， human6 ，human7 ， human8 ， human9 ， ironman ， jogging-1 ， jogging-2 ，jump ，跳跃，风筝冲浪，旅鼠，矩阵，马达滚动，熊猫，redTeam，rubik，摇动，歌手1，歌手2，skater 2，滑冰者，滑冰1，滑冰2 -1，滑冰2 - 2，滑雪，足球，地铁，冲浪者，tiger 1，tiger2，玩具，transs，twinns，花瓶，walking 2，walking2非常困难的序列：biker，bird1，bolt2，clifBar，diving，dog，girl2 ， gym ， human3 ， human9 ， ironman ， jump ， matrix ，motorRolling，panda，skating- ing1，skating 2 -1，skating 2 -2，skiing，soccer，vase和3361OPE的成功图1OPE的成功图1OPE的成功图10.90.90.90.80.80.80.70.70.70.60.60.60.50.50.50.40.40.40.30.30.30.20.20.20.10.10.1000.10.20.30.40.50.60.70.80.91重叠阈值OPE的精密度图1000.10.20.30.40.50.60.70.80.91重叠阈值OPE的精密度图1000.10.20.30.40.50.60.70.80.91重叠阈值OPE的精密度图10.90.90.90.80.80.80.70.70.70.60.60.60.50.50.50.40.40.40.30.30.30.20.20.20.10.10.100 5 10 15 20 25 30 35 40 4550定位误差门限(a) 所有序列00 5 10 15 20 25 30 35 40 4550定位误差门限(b) 硬序列00 5 10 15 20 25 30 35 40 45 50定位误差门限(c) 非常困难的序列图2. OTB100数据集中的跟踪结果。(a)与基于所有100个视频的最先进算法进行比较。(b)与其他竞争算法的基础上的序列低于平均重叠比0.7的比较。(c)与其他竞争性算法的基础上的序列低于平均重叠率0.5的比较。请注意，BranchOut和其他方法之间的差距会随着更简单的序列被忽略而变得更大OPE的成功图-背景杂波（31）1OPE的成功图-快速运动（39）1OPE-变形的成功图（44）1OPE的成功图-照明变化（38）10.80.80.80.80.60.60.60.60.40.40.40.40.20.20.20.200 0.2 0.4 0.6 0.81重叠阈值OPE的成功图-平面内旋转（51）100 0.2 0.4 0.6 0.81重叠阈值OPE的成功图-闭塞（49）100 0.2 0.4 0.6 0.81重叠阈值OPE的成功图-平面外旋转（63）100 0.2 0.4 0.6 0.8 1重叠阈值OPE的成功图-规模变化（64）10.80.80.80.80.60.60.60.60.40.40.40.40.20.20.20.200 0.2 0.4 0.6 0.81重叠阈值00 0.2 0.4 0.6 0.81重叠阈值00 0.2 0.4 0.6 0.81重叠阈值00 0.2 0.4 0.6 0.8 1重叠阈值图3.跟踪OTB100数据集中8个挑战属性的结果：背景杂波、快速运动、变形、照明变化、平面内旋转、遮挡、平面外旋转和比例变化。BranchOut在大多数情况下优于其他算法。模块被触发。这种方法在所有分支中生成同质CNN模型，并且可能无法有效地处理施加在目标和背景上的变化另一方面，贪婪的BranchOut通过给目标得分更高的分支更多的机会来专门化单个分支该策略的动机是随机多选择学习[25]，但事实证明，实现更好的性能并不简单，而且该策略可能对参数设置过于敏感。详细结果见表 1 。与其他两种集成方法相比，我们基于BranchOut的随机集成提高了跟踪器的性能。分支输出[0.678]C-COT [0.673]TCNN [0.654]DeepSRDCF [0.635]SRDCF [0.591]MUSTER [0.575]HCF [0.562]FCNT [0.557]CNN-SVM [0.554][0.513]分支输出[0.631]C-COT [0.617]TCNN [0.606]DeepSRDCF [0.567]SRDCF [0.507]HCF [0.494]CNN-SVM [0.484]FCNT [0.483]MUSTER [0.481]DSST [0.405]分支输出[0.506]C-COT [0.474]TCNN [0.448]HCF [0.373]DeepSRDCF [0.370]FCNT [0.351]CNN-SVM [0.350]SRDCF [0.261]MUSTER [0.249]DSST [0.232]分支输出[0.917]C-COT [0.903]TCNN [0.884]DeepSRDCF [0.851]HCF [0.837]CNN-SVM [0.814]FCNT [0.795]SRDCF [0.776]MUSTER [0.774][0.680]分支输出[0.887]C-COT [0.864]TCNN [0.844]DeepSRDCF [0.795]HCF [0.779]CNN-SVM [0.747]FCNT [0.732]SRDCF [0.693]MUSTER [0.681]DSST [0.571]分支输出[0.803]C-COT [0.756]TCNN [0.699]HCF [0.690]DeepSRDCF [0.604]FCNT [0.587]CNN-SVM [0.570]必须[0.404]SRDCF [0.395]DSST [0.371]分支输出[0.684]C-COT[0.654]TCNN[0.638]DeepSRDCF [0.637]HCF [0.592]SRDCF [0.591]MUSTER[0.589]CNN-SVM[0.554]DSST[0.530]C-COT [0.685]分支输出[0.668]TCNN [0.662]DeepSRDCF [0.636]SRDCF [0.605]HCF [0.576]CNN-SVM[0.551]FCNT[0.539]MUSTER [0.537]DSST [0.452]分支输出[0.653]C-COT[0.622]TCNN[0.622]DeepSRDCF[0.572]CNN-SVM[0.551]SRDCF[0.551]FCNT [0.544]HCF [0.535]MUSTER [0.528]DSST [0.424]分支输出[0.702]TCNN[0.687]C-COT[0.686]DeepSRDCF [0.630]SRDCF [0.622]MUSTER [0.607]DSST [0.566]HCF [0.545]CNN-SVM[0.542]FCNT[0.541]分支输出[0.672]TCNN[0.653]C-COT[0.631]DeepSRDCF [0.596]HCF [0.564]FCNT [0.562]MUSTER[0.557]CNN-SVM[0.552]SRDCF[0.550]DSST [0.507]C-COT [0.680]分支输出[0.656]TCNN [0.629]DeepSRDCF [0.609]SRDCF [0.567]MUSTER [0.558]HCF [0.530]FCNT[0.526]CNN-SVM[0.518]DSST分支输出[0.674]C-COT[0.658]TCNN[0.649]DeepSRDCF [0.614]FCNT [0.561]SRDCF[0.556]CNN-SVM[0.552]MUSTER[0.541]HCF [0.539]DSST [0.475]分支输出[0.670]C-COT[0.659]TCNN[0.646]DeepSRDCF [0.613]SRDCF [0.568]必须[0.515]FCNT[0.509]CNN-SVM[0.492]HCF[0.487]成功率精度成功率成功率成功率精度成功率成功率成功率精度成功率成功率成功率成功率3362表1. OTB100数据集中的内部比较结果。在三种集成学习方法中，我们的随机BranchOut技术优于朴素集成和贪婪BranchOut方法。另一方面，BranchOut的多级表示（表示为Multi-5-5）与单级表示（如Single-0-10和Single-10-0）相比有助于提高性能。粗体字体表示选项组中的最佳性能。成功（AUC）所有成功（mOR）精度@20px成功（AUC）@0.7成功（mOR）精度@20px成功（AUC）@0.5成功（mOR）精度@20pxBranchOut（Multi5 -5）0.6780.6880.9170.6310.6390.8870.5060.5080.803学习天真0.6610.6700.8900.6040.6110.8460.4650.4670.760选项贪婪0.6580.6680.8870.6020.6100.8440.4560.4580.745多层次单-10-00.6670.6770.9010.6150.6220.8640.4980.5000.780表示单-0-100.6510.6600.8800.5900.6000.8320.4540.4550.729表2.使用BranchOut的MDNet集成的准确性。我们的集成跟踪算法优于原始MDNet及其朴素的集成结果。跟踪器成功（AUC）精度（@20px）MDNet-BranchOut0.6830.919MDNet [30]0.6780.909MDNet-Na ve0.6740.905我们评估了目标的多级表示的好处，并构建了具有10 个分支的 CNN ，以测试具有两种单级表示的BranchOut技术的一种是每个分支有一个FC层，后面是公共CONV1-3层，另一种是每个分支有两个FC层。这些选项分别用Single-10-0和Single-0-10表示，其中数字表示FC层中具有两个不同深度的分支数。请注意，我们的BranchOut是基于Multi-5-5的，它有5个带有一个FC层的分支和另外5个带有两个FC层的分支。根据我们的观察，超过两个FC层在精度方面没有帮助，并且产生太多的计算成本，因为额外的层增加了参数的数量，并且需要更多的迭代来收敛。使用多级表示并不能显著提高性能，但表1显示了明显的好处。我们的跟踪算法中的每个组件-随机集成学习和多级表示-都有助于提高性能。在数据集的挑战序列中更清楚地观察到这种优势，如对应于预定义平均重叠率阈值0.7和0.5的列所示。我们使用BranchOut来集成MDNet [30]以展示其通用性。我们创建了5个具有两个FC层的分支，并使用BranchOut技术使用多域学习来预训练网络。对于在线跟踪，我们随机重新初始化所有5个分支，并通过我们的BranchOut和朴素的合奏进行跟踪以进行比较。表2说明了结果; BranchOut有助于改进基于MDNet的集合跟踪算法，定性结果我们在图4中说明了几个具有挑战性的序列中的定性评估结果，其显示了我们的跟踪算法对各种现实挑战的鲁棒性。然而，所提出的算法有时会失败。图5表明，Bird 1序列中完全闭塞，Matrix序列中大幅度运动时出现明显的表观变化。5.2. VOT2015评测BranchOut也在VOT 2015数据集[22]上进行了评价，该数据集包含60个具有显著变化和挑战的序列我们遵循VOT挑战协议来计算跟踪算法，其中每当观察到跟踪失败时，跟踪器就被重新初始化。基于边界盒与地面真值的重叠率和重新初始化的次数，分别计算每种跟踪算法的精度和鲁棒性以进行比较。此外，VOT2015报告了预期的平均重叠，这是准确性和鲁棒性的综合指标，并根据该指标对跟踪器进行排名。表3显示了以下项目的VOT 2015数据集结果：12个跟踪器，包括BranchOut（我们的），DeepSRDCF[9]，EBT [40]，SRDCF [9]，LDP [22]，C-COT [10]，sPST [18]，[27][28][29][22]第二十二话我们从官方VOT Challenge网站3或相应论文的作者那里获得算法的结果。TCNN和BranchOut表现出出色的得分和排名，而VOT 2015数据集的性能C-COT却出奇地低;这可能是因为该算法过度拟合其他数据集。6. 结论提出了一种基于多分支CNN的随机集成学习的视觉跟踪算法我们的集成跟踪算法选择一个随机的分支子集的模型更新多样化学习目标外观模型。这种技术称为BranchOut，可以有效地正则化集成分类器，从而提高跟踪精度。我们也出租m（天真的痛苦是缺乏代表性的多样性。3http://www.votchallenge.net/3363BranchOut C-COT TCNN DeepSRDCF FCNT MUSTER图4.在OTB 100中的一些具有挑战性的序列上，将所提出的算法与几种算法进行定性比较：板，跳水，人类9，跳跃，和滑冰2 -2。图5.我们的方法在Bird1和矩阵序列中的失败情况。绿色和红色边界框分别表示地面实况和我们的跟踪结果。BranchOut有时会由于遮挡和显著的外观变化而丢失目标。采用多级表示法进行有效的目标应用程序建模。该算法在标准跟踪基准测试中表现出了突出的性能.确认这项工作是在第一作者是加州威尼斯谷歌的访问研究员这项工作是表3.实验结果在VOT2015数据集上。第一和第二好的算法分别以红色和蓝色突出显示。这些算法根据预期的重叠率按降序排序跟踪器精度稳健性预计重叠秩评分秩评分BranchOut1.730.592.730.710.3384TCNN [29]1.570.594.050.740.3404DeepSRDCF [8]2.280.563.021.050.3181EBT [40]5.920.472.931.020.3130C-COT [10]2.920.543.020.820.3034SiamFC-3s [2]2.820.554.981.580.2915SRDCF [9]2.670.563.551.240.2877自由民主党[22]4.330.494.731.330.2785sPST [18]2.820.554.881.480.2767[27]第二十七话3.170.534.171.290.2536[第14话]5.100.475.181.610.2458[22]第二十二话2.100.575.221.630.2420部分由 &MSIP/IITP 的 ICT 研发计划支持 [2014-0-00147 ，机器学习中心 ; 2014-0-00059 ， DeepView;2016-0-00563，面向智能自主数字陪伴的自适应机器学习技术开发研究]。3364引用[1] B. Babenko，M. H. Yang和S.贝隆吉具有在线多实例学习的鲁棒对象跟踪。 IEEE Transactions on PatternAnalysis and Machine Intelligence ， 33 （ 8 ）： 1619-1632，2011。2[2] L.贝尔蒂内托瓦尔马德雷J. F.亨里克斯A. Vedaldi和P. H.乇用于对象跟踪的全卷积连体网络。在arXiv：1606.09549，2016。8[3] D. S.博尔梅贝弗里奇湾Draper和Y. M.律使用自适应相关滤波器的视觉对象跟踪。CVPR，2010。2[4] L.布莱曼乱林。Machine Learning，45（1）：5- 32，2001. 二、三[5] K. Chatfield，K. Simonyan、A. Vedaldi和A.齐瑟曼。魔鬼的回归细节：深入研究卷积网。InBMVC，2014. 4[6] W. Choi和S. Savarese多目标跟踪和集体活动识别的统一框架。ECCV，2012年。1[7] M. 达内尔扬湾 H？ge r，F. khan和M. 费尔斯贝河用于鲁棒视觉跟踪的精确尺度估计。InBMVC，2014. 二、五[8] M. 达内尔扬湾 H？ge r，F. khan和M. 费尔斯贝河用于基于相关滤波器的视觉跟踪的卷积特征。ICCVW，2015年。二、五、八[9] M. 达内尔扬湾 H？ge r，F. khan和M. 费尔斯贝河学习用于视觉跟踪的空间正则化相关滤波器在ICCV，2015年。二、五、七、八[10] M. Danelljan，A. Robinson，F. S. khan和M.费尔斯伯格超越相关滤波器：学习用于视觉跟踪的连续卷积算子。在ECCV，2016年。二、五、七、八[11] H. K

下载后可阅读完整内容，剩余1页未读，立即下载