基于斜随机森林的增量视觉跟踪器

125 浏览量更新于2023-10-15 收藏 1.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5589基于倾斜随机森林的Le Zhang1，Jagannadan Varadarajan1，Ponnuthurai NagaratnamSuganthan2，Narendra Ahuja1，3 and Pierre Moulin1，31新加坡高级数字科学中心，2新加坡南洋理工大学3伊利诺伊大学香槟分校，美国，{zhang.le，vjagan}@ adsc.com.sg，epnsugan@ntu.edu.sg，{moulin.ifp，n-ahuja}@ illinois.edu摘要随机森林已经成为一种强大的分类技术，在包括图像分类、姿态估计和目标检测在内的各种视觉任务中具有良好的效果。然而，目前的技术在视觉跟踪方面几乎没有改进，因为它们主要依赖于分段正交超平面来创建决策节点，并且缺乏在线跟踪所需的鲁棒增量学习机制。本文在分析了现有文献的基础上，我们提出了一种基于新的增量斜随机森林的判别跟踪器。不同于传统的正交决策树，使用一个单一的功能和启发式措施，以获得在每个节点的分裂，我们建议使用一个更强大的近端SVM获得斜超平面，以更好地捕捉数据的几何结构。所得到的决策表面不限于轴对齐，因此具有更好地表示和分类输入数据此外，为了推广到在线跟踪的情况下，我们推导出增量更新步骤，使超平面在每个节点被递归地更新，有效地，并在一个封闭的形式的时尚。我们使用两个大规模基准数据集（OTB-51和OTB-100）证明了我们方法的有效性，并表明我们的方法通过依赖简单的HOG特征以及与更复杂的基于深度神经网络的模型相结合，在几个具有挑战性的情况下给出了有竞争力的结果。所提出的随机森林的实现可在https://github.com/ZhangLeUestc/Incremental-Oblique-Random-Forest上获得。1. 介绍视觉跟踪可以被视为一种估计物体坐标的方法（例如，图像平面中的对象边界框）一致地通过帧序列。由于其在监控、人机交互、自动驾驶等图1. 从OTB-100数据集的Chal-Challening场景中获得的建议Obli-RaF结果。第一至第二行：目标经受严重的运动问题，第三至第四行：Oc- clusion，第5 - 6行：照明变化。与HCF[32]（绿色）和FCNT [47]（蓝色）相比，我们的方法最好的颜色和缩放时查看。驾驶和医疗保健，跟踪是计算机视觉中的核心问题。在本文中，我们研究了“单目标无模型跟踪”的问题这里，跟踪器初始化为第一帧中的任意感兴趣对象的绑定框。给定这个单个（标记的）实例，目标是在无模型设置中以在线方式预测对象的位置，即，而不使用任何明确的外观或形状5590模型尽管在具有最小遮挡的约束设置中的视觉跟踪可能相对简单，但在无约束、无模型设置中的单个对象跟踪涉及若干挑战（参见图11）。（1）由于照明二进制分类问题876X5和背景变化，遮挡，不可预测的莫-运动模糊、由于对象变形而引起的外观变化以及对象漂移。跟踪方法可以分为生成式、区分式或混合式。生成式跟踪器基于一些生成过程建立对象外观模型，432100 1 23 4 5 6 7 8X1搜索与目标模型最相似的区域，考虑到可从后台获得的任何信息（例如，，[6，13，1，14，31，30，62]）。判别跟踪器[3，21，4，27，53]通过学习分类器来区分目标和背景来解决这个问题。这里，分类器通常在许多位置处被详尽地评估以检测后续帧中的目标，并且基于来自每个帧的跟踪结果在线更新。现代视觉跟踪系统的最新进展已经看到了区别性跟踪器的广泛采用，这是由于它们能够将目标对象与背景和其他干扰物区分开。最近，随机森林（RaF）已成为一种强大的分类方法[20]，在几个计算机视觉应用中取得了可喜的成果[28] [12] [18] [43] [19]。RaF的几个有趣的特性，包括它们在训练和分类方面的效率、可扩展性和对类不平衡的鲁棒性，使它们对跟踪应用也具有潜在的吸引力。然而，传统的RaF方法具有缺点，因为它们仅选择一个特征基于一些启发式杂质测量（例如信息增益或基尼指数[10]）在每个节点处进行分裂，这导致具有较差数据拟合的分段正交超平面。这个过程忽略了特征空间的几何形状，但只关注于改善超平面每一侧上不同类别（杂质分数）的分布[35]。为了解决上述问题，我们提出了一种新的斜随机森林（Oblie-RaF）算法。我们的方法在许多方面不同于传统的RaF首先，我们的Obli-RaF使用多个特征进行分裂，从而在每个决策节点处产生倾斜超平面。这被证明比正交RaF更准确和有效[59，37，60]。图2示出了使用玩具数据集的正交决策树和倾斜决策树之间的差异。请注意，倾斜决策树及其倾斜超平面更好地捕捉了数据的几何结构（图中的红色超平面）。2）比分段轴正交超平面（绿色）。然而，到目前为止，还没有尝试探索其在在线场景中的使用。其次，为了避免每个节点上昂贵的特征选择过程，我们建议使用邻近支持向量机（PSVM）[34] -一种监督聚类步骤来学习图2. 一个由正交和斜决策树生成的分类边界的玩具例子。正交RaF在每个节点处选择单个特征以进行分割。这将产生一个分段轴正交超平面（绿色）。另一方面，斜RaF在每个节点使用多个特征，从而产生一个斜超平面（红色），可以更好地对数据进行分类每个决策节点的超平面。该决策树归纳机制考虑了特征空间的几何结构和数据样本到超平面的距离。此外，我们提出了一个封闭形式的解决方案，递归更新的斜超平面在每个节点，以适应目标对象的外观变化。本文的主要贡献总结如下：• 我们提出了一种新的斜随机森林，它可以更好地捕捉决策树每个节点内数据的几何结构，而无需显式搜索“好”候选特征。我们的方法产生的决策树平均比正交树短5.89倍，快3倍。• 我们建议学习一个邻近的超平面，而不是搜索一个倾斜的超平面，这在计算上是禁止的，以便有效地聚类。每个节点上的样本由其标签引导。• 我们提出了一个有效的增量1更新策略的斜随机森林跟踪器是保守的，记忆需要。因此，除了随机选择的特征的索引之外，我们的方法不需要存储每个实例的“最优”特征的所有值以更新决策节点，而是只需要存储两个大小为• 通过对两个最近提出的跟踪基准数据集[54，55]的广泛实验，我们表明我们该方法在精度和鲁棒性方面与最近的最先进的跟踪方法相比很好。1在本文中，我们在视觉跟踪的上下文中交替使用1类2类倾斜DT正交DT25591本文其余部分的组织结构如下：有关工作的回顾载于下节。在第4节中，我们介绍了我们的斜随机森林用于视觉跟踪以及在线更新步骤。在第6节中，我们给出了实验结果，并与最先进的方法进行了比较最后，我们的结论在第7节中给出。2. 相关工作在本节中，我们首先详细回顾了有关判别跟踪器和随机森林的工作，并强调了我们的方法相对于现有跟踪器和斜随机森林方法的新颖性。区别性跟踪器的进展。最近几项研究证实了区别性跟踪器的优越性，因此区别性跟踪器在最近受到了广泛关注[2，22，3，4，24]。除了已建立的判别式跟踪器（包括多实例提升[4]、核化结构化SVM [24]和基于字典的跟踪器[5，36，62]）外，集成方法在[2，22，3]在RaF在许多视觉应用上取得成功之后[7，43，23，11，29，46，42，19]，在[41]中首次引入了在线RaF用于视觉跟踪。然而，与Struck [24]、P-N学习[27]、多实例学习[4]和基于稀疏编码的分类器[36][5]等方法相比，在线更新决策节点参数的困难导致性能较差。倾斜随机森林。大多数早期的基于RaF的跟踪[41，45]，包括[ 20 ]的评估研究，都依赖于正交随机森林（见图1）。2的细节），其中在决策树的每个节点处，基于每个特征的数值穷尽地搜索正交超平面。然而，这些决策树归纳方法不能很好地拟合数据，并且据报道与斜树相比准确性较低[59，37，60]。由于寻找最优的斜向超平面的计算量很大，因此斜向随机森林的早期研究主要集中在不同的超平面学习策略上。因此，提出了许多基于确定性爬山CART-LC[10]和随机搜索OC 1 [38]的启发式搜索方法。然而，这些方法通常给出次优的解决方案，因为它们每次搜索一维用于节点分裂，这在高维特征空间中计算繁琐。其他密切相关的工作包括[59，37]，其中在每个节点使用PCA和LDA来构建倾斜RaF，以及[60]，其中使用多表面邻近SVM（MPSVM）来学习两个超平面。MPSVM方法非常昂贵。此外，所有上述方法都适用于批处理模式，将其扩展到在线场景并不简单。据我们所知，我们的工作是第一个尝试，以增量学习斜随机森林。与早期的Obli-RaF方法相比，我们在每个决策节点使用PSVM来拟合一个近端超平面，该超平面考虑了特征流形的形状以及到近端超平面的距离。PSVM是高效的，并且适合增量训练。通过以监督的方式对每个类的样本进行聚类，它们排除了计算密集型超平面搜索过程。基于ConvNet的跟踪器。视觉跟踪的最新进展已经通过深度卷积神经网络（ ConvNet ）模型获得。使用ConvNet和基于迁移学习的跟踪，[51，49]其中ConvNet 是用大量标记的图像进行预训练，并在跟踪过程中进行微调。沿着类似的路线，视觉先验是从一般的真实世界的图像中学习的，然后转移到场景中的对象中在[52]中。没有预训练的深度学习是由[61，58]引入的。在[47]中，提出了一种用于视觉跟踪的在[48]中，提出了在集成框架内训练的ConvNets在我们看来，用有限的样本学习深度模型进行视觉跟踪是一项挑战。使用预先训练的模型通过从大规模图像数据集（如ImageNet [40]）转移丰富的特征层次来部分解决这个问题然而，在源域和目标域之间可能存在大的分歧。为此，我们还提出了一个协同跟踪器的粒子滤波框架-工作相结合的优点，ConvNet模型，[47]和我们的倾斜随机森林分类器（Obli-RaF）。ConvNet以生成方式工作，以预测每个粒子是否属于被跟踪对象的概率，而Obli-RaF作为区分分类器工作，以将对象从背景中分类出来。如第6节所示，这种组合导致了更好的跟踪性能。3. 粒子滤波跟踪我们的跟踪算法是在粒子滤波框架内制定的[39]。设zt和Xt分别表示第t帧中描述对象和观测参数的状态变量。在派对上- cle滤波器框架，真实后验状态分布p（zt|X1：t）由P个样本的有限集合来近似在这里，他把自己的行为，当作一种自我约束{zt}P（称为粒子）与相应的归一化i i=1传统的SVM和学习两个非并行的决策hy-权重{Wt}P. 粒子是从亲-i i=1每平面。这些方法解决了每个非叶节点的广义特征值问题，这使得它们可以计算密度函数q（zt|z1：t-1，X 1：t），其被设置为状态转移概率p（zt|zt−1）。实际上，重量5592Kk=1w xb<粒子i的Wi由观测（似然）模型给出W t=W t−1 p（X t|z t），（1）正常的斜超平面在计算上是不可行的。相反，我们建议通过递归聚类数据样本来学习超平面。我我我观察结果由分类结果给出，并给出为：p（xt|zt）= 1kI[gk（xt）]>0]，在那里，我[。]是指示函数，gk（x）是来自en中的第kK决策树我们对由六个参数组成的状态参数进行建模：在x轴上的平移、y轴上的平移、尺度变化、旋转角、纵横比和倾斜角使用高斯分布来建模，假设维度是独立的。4. 增量斜随机森林在本节中，我们详细描述了我们的斜随机森林方法，表示为Obli-RaF。在我们的粒子滤波器框架中，我们假设我们可以访问N 训练样本（粒子），Xt={xt，. . . ，Xt}在每个时刻t从区域pro-t获得。内尔。尽管可以将任何聚类方法集成到在这个框架中，我们建议使用邻近支持向量机（PSVM）[34]，因为它的优点在第2节中详细介绍。重要的是要注意，正交决策树通过仅采用一个特征来聚类数据样本，而倾斜决策树使用特征的线性组合来执行此任务。在下文中，我们描述了PSVM如何增量学习监督聚类。4.2. PSVM学习PSVM根据与两个分离平面中任何一个的接近程度对数据点进行分类，这两个分离平面旨在尽可能远离。PSVM背后的基本原理是分离超平面不再是有界平面，如在传统SVM中所做的那样[15]，而是“近端”平面。一个PSVM hyper的例子1Nt平面及其与SVM的关系如图所示4.第一章让装备样本为M维：Xi ∈ XIR M，i ∈ {1，. . . ，N}。我们的目标是将Xt中的样本分类为属于类别y=1（指示感兴趣的对象）或类别y=−1（指示背景区域）。我们通过学习映射函数G：X → Y来实现这一点，其中Y ∈ {−1，+1}。我们用x表示一个通用的数据点，并使用x，其中表示索引的占位符。我们的映射函数G是一个随机森林[9]，由K个基分类器G={gk}K组成，其中类X=[X 1，. . .，xN]n∈IR N×M是X中N个样本叠加得到的N×M 矩阵。非斜体的“”表示转置操作。设Y∈{−1，+1}N是通过将X中的样本的标签堆叠而获得的向量。这里，我们在Xt中去掉时间索引t，因为下面的公式适用于任何t。我们定义一个对角矩阵D，如果xi属于正类，则其对角元素Di ，i=1，否则为-1然后，PSVM旨在解决以下问题：选择子gk：X → Y，k∈ {1，. . .，K}，称为决策树，使用bagging [8]进行组合。每个决策树gk（x）通过将样本x∈ X从根路由到min（w，b，c）1||ξ||221+v（w2w+b2）（三）一些叶节点，递归地，它为instance. 具体来说，树中的每个节点j都与一个二元分裂函数相关联：fkj（x，θ）∈ {−1，+1}，其中θ是分裂函数的参数如果fkj（x）=1，则样本被发送到右子节点，如果fkj（x）=−1，则样本被发送到左子节点，过程终止于叶（或纯）节点。给定一个输入x，树的输出是存储在x到达的叶子上的预测，在我们的例子中，这是一个目标标签y∈ Y4.1. 斜决策树对于每个gk，我们采用一个斜决策树，导致在每个决策节点的非正交超平面更具体地，如下测试属性的线性组合：S. t. D（Xw-b e）+= e。其中ε是误差向量，ν是正则化参数，w和b是超平面的系数，e是所有1的向量。PSVM{w，b}的参数可以以封闭形式计算，并由[34]给出：[w;b]=（νI+ H<$H）−1H<$De; H =[X，−e]（4）如图所示 4，与传统SVM不同，平面w∈x=b±1不再是边界平面。事实上，它们可以被认为是“邻近”平面，每个类的点围绕其聚集，并且通过目标函数Eq中的项（w w + b 2）尽可能远地分开。3 .第三章。F（x）=.1如果ΣMm=1mm、（二）虽然使用超-Eqn平面（4）将数据点拆分到kj-1否则决策树由于矩阵变换的时间复杂度为O（M3），在实践中证明是更有效的，因为其中w和b是超平面的参数。正如我们在第2节中提到的，穷举搜索一个最佳的，只有少量的特征Ms（通常为logM）在每个节点中使用。5593¨βt+1¨图3. 提出的倾斜随机森林基线跟踪器（Obli-RaF）概述。在帧t中，我们基于先前跟踪结果的结果采样400个粒子。这些颗粒被送入倾斜随机森林分类器。森林中的每棵树递归地对数据样本进行聚类。树中的每个叶子节点将投票给两个类（目标对象或背景）中的一个投票最多的一个将被视为跟踪结果。当投票数小于阈值η时，更新模型。此外，当投票数小于µ（µ n）时，模型会重新训练它可以很容易地通过与其他基于粒子滤波器的跟踪器（如[47]中的ConvNets模型）相结合来生成[Best颜色查看]递归最小二乘（RLS）2：= --（I+H公司简介）−1H电话+1tt电话+1电话+1不电话+1t+1tβt+1 =βt +1+1⊤电话+1（Yt+1-Ht+1 βt），（六）(a) SVM（b）PSVM图4.分离SVM和PSVM的超平面不像骗子-哪里最大值+1ΣΣ=HtHt+1Σ⊤ΣΣHtHt+1+νIΣ−1、（7）目标是最大化边缘的常规SVM， PSVM根据与两个“聚类”平面中的任一个的接近度来对数据点进行分类，所述两个“聚类”平面的目标是被尽可能远地4.3. 在线更新模型更新避免了目标漂移，对跟踪性能有重要为此，我们提出了一种有效的方法来更新PSVM模型参数时，必要的。设De=Y，假设在时间t，我们有解-方程中的Yt+1−Ht+1βt（6）将被称为创新。当该项为零时，后续迭代中的参数保持不变。RLS的收敛性是信号处理中的一个已建立的理论，它被证明比流数据的最小均方方法此外，我们的二次目标函数导致一个全局最优的解决方案，提出的增量Obli-RaF是直接实现。我们首先从头开始训练一个斜随机森林。在每个步骤t，随机森林接收输入示例Xt的块，其标签被预测。当真实标签Yt被揭示时，倾斜随机森林使用等式11更新其每个决策树。（六）离子βt=[wt，b t]我们可以计算β电话+1在时间t+1错误分类的数据样本从βt递归地获得新的可用数据，求解方程（四）、更新参数的关键问题是（H<$H+νI）−1的计算。如果对应于新的可用数据的特征在时间（t+1）为H t +1，则估计βt+1 的问题变为：5. 执行我们在两种不同的场景下测试了所提出的Obli-RaF分类器用于视觉跟踪的可行性：i）简单的Obli-Raf跟踪器和ii）ConvNet¨Σ--最小化-t+1Σ ΣΣ¨Ytéβt+1−Yt+1？+ν||βt+1||2（五）模型我们将详细介绍这两种实现方式：Obi-RaF跟踪器有一个简单的实现。首先将视频帧转换为灰度级，并将状态H25594这是一个最小二乘最小化问题，它导致以下参数的在线更新，2关于这一推导的详细情况见补充材料。5595目标（即尺寸和位置）由地面实况给出。扭曲图像的大小设置为32×32。每个状态的六个目标状态参数被设置为[8，8，0. 03，0。005，0。005，0。005），分别。我们使用梯度直方图（HOG）[16]获得的特征具有4个单元大小和9个不同方向以表示每个边界框。我们设定了决策的数量10.80.60.40.20OPE的精密度图10.80.60.40.20OPE的成功图树K到100，树的最大深度rdepth到400，以及在每个决策节点处使用的特征的数量Ms0 10 20 30 40 50定位误差门限(a) 距精度0 0.2 0.4 0.6 0.8 1重叠阈值(b) 重叠成功取整（log（M））。在每一步中，我们使用100个阳性和100个阴性样本来训练Obli-RaF。的信心图3中的阈值η被设置为85，其在必要时使用20个正样本和20个负样本来更新。当最大投票数小于20时，我们重新训练随机森林。粒子数设定为100。上述参数对于所有实验都是固定补充材料中提供了这些参数的详细敏感性分析。Obli-RaFT与ConvNet我们还提出了我们的跟踪器的第二个实现，其动机是ConvNets最近的成功。这与[63]的协作模型有一些相似之处。为了实现这一点，我们遵循与[47]相同的管道，在VGG-16 [44]模型的conv 4 -3和conv 5 -3层的特征映射上训练两个小型ConvNet。然后，这两个ConvNet用于以生成方式估计目标对象同时，提出的Obli-RaF工作在一个判别的方式来预测一个粒子是否属于感兴趣的对象或背景。粒子的最终置信度是由我们的 Obli-RaF 方法的置信度和生成ConvNets的置信度之和获得的对于ConvNets部分，我们采用与[47]相同的参数设置。所提出的简单的Obli-RaF跟踪器在MATLAB中实现，并以每秒约3帧的速度运行。配备Intel i7 3770CPU（3.4 GHz）的PC。基于ConvNets的Obli-RaF跟踪器在MATLAB和Caffe中实现[26]，并在具有2个TitanXGPU的同一台机器上以每秒约2帧的速度运行。6. 实验结果我们首先使用OTB-51基准测试[54]证明了所提出的增量Obli-RaF方法优于其他机器学习算法。然后，我们使用OTB-51和OTB-100 [54，55]探索基于ConvNets的 Obli-RaF跟踪器的更多细节这两个基准测试都包含视频序列，这些视频序列对视觉跟踪具有各种挑战。OTB-51 [54]评估了29个最先进的跟踪器和51个具有挑战性的视频序列。OTB-100 [55]扩展了OTB-51，包括另一个chal-challening视频序列。为了更好地评估和分析不同跟踪方法的优缺点，图5. OTB-51上简单的Obli-RaF跟踪器与其他方法的比较[54]。在[54]的工作之后，左侧显示了使用20像素阈值获得的精度图。使用AUC值测量的成功图显示在右侧。我们看到，我们简单的Obli-RaF方法优于所有现有的方法。最好用彩色观看。基于包括低分辨率（LR）、平面内旋转（IPR）、平面外旋转（ OPR ）、比例变化（ SV ）、遮挡（OCC）、变形（DEF）、背景杂波（BC）、照明变化（IV）、运动模糊（MB）、快速运动（FM）和视野外（OV）的不同挑战因素，用11个属性对视频进行分类。我们还在补充文件中报告了VOT2016的结果。我们用精度曲线和成功图来定量评估跟踪器我们遵循[54，55]中的方案，并对所有以下评价使用相同的参数值。更具体地说，精密度曲线使用20个像素的阈值对不同方法进行排序，而在成功图中，采用AUC值。为了对我们的方法进行比较评估，我们在比较分析中纳入了几种最新的最先进的跟踪器，包括KCF[25]、DLT [51]和CNT [58]、IMT [56]、LCT [33]和[ 50 ]的请注意，所有性能图都是使用基准评估[54]中的代码库生成的，KCF [25]和DLT [51]，IMT [56]，CNT [58]方法的结果由作者提供。简单的Obi-RaF追踪器我们评估了简单的Obli- RaF跟踪器在整个测试序列中从第一帧中的地面真实位置初始化，并报告平均精度或成功率。图5示出了在一次通过评估（OPE）下的简单Obli-RaF跟踪器的建议斜随机森林跟踪排名第一，在这两种情况下。在精度图中，所提出的RaF跟踪器的精度得分为0.8，比[50]的最佳结果高出4%。此外，RaF跟踪器实现了0.58的AUC值，这比第二好的方法好约2%。注意，第二最佳跟踪器通过5个不同特征提取、4个不同分类/回归模型、3个不同运动模型和2个不同运动更新的瑞郎[0.800]诊断[0.769]KCF [0.726]CNY [0.723]被击中[0.656]IMT [0.652]标准普尔500指数[0.649]价格[0.608]DLT [0.587]瑞郎[0.580]诊断[0.557]CNY [0.545]IMT [0.510]KCF [0.506]标准普尔500指数[0.499]被击中[0.474][0.437]DLT [0.436]ASLA [0.434]精度成功率5596S战略布局参与此次评估的大多数跟踪器都是基于手工制作的功能。例如，众所周知的Struck跟踪器[24]采用Haar类特征并依赖于结构SVM进行在线学习。这些令人鼓舞的结果证明了所提出的在线Obli-RaF方法的有效性。在Fig. 7.第一次会议。我们提出的方法实现了第一和第二的精度曲线上的SRE和TRE，分别。图8，9和10，我们还提出了我们的结果，比较了OTB-100数据集上提出的Obli-RaF + ConvNets跟踪器我们观察到，所提出的方法实现了竞争的结果相比，其他国家的最先进的方法，OPE的精密度图10.90.80.70.60.50.40.30.20.100 10 20 30 40 50定位误差门限(a) OTB-51的测距精度OPE的成功图10.90.80.70.60.50.40.30.20.100 0.2 0.4 0.6 0.8 1重叠阈值(b) OTB-51上的重叠成功耗氧物质更具体地说，我们的方法实现了最好的per-perception方面的精度图的OPE。如图所示图8（a），我们的结果是1。4%，比第二好。它还实现了第二个最好的TRE和SRE满足-图9（a）和图9（b）中的ric。10（a）.对于使用AUC值对每种方法进行排名的成功图，我们的方法然而，SRDCF跟踪器通过采用专用模型来明确地估计尺度变化。然而，这一战略--图6.OPE的精度（左）和成功图（右）所提出的方法和其他先进的跟踪OTB-51。Obli-RaF VS Orth-RaF。为了评估在线Obli-RaF，我们还实现了一个正交随机森林（Orth-RaF）跟踪器的基础上[41]。表1比较了精确度评分（20像素内），表2比较了成功率（AUC）。显然，所提出的斜随机森林在所有情况下都优于正交随机森林。如前所述（第1节），观察到的业绩差距有两个主要原因：（i）Obli-RaF的灵活性，其不限于与输入特征的坐标系轴对齐，以及（ii）我们的方法的有效在线更新过程，其更好地捕获目标对象中的变化。[41]第一，是因为他们没有（一）和（二）。Obli-RaF跟踪器与ConvNets接下来，我们结合ConvNets评估我们的Obli-RaF跟踪器，并将其与最近提出的跟踪器（包括MEEM [57]，SRDCF [17]，HCF [32]和FCNT [47]）进行比较。OTB-51和OTB-100数据集。从图6中我们可以看到，我们提出的协作（Obli-RaF+ ConvNets）方法在精度曲线方面优于所有其他方法，并在成功图上获得了有竞争力的更具体地说，我们的协作模型，由FCNT [47]和Obli-RaF跟踪器组成，达到5。与FCNT跟踪器相比，精度和成功率分别提高了5%和1%。我们在补充文件中对这种组合的优势进行了更详细的分析我们还报告了所提出的Obli- RaF + ConvNets跟踪器在时间鲁棒性评估（ TRE ）和空间鲁棒性评估（SRE）方面的性能。它们分别通过在不同的帧处开始（通过时间采样初始化进行扰动）和使用不同的边界框进行初始化（通过空间采样初始化进行扰动）来评估跟踪器。结果是预-egy也适用于其不利的精度曲线图。8（a）、9（a）及10（a），其中该数字为6。比我们的方法低2%。请注意，我们的方法仅使用常用的粒子滤波器来估计对象的状态变化，而不使用其他模型来估计尺度变化。但它在所有情况下，在精度曲线上的表现都优于SRDCF，并且在图11的成功曲线上表现具有竞争力8（b）、9（b）和10（b）。计算复杂性。我们的斜决策树的整体复杂度是O（N<$M3），而正交决策树的复杂度是O（MsN（log2N））。然而，对于许多任务，在每个内部节点处仅对少数特征（在本研究中 Ms=logM）进行采样，例如vi.sual跟踪，其中大量的训练样本随着时间的推移而累积，从而导致M的对数N。因此，在实践中，Obli-RaF具有比 Orth-RaF 更小的时间复杂度这也远远低于CART-LC [10] Obli。RaF算法的复杂度为O（NMs）。此外，我们的树归纳方法也导致浅树，因此，更有效。平均而言，拟议的简单Obli-RaF跟踪器的运行速度比正交跟踪器快3倍（关于这一点和灵敏度分析的更多细节在补充材料中）。7. 结论本文提出了一种新的斜向随机搜索算法用于视觉跟踪。在树的每个节点上，通过有效的PSVM分类器将到达节点的数据聚类为两组来学习决策。结果Obli-RaF可以更好地捕捉数据的几何结构，通常会导致更平滑的决策边界。这与以前的方法相反，以前的方法穷尽地搜索最佳特征来分割数据。此外，我们还提出了一种算法，以有效地更新分类器，以减轻跟踪漂移。通过广泛的实验评估，我们表明，拟议的Obli-我们的[0.919]HCF [0.891]MUSTER [0.865]FCNT [0.864]LCT [0.848][0.838]MEEM [0.830]KCF [0.741]DSST [0.739]TGPR [0.705]MUSTER [0.641]LCT [0.628][0.626]我们的[0.615]FCNT [0.606]HCF [0.605]MEEM [0.566]KCF [0.513][0.505]TGPR [0.503]精度成功率5597HCF [0.835]我们的[0.828]FCNT [0.813]MEEM [0.789]SRDCF [0.781]MUSTER [0.764]LCT [0.740]DSST [0.717]KCF [0.716]TGPR [0.697]表1.正交随机森林和斜向随机森林对OTB-51的精度得分的比较（20像素以内）。方法整体IVSVOCCDefMBFMIR或OVBCLROrth-RaF67.460.062.566.859.557.454.957.066.445.958.858.0Obli-RaF80.080.580.073.570.973.673.079.177.868.877.160.3表2.正交随机森林和斜向随机森林对OTB-51的成功率（AUC）的比较方法整体IVSVOCCDefMBFMIR或OVBCLROrth-RaF48.142.844.747.841.841.640.442.947.637.342.728.0Obli-RaF58.058.858.253.452.256.055.256.755.654.555.746.1TRE的精密度图1TRE的成功案例1SRE的精密度图1SRE的成功图10.90.90.90.90.80.80.80.80.70.70.70.70.60.60.60.60.50.40.30.20.10.50.40.30.20.10.50.40.30.20.10.50.40.30.20.100 10 20 30 4050定位误差门限00 0.2 0.4 0.6 0.81重叠阈值00 10 20 30 4050定位误差门限00 0.2 0.4 0.6 0.8 1重叠阈值(a) TRE测距精度(b) TRE的重叠成功(c) SRE测距精度(d) SRE的重叠成功图7.所提出的方法和OTB-51上的其他先进跟踪器的TRE和SRE的精度（左）和成功图（右）OPE的精密度图1OPE的成功图1SRE的精密度图1SRE的成功图10.90.90.90.90.80.80.80.80.70.70.70.70.60.60.60.60.50.40.30.20.10.50.40.30.20.10.50.40.30.20.10.50.40.30.20.100 10 20 30 40 50定位误差门限00 0.2 0.4 0.6 0.8 1重叠阈值00 10 20 30 40 50定位误差门限00 0.2 0.4 0.6 0.8 1重叠阈值(a) OPE测距精度(b) OPE的重叠成功(a) SRE测距精度(b) SRE的重叠成功图8. OTB-100上的OPE图10. OTB-100上的SRE10.90.8TRE的精密度图10.90.8TRE的成功案例科学，技术和研究（A*STAR）。0.7 0.70.60.50.40.30.20.100 10 20 30 40 50定位误差门限0.60.50.40.30.20.100 0.2 0.4 0.6 0.81重叠阈值引用[1] A. Adam，E.里夫林和我希姆索尼使用积分直方图的基于片段的鲁棒跟踪。IEEE计算机视觉与图案会议论文集(a) TRE测距精度(b) TRE的重叠成功第一卷，第798-805页。IEEE，2006年。图9. OTB-100上的TRE具有简单HOG特征的RaF跟踪器优于许多其他最先进的方法。当以协作的方式与基于ConvNet的模型相结合时，我们的方法与其他先进的跟踪器相比，产生了更强大的跟踪确认这项研究得到了新加坡高级数字科学中心以人类为中心的网络物理系统计划的研究资助[2] S.阿维丹支持向量跟踪。IEEE Transaction模式分析和机器智能，26（8）：1064- 1072，8月。2004年[3] S. 阿维丹包围追踪。 IEEE Transactions on PatternAnalysis and Machine Intelligence，29（2）：261[4] B. Babenko，M. H. Yang和S.贝隆吉具有在线多实例学习的鲁棒对象跟踪。 IEEE Transactions on PatternAnalysis and Machine Intelligence，33（8）：1619[5] C. 鲍，澳-地Wu，H.Ling和H.纪使用加速近端梯度方法的实时鲁棒l1IEEE计算机视觉和模式识别会议论文集，第1830-1837页。IEEE，2012。HCF [0.871]我们的[0.865]FCNT [0.846]MEEM [0.823]SRDCF [0.822]MUSTER [0.815]LCT [0.793]KCF [0.765]TGPR [0.751]DSST [0.742]SRDCF[0.631]HCF[0.616]MUSTER[0.614]FCNT [0.607]LCT[0.604]我们的[0.599]MEEM[0.583]KCF [0.554]TGPR[0.547]我们的[0.849]HCF [0.848]MUSTER [0.822]FCNT [0.817]SRDCF [0.799]MEEM [0.771]LCT [0.766]DSST [0.702]TGPR [0.693]KCF [0.683]SRDCF [0.570]MUSTER[0.567]我们的[0.559]FCNT[0.555]HCF[0.551]LCT[0.534]MEEM[0.521]TGPR [0.475]KCF[0.462]我们的[0.851]HCF [0.837]FCNT [0.798]SRDCF [0.789]MEEM [0.781]MUSTER [0.774]LCT [0.762]DSST [0.695]KCF [0.692]TGPR [0.643]SRDCF [0.598]MUSTER [0.577]我们的[0.565]HCF [0.562]LCT [0.562]FCNT [0.555]MEEM [0.530]DSST [0.475]KCF [0.475]被击中[0.458]HCF [0.800]我们的[0.793]FCNT [0.759]SRDCF [0.756]MUSTER [0.741]MEEM [0.731]LCT [0.701]DSST [0.662]KCF [0.640]TGPR [0.626]SRDCF [0.608]HCF [0.592]FCNT [0.588]我们的[0.579]MUSTER [0.577]LCT [0.567]MEEM [0.565]KCF [0.522]DSST [0.520]TGPR [0.513]SRDCF [0.543]FCNT [0.519]MUSTER [0.516]我们的[0.515]HCF [0.514]MEEM [0.492]LCT [0.488]TGPR [0.433]DSST [0.433]KCF [0.432]精度精度精度成功率成功率成功率精度成功率精度成功率5598[6] M. J. Black和A.D. 杰普森Eigentracking：使用基于视图的表示法对铰接对象进行稳健的国际计算机视觉杂志，26：6384，1998。[7] A. Bosch，A.Zisserman和X.穆尼奥斯使用随机森林和蕨类植物的图像IEEE计算机视觉会议论文集，第1-8页。IEEE，2007年。[8] L.布莱曼装袋预测器。Machine learning，24（2）：123[9] L. 布莱曼乱林。Machine learning，45（1）：5[10] L. Breiman，J.弗里德曼角J. Stone和R.A. 奥尔森分类和回归树。CRC Press，1984.[11] S. Bulo和P. Kon

下载后可阅读完整内容，剩余1页未读，立即下载