基于多域卷积神经网络的快速、准确视觉跟踪算法

72 浏览量更新于2023-10-13 收藏 1.82MB PDF 举报

卷积神经网络

精度提高

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

实时MDNetIlchae Jung1、Jeany Son1、Mooyeol Baek1和Bohyung Han21个部门CSE，POSTECH，韩国2部韩国首尔国立大学ECE{chey0313，jeany，mooyeol}@ postech.ac.krbhhan@snu.ac.kr抽象。提出了一种基于多域卷积神经网络（MDNet）的快速、准确的视觉跟踪算法。所提出的方法加速了特征提取过程，并学习更多的判别模型，例如分类，它提高了目标和背景的表示质量，通过保持一个高分辨率的特征图，每个激活一个大的感受野我们还引入了一个新的损失项来区分多个域中的前景实例，并学习具有相似语义的目标对象的更具鉴别力的嵌入。所提出的技术集成到一个众所周知的基于CNN的视觉跟踪算法，MDNet的管道。与MDNet相比，我们实现了大约25倍的速度，几乎相同的精度。我们的算法在多个流行的跟踪基准数据集，包括OTB2015，UAV123和TempleColor进行了评估，即使没有数据集特定的参数调整，也始终优于最先进的实时跟踪方法。关键词：视觉跟踪，多域学习，RoIAlign，实例嵌入损失1介绍卷积神经网络（CNN）在视觉跟踪中非常有效[1- 10]，但不幸的是，基于CNN的高精度跟踪算法对于实际系统来说只有少数方法[11-MDNet [1]是一种流行的基于CNN的跟踪算法，具有最先进的精度。该算法受到对象检测网络R-CNN[14]的启发;它对候选区域进行采样，这些区域通过在大规模数据集上预训练的CNN，并在测试视频的第一帧进行由于每个候选都是独立处理的，MDNet在时间和空间方面具有很高的计算复杂度此外，虽然其多域学习框架集中于目标相对于每个域中的背景的显著性，但其未被优化以区分跨多个域的潜在目标实例因此，MDNet的学习模型不能有效地区分表示测试序列中具有相似语义的不可见目标对象避免冗余观测和加速推断的一种直接方法是从特征图[23]执行RoIPooling，但由于特征图的粗略量化，幼稚的实现会导致较差的定位到2I. Jung，J.儿子，M。Baek和B.韩为了减轻RoI池化的这种苛刻量化，[15]提出了通过双线性插值的RoI对齐（RoIAlign）。然而，如果RoI的大小较大，则它也可能丢失目标内的有用定位线索。另一方面，由于大多数CNN都是针对图像分类任务进行预训练的，因此网络在预测语义图像标签方面具有将这种CNN直接应用于视觉跟踪通常会降低准确性，因为由用于图像分类任务的预训练CNN生成的嵌入对于区分同一类别中的两个对象是无效的为了解决这样的关键限制，我们提出了一种新的实时视觉跟踪算法的基础上MDNet通过以下贡献。首先，我们采用RoIAlign层从前面的完全卷积特征图中提取对象表示为了保持对象表示能力，更新网络架构以构建高分辨率特征图并扩大每次激活的感受野前者有助于更精确地表示候选对象，后者有助于学习目标丰富的语义信息。其次，我们在预训练阶段引入了一个实例嵌入损失，并聚合到原始MDNet中使用的现有二进制前景/背景分类损失新的损失函数起着重要的作用，以嵌入观察到的目标实例彼此分开的潜在空间。它使我们能够学习更多的歧视性表示看不见的对象，即使在它们具有相同的类标签或相似的语义的情况我们的主要贡献总结如下：• 我们提出了一种实时跟踪算法的启发MDNet和快速R-CNN，其中采用了改进的RoIAlign技术从特征图中提取目标和候选人的更准确的表示，并将其应用于实时跟踪。改进目标定位。• 我们以类似于MDNet的方式使用多任务丢失来学习共享表示，但学习嵌入空间以更有效地区分多个域中具有相似语义的对象实例• 所提出的算法在多个方面表现出出色的性能基准测试数据集，而无需调整特定于数据集的参数我们的跟踪器与MDNet相比，它以25倍的速度实时运行，同时保持几乎相同的精度。本文的其余部分组织如下。我们首先在第2节讨论相关工作。第3节讨论了我们的主要贡献，通过改进的RoIalignn和实例嵌入损失的目标我们在第4节提出了我们在第6节中总结本文2相关工作2.1视觉跟踪算法基于CNN的视觉跟踪算法通常将对象跟踪公式化为区分性对象检测问题。一些方法[1，2，5，6，9，10]绘制实时MDNet3一组对应于候选区域的样本，并使用CNN独立地计算它们的似然度。最近基于判别相关滤波器的技术通过结合来自深度神经网络的表示来显着提高准确性[16，17，3，4，18]。尽管基于CNN的各种跟踪算法在准确性方面是成功的，但是它们通常遭受高计算成本，这主要是由于方法内的关键耗时组件，包括多个样本的特征计算、用于模型更新的反向传播、来自深度网络的特征提取等。虽然一些基于CNN的视觉跟踪技术[19，20，13]通过采用离线表示学习而无需在线模型更新来实时运行，但与最先进的方法相比，它们的准确性并不具有竞争力只有少数实时跟踪器[3，11，12]具有竞争力的准确性。Galoogahi等人[11]结合背景区域以使用手工制作特征来学习更多的判别相关滤波器Fan等人[12]通过跟踪器和验证器之间的交互设计鲁棒跟踪算法。跟踪器基于观察使用手工制作的特征有效地估计目标状态，而验证器使用来自深度神经网络的特征对估计进行双重检查Danelljan等人[3]提出了一种判别相关滤波器，用于通过集成多分辨率深度特征来进行有效跟踪。由于其使用深度表示的实现在计算上是昂贵的，因此他们还引入了一种基于手工制作特征的具有竞争力准确性的高速跟踪算法请注意，大多数具有竞争准确性的实时跟踪器与这种实时跟踪方法相反，我们的算法在纯深度神经网络框架内具有更简单的推理管道。2.2用于视觉跟踪的表示学习MDNet [1]通过微调最初为图像分类训练的CNN来预训练适合视觉跟踪任务的类不可知表示该算法通过多域学习来处理视频中的标签冲突问题，并在多个数据集上实现了最先进的性能。自从MDNet [1]取得巨大成功以来，已经有几次尝试使用深度神经网络来学习视觉跟踪的表示[20Bertinetto等[20]学习最大化出现在不同帧中的相同对象之间的相关性得分Valmadre等人[21]回归目标对象和输入图像之间的响应映射，以最大化地面实况目标位置处的得分。类似地，Gundogdu等人。[22]训练深度特征以最小化来自基于相关滤波器的跟踪器的响应图与在目标位置处具有峰值最大值的地面实况图之间的差异上面讨论的所有努力都集中在如何使目标对象相对于背景突出。虽然这种策略可以有效地将目标与背景分离，但在具有相似语义的对象实例之间进行区分仍然具有挑战性因此，我们的算法鼓励我们的网络，以实现这两个目标，提出了一个新的损失函数与两个条款。4I. Jung，J.儿子，M。Baek和B.韩图1.一、提出的跟踪算法的网络架构。该网络由用于提取共享特征图的三个卷积层、用于使用感兴趣区域（RoI）提取特定特征的自适应RoIAlign层和用于二进制分类的三个全连接层通道的数量和每个特征图的大小与每个层的名称一起显示2.3目标检测尽管R-CNN [14]在对象检测中是成功的，但它具有从各个区域提取特征以用于推断的显著开销。快速R-CNN [23]使用RoIPooling降低了特征提取的计算成本，RoIPooling通过将最大池应用于特征图中的特定区域来计算固定大小的特征向量。虽然在计算成本方面的好处是令人印象深刻的，RoIPooling是不是有效的定位目标，因为它依赖于粗糙的特征映射。为了减轻这种限制，mask R-CNN [15]引入了一种新的特征提取技术，RoI对齐（RoIAlign），它通过双线性插值来近似特征，以实现更好的对象定位。我们的工作提出了一个修改后的网络架构的自适应RoIAlign提取鲁棒的功能，对应于区域的建议。3有效的特征提取和鉴别特征学习本节描述了我们的CNN架构，它具有改进的RoiAlign层，可以在保持表示质量的同时加速特征提取。我们还讨论了一种新的多域学习方法与判别实例嵌入的前景对象。3.1网络架构图1示出了我们的模型的架构。所提出的网络由用于构建共享特征图的全卷积层（conv 1 -3）、用于提取每个RoI的特征的自适应RoIAlign层和用于二进制分类的三个全连接层（fc 4 -6）给定一个整体图像，实时MDNet5w′作为输入，网络通过单个前向传递来计算输入图像的共享使用自适应RoIAlign操作从共享特征图中提取对应于每个RoI通过这种特征计算策略，我们在提高特征质量的同时，显著降低了从每个RoI提取的特征表示被馈送到两个完全连接的层，用于目标和背景之间的分类。我们创建多个分支的域特定层（fc61-fc 6D）的多域学习，并学习一个有区别的实例嵌入。在在线跟踪期间，一组特定于域的全连接层被具有softmax交叉熵损失的单个二进制分类层替换，该二进制分类层将使用从初始帧的示例3.2一种改进的RoIAlign视觉跟踪算法我们的网络有一个RoIalignn层，以从整个图像构建的完全卷积特征图中获得对象表示然而，由RoIAlign提取的特征与来自单独提议边界框的特征相比本质上是粗糙的。为了提高ROI的表示质量这些要求可以通过计算更密集的全卷积特征图并扩大每个激活的感受野来解决。为此，我们在VGG-M网络[24]中移除最大池化层，然后是conv 2层，并以速率r= 3在conv 3层中执行扩张卷积[25]。该策略导致比原始VGG-M网络中的conv 3层的输出大两倍的特征映射。它允许提取高分辨率特征并提高表示质量图2将我们的网络与原始VGG-M网络进行密集特征图计算我们的自适应RoIallign层计算更可靠的功能，特别是对于大型对象，使用修改后的双线性插值。由于普通RoIlign仅利用特征图上的附近网格点来计算插值，因此如果RoI的采样点的间隔大于特征图网格的间隔，则可能丢失有用的信息为了解决这个问题，我们自适应地调整共享密集特征图的网格点的间隔具体地，双线性内插的带宽由RoI的大小确定;其与[w]成比例，其中w和w’表示Conv 3层之后RoI的宽度和RoI在RoIAlign层中的输出特征的宽度[·]是舍入运算符。集成网络以采用密集特征图的技术和自适应RoIAlign被称为改进的RoIAlign。我们的自适应RoIAlign层产生一个7×7的特征映射，并在该层之后应用一个最大池化层以产生一个3×3的特征映射。改进后的RoIAlign虽然做了一些小的改动，但它显著地提高了跟踪算法的性能在实践中这部分是因为，与对象检测相反，源自目标表示中的细微差异的跟踪误差随着时间的推移而传播，并且产生大的误差以使跟踪器最终失败6I. Jung，J.儿子，M。Baek和B.韩Conv2：256@X88最大池：256@X16 16Conv3：512@X16 16RoIAlign：512@3x388Conv3：512@X88Conv2：256@XRoIAlign：512@3x3(a) 原始VGG-M网络（b）用于密集特征图的图二、用于提取共享特征图的全卷积网络部分的网络架构。在原始VGG-M网络中，在conv 2层之后去除最大池化层，并且应用速率r= 3的扩张卷积来提取具有更高空间分辨率的密集特征图3.3区分性实例嵌入我们的学习算法的目标是训练适用于多个领域的区分性特征MDNet有单独的共享层和特定于域的层来学习区分目标和背景的表示。除了这个目标，我们提出了一个新的损失项，被称为实例嵌入损失，它强制目标对象在不同的域中被嵌入远离彼此在共享的特征空间，并使学习的区别性表示看不见的目标对象在新的测试序列。换句话说，MDNet仅尝试区分个体域中的目标和背景，并且可能不强有力地区分不同域中的前景对象，尤其是当前景对象属于相同语义类或具有相似外观时。这部分是因为原始CNN被训练用于图像分类。为了处理这个问题，我们的算法结合了一个额外的约束，它嵌入来自多个视频的前景对象彼此分开给定域d中的输入图像xd和边界框R，由fd表示的网络的输出分数通过将来自最后的全连接层（fc61-fc6D）的激活级联来构造为fd=[φ1（xd;R），φ2（xd;R），. . . ，φD（xd;R）]∈R2×D，（1）其中，φd（·;·）是来自域d中的完整连续层的2D二元结构，并且D是域d中的连续层的集合。输出特征被赋予用于二进制分类的softmax函数，其确定边界框R是目标还是背景块D.此外，输出特征通过另一个softmax运算符传递，用于区分多个域中的实例两个softmax函数是自适应角色自适应角色实时MDNet7IJIJKJikLcls目标背景域图三. 目标对象的二进制分类和跨多个域的实例嵌入的二进制分类损失被设计为区分目标和背景，而实例嵌入损失分离目标实例。请注意，每次迭代中用于训练的小批量是通过从单个域采样来构造的给出[σcls（fd）]ij=Σexp（fd）且[σinst（fd）]ij=Σexp（fd）、（二）2k=1 exp（fd）Dk=1 exp（fd）其中，σcl（·）包含以下类型的数据集和备份集：σin_t（·）包括所有对象的位置。我们的网络最小化了两个softmax运算符上的多任务损失L，其由下式给出：L=Lcls+α·Linst，（3）其中Lcls和Linst分别是用于二进制分类和判别性实例嵌入的损失项，并且α是控制两个损失项之间的平衡的超参数在MDNet之后，我们处理单个域在每次迭代中，网络基于在第k次迭代中从第（k个modD）个数据集收集的小批量来更新。在k中，具有hom_ai_d（k）=（kmodD）的双线性系统迭代由下式给出Lcls=− 1ΣNNΣ2[yi]cd（k）·日志. Σ。σclsd（k）iΣΣΣcd（k）、（四）i=1 c=1其中yi∈{0，1}2×D是地面实况标签的独热编码;如果域d中的边界框Ri对应于类c，则其元素[yi]cd为1，否则为0。此外，区分性实例嵌入的损失由下式给出Linst=− 1ΣNNΣD[yi]+d·log. Σ。σinstdΣI+d.（五）i=1 d=1Linst网络LclsLcls+LinstFF8I. Jung，J.儿子，M。Baek和B.韩不不我不注意，实例嵌入损失仅应用于使用由等式中的+表示的正通道的正示例（五）、作为建议的损失的结果，在当前域中的目标对象的积极的分数变得更大，而他们在其他领域的分数变得更小。它导致了一个独特的特征嵌入的目标实例，并使其有效地区分可能出现在新的测试领域的类似对象图图3示出了多任务学习对跨多个域的目标实例的区分性特征嵌入的影响4在线跟踪算法我们讨论了我们的跟踪算法的详细过程，包括实施细节。我们的跟踪算法的流水线几乎与MDNet [1]相同。4.1跟踪主回路一旦预训练完成，我们就用每个测试序列的一个分支替换特定领域层（fc 61-fc 6D）的多个分支。给定具有目标位置的地面实况的第一帧，我们微调全连接层（fc 4 -6）并将网络自定义为测试序列。对于其余的帧，我们以在线方式更新全连接层，而卷积层是固定的。给定时间t处的输入帧，由{xi}i=1…N是从以前一帧的目标状态为中心的高斯分布中得出的，最佳目标状态由下式给出：x=argmaxf+（xi），（6）t tIt其中f+（xi）指示在时间步长t处来自当前帧的所述采样的概率。注意，在三维状态空间中执行跟踪以用于平移和缩放改变。我们还训练了一个边界框回归器来提高目标定位的准确性，这是由[1]中的成功所激励的使用从中提取的一组特征从视频的第一帧的ROI，FROI，我们训练一个简单的线性回归器以同样的方式[14，26]。我们将学习的边界框回归器应用于第二帧，并且如果所估计的目标区域是足够的，则调整所估计的目标区域，f+（x*）>0。5.4.2在线模型更新我们执行两个互补的更新策略，如MDNet [1]：长期和短期更新，以分别保持鲁棒性和适应性。使用长时间段收集的样本定期应用长期更新，而每当估计目标的分数低于阈值并且结果不可靠时触发短期更新X实时MDNet9一个minibatch是由128个例子-32个积极的和96个消极的样本，我们采用硬minibatch挖掘在线学习过程中的每一次迭代。通过测试1024个否定示例并选择具有前96个肯定分数的那些来4.3实现细节网络初始化和输入管理三个卷积层的权重从在ImageNet [27]上预训练的VGG-M网络[24]中的相应部分转移，而完全连接的层随机初始化。调整输入图像的大小以使目标对象的大小适合 107× 107，并裁剪为包围所有样本RoI的最小矩形最后一个卷积层中单个单元的感受野大小等于75 ×75。离线预训练对于离线预训练的每次迭代，我们使用从单个域收集的样本我们首先在选定的域中随机抽取8帧，从每个帧中抽取32个正例和96个负例，这导致在一个小批量中总共有256个正例和768个负例数据正边界框在交集大于并集（IoU）测量方面与地面实况具有大于0.7的重叠，而负样本具有小于0.5 IoU。代替在每次迭代中反向传播梯度，我们在多次迭代中累积来自反向通道的梯度;在我们的实验中，每50次迭代更新网络。我们在ImageNet-Vid [27]上训练我们的模型，这是一个用于对象检测的大规模视频数据集。由于该数据集包含大量视频序列，几乎有4500个视频，因此我们在每次迭代中随机选择100个视频作为实例嵌入损失方程中的超参数α（3）被设置为0.1。由于预训练阶段的目的是学习视觉跟踪的通用表示，因此我们必须在每个测试视频的第一帧对预训练网络进行微调我们根据与预训练阶段相同的IoU标准抽取500个阳性样本和5000个阴性样本。从第二帧开始，在每个帧中完成跟踪之后收集用于在线更新的训练数据。跟踪器收集50个正样本和200个负样本，这些样本分别与估计的目标位置具有大于0.7的IoU和小于0.3的IoU。我们的算法不存储原始图像块，而是保留它们的特征表示，以避免冗余计算，从而节省时间和内存。每10帧执行一次长期更新优化我们的网络通过随机梯度下降（SGD）方法进行训练。对于离线表示学习，我们以0.0001的学习率训练网络1000个epoch，同时在测试视频的第一帧训练50次迭代。对于在线更新，微调的迭代次数为10I. Jung，J.儿子，M。Baek和B.韩15并且学习率被设置为0.0003。fc 6的学习速率比其他（fc 4 -5）大10倍，以促进实践中的收敛。权重衰减和动量分别固定为0.0005和0.9我们的算法是在PyTorch 与 3.60 GHz 的英特尔酷睿 I7- 6850 K 和 NVIDIA Titan Xp PascalGPU。5实验本节介绍了我们在多个基准数据集上的结果，并与最先进的跟踪算法进行了比较，并通过消融研究分析了我们的跟踪器的性能。5.1评价方法我们在三个标准数据集上评估了我们的跟踪器，由实时MDNet或RT-MDNet表示，包括OTB 2015 [28]，UAV 123 [29]和TempleColor [30]。为了进行比较，我们采用了几种最先进的跟踪器，包括ECO [3]，MDNet [1]，MDNet+IEL，SRDCF [31] ，C-COT [4] 和顶级性能的实时跟踪器，ECO-HC [3]，BACF[11]，PTAV [12]，CFNet [21]，SiamFC [20]”[32]“是的。ECO-HC是ECO的实时变体，基于手工制作的特征，HOG和颜色名称，而MDNet+IEL是MDNet的一个版本，具有实例嵌入丢失。MDNet和MDNet+IEL都在IMAGENET-VID上进行了预训练。我们遵循标准基准[28]中提出的评估协议，其中跟踪器的性能基于两个标准进行评估-边界框重叠率和中心位置误差-并通过成功和精度图进行可视化通过计算在两个度量中的一组不同阈值处成功跟踪的帧的比率来生成两个单个追踪器的曲线下面积在精度图中，跟踪器的等级由20像素阈值处的精度确定在两个图中，实时跟踪器用实线表示，而其余的用虚线表示请注意，我们的算法的参数在整个实验中是固定的;我们对所有三个测试数据集使用相同的参数，而其他数据集可能对每个数据集使用不同的参数设置。5.2OTB2015评测我们首先在OTB2015数据集[28]上分析我们的算法，该数据集由100个具有各种挑战性属性的完全注释的视频组成。图4呈现了OTB2015数据集上的精度和成功图结果清楚地表明，实时MDNet在这两个方面都明显优于所有测试的实时跟踪器与排名靠前的跟踪器相比，它的准确性也很有竞争力，同时它的速度分别比C-COT、MDNet和ECO快130、我们的算法实时MDNet11ECO[0.910]C-COT[0.898]MDNet+IEL[0.888]RT-MDNet [0.885]MDNet[0.878]ECO-HC [0.856]PTAV [0.849]BACF [0.826]SRDCF[0.788]CFNet [0.777]澳门银河[0.771][0.680]成功率OPE的精密度图1OPE的成功图10.8 0.80.6 0.60.4 0.40.2 0.200 10 20 30 4050定位误差门限00 0.2 0.4 0.6 0.8 1重叠阈值图4.第一章OTB2015上的定量结果[28]。表1. OTB2015上实时跟踪器的定量比较追踪器DSST [32] SiamFC [20] CFNet [21] BACF [11] PTAV [12] ECO-HC [3] RT-MDNet成功率（%）51.358.258.662.763.564.365.0精密度（%）68.077.177.782.784.885.688.5FPS24864335256046/52当重叠阈值大于0.8时，比竞争对手稍差这意味着我们的跟踪器给出的估计目标边界框与其他最先进的方法相比不是很紧;可能的原因是基于CNN的跟踪器的固有缺陷和我们的RoIAlign在高精度区域用于目标定位的限制表1呈现了实时跟踪器的整体性能，包括我们的算法在成功率的AUC、 20像素阈值处的精确率和通过FPS测量的速度方面所提出的方法优于所有其他实时跟踪器的两个准确性措施方面的大幅利润率它运行速度非常快，平均46 FPS，而除了第一帧之外的速度约为52 FPS。请注意，我们的跟踪器在第一帧需要额外的计算成本来微调网络并学习边界框回归器。我们还示出了在图1中的序列的子集上的多个实时算法的定性结果。7.我们的方法在各种具有挑战性的情况下，包括光照变化，尺度变化和背景杂波表现出一贯更好的性能。图中给出了一些故障情况。8.我们的算法失去了足球序列中的目标，由于显着的闭塞和骑自行车的序列，由于突然的大运动和平面外旋转。具有相似外观的对象使我们的跟踪器在Coupon序列中混淆，并且在Jump中戏剧性的非刚性外观变化导致漂移问题。5.3TempleColor的评价图5示出了TempleColor数据集[30]上的精度和成功图，该数据集包含128个彩色视频，而大多数序列与视频重叠。ECO[0.691]C-COT[0.671]MDNet+IEL [0.664]MDNet[0.652]RT-MDNet [0.650]ECO-HC [0.643]PTAV [0.636]BACF [0.626]SRDCF[0.598]CFNet [0.586]SiamFC [0.582][0.513]精度12I. Jung，J.儿子，M。Baek和B.韩ECO[0.800]MDNet+IEL[0.799]RT-MDNet [0.788]C-COT [0.783]MDNet[0.777]ECO-HC [0.753]PTAV [0.741]SRDCF[0.663]DSST [0.542]成功率OPE的精密度图1OPE的成功图10.8 0.80.6 0.60.4 0.40.2 0.200 10 20 30 4050定位误差门限00 0.2 0.4 0.6 0.8 1重叠阈值图五、TempleColor上的定量结果[30]。表2. 不同特征提取方法对RT-MDNet精度的影响池化操作对齐adaRoI 密集调频AUC（%）精密度（%）[23]第二十三话√√√√√√√√35.453.8RoIAlign [15]56.180.4自适应角色59.083.8使用denseFM进行60.784.3改进的RoIAlign61.985.3OTB2015数据集[28]。我们的方法再次超过所有实时跟踪器1，并且比ECO-HC有实质性的改进。5.4UAV123无人机性能评价我们还在空中视频基准UAV123 [29]上评估了实时MDNet，其特征与其他数据集（如OTB2015和TempleColor）它包含123个航拍视频，总共超过110K帧。图6示出了在该数据集上具有公开可用结果令人惊讶的是，在准确率，我们的跟踪器优于所有国家的最先进的方法，包括非实时跟踪器，而它是非常有竞争力的成功率以及。特别是，我们的跟踪器击败了 ECO ，它是 OTB2015 和TempleColor的顶级排名，在这两个指标上都有大约8倍的速度提升。实验结果表明，该算法具有更好的泛化能力，无需对特定数据集进行参数调整。5.5消融研究我们在OTB2015 [28]上进行了几项消融研究，以研究跟踪算法中单个组件我们首先测试1他们论文中报道的BACF的AUC评分为52.0%，远低于我们的追踪器评分ECO[0.597]MDNet+IEL[0.578]C-COT [0.573]RT-MDNet [0.563]MDNet[0.563]ECO-HC [0.551]PTAV [0.544][0.485][0.380]精度实时MDNet13RT-MDNet [0.772]MDNet+IEL [0.767]MDNet[0.747]ECO[0.741]ECO-HC [0.725]SRDCF[0.676][0.586]成功率OPE的精密度图1OPE的成功图10.8 0.80.6 0.60.4 0.40.2 0.200 10 20 30 4050定位误差门限00 0.2 0.4 0.6 0.8 1重叠阈值见图6。关于UAV123的定量结果[29]。表3. 内部比较结果在ImageNet-Vid数据集上进行预训练。方法LclsLinstBBreg成功率（%）精密度（%）Ours-BBR-IELOurs–BBR√√√√√√61.964.165.084.287.788.5所提出的RoIAlign对我们的跟踪算法的质量的影响。对于这个实验，我们使用VOT-OTB数据集预训练我们的网络，该数据集包括从VOT 2013 [33]，VOT2014 [34]和VOT 2015 [35]收集的58个视频，不包括OTB 2015中的视频表2呈现了提取目标表示的若干选项，其取决于RoIPooling和RoIAlign之间的选择、自适应RoIAlign层（adaRoI）的使用和密集特征图（denseFM）的构造。所有结果一致支持我们改进的RoIAlign的每个组件对跟踪性能改进做出有意义的贡献我们还研究了我们的跟踪算法的两个附加版本-一个是没有边界框回归（表3总结了该内部比较的结果根据我们的实验，提出的多任务损失（二进制分类损失和实例嵌入损失）和边界框回归都有助于改进定位2。6结论提出了一种新的基于CNN的实时视觉跟踪算法，该算法通过在多域学习框架中学习目标的区分性表示。我们的算法加速特征提取过程中的一个改进的RoIAlign技术。我们采用多任务损失有效地区分对象实例跨域的学习嵌入空间。拟议2如图所示。在图4、5和6中，我们验证了将实例嵌入损失应用于MDNet也可以提高性能。MDNet+IEL [0.535]MDNet [0.528]RT-MDNet [0.528]ECO[0.525]ECO-HC [0.506]SRDCF[0.464][0.356]精度14I. Jung，J.儿子，M。Baek和B.韩RT-MDNet BACF PTAVECO-HC DSST SiamFCCFNet见图7。所提出的方法在OTB2015数据集中的几个具有挑战性的序列（矩阵，MotorRolling，滑雪，西尔维斯特）上的定性结果。见图8。RT-MDNet在Soccer、Biker、Coupon和Jump序列中的失败案例。洋红色和蓝色边界框分别表示地面实况和我们的结果算法在公共视觉跟踪基准数据集上进行了评估，并与最先进的技术，特别是实时跟踪器相比表现出出色的性能。确认本研究得到了首尔国立大学新教师研究安置基金和IITP资助的部分支持[2014-0-00059，预测视觉智能技术（DeepView）的开发; 2016-0- 00563，智能自主数字伴侣的自适应机器学习技术开发研究; 2017-0-01780，技术开发和应用研究]。事件识别/关系推理和学习视频理解的基于知识的系统。实时MDNet15引用1. Nam，H.，汉，B.：学习多域卷积神经网络用于视觉跟踪。在：CVPR中。（2016年）2. Nam，H.，Baek，M.，汉，B.：用于视觉跟踪的树结构中的CNN建模和传播。arXiv预印本arXiv：1608.07242（2016）3. Danelljan，M.，Bhat，G.，Shahbaz Khan，F.，Felsberg，M.：ECO：高效卷积算子跟踪。在：CVPR中。（2017年）4. Danelljan，M.，Robinson，A.，Khan，F.S.，Felsberg，M.：超越相关过滤器：学习用于视觉跟踪的连续卷积算子。In：ECCV. （2016年）5. Yun，S.，崔，J.，Yoo，Y. Yun，K.，Young Choi，J.：基于深度强化学习的视觉跟踪在：CVPR中。（2017年）6. Fan，H.，Ling，H.：SANet：用于视觉跟踪的结构感知网络在：CVPRW。（2017年）7. Wang，L.，美国，欧阳，W.王，X.，Lu，H.：使用全卷积网络进行视觉跟踪。In：ICCV. （2015年）8. Hong，S.，你T Kwak，S.，汉，B.：卷积神经网络学习判别显著图在：ICML。（2015年）9. 滕志，邢杰，王建奎，Lang，C.，Feng，S.，（1991），中国农业科学院农业科学研究所，Jin，Y.：基于时空深度网络的鲁棒目标跟踪In：ICCV.（2017年）10. Han，B.，Sim，J.，Adam，H.：分支：卷积神经网络在线集成跟踪的正则化。在：CVPR中。（2017年）11. Galoogahi，H.，Fagg，A.，Lucey，S.：用于视觉跟踪的学习背景感知相关滤波器。In：ICCV. （2017年）12. Fan，H.，Ling，H.：并行跟踪和验证：一种实时高精度视觉跟踪框架。In：ICCV.（2017年）13. 黄，C.，Lucey，S.，Ramanan，D.：深度特征级联自适应跟踪的学习策略。In：ICCV. （2017年）14. 格尔希克河Donahue，J.，Darrell，T.，Malik，J.：丰富的特征层次结构，用于精确的对象检测和语义分割。在：CVPR中。（2014年）15. 他，K.， G.，G.，做吧，P Girshic k，R. ：Mas k R-C NN。 In：ICCV. （2017）16. 马，C.，Huang，J.B.，杨，X.，Yang，M.H.：用于视觉跟踪的分层卷积特征。In：ICCV. （2015年）17. Song，Y.，马，C.，贡湖张杰，Lau，R.，Yang，M.H.：CREST：ConvolutionalResidual Learning for Visual Tracking。In：ICCV.（2017年）18. 张，T.，徐，C.，Yang，M.H.：基于多任务相关粒子滤波的鲁棒目标跟踪。在：CVPR中。（2017年）19. Held，D. Thrun，S.，Savarese，S.：学习使用深度回归网络以100 FPS进行跟踪。In：ECCV. （2016年）20. 贝尔蒂内托湖Valmadre，J.，Henriques，J.F.，Vedaldi，A.，Torr，P.：用于目标跟踪的全卷积连体网络In：ECCVW.（2016年）21. Valmadre，J.，贝尔蒂内托湖Henriques，J.F.，Vedaldi，A.，Torr，P.：基于相关滤波器的跟踪的端到端表示学习在：CVPR中。（2017年）22. Gundogdu，E.，阿拉坦，A.A.：与视觉跟踪相关的良好功能。中文（简体）23. Girshick，R.：快速R-CNN。 In：ICCV. （2015年）24. Chatfield，K.，西蒙尼扬，K.，Vedaldi，A.，齐瑟曼，A.：中的魔鬼回归详细信息：深入研究卷积网络。在：BMVC.（2014年）25. Chen，L.C.，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：DeepLab：使用深度卷积网络、Atrous 卷积和全连接CRF进行语义图像分割。TPAMI40 （4 ）（2017）83416I. Jung，J.儿子，M。Baek和B.韩26. Felzenszwalb，P.F.，Girshick，R.B.，McAllester，D. Ramanan，D.：使用区分性训练的基于部分的模型进行目标检测。TPAMI32 ⑼（2010）162727. Russakovsky，O.，Deng，J.，Su，H.，Krause，J.，Satheesh，S.，妈妈，S.，黄志，Karpathy，A.，Khosla，A. Bernstein，M. Berg，A.，李菲菲： ImageNet大规模视觉识别挑战。IJCV115（3）（2015）21128. 吴，Y.， Lim，J. Yang，M.：对象跟踪基准。 TPAMI37（9）（2015）1834–184829. Mueller，M.史密斯，N. Ghanem，B.：无人机跟踪基准测试与仿真。In：ECCV.（2016年）30. Liang，P.，Blasch，E.，Ling，H.：编码用于视觉跟踪的颜色信息：算法和基准。TIP24（12）（2015）563031. 当我们在一起时，M.， H g e r，G.， Khan，F. 美国， Felsberrg，M. ：LearninggSpatillyRegularized用于视觉跟踪的相关滤波器In：ICCV.（2015年）32. 当我们在一起时，M.， H g e r，G.， Khan，F. 美国， Felsberrg，M. ：DiscriminativS caleSpa ce Tracking.TPAMI39（8）（2017）156133. Kristan，M.，Pflugfelder，R.，Leonardis，A.，Matas，J.，Porikli，F.，切霍万湖，Nebehay，G.，Fernandez，G. Vojir，T.，Gatt，A.，等：视觉对象跟踪VOT2013挑战赛结果。见：ICCVW。（二零一三年）34. Kristan ， M. ， Pflugfelder ， R. ， Leonardis ， A. ， Matas ， J. ，切霍万湖，Nebehay，G.，Voj´ıˇr，T.， Fernanddez，G.，是的。：VisualObectTrac kingVOT2014Challeg结果。In：ECCVW. （2014年）35. Kristan，M.，妈妈，J。， Leonardis，A.， Felsberg，M.， Cehovin，L.，Ferna'ndez，G.，Voj´ıˇr，T.， H g e r，G.，别这样G Pf lug felder，R.，是的。：VisualObec t tTTrac k ing VOT2015挑战结果。见：ICCVW。（2015年）

下载后可阅读完整内容，剩余1页未读，立即下载