自动视频标注方法：选择和改进进行视觉跟踪的视频标注

8 浏览量更新于2023-10-14 收藏 19.83MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

trackers are still rare and expensive to achieve, which re-stricts the potential performance boost of existing trackers.To mitigate the above issue, some recent works [18, 25,102960通过选择和改进进行视觉跟踪的视频标注0Kenan Dai 1，Jie Zhao 1，Lijun Wang 1*，Dong Wang 1，Jianhua Li 1，Huchuan Lu 1,2，Xuesheng Qian 3，Xiaoyun Yang 401 大连理工大学，中国， 2 鹏城实验室， 3 CSA Intellicloud Ltd， 4 Remark Holdings0dkn10088@gmail.com，zj982853200@mail.dlut.edu.cn，{ljwang,wdice,jianhual,lhchuan}@dlut.edu.cn，xuesheng.qian@intellicloud.ai，0摘要0基于深度学习的视觉跟踪需要在大量具有准确边界框标注的视频数据集上进行离线预训练，这是一项昂贵的劳动。我们提出了一个新的框架，以促进视频序列的边界框标注，该框架通过研究选择和改进策略来自动改进跟踪算法生成的初步标注。我们提出了一个时间评估网络（T-AssessNet），它能够捕捉目标位置的时间连贯性，并通过测量其质量来选择可靠的跟踪结果。同时，我们还设计了一个视觉几何改进网络（VG-Re�neNet），通过考虑目标外观和时间几何约束来进一步增强所选的跟踪结果，从而纠正不准确的跟踪结果。上述两个网络的组合提供了一种确保自动视频标注质量的原则方法。在大规模跟踪基准测试上的实验证明，我们的方法可以提供高度准确的边界框标注，并通过减少人力劳动量达到94.0％，为进一步提高跟踪性能提供了有效手段。01. 引言0视觉跟踪旨在基于目标外观模型解决视频目标定位的挑战性问题。最近的研究[1，34，32，13，33]提出使用离线预训练的深度特征进行跟踪，在大多数基准测试中取得了创纪录的结果。它们的成功在很大程度上依赖于具有准确标注的大规模视频数据集[10，20，7，18]的可用性。然而，手动标注目标边界框是繁琐且劳动密集的。因此，用于训练的标记数据集0* 通讯作者024，15]探索机器学习技术以促进视频标注。基本原则是只要求人工标注者为一小部分帧标记地面实况边界框，而其余的标注则使用时间插值或最先进的跟踪算法自动生成。最近的研究在这方面取得了显著进展，有效地减少了视频标注所需的人力。上述解决方案的一个主要问题在于采用的跟踪算法生成标签的可靠性。最先进的视觉跟踪器仍然不够稳健，可能在具有挑战性的场景下容易出现漂移或其他跟踪失败。然而，许多现有方法[18]直接采用跟踪结果作为生成的标注，导致视频标注不可靠。一方面，这些方法大多未能通过测量其质量选择可靠的跟踪结果。另一方面，目前还没有有效的机制自动改进或纠正不准确的跟踪结果。与基于视觉内容的跟踪算法相比，基于帧之间的盒子几何建模的时间插值通常对严重遮挡和目标外观变化更具鲁棒性。最近的一些尝试[12]还将视觉跟踪器与基于启发式的时间插值相结合，以获得更准确的边界框标注。然而，如何以原则性的方式共同建模外观和时间几何仍然是视频标注领域的一个悬而未决的问题。基于上述观察，我们提出了一种名为选择和改进视频标注（VASR）的新框架，用于带有目标边界框的视频标注。在之前的工作中，我们首先运行一个现有的跟踪器，该跟踪器由稀疏的手动标注初始化，以获得初步的标注。102970（a）（b）（c）0图1.我们中间结果的可视化。（a）带有手动注释的初始帧。（b）具有初步向前（黄色）和向后（粉色）跟踪结果以及预测的质量分数的后续帧。（c）目标区域推断的结果和生成的注释。0跟踪结果（图1（b））。我们的核心思想是从初步结果中选择高质量的跟踪结果，并通过额外的边界框细化生成可靠的注释。为此，我们设计了一个时间评估网络（T-AssessNet），通过对它们在帧之间的时间依赖性进行建模，预测跟踪结果的质量分数（图1（b）），为跟踪结果选择提供了一个标准。为了纠正所选跟踪结果的潜在错误，我们进一步开发了一个视觉几何细化网络（VG-Re�neNet），它能够通过考虑目标外观和边界框几何的时间关系来推断目标区域（图1（c））。T-Assess Net和VG-Re�neNet都是以数据驱动的方式学习的，作为促进视频注释的一种原则性方法。与之前的工作相比，我们的方法主要以离线方式运行，不需要大量的人机交互。因此，我们可以更好地专注于在更灵活的复杂度预算下提高生成注释的准确性和可靠性。总之，我们的方法的贡献有三个方面。0•我们提出了一个新的框架来通过边界框选择和细化来辅助视频注释，这不仅减少了人力劳动，而且显著提高了注释的质量。0图2.使用跟踪算法[17]生成的TrackingNet[18]注释（红色）与我们的VASR（蓝色）在选择和细化后的比较。绿色轮廓表示由提出的VG-Re�ne Net推断的目标区域。0• 我们提出了新的架构设计来实现上述思想，其中T-AssessNet通过建模时间相关性来衡量跟踪结果的质量，而VG-Re�neNet则能够通过整合外观和时间几何线索进一步提高跟踪准确性。0•我们通过实验证明，我们的方法可以将手动标注的数量减少94.0％，并且使用我们生成的注释训练的跟踪算法与使用手动注释的对应算法相比，具有相当甚至更强的鲁棒性。0广泛的评估结果验证了我们的方法可以作为一种有效的工具，通过增加高质量注释的训练数据（见图2），进一步推动最先进的跟踪性能，而成本可控。我们的项目可在网站上找到：https://github.com/Daikenan/VASR。02. 相关工作0跟踪数据集。随着跟踪任务的快速发展，出现了许多大规模的跟踪数据集，例如LaSOT [7]，TrackingNet[18]，GOT-10k [10]和OxUva[23]。其中，LaSOT有70个类别的1400个序列。总共有超过350万帧，其中目标的边界框全部手动注释。GOT-10k也是一个纯手动标注的数据集，包含超过10000个视频片段和150万个注释。尽管这种手动标注的方式可以保证标签的质量，但它需要大量的人力和昂贵的费用。为了提高标注的效率，一些数据集选择稀疏地注释标签，例如TrackingNet和OxUva。TrackingNet有超过30000个序列，数据集的总长度超过1400万帧。它每30帧标注一个边界框，而其他未标注的帧通过插值方法自动获得它们的标签，其中使用STAPLE CA[17]进行跟踪。然而，这种方式会影响注释的质量。中间目标的标签..........................................102980视频0手动注释0失败检查0选择细化0√ √ √0√ √ ×0跟踪器0前向0后向0我们VASR方法的流程图。0帧不够精确，并且缺乏置信度信息。现有的大规模数据集在生成注释时很难在效率和质量之间进行权衡。单目标跟踪。这个任务在近年来取得了很大的进展，特别是基于深度学习的方法。就模型是否在线微调而言，现有的跟踪器可以分为离线训练方法[1, 14, 34, 13, 28, 9, 4]和在线更新方法[19, 5,6, 2]。SiamFC[1]提出了一个完全卷积的孪生网络，其中交叉相关层用于计算模板和搜索区域之间的相似度。SiamRPN[14]将区域建议网络应用到基于孪生网络的跟踪器中，并提出了分类和回归分支，从而提高了准确性和速度。为了使跟踪器适应深度网络并进一步提高性能，SiamRPN++[13]提出了一种采样策略来打破空间不变性限制。对于在线更新跟踪器，ATOM[5]提出了一个由专用目标估计和分类组件组成的跟踪架构。为了提高区分能力，DiMP[2]引入了一种判别学习损失，显著提高了跟踪性能。这些跟踪器在处理短序列时表现得非常好。一次性学习分割。这个任务也在快速发展，包括[26,30]。给定初始帧中的模板，方法需要在后续帧中分割目标区域。[11]使用超体素和光流从视频序列构建空间-时间图。而[27]提出了一种基于超轨迹的视频对象分割方法，它是一种高效的视频表示方法，可以捕捉潜在的空间-时间结构信息。这些类型的算法通常被用作单目标跟踪中的良好尺度估计器。轨迹注释任务。为了降低劳动成本，一些自动生成大规模视频数据集注释的方法已经被提出。一种常见的做法是由注释者稀疏地标记少量关键帧，并使用线性插值来计算边界框。0在关键帧之间插入其他未标记帧的边界框，例如VIPER-GT[16]和LabelMe[31]。这些方法无法处理复杂情况，例如目标的非线性移动。为了更好地处理困难视频，VATIC[25]学习了一个通过快速线性SVM实现的判别分类器。它对正边界框给出高分数，对负边界框给出低分数，其中一个边界框的特征由HOG和颜色直方图特征组成。此外，[24]实现了一个受限制的跟踪器和动态规划算法来确定哪些帧需要手动标记。该问题被视为主动学习，以获得高精度的轨迹。在[15]中，手动注释方式被路径监督替代以实现快速注释。也就是说，注释者使用光标收集路径注释，这是近似的，不提供对象的尺度。给定路径注释和对象检测作为输入，PathTrack[15]首先使用临时轨迹标记每个检测，并生成检测聚类。然后在第二步中，通过ST最短路径计算每个聚类的最可能轨迹，在检测链接步骤中。为了进一步减轻注释者的负担，ScribbleBox[3]引入了一个交互式注释框架，其中注释者不需要观看完整的视频，只需检查自动确定的关键帧。它输出两种类型的注释，包括跟踪的边界框和这些轨迹内的掩码。对于跟踪，使用少量控制点的参数曲线来注释边界框，通过近似轨迹，注释者可以进行交互式更正。对于分割，利用涂鸦作为一种人类输入，并提出了一个涂鸦传播网络来纠正分割掩码。03. 使用VASR进行标注0我们VASR方法的核心是提出的T-Assess Net和VG-Re�neNet，它们用于测量初步边界框标注的质量并进行进一步的标注细化，从而实现更准确的自动标注。接下来，我们首先在第3.1节概述我们的视频标注框架。在第3.2节中，介绍了详细的架构设计。F-NetB-NetG-Moduleασ1σ2μ1μ2Feature ExtractorT-Assess NetFeaturesFCQuality ScoresVG-Refine NetMaskNet�Sd�WdAggregationBBoxesB-NetLSTMLSTMSequential FeaturesG-ModuleFusionFCSdWd102990F-Net0B-Net0G-Module0α0σ1σ2μ1μ20特征提取器0T-Assess Net0特征0FC0质量分数0VG-Refine Net0MaskNet0� S d �0W d0聚合边界框0F-Net / B-Net0特征 LSTM LSTM LSTM 顺序特征0G-Module0融合0FC0Sd0W d0图4. 我们提出的VASR方法的架构。0提供了详细的训练和应用我们方法以实现高质量边界框标注的方法。03.1. 概述0图3概述了提出的VASR方法的流程。给定一个视频序列，我们首先要求人工标注者对一小部分帧进行标注（例如，每30帧标注一帧）。然后，我们采用现成的视觉跟踪器[2]为每个帧生成跟踪结果作为初步标注。为了减轻跟踪失败的影响，我们将每个视频在手动标注的帧处分割成短期片段，其中每个片段的第一帧和最后一帧包含手动标注的边界框。对于每个片段，我们分别使用第一帧和最后一帧中的手动标注进行前向和后向跟踪，以初始化跟踪器，该跟踪器预测每个帧的响应图、目标边界框和跟踪分数。通过合并所有片段的跟踪结果，我们获得整个视频的前向和后向跟踪结果。初步的跟踪结果可能不可避免地包含失败案例。因此，我们测量跟踪结果的质量，并从前向和后向跟踪中选择更可靠的跟踪结果。然后，我们执行边界框细化方案，进一步提高所选跟踪结果的质量，从而得到输出的标注结果。对于前向和后向跟踪质量都低于预定义阈值的帧，我们将其标记为跟踪失败，并求助于额外的人工标注。0然后求助于额外的人工标注。上述过程由提出的T-AssessNet和VG-Re�ne Net进行学习和执行。03.2. 架构设计0T-Assess Net。T-AssessNet的输入包含L个连续帧的初始跟踪结果� b d i , o d i , Rd i | i = 1 , 2 , . . . , L, d ∈ {F , B} �，其中b d i、o d i和Rdi分别表示第i帧由[2]生成的边界框位置、跟踪器置信度和响应图，d表示结果是由前向（d = F）还是后向（d =B）跟踪生成的。T-AssessNet由特征提取器和顺序置信度预测器组成。特征提取器旨在使用卷积网络对响应图R di的外观信息进行编码，为每个输入响应图生成一个c维特征向量。然后，将特征向量与其对应的边界框坐标和跟踪器置信度进行连接，得到每个跟踪结果的c +5维紧凑表示。上述特征主要表征了单个跟踪结果的空间、外观和置信度信息。为了捕捉跟踪结果在时间域中的相关性和变化模式，我们使用三个长短期记忆（LSTM）[8]层和L个时间步骤后跟一个全连接层设计了顺序预测器。它以顺序方式处理L个输入帧的特征向量，并为每个帧预测一个质量分数g d i。我们使用两个独立的顺序预测器predictors (F-Net and B-Net in Fig. 4) with the same ar-chitecture to handle forward and backward tracking results,respectively, which is shown to deliver more superior per-formance than using a single sequential predictor in our ex-periments. See Fig. 4 for an illustration of the architecture.,�(IoU)1.000.750.500.250.00-0.25-0.50-0.75-1.01.000.800.600.400.200.00(0.81,0.91)(0.39,-0.61)(0.26,-0.86)(0.64,0.70)snippets of 30 frames to collect the forward and backwardtracking results according to the procedure described inSec 3.1. We then densely select short-term snippets with aﬁxed length of 20 frames from all the training videos, whichtogether with the corresponding tracking results serve as in-put training samples to our method.The quality of each tracking result is measured accordingto its Intersection over Union (IoU) with the ground truth.We empirically ﬁnd that tracking results with IoU > 0.5are mostly reliable, while IoU < 0.5 mainly correspondsto low-quality results. Therefore, we convert the IoU ofeach tracking result to a quality score ˆg using a non-linearfunction f(·) as follows:103000VG-Re�ne Net。T-AssessNet为选择高质量跟踪结果提供了重要线索。为了进一步提高所选结果的准确性，我们设计了VG-Re�neNet，它通过同时考虑视觉和几何信息来学习执行边界框细化。为了编码视觉外观，我们采用了预训练的MaskNet（[29]中提出的）来预测初始目标分割图。具体而言，我们在第i帧中以前向和后向跟踪生成的两个边界框b F i和b Bi为中心裁剪搜索区域，其大小是边界框的两倍。基于搜索区域和初始目标模板，MaskNet预测出两个初始目标分割掩模˜S d i ∈ R P × Q，分别对应于前向（d = F）和后向（d =B）跟踪。正如我们的实验所示，仅考虑视觉信息的细化仍然不可靠。因此，我们采用几何信息来进一步确保跟踪的准确性。我们提出了一个可训练的几何模块（G-Module），它可以学习捕捉时域中目标位置的几何关系。受到T-AssessNet在顺序建模中的成功启发，我们使用类似于T-AssesNet的相似架构从L个连续帧的初始跟踪结果中提取顺序特征，该架构还包含特征提取器和基于LSTMs的顺序预测器。G-Module融合提取的顺序特征，学习编码它们的几何变化，并预测一组高斯权重参数θ d i = {µ 1, µ 2, σ 1, σ 2,α}，对应于每个目标分割掩模˜S di。然后，我们根据预测的参数生成几何权重图W d i ∈ R P× Q，如下所示：0�0W d i (x, y )= exp0� ( x − µ 1 ) 20− α0σ 20σ 2 1+ ( y − µ2 ) 20（1）其中W d i ( x, y )表示位于坐标（x,y）处的权重值。最终的分割掩模S di通过初始掩模和权重图的逐元素乘法得到，即S d i = ˜S d i⊙ W d i。有关架构的示例，请参见图4。03.3. 训练和推断0训练。提出的T-Assess和VG-Re�neNet可以使用带有地面真实注释的视频序列进行学习。对于每个训练视频，我们首先将其分割为30帧的视频片段，根据第3.1节中描述的过程收集前向和后向跟踪结果。然后，我们从所有训练视频中密集选择长度固定为20帧的短期片段，这些片段与相应的跟踪结果一起作为我们方法的输入训练样本。根据每个跟踪结果与地面真实值的交并比（IoU）来衡量每个跟踪结果的质量。我们经验性地发现，IoU > 0.5的跟踪结果大多是可靠的，而IoU <0.5主要对应于低质量的结果。因此，我们使用非线性函数f(∙)将每个跟踪结果的IoU转换为质量分数ˆg，如下所示：0IoU0图5.用于计算质量分数的非线性函数（2）。红色和黄色边界框分别表示手动注释的真实值和跟踪结果。质量分数可以更好地衡量跟踪的可靠性，而不是IoU。0ˆg = f（IoU）=0β√α（IoU−0.50β 01 + α（IoU−0.5）β，（2）0其中超参数α和β的经验值分别设置为50和2。如图5所示，质量分数可以有效地衡量跟踪结果的可靠性，并被视为我们的T-Assess Net的基本事实。T-AssessNet将一个片段的跟踪结果作为输入，预测它们的质量分数�gbi | i = 1, 2, ..., 20; b ∈ {F,B}�，并通过最小化它们与基本事实之间的差异来进行训练：0Lconf = �0b∥gbi−ˆgbi∥22。（3）0尽管基本事实边界框无法精确地描绘目标轮廓，但它提供了一个重要线索，即通过框区域通过的每一行和每一列也与目标区域重叠。基于上述观察，我们提出使用基于框级监督的多实例学习设置来训练VG-Re�neNet。为此，我们首先根据基本事实边界框为每个帧生成一个二进制框掩码Mi。框掩码与分割掩码Sdi具有相同的空间大小P×Q，其中Mi（x，y）=1表示位于（x，y）处的像素属于基本事实边界框区域，否则Mi（x，y）=0。然后可以聚合预测的分割和基本事实框掩码：1,,(6)103010沿垂直和水平方向如下。0sd,hi = Ah（Sdi），0mhi = Ah（Mhi），（4）0其中Ah表示水平聚合操作符，将输入掩码的每一行映射为标量。sd,hi∈RP和mhi∈RP分别表示分割掩码和框掩码的聚合结果。垂直聚合结果sd,vi∈RQ和mvi∈RQ可以通过沿垂直方向进行聚合以类似的方式获得。然后，可以通过最小化预测的分割掩码和基本事实框掩码的聚合结果来训练VG-Re�ne Net：0Lreg = �0i0d∥sd,vi−mvi∥22+∥sd,hi−mhi∥22。（5）0有许多聚合操作符，包括一维最大池化、平均池化、求和等。我们设计了以下修正累积操作符，在我们的实验中取得了最佳性能：0Ah（M）= max0�0x =1（M（x，∙））0�0在输入掩码的每一行上独立进行求和。垂直聚合操作符Av的定义方式类似，只是将行求和替换为列求和。需要注意的是，类似的多实例学习思想已经在一项并行工作中进行了探索[22]。然而，[22]采用了最大池化进行聚合，并专注于实例分割，而我们的最终目标是从预测的掩码中推断出准确的边界框，而不是精确的目标分割。0推理。在推理过程中，我们将20帧及其对应的前向/后向跟踪结果输入到我们的方法中。T-Assess和VG-Re�neNet分别为每个跟踪结果预测质量分数gdi和目标分割掩码Sdi∈RP×Q，其中帧索引i = 1,2, ..., 20，方向指示器d∈{F,B}。为了从分割掩码Sdi中推断出一个精细的边界框，我们首先使用修正累积操作符沿垂直和水平方向聚合预测的掩码，分别产生聚合结果sd,vi∈RQ和sd,hi∈RP。然后，根据聚合结果选择两组坐标{x | sd,vi(x) > τ}和{y | sd,hi(y) >τ}。上述两组坐标的最小和最大坐标形成了精细边界框的角坐标，表示为˜bdi = (xmin,ymin, xmax, ymax)。给定预测的质量分数gdi和精细边界框˜bdi0对于第i帧的正向和反向跟踪，如果经过细化的边界框具有更高的质量分数，则将其作为输出框注释，如果其分数高于预定义的阈值（0），否则，我们将第i帧标记为失败帧，需要额外的手动注释。04. 实验04.1. 实现0LaSOT数据集是为数不多的所有地面真实标注的大规模跟踪数据集之一。因此，我们提出的视频注释方法是在LaSOT训练集上进行训练，然后应用于LaSOT和TrackingNet的训练集以生成边界框注释。为了注释TrackingNet数据集，我们使用LaSOT数据集的所有训练视频来训练我们的注释方法。为了注释LaSOT数据集，我们采用交叉验证的方式，首先将LaSOT的1120个训练序列分成两个子集，然后使用在一个子集上训练的方法来注释另一个子集，直到生成所有1120个序列的注释。我们使用所有地面真实标注的3.3%作为手动注释来初始化我们的方法。最后，LaSOT和TrackingNet训练集中分别有2.7%和1.7%的视频帧被我们的方法标记为失败帧，这些帧进一步使用地面真实标注进行注释。我们在一台配备8个NVIDIA GTX2080TiGPU的PC机器上使用Tensorflow实现了这项工作。在LaSOT上进行整个网络的数据准备和训练大约需要2周，推理速度在单个GPU上为30FPS。为了验证我们方法的有效性，我们使用SiamRPN++[13]、SiamFC++[28]、ATOM[5]、DiMP[2]和PrDiMP[6]等5种最先进的跟踪器，在LaSOT和TrackingNet的训练集上使用原始和我们生成的边界框注释进行训练，然后在LaSOT、TrackingNet、UAV和GOT10K的测试集上进行比较。04.2. 比较结果0表1和表7报告了在LaSOT和TrackingNet上使用原始和我们生成的注释训练的所有跟踪器的比较结果。从表1可以看出，使用我们生成的注释训练的跟踪器在LaSOT数据集上的性能与使用原始地面真实标注训练的跟踪器相当。当在TrackingNet数据集上进行训练时（表7），我们生成的注释甚至可以产生比原始地面真实标注更优越的性能。原因可能是因为LaSOT训练集的所有注释都是由人工注释者进行的，而TrackingNet训练集提供的注释超过96%是使用跟踪算法生成的。如图2所示，评估结果证明了我们注释方法的有效性和我们生成的注释的质量。表7中的结果也证实了我们的方法可以很好地泛化到不同的数据集。01LaSOT数据集包含1120个训练序列，属于70个类别，每个类别包含16个序列。我们均匀地将训练集分成两个子集，每个子集包含每个类别的8个序列。00.10.20.30.40.50.60.70.80.91Overlap threshold00.10.20.30.40.50.60.70.80.9Success rateSuccess plots of OPE on LaSOT Testing Set[0.599] PrDiMP50_Ours[0.596] PrDiMP50_GT[0.588] DiMP50_Ours[0.577] DiMP50_GT[0.533] SiamFC++_GT[0.533] SiamFC++_Ours[0.522] ATOM_Ours[0.516] ATOM_GT[0.473] SiamRPN++_Ours[0.465] SiamRPN++_GT05101520253035404550Location error threshold00.10.20.30.40.50.60.70.8PrecisionPrecision plots of OPE on LaSOT Testing Set[0.611] PrDiMP50_Ours[0.599] PrDiMP50_GT[0.590] DiMP50_Ours[0.568] DiMP50_GT[0.541] SiamFC++_Ours[0.530] SiamFC++_GT[0.513] ATOM_GT[0.513] ATOM_Ours[0.491] SiamRPN++_Ours[0.483] SiamRPN++_GT00.10.20.30.40.50.60.70.80.91Overlap threshold00.10.20.30.40.50.60.70.80.9Success rateSuccess plots of OPE on LaSOT Testing Set[0.587] PrDiMP50_Ours[0.563] PrDiMP50_GT[0.521] DiMP50_Ours[0.512] DiMP50_GT[0.507] ATOM_GT[0.507] SiamFC++_Ours[0.496] SiamFC++_GT[0.495] ATOM_Ours05101520253035404550Location error threshold00.10.20.30.40.50.60.70.8PrecisionPrecision plots of OPE on LaSOT Testing Set[0.586] PrDiMP50_Ours[0.557] PrDiMP50_GT[0.502] DiMP50_Ours[0.495] SiamFC++_Ours[0.494] ATOM_GT[0.493] DiMP50_GT[0.481] SiamFC++_GT[0.478] ATOM_Ours103020图6. 使用我们的LaSOT注释（Ours）和手动LaSOT注释（GT）在LaSOT数据集上的跟踪性能。0图7. 使用我们的（Ours）和手动TrackingNet注释（GT）在LaSOT数据集上的跟踪性能。0LaSOT训练集的所有注释都是由人工注释者进行的，而TrackingNet训练集超过96%的注释是使用跟踪算法生成的。如图2所示，评估结果证明了我们注释方法的有效性和我们生成的注释的质量。表7中的结果也证实了我们的方法可以很好地泛化到不同的数据集。04.3. 消融研究0为了深入了解我们方法的每个组成部分带来的贡献，我们在LaSOT数据集上进行了额外的消融研究。我们训练了我们方法的不同变体，并将它们应用于生成LaSOT训练集的注释，如第4.1节所述。我们采用三个指标来衡量生成注释的准确性，包括mIoU、Acc@0.5和Acc@0.7。mIoU表示所有生成注释与地面真实边界框的平均IoU。Acc@threshold表示IoU高于阈值的生成注释的百分比。跟踪结果选择的影响。根据我们的T-AssessNet预测的质量分数，我们的注释方法能够从正向和反向跟踪中选择可靠的跟踪结果，并确定当前帧是否跟踪失败。为了衡量跟踪结果选择对最终生成的注释的影响，我们比较了我们方法的4个变体。我们将Fwd和Bwd分别表示为两个不执行选择的变体，它们分别使用正向和反向跟踪的所有跟踪结果。Sel表示选择由正向和反向跟踪生成的更可靠的跟踪结果的变体。0跟踪，而Sel-fail则对Sel添加了额外的失败检测。表2展示了4种变体在LaSOT训练集上的注释准确性。Sel的准确性高于Fwd和Bwd，表明跟踪结果选择的有效性。Sel-fail将1120帧中的2.7%标记为跟踪失败，这需要额外的手动注释，并且不包括在准确性计算中。然而，通过过滤掉这30帧，准确性的提升是可观的。跟踪结果细化的影响。我们的VG-RefineNet通过基于学习的方法将目标外观和时间几何信息相结合，以提高生成的注释的准确性。为了分析其影响，我们比较了我们方法的4种变体。其中，w/o-Re�ne不执行任何细化操作，直接使用选择的跟踪结果作为生成的注释。V-Re�ne基于目标区域推断执行边界框细化，仅考虑视觉外观信息。VI-Re�ne将目标区域推断与几何插值相结合，其中几何插值是按照[12]中的手工方式执行的，而不是基于学习的方法。VG-Re�ne表示我们提出的方法。表3显示了它们在LaSOT训练集上的注释准确性。图8可视化了我们的VG-RefineNet和V-Re�ne之间的比较。仅考虑外观信息时，V-Re�ne的注释准确性甚至比原始跟踪结果更差。通过进一步强制手工几何插值方案，VI-Re�ne可以稍微提高注释准确性。相比之下，我们提出的VG-Re�ne以学习为基础的方式将目标外观和时间几何结合起来，比V-Re�ne和VI-Re�ne都具有更好的性能。为了进一步证明我们基于学习的几何模型的优势，我们将我们的方法与[12]进行了比较，后者将跟踪输出与几何插值结果融合。表5比较了GOT10K数据集上的注释准确性，我们使用[12]报告的结果进行公平比较。在Acc@0.7方面，我们的方法表现优于[12]。时间建模的有效性。T-Select和VG-RefineNet都采用LSTM架构来建模跟踪结果的时间一致性。为了验证其有效性，我们将我们的方法与将LSTM层替换为全连接层的变体进行比较。如表4所示，使用LSTM层可以显著提高注释准确性，表明在视频注释过程中进行时间建模的重要性。注释数量的影响。由于手动注释的高成本，只有少数现有的大规模跟踪基准[10, 7,21]进行了详尽的手动注释，而其他基准只为一部分帧提供了手动注释。为了分析其对跟踪性能的影响，我们在不同数据集上比较了使用我们的LaSOT注释（Ours）和手动LaSOT注释（GT）的跟踪性能。红色结果表示我们的注释达到或超过手动注释的结果。103030表1. 使用我们的LaSOT注释（Ours）和手动LaSOT注释（GT）在不同数据集上的跟踪性能。红色结果表示我们的注释达到或超过手动注释的结果。0SiamRPN++ SiamFC++ ATOM DiMP PrDiMP 成功率预测成功率预测成功率预测成功率预测成功率 GT0.615 0.594 0.697 0.625 0.704 0.641 0.717 0.650 0.684 0.609 TrackingNet 我们的方法 0.631 0.601 0.6980.634 0.702 0.634 0.715 0.652 0.688 0.6190GT 0.552 0.750 0.573 0.769 0.625 0.831 0.629 0.833 0.604 0.793 UAV123 我们的方法 0.557 0.745 0.5770.770 0.625 0.842 0.634 0.846 0.598 0.7900AO SR 0.75 AO SR 0.75 AO SR 0.75 AO SR 0.75 AO SR 0.75 GT 0.438 0.230 0.535 0.367 0.562 0.4090.593 0.444 0.554 0.416 GOT10K 我们的方法 0.439 0.260 0.549 0.391 0.563 0.416 0.596 0.460 0.5700.4440预测边界框预测掩码0V-Refine0VG-Refine（我们的方法）0图8. 此图可视化了我们的VG-Refine Net和V-Refine之间的比较。0表2. 结0mIoU Acc@0.5 Acc@0.70Fwd 0.834 96.3% 90.7%0Bwd 0.833 96.3% 90.7%0Sel 0.845 96.6% 87.6%0Sel-fail 0.851 97.0% 91.1%0表3. 结果0mIoU Acc@0.5 Acc@0.70w/o-Re�ne 0.851 97.0% 91.1%0V-Re�ne 0.845 96.4% 86.9%0VI-Re�ne 0.853 97.1% 91.1%0VG-Re�ne 0.865 97.3% 91.3%0表4. 学习顺序信息的影响。0Miou Acc@0.5 Acc@0.7 错误率0FC 0.859 96.8% 90.8% 0.34%0LSTM 0.865 97.3% 91.3% 0.25%0为了评估性能，我们收集了LaSOT训练集的3个子集，分别包含全部手动注释的100％，3.33％和1.67％。更详细的描述可以在补充材料中找到。0表5. 该表显示了我们在GOT10K验证集上与VI[12]的性能对比。0Acc@0.5 Acc@0.7 mIoU0VI[12] - 0.75 - GOT10K 我们的方法 0.96 0.90 0.830表6.使用我们的TrackingNet注释（Ours）和原始TrackingNet注释（GT）进行训练的TrackingNet测试集上的跟踪性能。0SiamFC++ DiMP PrDiMP 成功率预测率成功率预测率成功率预测率 GT 0.754 0.705 0.717 0.661 0.7360.683 我们的方法 0.770 0.722 0.741 0.682 0.7620.7060表7.使用我们的TrackingNet注释（Ours）和原始TrackingNet注释（GT）进行训练的GOT10K测试集上的跟踪性能。0SiamFC++ DiMP PrDiMP AO SR 0.75 AO SR 0.75 AO SR0.75 GT 0.533 0.363 0.546 0.349 0.576 0.436 我们的方法0.569 0.442 0.570 0.441 0.589 0.48805. 结论0本文提出了一种通过T-Assess Net和VG-Re�neNet实现的选择和细化方案的视频注释方法。T-SelectNet旨在通过建模其时间一致性来选择由跟踪算法生成的可靠的初步注释。VG-Re�neNet通过基于学习的方法将目标外观和时间几何结合起来，进一步提高注释的准确性。在大规模跟踪基准上的实验证明，我们的方法可以通过以自动方式提供高质量的视频注释，从而将人工劳动力减少94.0％，这显著推动了最先进的跟踪性能。0致谢本工作得到了中国国家自然科学基金（61906031，U1903215，61725202，618291

下载后可阅读完整内容，剩余1页未读，立即下载