无人机基准测试：目标检测与跟踪

173 浏览量更新于2023-10-13 收藏 2.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

无人机基准：目标检测与跟踪杜大伟1[0000 - 0001 - 9404 - 524X]、齐元凯2[0000 - 0003 - 4312 - 5682]、于红阳2[0000 - 0003 - 0036 - 531X]、杨一凡1[0000 - 0003 - 1455 - 2001]、段凯文1[0000 -0002 - 8663 - 7429]、李国荣1[0000 - 0003 - 3954 - 2387]、魏钢张3【0000 - 0003 -0042 - 7074】、黄清明1【0000 - 0001 - 7542 - 296X】、齐天4、5【0000 - 0002 - 7252- 5047】1中国科学院大学{dawei.du，yifan.yang，kaiwen.duan}@ vipl.ict.ac.cn，qmhuang@ucas.ac.cn，liguorong@ucas.ac.cn2哈尔滨工业大学qykshr@gmail.com，hyang. hit.edu.cn3哈尔滨工业大学，威海，中国wgzhang@hit.edu.cn4华为诺亚huawei.com5德克萨斯大学圣安东尼奥分校美国qi. utsa.edu抽象。无人机（UAV）具有高度机动性的优势，被广泛应用于计算机视觉领域，比固定视角、比例尺和视角的监控摄像机更高效、更方便然而，提出了非常有限的UAV数据集，并且它们仅关注于特定任务，例如相对受限场景中的视觉跟踪或对象检测。因此，建立一个无约束无人机基准测试系统对推动相关研究具有重要意义。在本文中，我们构建了一个新的无人机基准专注于复杂的情况下，新的水平的挑战。从10个小时的原始视频中选择，大约80，000个代表性帧用边界框以及多达 14种属性（例如，天气状况、飞行高度、摄像机视图、车辆类别和遮挡），用于三个基本的计算机视觉任务：目标检测、单目标跟踪和多目标跟踪。然后，使用最新的国家的最先进的算法为每个任务进行详细的定量研究。实验结果表明，目前的国家的最先进的方法表现相对较差，我们的数据集，由于新的挑战出现在无人机的真实场景，例如。、高密度、小对象和相机运动。据我们所知，我们的工作是第一次在无约束的场景中全面探索这类问题。数据集和所有实验结果可在https://sites.google.com/site/daviddo0323/中获得。关键词：无人机，目标检测，单目标跟踪，多目标跟踪2D. Du等1介绍随着人工智能的快速发展，对高效、有效的智能视觉系统提出了为了解决计算机视觉中的更高语义任务，例如对象识别，行为分析和运动分析，研究人员在过去几十年中开发了许多基本的检测和跟踪算法。为了公平地评估这些算法，社区已经开发了大量的数据集，包括检测数据集（例如，，Caltech [14]和DETRAC [46]）和跟踪数据集（例如，，KITTI-T [19]和VOT 2016 [15]）。这些数据集的共同缺点是视频是由固定或移动的车载摄像机捕获的，这在监控场景中的视角受到限制。受益于全球无人机产业的蓬勃发展，无人机（UAV）已被应用于安全与监视、搜索与救援、体育分析等许多领域。与传统的监控摄像机不同，带运动摄像机的无人机具有部署方便、机动性强、视野范围大、尺度均匀等优点。因此，它给现有的检测和跟踪技术带来了新的挑战，例如：– 高密度。由于无人机摄像机比固定摄像机更灵活，可以在更宽的视角下拍摄视频，导致大量对象。– 小物件。由于无人机视野高度高，目标通常很小或很微小，导致难以对其进行检测和跟踪。– 摄像机运动。由于无人机的高速飞行或相机旋转，物体移动非常快或旋转剧烈。– 实时问题。算法应考虑实时性问题，并在嵌入式无人机平台上保持较高的精度，以便于实际应用。为了研究这些问题，收集了有限的UAV数据集，例如Campus [39]和CARPK [22]。然而，它们只专注于特定的任务，例如在受限场景中的视觉跟踪或检测，例如校园或停车场。该社区需要一个更全面的无人机基准在无约束的场景，以进一步推动相关任务的研究为此，我们构建了一个大规模的具有挑战性的无人机检测与跟踪（UAVDT）基准（即。来自10小时原始视频的约80，000个代表性帧）用于3个重要的基本任务，即：目标检测（DET）、单目标跟踪（SOT）和多目标跟踪（MOT）。我们的数据集由UAV6在各种复杂场景中捕获。自从那条狗-租金大部分数据集集中在行人，作为补充，我们的基准中感兴趣的对象是车辆。此外，这些帧用边界框和一些有用的属性手动标注，例如：、车辆类别和遮挡。本文的主要贡献如下：（1）针对无人机监视中的3个基本任务，收集了一个完整的数据集（2）我们提供了一个广泛的评估，最新的国家的最先进的算法在各种属性的每一个任务。6我们使用DJI Inspire 2来收集视频，更多关于无人机平台的信息可以在www.example.com上找到http://www.dji.com/inspire-2。无人机基准测试32无人机基准测试UAVDTbenchmark由100个视频序列组成，这些视频序列是从无人机平台在城市地区的多个地点拍摄的10多个小时的视频中选出的序列的平均、最小、最大长度为778。69，83和2，970。视频以每秒30帧（fps）的速度录制，分辨率为1080× 540像素。表1. 现有数据集的总结（1k = 103）。D=DET，M=MOT，S=SOT。数据集属性UAV帧盒任务车辆天气闭塞海拔视图年汽车[34]1 .一、1K1 .一、1KDC2000加州理工学院[14]132k347kDC2012KAIST [23]95K86kDCC2015KITTI-D [19]15K八十3KDCC2014MOT17Det [1]11个国家。2K392. 8KDC2017[22]第二十二话C1 .一、5K90KDC2017奥库玉[3]C七十七。4K422 1KD20172009年PETS2009 [18]1 .一、5K十八岁5KD、MC2009KITTI-T [19]19公里>47。3KMCC2014MOT15 [26]11个国家。3K>101kMC2015DukeMTMC [38]28522K40771KMC2016DETRAC [46]140K1210k D、MCCC2016校园[39]C九二九5K19号。5KMC2016MOT16 [29]11个国家。2K>292kMCC2016MOT17 [1]11个国家。2K392. 8KMCC2017ALOV300 [40]151.6K151. 6KS2015OTB100 [49]59K59KS2015VOT2016 [15]21岁5K21岁5KSC2016UAV123 [31]C11万11万SC2016UAVDTC80K841 5KD、M、SCCCCC20182.1数据注释对于注释，我们请10多位领域专家使用vatic工具7标记我们的数据集两个月。通过多轮复核，尽可能减少标注错误具体来说，在UAVDTbenchmark数据集中，大约有80000帧是用0. 0.84亿边界框根据PASCAL VOC [16]，由于分辨率低，在每个帧中忽略覆盖过小车辆的区域。图1显示了数据集中带有注释属性的一些示例帧。根据无人机的不同射击条件，我们首先为MOT任务定义3个属性：– 天气条件指示捕获视频时的照明，这会影响对象的外观表示。它包括白天，夜晚和7http://carlvondrick.com/vatic/4D. Du等图1.一、UAVDT基准测试中的注释帧示例。三行分别指示DET、MOT和SOT任务右下角展示了无人机的射击情况粉红色区域是数据集中忽略的区域不同的边界框颜色表示不同类别的车辆。为了清楚起见，我们只显示一些属性。雾具体地，在日光下拍摄的视频引入阴影的干扰。夜景在昏暗的路灯下，几乎没有提供任何纹理信息。与此同时，在雾中拍摄的帧缺乏清晰的细节，因此物体的轮廓在背景中消失。– 飞行高度是无人机的飞行高度，影响目标的尺度变化。注释了三个级别，即：、低ALT、中ALT和高ALT。在低空（10米至 30米）拍摄时，可以捕捉到更多的物体细节。同时，对象可以占据更大的区域，例如，，22。6%像素的帧。当在中等高度（30m〜70m）采集视频时，呈现更多的视角而在更高的海拔（>70米），大量的车辆是不太清楚。例如，大多数微小对象只包含0。005%的像素，但对象数量可以超过一百。– 摄影机视图由3个对象视图组成具体地，前视图、侧视图和鸟瞰图分别意味着相机沿着道路、在侧面和在物体顶部拍摄。注意，前两个视图可以在一个序列中共存。为了全面评估DET算法，我们还标记了另外3个属性，包括车辆类别，车辆遮挡和视野外。车辆类别包括轿车、卡车和公共汽车。车辆遮挡是边界框遮挡的分数，即、无发病率（ 0% ）、小发病率（ 1%30%）、中发病率（30%70%）和大发病率（70%100%）。视野外是指车辆零部件在车架外的程度，分为无出（0%）、小出（1% 30%）、中出（30%50%）。当视野外比率大于50%时，丢弃对象。上述属性的分布如图2所示。在一段时间内，对象被其他对象或对象在无人机基准测试5图二、UAVDT中DET和MOT任务的属性分布。这是一个很好的例子。G. 而当它们在图像之外或在被忽略的区域中时，被忽略的对象被称为 “ 视频外 ” 。对于SOT任务，为每个序列注释8个属性，即、背景杂波（BC）、相机旋转（CR）、对象旋转（OR）、小对象（SO）、照明变化（IV）、对象模糊（OB）、比例变化（SV）大闭塞（LO）。SOT属性的分布见表2。具体来说，74%的视频包含至少4个视觉挑战，其中51%的视频包含5个挑战。同时，27%的帧有助于长期跟踪视频。因此，候选SOT方法可以在各种残酷的环境中估计，最有可能在同一帧，保证所提出的数据集的客观性和区分性。表2. SOT属性的分布，显示所有视频中重合属性的数量。对角线表示仅具有一个属性的序列的数量。BC CR 或所以IV OB SV LOBCCR或SOIVOB服务LO2918201217916181830211417121812202132121713231412141223131386171717132818127912131318231121618238121129141812146721420值得注意的是，我们的基准测试分为训练集和测试集，分别有30个和70个序列测试集包括20个序列，用于DET和MOT任务，和50个SOT任务。此外，训练视频在与测试视频不同的位置拍摄，但共享相似的场景和属性。此设置降低了特定场景的过拟合概率。6D. Du等2.2与现有UAV数据集的尽管无人机给计算机视觉带来了新的挑战，但已发布了有限的数据集[31，39，22]，以加速各种视觉任务的改进和评估通过探索无人机在高度和平面域中的耀斑机动的灵活性，Matthias等人。[31]提出了一种低空无人机跟踪数据集，以评估SOT方法应对相对激烈的相机运动、尺度变化和光照变化的能力，但它仍然缺乏天气条件和相机运动的变化，并且其场景比真实情况少得多在[39]中，收集了几个视频片段，以分析具有用于MOT任务的固定UAV摄像机的摄像机的俯视图场景中行人的行为虽然理想的视角有利于跟踪器通过缩小他们必须遇到的挑战来获得稳定的轨迹，但在评估MOT方法时，它也存在多样性的风险。Hsieh等人。 [22]提出了一个旨在对停车场中的车辆进行计数的数据集。然而，我们的数据集在不受约束的区域捕获视频，导致更普遍化。所提出的数据集与其他作品的详细比较总结在表1中。虽然与现有数据集相比，我们的数据集不是最大的数据集，但它可以更有效地表示无人机视频的特征– 我们的数据集提供了更高的对象密度10。52 8，与相关工作相比（例如，UAV123 [31] 1. 00，校园[39] 0. 02，DETRAC [46] 8. 64和KITTI [19] 5。第35段）。CARPK [22]是用于检测停车车辆的基于图像的数据集，其不适用于视觉跟踪。– 与仅关注指定场景的相关作品[31，39，22]相比，我们的数据集是从不同天气条件，飞行高度和相机视图等的各种场景中收集的。3评价与分析我们为每个任务运行一组具有代表性的最先进的算法这些方法的代码可以在线获得或从作者那里获得。所有的算法都在训练集上进行训练，并在测试集上进行评估。有趣的是，其他数据集中的一些高排名算法可能会在复杂的场景中失败。3.1对象检测当前顶级的基于深度的对象检测框架被分为两个主要类别：基于区域的（例如，基于深度的）对象检测框架。、Faster-RCNN [37]和R-FCN[8]）和无区域（例如，，SSD [27]和RON [25]）。因此，我们评估UAVDT数据集中的上述4个探测器。8对象密度表示每帧中对象的平均数量无人机基准测试7图3.第三章。UAVDT-DET数据集测试集的精密度-召回图。图例分别显示了每种DET方法的AP得分和GPU/CPU速度。见图4。各属性DET方法的定量比较结果。指标. 我们遵循PASCAL VOC挑战[16]中的策略来计算精确度-召回图中的平均精确度（AP）得分，以对DET方法的性能进行排名。如在KITTI-D [19]中执行的，一对检测到的边界框和地面实况边界框之间的重叠的命中/未命中阈值被设置为0。7.实施详情。我们在CPU i9 7900x和64G内存以及Nvidia GTX 1080 TiGPU的机器上训练所有DET方法。Faster-RCNN和R-FCN分别在VGG-16网络和Resnet-50网络上进行了微调我们使用0。001作为前60k次迭代的学习速率，以及0. 0001用于接下来的20k次迭代。对于无区域方法，根据GPU容量，512×512模型的批量大小为5。对于SSD，我们使用0。005作为120k次迭代的学习速率。对于RON，我们使用0。001作为前90k次迭代的学习率，然后我们将其衰减为0。0001，并继续训练接下来的30k次迭代。对于所有算法，我们使用动量0。9，权重衰减为0。0005.总体评价图3显示了DET方法的定量比较，其显示没有令人满意的准确性。例如，R-FCN获得70。06%AP得分，即使在KITTI-D 9的硬集，但只有34。35%在我们的数据集。这可能是我们的数据集包含大量的小对象由于9从www.example.com对象复制检测结果http://www.cvlibs.net/datasets/kitti/eval。php的？obj基准=2d。8D. Du等这是物体检测中的一个困难挑战。另一个原因是海拔越高，背景越杂乱。为了解决这个问题，SSD结合了多尺度特征图来处理各种尺寸的然而，它们的特征图通常是从先前的层次中提取出来的，对于小物体来说缺乏足够的语义意义从SSD改进而来然而，RON在我们的数据集上不如SSD这可能是因为后面的层是如此抽象，表示小对象的外观不那么有效，由于低分辨率。因此，使后面的层熔合的反向连接另一方面，基于区域的方法通过从区域建议网络生成区域建议来提供更准确的初始位置以获得鲁棒的结果值得一提的是，R-FCN通过使Faster-RCNN的非共享每ROI计算可共享来实现最佳结果[25]。基于属性的评估为了进一步探索DET方法在不同情况下的有效性，我们还在图4中对不同属性进行了评估对于前3个属性，DET方法在对象具有更多细节的序列上执行得更好，例如。、低仰角和侧视图。而对象数量更大，背景在白天比晚上更杂乱，导致在白天的性能更差。对于剩余的属性，当检测大型车辆以及处理遮挡和视野外时，性能会急剧下降结果可归因于两个因素。首先，大型车辆的训练样本非常有限，使得很难训练检测器识别它们。如图2所示，卡车和公共汽车的数量仅占整个数据集的10%以下此外，更难检测到具有其他干扰的小物体对于遮挡或视野外的小目标检测，需要做大量的工作运行时性能。虽然基于区域的方法获得了相对良好的性能，但它们的运行速度（即，5fps）对于实际应用来说太慢，特别是对于有限的计算资源。<相反，区域自由方法节省了区域建议生成的时间，并且以几乎实时的速度进行3.2多个物体追踪MOT方法通常分为在线或基于批处理的。因此，我们评估了8种最近的算法，包括在线方法（CMOT [2]，MDP [50]，SORT [6]和DSORT[48]）和基于批处理的方法（GOG [35]，CEM [30]，[13][14][15][16][17]指标.我们使用多个指标来评估MOT性能。这些包括识别精度（IDP）[38]，识别召回率（IDR）和相应的F1得分IDF1（正确识别的检测与地面真实和计算检测的平均数量之比）。多个对象无人机基准测试9图五. 各属性MOT方法的定量比较结果。跟踪精度（MOTA）[4]、多目标跟踪精度（MOTP）[4]、大部分跟踪目标（MT，轨迹假设覆盖至少80%的地面实况轨迹的百分比）、大部分丢失目标（ML，轨迹被跟踪输出覆盖小于20%的地面实况对象的百分比）、误报总数在一个实施例中，轨迹被分段的次数可以包括：假阴性的总次数（FP）、假阴性的总次数（FN）、ID切换的总次数（IDS）以及轨迹被分段的总次数（FM）。实施详情。由于上述MOT算法基于检测跟踪框架，因此为MOT任务提供所有 4个检测输入。我们在具有CPU i7 6700和 32G内存以及NVIDIA Titan X GPU的机器上的UAVDT数据集的测试集上运行它们。如表3所示，具有Faster-RCNN的MDP具有最好的43. 0MOTA评分和61。5所有组合中的IDF得分此外，我们数据集中SORT的MOTA得分远低于Faster-RCNN的其他数据集，例如。，59。8± 10。3在MOT16 [29]中。由于物体密度大10D. Du等表3.UAVDT数据集测试集中MOT方法的定量比较结果。最后一列显示GPU/CPU速度。最佳性能和实时方法（> 30 fps）以粗体突出显示。“-”表示数据不是available.MOT方法IDF IDP IDR MOTA MOTP MT[%] ML[%]FPFNIDsFM速度[fps]检测输入：[37]第三十七话CEM [30]10个。219 四个七0-7。369岁。67 .第一次会议。368岁6七二三七八二九零九百六十二两千四百八十八4,248−/14。55CMOT [2]52岁063 九点四十三8三十六474.5三十六5二十六岁1五十三九百二十160，963一千七百七十七五七零九−/2。83DSORT [48]五十八2722488四十7七十三。241岁723岁7四四八六八一百五十五，二百九十二千零六十一六千四百三十二十五岁01/2. 98GOG[35]0的情况。40的情况。50 的情况。3三十四4七十二2三十五5二十五3四十一、一百二十六一百六十八、一百九十四14，30112516-43652IOUT[7]23岁七点半3195 三十六6七十二1三十七4二十五0四十二，二百四十五一六三，八百八十一九九三八10463 −/1438.34MDP [50]61.5 74.5 52.3 43.0七十三。545.322.7四十六、一百五十一147,735541四千二百九十九−/0。68SMOT[13]四十五055 七点三十七8三十三岁。9七十二2三十六7二十五7五十七、一百一十二一六六五二八一千七百五十二九五七七−/115。27SORT[6]四十三758 九点三十四839岁074岁3三十三岁。928岁033,037 一百七十二，六百二十八两千三百五十五七八七-/24579检测输入：R-FCN [8]CEM [30]10个。318 四个七2-9。6七十4六、067岁8八十一，六百一十七289，6832，201三千七百八十九−/9。82CMOT [2]50块8 59四四四3二十七岁178.5三十五9二十七岁9八零五百九十二一六七○四三919两千七百八十八−/2。65DSORT [48]55. 567.347. 230.9七十七。0三十六6二十七岁466，839 一六八、四百零九424四千七百四十六9 .第九条。22/195GOG[35]0的情况。30的情况。4 0的情况。328岁5七十七。1三十四428岁660、511一百七十六，二百五十六六千九百三十五六千八百二十三−/43394IOUT[7]44. 047 五点四十9二十六岁975. 944.322.9九十八七百八十九145,617 四千九百零三六、一百二十九−/863.53MDP [50]55.8 63. 949.528岁9七十六。7四十9二十五9八二五百四十一百五十九、四百五十二4112,705−/0。67SMOT[13]44. 053 5373二十四岁5七十七。2三十三岁。729岁2七六五百四十四一百七十九，六百零九一千三百七十五、一百四十二−/64。68SORT[6]四十二658 七点三十三5三十278.529岁531岁944,612190，999 二千二百四十八四千三百七十八−/209。31检测输入：SSD [27]CEM [30]10个。121 1六、6-6。8七十4六、674岁4六十四，三百七十三二九八零九零一千五百三十2,835−/11。62CMOT [2]四十九453 四四六0二十七岁275. 1三十八岁。323岁5九八九一五一四六、四一八二千九百二十六九一四−/0。90DSORT [48]51岁四六五七四十二2三十三岁。676.7二十七岁9二十六岁951,549 一七三六百三十九1,143 八千六百五十五十五岁00/3. 46GOG[35]0的情况。30的情况。4 0的情况。3三十三岁。6七十六。4三十六0二十二岁4七万零八十一百四十八，三百六十九七九六四一万零二十三−/239. 60IOUT[7]29岁434 五点二十五6三十三岁。5七十六。6三十四323岁4六五四九154， 042 六千九百九十三八七九三−/976.47MDP [50]58.8 63. 255.039.8七十六。547.319.5七十九七百六十124,206一千三百一十四千五百三十九−/0。13SMOT [13]41岁九点四十五九点三十八。6二十七岁2七十六。5三十四9二十二岁9九十五，七三七一四九七百七十七两千七百三十八九千六百零五−/11。59无人机基准测试11SORT[6]三十七1 四十五八点三十一分1三十三岁。276.7二十七岁3二十五4五十七、四百四十一六六四百九十三三千九百一十八七千八百九十八−/153。70检测输入：[25]CEM [30]10个。118. 八六。9-9。768岁8六、9七十二6七十八、二百六十五二九三五七六二千零八十六3,526−/9。98CMOT [2]五十七5 六十五7511三十六974.746.524.6六十九、一百零九144,7601111 三千六百五十六−/0。94DSORT [48]五十八367 九点五十一。2三十五8七十一5四十三4二十五767090十五万一千零七698四三一一十七岁45/402GOG[35]0的情况。30的情况。3 0 的情况。2三十五7七十二0四十三9二十六岁2六二九一百五十三，三百三十六三、一百零四五千一百三十-/28797IOUT[7]50块159 一百四十三4三十五6七十二0四十三9二十六岁2六三零八十六一百五十三，三百四十八二千九百九十一五、一百零三−/1383.33MDP [50]59.9 69.0 52.9三十五3七十一7四十五0二十五5七十一百八十六一百四十九，九百八十414三千六百四十−/0。12SMOT [13]52岁660 八点四十六3三十二8七十二0四十三4二十七岁1七三、二二六154，696一千一百五十七四千六百四十三−/29. 37SORT[6]五十四666 九点四十六。137.2七十二2四十828岁053,435一百五十九，三百四十七一千三百六十九三千六百六十一-/23055在UAV视频中，对于相同的算法，我们的数据集上的FP和FN值也比其他数据集大得多。同时，IDS和FM出现的频率更高。这意味着拟议的数据集比现有的数据集更具挑战性。此外，仅使用位置信息（例如，位置信息）的算法不适用。、IOUT、SORT）可以保持更少的轨迹线，同时具有更高的IDS和FM。GOG有最差的IDF，即使MOTA是好的，因为太多的IDS和FM。在这些方法中，DSORT在入侵检测中表现较好，这意味着深度特征在表示同一目标的外观方面具有优势。MDP大多具有最好的IDS和FM值，因为他们的个人智慧的跟踪模型。所以这些轨迹比其他具有更高IDF的人更完整。同时，FP值将通过在复杂场景中关联更多对象来增加。10D. Du等图六、使用一次通过评估的UAVDT-SOT基准的精度和成功图[49]。图5示出了MOT方法对不同属性的性能。大多数方法在白天比在夜间或雾中表现更好（见图5（a））。日光下的物体为跟踪提供了更清晰的外观线索，这是公平合理的在其他照明条件下，对象外观令人困惑，因此考虑更多运动线索的算法实现更好的性能，例如。、SORT、SMOT和GOG。值得注意的是，在具有夜晚的序列上，即使在夜晚提供的检测具有良好的AP得分，方法的性能也差得多这是因为在夜间的混乱环境中很难跟踪物体。在图5（b）中，大多数MOT方法的性能随着高度的下降而增加当无人机在较低高度捕获在如图5（c）所示的摄像机视图方面，与鸟瞰图相比，前视图和侧视图中的车辆提供更多细节以区分不同目标，从而导致更好的准确性。此外，不同的检测输入可以引导MOT方法聚焦于不同的场景。具体地，Faster-RCNN的性能在对象细节更清晰的序列上更好（例如，日光、低高度和侧视图）;而当序列具有其他挑战性属性（例如雾和高高度）时，R-FCN检测为每种方法提供更稳定的输入。SSD和RON为跟踪提供了更准确的检测候选，使得具有这些检测的MOT方法的性能在每个属性中得到平衡运行时性能。给定不同的检测输入，每种方法的速度随着对象检测候选的数量而变化。然而，仅使用位置信息的IOUT和SORT通常以超实时速度进行，而使用外观信息的DSORT和CMOT进行得慢得多。由于我们的数据集中对象数量巨大，因此该方法分别处理每个对象的速度（例如，，MDP）急剧下降。3.3单对象跟踪SOT领域由基于相关滤波器和深度学习的方法主导[15]。我们在我们的数据集上评估了18个最近的此类跟踪器这些跟踪器通常可以基于它们的学习策略和性能被分类为3类。12D. Du等表4. 定量比较结果（即重叠分数/精确度分数）。最后一列显示GPU/CPU速度。最好的performer和realtime方法（>30fps）以粗体突出显示“- ” 表示数据不可用。SOT方法BC CR OR SO IV OB SV LO速度[fps]MDNet [33]39.7/63.6 43.0/69.64/78。448.5/76。447.0/72。446.2/68.5 38.1/54.70的情况。八九比零28ECO [9]三十八岁。9/61。一百四十二2/64。439 5/62。7 46.1/79。一百四十七3/76九点四十三7/71。043 1/63。2360/508十六岁95/3。90Goturn[20]三十八岁。9/61。一百四十二2/64。439 5/62。7 46.1/79。一百四十七3/76九点四十三7/71。043 7/63。2360/50865.29/11.70暹罗足球俱乐部[5]三十八岁。6/57。八点四十9/61。6 384/60。043 9/73。247 4/74。245 第四十二章. 4/60。4359/479三十八岁。20/5。50ADNet [52]三十七0/604 39岁9/64。8 三十六8/60。一百四十三2/77。九点四十五8/73。七四二8/68。九点四十9/61。2358/49。2五、78比242CFNet [43]三十六0/56。七点三十九分7/64。336. 9/59。九点四十三5/77。五点四十五1/72。七四三5/71。七点四十9/61。1333/4478. 94/645SRDCF [10]三十五3/58。239 0/64236 5/60。042 2/76。四点四十五1/74。七点四十一。7/70六点四十。2/59。六点三十二。7/46。0−/14。25SRDCFDecon [11]三十六0/57439 0/610 366/57。八点四十三1/73。八点四十五5/72。342 9/69。5380/54九点三十一分5/42。5−/7. 26C-COT [12]三十四0/55七点三十九分0/62三点三十四分1/56。一百四十四2/79。241 6/72。0372/66。237 9/55。九点三十三5/46。00的情况。87比0 79MCPF [53]31岁0/51236 3/59。233 0/55339 7/74。542 2/73。一百四十二0/73035 9/55。130 1/42。51 .一、84比0 89[第41话]三十三岁。6/56。238 7/62。一百三十五4/55八点三十八3/74。240 5/69。0377/65。六点三十六5/56。七点三十五1/49。7二、83比036U型钉-CA[32]三十二9/59。235 2/65。八点三十四。6/62038 第四十三章. 1/77.2 40. 6/71。336.7/62。332. 5/49。6−/42.53STCT [45]三十三岁。3/56。0 360/61三点三十四分3/57。5 383/71。040 8/69。九点三十七0/63337 3/59。九点三十一分7/46。61 .一、76比0 09PTAV [17]31岁2/57。235 2/63。九点半9/56。438 0/79138 1/69。六点三十六7/66。2333/56。五点三十二9/50312个。77比0 10CF2 [28]29岁2/48。六点三十四1/56。九点二十九。7/48。235 6/69。5 387/67。九点三十五8/65。一百二十九0/453283/3818. 07/1.99HDT [36]二十五1/50。一百二十七3/56。224 8/48。七点二十九8/72。六点三十一分3/68六点半3/65四点二十五0/452254/37。6五、25/172KCF[21]23岁5/45。八点二十六。7/53。四点二十四4/45。四点二十五1/58。131 1/65。七点二十九7/65。225 4/49。0228/34。4−/39. 26SINT[42]三十八岁。9/45。八点二十六。7/53。四点二十四4/45。四点二十五1/58。1311/65。七点二十九7/65。225 4/49。0228/34。4三十七60/−FCNT [44]20块6/54。八点二十一8/60。223 6/54。九点二十一。9/71。九点二十五5/72。一百二十四2/70。五点二十四6/57。522 3/4723 .第三章。09/−利用的特点：I）具有手工制作特征的相关滤波器（CF）跟踪器（KCF [21]、Staple-CA [32]和SRDCFDecon [11]）; II）具有深度特征的CF跟踪器（ECO [9]、C-COT [12]、HDT [36]、CF2 [28]、CFNet [43]和PTAV [17]）;三）深度跟踪器（MDNet [33]，SiamFC [5]，FCNT [44]，SINT [42]，MCPF [53]，GOTURN [20]，ADNet [52]，CREST [41]和STCT [45]）。指标.遵循流行的视觉跟踪基准[49]，我们采用成功图和精度图来评估跟踪性能。成功图示出了其与其对应的地面实况边界框的交集大于给定阈值的边界框的百分比成功图中的追踪器根据其成功分数进行排名，其定义为曲线下面积（AUC）。精度图显示了其中心点在给定距离（0 50像素）内的边界框与地面真实值的百分比。精度图中的跟踪器根据其精度分数进行排名，精度分数是20像素的距离阈值内的边界框的百分比。实施详情。所有的跟踪器都运行在有CPU的机器上i7 4790k和16G内存，以及NVIDIA Titan X GPU。总体评价图6中报告了每个跟踪器的性能。该图示出：I）所有评估的跟踪器在我们的数据集上表现不佳。具体地，诸如MDNet的最先进的方法仅实现了四十六岁。4成功得分和72。5精度评分。与最佳结果相比（即、69岁。4成功得分和92。8精度分数）[49]，制定了一个显当与UAV-123的结果例如，KCF的成功得分为33。1架在UAV-123上，但只有29架。0在我们的数据集。这些结果表明，我们的无人机基准测试13数据集的视觉跟踪社区提出了新的挑战，更多的努力可以投入到现实世界的无人机跟踪任务。II）一般来说，深度跟踪器比具有深度特征的CF跟踪器获得更准确的结果，然后是具有手工制作特征的CF跟踪器。在排名前10的追踪者中，6个深度跟踪器（MDNet，GOTURN，SianFC，ADNet，MCFP和CREST），3个具有深度功能的CF跟踪器（ECO，CFNet和C-COT），以及一个具有手工制作功能的CF跟踪器SRDCFDecon。如表4所示，深度跟踪器MD-Net在8个跟踪属性中的7个上实现了最佳结果，这可以归因于其多域训练和硬样本挖掘。具有深度功能的CF跟踪器（如CF2和HDT）由于没有尺度适应而落后SINT [42]在跟踪期间不更新其模型，这导致性能有限。Staple-CA在SO和IV属性上表现良好，因为其改进的模型更新策略可以减少对最近样本的过拟合大多数评估方法对BC和LO属性的作用很差，这可能是由从杂乱或低分辨率图像区域提取的外观特征的区分能力下降运行时性能。从表4的最后一列，我们注意到I）即使在高端CPU上，排名前10的精确跟踪器也远非实时运行例如，前10名中最快的跟踪器只能在11处运行。7fps，最精确的MDNet运行速度为0。每秒28帧。另一方面，CPU上的实时跟踪器（例如，，Staple-CA和KCF），达到成功分数39。5和29。0，这对于实际应用来说是不可容忍的。II ）当使用高端 GPU 卡时， 18 个跟踪器中只有 3 个（ GOTURN ，SiamFC，SINT）可以实时执行。但他们最好的成功分数也只有45分。1，对于实际应用来说不够准确。总的来说，需要做更多的工作来开发更快，更精确的跟踪器。4讨论我们的基准，提供从现实生活中的需求，生动的样本真实情况。由于与其他数据集的合理性能相比，算法在其上的表现通常很差，因此我们认为这个基准数据集可以揭示一些有前途的研究趋势，并使社区受益基于以上分析，有几个研究方向值得探索：实时问题。在实际应用中，运行速度是一个至关重要的指标。虽然深度学习方法的性能大大优于其他方法（特别是在SOT任务中），但嵌入式无人机平台对计算资源的要求非常苛刻。为了实现高效率，一些最近的方法[54，47]通过修剪，压缩或低位表示来开发近似网络我们希望未来的工作更多的实时约束，而不仅仅是准确性。前科。不同的方法在不同的场景中表现最好。在检测和跟踪方法中考虑场景先验时，更鲁棒的每14D. Du等性能是预期的。例如，MDNet [33]为每个序列训练特定我们认为，随着我们的数据集，这个宏伟的设计可能会激发更多的方法来处理可变场景。动作线索。由于外观信息并不总是可靠的，跟踪方法将获得更多的鲁棒性时，考虑运动线索。许多最近提出的算法在LSTM [51，24]的帮助下在这一趋势中做出了努力，但仍然没有达到预期。考虑到目标和背景的剧烈运动，我们的基准测试可能会在未来的研究趋势。小物件。在我们的数据集中，27。5%的物体由小于400个像素组成，几乎为0。07%的画面。它为特征提取提供的纹理和轮廓有限，这导致严重基于外观的算法的准确性损失。同时，通常方法倾向于通过对图像进行下采样来节省它们所消耗的时间。它严重加剧了情况，例如。通过对作者提供的代码

下载后可阅读完整内容，剩余1页未读，立即下载