多目标跟踪中的挑战及一种针对无人机视图的跟踪方法

5 浏览量更新于2023-10-26 收藏 14.16MB PDF 举报

多目标跟踪

改进方法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

88760多目标跟踪遇上移动无人机0Shuai Liu † 1 , Xin Li † 2 , Huchuan Lu 1 , 2 , You He � 301 大连理工大学，2 鹏城实验室，3 海军航空大学 1 中国大连，2 中国深圳，3 中国烟台0lshuai@mail.dlut.edu.cn, xinlihitsc@gmail.cn, lhchuan@dlut.edu.cn, youhe nau@163.com0摘要0无人机视频中的多目标跟踪是一项重要的视觉任务，可以应用于广泛的应用领域。然而，由于移动相机和在三维方向上的视角变化所带来的不规则运动等挑战因素，传统的多目标跟踪器在无人机视频上效果不佳。在本文中，我们提出了一种专门用于无人机视图中的多目标跟踪的UAVMOT网络。UAVMOT引入了一个ID特征更新模块来增强目标的特征关联。为了更好地处理无人机视图下的复杂运动，我们开发了一个自适应运动滤波模块。此外，我们使用了一个梯度平衡的焦点损失来解决类别不平衡和小目标检测问题。在VisDrone2019和UAVDT数据集上的实验结果表明，所提出的UAVMOT在无人机视频上相对于现有的跟踪方法取得了显著的改进。01. 引言0多目标跟踪（MOT）是计算机视觉中的一项基本任务，广泛应用于众多应用领域[30，33]，如自动驾驶、智能交通系统和高级视频分析。MOT方法[5，45]通常遵循检测跟踪范式，包括两个步骤：检测和数据关联。检测步骤在每一帧中生成目标对象的潜在框预测，而数据关联步骤根据外观和运动线索将同一目标的预测框在帧之间进行匹配[18]。最近，由于无人机的便利性和灵活性，无人机视图中的多目标跟踪引起了研究人员的浓厚兴趣[1，31，39，51]。尽管在传统的多目标跟踪方面取得了进展（通常在静态视频中进行测试）0† 相等贡献，� 对应作者0类别不平衡0检测数据关联0视角变化0不规则运动0图1.无人机视频中的MOT挑战。检测阶段：无人机视频中的目标类别不平衡，无人机视图下的大多数目标都很小。数据关联阶段：由于无人机相机的移动，目标的外观和运动会不规则且快速地变化。0在移动无人机视图下，多目标跟踪仍然具有挑战性。如图1所示，在检测和数据关联阶段需要紧急解决两个关键问题。在检测阶段，移动无人机视图中通常存在多个类别的目标，每个类别的目标数量极不平衡，这使得检测模型的训练变得困难。此外，由于无人机的高空飞行，无人机视频中的大多数目标都很小，这进一步加剧了检测任务的难度。在数据关联阶段，挑战在于目标对象的外观和运动信息不一致，这是由于不规则和快速的相机运动导致的，通常会导致ID切换。无人机视频中的目标运动是目标移动和无人机运动的叠加，这是不规则且难以由传统的卡尔曼滤波器建模的。在本文中，我们提出了一种新颖的多目标跟踪器，名为UAVMOT网络，用于移动无人机视频的多目标跟踪。为了增强目标的ID嵌入特征，我们构建了一个ID特征更新（IDFU）模块。88770ule，其中使用相关技术[12]来关联相邻帧特征，并且ID嵌入特征将随着无人机视角的变化而更新。为了解决无人机运动引起的问题，我们开发了自适应运动滤波器（AMF），其中使用运动模式来判断无人机的运动模式，并根据运动模式应用不同的跟踪策略。特别地，我们专门设计了一个局部关系滤波器来处理无人机的不规则运动，它捕捉到了与无人机移动无关的不变特征。此外，为了缓解不平衡类别分类和小尺度对象检测的问题，我们提出了梯度平衡的焦点（GBF）损失来监督热图的学习。GBF损失结合了均衡损失[29]来平衡不平衡的类别，并增强小尺度对象的检测能力。我们在两个公共基准数据集上进行了实验，即VisDrone2019数据集[52]和UAVDT数据集[13]，以评估所提出的算法。实验结果表明，所提出的UAVMOT能够准确地跟踪无人机视角中的多个对象。这项工作的主要动机是专门为无人机设计一种新颖的多目标跟踪器。它充分考虑了无人机视频视角中的对象特性，并针对多目标跟踪任务进行了相应的改进。本文的主要贡献总结如下：0•我们提出了一种ID特征更新模块，以增强对象ID嵌入特征，可以根据无人机的视角变化自适应地更新ID特征。0•我们为无人机视频中的对象的复杂运动跟踪开发了自适应运动滤波器，该滤波器能够自适应地切换运动滤波器以适应无人机的运动。0•我们设计了一种新颖的梯度平衡的焦点损失来监督对象热图的学习，不仅考虑了不平衡的类别，还关注了无人机视频中的小尺度对象。02. 相关工作0在本节中，我们讨论了最近的多目标跟踪方法和数据关联问题的研究。多目标跟踪。早期的MOT算法遵循跟踪检测范式的两阶段框架。第一步是在每个视频帧中检测所有目标，第二步是关联这些检测到的对象。例如，SORT [3]使用FastRCNN[15]在每个帧图像中检测目标，然后使用卡尔曼滤波器和匈牙利匹配算法完成多个对象的数据关联。Deep SORT[40]在此基础上进行了改进。0SORT，并提出了级联匹配的思想来进一步提高多目标跟踪的准确性。为了平衡MOT的准确性和速度，研究人员开始提出单阶段多目标跟踪算法。单阶段多目标跟踪算法的主要框架是在检测器的头部添加一个嵌入向量用于ReID学习，这个嵌入向量在后期用于多目标数据关联。例如，JDE[37]首次从YOLOv3[26]的特征图中提取特征向量。FairMot [46]在CenterNet[50]的基础上添加了嵌入向量的学习，形成了一个多目标跟踪器，并取得了良好的准确性和速度。CenterTrack[49]直接预测目标中心点的位移。最近，Transformer技术开始应用于计算机视觉，并在各种视觉任务上表现出良好的性能。对于多目标跟踪，研究人员将每个跟踪目标视为一个查询，其中包含其ID特征和几何信息[8, 22, 28,43]。例如，孙等人[28]提出了TransTrack，首次将Transformer技术应用于MOT任务，并建立在DETR[6]检测器的基础上。曾等人[43]提出了MOTR，实现了端到端的多目标跟踪器，隐式地关联了多帧的时间关联。楚等人[8]提出了TransMOT，将Transformer和图形结合起来。0数据关联。数据关联[44]是MOT中的关键步骤，特别是在检测跟踪范式中。它将两个不同帧之间的检测到的目标关联起来，并给予相同的ID编号。一般来说，数据关联主要遵循两个关键线索：目标特征和运动规律。对于目标外观，类似于ReID任务[47]，研究者提取每个目标的特征以区分不同的目标。例如，JDE预测一个ID嵌入向量来表示目标的ID特征。对于目标的运动规律，使用各种滤波方法来跟踪目标，如卡尔曼滤波器[38]，粒子滤波器[20]。此外，一些研究者将数据关联问题转化为图匹配问题[21, 27, 32,35]。首先，将多目标跟踪过程构建为一个图，其中每个检测到的目标作为一个节点，边表示两个检测到的目标之间的关系。然后，可以通过最小成本全局优化来解决图匹配问题。例如，He[16]等人提出了一种新颖的可学习图匹配方法用于多人群跟踪，该方法侧重于帧内的关系并实现端到端优化。Wang[36]等人提出了一种结合图网络的方法，避免了额外的数据关联。尽管图匹配技术可以有效解决匹配问题，但它消耗了大量的计算资源。提出的自适应运动滤波器也考虑了目标之间的关系，但其形式更简洁，计算量较小。88780视频序列0特征提取器检测头 0宽高0ADA0I t0DLA340检测头0检测0F ID0ID框Hm0前K个特征提取器0ID特征更新0特征相关性0IDFU0跟踪0AMF0IoU关联0局部关系滤波器0无人机运动模式选择0匹配算法0是正常否0框0类别0F ID0F ID0F ID0图2. 提出的UAVMOT概述。在无人机视频序列{I t ∈ R W × H × 3} T t =1中，将相邻的两帧图像I t和It−1作为输入，UAVMOT使用DLA34作为主干提取目标特征。在目标检测头中，建立了三个并行分支，用于目标边界框尺寸（宽度和高度）wh，目标热图Hm和跟踪ID嵌入特征FID。在ID嵌入特征分支中，提出了一种ID特征更新（IDFU）模块来增强ID特征的学习。在跟踪阶段，我们设计了自适应运动滤波器（AMF）根据无人机的运动自适应地跟踪目标。此外，我们提出了一种梯度平衡的焦点损失来缓解类别不平衡问题并增强小目标的检测能力。0长尾目标分布。长尾目标分布是现实世界中的常见现象。头部类别有大量实例，而尾部类别只有少量实例。长尾分布给目标分类带来了巨大的困难，因为网络在训练中更关注头部类别，而忽视尾部类别。为了解决类别不平衡的问题，许多研究者在文献中提出了一系列方法。一方面，一些研究者从损失函数的角度考虑。例如，Feng[14]等人利用平均分类得分来指示分类学习状态，并提出了平衡损失来平衡分类。Wang[34]等人提出了一种自适应类别抑制损失，避免了复杂的手动分组。Hsieh[17]等人提出了一种自适应DropLoss用于目标实例分割。另一方面，一些研究者从训练策略的角度考虑长尾问题。例如，Yu等人[42]提出了一种双重采样器，分别对尾部和头部类别的目标提议进行有偏采样。Zhou等人[48]提出了一种新颖的累积学习策略用于分类。03. UAVMOT网络03.1. 整体框架0给定由移动无人机捕获的视频序列{I t∈RW×H×3}T t=1，我们的UAVMOT旨在提出类别{C}N i=1，边界框{B}Ni=1和跟踪标识{ID}N i=1的物体。UAVMOT的整体框架如图2所示。我们将两个相邻帧图像I t-1和It输入UAVMOT网络。这两个相邻帧经过共享特征提取网络和检测头完成物体检测。检测头包括物体边界框大小wh，热图Hm和跟踪ID嵌入特征FID。我们提出了一个ID特征更新（IDFU）模块，用于加强两个相邻帧之间的ID嵌入特征连接。我们构建了一个自适应运动滤波器（AMF）来处理移动无人机视频中物体的复杂运动。此外，为了减轻类别不平衡问题并增强小尺度物体的检测能力，我们提出了一种梯度平衡的焦点（GBF）损失来监督物体热图的学习。0识别{ID}Ni=1的N个物体。UAVMOT的整体框架如图2所示。我们将两个相邻帧图像I t-1和It输入UAVMOT网络。这两个相邻帧经过共享特征提取网络和检测头完成物体检测。检测头包括物体边界框大小wh，热图Hm和跟踪ID嵌入特征FID。我们提出了一个ID特征更新（IDFU）模块，用于加强两个相邻帧之间的ID嵌入特征连接。我们构建了一个自适应运动滤波器（AMF）来处理移动无人机视频中物体的复杂运动。此外，为了减轻类别不平衡问题并增强小尺度物体的检测能力，我们提出了一种梯度平衡的焦点（GBF）损失来监督物体热图的学习。03.2. ID特征更新0在UAVMOT中，ID嵌入特征用于识别每个物体的ID信息，对于数据关联至关重要。然而，随着无人机的移动，物体的特征会发生变化，这不利于ID嵌入特征的学习，对后续特征关联也有害。为了增强物体特征的关联，受[12,19]中相关层的启发，我们提出了一个ID特征更新（IDFU）模块，用于在两个相邻帧中学习ID嵌入特征。IDFU模块提取前一帧物体特征与当前帧特征进行关联，可以自适应地更新各种无人机视角下的ID嵌入特征。WA��1FtID�Ft1FKtID�1FCtID�FtIDFAtID21487936510111234597861110�� = �� = ��88790更新0卷积最大池化0前K个关键点0wxhxN0阶段10阶段2 阶段30Kx1280wxhx1280wxh x128 conv0Kx160wxhx1440合并0t-1 Hm0图3.IDFU模块的架构。IDFU模块由三个阶段组成：第一阶段，提取前一帧特征；第二阶段，两个相邻帧特征的相关；第三阶段，ID嵌入特征的更新。0如图3所示，IDFU模块由三个阶段组成。首先，我们提取前一帧I t-1中的物体ID嵌入特征F t-1ID。为了简化特征计算，我们只提取热图中相应的前K个关键点ID嵌入特征FK t-1 ID。然后，将FK t-1ID从128维压缩到16维，得到压缩ID特征FC t-1ID，用于后续特征更新。其次，我们通过两个相邻帧特征的相关操作得到特征增强注意力权重WA。这些相关注意力权重WA指导网络在当前帧中应该关注的位置。通过乘法将WA与FC t-1ID相结合，通过一系列操作得到前一帧注意力特征FA t-1ID。最后，将注意力特征FA t-1ID与当前ID相结合，并通过卷积完成物体ID嵌入特征的更新。03.3. 自适应运动滤波器0在无人机视频序列中，物体的运动不再是线性运动，而是由无人机运动和物体本身运动耦合形成的非线性运动。传统的卡尔曼滤波器难以处理这种不规则运动，我们提出了一种自适应运动滤波器（AMF）来处理复杂的无人机运动。AMF模块根据无人机的不同运动模式自适应地切换不同的滤波器，可以准确完成对象的ID关联。无人机运动模式选择。根据无人机的运动，无人机视频中的物体运动可以大致分为两种模式：正常模式和异常模式。在正常模式下，无人机在天空中平稳正常地飞行，视频中的物体运动可以视为近似的线性运动；在异常模式下，无人机突然旋转或加速，无人机视频中的物体运动呈现一种非线性运动。0具体而言，在两个相邻帧之间对物体执行卡尔曼滤波，并计算物体匹配数量。当匹配数量高于一定阈值 p时，我们认为它处于正常模式，反之亦然。AMF模块分别在两种运动模式下采用IoU关联和局部关系过滤器。0局部关系过滤器。局部关系过滤器旨在创建一个过滤器，避免受到无人机的外部运动的影响。幸运的是，我们注意到在两个相邻帧之间，物体之间的位置关系基本保持不变。为了充分利用局部位置关系的这一永久特性，我们提出了局部关系过滤器。局部关系过滤器设计了一个相对关系向量v，用于描述局部区域内物体与周围物体之间的位置关系。每个物体周围有许多相对位置关系，为了简化计算，相对关系向量 v 只包含三个元素：最远物体的长度 lmax，最近物体的长度 l min 和这两个物体之间的夹角θ。如图4所示，我们绘制了两帧检测到的物体分布，每个点代表一个检测到的物体。以红色点 P 1为例，将其作为中心点，以半径为 R 的圆作为 P 1的局部区域。在局部区域内，找到最近的点 P 2 和最远的点P 8。我们分别给出了两个相邻帧中的相对关系向量 v = [θ, lmax, l min] 和 v' = [θ', l' max, l'min]。显然，相对关系状态向量基本保持不变，不受无人机运动的影响。0图4. 相对关系向量的示意图。0当切换到异常模式时，我们获取视频帧 I t 中检测到的 m个对象，并计算其相对关系向量v。这些相对关系向量用于构建与 n个跟踪对象的位置相似性的余弦相似性矩阵，并获得一个 m× n 的位置相似性矩阵 ML。然后，使用ID嵌入特征构建ID特征相似性矩阵 M F，将M L 与 M F 融合，得到最后的相似性矩阵 M用于匹配算法。整体上88800无人机多目标跟踪算法可以总结为算法1。0算法1 无人机多目标跟踪算法0输入：一组无人机视频序列 { I t ∈ R W × H × 3 } T t=1 输出：跟踪到的目标 T t = { B t , C t , ID t }01：当 t < T 时执行循环2：输入相邻的两帧图像 I t − 1，I t。3：完成目标检测，获取两帧检测到的目标 O t − 1= { B t − 1 , C t − 1 }，O t = { B t , C t}。4：获取ID嵌入特征 F t − 1 ID ，F tID，完成特征关联。05：卡尔曼滤波并判断物体运动模式。6：如果处于正常模式，则进行IoU关联。08：否则9：局部关系过滤器。010：结束如果011：匹配算法，获取IDt。12：结束循环03.4. 梯度平衡焦点损失0无人机视频中的环境比传统的多目标跟踪更加复杂，其中两个突出的问题影响了检测的性能：类别不平衡和小尺度物体检测。为了解决这两个问题，我们提出了一种梯度平衡焦点（GBF）损失来监督物体热图的学习。GBF损失不仅可以缓解类别之间的不平衡，还可以关注小尺度物体。0W b0W s0C0H0W0图5. GBF损失的示意图。0特别地，GBF损失在原始的交叉熵损失LHm上进行了改进，并设计了两个自适应权重来重新调整目标热图学习的损失：类别平衡权重Wb和小尺度目标注意力权重W s。如图5所示，Wb用于平衡类别，Ws用于专注于小尺度目标。这两个自适应损失权重分别考虑了不平衡的类别和目标大小。GBF损失的定义如下：0GBF = W b ∙ W s ∙ L Hm (1)0小尺度目标注意力权重Ws专注于小尺度目标，并给予小目标更大的权重。特别地，我们通过边界框的面积来衡量目标的大小，因此Ws的定义如下：0W s = e - (w ∙ h - μ) + 1 (2)0其中w和h分别表示目标边界框的宽度和高度，本文中μ=5。类别平衡权重Wb根据对应的梯度给予正样本和负样本不同的权重，Wb的定义如下：0W b = pos w ∙ Hm + neg w ∙ (1 - Hm) (3)0其中pos w和negw分别表示正样本和负样本的权重，它们会随着网络训练而自适应更新，具体的更新过程可以参考[29]。04. 实验04.1. 数据集和评估指标0数据集。为了验证UAVMOT的有效性，我们在VisDrone2019数据集和UAVDT数据集上进行了一系列实验。VisDrone2019数据集[52]用于无人机视角下的跟踪和检测。在MOT任务中，VisDrone2019数据集包括训练集（56个序列）、验证集（7个序列）和测试集（33个序列（测试挑战：16个序列，测试开发：17个序列））。在每一帧中，每个目标都通过边界框、类别和跟踪ID进行了标注。VisDrone2019数据集包括十个类别：行人、人、汽车、货车、公交车、卡车、摩托车、自行车、遮阳三轮车和三轮车。在多目标跟踪评估中，我们只考虑五个目标类别，即汽车、公交车、卡车、行人和货车。UAVDT数据集[13]专门用于车辆目标的检测和跟踪，它包括三个类别：汽车、货车和公交车。在MOT任务中，它分为训练集（30个序列）和测试集（20个序列）。它只考虑了单一类别的汽车。视频图像的分辨率为1080×540像素，包括各种常见场景，如广场、干道和收费站。评估指标。为了评估UAVMOT与其他最先进的方法，我们采用多个指标来衡量跟踪的性能[23]，如多目标跟踪准确度（MOTA）、多目标跟踪精度（MOTP）、ID切换（IDs）和其他指标。0MOTA = 1 - FP + FN 0GT (4)0其中FP、FN和GT分别表示误报样本数、漏报样本数和真实样本数。VisDrone2019SORT [3]14.073.238.05065458084511295436294838GOG [25]28.776.136.4346836177061446571387223788810数据集方法 MOTA ↑ (%) MOTP ↑ (%) IDF1 ↑ (%) MT ↑ ML ↓ FP ↓ FN ↓ IDs ↓ FM ↓0MOTDT [ 7 ] -0.8 68.5 21.6 87 1196 44548 185453 1437 36090IOUT [ 4 ] 28.1 74.7 38.9 467 670 36158 126549 2393 38290MOTR [ 43 ] 22.8 72.8 41.4 272 825 28407 147937 959 39800TrackFormer [22] 25 73.9 30.5 385 770 25856 141526 4840 48550我们的方法 36.1 74.2 51.0 520 574 27983 115925 2775 73960UAVDT0CEM [24] -6.8 70.4 10.1 94 1062 64373 298090 1530 28350SMOT [10] 33.9 72.2 45.0 524 367 57112 166528 1752 95770GOG [25] 35.7 72 0.3 627 374 62929 153336 3104 51300IOUT [4] 36.6 72.1 23.7 534 357 42245 163881 9938 104630CMOT [2] 36.9 74.7 57.5 664 351 69109 144760 1111 36560SORT [3] 39 74.3 43.7 484 400 33037 172628 2350 57870DSORT [40] 40.7 73.2 58.2 595 338 44868 155290 2061 64320MDP [41] 43.0 73.5 61.5 647 324 46151 147735 541 42990我们的方法 46.4 72.7 67.3 624 221 66352 115940 456 55900表1. UAVMOT与其他方法在VisDrone2019测试开发集和UAVDT测试集上进行MOT任务的定量比较。04.2. 实现细节0训练。我们使用随机裁剪、随机缩放（0.6到1.3之间）进行数据增强。我们使用多个损失函数进行细致的监督，初始学习率设置为7e-5。我们总共训练30个epochs，学习率在第10个epoch和第20个epoch时分别下降10倍。我们在两个GeForce RTX 2080TiGPU上进行实验，批量大小为4。在多个损失函数中，使用L1损失来监督目标的宽度和高度。交叉熵损失和三元损失[11]用于处理目标ID。此外，我们使用提出的GBF损失来监督目标的热图。0推断。UAVMOT遵循检测跟踪范式。在检测阶段，将检测分数阈值设置为0.4，IDFU模块中的数量K设置为100。在跟踪阶段，AMF模块中的阈值p设置为0.6。04.3. 与现有技术的比较0VisDrone2019数据集。我们将我们的方法与VisDrone2019数据集上的先前方法进行MOT任务的比较。我们将训练集与验证集一起训练，并使用官方的VisDroneMOT工具包在VisDrone2019测试开发集上评估我们的方法。如表1所示，我们的方法在MOTA上达到36.1%，在IDF1上达到51.0%，在VisDrone2019测试开发集上优于现有方法。0UAVDT数据集。我们还将我们的方法与其他方法在UAVDT测试集上进行MOT任务的比较。我们使用UAVDT训练集训练UAVMOT网络，并在UAVDT测试集上评估我们的方法。我们列出了一系列指标，如MOTA、MOTP和IDF1，以比较我们的方法与其他方法的性能。如图所示-0如表1所示，我们的方法在MOTA上达到46.4%，在IDF1上达到67.3%，并且与现有方法相比取得了显著更好的结果。04.4. 消融研究0在本节中，我们在VisDrone2019验证集和测试开发集上进行了一系列消融实验，以验证UAVMOT的每个模块。在消融实验中，我们使用FairMot作为基线模型，DLA-34作为骨干网络。0基线 IDFU AMF GBF MOTA ↑（%） IDs ↓ IDF1 ↑（%）0� 20.1 2079 40.6 � � 23.3 1974 43.8 � � � 23.7 867 45.5 � � � � 26.7 96945.80表2. 在VisDrone2019验证集上的消融研究。0如表2所示，UAVMOT有三个核心组件，IDFU模块、AMF模块和GBF损失，我们在VisDrone2019验证集上报告了每个模块的三个关键指标。基线模型在MOTA上达到20.1%，在IDF1上达到40.6%，在IDs上达到2079。将IDFU模块添加到基线模型中，MOTA提高到23.3%，IDs减少到1974，并在IDF1上达到43.8%。将IDFU模块和AMF模块添加到基线模型中，MOTA提高到23.7%，IDF1提高到45.5%，IDs从1974减少到867。添加所有三个模块后，我们的UAVMOT模型在MOTA上达到26.7%，在IDF1上达到45.8%。0IDFU模块的效果。IDFU模块增强了ID嵌入特征的关联性，可以有效适应无人机视角的变化。为了评估IDFU模块的效果，我们列出了基线模型和基线+IDFU模型上的四个关键ID关联指标（IDS、IDF1、IDP、IDR）。如表3所示，IDs从2079减少到937。IDF1、IDP和IDR分别从40.6%、53.2%和32.8%增加到43.8%、57.9%和35.3%。结果表明，IDFU模型对数据关联具有良好效果，在移动无人机视频中能够准确把握物体的特征。Effectiveness of AMF module. the AMF module can au-tomatically switch the tracking ﬁlter mode according to themotion of UAV. To evaluate the effectiveness of AMF, welist ID association indicators (IDS, IDF1) and detection in-dicators (recall rate, precision rate) on the baseline modeland the baseline+ADA model, respectively. As illustratedin Tab. 4, The IDs from 2079 decreases to 1048 and theIDF1 increases from 40.6% to 44.1%. Besides, the recallincreases from 41.5% to 46.5% and the precision slightlydecreases from 67.4% to 66.6%. The results demonstratethat the AMF module has a good effect on the data associa-tion, and the contribution mainly comes from the improve-ment of recall rate.55.833.216.314.24.655.139.82520.211.7010203040506088820基线 2079 40.6 53.2 32.8 基线+IDFU 937 43.8 57.9 35.30IDs ↓ IDF1 ↑ (%) IDP ↑ (%) IDR ↑ (%)0AMF模块的效果。AMF模块可以根据无人机的运动自动切换跟踪滤波模式。为了评估AMF模块的效果，我们列出了基线模型和基线+ADA模型上的ID关联指标（IDS、IDF1）和检测指标（召回率、精确率）。如表4所示，IDs从2079减少到1048，IDF1从40.6%增加到44.1%。此外，召回率从41.5%增加到46.5%，精确率略微从67.4%降低到66.6%。结果表明，AMF模块对数据关联具有良好效果，主要贡献来自召回率的提高。0表3. IDFU模块效果分析。我们报告了VisDrone2019验证集上的IDs、IDF1、IDP和IDR。0IDs ↓ IDF1 ↑ (%) 召回率 ↑ (%) 精确率 ↑ (%)0基线 2079 40.6 41.5 67.4 基线+AMF 958 44.1 46.5 66.60表4.AMF模块效果分析。我们报告了VisDrone2019验证集上的IDs、IDF1、召回率和精确率。0GBF损失的效果。为了验证梯度平衡焦点损失的有效性，我们比较了基线模型和使用GBF损失后每个类别的MOTA。如图6所示，VisDrone2019测试集中的每个类别在使用GBF损失后的MOTA都有很大改善，特别是尾部类别，即van的MOTA从4.6%提高到11.7%，卡车的MOTA从16.3%提高到25%，小尺度类别（行人）的MOTA从14.2%提高到20.2%。这些结果表明，GBF损失可以有效提高少数类别和小尺度物体的MOTA。04.5. 案例研究0为了更好地证明UAVMOT在移动无人机视频中的优势，我们分析了三种无人机特殊运动情况：0汽车公共汽车卡车行人面包车0基线基线+GBF损失0图6. GBF损失效果分析。我们报告了VidsDrone2019测试集中每个类别的MOTA。0无人机在天空中悬停，左右转动，突然上下移动。0FairMOTUAVMOT0图7. 特殊情况分析：无人机在天空中悬停。0无人机在天空中悬停。当无人机在天空中悬停时，无人机视频中捕捉到的物体位置会随着无人机的悬停而旋转。我们在这个特殊情况下将UAVMOT与FairMOT的可视化结果进行比较，如图7所示，当无人机在天空中快速旋转时，FairMOT无法跟踪汽车，但UAVMOT可以在不受无人机旋转影响的情况下准确跟踪汽车。0FairMOTUAVMOT0图8. 特殊情况分析：无人机上下移动。0无人机上下移动。当无人机突然上升时，无人机视频中的物体尺寸会变小。VisDrone2019UAVDTFairMOTUAVMOT88830图9. 在Visdrone2019和UAVDT数据集上的跟踪结果可视化。0并且很难被检测到。如图8所示，无人机突然向上移动，视频中的物体变小，特别是远处的行人和汽车，这些物体在FairMOT中很难被跟踪，但在UAVMOT中可以准确跟踪。0图10. 特殊情况分析：无人机向左和向右转弯。0无人机向左和向右转弯。当无人机突然向左和向右转弯时，无人机视频中的捕获图像将变得模糊，原始的运动趋势规律将被打破。如图10所示，当无人机迅速向右转弯时，FairMOT无法跟踪汽车，但UAVMOT可以在不受无人机转弯影响的情况下准确跟踪汽车。04.6. 可视化0为了更直观地展示我们的方法的有效性，我们在VisDrone2019测试集和UAVDT测试集上绘制了跟踪结果。如图9所示，UAVMOT可以很好地适应移动无人机环境，小尺度物体被准确检测，多目标跟踪结果不受无人机运动的影响。可视化结果证明UAVMOT可以在无人机视频上很好地完成MOT任务。04.7. 限制0UAVMOT网络可以在移动无人机视频中有效完成MOT任务。由于MOT算法加载在移动无人机上，移动设备的硬件有限，算法的参数和运行速度应与无人机设备匹配。UAVMOT网络在DLA34骨干网络上以1920×1080的视频分辨率下达到12FPS的运行速度，我们将来将探索更小的参数模型，以在移动无人机设备上获得实时运行速度。05. 结论0本文提出了一种新颖的用于无人机视频中的多目标跟踪的UAVMOT网络。在UAVMOT中，设计了一个ID特征更新模块来增强ID嵌入特征的学习。为了适应复杂的无人机运动，自适应运动滤波器为不同的运动模式提供不同的运动滤波器。此外，提出了一种梯度平衡的焦点损失来监督物体的热图学习，不仅考虑了不平衡的类别，还更加关注小尺度物体。我们在VisDrone2019和UAVDT数据集上进行了一系列实验，并将UAVMOT与其他方法进行了比较。结果表明，我们的方法在无人机视频的MOT任务上达到了最先进的性能。06. 致谢0本文部分得到中国博士后科学基金（编号2021M701803），中国国家重点研发计划（编号2018AAA0102001），中国国家自然科学基金（编号61725202，U1903215，61829102，62022092）和大连市创新领军人才支持计划（编号2018RD07）的支持。88840参考文献0[1] Seyed Majid Azimi，Maximilian Kraus，RezaBahmanyar和PeterReinartz。航拍图像中的多个行人和车辆跟踪：一项综合研究。arXiv预印本arXiv:2010.09689，2020年。10[2] Seung-Hwan Bae和Kuk-JinYoon。基于轨迹置信度和在线判别外观学习的鲁棒在线多目标跟踪。在IEEE计算机视觉和模式识别会议论文集中，第1218-1225页，2014年。60[3] Alex Bewley，Zongyuan Ge，Lionel Ott，FabioRamos和BenUpcroft。简单的在线和实时跟踪。在2016年IEEE国际图像处理会议（ICIP）上，第3464-3468页。IEEE，2016年。2，60[4] Erik Bochinski，Volker Eiselein和ThomasSikora。不使用图像信息的高速跟踪检测。在2017年第14届IEEE国际高级视频和信号监控会议（AVSS）上，第1-6页。IEEE，2017年。60[5] Guillem Bras´o and Laura Leal-Taix´e.学习多目标跟踪的神经求解器。在IEEE/CVF计算机视觉和模式识别会议论文集中，页码6247-6257，2020年。10[6] Nicolas Carion, Francisco Massa, Gabriel Synnaeve,Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko.端到端的对象检测与变压器。在欧洲计算机视觉会议中，页码213-229。Springer，2020年。20[7] Long Chen, Haizhou Ai, Zijie Zhuang, and Chong Shang.实时多人跟踪与深度学习的候选人选择和人物再识别。在2018年IEEE国际多媒体和博览会（ICME）中，页码1-6。IEEE，2018年。60[8] Peng Chu, Jiang Wang, Quanzeng You, Haibin Ling, andZicheng Liu. Transmot:用于多目标跟踪的时空图变换器。arXiv预印本arXiv:2104.00194，2021年。20[9] Ibrahim Delibasoglu.移动相机的移动目标检测的无人机图像数据集。arXiv预印本arXiv:2103.11460，2021年。10[10] Caglayan Dicle, Octavia I Camps, and Mario Sznaier. Theway they move:使用相似外观跟踪多个目标。在IEEE国际计算机视觉会议论文集中，页码2304-2311，2013年。60[11] Xingping Dong and Jianbing Shen.用于对象跟踪的孪生网络中的三元组损失。在欧洲计算机视觉会议论文集中，页码459-474，2018年。60[12] Alexey Dosovitskiy, Philipp Fischer, Eddy Ilg, PhilipHausser, Caner Hazirbas, Vladimir Golkov, Patrick Van DerSmagt, Daniel Cremers, and Thomas Brox. Flownet:使用卷积网络学习光流。在IEEE国际计算机视觉会议论文集中，页码2758-2766，2015年。2，30[13] Dawei Du, Yuankai Qi, Hongyang Yu, Yifan Yang, KaiwenDuan, Guorong Li, Weigang Zhang, Qingming Huang, and QiTian. 无人机基准数据集：对象0检测和跟踪。在欧洲计算机视觉会议论文集中，页码370-386，2018年。2，50[14] Chengjian Feng, Yujie Zhong, and Weilin Huang.在IEEE/CVF国际计算机视觉会议论文集中探索长尾对象检测中的分类平衡。页码3417-3426，2021年。30[15] R

下载后可阅读完整内容，剩余1页未读，立即下载