基于多帧注意力的无人机群体跟踪算法

106 浏览量更新于2023-10-15 收藏 2.2MB PDF 举报

时间上下文

有效性验证

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1664基于多帧注意力的无人机群体跟踪算法Takanori Asanomi，Kazuya Nishimura，RyomaBise九州大学，福冈，日本bise@ait.kyushu-u.ac.jp摘要无人机人群跟踪具有各种应用，人群管理和视频监控与一般的多目标跟踪不同，被跟踪的区域是小的，并且地面实况由点级注释给出，其没有区域信息。这导致缺乏用于从许多相似对象中找到相同对象的区分特征。因此，基于相似性的跟踪技术，这是广泛使用的多目标跟踪与边界框，是很难使用。为了处理这个问题，我们考虑到会计的时间上下文的局部区域。为了在局部区域中聚集时间上下文，我们提出了具有特征级变形的多帧注意。特征级变形可以将同一对象的特征在多个帧中对齐，然后多帧注意可以有效地从变形的特征聚合时间上下文。实验结果表明了该方法的有效性。我们的方法在DroneCrowd数据集中优于最先进的方法。该代码可在https://github.com/asanomitakanori/mfa-feature-warping 中公开获取。1. 介绍从安装在无人机（无人驾驶飞行器）上的摄像机拍摄的视频中自动跟踪多人，称为无人机人群跟踪，具有广泛的应用，例如视频监控和人群管理。在视频中，人们移动他们的位置，而背景由于无人机的运动而波动。该任务旨在找到对象的位置并将视频中的相同对象关联起来（图1）。与使用边界框进行注释的一般多对象跟踪不同，在公共数据集中使用点级注释[36]，因为对象大小往往很小。无人机人群跟踪任务与其他具有边界框的多目标跟踪（例如，在由监视摄像机捕获的视频中跟踪）的一个缺点是对象尺寸小得多。因此，对象位置的地面真值由下式给出：（一）时间（b）第（1）款图1.无人机人群跟踪中的示例图像。(a)整个图像的示例（左），红框处的放大序列图像（右上）和跟踪的地面实况（右下：）：点表示目标对象，并且同一对象具有相同的颜色。(b)各种条件下的示例图像。点级注释，如图1所示。这导致缺乏用于从许多相似对象中找到相同对象的区分特征。例如在图1(b)（多云，小，拥挤），一个人的外表看起来像一个白点，不同的人有相似的外表。因此，基于相似性的跟踪技术，广泛用于多目标跟踪与边界框，是难以使用的。对象的小尺寸也会导致其他困难;对象与背景对象的外观差异并不显著。例如，一个人的外观与其他物体相似。这导致检测结果随时间不一致，即，有时检测到对象，但在其他时间检测不到对象。第二个显著的区别是，远离对象的空间背景是无效的。例如，图1（a）中的在大型目标检测和视频分析中，空间背景是一个重要的线索。因此，视觉Transformer常被用来通过自我注意来聚合空间背景。然而，这在无人机人群跟踪任务中可能无效。要跟踪多个小对象，基于点的跟踪多云，小，拥挤夜，小，稀疏阳光充足，大型，稀疏1665已经提出了方法。例如，STNNet [36]从两个连续帧以多任务方式估计对象的位置和运动。 STNNet 在DroneCrowd数据集[36]中实现了最佳性能（最先进的），该数据集包含点级注释作为地面实况而不是边界框。点水平注释通常用于细胞跟踪，其跟踪显微镜图像中的小细胞运动和位置图[13] 已经提出了同时表示给定两个帧的定位和运动，并且在细胞跟踪数据集中实现了最佳性能[15]。这些方法仅使用两个帧进行运动和位置估计。在无人机人群跟踪任务中，邻居位置的时间上下文是必不可少的。当难以从单个帧准确地检测对象时，检测结果在多个帧中可能不一致。然而，如果我们在多个帧中检查这样的对象，我们可以识别人自注意是一种很有前途的时间上下文聚合技术，已被应用于Transformer中。Transformer已广泛用于许多视觉任务。大多数方法使用自注意来聚合单个输入图像中的大范围上下文和空间依赖性一些方法使用时空背景进行跟踪。Zhou等人 [46]提出了与Transformer的全球关联该方法首先检测多帧中的边界框，然后使用变换器将多帧中检测到的对象关联起来，该变换器估计检测到的边界框的表观相似性。然而，点级对象的特征不足以识别同一对象。在本文中，我们提出了多帧注意力与特征层次的扭曲聚合时间信息在多个帧。给定从多帧中提取的特征图，所提出的方法使用时间自注意来聚合时间上下文。这假设注意力是从多个帧中的特征图然而，对象位置由于它们的运动而在多个帧中改变。因此，我们在多帧关注之前引入特征图扭曲模块，以对齐多帧中同一对象的特征。接下来，将变形的特征图输入到多帧注意模块中以聚合时间上下文。然后，后向扭曲模块再次扭曲提取的特征以获得每帧的原始位置。它可以输出一致的检测结果，在多帧使用时间上下文。这使得跟踪精度提高。本文的主要贡献如下：• 我们提出了多帧注意与特征级变形。此方法可以将对象特征对齐到通过多帧关注度映射和聚合多帧图像特征。• 使用DroneCrowd数据集[36]，所提出的方法实现了比比较方法（包含最先进的方法STNNet）更好的性能2. 相关工作2.1. 人群跟踪人群中的人类计数已经得到了很好的研究，并且许多数据集都是公开的[7，11]。该任务旨在估计单个图像中的人数。许多计数方法采用密度图估计方法，该方法可以计算图像中的人，但不能定位和跟踪个人。最近，发布了DroneCrowd数据集[36]，以开发一种方法，该方法可以跟踪无人机从鸟瞰图中捕获的视频中的人类微小图像DroneCrowd的任务与一般的多对象跟踪（MOT）的主要区别是三个方面：1）由于图像中对象的尺寸很小，DroneCrowd使用点级注释，它没有区域信息，而不是MOT中使用的边界框。同样，2）图像中人类的数量密度高，以及3）视频显示了各种情况。STNNet [36]旨在跟踪该数据集的微小对象。它从两个连续的帧中以多任务的方式估计对象的位置和运动。它目前在DroneCrowd上具有最先进的性能[36]。2.2. 多目标跟踪已经提出了许多MOT方法，这些方法使用活动轮廓[18，35，40，47]，粒子滤波器[25，32]或联系[41，30，20，1]。最近的一个趋势是跟踪-通过检测[39，16，4，9，28]。它依赖于边界框检测器[37，29，31，20]，并且基于检测到的边界框的外观的相似性来关联帧之间的相同对象。这里，边界框检测器不适合点级对象检测，因为每个对象由于其小尺寸而缺乏区别特征。点级注释已用于检测和跟踪微小对象，例如用于姿势估计、细胞跟踪和无人机人群跟踪的关键点检测点级方法[12，13，14，44，45，39]估计热图，其中注释的点成为热图中的峰值然后，跟踪方法基于它们的位置和运动估计来关联相同的对象[12，13，36]。几乎所有的方法都使用两个连续帧的上下文来进行对象检测和运动估计。多个帧中的时间上下文是用于跟踪的重要信息。1666…联系我们联系我们（一）（b）第（1）款联系我们电子邮件联系我们卷积最大池化上采样编号M跳过连接多帧注意力与特征级变形图2.我们的方法概述（a）整个网络结构，（b）具有特征级扭曲的多帧注意力该模块由三个模块组成：前向翘曲，多帧注意力和后向翘曲。前向扭曲根据帧T对齐特征，并且多帧注意力聚合时间上下文。由于所提取的特征图与T对齐，因此通过向后变形将特征图变形2.3. 用于视频分析的Transformer已广泛用于许多任务，包括视频分析[24，8，5，2，23，34]。例如，TimeSmerer [5]和ViVit [2]已经表明，时间注意和空间注意在视频分类任务中是有效的。视频Swin Transformer [23]介绍了用于视频分类的Swin Transformer [22]。时空注意力算法计算多帧图像中的注意力组合，计算代价很高。为了降低计算成本，可变形视频Transformer [34]利用运动线索来确定要比较哪些补丁;它将手工制作的变形应用于原始输入图像以获得运动提示。这些方法被设计用于视频分类任务，其需要整个视频中的时空信息被聚合。一些方法使用 Transformer 进行多目标跟踪。TrackFormer [24]具有DETR [6]的级联结构，这是一种使用Transformer的检测方法。轨道形成器使用编码器中的空间上下文在时间t提取特征，并且这些特征在下一帧在解码器中用作查询。该方法是为跟踪基于边界框的对象而设计的。编码器中的在解码器中使用从前一帧提取的特征作为查询的目的是为了关联;即变换器解码器基于边界框区域的对象相似性来关联对象。Transformer跟踪[8]使用基于注意力的特征融合网络，该网络通过注意力将模板和搜索特征相结合。这些基于变换的跟踪方法集中于聚集时空信息以检测边界框并提取表示相同对象的相似性的特征远离对象的空间信息对于从鸟瞰图跟踪微小对象可能没有用。在-相反，我们的方法通过在多个帧中对齐特征图来使用相同位置处的时间信息。3. 该方法3.1. 概述图2是所提出的方法的概述给定一组M个图像IT，...，IT+M（IT+iRw×h），其中w和h表示图像的宽度和高度，网络同时估计一组热图HT，.，HT+M（HT+iRw×h）[12]，表示物体位置。整个网络由Siamese网络组成，它有一个编码器和一个解码器，如U-net，并产生如图2（a）所示的位置热图。我们将每个网络引入到三个模块，前向扭曲，多帧注意力和后向扭曲模块（图2（b）），以聚合多帧中的时间信息SiameseU-nets可以通过这些模块在多个帧使用估计的位置，可以在视频中跟踪对象。3.2. 正向映射每个网络的编码器提取每个帧中对象位置的图像特征为了有效地使用不同帧中的图像特征，我们引入了多帧注意力模块，该模块允许Siamese网络在相同位置的多个帧中互换所提取的特征这假设相同对象的特征在每个特征图中处于相同位置。然而，对象位置通常由于它们的运动而在多个帧中改变为了解决这个问题，我们在多帧注意力模块之前引入了一个前向扭曲模块，以对齐多帧中的图像特征。李明#ut&%fl#$WARP李明&）*#ut&）*%fl#$WARP李&）#ut&）&）Fi（#$warp&）*Fi（fl#$经纱后向扭曲正向映射…………多帧注意力1667Conv$nF⨂T“MConv电子⨂ ⨁Conv不不T+IT+I··×不××电话+1T+M◦→--图2（b）显示了前向扭曲模块。它在M + 1暹罗网络中引入了前向翘曲模块;如图2所示，每个模块被插入编码器的卷积层之后。每个网络f流以与VoxelMorph[3]相同的方式估计特征级流，用于特征图对齐。让我们将第i个输出特征映射表示为第j个中文（简体）&u（FT“M中国&（F层作为x，=f（j−1）（IT+i），（i = 0，.，这些fea-在乘法整形加成反应图被对齐到其中一个xT。准确地说，鉴于两个映射（xin，xin），f流估计位移图3.多帧注意。此模块聚合多个TT+i向量图τT+i→T，其扭曲输入特征图帧信息通过计算从相同的位置，在T+I 成in′T+I在T+I ◦ τ T+i→T（i = 1，. . . ，M），（1）多帧中的特征图。使用卷积在键、查询和值中嵌入标记，其中，表示通过τT+iT的扭曲操作，在in[38]而不是一个完全连接的层。在多帧注意力模块中，xin'（i = 0，.M）为每个像素指定从xT+i到xT首先转换为查询（qT+Ik），扭曲操作类似于图像中使用的扭曲操作。T+i），关键字（T+I注册方法，如VoxelMorph [3]。不同之处在于，我们的变形是在特征图的每个通道上执行的，而标准变形操作是在图像上执行的。预期扭曲将使对象的特征对准到相同位置。该前向扭曲针对多个帧中的所有特征对执行。该模块的输出是一组和value （vT+i），然后将矩阵平坦化为向量vec（qT+i）、vec（kT+i）和vec（vT+i）。让我们表示由以下组成的矩阵：输入图像的查询、键和值的集合为 Q=[vec （ qT ） ]|... |vec (qT+M)]T∈ R(M+1)×C,K=[vec（kT）|... |vec (kT+M)]T∈R（M+1）×C，和V=[vec（vT）]|... |vec (vT+M)]T∈ R(M +1)×C , respec-的加权特征{xin′，xin′，的。 . . ，xin′}，其中xin′=tiv ely，其中vec（·）是使中的xT T+1T+M将矩阵转化为向量，C=winhinchin是T.变形后的特征图被输入到多处理器扁平化的向量win，hin和chin是宽度，高度，帧注意模块。和xin′的通道 . 多输入注意力输出是3.3. 多帧注意定义为：图3是多帧注意模式的概述。xout′ =xin′+整形（注意力（Q，K，V）））、（2）乌莱特征{xin′，xin′，的。 . . ，xin′}在-T+IT+IT+IT T+1T+MAttention（Q，K，V）=softmax（QK）V，（3）嵌入到多帧注意力模块中，以聚合多帧之间的时间特征注意力是从多个帧中的特征图的相同位置计算的。多个帧的相同位置预期具有相同的对象特征，因为特征其中softmax（）对每个行向量单独执行softmax运算符，而reshape（）将输入向量重新整形为形状相同的矩阵。地图是通过向前弯曲而弯曲的。in′T+I. 注意（Q，K，V）T+i是第（T + i）个向量让我们考虑这样一种情况，其中一个对象有时可以在这种情况下，可以预期多帧关注模块可以使用其他帧来提取对象特征。该模块有助于减少未检测到的物体和一致的跟踪。与标准视觉变换器[10]相比，其中整个图像的裁剪补丁被输入到变换器网络（即，使用单个图像的自信息），我们的多帧注意力在多个帧中聚集一组该模块允许Siamese U网相互交换提取的特征。此外，为了减少参数的数量并有效地提取每个批次的局部特征，我们注意力（Q，K，V）。这里，在多帧注意模块中，由暹罗网络提取的所有输入图像的信息被互换和聚合。到训练这个网络，我们使用骨干网的损失函数之和（参见骨干网一节）。外显特征xoutt′，xout′，的。 . . ，xout′然后输入到每个连体U形网的下一层。标准视觉变换器，例如ViT [10]，具有相对于输入图像大小N=w h的二次计算复杂度，即，，O（N2M），其中M表示时间帧的数量相比之下，多帧注意算法的计算复杂度与输入图像的大小成线性关系，而与帧的个数成二次关系，计算复杂度为OXX=x为x1668（NM2），比标准注意算法小得多，因为M N.1669T+IT+IT+IT+I不×不≤电话+1T+M不不MPMn我我2我2我1Σ23.4. 后向扭曲Siamese U-net中的解码器将提取的特征解码为与原始图像大小相同的热图。然而，前向扭曲模块将特征（即，，在变形特征图中的对象位置xout′与最初的fea有所不同真映射xin）。因此，我们引入了向后翘曲模块，翘曲的功能回到原来的位置。网络结构和变形过程类似于前向变形模块。准确地说，有两张地图其中，n是训练数据的数量，第一项是平方误差，第二项是H和H的幅度之间的平方误差。在传统方法中，网络在每帧中单独估计热图或MPM。相比之下，我们的方法由多帧的连体U-网和提出的翘曲和多帧注意力模块组成，这些模块共享特征。我们的方法可以应用于具有编码器和解码器的网络，例如U网，并估计每个局部帧的位置热图在在T+I，xout′），fbflow估计τT→T+i，我们的网络，骨干网是平行排列的输入特征图xout′成并使用具有特征级变形的多帧注意来交换它们提取的特征。出来T+I乌特T+I◦ τ T→T+i（i = 1，. . . ，M），（4）其中，τT→T+i指定从xout′开始的fset的向量3.6.按关联xout'对于每个像素。的扭曲特征图为了公平比较，我们使用了相同的算法{xout，xout，的。. .，xout}，其中xout=xout′，向上-用STNNet [36]，这是一种最先进的方法。后由解码器采样，并且输出是热图，其中局部峰值指示对象位置。预计该特征图将被扭曲到其原始位置。3.5.骨干模型我们将所提出的方法合并到两个脊柱模型中：热图[12]，广泛用于姿态估计和细胞检测中的关键点检测的点级对象检测，以及MPM [13]，其是用于细胞跟踪的最先进方法之一。为了使本文自成一体，我们在下面简要介绍这两种方法.热图[12]：该方法通过U网估计对象位置的热图;热图中的每个峰指示对象的位置。从图像的一组注释的像素级对象位置，生成热图的地面实况，使得对象位置变为图中具有高斯分布的峰值，如图1B所示。第2段（a）分段。检测网络（U-net）是使用均方损失（MSE）Ldet=MSE（Hi，Hi）是-在估计结果Hi和热图Hi.MPM [13]：该方法估计位置和运动图（MPM），其表示连续帧之间的位置和移动方向。每个对象的运动矢量被编码在对象的中心位置的像素上，并且矢量的幅度的分布表示中心位置的热图，其中热图的局部最大值指示中心位置。让我们将MPM的基础真值和估计表示为H和H′，相对于V。损失函数定义为：nL=（||H−H||2+（||H||−||H||（二）、（五）i=1检测每个帧中的所有对象，我们应用最小成本流方法[27]，它优化了关联。4. 实验4.1. 数据集和实验装置我们在实验中使用了DroneCrowd数据集[36]。该数据集包含无人机拍摄的延时视频序列。如图1所示，这些图像显示街道上挤满了人，人们的外观没有明显的差异。由于无人机上安装了一个摄像头，当下面的人从一个地方移动到另一个地方时，背景会发生变化。对象位置的地面实况是点级注释（ObjectID、帧、x、y）。在每个图像序列中，图像被捕获在 25 帧每秒（FPS）的分辨率为1920 - 1080像素。在该数据集中，视频具有三种类型的属性，如下：（1）光照：三类光照条件为晴天、阴天和夜晚;（2）对象尺度：两类尺度为大（对象> 15像素）和小（对象的直径为15像素）;（3）密度：基于每帧中对象的平均数量，存在两个密度级别，例如，、拥挤（每帧中对象的平均数量大于150）和稀疏（每帧中对象的平均数量小于150）。图1（b）显示了不同条件下的示例图像对象的平均数量为144.8，并且在单个帧中用超过480万个头部点注释了超过2万个人的头部轨迹。训练、验证和测试序列编号为82、30和30。这是相同的设置，这是最先进的方法[36]。（xT+IX=x1670图像STNNet MPMMPM +我们的表1.使用DroneCrowd的定位性能比较平均L-mAP和每个阈值处的L-AP（L-AP10、L-AP15和L-AP20）。4.2. 实验装置我们使用PyTorch实现了我们的方法[26]。为了训练我们的网络，我们使用ADAM优化器[17]，学习率为10−3，epoch=30，mini-batch size=24。通过对热图进行阈值化（阈值 = 0. ① 的人。由于 GPU （ NVIDIAGeForce 3090 GPU）的内存有限，我们将M（聚合帧的数量在所有实验中，为了公平比较，我们用不同的种子训练了三次网络，并计算了定位和跟踪性能的平均值和标准偏差，如下[10]。我们将我们的方法与七种方法进行了比较：MCNN[43]，它使用来自每个专家提取的多尺度图像的图像特征来捕获对象大小的变化; CAN [21]利用密度图中的多尺度上下文信息，因此在多云和拥挤的情况下实现了最佳的计数性能。DM计数[42]，其简单地估计使用2D高斯生成的密度图; STNNet [36]，通过使用相邻上下文丢失来指导关联，用于无人机人群跟踪（它在DroneCrowd数据集上实现了最先进的性能）;Heamap [12]，如上所述，广泛用于点级别标记的对象检测，并且是我们的骨干方法之一; MPM [13]同时表示跟踪微小物体的物体的位置和运动，是我们的另一种骨干方法。为了公平比较，在每种比较方法检测到对象后，我们使用相同的方法进行跟踪，其中使用最小成本流将检测到的对象关联起来[36]。4.3. 人群定位性能定位是目标跟踪中的一项关键任务，即准确地检测出图像中所有人的位置。我们根据提出DroneCrowd数据集的论文[36]使用L-mAP评分评估了人群定位性能。确定估计对象图4.测试图像中的检测结果示例。左：MPM [13]的整个图像+我们的检测结果;右：MPM [13]和MPM + Ours检测结果的放大图像。绿色：真阳性;红色：假阴性;橙色：假阳性。通过对热图进行阈值化L-mAP是在各种距离阈值（1，2，. . . 25像素）。L-mAP越大越好。表1显示了具有三个特定距离阈值（10、15和20像素）的L-mAP和L-AP评分。请注意，除两种主干方法（热图[12]和MPM [13]）外，比较方法的性能取自[36]。与骨干方法（热图[12]和MPM [13]）相比，我们的方法（热图+我们的和MPM+我们的）改进了所有指标此外， MPM+Ours 的性能优于最先进的方法（STNNet [36]）。注意，当阈值较大时，例如，、L-AP20中，假阳性可以与地面实况（被计为真阳性）相关联。因此，具有小距离的L-AP的更好性能指示定位更准确。特别是，与STNNet相比，具有小距离阈值（10）的L-AP的改善是显著的（+4.39）。这表明，我们的方法定位更准确。图4示出了检测结果的示例。在STNNet估计的结果中，有许多假阳性（橙色）和假阴性（红色）。与STNNet相比，MPM减少了误报此外，我们的方法（MPM + Ours）显着减少了假阴性。4.4. 人群跟踪性能无人机人群跟踪的目标是在视频序列中恢复人的根据提出DroneCrowd数据集的论文[36]，我们使用T-mAP得分[36]评估了跟踪性能。该度量是基于具有置信度分数的头点的估计的概率来计算的。具体来说，我们根据其检测结果的平均置信度对由具有相同身份的位置形成的轨迹（轨迹）进行排序。如果预测与地面实况轨迹片段之间的匹配比率比阈值更显著，则轨迹片段被认为是正确的然后，改变置信度的平均精度是com-方法左旋单磷酸腺苷L-AP10L-AP15L-AP20MCNN [43]9.059.8111.8112.83加拿大[21]11.128.9415.2218.27CSRNet [19]14.4015.1319.7721.16[42]第四十二话18.1717.9025.3227.59STNNet [36]40.4542.7550.9855.77[第12话]29.26±2.2330.8535.1738.3热图+我们的32.19±1.0134.4938.641.4MPM [13]41.07±0.444.748.9251.22MPM +我们的43.43±1.9847.1451.5854.021671图像地面-真值STNNet表2.DroneCrowd上的跟踪性能;平均T-mAP和每个阈值下的T-AP（T-AP0. 10，T-AP0。15和T-AP0。20））。被称为 T-AP 。在 [36]之后，我们使用了三个阈值（0.10，0.15和0.20）。 T-mAP分数是使用不同阈值（即，、T-AP 0. 10，T-AP 0。15，T-AP 0。第20段）。请注意，除两种主干方法外，比较方法的性能均来自[36]。表2显示了比较方法的人群跟踪性能。我们的两种方法（Heatmap+Ours和MPM+Ours）都从基线方法改进了T-mAP。此外，它们优于最先进的方法（STNNet[36]）。在这里，我们讨论了为什么Heatmap+Ours优于STNNet，而其本地化性能较差。STNNet的检测结果倾向于包含假阳性而不是假阴性，其中具有大距离阈值的L-AP比假阳性更惩罚假阴性，因为假阳性可能与地面实况相关联。此外，同一物体的检测结果随时间的推移往往不一致.这使得跟踪性能更差。相比之下，Heatmap+Ours对同一对象产生一致的检测结果，即随着时间的推移，同一物体被连续检测到或未被检测到。因此，即使我们的方法的总体检测性能较差，其跟踪性能优于STNNet。特别是，MPM+Ours显着提高了跟踪性能T-mAP从最先进的方法STNNet（+9.58）。这些特征不仅包含了MPM中每个对象的外观特征，还包含了运动特征由于相邻对象可能具有不同的运动，这可以被认为对多帧注意力聚合同一对象的时间特征具有良好的效果，因此它大大提高了图5显示了STNNet、MPM和MPM + Ours的跟踪结果示例STNNet包括每帧中的检测结果在时间上不例如，在图5（STNNet，第3行）中，未检测到白色圆圈中的人（假阴性），并且假阴性以不同的个体发生。因此，在第三帧（白色矩形）处出现ID切换错误。在MPM的结果中，MPMMPM+我们的图5.跟踪结果示例白色虚线圆圈表示假阴性检测错误，白色矩形表示切换错误。方法MFAFWBW左旋单磷酸腺苷T-mAP[第12话]29.26±2.2321.59±12.5231.57±0.3930.01±1.3531.97±0.932.19±1.0131.44±0.217.45±11.8632.91±0.8631.82±2.2532.81±0.6733.25±0.28热图+SA热图+DSTA热图+我们的✓热图+我们的✓✓热图+我们的✓✓✓表3.消融研究中的L-mAP和T-mAP。我们报告了使用不同种子的三次运行中所有指标的平均值和标准差“我”是自我关注。“DSTA”是时空注意力的划分。Mfa是多帧注意力。Fw是向前翘曲。’Bw’ is backward假阴性;然而，假阴性发生在同一个人身上。即使这两种方法的检测结果没有显著差异，这种切换误差也会降低跟踪性能。通过将我们的方法引入MPM，可以使用多帧上下文进行估计。因此，MPM +我们的性能优于其他比较方法。4.5. 消融研究我们进行了消融研究，以检查每个模块的有效性，即：多帧注意（Mfa）、前向扭曲（Fw）和后向扭曲（Bw）。我们使用简单的方法（Heatmap [12]）作为主干。除了消融方法外，我们还评估了两种方法;1) Heatmap+SA，使用标准的自我注意力模块[33]，仅聚合每个帧中的空间上下文;2) Heatmap+DSTA，它引入了[5]中使用的时空自我注意，将空间注意和时间注意分开应用。表3显示了每种消融方法的定位（L-mAP）和跟踪（T-mAP）性能指标。热图+SA在两种方法中均未改善性能。我们认为，远离跟踪对象的空间背景对于检测和跟踪不是必需的，因此，方法T-mAPT-AP 0。10T-AP 0。15T-AP 0。20MCNN [43]9.1611.479.656.36加拿大[21]4.396.974.721.48CSRNet [19]12.1517.3412.856.26[42]第四十二话17.0122.3818.3410.29STNNet [36]32.5035.4533.9928.05[第12话]31.44±0.2034.533.0226.80热图+我们的33.25±0.2836.1234.8128.83MPM [13]41.91±0.8444.8943.4537.38MPM +我们的42.08±1.1844.9943.3937.671672（一）表4.更改插入到建议模块中的图层时的定位和跟踪性能我们报告每个块中特征图的分辨率。表现更差。Heatmap+DSTA提高了性能。与这些方法相比，我们的方法进一步提高了性能。此外，所提出的方法的每个元素提高了定位和跟踪性能。4.6. 超参数我们评估了本地化和跟踪性能，通过改变层插入建议的模块（为-向翘曲，多帧注意，和向后翘曲- ING模块）。Siamese U网的编码器由四个块组成，每个块由三个卷积层和一个池化层组成。我们在每个块（第1、第2、第3和第4块）之后插入了建议的模块。表4显示了定位和跟踪性能。我们使用第4块作为默认设置，因为内存低，运行时间长，这与模块的输入特征图的分辨率有关。另一方面，当在第一个块之后插入模块时，性能改善最好，即。最高分辨率。在所有设置中，所提出的方法与骨干（Heatmap）相比改善了跟踪性能4.7. 不同条件下的跟踪性能如上所述，DroneCrowd [36]包含显示许多情况的视频。我们在以下条件下评估了跟踪性能（T-mAP）：对象大小（大或小）、密度（稀疏或拥挤）和天气（晴天、多云或夜晚）。请注意，每个视频都有几个属性（例如，、稀疏、小、夜）。图6显示了不同条件下的跟踪结果：（a）物体较大，照明明亮;（b）物体细小，加上建筑物的阴影，照明较暗。即使在一定条件(b)很难，我们的方法成功地追踪到了这些人。图7示出了跟踪性能的雷达图其中蓝色表示 Heatmap[12] ，红色表示Heatmap+Ours。除了“夜间”条件外，所提出的具有特征级翘曲的多帧注意力提高了跟踪性能。在“夜”中因此，我们认为，（b）第（1）款图6.每个条件下的跟踪结果示例。(a)多云，大，拥挤。(b)阳光明媚，小，拥挤。热图+我们的图7.每种条件下跟踪性能的雷达图。蓝色：热图[12];红色：热图+我们的。我们的多帧注意力并没有提高对这些序列的性能。比较方法也无法在这些条件下追踪人。为了解决这个问题，需要有效地表示对象和背景之间的微小差异这是未来的工作。请注意，在条件为“夜间”的视频中，对象通常是稀疏的;因此，在“稀疏”条件下的性能比在“拥挤”条件下的性能差。在所有条件下，除了这表明我们的方法在许多情况下是有效的。5. 结论提出了一种点层次的多目标跟踪方法，可以从无人机拍摄的视频中跟踪到小的人体头部。该方法通过特征级变形实现地图中目标特征的对齐，并通过多帧注意力聚集这使得该方法能够有效地使用多帧上下文。实验表明，我们的方法可以有效地使用多帧上下文，并在DroneCrowd数据集上优于最先进的方法。鸣谢：这项工作得到了 JSPS KAKENHI 资助号JP21K19829的支持。插入块L-mAPT-mAP第二名（240×135）第一名（480×270）第三届（120×67）第四届（60×33）34.92±0.7835.38±0.1428.07±2.1532.33±2.4131.53±1.69小晚上人群阳光明媚稀疏多云大1673引用[1] 阿萨夫·阿贝尔和塔米·瑞克林·拉维夫利用卷积lstm网络进行显微细胞分割在ISBI，第1008-1012页[2] Anurag Arnab ， Mostafa Dehghani ， Georg Heigold ，Chen Sun，MarioL uc i c′，andCorde l iaSchmid. Vivit：一个视频视觉Transformer。在ICCV中，第6836-6846页[3] Guha Balakrishnan，Amy Zhao，Mert R Sabuncu，JohnGut-tag，and Adrian V Dalca.体素变形：一种用于可变形医学图像配准的学习IEEE Transactions on MedicalImaging，38（8）：1788[4] Philipp Bergmann，Tim Meinhardt，and Laura Leal-Taixe.没有铃铛和哨子的跟踪。在ICCV，第941- 951页[5] Gedas Bertasius，Heng Wang，and Lorenzo Torresani.时空注意力是你理解视频所需要的全部吗？在ICML，第2卷，第4页，2021年。[6] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。在ECCV，第213-229页[7] Antoni B Chan ， Zhang-Sheng John Liang ， and NunoVas- concelos.隐私保护人群监测：没有人模型或跟踪的情况下计算人数。载于ICCV，第1-7页[8] 辛辰、宾燕、朱佳文、董王、杨晓云Transformer跟踪。在CVPR中，第8126-8135页[9] 楚鹏和凌海滨。Famnet：联合学习的特征，亲和力和多维分配在线多目标跟踪。在ICCV，第6172-6181页[10] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。[11] 方燕燕、展碧云、万迪彩、高胜华、伯虎。用于视频人群计数的局部受限空间Transformer网络在ICME，第814-819页[12] 林田纯也和碧濑龙马使用深度学习进行细胞跟踪，用于低帧速率下的细胞检测和运动估计。在MICCAI，第397-405页[13] Junya Hayashida，Kazuya Nishimura，and Ryoma Bise.Mpm：细胞跟踪的运动和位置图的联合表示。在CVPR中，第3823-3832页[14] Junya Hayashida，Kazuya Nishimura，and Ryoma Bise.通过对象级扭曲损失在具有时空背景的多帧中进行一致的细胞跟踪在WACV，第1727[15] Dai Fei Elmer Ker，Sungeun Eom，Sho Sanami，RyomaBise，Corinne Pascale，Zhaozheng Yin，Seung-il Huh，Elvira Osuna-Highley ， Silvira N Junkers ， Casey JHelfrich，et al.具有自动和手动细胞跟踪注释的相位对比延时显微镜数据集。科学数据，5（1）：1[16] Chanho Kim，Fuxin Li，and James M Rehg.基于双线性lstm的神经门控多目标跟踪。在ECCV，第200-215页[17] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[18] Kang Li，Eric D Miller，Mei Chen，Takeo Kanade，LeeE Weiss，and Phil G Campbell.时空背景下的细胞群体追踪和谱系构建。医学图像分析，12（5）：546[19] 李玉红，张晓凡，陈德明。Csrnet：用于理解高度拥挤场景的扩展卷积神经网络。在CVPR中，第1091-1100页[20] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在ECCV，第21-37页[21] Weizhe Liu，Mathieu Salzmann，and Pascal Fua.情境感知的人群计数。在CVPR中，第5099-5108页[22] Ze Liu，Yutong Lin，Yue Cao，Han Hu，Yixuan Wei，Zheng Zhang ， Stephen Lin ， and Baining Guo. SwinTransformer：使用移位窗口的分层视觉Transformer。在ICCV中，第10012-10022页[23] Ze Liu ， Jia Ning ， Yue Cao ， Yixuan Wei ， ZhengZhang ， Stephen Lin ， and Han Hu. 视频摆动Transformer。在

下载后可阅读完整内容，剩余1页未读，立即下载