TubeTK：一步训练模型的多目标管跟踪器

29 浏览量更新于2023-10-23 收藏 2.7MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6308TubeTK：采用管跟踪多目标的一步训练模型庞波，李一卓，张一凡，李慕辰，卢策武上海交通大学、华中科技大学{庞博，李一卓，张玉芬sjtu lucewu}@ sjtu.edu.cn，muchenli@alumni.hust.edu.cn摘要多目标跟踪是视觉领域的一个基本问题，已经研究了很长时间。作为深度学习-检测跟踪（Trackingby Detection，TBD）算法为目标检测算法带来了优异的性能，已成为目标跟踪的尽管TBD取得了成功，但这种两步方法太复杂，无法以端到端的方式进行训练，并且也引发了许多挑战，例如对视频时空信息的探索不足，面对对象遮挡时的脆弱性以及过度依赖检测结果。为了解决这些挑战，我们提出了一个简洁的端到端模型Tu- beTK，它只需要一步训练，通过引入TubeTK提供了一个新的多目标跟踪方向，我们证明了它有潜力解决上述挑战，而无需花里胡哨。我们分析了TubeTK在几个MOT基准测试中的性能，并提供了经验证据，表明TubeTK有能力在一定程度上克服闭塞，而无需任何辅助技术，如Re-ID。与其他采用私有检测结果的方法相比，本文提出的单阶段端到端模型即使不采用现成的检测结果，也能达到最先进的性能。我们希望提出的TubeTK模型可以作为一个简单但强大的替代基于视频的MOT任务。代码和模型将随本文一起公开提供。1. 介绍视频多目标跟踪（MOT）是一个基础而又具有挑战性的任务，已经研究了很长时间。它要求有一种算法来预测物体的时空位置，并将其正确分类。目前主流的跟踪器如[65，3，9，1，13]都采用了检测跟踪（TBD）框架。作为一个两步方法，该框架将跟踪问题简化为两个部分：检测目标的空间位置卢策武是通讯作者，中国上海交通大学人工智能研究所青元研究院和MoE人工智能重点实验室成员图1.包围盒和包围管。如第一行所示，没有时间信息的空间框很难检测到严重遮挡的目标（黄色框）。在我们的TubeTK（第二行）中，它基于时空特征生成边界管，同时编码目标这导致了一步训练跟踪方法，该方法在面对遮挡时更鲁棒。在时间维度上进行匹配。尽管这是一个成功的框架，但重要的是要注意TBD方法存在一些缺点：1. 如[65，18]所示，采用TBD框架的模型的性能随检测模型而显著变化。这种对图像检测结果的过度依赖限制了MOT任务的性能。尽管已有一些旨在将这两个步骤更紧密地结合在一起的工作[67，20，3]，但由于相对独立的检测模型，这些问题仍然没有从根本上解决2. 由于TBD采用的基于图像的检测模型，当面对严重的对象遮挡时，跟踪模型是弱的（见图1）。1）。仅通过空间表示来检测被遮挡物体是非常困难的[3]。低质量的检测进一步使得跟踪不稳定，这导致更复杂。联系我们边界框6309匹配机制的cated设计[53，57]。3. 作为视频级任务，MOT要求模型能够完整有效地处理时空信息。上述问题在一定程度上是由于科技创新的单独探索造成的：检测器主要对空间特征进行建模，而跟踪器捕获时间特征[50，9，18，53]，这丢弃了视频特征的语义一致性，并导致每一步的不完整STI。如今，许多视频任务可以通过简单的一步端到端方法解决，例如用于动作识别的I3D模型[6][36]，用于视频关系推理的 TRN [68] 以及用于视频未来预测的MCNet [56]作为基本的视觉任务之一，MOT仍然不能以简单优雅的方法工作，并且上述TBD的缺点需要一些其他技术的帮助，如Re-ID [3，41]。很自然地会问一个问题：可以我们解决了多目标跟踪在一个整洁的一步框架工作？通过这种方式，MOT可以作为一个独立的任务来解决，而不受检测模型的限制。我们的回答是肯定的，我们第一次证明了更简单的一步跟踪器甚至比基于TBD的同行实现了更好在本文中，我们提出了TubeTK，它通过以3D方式回归约束管（Btubes）来执行MOT任务不同于3D点云[64]，这种3D表示2D空间和1D时间维度。如图在图1中，Btube由15个时空点定义，与传统的4个点的2D盒它不仅能捕获目标的空间位置，还能捕获目标的时间位置.更重要的是，Btube还对目标的运动轨迹进行编码，这正是MOT所需要的。因此，Btubes可以很好地处理时空信息的整体，很大程度上弥补了检测和跟踪之间的差距。为了预测捕获时空信息的Btube，我们采用3D CNN框架。该方法将视频图像视为三维数据而不是二维图像帧，从而可以同时提取时空特征。这是一种更强大和全自动的方法来提取跟踪特征，其中手工制作的特征，如光流[52]，分割[57，15，62]，人类不需要姿态[17，16，58]或目标交互[50，37，14，46]。网络结构受到一级无锚检测器[55，11]的最新进展的启发，其中采用FPN [38]以更好地跟踪不同尺度的目标之后，应用简单的基于IoU的后处理来链接Btubes并形成最终轨道。整个管道由全卷积网络组成，我们展示了这种紧凑模型成为新跟踪范式的潜力。拟议的TubeTK具有以下优点：1. 使用TubeTK，MOT现在可以像其他视频任务一样通过简单的一步训练方法来解决。与-由于TubeTK不受检测模型、辅助技术和手工特征的限制，因此在应用上较为简单，在未来的研究中具有很大的潜力。2. TubeTK充分地同时提取时空特征，这些特征捕获运动趋势的信息。因此，TubeTK在面临闭塞时更稳健。3. 在没有花里胡哨的情况下，端到端训练的TubeTK在MOT15，16和17数据集上实现了比基于TBD的方法更好的性能[34，44]。我们表明，基于Btube的轨迹比基于预生成的图像级边界框的轨迹更平滑（FN和IDS更少）。2. 相关工作基于TBD框架的研究通常采用外部对象检测器给出的检测结果[47，40，42]，并专注于跟踪部分，以关联跨帧的检测框。在跟踪模型中，采用了多种关联方法。在[2，29，66，45，35]中，每个检测到的边界盒都被视为图的一个节点，关联任务相当于确定边，其中最大流[2，61]或等价地，最小成本[45，29，66]通常被采用为原则。最近，随着深度学习的发展，已经提出了基于外观的匹配算法[32，50，18]。通过匹配具有相似外观（如衣服和体型）的目标，模型可以在长时间距离内将它们关联起来。Re-ID技术[33，3，54]通常用作此匹配框架中的辅助。当面对密集人群和严重遮挡时，基于图像的对象检测器的性能是有限的因此，一些作品试图利用额外的信息，如运动[50]或通过跟踪步骤学习的时间特征来帮助检测。一个简单的方向是将跟踪步骤生成的边界框添加到检测步骤[41，10]中，但这不会影响原始检测过程。在[67]中，跟踪步骤可以通过控制NMS过程有效地提高检测性能。[20]提出了一种统一的CNN结构，以联合执行检测和跟踪任务。通过共享功能和进行多任务学习，它可以进一步减少两个步骤之间的隔离。[59]的作者提出了一种联合检测和嵌入框架，其中检测和关联步骤共享相同的特征。尽管这些工作基于轨迹或管的管可以成功地捕获目标的运动轨迹，6310（）欧（< 5欧 > 5（2，y2）SS我我2，y2）eeBboxesBeBmB管BSaBtube的定义b从轨迹生成Btubes图2. Btube的定义和生成。a：Btube可以被看作是来自不同视频帧的三个边界盒Bs、Bm和Be的组合。一个Btube有15个自由度，这可以由三个边界框的空间位置（4×3度）和它们的时间位置（3度，ts，tm和te）来确定。b：从整个轨迹生成B管。左：对于轨迹中的每个边界框，我们将其视为一个Btube的B m，然后向前和向后查找轨迹中的Be和Bs。右图：较长的Btube可以捕获更多的时间特征，但它与轨迹之间的IoU较低（η是IoU阈值），这导致了第二行所示的不良移动轨迹。B管之间的重叠用于连接它们。这对追踪很重要。以前的作品采用管来进行MOT或视频检测任务。在[31，30]中，采用将检测结果组合到管中的tubelet建议模块来解决视频检测任务。和[70]采用单对象跟踪方法来捕获受试者虽然这些工作提出并利用了管的概念，但它们仍然利用外部检测结果，并在第二步形成管，而不是直接回归它们。因此，它们仍然是TBD方法，并且上述问题没有解决。3. 建议的跟踪模型我们提出了一个新的一步端到端训练MOT范式，TubeTK。与TBD框架相比，该范式能更好地模拟时空特征，缓解密集人群和遮挡带来的问题在本节中，我们将按照以下安排介绍整个管道：1）我们首先定义了Btube，它是Bbox的三维扩展，并在第二节中介绍了它的生成方法。第3.1条2)节中3.2，我们介绍了用于从输入视频中预测Btubes的深度网络。3) 接下来，我们解读一下Sec中为Btubes量身定制的训练方法三点三4)最后，我们提出了无参数后处理方法来连接预测的Btubes在Sec。三点四分。3.1. 从包围盒到包围管传统的基于图像的包围盒（Bbox）作为目标的最小包围盒，只能指示目标的空间位置，而对于MOT，目标的时间位置和运动方向的模式因此，我们继续考虑如何扩展边界框以同时表示项目。孔的位置和运动，模型可以克服闭塞短于感受野。Btube定义采用三维Bbox来跨帧指示目标是最简单的扩展方法，但这种三维Bbox过于稀疏，无法精确表示目标受视频检测任务[31，30]中的tubelet的启发，我们设计了一个简化版本，称为bounding-tube（Btube），因为原始tubelet的尺寸太大，无法直接回归。Btube可以在空间和时间上由15个坐标值唯一地标识，并且它是通过类似于线性样条插值的方法生成的，该方法将整个轨道分割成几个重叠的Btube。如图在图2a中，Btube T是由不同视频帧中的3个Bbox组成的十面体，即Bs，Bm，和Be，它需要12个坐标值来解好吧另外3个值用于指示它们的时间位置。此设置允许目标在短时间内改变其移动方向一次。此外，它的长宽比可以线性变化，这使得Btube在面对由透视引起的姿势和尺度变化时更加鲁棒。通过在（Bs，Bm）和（Bm，Be）之间插值，我们就能恢复所有的边界框{B s，B s+1，...，嗯，...，Be−1，Be}，构成B管。注意，Bm不必正好在B和B。它可能更接近其中一个 Btubes被设计为同时编码空间和时间信息。它甚至可以反映目标这些特性使得Btubes比传统的Bbox包含更多有用的语义。从轨迹生成B管Btubes只能捕获简单的线性轨迹，因此我们需要拆解COM-BS（年，月）22（2001年，第1年）SSBMts（（2001年，第1年）MMtm（2001年，第1年）eeteBe重叠部分U5乐队U5乐队BtubeBMBeGT赛道BS俯视图长度为5的轨道6311转换为输出M-3cpl qo GT3&LregL美分管GIoU损失二进制交叉熵Lcls焦点损失d损失通过滑动窗口获取短剪辑GT Tracks Raw Videoa输入骨干FPN多尺度任务头b网络：预测Btubes姆普什奇qdMoY’g d Q co µ opchqd Spp pl po3磷酸盐c链接图3.我们TubeTK的管道。a：给定视频V和相应的地面实况轨道，我们以滑动窗口的方式将它们切割成短片，以获得网络的输入。b：为了对视频片段中的时空信息进行建模，我们采用3D卷积层来构建我们的网络，该网络由骨干，FPN和一些多尺度头组成在FCOS [55]之后，多尺度头分别负责不同尺度的目标3D网络直接预测Btubes。c：我们将重叠部分中具有相同空间位置和移动方向的预测Btubes连接到整个轨迹中。 d：在训练阶段，GT轨迹被分成Btubes，然后它们被转换成与网络输出相同的形式：目标地图（见图1）4详情）。目标和预测图被馈送到三个损失函数中以训练模型：用于对前景和背景进行分类的Focal损失、用于给出中心度的BCE以及用于回归B管的GIoU损失。plex目标拆卸过程如图所示。2b.我们通过将其中的每个Bbox扩展到Btube，将整个轨道拆分为多个重叠的Btube。我们对待每一个Bbox因为一个Btube的Bm然后在轨道中向前和向后查找以找到其对应的Be和Bs。我们可以将Bbox扩展到更长的Btubes，以捕获更多的TEM。但线性插值产生的长B管不能很好地表示复杂的运动轨迹（见图1）。2）。为了平衡这种权衡，我们将每个Btube设置为最长的一个，其满足其内插边界框B和地面实况边界框B之间的平均IoU不小于阈值η：最大e−s⋆在两个轨道的交叉点处切换，因为两个交叉轨道趋向于具有不同的移动方向。3.2. 模型结构通过对时空位置进行编码的Btubes，我们可以在一步学习中处理MOT任务，而无需外部对象检测器或手工匹配功能的帮助。为了拟合Btubes，我们采用3D卷积结构[28]来捕获时空特征，这被广泛用于视频动作识别任务[6，24，19]。整个管道如图所示。3 .第三章。网络结构网络由主干网、一个FPN [38]和几个多尺度任务头。给定要跟踪的视频V∈RT，H，W，C，其中T，H，W和C=3分别是帧号，高度，宽度和输入通道，我们将其分成短剪辑It作为输入。ItS.T. 平均值（{IoU（Bi，Bi）}）≥ηi∈ {s，s +1，.，m，...e}（一）从帧t开始，其长度为l。由于B管通常较短，因此分割片段可以提供足够的时间信息，该原理允许动态地生成B管具有不同的长度。当运动轨迹比较单调时，为了获取更多的时间信息，需要增加B管的而当运动急剧变化时，它将生成更短的B管以更好地适应轨迹。克服遮挡Btubes引导模型捕捉运动趋势。因此，当面对遮挡时，这些趋势将有助于预测短期内不可见目标的位置。此外，该专业可以减少ID并降低计算复杂度。此外，通过采用滑动窗口方案，该模型可以在线工作。 3D-ResNet [25，26]被应用为骨干提取多尺度的基本时空特征群{Gi}i表示由3D-ResNet的阶段i生成的特征像RetinaNet [39]和FCOS [55]一样，3D版本FPN，其中2D-CNN层被3D-CNN [28]简单地替换，然后将{Gi}作为输入并输出多个管发生器滑动窗口的方向3年6312DsDeBeBMM不ppΣpMBSBs的回归值Bm的回归值Be的回归值管长度值a表示Btube的网络输出b只有彩色点回归，图4.回归方法和输出图与GT B管之间的匹配。a：模型需要回归相对时间和空间位置，以关注移动模式。b：每个Btube可以通过输出图中的几个点回归。黑色地图上的彩色点位于Btube的B m内，因此它们负责此Btube。即使在灰色地图上，也有一些点在Btube内，它们也不能预测它，因为它们不在Bm上。缩放特征地图组{Fi}。这种多尺度设置可以更好地捕捉不同尺度的目标对于每个Fi，图5. Tube GIoU计算过程的可视化。目标的交点和DT、T均为十面体，因此可以用B管的方法计算目标的体积。损失函数。GIoU [49]损失是IoU损失的扩展，它解决了当预测的Bbox与地面事实没有交集时没有监督信息的问题。Bbox的GIoU定义为：⋆⋆|DB，B\（BB）|有一个由几个CNN层组成的任务头，把回归的Btubes和置信度分数。这个全3DGIoU（B，B）= IoU（B，B）−|DB,B⋆|（三）网络同时处理时间-空间信息，使得提取更有效的特征成为可能。每个任务头生成三个输出映射：FCOS之后的置信图、回归图和中心度图[55]。中心度图被用作权重掩码应用在置信图上，以便减少偏离中心的框的置信分数。这三张地图的大小是一样的。映射中的每个点p可以被映射回原始输入图像。如果原始输入图像中的p的对应点在-边的Bm的一个B管，那么p将回归其位置（见图）。4）. 对于p，B管位置r可以回归14个值：四个B m{l m，t m，r m，b m}，四个B s{ls，ts，rs，bs}，四个用于Be{le，te，re，be}，并且两个用于管长度{ds，de}。它们的定义如图所示4.第一章我们利用相对于Bm的相对距离，而不是绝对值，对Btubes进行回归，其中DB，B是最小的包围凸物体B和B的。我们扩展了GIoU的定义，使其与Btubes兼容。根据我们的回归方法，必须在同一视频帧上，这使得BT ube的电压和最小的管包围物体D T，T 直-性新如图5，我们可以把每个Btube看作两个正方形平截头体共享相同的底面。因为B m和B m在同一个视频帧上，和D T，T 也由两个相邻的正方形截头体组成，其体积易于计算（详细算法见补充文件）。TubeGIoU和Tube IoU是原始区域的扩展版本。损失函数对于地图M中的每个点p，我们将其置信度得分，回归结果和中心性表示为sp，rp和cp。训练损失函数可以公式化为：L（{s }，{r }，{c }）=1<$L（s，s<$）专注于移动轨迹。作为中心的CP P PNposp∈MCLSpp置信度得分s的加权系数被定义为：.+λLreg（rp，r）N（四）minl，r最小t，b最小值d，dposp∈MC=mm×Mm ×se（2）α最大lm，rm最大tm，bm最大ds，de+N阳性Lcent（cp，c）虽然c可以直接从预测的r计算，但我们采用了一个头来回归它，并且c是基于GTr通过方程计算的2被用作训练头部的地面实况。在FCOS [55]之后，不同的任务负责人被重新分配。分别对不同大小范围内的目标进行检测，可以很大程度上缓解一个点p落入多个B管的B m中所造成的3.3. 训练方法p∈M其中，R表示对应的地面真值。Npos表示正前景样本的数量 λ和α是权重系数，在实验中指定为1。 L cls是[39]中提出的焦点损失，L cent是二进制交叉熵损失，L reg是管GIoU损失，其可以公式化为：Lreg（rp，rp）=I{s=1}（1−TGIoU（rp，rp））（5）⋆ ⋆pTube GIoUIoU是最受欢迎的评估广告效果预测的Bbox的质量，它通常被用作其中I{s=1}是指示函数，如果sp =1否则为0。 TGIoU是Tube GIoU。多个视频帧上述Btube的Bm映射在此黑色贴图上。�� 2 �� 2�� 1��1中文（简体）中文（��简体）对齐的标签或标∩D级63133.4. 连接边界管在得到预测的Btubes之后，我们只需要一个基于IoU的方法，而不需要任何可训练的参数来将它们链接到整个轨迹中。在介绍连接原理之前，我们先介绍为Btubes量身定制的NMS方法。由于Btubes是在3D空间中，如果我们进行纯3D NMS，它们的巨大数量将导致巨大的计算开销。因此，我们将3D NMS简化为修改后的2D版本。NMS操作仅在Bm在同一视频帧上的B管之间进行。传统NMS消除了具有大IoU的目标然而，当两个或更多个轨道相互干扰时，该为了避免在两条轨道的交叉点处的ID切换，我们还考虑了移动方向。B管（或轨道）的移动方向矢量（MDV）从其Bs的中心开始并在B e的中心结束我们希望轨道和Btube有类似的方向可以更有可能链接。因此，我们计算T（s3，e3）和K（s3，e3）的MDV之间的角度θ，并将cosθ作为在M来调整匹配分数。用于链接的最终匹配分数是M′=M （1+φcosθ），其中φ>0是超参数。如果轨迹和Btube的方向矢量成锐角，cosθ>0，分数M′将增大，否则减小。整个链接方法是一个在线贪婪算法-Rithm，其在Alg中示出。1.一、由于B管中编码的时间信息我们可以利用Bs和Be来感知目标的运动通常，相交轨道的方向不同，因此它们的Bs、Bm和Be的IoU不会都很大。在原始NMS算法中，它将抑制IoU大于阈值的两个Btube中的一个，算法1贪婪链接算法输入：预测的Btubes{Ti|i∈{1，2，…NT}}输出：最终轨迹{Ki|i∈{1，2，…NK}}1：{Ti}到{H1，H2，...，其中L是视频的总长度，并且H t ={T Ht |T Ht的 B m在帧t &i ∈ {1，2，.， N T}}。旧γ，而在管NMS中，我们设置两个阈值γ1ii和γ2，并且对于两个B管T（1）和T（2），抑制是2：利用H1初始化{Ki}。3：对于t=2;t≤L;t++do当IoU（B（1），B（2））> γ&IoU（B（1），B（2））>′时，m m1s′s′4：计算M在{Ki}和Ht之间形成匹配，γ &IoU（B（1），B（2））> γ，其中s′= max（s（1），s（2）），ing得分矩阵S，其中Si，j=M′（Ki，THt）2e′e′2je′=min（e（1），e（2）），Bs′通过插值生成。在TubeNMS预处理之后，我们需要将所有剩余的Btubes链接到整个轨道中。的链接方法非常简单，它只是一个基于IoU的贪婪算法，没有任何可学习的参数或支持技术，如外观匹配或Re-ID。由于Btubes在时间维度上的重叠，我们可以关注它来计算用于链接的基于帧给定从帧s1开始并在帧e1结束的轨道K（s1，e1），以及B管T（s2，e2），我们首先找到重叠部分： O （ s3 ， e3 ）其中 s3=max（s1，s2）且e3=min（e1，e2）。如果s3>e3，则K和T没有重叠不需要链接。当它们重叠时，我们计算匹配得分M为：ΣM（K，T）=[ IoU（Kf，Tf）]/|O|（六）f∈O其中Kf和Tf表示K和T中帧f处的（内插）边界坐标。|中的帧数|is the number of frames inO. 如果M大于链接阈值β，则我们链接将T的内插边界框添加到K. 应该注意的是，在重叠部分，我们对来自T和K的边界框进行平均，以减少线性插值引起的链接函数可以公式化为：5：从最大的Si，j开始连接轨道管对在Eq. 7，直到所有其余的Si，jβ。<每个链接操作都将更新{Ki}。6：链接后剩余的B管被添加到{Ki}，新的轨道。7：结束4. 实验数据集和评估指标我们在三个MOT基准上评估我们的Tu- beTK模型[44，34]，即2D-MOT 2015（MOT 15）、MOT 16和MOT 17。这些基准测试由具有许多遮挡的视频组成，这使得它们非常具有挑战性。它们广泛应用于多目标跟踪领域，可以客观地评价模型MOT15包含11个列车和11个测试视频，而MOT16和MOT17包含相同的视频，包括7个列车和7个测试视频。这三个基准测试提供了公共检测结果（由TBD [21]，Faster R-CNN [48]和SDP [63]检测到），以实现TBD框架之间的公平但是，由于我们的TubeTK一步进行MOT，因此我们不采用任何外部检测结果。如果没有在大型数据集上训练的复杂检测模型生成的检测结果，我们需要更多的视频来训练3D网络。因此，我们采用了一个合成数据集JTA [12]，它是二-Knew= Link（K（s1，e1），T（s2，e2））（七）直接从电子游戏侠盗猎车手生成由Rockstar North开发。有256个视频-=K（s1，s3）+ Avg（K（s3，e3），T（s3，e3））+T（e3，e2）其中，我们假设e1e2，+表示连接两个B管（或轨道）而不重叠。 86，IDF 1>79），这表明链接算法是鲁棒的，并且不需要严格精确的Btubes来完成跟踪。6. 结论本文提出了一种面向MOT任务的端到端单步训练模型TubeTK。该算法利用Btubes对目标的时空位置和局部运动轨迹进行编码。这使得该模型独立于外部检测结果，并具有克服阻塞的巨大潜力。我们进行了大量的实验来评估所提出的模型。在主流的基准测试中，我们的模型达到了与其他在线模型相一致的新的最先进的性能提供了综合分析，以进一步验证TubeTK的稳健性。7. 确认这项工作得到了中国国家重点研发&计划的部分支持。 2017YFA0700800 ，国家自然科学基金项目61772332，上海启智研究所。MOT15MOT17MOT166316引用[1] 裴承焕和尹国珍基于置信度的数据关联和判别式深度外观学习，用于鲁棒的在线多目标跟踪。TPAMI，40（3）：5951、8[2] Jerome Berclaz，Francois Fleuret，Engin Turetken，andPas cal Fua. 使用 k- 最短路径优化的多目标跟踪。TPAMI，33（9）：1806-1819，2011. 2[3] Philipp Bergmann，Tim Meinhardt，and Laura Leal-Taixe.没有铃铛和哨子的跟踪。 arXiv 预印本 arXiv ：1903.05625，2019。一、二、七、八[4] 肯尼·贝尔纳丁和雷纳·施蒂费尔哈根。评估多对象跟踪性能：明确的MOT指标。Journal on Image and VideoProcessing，2008：1，2008. 6[5] Alex Bewley、Zongyuan Ge、Lionel Ott、Fabio Ramos和Ben Upcroft。简单的在线和实时跟踪。在ICIP，第3464-3468页中。IEEE，2016. 8[6] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在CVPR中，第6299-6308页二、四[7] 龙辰、艾海洲、崇尚、庄子杰、白波。卷积神经网络在线多目标跟踪。见ICIP，第645-649页。IEEE，2017年。8[8] 崔元君用聚集局部流描述符的近在线多目标跟踪。在ICCV，第3029-3037页，2015年。8[9] 楚鹏和凌海滨。Famnet：联合学习的特征，亲和力和多维分配在线多目标跟踪。 arXiv 预印本 arXiv ：1904.04989，2019。一、二、八[10] Qi Chu ， Wanli Ouyang ， Hongsheng Li ， XiaogangWang，Bin Liu，and Nenghai Yu.基于cnn的单目标跟踪器与时空注意机制的在线多目标跟踪。在ICCV，第4836-4845页，2017年。2[11] 段凯文，白松，谢灵犀，齐红刚，黄庆明，田奇.Centernet：使用关键点三元组的对象检测。arXiv预印本arXiv：1904.08189，2019。2[12] Matteo Fabbri、Fabio Lanzi、Simone Calderara、AndreaPalazzi、Roberto Vezzani

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

TubeTK：一步训练模型的多目标管跟踪器

多目标跟踪

目标跟踪中的经典目标动态模型都有哪些? 并给出具体描述

yolov5+deepsort 指定目标跟踪

transformer单目标跟踪器

多目标跟踪有哪些方法？

基于CNN-Transformer的跟踪器代码实现

SiamFC目标跟踪算法实战

帮我写一个多目标跟踪模型

opencv 自适应颜色模型跟踪器

如何用多目标跟踪检测指标评价自己的数据集

卡尔曼滤波算法目标跟踪

用yolov7训练多目标跟踪数据集

多目标跟踪matlab

yolov5实现无人机目标检测跟踪的具体操作步骤

ct模型机动目标圆周运动跟踪

单目标跟踪和多目标跟踪的数据集

如何训练rtdetr模型

yolov8桌面目标跟踪

yolov8训练的模型进行目标追踪

siameserpn的预训练alexnet模型

最新资源