FAMNet:特征、相似度和多维分配的联合学习在线多目标跟踪

20 浏览量更新于2023-10-12 收藏 1.02MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1FAMNet：特征、相似度和多维分配的联合学习在线多目标跟踪彭厨美国宾夕法尼亚州费城天普大学pchu@temple.edu林海滨美国纽约州石溪市石溪大学hling@cs.stonybrook.edu摘要基于数据关联的多目标跟踪（MOT）涉及多个独立模块的不同处理或优化，这导致方法设计复杂，并且需要对参数进行非平凡的调整。在本文中，我们提出了一个端到端的模型，命名为FAMNet，其中的特征提取，亲和度估计和多维分配细化在一个单一的网络。FAMNet中的所有层都被设计为可微的，因此可以联合优化，以学习用于鲁棒MOT的判别特征和此外，我们将单目标跟踪技术和专用目标管理方案集成到基于FAMNet的跟踪系统中，以进一步恢复由外部检测器产生的假阴性和非噪声目标候选者。所提出的方法在包括MOT 2015，MOT 2017，KITTI-Car和UA-DETRAC在内的各种基准上进行了评估，并与最先进的技术相比，在所有这些基准上都取得了令人满意的性能1. 介绍跟踪视频中的多个对象对于从基于视觉的监控到自动驾驶等许多应用至关重要。解决多目标跟踪（MOT）的当前流行框架使用检测跟踪策略，其中从外部检测器生成的目标候选者相关联并连接以形成跨帧的目标轨迹[1，15，22，35，38，49，52，54]。检测跟踪策略的核心是数据关联问题，通常将其视为三个独立的部分：特征提取用于候选表示，亲和度度量用于评估每个关联假设的可靠性，以及关联算法用于找到最佳关联。这些部件涉及多个单独的数据处理步骤，并且优化方式与*通讯作者。这导致复杂的方法设计和广泛的调谐参数以适应不同的目标类别和跟踪场景。最近，深度神经网络（DNN）已经被深入研究，以在结合特征提取和亲和度度量的统一架构中学习关联成本函数[11，27，46]。通过训练，任务和场景先验可以由候选表示和估计度量自动适应，而无需手动调整超参数。然而，关联算法仍然站在网络之外，这需要从用于训练过程的地面真实关联手动制造专用的亲和度样本。不能保证训练和推理阶段共享相同的数据分布;因此，这可能导致训练模型的泛化能力下降。此外，拥挤的目标，相似的外观和快速运动强加了很大的模糊性的关联只考虑对相邻帧。成功的关联需要跨多个帧的全局优化，其中可以包括诸如外观随时间变化和运动上下文的高阶判别线索。在这种情况下，在没有来自关联过程的合作的情况下学习鲁棒表示和亲和度准则甚至更加复杂。我们在本文中的目标是为MOT制定一个端到端模型：特征表示，亲和模型和多维分配（MDA）在一个名为FAMNet的深度网络中进行细化，该网络经过联合优化以学习任务先验。特别地，特征子网络用于提取每个帧上的候选者的特征，之后亲和度子网络估计所有关联假设的高阶亲和度利用该亲和度，MDA子网络进行全局优化，得到最优分配。通过将FAMNet中的所有层设计为可微的，可以直接参考分配的基础事实来训练特征子网络和亲和为了实现这一点，我们在基于FAMNet的跟踪系统中做出了以下新的贡献：• 我们设计了一个亲和子网络，融合了区分-61726173候选图像序列SOT预测特征阿吉克转发/跟踪1子网MDA子网目标管理检测特征子网特征子网Lik亲和子网假设L第1章：你是谁？幂迭代层L克什蒂尔克L1归一化层KL地面实况赋值k轨迹一代返回/培训图1.我们基于FAMNet的跟踪系统概述。黄色背景中的子网络组成FAMNet。Fik是从每个帧中提取的一组特征，如在第12节中详细描述的。4.1L为全损。将更高阶的外观和运动信息引入相似性估计。• 我们提出了一个MDA子网络，在这个子网络中定义了一个改进的秩1张量逼近幂迭代。有符号可微并适应于深度学习架构。• 我们将单目标跟踪集成到基于数据关联的MOT中。检测和跟踪通过MDA对多个指令进行合并和优化选择，构建目标轨迹。• 我们采用了一种目标管理方案，其中使用专用CNN网络来细化目标边界，检查框以消除外部检测器产生的噪声候选为了证明所提出的方法的有效性，它是在流行的多个行人和车辆跟踪挑战基准，包括MOT 2015，MOT2017，KITTI-Car和UA-DETRAC进行评估。我们的研究结果表明，与其他已发表的作品相比，有前途的性能。2. 相关工作多目标跟踪（MOT）是一个非常活跃的研究领域，人们为此研究了很多方法。目前，最流行的MOT框架是检测跟踪。传统的方法主要集中在解决数据关联问题，例如匈牙利算法[3，16，20]，网络流[13，58，60]和多假设跟踪[6，24]对各种亲和度估计方案。高阶亲和力提供了在成对关联中不可用的全局和判别信息。为了利用 MOT ，通常将其作为 MDA 问题来处理 .Collins [12]提出了一种类似于块ICM的方法，用于MDA合并高阶运动模型。该方法迭代地解决二分分配交替，而保持其他分配固定。在[45，44]中，MDA被公式化为秩1张量近似问题其中提出了具有单位归一化的专用幂迭代以找到最优解。我们的工作与MDA公式密切相关，特别是[44]。近年来，深度学习在MOT中的研究越来越受欢迎最近的解决方案依赖于它作为一个强大的判别技术[1，10，28，46，61]。Tang等人[47]建议使用基于DNN的Re-ID技术进行亲和力估计。它们包括连接跨越多个帧的两个候选者在[41]中，递归神经网络（RNN）和长短期记忆（LSTM）被用来对高阶判别线索进行建模。这些方法在单独的过程中使用手动制作的亲和力训练样本学习网络最近的一些工作已经走得更远，尝试以完全端到端的方式解决MOT。Ondruska和Pos- ner [36]介绍了RNN用于估计candidate状态的任务虽然这项工作是在合成传感器数据上演示的，并且没有显式的数据关联，但它首先显示了使用RNN进行端到端解决方案的有效性Milan等人[32]提出一个基于RNN-LSTM的在线框架，将运动亲和度估计和二分关联集成到深度学习网络中。他们使用LSTM在每个帧上逐个目标地解决数据关联，其中数据关联中的约束是从训练数据中学习的。这两个作品都只考虑了目标的占用状态，没有利用信息性的外观线索。与他们的方法不同，我们提出了一个MDA子网络，处理数据关联和约束，我们的亲和力融合的外观和运动线索，以更好的区分。3. 概述在本节中，我们首先将多目标跟踪（MOT）问题表述为多维分配（MDA）形式，然后概述我们的6174k=0Ikiik−kJK我基于FAMNet的跟踪系统（概述见图①的人。3.1. 问题公式化在[44]中的符号之后，MOT的输入是de。候选项首先用于生成假设序列。候选目标的图像块与轨迹假设一起被传递到FAMNet中以计算局部分配集，如图所示1.一、美创商内部记为O={O（k）}K，其中包含K+1目标Net的基础上，通过从K+1帧的候选集。时间复杂度O（k）特征子网络。然后，亲和力子网络计算-{o（k）}Ik是要匹配的Ik个在这些FEA上对所有假设轨迹的亲和力ikik=1其中O（k）表示候选的状态，诸如其在图像帧上的中心坐标。对于输入候选集O，MOT是要找到一个多维关联，使整体亲和力tures形成的亲和张量，如第节中所述4.1.利用亲和张量，通过MDA子网络估计最佳多维空间，如第二节中所解释的。第4.2和4.3节。受关联约束。具体而言，c.i0：iK为在训练期间，任务地面实况直接ci 0 i 1.IK≥0表示对一种可能缔合物的亲和力与网络输出进行比较以计算损失。的然后，损耗信号反向传播通过网络，或根据MOT，一个假设轨迹ti0：iK由候选人组成。o（0），o（1），.， o（K）我们使用.i 0i 1iK用于学习的特征子网络和亲和子网络，如图中的红色路径所1，并详细介绍了。4.4zi0：iK=zi0 i1. iK指示假设轨迹是否在跟踪阶段，输出分配与sin-toryistrue（zi0：iK =1）或不（zi0：iK =0）。如果进一步表示张量C=（ci0：iK）和Z=（zi0：iK），MO T可以用公式表示为以下MDA问题，以在给定C的情况下求解Z：Σargmaxci0：iKzi0：iK=argmaxCZ1，（1）{zi0： iK}i0：iKZΣiK=1，k=0，1，.，K角目标跟踪（SOT）预测用于通过目标管理方案更新4.5和4.6。我们设计我们的方法在网上跟踪框架，旨在为更休闲的应用程序。在恒定速度假设下，三个帧是计算运动亲和力的最小时间跨度。因此在S. t. i0：iK/{ik}zi0：iK∈{0，1}，ik=1，2，.，Ik（二）在论文的其余部分，K=2，在关联批次之间有两个帧重叠，用于平衡计算成本其中，λ表示逐元素乘积，λ·λ1是主和足够的深度的关联，包括更高的-1-norm，和i0：iK/{ik}表示对所有排序辨别线索。下标i0：iK除了ik。要求解方程1，我们遵循秩1张量近似-mation（R1TA）框架[44]。多维as-Z首先被分解为一个se-Z的乘积4. FAMNet4.1.亲和子网局部赋值序列X（k）=（x（k））1 ），其代表─亲和子网络采用候选者的特征在相邻帧中的候选者之间发送分配I.E.时间复杂度为O（k）如果我们进一步将局部分配矩阵重写为向量形式x（k）=（x（k）），其中jk=（ik−1−1）×Ik+ik，则等式1中定义的优化问题。1可以重写如下：和假设轨迹作为输入，并生成仿射张量作为输出。对于每个关联批次，首先使用特征子网络，这是一种Siamese风格的网络，用于从所有帧arg maxA×1Xx（1）×2x（2）···×K x（K），（3）在批次中该批次的中间帧中的候选被视为锚候选，并且中间帧被称为锚定帧。例如，在一个示例中，对于K=2，锚其中，A=（aj1：jK）是从（K+1）阶C张量到K阶张量遵循-使用[44]中定义的规则，×k是k-模张量帧是指帧k = 1。对于每个锚候选人〇（1），分别从三个1.（一）（二）Σ（K）帧，记为Fi={f（0），f（1），f（2）}。这些特征乘积，X=x，x、...、 X是本地as的集合-1i1i1i1我们正在优化的分配向量。3.2. 体系结构概述和跟踪管道6175我1我对于每个关联批次，基于FAMNet的跟踪系统获取K+1个图像帧和相应的解压缩。都以帧k = 1上的o（1）的相同位置为中心，如图2左侧所示。二、这样，F11中的特征共享相同的坐标原点，因此可以在沿着通道级联空间维度f（1）由o（1）的边界框确定，而i1i 1由外部检测器提供的检测作为输入。检测1为了便于标记，X（k）和x（k）分别具有双下标和单下标其他的是f（1）的倍数，以便包含足够的1将相邻帧上的候选人合并到同一视图中。注意假设轨迹共享相同的锚点6176IkIkIk我我我.o我o我o我我我我我锚点候选人2012202= 0特征子网0亲和子网2��·*0、1|2 22012检测注意掩码= 11212×零填充101、100、1022 22221+2 3222×= 22SOT预测1*二、一|2连体式网络��·2 222图2.K=2的特征和亲和子网络的图示。其示出了计算假设轨迹t222的亲和度c222的示例。第一列图像中的红色边界框指示第二列中的补丁在图像帧上的位置。第二列中的蓝色边界框说明了检测候选项。最好用彩色观看。日期具有相同的Fi1集合。因此，对于每个关联批次提取3个I1使用提取的特征集为每个假设轨迹计算两个级别的亲和力，如图所示二、详细地，亲和张量计算如下：它被称为φ（·）|o（0）。i0我们使用卷积神经网络（CNN）与空间注意评估假设轨迹为此，特征f（0）和f（2）是多个的。1 1与从b（0）和b（2）生成的空间掩模叠加为（0）(2) Σi0i21，bi，bi示于图二、特别是，我们创建一个二进制掩码，。.02Σ（0）（二）（0 ） .（一）空间大小与f1相同或fi1 对于每一个候选人。在-φfi1C=o（0），fi1i0ti0i1i2∈T（四）在每个掩模侧，b内的区域（k）设置为1，否则i0i1i2。（二）、(1) 阿吉克φfi1. （2），f，我21是0。每次，b（k）在掩码中的实际位置为100，ti0i1i2 ∈/T，从图像帧转换到以锚候选者为中心的坐标在对时空编码其中T是有效假设轨迹的集合，b（k）是与o（k），φ（·）相关联的边界框计算逐段af，并且φ（·）评估长期af在信息中，F11中的特征沿着通道级联以形成CNN的输入，以估计长期的亲和力假设轨迹的最终亲和度是根据等式2的两个亲和度水平的总和。4.第一章假设轨迹，f（0）|1无（0）i0是f（0）14.2. R1TA功率迭代层以o（0）为中心，具有与f（1）相同的空间维度。i0i 1o（0）在f（0）中的实际中心坐标需要是一致的。0 1相应地修改。为了方便起见，我们在这里使用o（0）0对于成对亲和度，互相关运算为使用诸如利用仿射张量，我们使用R1TA幂迭代，估计方程中的最优分配集合。3 .第三章。求解MDA的全局最优值通常需要NP-难探测。次优近似通常由幂迭代算法保证，该幂迭代算法可以表示为：.（0）个。(1) Σ（一）（0）个。.（0）（1）非对称性。纯数学格式。φfi1.（0），fi01=fi1B.1.（0）=φfi01，fi16177我1i1i1.o（0），i0（五）为了使这个过程适合深度网络框架，我们采用了与其中*是卷积运算。原因是共享相同锚候选的具有相同的Fi集合，我们可以首先计算f（1）<$f（0），然后从互相关结果中取o（0）0在[44]中，在每次迭代后将行/列归一化应用于X，以强制执行等式中定义的约束。二、张量幂迭代和行/列正规化被分成两个独立的层，在我们的de-i6178J12j2X = X 1XxJK1X标志.它避免了在单个层中累积太深的操作，并减轻了潜在的梯度消失。这个方案的缺点是我们不能期望与[44]中相同的然而，得益于端到端的训练，它可以通过学习更具鉴别力的特征和亲和力度量来补偿。详细地，Eq.三是要有EQ。2迭代地近似为：向前传球。在第（n+1）次迭代时，x（1）（n+1）由2(1)(n）1212123=0x（1）（n+1）=1Σxj1C（n）aj jx（2）（n），（6）J2图3.假设轨迹生成。它显示了所有的假设其中C（n）=a x（1）（n）x（2）（n）是正规的-通过候选对象o（1）的轨迹。节点的颜色j1， j2j1j2j1j22化因子在初始化时，所有局部赋值向量x（k）（0）中的元素被设置为1。向后传球。R1TA幂迭代层计算亲和张量A的损失梯度，表示为作为后向输出，输出为L/aj1j2落后的输入pass是所有局部赋值向量的损失梯度，最后一次迭代，例如， L/表示地面实况关联。通过多次迭代交替地执行行和列向前传球。对于每一对迭代，我们从行规范化开始。在第（n+1）和（n+2）次迭代中：前向传递中执行的迭代次数的X（k）（n+1）=X（k）（n）1IkΣ−1X（k）（n）梯度输出计算如下：（k）（n+2）（k）（n+1）Ik−1X（k）（n+1）−1，（9）（1）（n）（2）（n）=j1j2C（n）其中1k∈RIk是所有元素都为1的向量，[x]j1j2n××i（k）−x（k）（n+1）Ljk<$x（k）（n+1）K（七）、这里和下面表示对角矩阵，其中x为对角线元素向后传球。给定一个起始梯度<$L/<$X（k）（n+2），我们迭代地计算梯度：其中i（k）是与x（k）相同维度的单位向量，并且仅在jk处具有等于1的元素，否则为0。在或-LX（k）（n+1）LΣ=X（k）（n+2）⊤Ik−1X（k）（n+2）Σ−1 -1Ik−1计算Eq。对于所有迭代，还需要每次迭代时分配向量的损失梯度，. Σ·诊断⊤Ik−1（k）（n+2）<$−2。X（k）（n+2）X（k）（n+2）如下所示：(1)(n+1）LX（k）（n）=X（k）（n+1）1Ik100-100升X（k）（n+1）L=xj1. i（1）−x（1）（n+1）L. 2000-2000公升。ΣΣj（k）（n+1）（k）（n+1）（1）（n）1（1）（n）1J1（2）（n+1）-诊断X1IkXX（k）（n+1）1Ik.-. x（2）（n+1）（2）（n+1）1+C（n）公司简介aj1j2（2）（n），j2xj2我们的101规范化层与[59]中的相似但不同，因为我们的实现允许部分4.3. 101规范化层（八）行/列规范化处理真实和虚拟的can-didates不同的细节在第二节。四点五分。4.4. 培训为了满足等式中定义的约束2所需MDA，行/列归一化应用于结果X。来自R1 TA功率iter的分配向量-在训练期间，总损失L由下式测量：所有预测赋值01112102✓223×��22212虚拟候选人2019 -02 - 2200：00：00��13220314231JXLΣ⊤Σ6179X =（X层重新成形为它们的矩阵形式，. x（k）ik−1Σ。（k）∈[0，1]和赋值groundtruthx<$ik−1ik ∈（k）（k）k−1 k）∈ RIk−1×Ik。然后，将101归一化{0，1}，其被写为2第二个上标表示迭代的轮次此外，委员会认为，（k）（k）（k）（k）这一小节中的推导是关于x（1）的，但对于x（2）也是一样的。L=x<$ik−1iklogxik−1ik+（1−x<$ik−1ik）lo g（1−xik−1ik）。基伊j1j2k−1k6180ik−i kˆˆJ一期+1ik−.算法1目标管理1：输入：分配矩阵X（k）=（x（k）12：输出：跟踪目标轨迹。第三章：使用图多切离散化X（k）[21]。4：对于ik−1= 1，. . . ，Ik−1do5：如果o（k−1）未跟踪）∈ RI k−1×I k。最终检测器我们向每个候选集添加一个虚拟候选，以代表缺失的候选，并允许它与连续帧中的任何候选连接，如图所示3 .第三章。真实候选者和虚拟候选者都用于生成轨迹假设。当计算亲和度时，我们选择使等式中的亲和度最大化5作为中心i k −1。ΣCNNBBEb（k−1）>0。5那时每个锚候选的虚拟候选，ik−16：添加从b（k-1）.（2）（1）arg maxφ f， f=. f （1）f （2）.（十）7：如果结束（k−1）ik−1（k）O（2）一2+1i1i1i1i1O（2）一2+ 18：如果oik-1分配给一个真实的候选人，例如 ojk然后.（k−1）（k）Σ9：如果IoUp，bt<因此，如果锚候选者错过了其检测，连续帧，它将与虚拟candi连接ik−1 . jkdifCNNBBEb（k）<0。5那时10：使用p（k-1）更新o（k-1）的目标轨迹日期，它代表与它最相似的位置，或者说，它是一个连续的帧，或者说它的跟踪预测。11：继续12：如果结束ik−1ik−1第每个锚候选者可以具有不同的位置由S OT预测。我们使用等式（2）中的10.关于《VIR》213：使用b（k）更新o（k-1）的目标轨迹实际候选人，其中心坐标可能会有所不同，14：其他ik−1jk锚候选人。15：BbF是图像帧的边界框。为了防止MDA总是选择虚拟罐-.（k−1）16：如果IoUpik−1，bF

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

FAMNet: 特征、相似度和多维分配的联合学习在线多目标跟踪

最新资源

FAMNet: 特征、相似度和多维分配的联合学习在线多目标跟踪

基于多特征融合的多目标跟踪

一种基于多特征融合的视频目标跟踪方法

多特征融合的目标跟踪

余弦相似度作为相似度度量的优缺点各10条

python中KeyError: '相似度'怎么解决

特征余弦相似度，调整余弦相似度和余弦相似度的区别

为什么要进行图像特征相似度计算

余弦相似度模型的具体优点与缺点

上一个问题报错，KeyError: '相似度'怎么解决

jaccard相似度算法的优点

基于相似度的注意力机制的优缺点是什么

deepsort多目标跟踪分割

两个集合怎么判断相似度

deepsort算法步骤

图像相似度的衡量都有哪些方法

文本相似度分析结果分析模板

pytorch框架的deepsort多目标跟踪

yolo目标检测deepsort跟踪算法联合

计算多维特征与某一特征的相似度，根据相似度赋予多维度特征权值和某一特征结合作为dense层的输入，求keras代码

python中KeyError: '相似度'怎么解决，没有这个键就创建出来

最新资源