基于双线性LSTM的多目标跟踪

107 浏览量更新于2023-10-13 收藏 666KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于双线性LSTM的神经门控多目标跟踪Chanho Kim1，Fuxin Li2，and James M.Rehg11行为成像佐治亚理工学院，亚特兰大，美国{chkim，jerg}@ gatech.edu2俄勒冈州立大学，美国lif@oregonstate.edu抽象。在最近的深度在线和近在线多对象跟踪方法中，困难在于结合长期外观模型以在严重遮挡和多个缺失检测下有效地对对象轨迹进行。在本文中，我们提出了一种新的递归网络模型Bilinear LSTM，以通过递归网络改善长期外观模型的学习基于从递归最小二乘法得出的直觉，双线性LSTM将线性预测器的构建块存储在其存储器中，然后以乘法方式与输入耦合，而不是传统LSTM方法中的加法耦合。这种耦合类似于每个时间步的在线学习分类器/回归器，我们发现这可以提高使用LSTM进行外观建模的性能。我们还提出了新的数据增强方法，以有效地训练重现的模型，得分对象的外观和运动的轨道。我们训练了一个LSTM，它可以根据外观和运动对对象轨迹进行评分，并将其用于多假设跟踪框架中。在实验中，我们证明了使用我们的新型LSTM模型，我们在MOT 2016和MOT 2017基准测试中实现1介绍随着基于深度学习的检测器的改进[16，35]和MOT挑战的刺激[32]，用于多对象跟踪的检测跟踪方法在过去几年中已经显著改进。多对象跟踪方法可以根据先行帧的数量分为三种类型：在线方法在处理输入帧之后立即生成跟踪结果[33，1，22]，近在线方法在合并决策之前前瞻固定数量的帧[24，7]，以及批处理方法在生成决策之前考虑整个序列[39，38]。为了跟踪多个人，最近的最先进的批处理方法[38]依赖于人重新识别技术，该技术利用深度CNN网络，该深度CNN网络可以识别已经离开现场并重新进入的人等2C. Kim，F. Li和J.M. 雷格一种方法能够将长轨迹串在一起，其中人在几十帧内不可见，而在线和近在线方法中的丢失帧的余量通常短得多。在线和近在线跟踪的一个关键挑战是开发能够自动适应多个视频帧上目标的不同外观变化在多目标跟踪的背景下，已经提出了一些基于递归神经网络（RNN）[33，1]的方法[33]专注于使用RNN构建非线性运动模型和[1]成功地采用了长短期记忆（LSTM）[21]来整合外观，动作和交互提示，但图7。（b）在[1]中报告了最大长度的序列（轨道）的结果10.在实践中，对象轨迹远长于10帧，目前还不清楚该方法是否对更长的轨迹同样有效。我们自己的经验，加上文献报道，表明它很难使用LSTM对长序列上的对象外观进行建模。因此，研究利用LSTM进行跟踪的基本问题是值得的，例如在它们的内部存储器中存储了什么，以及哪些因素导致它们能够或无法学习良好的外观模型。利用经典递归最小二乘回归的直觉，我们提出了一种新型的LSTM，适用于学习序列外观模型。而在传统的LSTM中，记忆和输入具有线性关系，在我们的双线性LSTM中，LSTM记忆充当预测器（分类器/回归器）的构建块，这导致输出基于记忆和输入外观之间的乘法关系。基于这种新颖的LSTM公式，我们能够构建一个递归网络，用于对结合了长期外观和运动信息的对象轨迹进行评分。这个新的轨道记分器，然后利用与建立的近在线多对象跟踪方法，多个假设跟踪，其原因在多个轨道的建议（假设）。我们的方法结合了深度特征学习的优势和近在线跟踪器的实用性我们的第二个贡献是一种训练方法，用于从多对象跟踪数据集生成顺序训练示例，该数据集考虑了检测可能有噪声或丢失许多帧的情况我们已经开发了系统的数据增强方法，使我们的近在线方法能够利用长训练序列并在检测情况下生存噪音和几十帧连续的检测缺失。通过这两个改进，我们能够在MOT挑战中为近在线方法生成最先进的在未来，我们提出的双线性LSTM可以用于需要长期在线预测器的其他场景。2相关工作关于多目标跟踪有大量文献。不训练深度网络的最佳性能跟踪算法包括[7，29，24]。这些方法神经门控多目标跟踪3不通常利用长期外观模型以及结构线索和运动线索。对早期跟踪论文的回顾可参见[27]。与我们最接近的先前工作使用 RNN 作为马尔可夫决策过程（MDP）框架中的轨迹建议分类器[1]。处理外观，运动和社交信息的三种不同RNN分别进行训练，用于跟踪建议分类，然后组合用于多个线索的联合推理，以实现最佳性能。我们的方法是不同的，无论是在网络架构和训练序列生成从地面实况跟踪这种方法。此外，我们提出了第一次将深度学习跟踪模型纳入MHT框架。其他最近的方法[37，28]采用连体网络，学习一对图像的匹配函数。该网络被训练用于二进制分类问题，其中二进制输出表示图像对是否来自同一对象。可以在跟踪框架中利用匹配函数来替换任何先前的匹配函数。在这一类别中的方法仅限于对一对检测之间的信息进行建模，而我们的方法可以对轨道和检测之间的交互进行建模，从而利用长期的外观和运动信息。Milan等[33]提出了一个深度学习框架，解决了端到端可训练网络中的多对象跟踪问题。与我们的方法不同，他们试图联合解决状态估计和数据关联在一个框架中。虽然这是高度创新的，但MHT的一个优势是能够使用高度优化的组合求解器。RNN已应用于单对象跟踪[42，18]，然而，由于遮挡量和ID切换问题，多目标跟踪是一个更具挑战性的问题，这更有可能发生在多对象设置中。3MHT概述在检测跟踪中，多目标跟踪是通过数据关联来解决的，数据关联通过为每个检测分配轨迹标签来生成一组轨迹。MHT解决了数据关联问题，明确地产生多个跟踪建议，然后选择最有前途的。令Tl⑴ ={dl，dl，… ，dl ，dl}dentethtra ckpposafram ttetdlbea1 2t−1t t通过在框架上执行此访问预防来执行检测。所述选定检测可为由对象检测器产生的实际检测或表示缺失检测的虚拟检测。每个对象的轨迹建议被存储在轨迹树中，其中每个树节点对应于一个检测。例如，根节点表示对象的第一次检测，并且子节点表示后续帧中的检测（即，第二帧中的检测）。相同深度的树节点表示相同帧中的检测）。因此，从根节点到叶节点的多个路径对应于单个对象的多个轨道建议。建议书被评分，找到最佳建议书集的任务可以被制定为最大值。4C. Kim，F. Li和J.M. 雷格F加权独立集（MWIS）问题[34]，每个建议的得分是它的权重一旦找到最佳提议集合，就执行提议只有幸存的方案会在下一帧中保留和更新。关于MHT的更多细节可以在[24，34]中找到。3.1MHT中的门控在MHT中，通过用新的检测扩展现有的轨迹建议来更新轨迹建议为了保持提议的数量可管理，现有的轨道提议不是用所有的新检测来更新，而是用一些选定的检测来更新。选择过程称为选通。先前的门控方法依赖于手工设计的轨迹得分函数[24，34，5，9]。通常，建议得分S（Tl（t））被递归地定义为：S（Tl（t））=S（Tl（t−1））+S（Tl（t））（1）通过对分数增量Δ S（Tl（t））进行阈值化来进行门控。分数增量低于某个阈值的新曲目提案会立即被修剪。通常，建议得分包括可以通过递归最小二乘法学习的外观项，以及可以通过卡尔曼滤波学习的运动项3.2递归最小二乘作为外观模型我们以前的MHT-DAM方法[24]的一个重要优点是使用长期外观模型，该模型利用来自给定轨道的所有先前外观样本并训练判别模型来预测每个边界框是否属于每个给定轨道。因为我们希望能够在我们的LSTM框架中执行类似的任务，所以我们简要回顾了[24]中使用的递归最小二乘外观模型。给定在帧t处的所有n t个检测，可以提取外观特征（例如，CNN全连接层），并将它们存储在n t×d矩阵X t中，其中d是特征维度。然后，假设我们正在跟踪k个对象轨迹，可以为每个轨迹创建输出向量，例如每个检测的边界框和每个轨道（由帧中的一个检测表示）之间的空间重叠，其中输出向量的集合表示为n t×k矩阵Yt。然后可以通过最小二乘回归找到每个目标的回归量：ΣT最小值<$XtW− Yt<$2+λ<$W <$2（二）WF Ft=1其中·2是平方Frobenius范数，λ是正则化参数。如众所周知的，该解可以写为：.ΣTW =t=1⊤Xt Xt +λIΣ-1。ΣTt=1Σ⊤Xt Yt（三）神经门控多目标跟踪5我电话+1电话+1其中I是单位矩阵。值得注意的是，可以存储Σti=1 X Xi和Ct = Σti=1 X Yi并在帧t+1在线更新它们，通过添加XXt+1XYt+1分别为Qt和Ct，同时保持W. 此外，W的计算仅在数量上是线性的铁轨的坡度所得到的模型可以在所有正示例（每个轨道中的过去检测）和负示例（不与给定轨道重叠的其他轨道中的过去检测）上训练，并且生成具有良好区分能力的回归量这种方法的计算效率及其最优性是MHT-DAM框架成功的两个关键。4RNN作为门控网络我们使用术语门控网络来表示执行门控的神经网络我们利用循环神经网络（RNN）训练门控网络，因为轨道建议构成的数据大小不固定的顺序数据。在这项工作中，我们采用长短期记忆（LSTM）作为递归层，因为它成功地对各种任务的长序列进行了建模[17]。我们制定了一个序列标记问题的门控问题。选通网络将跟踪建议作为输入，并通过生成跟踪建议中的每个检测的二进制输出来执行选通。在本节中，我们将描述网络的输入和输出及其在MHT框架中的应用。有关网络体系结构的更多详细信息，请参见4.2.输入.轨迹建议包含运动和外观信息。我们使用边界框坐标（x，y，w，h）作为网络的运动输入坐标相对于帧分辨率被归一化。（X、y、W、H），使范围的图像宽度图像高度图像宽度图像高度输入值固定，与帧分辨率无关。我们还计算样本轨道方案的平均值和标准偏差（见第关于如何从多对象跟踪数据集生成跟踪建议的更多细节，请参见图5），并执行另一归一化，以便使输入数据以零为中心并跨不同维度归一化。我们使用裁剪到检测边界框的对象图像作为网络的RGB裁剪图像首先通过卷积神经网络（CNN）转换为我们使用ImageNet预训练的ResNet-50 [19]作为CNN。输出. 给定当前检测，网络基于其与分配给该建议的其他检测的外观和运动的兼容性，对它是否属于该建议做出二元决定。因此，门控网络使用交叉熵损失来解决二进制分类任务。请注意，由于门控在每个帧上完成，因此每个轨道序列具有多个二进制标签。在MHT中跟踪记分员。我们使用正输出的softmax概率p（即电流检测属于提议中的相同对象），以用于计算分数增量Δ S（Tl（t）），如等式（1）所示。（四）、更高的分数我.Σ.Σ6C. Kim，F. Li和J.M. 雷格级联LSTM不不增量意味着轨迹建议Tl（t-1）和检测dl之间的更高匹配质量。∆S（T l（t））=p（d l∈T l（t− 1）|T l（t − 1））（4）这是一种简单的聚合方案，其组合来自门控网络的每帧预测以便对轨道进行评分。我们的假设是，生成较高的每帧匹配分数的提议比具有较低的每帧匹配分数的提议更可能是正确的分数增量低于阈值的新曲目提案在MHT中，轨迹树中的每个轨迹建议都具有唯一的检测序列，其表示为选通网络中的唯一LSTM存储器状态用于幸存提议的门控网络的权重在所有轨道建议中共享。4.1双线性LSTMLSTMLSTMResNet50ResNet50 ResNet50ResNet50ResNet50追踪至−检测波长为追踪至−检测波长为追踪多达(a)(b)（c）第（1）款图1：在训练完整模型之前，分别训练运动门控网络和外观门控网络。我们为每个模块评估多个网络架构。(a)双线性LSTM网络在存储器和输入CNN特征之间具有乘法关系。LSTM存储器被重塑为矩阵并与输入外观特征向量相乘;（b）输入外观在全连接层之前与LSTM存储器输出级联;（c）常规LSTM架构。我们的经验表明，传统的LSTM在建模运动方面比外观更有效。这让我们问，“关于对象外观的什么信息存储在标准LSTM的内部存储器中，以及对于k，将如何处理？“.常规LSTM利用以下更新规则：ct = ft<$ ct−1 + it <$ gt，ht = ot <$ tanh（ct）ft =σ（Wf [ht−1， xt]）， it =σ（Wi [ht−1， xt]），gt =σ（Wg [ht−1， xt]），ot = tanh（Wo [ht−1， xt]）（5）其中，o代表Hadamard乘积。xt是当前输入。ft、it和ot是遗忘门、输入门和输出门。ct和ht是细胞矩阵-向量乘法重塑神经门控多目标跟踪7我不Q.不伊蒂ti状态和隐藏状态，在整个序列中重复更新是小区状态的新更新值。当构建用于多对象跟踪的外观模型时（即，数据关联），Xt表示对象候选的当前外观对于解决跟踪任务的LSTM，一种直觉是ht可以表示关于对象候选的接受/拒绝的一些ct可以粗略地认为是表示对象外观的存储模板，然后输出门ot比较先前存储的外观ct-1和新的外观xt，以确定当前输出ht。[1]中的实验表明，LSTM的性能似乎在2- 4帧的序列长度下饱和，这似乎表明上述直觉可能部分正确。然而，在以前的工作中，长期外观模型的主要吸引力是使用分类器/回归器的能力，该分类器/回归器从对象的所有从多个不同外观训练的这种模型可以比一个或几个存储的模板更好地泛化，并且可以潜在地在模型的不同先前外观之间内插和外推。一个例子是方程中的递归最小二乘模型。（二）、但是如果我们想象在Eq. (2)作为存储器输出ht，看起来乘法形式xW，如等式（1）中所示。(2)很难从等式中的加法形式获得。(5)，无论从ot， ct还是ht。因此，我们想提出一种新的LSTM，它可以实现多实际上是在存储器和输入x之间。我们不会在解决方案上使用Σeth递归最小二乘的计算依赖于矩阵Qt =不i=1 X Xi这是每次线性更新LSTM很难存储正定的我和我一样熟悉，但应用程序上的一个共同点使我感到非常满意矩阵是使用低秩近似，例如假设Q −1=ri=1 qti在这个假设下，考虑Eq. (3)，回归器输出变为：⊤ ⊤−1Σrw x = C t Q t X=Ctqti qtix（6）i=1注意，当只有1个磁道时，Ct的维数为d×1，因此µi=C qi是标量。我们拥有：w x = Σri=1µqx（7）这里µi依赖于y和q，因此不失一般性，它可以是单独估计的独立变量。通过这种推导，模拟线性回归器的方法似乎是让几个向量hti可学习并随时间逐渐变化（换句话说，作为LSTM中的记忆），以及在hti和x之间的乘法关系之上的一层可学习的μi本着这种精神，我们提出了双线性LSTM（bLSTM），其利用以下前向传递，该前向传递使得能够实现两个LSTM之间的乘法交互。8C. Kim，F. Li和J.M. 雷格t−1，1t−1，rt−1输入和内存：ht−1 =[h⊤t−1，2|... |h⊤⊤]= ot−1 tanh（ct−1）H整形=[ht−1，1|ht−1，2|... |ht−1,r]⊤, m = f (Hreshapedx)(8)t−1tt −1t其中ref（·）是非线性函数，并且是用于bLSTM的新的隐藏状态。Xt表示来自帧t处的框的特征。基本上，我们使用一个长向量作为LSTM内存，其中包含所有ht−1，i s的级联。当需要将h t−1，i与x t相乘时，第三维向量h t−1被整形为r×d矩阵H reformed，这样我们就可以在h t−1和x t之间使用矩阵向量乘法。然后，新的隐藏状态mt可以用作其他全连接层的输入（类似于等式中的µi(7))以生成最终预测。请注意，在在线递归最小二乘法中，μi应该分别为每个跟踪对象进行训练，但在我们的网络中，bLSTM之后的全连接层在测试期间进行全局训练和固定实现依赖于每个对象轨迹的动态μi我们相信，由于系统是端到端训练的，h的LSTM更新应该能够包含µi的潜在变化，因此我们可以保持完全连接的层固定，而不会出现额外的问题。直观地，通过保存类似于矩阵的低秩分解的矩阵值存储器，至少r个模板（以及r个模板的组合）可以用于预测。因此，bLSTM可以存储比传统LSTM更长期的外观模型，并改善在许多帧上保持跟踪标识。4.2网络架构基于网络输入，我们有三种类型的门控网络：运动、外观和运动+外观。我们在图中测试了三种不同的架构。1用于运动门控和外观门控网络。我们在这三者中为每种输入类型选择最佳架构，并将它们组合起来用于运动+外观门控网络。我们用于选择架构的实验结果包括在第二节中。6.3运动门控。对于运动门控，vanila版本的LSTM eq. (5)效果最好因此，我们采用LSTM作为序列标记器，其中LSTM递归地读取运动输入并将序列信息存储在其隐藏状态中。FC层构建在隐藏状态之上以产生最终输出。我们用于比较的体系结构如表1所示外观门控。我们提出使用双线性LSTM作为外观门控，其中LSTM的隐藏的外观可以是当前对象的外观模型的一个weigtvect。有关网络架构和其他两个基准架构的详细信息如表2所示。运动+外观门控。为了使联合推理的运动和外观的对象跟踪，我们构建了一个运动+门控|h神经门控多目标跟踪9Soft-max矩阵向量乘法-relu 8重塑8 ×256重塑256 ×1LSTM2048FC-relu256FC-relu256ResNet-502048ResNet502048t−1时的输入128× 64× 3t时的输入128× 64× 3Soft-maxFC-relu 512串联2048 + 256LSTM2048FC-relu256FC-relu256ResNet-502048ResNet502048t−1时的输入128× 64× 3t时的输入128× 64× 3Soft-maxFC-relu 512LSTM 2048FC-relu 256ResNet-50 2048t时的输入128×64 × 3Soft-max矩阵向量乘法-tanh 4重塑4 ×64重塑64 ×1LSTM256FC-relu64FC-relu64t−1时的输入4t时的输入4Soft-maxFC-tanh 64串联64 + 64LSTM64FC-relu64FC-relu64t−1时的输入4t时的输入4Soft-maxFC-tanh 8LSTM 64FC-relu 64t4时的输入（一）（b）第（1）款（c）第（1）款表1：用于运动门控的不同实验架构。(a)双线性LSTM（b）LSTM作为前一个音轨的特征提取器（c）Vanila LSTM（LSTM作为序列标签器）（一）（b）第（1）款（c）第（1）款表2：用于外观门控的不同实验架构(b)LSTM作为上一首曲目的特征提取器（c）Vanila LSTM网络基于我们对不同基线架构的分析。我们使用Bilin-ear LSTM处理外观数据，使用vanila LSTM处理运动数据。然后是运动和外观表示（即在L2归一化被分别应用于每个表示之后，来自两个门控网络的输出（在软最大之前）预测层建立在级联特征上。我们首先分别训练运动门控和外观门控网络。然后，我们从两个门控网络加载级联层之前的所有预训练层，并联合微调它们。4.3处理缺失检测在检测跟踪中，重要的是处理丢失的检测，同时随着时间的推移保持正确的跟踪标识在传统的基于卡尔曼滤波器的运动跟踪中，在丢失检测的情况下，噪声协方差矩阵的对角线随时间保持增加，从而导致从具有逐渐更大的门控区域的门控接受更多的检测。在复发性门控网络的情况下，丢失检测的发生也应该调制门控网络。例如，可以想象，当所有检测都可用于当前对象时，门控网络应用比检测在最近帧中丢失的情况更严格的门控策略为了在LSTM隐藏状态中编码这些信息，我们建议在丢失检测的情况下将全零输入向量输入到递归网络。通过这样做，LSTM内部（单元和隐藏）状态将仅基于其先前的状态进行更新，这与正常的LSTM不同10C. Kim，F. Li和J.M. 雷格更新，其中输入数据和先前状态都被利用。门控网络不需要对缺失检测进行任何预测，而只需要更新LSTM内部存储器。节中6.3中，我们展示了这种针对运动门控网络的显式缺失检测处理的有效性。5生成训练序列训练序列示例T1 T2T3 T4T5T1 T4T5T1 T5T2 T3 T4T5T1 T2T5T1 T2T3T2 T3 T4 T5图2：从公共MOT数据集生成训练序列每个训练序列在整个轨迹中具有来自相同对象的检测，并且在结束时具有来自不同对象的一个检测。训练序列以它们反映MHT在跟踪期间生成的实际跟踪建议的方式生成。人工轨迹建议是从地面真实轨迹注释生成的，作为训练我们的LSTM网络的训练数据。首先，我们随机选择一个地面实况跟踪注释，从中我们对跟踪建议进行采样。随机选择开始帧和结束帧由于GPU的存储器限制，我们以轨道建议的长度不超过N max的方式选择它们。令N为建议的所选长度（2≤N≤Nmax）。然后我们收集所选对象的前N-1个边界框，并从不同的对象中选择最后的第N正标签被分配给代表正确对象的前N-1个检测，负标签被分配给代表不同对象的第N个检测因此，每个建议与二进制标签向量相关联，其中只有最后一个元素是负标签，如图1B所示二、最大长度Nmax需要足够大我们显示了不同的N最大值在秒的实验结果。6.3数据增强。如果地面实况跟踪没有任何增强-为了生成轨迹建议，每个轨迹建议将由与连续帧中的对象完全对准的边界框组成，这可能不好地表示由噪声检测组成的实际轨迹建议。因此，重要的是执行适当的数据增强，使得轨迹建议反映实际检测噪声。需要考虑两种类型的检测误差：定位误差和丢失检测。为了反映本地化噪声，我们使用从训练数据估计的噪声模型抖动训练轨道建议地面实况跟踪T1 T2 T3 T4 T5神经门控多目标跟踪11为了估计该噪声模型，给定一组检测和地面实况注释，我们首先将每个检测分配到其最接近的地面实况边界框，然后计算从每个检测到其分配的地面实况边界框的定位误差。然后，我们将正态分布拟合到所有真阳性检测的这些定位误差。由于MOT Challenge Benchmark [32]提供了三个具有不同准确度和噪声水平的公共检测器（DPM [13]，FRCNN [41]，SDP [35]）因此，在训练数据生成器针对该提议对随机定位误差进行采样之前，它首先基于检测器选择正态分布。然后，对于每个轨迹建议中的每个边界框，从估计的正态分布中采样不同的定位误差。为了模拟缺失检测，对于50%的轨道，我们随机地在每个轨道上选择缺失检测（0. 0到0。5）并且根据所选择的缺失率，除了第一边界框（当前对象）和最后一个边界框（不同对象）之外，在轨迹建议中选择边界框。具有该缺失检测增强的示例跟踪提议在图1B中示出1.一、其余50%的轨道被保留而没有丢失检测。6实验除了在MOT 16/17测试序列上评估的最终基准结果外，我们报告了在验证集上的所有实验结果。6.1训练数据为了生成跟踪建议，我们使用MOT17（MOT16）和MOT15序列[32，26]以及其他一些跟踪序列[15，10，2]，其中行人注释可用。所有训练、验证和测试序列如表3所示除了MOT序列之外，我们还使用两个公共人员重新识别数据集Market1501 [43]和CUHK03 [30]，以便预训练外观门控网络。训练集验证集测试集MOT17 -{ 02，04，05，11，13}，MOT15 -{ 01，02，03，04，05，06，07}，ETH -{Jelmoli，Seq01}，KITTI -{16，19}，PETS 09-S2 L2，TUD-十字路口，AVG-城镇中心MOT17 -{ 09，10}MOT17 -{ 01，03，06，07，08，12，14}表3：培训/确认/测试拆分6.2人员重新识别在人物再识别任务中，一对图像被给予学习者，学习者决定两个图像是否来自同一个人。可以将两个图像的对视为具有时间长度2的轨道提议。这样的训练示例也可以从多对象跟踪数据集生成因此，除了训练集之外，12C. Kim，F. Li和J.M. 雷格Nmax MOTA IDF1 IDSLSTMMOTA IDF1 IDS状态dim. MOTA IDF1 IDS10 51.9654.36 271表4：外观选通网络的消融研究基线1和基线2分别是表2（b）和（c）中所示的网络。（左）状态变暗= 2048，Nmax= 40（中间）LSTM：Bilinear，Nmax= 40，（右）LSTM：Bilinear，状态暗淡。= 2048来预训练我们的外观选通网络以用于人员重新识别。类似的预训练也在[1，38]中进行。表5示出了用于人员重新识别的预训练对门控网络的性能的影响。6.3消融研究我们针对不同的网络架构和我们的验证序列（MOT 17 -09和MOT 17 -10）的训练设置进行消融研究。MOT17基准测试提供了三种不同的公共检测器。我们使用Faster R-CNN检测器来获得本节中的实验结果。指标.在许多不同的跟踪指标中，我们选择了多对象跟踪精度（MOTA）[4]，身份转换（IDS）和IDF1 [36]用于本研究。MOTA由对象检测错误（假阳性和假阴性）和跟踪错误（身份切换）计算。MOTA通常由对象检测错误主导，因为假阳性/阴性的数量通常比IDS高得多IDS统计所有对象的轨道ID更改的次数IDF1是跟踪度量，其测量对象被相同跟踪ID正确识别的频率。网络架构。我们测试了图1所示的三种深度架构的MHT门控。表4中的结果由具有不同外观门控网络的MHT生成不同架构的运动门控结果可在补充材料中找到表4中的左表示出了作为门控网络的不同深度架构的跟踪性能。双线性LSTM最适合作为外观门控网络。就网络大小（LSTM状态维度）而言，2048状态维度是双线性LSTM作为外观门控网络的良好选择。培训设置。我们还尝试了不同的训练设置，如不同的最大序列长度，缺失检测增强和网络预训练。结果见表4、5和6。我们使用在IDF1和IDS之间很好地平衡的（M）+（A）模型（在表6（中间）中）作为我们的最终模型，用于与MHT和第12节中的MOT基准进行比较6.4我们使用Adam优化器[25]来训练运动门控网络，并将初始学习率设置为0.01，批量大小为64。我们使用随机梯度优化器训练外观和运动+外观门控双线性52.33 59.07 23351252.1456.66 2832052.2758.38 228基线150.4351.28 412102452.3655.85 2224052.33 59.07 233基线250.9751.49 462204852.3359.07 2338052.3257.21 23916052.4155.19 222神经门控多目标跟踪13输入类型MOTA IDF1 IDS(A)随机52.0057.46 268(A)预训练52.3359.07 233预训练MOTA IDF1 IDS(M)+（A）随机50.31 50.39 499(M)+（A）预培训表5：预训练与随机初始化（左）LSTM：双线性，状态dim. = 2048，Nmax= 40（右）LSTM：基线2（运动）+双线性（外观），状态尺寸 =64（运动），2048（外观），Nmax = 40缺失检测器MOTA IDF1 IDS(M)是(M)没有52.5847.71 203(A)是52.2941.37 244(A)否52.33 59.07 233输入类型MOTA IDF1 IDSMotion（M）52. 47 50. 22 229外观（A）52.33 59.07 233（男）+（甲）52.63 58.08 197输入类型MOTA IDF1 IDSMotion（M）52. 30 51. 14 255外观（A）52.3257.21 239(M)+（甲）52.69 54.63 208表6：（Left）Mis singDetectionAugmentition/Off。 Nmax=40。我们使用零输入向量的LSTM状态（如第2节中所述）。4.3），用于用缺失检测增强训练的模型该表中的结果表明，这种LSTM状态更新对于运动门控网络是有益的，但对于外观门控网络不是因此，我们仅对运动门控网络和运动+外观门控网络中的运动部分利用缺失检测处理（中间和右边）具有不同最大长度的训练序列的不同输入类型（中间）N_max = 40（右边）N_max = 80。网络，并将初始学习率设置为0.005，批量大小为16。在所有情况下，我们让学习率每5000次迭代以指数衰减的方式降低，衰减率为0.9，直到我们观察到验证集的性能下降6.4MOT挑战基准在本节中，我们报告了与MHT-DAM的性能比较以及我们在MOTChallenge 17/16 Benchmark上的跟踪结果。与MHT-DAM比较。为了查看我们训练的模型是否与MHT一起工作良好，我们首先在验证分割上将跟踪性能与MHT-DAM [24]进行比较与bLSTM不同，[24]不受益于任何方法MOTA IDF1 IDSMHT-DAM47.648.272我们的43.852.991方法MOTA IDF1 IDSMHT-DAM53.754.8136我们的54.860.5140方法MOTA IDF1 IDSMHT-DAM69.462.7 128我们的69.768.6137表7：与MHT-DAM在我们的val分割（MOT 17 -02和MOT 17 -11）上的比较Nmax = 80。轨迹通过平滑进行插值。（左）DPM（中）更快的R-CNN（右）SDP。14C. Kim，F. Li和J.M. 雷格使用多对象跟踪数据集的离线训练而是以在线方式为多个对象构建外观模型表7示出了结果的比较。当Faster RCNN和SDP提供输入检测时，我们的新MHT与bLSTM工作良好然而，对于DPM的情况，与MHT-DAM相比，MOTA得分较低，尽管我们的新方法在IDF 1上仍然显示出更强的性能。我们认为，这是因为DPM产生相当嘈杂的检测，而我们使用地面实况跟踪来生成我们的模型的训练序列。因此，我们的训练数据（即使在数据增强之后）和从训练数据构建的跟踪建议MOT 16/17挑战基准。我们使用与表7所示相同的模型和设置作为对MOT测试序列进行评价的最终方法。结果见表8。我们将与我们的方法密切相关的先前方法分别分组，以便看到这些方法之间的性能差异。表8：MOT 2017/ 2016挑战赛的结果（2018年 7月26方法MOTA IDF1 IDS Hz方法MOTA IDF1 IDSHzJCC [23]51.254.5 1，802 1.8MOTDT17*[31]50.952.7 2,474 18.3PHD-GSDL17 [14]48.049.6 3,9986.7FWT*[20]51.347.6 2,6480.2MHT方法MHT-bLSTM* 47.551.9 2，069 1.9* 表示使用额外的训练数据7结论基于MHT和LSTM的方法EDMT*[6] 45.347.9 639 1.8AMIR*[1]46.3774 1.0MHT-DAM[24]45.846.1 590 0.8MHT-bLSTM* 42.147.8 735 1.8在本文中，我们提出使用LSTM网络在近在线多假设跟踪框架中对跟踪提案进行评分。为了正确地考虑多个过去的外观，我们提出了一种双线性LSTM算法，该算法将LSTM内存切片为几个向量，并在内存输出和外观输入之间使用矩阵向量区别训练的预测器模型。这样的算法在对每个轨迹的外观进行建模方面明显优于传统的LSTM，特别是在维护轨迹标识方面。在MHT框架中联合使用外观和运动LSTM门控网络，我们在近在线方法的MOT挑战中实现了最先进的性能。我们相信，提出的双线性LSTM是通用的，可以应用于许多其他需要使用端到端方法学习在线顺序判别模型的问题，并将在未来的工作中探索这些问题。致谢：这项工作得到了NIH奖1 R24 O D 020174 - 01 A1的部分支持。Fuxin Li部分得到了NSF 1751402号合同和DARPA N66001-17-2-4030号合同的支持。NOMT [7]46.453.3 359 2.6MCjoint [23]47.152.3 370 0.6LMP*[38]48.851.3 481 0.5STAM16 [8]46.050.0 473 0.2[第45.948.8 648 0.9NLLMPa [29]47.647.3 629 8.3JMC [40]46.346.3 657 0.8LINF1 [11]41.045.7 430 4.2CDA-DDALv2*[3]43.945.1 676 0.5EDMT 17 *[6]50.051.3 2,2640.6MHT-DAM [24]50.747.2 2,3140.9神经门控多目标跟踪15引用1. A. Sadeghian、A.Alahi，S.S.：跟踪不可跟踪的：学习跟踪具有长期依赖性的多个线索。In：ICCV（2017）2. Andriluka，M.，Roth，S.，Schiele，B.：通过检测进行人员跟踪和通过跟踪进行人员检测。载于：CVPR（2008年）3. 裴S.H.Yoon，K.J.：基于置信度的数据关联和判别式深度外观学习，用于鲁棒的在线多目标跟踪。IEEE Transactions onPatternAnalys andMac hineIntellige nce40，5954. Bernardin，K.，Stiefelhagen，R.：评估多对象跟踪性能：CLEAR MOT指标。图像和视频处理（2008）5. 布莱克曼， S. ：用于多目标跟踪的多假设跟踪。AerospaceandElectronicSystemsMagzine19（1），56. 陈杰，Sheng，H.，张玉，Xiong，Z.：多假设跟踪的增强检测模型在：CVPR研讨会（2017）7. Choi，W.：基于聚集局部流描述符的近在线多目标跟踪。In：ICCV（2015）8. Chu，Q.，欧阳，W.Li，H.，王，X.，刘，B.，Yu，N.：基于cnn的单目标跟踪器与时空注意机制的在线多目标In：ICCV（2017）9. 科克斯岛J. 他走了，S。L. Reid的多点跟踪算法的有效实现及其用于视觉跟踪目的的评估。IEEE Transactions on Pattern Analysis and Machine Intelligence（1996）10. Ess，A.，莱贝湾辛德勒，K.，，van Gool，L.：一种用于鲁棒多人跟踪的移动视觉系统。载于：CVPR（2008年）11. 费戈-布凯湖奥迪吉耶河Dhome，Y. Lerasle，F.：利用稀疏表示改进In：ECCV（2016）12. 方，K.，Xiang，Y.，中国科学院，Li，X.，Savarese，S.：用于在线多目标跟踪的递归自回归网络。在：WACV（2018）13. Felzenszwalb，P.F.，Girshick，R.B.，McAllester，D. Ramanan，D.：使用区分性训练的基于部分的模型进行对象检测。 IEEE Transactions onPatternAnalysisandMachineIntelligence32（9），162714. 傅志Feng，P.，Angelini，F.，钱伯斯J.A. Naqvi，S.M.：基于在线组结构字典学习的粒子phd滤波多人跟踪IEEEAccess6，1476415. Geiger，A.，Lenz，P.乌尔塔松河：我们准备好自动驾驶了吗KittiVision基准套件。在：CVPR（2012）16. 格尔希克河Donahue，J.，Darrell，T.，Malik，J.：丰富的功能层次结构，用于准确的对象检测和语义分割。在：CVPR（2014）17. 古德费洛岛Bengio，Y.，Courville，A. Bengio，Y.：深度学习，卷。1.麻省理工学院出版社剑桥（2016）18. Gordon，D.，Farhadi，A.，Fox，D.：Re3：用于通用对象的视觉跟踪的实时递归回归网络。IEEE Robotics and Automation Letters 3（2），7

下载后可阅读完整内容，剩余1页未读，立即下载