多目标跟踪的新训练方法：迭代构建丰富训练集，学习评分函数，提高效率和准确性

44 浏览量更新于2023-10-19 收藏 1.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4639多目标跟踪安德里·马克赛·帕斯卡尔·富阿洛桑联邦理工学院（EPFL）计算机视觉系统{pagi.maksai，pascal.fua}@ epfl.ch摘要身份切换是多目标跟踪算法的主要难点之一。许多最先进的方法现在使用序列模型来解决这个问题，但是它们的训练可能受到降低其效率的偏差的影响。在这篇文章中，我们介绍了一个新的训练过程，面对算法本身的错误，同时明确地试图最小化开关的数量，这导致更好的训练。我们提出了一个迭代方案，构建一个丰富的训练集，并使用它来学习一个评分函数，这是一个明确的代理目标跟踪度量。无论是只使用简单的几何特征还是更复杂的几何特征，我们的方法都在几个MOT基准测试中表现出了最先进的水平。1. 介绍多目标跟踪（MOT）方法中的一个共同关注点是防止身份切换，即将对应于不同目标的轨迹错误地合并为单个轨迹。这在拥挤的场景中是困难的，特别是当单个目标对象不够独特。许多最近的方法依赖于tracklet（短轨迹段）而不是单独的检测来跟踪目标对象。轨迹可以合并成更长的轨迹，当身份切换发生时，可以再次拆分。大多数最先进的方法[33，18，24，56，26]通常在深度递归神经网络的帮助下对检测序列或集群进行操作。这需要训练序列模型，并且受到两个众所周知的问题中的一个或两个的影响，我们的方法克服了这两个问题：• 度量不匹配。它发生在通过优化与推理期间的实际期望性能不一致的度量进行训练时。在MOT中，一个例子是使用分类损失来创建跟踪特定度量的最佳轨迹，例如MOTA[7]或IDF[45]。为了消除这种不匹配，我们引入了一种原始的方法来对tracklet进行评分，该方法是IDF度量的显式代理我们使用它来确定跟踪人的信心，预测更严格的边界框位置，并估计真实轨迹是否超出观察到的轨迹。• 暴露偏倚。它源于模型在训练过程中没有暴露于自己的错误，图1.在困难的情况下保持跟踪。顶行：由于经过的汽车造成的遮挡，跟踪器可以很容易地返回一个轨迹，其中包括几个身份开关。相机视野内的相应边界框显示在右侧。底行：我们的算法不仅消除了身份切换，而且还回归到一组更紧密的边界框。在这个例子中，我们的算法完全基于简单的几何特征，而不需要使用外观信息。4640在训练和推断/跟踪期间观察到不同的数据分布。我们通过引入一种更详尽但计算上可行的方法来消除这种偏见，以便在训练模型时利用数据为此，在训练过程中，我们不局限于只使用由一个或两个人的检测组成的tracklet [39，34，48]。相反，我们认为跟踪算法产生的轨迹的任何分组都是潜在的轨迹，但通过控制共享许多共同检测的轨迹的数量来防止组合爆炸。这产生了更丰富的训练数据集，解决了曝光偏差问题，并使我们的算法能够处理令人困惑的情况，在这种情况下，跟踪算法可能很容易从一个人切换到下一个人，或者完全错过某个人。图1描绘了一种这样的情况。请注意，即使在外观信息不可用时也可以这样做。因此，我们的贡献是解决这两个问题。通过将其集成到一个只使用非常简单的特征（边界框，检测器置信度）的算法中，我们的性能优于其他不使用外观特征的方法通过利用基于外观的特征，我们同样优于最先进的方法。总之，这些结果证明了我们的培训程序的有效性。在本文的其余部分，我们首先简要回顾了相关的工作和目前的方法，以减轻度量不匹配和曝光偏差。然后，我们介绍我们的跟踪方法;它是为学习有效地对轨迹片段进行评分而设计的多假设跟踪的变型。接下来，我们描述我们的评分函数的确切形式及其减少失配和偏差的能力。最后，我们提出了我们的结果。2. 相关工作多目标跟踪（MOT）具有悠久的传统，可以追溯到雷达跟踪等应用的许多年随着最近对目标检测器的改进，检测跟踪范式[2]已成为事实上的标准，并已被证明对许多应用有效，例如监视或运动员跟踪。它包括首先检测各个帧中的目标对象，将这些检测关联到称为轨迹线的短但可靠的轨迹线中，然后将这些轨迹线连接到较长的轨迹线中。然后，它们可以用于解决诸如社交场景理解[1，36，3]，未来位置预测[30]或人类动态建模[16]等任务。在将个体检测分组到轨迹中时，难以保证每个所得轨迹表示单个个体的整个轨迹，即，不存在身份切换。许多方法依赖于外观[6，17，28，57，58，12，32，46]，运动[15]，或社会线索[20，43]。他们主要用于关联检测对，并且仅考虑非常短期的相关性。然而，由于人们的轨迹往往是可预测的许多帧，一旦有几个已经看到，优越的性能可以通过建模行为在较长的时间段- ods [22，27，36]。注释的训练数据和基准测试（如MOT 15 -17 [29，38]，DukeMTMC[45]，PathTrack [37]和Wildtrack [10]）的可用性不断增加，现在可以学习利用这些知识所需的数据关联模型。由于这是我们的方法所做的，我们在这里简要回顾了一些实现这一目标的最先进的方法。2.1. 更长序列的[42，41]的工作是最近使用递归神经网络对长轨迹建模的第一种方法之一该算法估计地平面占用率，但不执行显式数据关联。[39]提出了一种通过预测目标的未来位置来进行数据关联而不使用外观特征随后出现了几种MOT方法，使用序列模型使数据关联更加稳健，以实现人员重新识别[48，34]、学习更好的社会模型[1]、预测未来位置[30，54]或联合检测、跟踪和活动识别[3]。这些模型通常是在样本轨迹上训练的，这些样本轨迹与单个人的轨迹完全匹配，或者只是稍微偏离，这使得它们容易受到暴露偏差的影响。此外，损失函数通常主要用于定位或识别，而不是对地面真实轨迹的保真度。这引入了与度量的不匹配，通常是IDF[45]或MOTA[7]，这更可靠地反映了算法的期望行为。大多数使用序列模型的最先进方法依赖于两种优化技术之一，数据关联的分层聚类[50，58，45，33，18，24]或多假设跟踪[56，26，11]。前者涉及有效的观察组，而没有共享的假设，而后者允许存在相互冲突的假设集，直到找到最终的解决方案。与我们最相似的方法是[26]。它还使用多个假设跟踪器和一个序列模型的组合进行评分。然而，训练过程主要依赖于地面实况信息，因此更容易受到曝光偏差的影响。另一种密切相关的方法是[39]的方法，该方法仅从几何特征训练用于数据关联的序列模型，因此当仅使用几何线索时，非常适合与我们的方法进行比较这些方法都是最新的，共同代表了当前的最新技术水平。因此，在第5节中，我们将把它们视为基线，我们可以根据这些基线-46414我们的方法。2.2. 减少偏差和度量不匹配由于暴露偏差和度量不匹配（也称为损失评估不匹配[49]）也是自然语言处理（NLP）[51]，特别是机器翻译[53]中的问题，因此在这些领域中已经提出了几种方法来减少它[44，4]。然而，它们中的大多数都是在假设输出序列可以包含预定义集合中的任何字符的情况下操作的。因此，它们通常依赖于波束搜索过程，该过程本身经常使用语言模型来产生包含正确候选项的不同候选项集。更一般地，允许训练模型而输入和输出之间没有可区分关系的技术，例如策略梯度[52]，直通估计[5]和Gumbel-Softmax [23]可以被视为减少暴露偏差的方法。在这个领域，我们的方法类似于Dagger [47]和SEARN [14]，它在学习策略和获取数据之间进行权衡，以解决暴露偏差问题。不幸的是，在MOT的情况下，检测形成时空图，其中可以构建许多几乎相同的这可以很容易地压倒标准波束搜索技术：当将自己限制为仅最高得分候选以防止组合爆炸时，很容易发生仅考虑一组非常相似但虚假的轨迹而忽略真实轨迹的情况。在[21，35]中的单对象跟踪和未来位置预测的背景下，通过强化学习学习的跟踪策略以及[13]中通过在一批图像上引入时空相反，al-出租m依赖于来自已经获得的轨道的历史阳性样本，从而重新引入它。对于MOT，已经提出了一种基于再学习的方法[55]来决定是创建新的tracklet还是终止旧的tracklet。这也在[48]中得到了解决，但序列模型的学习是独立完成的，并且仍然受到暴露偏倚的影响。[36]的方法试图明确优化IDF度量。它通过改进其他跟踪方法的输出来做到这一点这减少了度量不匹配，但序列评分模型是硬编码的，而不是学习的，我们将证明学习它会产生更好的结果。3. 基于Tracklet的跟踪我们的跟踪方法依赖于创建和合并tracklet来构建高分轨迹，如在多假设跟踪中[25]。在本节中，我们将形式化它并描述它的组件，假设评分函数已经给出。评分函数及其学习方法将在下一节中讨论。3.1. 形式化让我们考虑一个由N帧组成的视频序列，我们在每个帧上单独运行一个人检测算法。这产生人员检测的集合D di∈其中di的四个元素是图像中的相应边界框。我们将轨迹T表示为形式为[d1，d2，.的4 × N矩阵。. .，dN]。在实践中，tracklet很少跨越整个序列。我们通过将其中人的位置未知的帧的dn设置为零来处理这个问题因此，tracklet的第一个非零列是它的开始，最后一个是它的结束。两个轨迹T1和T2可以合并成一个单一的，如果没有单一的帧，其中它们包含不同的检测。设Φ：φ4×N→φF×N是一个特征函数，它将一个F维的特征向量作为-符号表示到一条小道在实践中，这些特征可以是边界框坐标、置信水平和从前一帧中的最近检测的偏移它们也可以是与检测相关的基于图像的特征，我们在第5.3节中列出了它们。让我们进一步假设，我们可以从这些特征计算分数S（Φ（T）），当轨迹片段真正表示单个人的轨迹时，分数S（Φ（T））高跟踪可以被理解为构建最大化目标函数λ的非重叠轨迹集TjS（Φ（Tj））。（一）J在本节的剩余部分中，我们将假设S是给定的，并将低分数分配给可以生成的大范围的坏的可能轨迹，并将高分分配给真实的轨迹。3.2. 创建和合并Tracklet我们迭代地合并轨迹，以创建更长的可以didate轨迹，包括真正的，同时抑制- ING许多候选人，以防止计算上不可行的组合爆炸。然后，我们选择一个最佳的子集greatly.我们认为两个轨迹在并集上有一个大的交集时是重叠的。更具体地，如果由两个轨迹片段的边界框共享的像素的总数（由它们中的每一个中的边界框的面积的总和的最小值归一化）高于阈值CIoU。我们还消除了比N（批处理的长度）短的tracklet，或者其分数低于另一个阈值C分数的tracklet。CIoU和Cscore是我们在验证集上估计的超参数。概述的程序包括以下两个主要步骤。3.2.1生成候选轨迹候选轨迹的集合必须包含真实轨迹，但是其大小必须保持足够小以防止com-mix。46421联系我们2双星爆炸为此，给定初始检测集D，我们将其作为初始轨迹集。然后，我们将以下两个步骤用于n=由地面实况匹配的检测，在两者的总长度之和上：Σ2、. . .、N.2·#»#»n（IoU（dn，gn））>0。第五章）n：dn0，gn/ = 01. 增长：合并可以合并的tracklet对，结果将大于两个tracklet中最大的一个，1. 具有k1和k2非零检测的轨迹片段产生max（k1，k2）+1非零检测的轨迹片段，其包括来自它们两者的非零检测。IDF（T，G）=#»#»，（2）|{n：dn/= 0 }|+的|{n：gn/= 0}|其中IoU是边界框的交集。为了在不知道G的情况下近似它，我们写Σ2·ioun#»2. 修剪：给定trackletT，对于所有T，S（Φ（T））=n：dn/= 0，实验室n>0。5、（3）在生长阶段与之合并，只保留|{n : dn第0个月|+的|{n：实验室n> 0。5}|使得分S（Φ（·））最大化的方法。该过程保持假设的数量相对于检测的数量呈线性然而，它为每一个可能的检测保留了一个这可以防止算法丢失人员和过早终止轨迹，即使在修剪过程的早期出现错误。我们在图中给出一个例子。2（b）.在补充材料中，我们将这种启发式与其他几种启发式进行了比较，并表明它可以有效地防止组合爆炸而不会丢失有效的假设。3.2.2甄选候选人给定tracklet的结果集，我们希望选择一个兼容的子集，使我们的目标函数最大化。为此，我们选择一个子集的假设与最好的可能的总和分数，受非重叠的约束。我们假设图1的深度网络。2，（a）已被训练从T回归到• ioun：预测的交集超过并集的dn和gn盒;• Labn：预测帧n中是否存在地面实况轨迹。我们还训练我们的网络来预测边界框dn的必要变化，以产生地面实况边界框gn，我们将其表示为sftn。它不用于计算S，但可以在推理过程中使用，以更好地将观察到的边界框与地面实况对齐。为了训练网络来预测上面介绍的labn、ioun和sftn值，我们定义了一个损失函数，它是预测和地面实况之间的误差之和我们把它写成从得分最高的一组开始，认真地做这件事。正如补充材料中所讨论的那样，我们还尝试了一种更复杂的方法，将其作为一种...L（T，G）=ΣNn=1Llab（dn，gn）+Σn：dn=/Liou（d n，gn）#»0teger程序进行了优化求解，结果相似。Σ+n：dn=/Lsft#»0（dn，gn）、（4）4. 学习得分L实验室（dn，gn）=的||labn— （gn#»0个）||二、等式2的评分函数S（Φ（·））1是第3节跟踪程序的核心当我们创建和合并tracklet时，我们希望它支持那些可以关联到一个没有身份转换的人，也就是那些在IDF指标中得分很高的人。我们选择IDF而不是其他流行的替代方案，如MOTA，因为它已被证明对身份转换更敏感[45]。在本节的剩余部分中，我们首先定义S，我们使用图1所示的深度网络来实现S第2段（a）分段。然后我们描述我们如何训练它。4.1. 定义评分函数理想情况下，对于每个轨迹T和相应的地面实况轨迹，我们应该有S（Φ（T））IDF（T，GG. 不幸的是，在推理时，G是未知的定义。为了克服这个困难，回顾一下[45]，用于轨迹段T =[d1，. . .，dn]和地面真值轨迹G=[g1，. . .，gn]定义为数字的两倍4643Liou（dn，gn）=||ioun−IoU（dn，gn）||2，L sft（dn，gn）= 1 −IoU（dn+sft n，gn），其中dn+sftn表示边界框dn的移位通过SFTN.可以说，我们可以训练网络直接回归到IDF，而不是首先估计ioun，labn和sftn，然后使用方程的近似值。3、计算它然而，我们的实验表明，像我们这样为每个时间步询问更详细的反馈，会迫使网络更好地理解运动，而对IDF的良好估计通常可以通过平均预测来产生。我们选择不对COM应用任何权重因子损失函数的分量，因为它的分量可以被看作是识别假阳性（当实验室应该是零）和假阴性（当IoU<0。5）误差，并且由于我们想要相等地权衡两者，所以我们没有使用任何权重因子来Llab、Lsft、Liou。4644我我(a)（b）第（1）款图2.网络架构和修剪机制。（a）Tracklet特征通过嵌入层，然后进行处理使用双向LSTM。它的输出用于预测IoU与地面实况边界框（iou），一个人在场景中的存在（实验室），并回归边界框移位，以获得地面实况边界框（sft）。（b）候选轨迹从两个不同的蓝色边界框开始，以白色边界框结束在这种情况下，在修剪阶段，最好的tracklet（以绿色显示）被分配最高分数并保留，所有其他的都被删除。4.2. 训练过程在训练网络时避免暴露偏差的关键为此，我们在以下两个步骤之间进行更改：1. 在评估S时，使用当前网络权重运行第3.2节的假设生成算法;2. 将新创建的tracklet添加到训练集中，并执行单个训练时期。除了学习网络权重外，此过程还有助于优化最终跟踪结果：第3节的跟踪过程对选择或丢弃哪些假设做出了离散的选择，这是不可微的。尽管如此，我们还是通过在跟踪过程中遇到的所有候选人（包括好的和坏的）上训练模型来帮助它做出最佳选择。换句话说，我们的方法在训练过程中进行离散选择，然后根据可能选择的所有假设更新参数，这在精神上与使用直通估计器类似[5]。虽然原则上很简单，但这种训练程序必须精心设计，以实现最佳性能。我们在这里列出了我们实施的最重要的细节，并研究了它们在消融研究中的影响。停止标准。我们以随机网络权重开始这个过程，并在迭代10次后，当训练集大小增加不到5%时停止它。然后，我们在整个生成的训练集上完全训练模型。这个过程可以理解为搜索空间的缓慢遍历它从一个选择随机假设的未经训练的模型开始。然后，随着训练的进行，新的假设被添加，并帮助网络区分好的和坏的替代方案，并以越来越大的信心选择随机合并。在推理过程中，我们通过将每个tracklet与产生最高可能分数的tracklet合并来相比之下，在训练过程中，我们通过随机合并过程使训练集更加多样化做当在两个候选人之间进行选择时，我们可以选择具有较低分数的候选人，其概率与分数差除以温度的指数成比例我们最初设置系数，以便几乎总是选择最佳对，然后逐渐减小它以增加随机性。平衡数据集。一个潜在的困难是，这个过程可能会导致一个不平衡的训练集，在我们想要回归的IDF值方面。我们通过将数据集按IDF值（[0. 0;0。1），[0.1;0. 2），···，[0. 九，一。0]），从最小组中选择所有样本，然后从彼此组。这使得我们能够通过随机选择hK样本并保留对损失贡献最大的K来执行h5. 结果我们现在介绍我们使用的数据集，我们比较的基线，我们的结果，最后是定性分析。5.1. 数据集我们使用以下公开的数据集来对我们的方法进行基准测试。DukeMTMC[45].它包含8个序列，50分钟的训练数据，以及10个测试序列（MOT17[38].它包含7个训练-测试序列对，具有相似的统计数据和隐藏的测试序列的地面实况，跨越785个轨迹和静态和移动相机。对于每一个，有3个不同的检测集，使用不同的算法，这使得有可能评估跟踪的质量，而不会过度拟合到特定的检测器。MOT15[29].它包含11个训练序列和11个测试序列，在各种设置中使用移动和固定摄像机事实上，每个人都有一个真实的自我，464533❘❘测试序列在训练数据中存在具有大致相似统计量的序列。5.2. 基线我们比较了一些最近的算法，共同代表国家的最先进的。我们在下面区分那些不使用外观线索的人和那些使用外观线索的人，并在补充材料中提供扩展的描述。没有出现的基线是 LP2D[29] ， RNN[39] ，PTRACK[36]和SORT[8，40]。有外观的基线是MHT[56]， CDSC[50]，Reid[58] ，BIPCC[45] ，DMAN[59] ，JCC[24]，MOTDT 17[33]、MHTBLSTM[26]、EDMT 17[11]和FWT[18]. 与我们的方法最相似的是 RNN 和MHTBLSTM，它们都使用序列模型来对曲目进行评分，但使用不同的损失函数和训练数据。MHTBLSTM还依赖于多假设跟踪。5.3. 实验方案在本节中，我们将描述我们在实践中使用的特性以及我们的批处理、训练和选择超参数的方法。为了与上述两类基线进行公平的比较，我们使用外观不起作用的特征或编码实际图像信息的特征。我们在下面描述它们。无外观特征。我们使用以下简单的特征，这些特征可以在不进一步参考图像的情况下从检测中计算出来• 边界框坐标和置信度（∈105）。• 边界框相对于tracklet中的前一个和下一个检测移动（∈108）。• 社交功能--对表1. DukeMTMC数据集上的结果。第二列指示该方法是否使用外观信息。我们计算轨迹中每对外观之间的欧几里德距离，并挑选出与所有其他外观的距离之和最小的一个。• 人群密度特征-从当前边界框的中心到当前帧中最近的第 1 个、第 5 个和第 20 个检测的中心的距离（∈N）。正如我们在消融研究中所讨论的，该功能对我们的模型在非常密集的人群场景中的行为批处理。在第3节中，我们专注于处理一批N个图像。在实践中，我们通过将它们分成重叠的批次来处理较长的序列，每个批次移动N帧。在修剪假设时，我们从不抑制所有可以与前一批轨迹合并的假设这可以确保我们可以从前一批合并所有的轨道。我们使用3秒长的批次进行训练[48]。在推理过程中，我们观察到我们的模型能够泛化超过3s，并且在长遮挡的情况下，具有更长的批次可能是有益的推断使用6秒长的批次。训练和超参数对于所有数据集和序列，交叉验证显示，阈值CIoU和Cscore的Sec. 3.2等于0。6的硬采参数h。4.2等于3是接近最优的选择。附近，∈3<$. 它包括对M近的偏移，对于DukeMTMC，我们选择了15'000个验证集EST检测及其置信度。所有值都是相对于图像大小来表示的，以便更好地泛化。基于外观的特征。作为出现的基础，我们使用了由[19]的重新识别模型从边界框产生的128维向量。这种向量之间在欧几里德空间中的距离表示人的外表之间的相似性以及他们是同一个人的可能性为此，我们在基于外观的模型中提供以下广告功能：帧，根据来自所有摄像机同时进行，并对每个单独序列的训练数据执行最终训练。我们仅使用DukeMTMC训练数据来训练[19]的出现模型。对于每个MOT15对训练和测试序列对，我们使用训练序列进行验证，并使用剩余的训练序列来学习网络权重。对于 MOT17 ，我们在PathTrack上预训练了我们的模型，PathTrack是[19]在CUHK03[31]数据集上的外观模型，并使用MOT17训练序列。• 每个边界框的外观向量（∈128❘用于验证目的的序列更多细节在Sup.补充材料。• 从边界框中的外观到当前批次之前迄今为止最好地表示轨迹的外观的欧几里得距离（如果一个可用的话）（∈1）。为了选出目前为止最能代表弹道的外观，5.4. 比较性能我们在DukeMTMC和MOT15上与忽略外观特征的方法进行了比较，M方法附录 IDF MotaIDs IDF MotaIDs序列容易硬我们+84.079.2169 76.865.4267MHT+80.378.3406 63.559.61468里德+79.268.8449 71.660.9572CDSC+77.070.9693 65.559.61637OURS-geom-76.569.3426 65.559.1972PTRACK-71.259.3290 65.054.4661BIPCC+70.159.4300 64.554.6652）.4646方法使用外观IDFMotaIDsOURS-geom-27.122.2700排序-26.821.71231RNN-17.119.01490LP2D---19.81649表2.MOT15数据集上的结果外观从未使用过。方法使用外观IDFMotaIDs我们+57.244.21529DMAN+55.748.22194JCC+54.551.21802MOTDT17+52.750.92474MHTBLSTM+51.947.52069EDMT 17+51.350.02264FWT+47.651.32648表3. MOT17数据集上的结果。外观总是使用。报告了这两个数据集的结果。出于同样的原因，我们使用DukeMTMC和MOT17与利用外观的我们总结了结果，报告了IDF和MOTA跟踪指标，以及身份交换机（ID）的数量，并在补充材料中提供了更详细的细分我们在图中给出了一些跟踪结果3和图4和视频可以在补充材料中找到。与利用外观的算法相比。我们在Tab中报告了MOT17的结果。3和Tab中的DukeMTMC。1.一、在DukeMTMC上，我们的方法在IDF，MOTA，以及身份转换的原始数量。此外，U-与其他使用在额外数据集上预训练的重新识别网络的顶级评分方法一样，我们的方法仅使用DukeMTMC训练数据进行训练。在MOT17上，我们的方法在IDF方面都是最好的度量和身份交换机的数量。但是，它在MOTA上表现不佳。令人惊讶的是，FWT的做法恰恰相反：它在这个数据集上产生最好的MOTA和最差的IDF。我们做了实验来研究这个问题，在SEC。五点五与忽略外观的算法相比。我们在Tab中报告了MOT15的结果。2和Tab中的DukeMTMC。1.在MOT15数据集上，与我们最相似的方法是RNN，它也使用RNN来执行数据关联。尽管RNN使用外部数据来预训练他们的模型，并且我们只使用MOT15训练数据，但我们的方法能够以很大的幅度优于它。另一个有趣的比较是SORT，它的表现几乎和我们的方法一样好。然而，它不能有效地利用训练数据，并表明我们在DukeMTMC使用的验证数据上使用了这种方法，其中有更多的训练数据，而MOT15。这导致MOTA得分为49.9，IDF得分为24.9，而我们的方法在相同的数据上达到70.0和图3. DukeMTMC数据集上密集人群中的边界框和最后6秒的跟踪，用线条标记。图4. MOT17数据集的两个序列中的边界框和最后6秒的跟踪（用线表示）。值得注意的是，在DukeMTMC数据集上，尽管我们为了进行这种比较而忽略了外观，但我们的方法也优于或媲美一些利用它的方法[45，50]。这表明我们的训练程序足够强大，可以克服这个严重的障碍。5.5. 分析我们现在分析我们的方法的结果和组件IDF-MOTA度量不一致小心对MOT17上的轨迹的检查表明，度量不一致来自于产生许多短轨迹，这些短轨迹增加了跟踪检测的总数，因此MOTA以分配许多虚假标识、增加碎片和减少IDF为代价。这个例子说明了为什么我们认为IDF是更有意义的指标，为什么我们设计了我们的tracklet评分函数作为它的代理。为了进一步加强这一主张，我们研究了以下玩具的例子。考虑一个100帧的地面实况轨迹，其中检测器在97%的时间内随机发射。组合连续检测产生不同长度的轨迹。我们将它们按长度排序，并将几个最长的作为我们的跟踪结果。图5、我们密谋得到的MOTA和IDF分数作为所采取的轨迹的百分比的函数。MOTA单调增加，而IDF单调减少。换句话说，添加我们的算法拒绝的非常短的tracklet 可以提高MOTA分数，并专注于长的tracklet，4647图5. IDF和MOTA分数的平均值和方差作为100次玩具实验中轨迹片段数量的函数。以色列国防军倾向于降低MOTA。我们还查看了 MOT 15 上 “AVG-Towncentre” 序列（原始跟踪数据可用的那些）的顶级方法的结果，发现具有一些最高IDF分数的方法具有很少或没有短于5帧的跟踪（即'TDAM'-0、'RAR 15 Pub'-0、'JointMC'-0、'QuadMOT'-1），而那些具有最差的IDF特征超过50（即，“NOMT”-82，“DCCRF”-138）。这与我们的玩具示例指向相同的方向，即MOTA/IDF权衡取决于保留的tracklet的长度。计算复杂性。我们在单个2.5Hz CPU上执行训练，以及所有其他操作（计算数据集平衡的IDF值，生成训练数据等）。在20个这样的CPU上并行运行。训练数据最多包含1.5×107个轨迹（DukeMTMC数据集，摄像机6），最多产生1. 在平衡数据集后，35×106个生成训练数据6个小时，在30个epoch内获得了最佳验证分数，每次不到10分钟。推理以每秒2帧的速度运行。然而，在Sec.3.2.1将我们的python实现速度提高到30fps，但性能下降非常小（IDF为71而不是74.6）。消融研究。DukeMTMC训练序列的最后15我们改变了解决方案的三个主要组成部分，以显示它们对跟踪精度的影响：数据组成、评分函数和训练过程。我们报告了应用这些更改时IDF的下降。创建通过考虑具有最多一个身份切换的tracklet的固定训练集，如[48，34]中所述，降低了性能（-3.9）。根据分数或总计数修剪假设，如[56]导致计算爆炸或性能降低（-20）。计算损失的前-S（Φ（T））的判定、直接回归IDF值、不回归边界框移位或使用标准分类损失（如[48]中所述）同样适得其反（-5.1，-13.2，-2.2，-32.8）。不平衡训练集或不使用硬挖掘也会对结果产生不利影响（-4.7，-2.5）。选择最终的解决方案，使用一个迭代程序，而不是贪婪算法，预训练模型与每种类型的特征分开，或训练一个更深的网络没有显着的效果。功能组。我们还评估了不同的功能如何影响解决方案的质量。外观特征将整体IDF从74.6提高到82.5，其中外观距离特征的影响最大。人群密度特征主要影响拥挤的场景，其中我们的合并过程更倾向于合并在时间上相距更远但视觉上更相似的检测，与不太拥挤的场景相比，其中它更倾向于基于空间邻近度合并检测。社会特征主要影响无外观模型，通过确保对周围人的检测在整个轨迹中是一致的来帮助保护身份，将IDF从67.5提高到74.6。可能从SEC合并。4.2对于将基于外观和基于几何的特征融合在一起至关重要如果没有它，仅挑选最佳候选者会导致主要基于外观信息（很大程度上忽略空间邻近）或基于空间和运动信息（很大程度上忽略外观信息）执行合并的模型。6. 结论我们介绍了一个训练过程，通过迭代构建丰富的训练集，显著提高了序列模型的性能我们还开发了一个复杂的模型，可以从tracklets回归到IDF多目标跟踪度量。我们已经证明，我们的方法优于国家的最先进的几个具有挑战性的基准无论是在场景中出现，是使用和不使用。在第二种情况下，我们甚至可以接近基于外观的方法在不使用它的情况下所能做的事情。这对于解决外观难以使用的问题非常有用，例如细胞或动物跟踪[39]。在未来的工作中，我们将扩展我们的数据关联程序，以考虑更先进的外观功能，如2D和3D姿态。我们还将研究通过使用实际的IDF而不是我们提出的IDF回归量来进一步减少损失评估不匹配，这需要使用强化学习。确认这项工作得到了瑞士国家科学基金会的部分支持。4648引用[1] A. Alahi，K.Goel，V.Ramanathan，A.罗比凯湖Fei-fei和S.Savarese Social LSTM：拥挤空间中的人类轨迹在计算机视觉和模式识别会议上，2014。[2] M. Andriluka、S.罗斯和B。席勒通过检测进行人员跟踪和通过跟踪进行人员检测。计算机视觉与模式识别会议，2008年6月。[3] T. Bagautdinov，A.Alahi，F.Fleuret，P.Fua和S.Savarese社交场景理解：端到端多人操作本地化和集体活动识别。计算机视觉与模式识别会议，2017年。[4] S.本焦岛维尼亚尔斯Jaitly和N.沙泽尔用递归神经网络进行序列预测的定时采样。神经信息处理系统进展，2015。[5] Y. Bengio，N. Le'onard和A. 考维尔通过随机神经元进行连续性计算来估计或ARXIV，2013年。[6] H. BenShitrit，J. Berclaz，F. Fleuret，和P.呸用于跟踪多个人的多商品网络流。IEEE Transactions on PatternAnalysis and Machine Inteligence，36（8）：1614[7] K. Bernardin和R. Stiefelhagen 评估多目标跟踪性能：清雾号 EURASIPJournalonImageandVideoProcessing，2008，2008。[8] A. Bewley，Z.盖湖，加-地Ott、F. Ramos和B.厄普克罗夫特简单的在线和实时跟踪。在2016年的国际图像处理会议上[9] S.S. 布莱克曼。多目标跟踪与雷达应用。 ArtechHouse，1986年。[10] T. 我会去的，P. 巴古河，S. Bouquet，A. 马克赛角何塞湖Lettry，P. Fua，L. Van Gool和F.弗勒特Wildtrack多摄像机人物数据集。计算机视觉与模式识别会议，2018年。[11] J.Chen， H.盛，Y. zhang和Z.雄多假设跟踪的增强检测模型。在计算机视觉和模式识别会议上，2017年。[12] L. Chen，H.艾角，澳-地尚，智-地Zhuang和B.柏卷积神经网络在线多目标跟踪在2017年国际图像处理会议[13] Q.朱，W。欧阳，H. Li，X.王湾，澳-地Liu和N. Yu.基于时空注意机制的Cnn单目标跟踪器2017年计算机视觉国际会议[14] H. Daum e'，J. Langford和D. 马库斯基于搜索的结构化预测。机器学习，2009年。[15] C. Dicle，O.I Camps和M.斯奈尔他们移动的方式在2013年国际计算机视觉会议上[16] K. Fragkiadaki，S. Levine，P. Felsen，and J.马利克人类动力学的递归网络模型2015年国际计算机视觉会议[17] D. Held，S.Thrun和S.Savarese 学习使用深度回归网络以100 Fps的速度进行跟踪欧洲计算机视觉会议，2016年。[18] R. 亨舍尔湖Leal-Taix e′，D. Cremers，和B. 罗森哈恩融合头部和全身检测器进行多目标跟踪。计算机视觉与模式识别会议，2018年。[19] A.赫尔曼斯湖Beyer和B. Leibe三重人格丧失的辩护。arXiv预印本arXiv：1703.07737，2017。[20] M... Hu，S. Ali和M. Shah.复杂视频中全局运动目标的检测.国际公民权利和政治权利委员会，2008年。[21] J. Supancic III和D. Ramanan跟踪作为在线决策：使用强化学习从流媒体视频中学习策略2017年计算机视觉国际会议[22] 联合Iqbal，A. Milan和J.胆Posetrack：联合多人姿态估计和跟踪. 计算机视觉与模式识别会议，2017年。[23] E. 张，S.Gu 和B. 浦耳使用Gumbel-Softmax进行分类arXiv预印本arXiv：1611.01144，2016。[24] M. Keuper，S.唐湾Andres，T.Brox和B.席勒基于相关共聚类的运动分割和多目标跟踪IEEE Transactions onPattern Analysis and Machine Intelligence，2018。[25] C. Kim，F. Li，长穗条锈菌A. Ciptadi和J.瑞格多假设跟踪再访。在2015年计算机视觉国际会议[26] C. Kim，F. Li和J.M.瑞格使用双线性LSTM的神经门控多目标跟踪。在欧洲计算机视觉会议上，2018年。[27] Y. J. Koh和C.- S. Kim. CDTS：协作检测，跟踪和分割在线多对象分割视频。在2017年的计算机视觉国际会议[28] L. Leal-tai xe′，C. Canton-ferre r和K. 申德河通过跟踪学习：Siamese CNN用于鲁棒目标关联。计算机视觉与模式识别会议，2016年。[29] L. Leal-taixe ， A. 米兰岛 Reid ， S. Roth 和 K. 辛德勒Motchallenge 2015：多目标跟踪的基准。InARXIV，2015.[30] N. 李，W。Choi，P.韦尔纳萨角B. Choy，P.HS Torr和M.Chandraker欲望：在动态场景中与交互代理的遥远未来预测。计算机视觉与模式识别会议，2017年。[31] W.利河，巴西-地Zhao，T.萧，还有X。王. Deepreid：深度过滤配对神经网络用于人员重新识别。计算机视觉和模式识别会议，第152-159页，2014年[32] Z. Lin，H.郑湾，澳-地Ke和L.尘基于层次关联和稀疏表示的在线多目标跟踪图像处理国际会议，2017年。[33] C. Long，长叶树A.海州Z. Zijie和S.冲具有深度学习候选人的实时多人跟踪4649选择和人员重新识别。在2018年多媒体和博览会国际会议[34] C.马角，澳-地Yang，F. Yang，Y. Zhuang，Z. Zhang，H. Jia和X.谢轨迹工厂：Tracklet分裂和重新连接深连体双GRU多目标跟踪。在ICME，2018。[35] W.-

下载后可阅读完整内容，剩余1页未读，立即下载