神经求解器：基于图的多目标跟踪的完全可微框架

7 浏览量更新于2023-10-25 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6247学习用于多目标跟踪的神经求解器GuillemBra'so'EtLauraLeal-慕尼黑工业大学摘要图提供了一种自然的方式来制定多目标跟踪（MOT）的跟踪检测范式。然而，它们也为学习方法引入了一个主要挑战，因为定义一个可以在这种结构化域上操作的模型并不是微不足道的。因此，大多数基于学习的工作都致力于学习MOT的更好功能，然后将这些功能与完善的优化框架一起使用。在这项工作中，我们exploit经典的网络流公式的MOT定义一个完全可微的框架的基础上的消息传递网络（MPN）。通过直接在图域上操作，我们的方法可以在整个检测集上进行全局推理并预测最终解。因此，我们表明，MOT中的学习不需要局限于特征提取，但它也可以应用于数据关联步骤。我们在三个公开的基准上显示了MOTA 和 IDF1 的显着改善。我们的代码可在https://bit.ly/motsolv上获得。1. 介绍多对象跟踪（MOT）是确定视频中所有对象实例的轨迹的任务。它是计算机视觉中的一个基本问题，应用于自动驾驶，生物学和监控等领域尽管它具有相关性，但它仍然是一项具有挑战性的任务，并且在深度学习的背景下是一个相对未探索的领域。近年来，检测跟踪已成为MOT中最先进的方法之一。该两步方法包括首先获得逐帧对象检测，然后将它们链接以形成轨迹。虽然第一个任务可以用基于学习的检测器来解决[53，1]，但后者，数据关联，通常被公式化为图分区问题[65，71，73，42，8]。在MOT的这个图形视图中，一个节点表示一个对象检测，一条边表示两个节点之间的连接。活动边缘指示两个检测属于同一轨迹。解决* 通信地址：guillem. braso@tum.de。图划分任务，即，找到活动边缘或轨迹的集合也可以被分解为两个首先，将成本分配给图中的每个边缘，对属于同一轨迹的两个检测的可能性进行编码。在此之后，这些成本在图优化框架内使用，以获得最佳的图划分。基于图的MOT的先前工作大致分为两类：那些专注于图形公式化的，以及那些专注于学习更好的成本的。在第一组中，许多研究致力于建立组合多个信息源的复杂图优化框架，目标是对检测之间的高阶依赖性进行编码[63，31，27，28]。这种方法通常在某种程度上使用手工制作的成本。在第二组中，一些作品采用更简单，更容易优化图形结构，并通过利用深度学习技术[39，62，60，76，68]来改善边成本定义通过利用连体卷积神经网络（CNN），这些方法可以对对象之间的可靠成对交互进行编码，但无法考虑场景中的高阶信息总的来说，这两条工作线呈现出一种两难境地：MOT方法应该关注于改进图优化框架还是特征提取？我们建议将这两项任务结合到一个统一的基于学习的求解器中，该求解器可以：（i）学习MOT的特征，以及（ii）学习通过对整个图进行推理来提供解决方案。为此，我们利用MOT [74]的经典网络流公式来定义我们的模型。我们的方法不是学习成对成本，然后在可用的求解器中使用这些成本，而是学习直接预测图的最终分区为轨迹。为此，我们直接在自然MOT域中执行学习，即，在图域中，使用消息传递网络（MPN）。我们的MPN学习将深度特征组合因此，我们的方法是能够占全球之间的相互作用的检测，尽管依赖于一个简单的图形配方。我们表明，我们的框架产生了实质性的改进，相对于最先进的，而不需要大量的工程功能，比一些传统的图分区方法快一个数量级。6248总而言之，我们做出了以下贡献：• 我们提出了一个基于消息传递网络的MOT求解器，它可以利用自然图结构的问题来执行特征学习以及最终解决方案预测。• 我们提出了一种新的时间感知神经消息传递更新步骤的灵感来自经典的图形配方的MOT。• 我们在三个公共基准测试中展示了我们的方法的显着改进的最先进的2. 相关工作大多数最先进的MOT作品遵循检测跟踪范式，其将问题分为两个步骤：（i）在每帧中独立检测行人位置，神经网络目前是最先进的[54，1，70]，以及（ii）将相应的检测跨时间链接以形成轨迹。跟踪是一个图形问题。对于在线应用[10，20，51]或逐轨[7]，可以逐帧进行数据关联。用于视频分析任务可以离线完成，但是优选批处理方法，因为它们对遮挡更鲁棒。对数据关联建模的标准方法是使用图，其中每个检测都是一个节点，边表示它们之间可能的链接。然后，数据关联可以被公式化为最大流[8]，或者等效地，具有基于距离的固定成本的最小成本问题[29，52，73]，包括运动模型[42]或学习成本[40]。这两个公式都可以得到最优有效的求解。替代公式通常会导致更复杂的优化问题，包括最小集团[72]，通用求解器，例如，多切口[65]。最近的趋势是设计更复杂的模型，其中包括其他视觉输入，如多相机序列的重建[43，67]，活动识别[15]，分割[49]、关键点轨迹[14]或联合检测[65]。学习跟踪。众所周知，神经网络现在在许多视觉任务中占据主导地位，因为[36]显示了它们在图像分类方面的潜力这种趋势也已经到达跟踪社区，其中学习主要用于学习从图像到上述图形算法的最佳成本的映射。Theauthors of [37] use a siamese network to di- rectly learnthe costs between a pair of detections, while a mixture ofCNNs and recurrent neural networks (RNN) is used for thesame purpose in [57].更进化的四元组网络[62]或注意力网络[76]已经导致了改进的结果。在[56]中，作者展示了学习的reID特征对多对象跟踪的重要性。所有上述方法都独立于实际上计算最终轨迹的优化方法相比之下，[33，66，60]将优化求解器纳入学习。这些方法背后的主要思想是，成本也需要为使用它们的求解器进行优化[33，66，21]依赖于结构化学习损失，而[60]提出了一个更通用的双层优化框架。这些作品可以被视为与我们的精神相似然而，我们为此采取了不同的方法：我们建议直接学习求解器，并将数据关联视为分类任务，而他们的目标是调整他们的方法，以便在封闭形式的求解器中表现良好。此外，所有这些工作都限于学习成对成本[21，60]或额外的二次项[66，33]，但不能像我们的方法那样包含高阶信息。相反，我们建议利用MOT的通用图形公式作为执行学习的域。图上的深度学习。图神经网络（GNN）首次在[59]中引入，作为神经网络的推广，可以在图结构的do上操作电源。从那时起，一些作品集中于通过开发卷积变体来进一步开发和扩展它们[11，18，35]。最近，大多数方法都包含在一个更通用的框架中，称为神经消息传递[23]，并在[5]中进一步扩展为图形网络。给定一个具有节点和可选边的一些初始特征的图，这些模型的主要思想是将节点（和边）嵌入到不仅考虑节点自身特征而且考虑图中其邻居特征以及图整体拓扑的表示中这些方法在从化学[23]到组合优化[45]的各种领域都表现出了卓越的性能。在视觉中，它们已成功应用于诸如人类动作识别[24]、视觉问题回答[50]或单个对象跟踪[22]等问题3. 跟踪作为一个图形问题我们的方法为了提供一些背景知识并正式介绍我们的方法，我们首先概述网络流MOT公式。然后，我们解释如何利用这个框架来重新制定的数据关联任务作为一个学习问题。3.1. 问题陈述在通过检测进行跟踪中，我们被给出作为输入的对象检测集合O={o1，. . . .，n}，其中n是视频的所有帧的对象的总数。每个检测由oi=（ai，pi，ti）表示，其中ai表示边界框的原始像素，pi包含其2D图像坐标，ti包含其时间戳。轨迹被定义为6249我我我(a) 输入（b）图构造+特征En-编码（c）神经消息传递（d）边缘分类（e）输出图1：我们的方法概述（a）我们接收一组帧和检测作为输入（b）我们构造一个图，其中节点表示检测，并且不同帧处的所有节点由边连接（c）我们用CNN初始化图中的节点嵌入(c)这些嵌入中包含的信息通过神经消息传递在图中传播固定次数的迭代。（d）一旦这个过程终止，神经消息传递产生的嵌入被用来将边缘分类为活动（用绿色着色）和非活动（用红色着色）。在训练过程中，我们计算预测的交叉熵Ground truth标签和反向传播梯度通过我们的整个管道。(e)在推理时，我们遵循一个简单的舍入方案来二进制化我们的分类分数并获得最终的轨迹。时间排序的对象检测的集合Ti={0 i1，. - 是的- 是的，o in}，其中n i是形成轨迹的检测的数量I. MOT的目标是找到轨迹集T={T1，. - 是的- 是的，Tm}，这最好地解释了观测O。该问题可以用无向图G =（V，E）来建模，其中V：={1，. - 是的- 是的，n}，E <$V ×V，并且每个节点i ∈ V表示i∈O的唯一检测。构造边缘集合E，使得每对检测，也就是说，节点，在不同的帧是连接的，因此允许改变弹道; 0表示所有剩余的边。轨迹Ti={0 i1，. . .，o in}等价地由边集合{（i1，i2），. - 是的- 是的，（i ni−1，i ni）} E，对应于它在图中的时间排序路径。我们将使用该观察结果来正式定义边缘标签。对于不同时间戳中的每对节点，（i，j）∈E，我们定义一个二进制变量y（i，j）为：.以恢复未检测到的轨迹现在，将原始检测集划分为轨迹的任务可以被视为将该图中的节点分组为断开连接的i（i，j）：1T k∈ T （i，j）∈Tk0否则。件. 因此，每个轨迹Ti={0 i1，. - 是的- 是的，o in}可以被映射到一组节点{i1，. - 是的- 是的，i ni}，反之亦然。3.2. 网络流公式为了表示图的划分，我们为图中的每条边引入一个二元变量。在经典的最小成本流公式1[74]中，这个标签被定义为连接节点的边之间的1，这些节点（i）属于相同的轨迹，并且（ii）在时间上是连续的。当y（i，j）= 1时，边（i，j）被称为有效。我们假设T中的轨迹是节点不相交的，即，一个节点不能属于多于一个的传输器Y。因此，y必须满足一组线性约束。对于每个节点i∈V：Σy（j，i）≤1（1）（j，i）∈Es.t.ti>tjΣy（i，k）≤1（2）（i，k）∈Es.t. t

下载后可阅读完整内容，剩余1页未读，立即下载