6951用于多目标跟踪的Samuel Schulter Paul Vernaza Wongun Choi Manmohan Chandraker NEC美国实验室,媒体分析部关闭CT,USA{samuel,pvernaza,wongun,manu}@ nec-labs.com摘要数据关联问题是许多计算机视觉应用的重要组成部分,多目标跟踪是最突出的例子之一。数据关联的典型方法涉及找到最小化成对关联成本之和的图匹配或网络流,成对关联成本通常是手工制作的或作为固定特征的线性函数学习的。在这项工作中,我们证明,它是可能的学习功能的网络流为基础的数据关联通过反向传播,通过表达的最佳平滑网络流问题作为一个可微函数的成对关联成本。我们将这种方法应用于多目标跟踪与网络流配方。我们的实验证明,我们能够成功地学习所有的成本函数的关联问题在一个端到端的方式,这优于手工制作的成本在所有设置。各种输入源的集成和组合变得容易,成本函数可以完全从数据中学习,从而减轻了繁琐的成本手工设计。1. 介绍多对象跟踪(MOT)是预测视频序列中所有对象实例的轨迹的任务。由于遮挡、快速移动的物体或移动的摄像头平台,MOT具有挑战性,但它是动作识别、监控或自动驾驶等许多应用中的重要模块目前MOT的主要方法是检测跟踪[3,7,10,15,26,33,41],其中,在第一步中,像[16,43,51]这样的对象检测器以边界框的形式提供感兴趣对象的潜在位置然后,多对象跟踪的任务转化为数据关联问题,其中绑定框被分配给描述各个对象实例随时间的路径的轨迹。二分图匹配[25,35]通常用于在线方法中,以将当前帧中的边界框分配给现有轨迹[22,37,38,52]。离线冰毒ODS可以在网络流框架中优雅地公式化,以解决包括轨迹的出生和死亡的关联问题[27,29,54]。第二节给出了更多的例子。所有这些关联问题都可以在线性规划(LP)框架中求解,其中约束由问题给出。LP中所有变量的相互作用以及它们的成本决定了跟踪方法的成功。因此,设计良好的成本函数至关重要。虽然成本函数在大多数先前的工作中是手工制作的然而,他们要么不把问题作为一个整体来处理,只优化部分成本[27,31,52,54],要么局限于线性成本函数[49,50]。我们提出了一种新的公式,允许学习任意参数化的成本函数的所有变量的关联问题在一个端到端的方式,即,从输入数据到LP的解决方案。通过平滑LP,双层优化[6,13]能够学习成本函数的所有参数,例如最小化定义在关联问题的解决方案上的损失,参见第3.2节。这种提法的主要好处是它的灵活性,一般适用于许多问题,并避免繁琐的手工制作的成本函数。我们的方法并不局限于对数线性模型(参见,但是可以充分利用任何可微的参数化函数,例如,神经网络来预测成本。事实上,我们的公式可以集成到任何深度学习框架中,作为一个特定的层,在向前传递中求解线性规划并反向传播梯度w.r.t.通过其解决方案降低成本(见图2)。虽然我们的方法是通用的,可以用于许多关联问题,我们探索其用于多目标跟踪与网络流公式(见第3.1和3.4节)。我们在公共数据集上经验性地证明了[17,28,32]:(i)我们的方法能够对网络流问题的成本函数进行端到端学习(ii)集成不同类型的输入源,如边界框信息,时间差异,外观和运动特征变得容易,并且可以共同学习所有模型参数㈢端到端学习成本函数c-6952在不需要手动调优参数的情况下,函数的性能优于手工创建的函数(iv)我们在外观特征方面取得了令人鼓舞的结果,这表明我们的配方能够实现深度对象检测和跟踪的端到端集成的潜在好处。2. 相关工作MOT中的关联问题:最近关于多对象跟踪(MOT)的工作大多遵循检测跟踪范例[3,7,10,15,26,33,41],其中首先在每个帧中检测对象,然后随着时间的推移进行关联以形成每个对象实例的轨迹。像[8,11,15,39,41]这样的在线方法将传入帧的检测立即与现有轨迹相关联,因此适用于实时应用1。传输通常被视为状态空间模型,如卡尔曼[21]或粒子滤波器[18]。与当前帧中的边界框的关联通常被公式化为二分图匹配,并通过匈牙利算法[25,35]解决。虽然在线方法只能访问过去和当前的观察结果,但离线(或批处理)方法[3,9,20,1,40,54]也会考虑未来的帧甚至是整个序列。虽然不适用于实时应用,但批处理方法的优点是时间上下文允许更鲁棒和非贪婪的预测。为检测分配优先级的一个优雅的解决方案是网络流公式[54](详见第3.1节)。这两种关联模型都可以用线性规划来表示。成本函数:独立的关联模型的类型,一个适当的选择的成本函数是至关重要的良好的跟踪性能。许多作品依赖于精心设计但手工制作的功能。例如,[29,33,41]仅依赖于检测置信度和空间(即,边界框差异)和时间距离。Zhang等人[54] Zamiret al. [53]包括经由颜色直方图外观信息。其他作品显式地学习亲和度指标,然后将其用于跟踪比较两个检测的外观(原始RGB块),并将其与增强框架中的空间和时间差异相这些成对成本用于类似于[29]的网络流公式。与我们的方法相比,这些方法都没有在学习阶段考虑实际的推断模型,而是依赖于替代损失函数来计算部分跟踪成本。将推理融入学习:与我们的方法类似,最近的一些工作也在训练阶段包括了完整的推理模型。特别是,结构化SVM [48]最近已用于跟踪环境中,以学习在线跟踪器[23]中的二分图匹配的成本,分而治之跟踪策略[46]以及用于活动识别和跟踪的联合图形模型[12]。以类似的方式,[49]提出了一个公式,用结构化SVM联合学习网络流图中的所有成本,这是最接近我们的工作它表明,适当的学习成本函数的一个相对简单的模型可以竞争复杂的跟踪方法。然而,所采用的结构化SVM将成本函数限制为线性参数化。相比之下,我们的方法依赖于双层优化[6,13]并且更灵活,允许非线性(可微分)成本函数,如神经网络。最近也已经使用双层优化来学习图形模型的成本,例如,用于分割[42]或深度图恢复[44,45]。3. 用于跟踪的深度网络流我们展示了我们的端到端的配方关联问题的网络流的多目标跟踪的例子特别是,我们考虑一个跟踪检测框架,其中在视频序列的每一帧t中的潜在检测d每个检测由描述空间位置的边界框b(d)、检测概率p(d)和帧编号t(d)组成。对于每个检测,跟踪算法需要要么asso-将其与对象轨迹T k相关联或拒绝它。轨迹被定义为属于同一目标的一组检测。对象,即, Tk={d1,. . . ,dNk},其中N k定义配方。 例如,Liet al. [31]第31话,你是谁?将越来越长的轨迹片段组合成轨迹的空间关联方法。tracklet之间的亲和性是通过来自各种手工制作的输入(包括轨迹的长度和颜色直方图)的提升公式来学习的。这种方法在[26]中通过在线学习每个序列的亲和力类似地,Bae和Yoon [2]使用线性判别分析的变体在线学习亲和力。Song等人[47]当单独的轨迹被隔离时,为它们在线训练外观模型,然后可以使用该模型在困难的情况下(如遮挡或干扰)从其他轨迹中消除歧义。Leal-Taixe 'et al.[27]第二十七话[1]在本文中,实时指的是因果系统。轨迹。 仅来自不同帧的可以属于同一个轨迹。系统数量|不|是未知的,也需要推断。在这项工作中,我们专注于网络流公式来自Zhanget al.[54]解决关联问题。这是一个流行的选择[27,29,30,49],在实践中效果很好请注意,通常用于在线跟踪器的二分图匹配也可以用公式表示为网络流,这使得我们的学习方法同样适用。3.1. 网络流公式我们提出了有向网络流图的公式,并给出了图1所示的示例。每个de-6953我i、j我我我Σ我的t0t2Sc在c链路cdetc位出道不图1:跟踪3帧的网络流图[54]。每对节点对应于一个检测。文本中解释了不同的实边,粗虚线说明了网络流的解决方案。用由边(红色)连接的两个节点来表示保护区该边缘被分配流变量xdet。为了能够关联两个检测,意味着它们属于相同的轨迹T,来自所有di的有向边缘(蓝色)(第二节点)到所有dj(第一节点)都被添加到图中,如果t(di)
与地面实况x>进行比较,以将梯度反向传播到参数Θ。FP-FPt2TP-FPt1的t0TP TPTP-TP+TP-TP+远距离图3:计算损失时出现的不同类型的链接的图示。有关真(TP,绿色)和假阳性(FP,红色)检测的不同组合的更多详细信息,请参见文本。具有相同(TP-TP+)或不同(TP-TP-)身份的两个真阳性。对于(TP-TP+)链路,我们还区分了轨迹的最短链路和较长的链路(TP-TP+Far)。与单个检测( xin 、 xdet 和 xout ) 相 关 的 边 是 真 ( TP ) 或 假 阳 性(FP)。图3说明了所有这些情况。为了权衡这些类型之间的重要性,我们定义了以下加权损失函数最后,我们注意到[50]使用了不同的加权方案和100%的损失。我们将这个定义与4.3节中损失函数的各种权重进行了比较。3.4. 跟踪模型在训练阶段之后,上述网络流公式可以容易地应用于跟踪。一种选择是一次批量处理整个序列,然而,这不能扩展到长序列。Lenz等人[30]提出了一个复杂的近似有界的代数和计算成本。当我们在本文中关注学习阶段时,我们选择了一种更简单的方法,该方法根据经验给出了与批处理类似的结果,但不像[30]那样具有保证。我们使用长度为W的时间滑动窗口,将视频序列分解为块。我们解决了窗口内帧的LP问题,将其移动了100帧并解决了新的LP问题,其中,0