没有合适的资源?快使用搜索试试~ 我知道了~
用于多目标跟踪的任亮亮1,陆继文1,王子峰1,田琦2,3,周杰11TsinghuaUiverity,BeijinggCina;2HuaweiNoahrenll16@mails.tsinghua.edu.cn,lujiwen@tsinghua.edu.cn,wangzf14@mails.tsinghua.edu.cn,qi. utsa.edujzhou@tsinghua.edu.cn抽象。在本文中,我们提出了一种协作深度强化学习(C-DRL)的多目标跟踪方法。大多数现有的多目标跟踪方法采用检测跟踪策略,该策略首先检测每帧中的目标,然后将它们跨不同帧关联。然而,这些方法的性能严重依赖于检测结果,这通常是不令人满意的许多实际应用中,特别是在拥挤的场景。 为了解决这个问题,我们在我们的C-DRL中开发了一个深度预测-决策网络,它通过深度强化学习在统一的网络下同时检测和预测对象。具体地说,我们将每个对象看作一个智能体,通过预测网络进行跟踪,并通过决策网络利用不同智能体和环境之间的协同交互来寻求最优的跟踪结果.在具有挑战性的MOT15和MOT16基准测试上的实验结果表明了我们方法的有效性.关键词:目标跟踪,多目标,深度强化学习1介绍多目标跟踪(MOT)技术近年来在计算机视觉领域引起了越来越多的关注,它在监控、人机交互、机器人和高级驾驶辅助系统等方面有着广泛的应用。MOT的目标是估计不同对象的轨迹并在视频中跟踪这些对象。虽然近年来已经提出了各种MOT方法[7,8,14,27,34,36,40,45-这是因为不同对象之间的遮挡和大的类内变化通常发生在这样的场景中。现有的MOT方法可以主要分为两类,1)离线(批处理或半批处理)[7,27,40,45,46,52]和2)在线[8,14,34,36,47]。离线方法的关键思想是将检测分组为短轨迹段通讯作者。2任亮亮,陆继文,王紫峰,田琦,周杰图1:我们提出的用于多目标跟踪的C-DRL方法的关键思想。给定一个视频和第t帧不同对象的检测结果,我们将每个对象建模为智能体,并预测后续帧中每个对象的位置,通过协同深度强化学习方法考虑不同智能体和环境的相互作用,寻求最佳跟踪结果。最后,根据决策网络的输出,在帧t+ 1处采取行动更新代理或轨迹片段,然后使用更可靠的特征将这些轨迹片段连接到完整轨迹。代表性的离线方法使用最小成本网络流[5,54],能量最小化[28]或广义最小团图[52]来解决数据关联问题。在线MOT方法利用当前帧和过去帧的检测来估计对象轨迹,其可以应用于实时应用,诸如高级驾驶辅助系统或机器人辅助系统。S.传统的在线方法通常采用卡尔曼滤波[19]、粒子滤波[32]或马尔可夫决策[47]。然而,这些方法的跟踪精度对遮挡和噪声检测结果敏感,如漏检、误检和不准确的边界框,这使得这些方法难以应用于拥挤场景的视频。在本文中,我们提出了一种用于多目标跟踪的协同深度强化学习(C-DRL)方法。图1说明了我们提出的方法的基本思想。给定视频和第t帧不同对象的检测结果,我们将每个对象建模为智能体,并通过使用第(t+我们利用每个代理之间的相邻代理和环境的协作交互,并作出决定,每个代理更新,跟踪或删除目标对象通过一个决策网络,其中对象和噪声检测结果之间的遮挡的影响,可以很好地减轻最大限度地提高他们的共享效用。在具有挑战性的MOT15和MOT16基准测试上的实验结果,以证明我们的方法的效率。2相关工作多目标跟踪:大多数现有的MOT方法可以分为两类:1)离线[7,27,40,45,46,52]和2)在线[8,14,34,36,47]。甲基-不t+1跟踪结果帧tQ−网络行动选择Q−Net行动选择Q−网络行动选择Q−网络行动选择预测检测环境跟踪结果帧t+1人2人1用于多目标跟踪的协同深度强化学习3第一类中的ODS将所有检测结果分组为短轨迹段或小轨迹,并将这些小轨迹连接为完整轨迹。例如,Za-miret al. [52]通过使用广义最小团图,以全局方式关联包含外观和运动信息的所有检测结果。Tang等人。 [40]介绍了一种基于图的方法,该方法通过解决子图多割问题来随着时间的推移链接和聚类对象假设。Maksai等人 [27]提出了一种跟踪具有非马尔可夫行为约束的多个对象的方法。第二类中的方法利用当前帧和过去帧的检测结果来估计对象轨迹。例如,Yang et al. [48,49]通过解决具有非线性运动模式和用于多对象跟踪的鲁棒外观约束的能量最小化问题,引入了在线学习的CRF模型。 Xiang等[47]通过马尔可夫决策过程将MOT表述为决策问题。 Choi等人[7]提出了一个聚合的本地流描述符,以准确地测量不同检测结果之间的亲和力。 Hong等人[14]提出了一种数据关联方法,以在存在大的相机运动的情况下利用结构运动约束。萨代吉安等人[34]在时间窗口上对多个线索的依赖性进行编码,并学习多线索表示以计算跟踪框架中的相似性得分。为了克服噪声检测的影响,还提出了几种方法例如,Shu et al. [36]在通过检测跟踪的框架下引入了基于部分的表示以处理部分遮挡。Chu等人。 [8]专注于通过使用单个对象跟踪器来学习每个目标的鲁棒外观模型。为了解决遮挡和噪声检测的问题,我们的方法使用一个预测决策网络,使在线多目标跟踪的决定。深度强化学习:近年来,深度强化学习在各种视觉应用中取得了重大成功,例如对象检测[25],人脸识别[33],图像超分辨率[6]和对象搜索[20]。目前的深度强化学习方法可以分为两类:深度Q学习[12,29,30,42]和策略梯度[1,37,50]。对于第一类,拟合Q值以捕获在特定状态下采取特定动作例如,Cao等人。[6]提出了一种具有深度强化学习的注意力感知人脸幻觉框架,以通过充分利用图像的全局相互依赖性来顺序地发现关注的补丁并执行面部部分增强。 Rao等人[33]提出了一种注意力感知的深度强化学习方法,用于选择视频人脸识别的关键帧。 Kong等人[20]提出了一种协作式深度强化学习方法,可以在几次迭代中联合定位对象。对于第二类,明确地表示策略的分布,并且通过在梯度方向上更新参数来增加策略 Liu等人[26]应用策略梯度方法来优化各种字幕度量。Yu等人[50]提出了一种具有策略梯度的序列生成对抗网。最近,深度强化学习[15,16,39,51,53]也被用于视觉跟踪。例如,Yun et al. [51]提出了一个行动决策网络,以产生行动,以寻求位置和大小4任亮亮,陆继文,王紫峰,田琦,周杰剂1移位网络Q-网络块剂1剂2移位网络Q−网络更新剂2跟踪结果帧t剂3移位网络Q−网络忽略剂3预测网络环境初始化剂4决策网络跟踪结果帧t+1预测帧t+1检测帧t+1图2:所提出的用于多目标跟踪的C-DRL的框架在该图中,在帧t处存在三个对象。我们首先预测这三个物体在帧t+ 1处的位置。然后,我们使用决策网络结合预测和检测结果,并为每个代理人作出决策,以最大化他们的共享效用。例如,代理2被其邻居(代理1)阻止代理1通过使用最近的检测结果来更新自身,并且代理3忽略噪声检测。我们通过使用环境中剩余的检测结果来初始化代理4最后我们使用每个智能体的位置作为帧t+1在新的未来帧中的对象。Supancic等人。 [39]提出了一种决策策略跟踪器,通过使用强化学习来决定在即将到来的帧中查看哪里,以及何时重新初始化和更新其跟踪对象的外观模型然而,这些方法不能直接应用于多目标跟踪,因为它们忽略了不同对象之间的通信在这项工作中,我们提出了一种协作式深度强化学习方法,以利用不同对象之间的交互进行多对象跟踪。3方法图2示出了所提出的用于多对象跟踪的C-DRL方法的框架,其包含两个部分,1)预测网络和2)决策网络。给定一个视频和不同对象在帧t的检测结果,我们建模每个对象作为一个代理和预测对象的位置为后续帧,并寻求最佳的跟踪结果,通过考虑不同代理和环境的交互通过决策网络。最后,我们采取行动,更新,删除或初始化代理在帧t+1根据决策。在下面的小节中,我们将分别详细介绍预测网络和决策网络3.1预测网络给定对象的初始位置,预测网络旨在学习对象的移动以预测目标对象的位置。如图3、用于多目标跟踪的协同深度强化学习5i,ti,t+1输入FC5conv1conv2FC6conv3FC45123*3*51211*11*25651*51*96107*107*340100*4552*100图3:预测网络的框架预测网络在给定对象的初始位置的情况下学习目标对象的运动,该预测网络包含三个卷积层和三个全连接层预测网络的输入是由下一帧的初始边界框裁剪的原始图像和历史轨迹。我们随机抽样围绕对象b的位置的边界框b∈Bi,t每个帧作为训练集来学习预测网络。的预测网络将由初始位置b裁剪的第(t+1)帧和最后K帧的历史轨迹H用于位置预测,其中K在我们的工作中被设置为10。我们将位置预测公式化为以下回归问题: Σ Σarg maxJ(φ)=φ∗i,t+1,b+φ(It,b,Ht)),(1)i,tb∈Bi,t其中J是预测网络,φ是网络的参数集b*是一个真实的世界objectpiatframet+1,并且g(·)确定不存在以下项的内部选择(IoU)两个边界框。g(b,b)=bi∩bj.(二)我 jbi∪bj3.2协作式深度强化学习如图2、决策网络是一个包含多个Agent和环境的协作系统。每个智能体利用来自自身、邻域和环境的信息采取行动,其中智能体和环境之间的为了更好地利用这些上下文信息,我们制定多目标跟踪作为一个协同优化问题。我们把每一个物体都看作一个主体。每个代理p包含轨迹{(x0,y0),(x1,y1),· · ·,(x1,y1)},外观特征f,以及{x,y,w,h}上i处的当前lo-c。因此,可以如下计算两个节点之间的距离:fT fjd(pi,pj)=α(1−g(pi,pj))+(1−i),(3)fig(b6任亮亮,陆继文,王紫峰,田琦,周杰ffjJK我i,t其中g(pi,pj)是两个边界块的集合,且α≥0.环境包含对象检测结果:P *={p*,p*,· · ·,p*}。t1 2Nt可以计算物体pi和检测结果之间的距离如下所示不d(pi,p)= α(1 − g(pi,p))+(1 −i).(四)jjfi2f2设It是所选视频的第t帧,其包含nt个对象,Pt={p1,p2,...,pn}。在帧t的状态,st={Pt,P*}包含当前代理tt以及检测结果。对于对象pi,我们首先使用预测网络来生成帧t+1处的位置然后,我们选择最近的邻域pj∈Pt−{pi}andthenearestdete ttionresultp*∗电话+1.后续我们将数据存储为向解码器的输入是两个kifd(pj,pi)τ和d(p*,pi)<τ. 如果d(p_j,p_i)≥τ或d(p_*,p_i)<τ,则用零矩阵表示.K K对象在每个帧中有两种不同的状态:可见或不可见。如果对象是可见的,我们用预测或检测结果更新代理。如果检测结果是可靠的,我们使用检测结果和预测结果。如果检测结果不可靠,我们只使用预测结果。如果对象不可见,则对象可能被其他对象阻挡或消失。如果物体被遮挡,我们保留外观特征并且仅使用运动模型来预测下一帧的对象的位置。如果对象消失,我们直接删除对象。因此,对于对于每个代理,动作集被定义为A={更新、忽略、阻止、删除}。对于动作更新,我们使用预测和检测结果两者来更新pi的位置和外观特征,如下所述:fi=(1−ρ)fi+ρf*,(5)其中ρ是外观特征的学习率我们删除了用于更新代理功能的检测结果。对于环境中的剩余检测结果,我们为每个剩余结果初始化代理。对于错误检测,代理也被初始化,但是动作{更新,忽略,阻止}的奖励被设置为-1,而动作删除的奖励被设置为1。然后,在下一次迭代中删除代理。对于动作忽略,检测结果不可靠或丢失,而预测结果更可靠。我们使用预测结果来更新pi的位置。对于动作块,我们保留了pi的特征,因为对象已经被其他对象阻挡,并且根据预测结果更新位置。对于动作delete,对象消失,我们删除对象pi直接.因此,奖励R*包含两项:ri,t和ri,t+1,其中ri,t描述其在下一帧中的自身状态,并且ri,t+1指代其最近的在下一帧中的邻域状态。最终奖励可以计算如下:∗i,t=ri,t+βrj,t+1,(6)∈PR用于多目标跟踪的协同深度强化学习7i,t+ γ rE其中β彡0是平衡参数。动作{update,ignore,block}的ri,t由具有下一帧中的地面实况的预测位置的IoU定义如果IoU的值太小或对象消失,则ri ,t被设置为−1。ri,t=1 如果IoU彡0。7如果为0,则为0。5 ≤IoU≤ 0。7 .第一次会议。(七)−1else删除操作的ri,t由对象的状态定义。如果对象在下一帧ri中消失,则t为1,否则为-1。.r删除=1如果物体消失。(八)−1else我们计算{si,t,ai,t}的Q值如下:Q(si,t,ai,t)=r*其中γ是衰减参数。∗i,t+12∗i,t+2+···,(9)决策网络的优化问题公式化如下:argmax L(θ)= Es,alog(π(a|s,θ))Q(s,α),(10)θ其中θ是决策网络的参数集,策略梯度可以计算如下:∆θL(θ)= Es,a∆θlog(π(a|s,θ))Q(s,a)Q(s,a)(11)=∆ π(a|s,θ)。s,aπ(a|s,θ)θ梯度表明,我们可以增加具有正Q值的动作的概率,并降低具有负Q值的动作的概率然而,在一些简单的场景中,大多数动作的Q值是正的,而在一些具有挑战性的情况下或在训练阶段开始时,所有动作的Q值是负的因此,策略梯度网络难以收敛。因此,我们使用动作的优势值来代替Q值,其中我们首先计算状态s的值如下:ΣV(s)=p(a)|s)Q(s,a)Σap(a|个).(十二)然后,如下计算优势值:A(s,a)= Q(s,a)− V(s)。(十三)政策梯度的最终公式定义为:L(θ)= Es,alog(π(a|s,θ))A(s,a).(十四)+γr一8任亮亮,陆继文,王紫峰,田琦,周杰∗算法1:学习决策网络输入:训练集:V ={Vi},收敛误差1最大迭代次数M.输出:θ1:初始化θ;2:对于所有l = l,2,. . . ,M do3:随机选择一个视频(V);4:使用第一帧中的检测结果初始化代理集合P . . ,我不知道6:对所有p∈ P做7:根据决策网络的输出采取行动; 8:根据行动更新或删除p9:结束10:Addpi∈P*11:结束12:根据(10)计算Lt13:计算每个代理的优势值A(s,a); 14:根据(15)更新策略网络θ;15:如果l > 1且|Lt−Lt−1|<1然后16:返回17:如果结束18:结束19:返回θ参数θ可以如下更新:θ=θ+ρL(θ)∂θ=θ+ρEA(s,a)s,aπ(a|s,θ)π(a|s,θ)。(十五)∂θ算法1总结了我们的决策网络的详细学习过程。4实验4.1数据集MOT15:它包含11个训练序列和11个测试序列。对于每个测试序列,我们都有一个类似条件的训练集,以便我们可以相应地学习模型参数MOT 15中最具挑战性的序列是测试序列中的AVG-TownCentre,因为它的帧速率非常低,并且没有相应的训练序列。MOT16:它包含7个训练序列和7个测试序列。一般来说,MOT16比MOT15更具挑战性,因为地面实况注释更准确(考虑了一些困难的示例),背景注释更精确。用于多目标跟踪的协同深度强化学习9111设置更复杂(例如,移动的汽车或用快速移动的照相机捕获),并且行人更加拥挤,从而增加了遮挡的可能性。在两个数据集中的不同序列之间,相机运动、相机角度和成像条件4.2评估指标我们采用了广泛使用的CLEAR MOT度量[4],包括多对象跟踪精度(MOTP)和多对象跟踪精度(MO-TA),其结合了假阳性(FP)、假阴性(FN)和身份切换(ID Sw)来评估不同MOT方法的有效性。我们还使用了[24]中定义的指标,其中包含大部分跟踪目标的百分比(MT,跟踪假设覆盖至少80%各自寿命的地面实况轨迹的比率),大部分丢失目标的百分比(ML,跟踪假设覆盖最多20%各自寿命的地面实况轨迹的比率),以及轨迹的时间被分段(Frag,在跟踪期间被中断)。4.3实现细节决策网络:我们的决策网络包括一个特征提取部分和一个决策部分。我们使用MDNet [31]的一部分,它在ImageNet [9]上进行了预训练,以提取每个对象的特征。输入大小网络的总容量为3×107×107。 它包括三个连续的卷积层(7×7×96,5×5×256,3×3×512)和最大池化层组合(包括批量归一化层),最后是一个完全连接的层,用于将特征展平为大小为512×1的列向量D。然后,我们计算位置特征P(大小为4×1),并将D和P连接为混合特征向量W。在具有特征W1的预测代理1之后,在预测模型中最接近代理1的代理被称为具有特征W2的代理2,并且在下一帧的检测中对应代理det具有用于代理1的特征Wdet,并且最后在具有特征Dpre的前一帧中的代理1。连接所有特征后,我们获得了决策网络的输入(输入大小:2060×1)。该网络的结构相对简单,我们只利用3个全连通层(训练时有丢包)将维数降为4×1,这与这四种策略相为了证明我们的网络可以学习在各种场景下做出决策,我们在所有训练序列上训练决策网络(包括来自MOT15和MOT16),然后在所有测试序列上对其进行评估,而无需进一步处理。在这里,我们在MOT15和MOT16的训练序列上训练决策网络10个epoch(1个epoch循环通过所有训练集,包括MOT15和MOT16)。我们优化的网络与随机梯度下降的重量衰减率为0.0005和动量的速率为0.9。我们在前5个epoch将学习率设置为0.0002,并在接下来的5个epoch将其更改为0.0001。我们应用了一个动态批量策略,这意味着我们获取每一帧,并将该帧中的所有对象馈送到10任亮亮,陆继文,王紫峰,田琦,周杰网络作为一个批次。这个过程最好地模仿了真实的跟踪过程,因此有利于我们的网络用于真实的跟踪场景。对于强化学习超参数,我们首先将平衡参数β和折扣率参数γ设置为零,以简化训练阶段,并让决策网络收敛到某个奖励。这里的奖励是0.637。然后,我们在微调网络的基础上进行网格搜索。如图 当γ =0. 8且β = 0。4,我们得到最大化的归一化奖励(我们将其归一化为[0, 1]),因此我们如上所述设置超参数。预测网络:我们从数据集中的所有训练序列中提取了所有正例。为了模拟噪声情况,我们合并检测和地面实况注释的信息,并计算检测边界框和地面实况边界框的IoU如果IoU > 0。5、检测是有效的,并且我们将检测放入我们的数据集;否则,我们将检测视为假阳性并将其丢弃。因此,在训练移位网络时,我们将检测和地面实况信息相结合。我们的预测网络与C-DRL网络共享相同的特征提取部分。在获得特征向量D之后,我们将其与H10(x,y,h,w)连接,H10(x,y,h,w)是目标的过去10我们训练了20个epoch,批量大小为20。我们选择了随机梯度下降,学习率为0.002,权重衰减率为0.0005,动量为0.95。我们每5个epoch将学习率减半。我们的跟踪系统在MATLAB2015b平台上使用MatConvNet [43]工具箱实现0.820.80.780.760.740.720.70.680.660.640.6211图4:MOT15训练数据集上的平均归一化回报与不同β和γ的关系表1:我们的方法在不同帧间关系阈值下的性能4.4消融研究我们对MOT进行了消融研究,MOT 15训练集的SubCNN检测在[47]中提供。0.80.60.80.60.40.4伽马0.20.2Beta00THRESH Rcll FP FN IDs Mota MOTAL183.1 81.7 6598 4816364283.0 83.3 6673 4406566382.8 83.9 6742 4116566482.5 84.6 6837 3806667582.3 85.2 6929 3596768682.1 85.6 7003 3486768781.8 86.1 7142 3296768881.4 86.4 7292 3076768981.0 86.7 7448 2936768标准化奖励用于多目标跟踪的协同深度强化学习11表2:不同设置的消融研究方法Rcll Prcn GT Mt ML FPFNIDsMota MOTP MOTALOB81.4 86.4 458 293 66 4995 7292 30767.885.268.6DN →HA83.2 78.3 458 317 31 9042 6562 204854.984.460.1PN →VM83.1 81.7 458 317 31 7296 6620 45363.384.764.4MD →HIST 81.8 84.7 458 304 35 5772 7121 46365.985.267.1帧间关系的影响:我们改变了网络中的连续帧信息,以研究它如何影响性能。我们的方法自动清除了连续出现时间相对较短的代理,这已被用于我们的C-DRL网络的训练阶段(例如:当一个代理丢失了一定数量的帧时,我们的方法给出命令将其弹出并在该方向上更新权重我们将阈值设置为1到9。从表1中,我们看到,当利用更多的帧间信息时,可以包括对我们的代理的更多约束,使得在我们的模型中可以很好地消除噪声检测结果我们还注意到,随着FP的上升,FN也会下降,这是精确度和召回率之间的权衡由于MOTA在THRESH≥ 8后似乎饱和,因此将THRESH设置为8是优化MOTA的好选择决策网络的影响:根据上一部分的结论,我们将帧间阈值设置为8。我们的原始基线(OB)是我们的完整管道,未经修改。我们用香草匈牙 利算法替换 了我们的决 策网络,并 固定了所有 其他参数(DN→HA)。我们发现,整个系统的整体性能急剧下降,根据2。特别地,FP几乎加倍并且ID增加一个数量级。我们的决策网络通过采取适当的行动,有效地消除了误报和身份转换预测网络的影响:我们用速度模型方法(PN → VM)代替了我们的预测网络。我们通过使用他们的踪迹来预测每个代理的位置换句话说,我们通过使用他们以前的运动来模拟代理的即时速度根据表2中所示的我们的实验结果,性能也变差由于MOT15训练集中行人的运动相对平滑和缓慢,很少有转弯或跑步等边缘因此,性能并不差。然而,我们的原始管道仍然能够给出更精确的位置预测。MDNet功能的影响:我们用简单的颜色直方图特征(PN → VM)替换了我们的决策和预测网络的MDNet部分,然后将它们馈送到全连接层。这一次,性能下降是轻微的,这意味着我们的强化学习方法对不同的特征表示具有鲁棒性。然而,更微妙和informa- tive功能是一个推动.我们可以很容易地看到我们的决策网络的优势和预测网络的有效性。由于我们的决策网络明显地提高了性能,这是我们整个系统的核心部分。12任亮亮,陆继文,王紫峰,田琦,周杰图图5:关于MOT15和MOT16公共检测的一些跟踪结果,其中每个对象的轨迹已经从第一帧开始以与其边界框表3:不同方法对M0T15的性能模式方法MOTA↑ MOTP↑ FAF↓MT(%)↑ML(%)↓FP↓FN↓线下LINF1 [10]24.571.31.05.564.65864 40207LP SSVM [44]25.271.71.45.853.08369 36932MHT DAM [18]32.471.81.616.043.89064 32060NMOT [7]33.771.91.312.244.07762 32547QuadMOT [38]33.873.41.412.936.97898 32061[第17话]35.671.91.823.239.310580 28508在线SCEA [14]29.171.11.08.947.36060 36912MDP [47]30.371.31.713.038.49717 32422CDA DDALpb [2]32.870.70.99.742.24983 35690AMIR15 [34]37.671.71.415.826.87933 29397我们37.171.01.214.031.37036 304404.5关于MOT15的与最新技术水平的比较:为了公平比较,我们使用了MOT15和MOT16的公开检测结果。取样结果如图所示五、如表3所示,我们的方法在MOTA指标下优于MOT15上的大多数最先进的跟踪器,MOTA指标是多对象跟踪中最重要和最有说服力的指标之一我们的方法也与AMIR15 [34]相当。此外,我们得到了最好的FN在所有的在线方法,这表明我们的方法是能够恢复检测有效。我们注意到一些方法,如LINF1 [10],可以在FP和ID Sw上获得相对较高的性能然而,它牺牲了大量的困难的例子,这导致了一个坏的FN性能。我们的方法也优于所有离线方法(例如它们可以访问所有帧,而不管时间顺序如何,使得它们获得比在线信息多得多的信息),这表明我们的网络可以经由深度强化学习框架很好地学习上下文信息4.6关于MOT16的与现有技术的比较:如表4所示,我们的方法在所有在线MOT方法中实现了最佳MOTA结果,并且与现有技术的方法相当用于多目标跟踪的协同深度强化学习13表4:不同方法对M0T16的性能模式方法MOTA↑ MOTP↑ FAF↓MT(%)↑ML(%)↓FP↓FN↓线下待定[11]33.776.51.07.254.25804 112587LTTSC-CRF [21]37.675.92.09.655.211969 101343LINF1 [10]41.074.81.311.651.37896 99224MHT DAM 16 [18]45.876.31.116.243.26412 91758NOMT [7]46.476.71.618.341.49753 87565NLLMPa [23]47.678.51.017.040.45844 89093LMP [41]48.879.01.118.240.16654 86245在线OVBT [3]38.475.41.97.547.311517 99463[35]第三十五话38.875.11.47.949.18114 102452CDA DDALv2 [2]43.974.71.110.744.46450 95175AMIR [34]47.275.80.514.041.62681 92856我们47.374.61.117.439.96375 88543最好的离线方法,如LMP [41]和FWT [13]。在MT和ML方面,我们的方法在所有在线方法中也取得了最好的性能,这表明我们的方法可以在复杂环境下由于MOT16的检测结果更准确,我们的决策网络和预测网络可以学习更多正确的行为,并减少丢失对象的可能性。另一个观察结果是,我们的方法在所有在线方法中获得了最佳的FN性能,这是因为我们的方法通过决策网络恢复了检测器中丢失的一些丢失对象由于公共检测器未覆盖MOT16中的所有阳性样本,因此所有方法的FN率自然较高。然而,我们的方法很好地解决了这个问题我们看到,我们的方法优于这些离线方法的一个很大的利润,这表明,有效的决策网络,其中协作交互最大限度地利用上下文信息的有效性被有效地利用,以提高我们的网络的泛化能力同时,我们的FP在在线和离线方法中获得了第二名,这意味着我们的方法具有很强的能力来消除检测结果中存在的假阳性图图6(a)顶部图像示出了所提供的公共检测结果,其包含相同人的多个检测然而,在下面的跟踪结果中,我们的方法成功地消除了这些冗余检测。失效案例:图6(b)示出了我们的方法的一些失败示例。对于第一行,我们可以看到,当人们彼此走过时,他们很容易切换自己的ID。例如,白衣女子最初在蓝框中,然而蓝框在接下来的帧中移动到蓝衣男子 对于第二行,我们可以看到,当遮挡持续很长时间时,重新出现的人将被分配有新的id(即在我们的图片中使用新颜色的边界框)。例如,白色的人最初在黄色的盒子里,他在第二帧中被另一个隐藏起来。当他再次出现在第三帧时,他在一个新分配的黄色框中。我们的方法在两者上都有相对较高的ID切换和Frag(实际上这两个指标是密切相关的)14任亮亮,陆继文,王紫峰,田琦,周杰(a)(b)第(1)款图6:(a)消除误报(b)ID开关问题MOT15和MOT16数据集,这表明我们的决策网络在条件发生变化时有时过于谨慎。在这种情况下,我们的方法将为对象分配一个新的ID标签。对于内存优化,如果对象在某个帧丢失,我们将对象保留在模型中几个帧(在实验中我们设置为2)。对于一些高采样率的视频,由于遮挡,对象丢失相对更多的帧,这也导致ID切换。然而,这可以通过将可能消失的对象的特征保存在我们的模型中用于更长的帧并使用更多相似的序列训练网络来缓解,以便网络可以更好地利用动态信息。另一个原因是,当两个或多个对象相互移动时,它们的位置和外观特征都非常相似,这对MOT跟踪器提出了很大的挑战。5结论在本文中,我们提出了一种协作的深度强化学习多目标跟踪方法。具体来说,我们采用预测网络来估计下一帧中对象的位置,并使用深度强化学习来组合预测结果和检测结果,并做出状态更新的决策,以克服遮挡和漏检或误检。在具有挑战性的MOT15和MOT16基准测试的实验结果表明,我们的方法的有效性。如何将我们的方法应用于摄像机网络多目标跟踪似乎是一个有趣的未来的工作。确认这项工作部分由中国国家重点研究开发计划资助2017 YFA 0700802,部分由中国国家自然科学基金资助61672306,资助U1713214,资助61572271,部分由国家自然科学基金资助61429201,部分由Dr. Qi Tian获ARO授予W 911 NF-15-1-0290和美国NEC实验室和Blippar的教师研究礼品奖。用于多目标跟踪的协同深度强化学习15引用1. Ammar,H.B.,Eaton,E.,Ruvolo,P.,泰勒,M.:在线多任务学习为policygradientmethods。 In:ICML. pp. 12062. 裴S.H.Yoon,K.J.:基于置信度的数据关联和判别式深度外观学习,用于鲁棒的在线多目标跟踪。TPAMI(2017)3. Ban,Y.,Ba,S.,Alameda-Pineda,X.,Horaud,R.:基于可变数据库跟踪多个人。 In:EC CV. pp. 524. Bernardin,K.,Stiefelhagen,R.:评估多对象跟踪性能:明确的MOT指标。EURASIP 2008(1)、246309(2008)5. 屁股匿名戒酒会Collins,R.T.:用拉格朗日松弛法对多目标进行最小代价跟踪。In:CVP R.pp. 18466. 曹Q.林,L.,施,Y.,梁湘,李,G.:经由设计的注意感知面部幻觉。In:CVPR. pp. 6907. Choi,W.:基于聚集局部流描述符的近在线多目标跟踪。In:IC CV. pp.30298. Chu,Q.,欧阳,W.Li,H.,王,X.,刘,B.,Yu,N.:基于cnn的单目标跟踪器结合时空注意机制的在线多目标跟踪。In:ICCV.pp. 48369. Deng,J.,Dong,W.,索赫尔河Li,L.J.,Li,K.,李菲菲:Imagenet:一个大规模的历史性数据库。 In:CVPR. pp. 24810. 费戈-布凯湖奥迪吉耶河Dhome,Y. Lerasle,F.:改进具有稀疏表示的多帧数据关联以用于鲁棒的近在线多对象跟踪。In:ECCV.pp. 77411. Geiger,A.,Lauer,M.,沃杰克角斯蒂勒角乌尔塔松河:从多个可移动的平面图形式中获取3D交通场景。TPAMI36(5),101212. Gu,S.,Lillicrap,T.萨茨克弗岛Levine,S.:使用现代化数据库的连续深度Q学习。 In:ICML. pp. 282913. H enschel,R., Leal-Taix'e,L., Cremers,D. ,Rosenhahn,B. 本文提出了一种用于多检测器多对象跟踪的基于k-wolfe优化的方法。arXiv预印本arX- iv:1705.08314(2017)14. Hong Yoon,J.,李,C.R. Yang,M.H.,Yoon,K.J.:在线多目标跟踪视频跟踪技术。In:CVP R.pp. 139215. 黄 , C. , Lucey , S. , Ramanan , D. : 学 习 策 略 与 自 适 应 跟 踪 deeppeaturecasades。 In:ICCV. pp. 10516. Kamalapurkar河安德鲁斯湖Walters,P. Dixon,W.E.:无限时域近似最优跟踪的基于模型的强化学习。TNNLS 28(3),75317. Keuper,M.,唐,S.,Zhongjie,Y.,Andres,B.,Brox,T.,Schiele,B.:多目标联合分割和跟踪的多切割公式。arXiv预印本arXiv:1607.06317(2016)18. 金姆 角 Li, F.,Ciptadi ,A. ,J. M. Bogg :多 假设 跟踪再 访。In :ICCV.pp. 469619. Kim,D.Y.,Jeon,M.:多目标跟踪Informat1nSciences278,64120. 孔,X. Xin,B.,王玉,Hua,G.:协作式深度强化学习。 In:CVPR. pp.169521. Le,N.,Heili,A.,Odobez,J.M.:基于crf跟踪的长期时间敏感成本。In:ECCV. pp. 4316任亮亮,陆继文,王紫峰,田琦,周杰22. Leal-Taix'e,L., Milan,A., Reid,I., R〇th,S., S chindler,K. :2015年中期报告:多目标跟踪基准。arXiv预印本arXiv:1504.01942(2015)23. Levinkov , E. , Uhrig , J. , 唐 , S. , Omran , M. , Insafutdinov , E. ,Kirillov,A.,Rother,C.,Brox,T.,Schiele,B.,Andres,B.:联合图分解&节点标注:problem,algorithms,applications. In:CVPR. pp. 601224. 李,Y.,黄,C.,内华达河:学习关联:Hybridboosted多目标跟踪,用于跟踪。In:CVPR.pp. 295325. 梁湘,李湖Xing,E.P.:用于视觉关系和属性检测的深度变分结构强化学习。arXiv预印本arXiv:1703.03054(2017)26. Liu,S.,Zhu,Z.,Ye,N.,Guadarrama,S.,Murphy,K.:使用策略梯度方法优化图像描述度量。arXiv预印本arXiv:1612.00370(2016)27. Maksai,A.,王,X.,Fleuret,F.,Fua,P.:非马尔可夫全局一致多任务跟踪。 In:IC CV. pp. 254428. Milan,A., Leal-Taix'e,L., Reid,I., R〇th,S., S chindler,K. 图16:用于多对象跟踪的改进算法。arXiv预印本arXiv:1603.00831(2016)29. Mnih,V.,Kavukcuoglu,K.,Silver,D.,格雷夫斯,A.,安东诺格鲁岛Wierstra,D.,Riedmiller,M.:用深度强化学习玩雅达利。ArXiv预印本arXiv:1312.5602(2013)30. Mnih , V. , Kavukcuoglu , K. , Silver , D. , Rusu , A.A. , Veness , J. ,Bellemare , M.G. 格 雷 夫 斯 , A. , Riedmiller , M. , Fidjeland , A.K. ,Ostrovski,G.,等:人工级别的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功