没有合适的资源?快使用搜索试试~ 我知道了~
5620基于四元组卷积神经网络的Jeany Son Mooyeol Baek Minsu Cho Bohyung Han Dept.计算机科学与工程,POSTECH,韩国{jeany,mooyeol,mscho,bhhan}@ postech.ac.kr摘要我们提出了用于多对象跟踪的四元组卷积神经建议的网络考虑目标外观连同它们的时间邻接数据关联。与传统的排序损失不同,四元组损失实施了额外的约束,使得时间上相邻的检测比具有大的时间间隙的检测更接近地定位我们还采用多任务损失来联合学习对象关联和边界框回归,以更好地定位。整个网络都是端到端训练的。对于跟踪,目标的关联是通过极小极大标签传播使用的metric从建议的网络学习。我们在公开的MOT Challenge数据集上评估了我们的多目标跟踪算法的性能,并取得了出色的结果。1. 介绍视频中多目标的视觉跟踪已经被广泛研究用于各种应用,例如人体运动分析、自动驾驶和视频监控。尽管近年来取得了实质性的进展,但即使是最先进的多目标跟踪算法仍然遭受各种挑战,例如在拥挤场景中的严重遮挡和噪声检测。这些问题经常影响真实世界场景中的跟踪性能。多目标跟踪的目标是找到视频中运动对象的最佳轨迹集。这个问题通常被公式化为数据关联任务,其中外部检测器定位每个帧中的目标边界框,并且然后跟踪算法跨帧关联对应的检测框。在存在遮挡、丢失对象和错误警报的情况下,这种数据关联是一项具有挑战性的任务。因此,现有方法通常利用较大时间窗口内的多个候选轨迹,而不是依赖于两个连续帧上的关联[56,3,1,6,50,8,22]。尽管有这些努力,现有的多目标跟踪算法仍然是不稳定的。遭受大规模和不准确的检测。近年来,深度学习技术已经在各种计算机视觉任务中实现了最先进的性能,例如图像分类[25,44,17],语义分割[31,36]和对象跟踪[35,16]。然而,只有少数几种深度学习方法用于多对象跟踪[28,48,33],并且它们的性能不如基于手工制作特征的技术具有竞争力 有几个原因阻碍了深度学习技术在多目标跟踪中的应用。首先,多目标跟踪的训练数据还不足以训练具有大量参数的深度神经网络。由于注释视频帧的地面实况的成本,只有有限数量的序列是可用的。其次,现有的在图像分类数据集上预训练的深度神经网络在区分具有细微差异的对象和捕获视频中的运动特征方面存在严重限制。虽然多目标跟踪的成功依赖于目标外观和运动的有效使用,但深度神经网络中这两个因素的联合学习尚未得到深入研究出于这一事实的动机,我们提出了一种新的多目标跟踪算法,使用四元组卷积神经网络(Quad-CNN),它学习使用外观和运动线索来关联视频帧中具体而言,与传统的排名损失,提出的四重损失引入了一个额外的约束,即时间上相邻的检测比遥远的距离更小。这使我们能够学习目标对象的时间平滑外观模型,并通过将外观嵌入与运动感知位置嵌入相结合来实现度量学习。此外,我们将边界框回归,以改善初始检测和改进本地化。我们采用多任务损失来联合学习对象关联和边界框回归,整个网络是端到端训练的。在跟踪中,我们使用学习的度量计算时间滑动窗口内所有检测对之间的距离,并且使用极大极小标签传播来关联检测。本文的主要贡献有四个方面:• 我们提出了一个四元组结构的深度神经5621网络,被称为Quad-CNN,以学习用于多对象跟踪的对象关联。对于度量学习,Quad-CNN结合了检测的外观嵌入和它们的序列特定运动感知位置嵌入。• 我们采用多任务损失来联合学习对象关联和边界盒回归,整个网络在统一的框架中进行端到端的训练。• 我们采用一种改进的极大极小标签传播算法,使快速和强大的数据关联多目标跟踪。• 我们在MOT挑战基准数据集上取得了出色的性能,特别是在基于深度神经网络的算法中。本文的其余部分组织如下。我们首先在第二节讨论相关的工作。Quad-CNN的架构和特性在第3节中介绍。第四节讨论了基于极大极小标签传播的关联算法。第5节描述了我们的方法的实现细节第6节提供了实验结果。2. 相关工作处理数据关联问题的早期多目标跟踪算法通常使用递归贝叶斯滤波器,例如卡尔曼滤波器[4]和粒子滤波器[38],其依赖于一阶马尔可夫假设。另一个方向是使用通过出现、位置、大小等测量的它们的亲和度来匹配由两个连续帧之间的检测给出的对象假设。[24、52、42]。然而,基于本地数据关联(例如,在两个相邻帧之间)在处理遮挡或噪声检测方面具有严重的局限性,并且因此倾向于产生短的分段轨迹。相反,一些多目标跟踪算法通过全局或延迟优化来构建一组拓扑结构[56,3,1,6,50]。已经提出了几种基于卷积神经网络(CNN)[28,48]和递归神经网络(RNN)[33Leal-Taixeet al. [28]使用Siamese CNN学习描述符,其中图像和光流图作为多模态输入提供他们使用梯度提升来结合Siamese CNN提取的局部特征和上下文特征。Wang等人[48]联合学习Siamese CNN和时间约束度量以获得基于外观轨迹片段亲和度模型。长短期记忆(LSTM)是端到端训练的,用于在线多对象跟踪[33]。这项工作是第一个完全基于深度学习的端到端学习方法但是其性能没有达到现有技术方法的精度Kim等人[22]使用在大型数据集上预训练的深度特征作为多假设跟踪的外观特征多目标跟踪的目的是将检测到的目标关联起来,因此检测目标之间相似度函数的设计是一个关键因素。Siamese网络[5,9]和三重网络[49,18]是测量两个对象之间相似性的简单方法。Siamese网络使用对比损失来训练网络,这鼓励网络在属于相同对象的对之间具有小距离,同时强制具有不同身份的对象具有大距离。该网络应用于人脸验证和识别[45,43],单目标跟踪[47]和多目标跟踪[28,48]。三重网络是Siamese网络的改进版本,由于它使用了排名损失,因此对类内变化更具鉴别力和更鲁棒性[18]。它已被用于特征学习[18,26],视频中的无监督表示学习[51],面部识别[41]和个人重新识别[7]。最近,已经提出了使用高阶关系的三元组网络的广义版本[57,19,37],这些方法对于细粒度特征表示学习非常有用。我们的算法与现有的基于度量学习的多对象跟踪算法最不同的部分是,它使用四元组关系在单个CNN框架中同时学习外观和运动线索的度量。同样值得注意的是,我们获得了用于度量学习的序列不可知模型,而不管内在和外在相机参数。3. 用于多目标跟踪的Quad-CNN本节描述了我们用于多对象跟踪的Quad-CNN的细节,包括如何联合学习数据关联和边界框回归。3.1. 主要思想我们的四元组网络通过推广Siamese和三元组网络来处理多级秩或,这些网络通常用于学习目标外观的嵌入。我们的动机是,对于多目标跟踪中的数据关联,嵌入不仅要考虑检测到的对象的类标签,还要考虑它们的检测时间戳,因为对象外观会随着视频中的时间而变化。我们引入了一个Quad-CNN来学习具有这种约束的嵌入,其中检测到的对象之间的相似性由它们的标签和时间距离确定。图1说明了本文中定义的四元组关系。由于这种四元组关联依赖于准确的对象定位,我们采用边界框回归作为学习网络的额外目标。Quad-CNN5622∗t1t2∗000i,t 1 i,t 2 i,i=1000i,t10i,t2其中,ai表示块xi的学习的外观特征,mi→j表示使用从块xi到xi的线性运动模型的序列特定的运动感知位置特征,并且(αij,α ij)是用于出现距离的训练权重一个p优势和位置特征。关于这些的下面讨论两个特征和所学习的度量图1:Quad-CNN中的四元组关系。我们的目标是强制一个积极的一对检测具有比一个消极的一对更小的距离,和一个时间上相邻的一对检测具有比一个时间上遥远的一对更小的距离。最小化对应于数据关联和边界框回归两者的小批量中的每个补丁上的多任务损失L,其由下式给出:L=Lrank+λLbbreg,(1)其中Lrank和Lbbreg分别是四元组排序和边界框回归的损失图2说明了我们的四元CNN的整体架构,其中CNN可以被任何深度网络(例如VGG,AlexNet)。3.2. 鲁棒关联的四元组秩损失让我们用下式表示对应于多对象跟踪中的检测的图像块的N个四元组的集合:{(xi,t,x+,x+,x−)}N,其中xt是锚补丁外观特征在行人(或许多其他种类的物体)的多目标跟踪中,主要目标物体的范围可以大致分为两部分,例如,上半身和下半身当训练样本的数量不足时,由于过拟合问题,可能难以学习上半身和下半身的关节外观的鲁棒特征嵌入为了解决这个问题,我们将最后一个卷积层(pool5)的输出切片为两个相应的部分,并为每个部分分别学习两个全连接层(ftop和fbottom与单个组合线性层相比,这两个切片层减少了参数的总数,因为它们不共享前一层中的连接节点实验结果表明,这种切片策略有效地防止了网络的过拟合,提高了行人跟踪的准确性这些单独的完全连接层(上部和下部身体适应层)的输出然后被连接以生成用于片x i的单个外观特征向量ai。序列特定的运动感知位置特征除了外观特征之外,还通过所提出的Quad-CNN训练补丁的位置特征。让我们首先定义一个运动感知的位置特征,从补丁xi到xj,在帧t0,(x+,x+)是具有约束的正面片t1t 2t0
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功