没有合适的资源?快使用搜索试试~ 我知道了~
学习在虚拟世界中检测和跟踪可见和遮挡的身体关节Matteo Fabbri,Fabio Lanzi,Simone Calderara,Andrea Palazzi,Roberto Vezzani,and Rita Cucchiara意大利摩德纳大学和雷焦艾米利亚大学的“En zo F e rra ri”工程师{name.surname} @ unimore.it抽象。开放世界环境中的多人跟踪需要在精确检测方面做出特殊努力。此外,在检测阶段的时间连续性获得更重要的场景杂波引入了具有挑战性的问题,被遮挡的目标。为此,我们提出了一个深度网络架构,共同提取人的身体部位,并将它们在短时间跨度。我们的模型明确地处理闭塞的身体部位,通过幻觉似合理的解决方案不可见的关节。我们提出了一个新的端到端的架构组成的四个分支(可见热图,遮挡热图,部分亲和字段和时间亲和字段)的时间链接器特征提取器。为了克服缺乏具有跟踪、身体部位和遮挡注释的监控数据,我们通过利用逼真的视频游戏创建了最大的计算机图形数据集,用于在城市场景中进行人员跟踪。它是迄今为止最大的数据集(约500.000帧,近1000万个人体姿势),用于人们跟踪人体部位-在城市场景中。我们的架构上训练的虚拟数据表现出良好的泛化能力,也对公共的真实跟踪基准,当图像分辨率和清晰度足够高,产生可靠的tracklets有用的进一步批量数据关联或重新识别模块。关键词:姿态估计,跟踪,监视,遮挡1介绍多人跟踪(MPT)是计算机视觉中最成熟的领域之一。最近,全面的公共基准和数据的可用性促进了这一点[25,2]。通常,MPT方法已经被投射在通过检测进行跟踪的范例中,其中行人检测器提取候选对象,并且另一关联机制将它们布置在时间上一致的轨迹中[36,14,10]。然而,在过去的几年里,一些研究人员[11,36]提出了这两个阶段是否会被解开的问题或者考虑同一问题的两个方面。检测精度和跟踪性能之间的强烈影响[36]建议考虑检测同等贡献。2M. Fabbri等人和跟踪作为一个独特问题的两个部分,至少对于短期设置,应该端到端地解决这个问题。在这项工作中,我们主张检测和短期跟踪之间的集成方法,可以作为代理更复杂的关联方法,无论是属于跟踪或re-id家庭的技术。为此,我们建议:– 端到端深度网络,称为THOPA-net(基于时间热图和遮挡的身体部位关联),其联合定位人的身体部位并跨短时间跨度将它们关联。这是可实现现代深度学习架构在身体部位定位方面表现出色[6],但大多数情况下忽略了时间贡献。为为此,我们提出了一个自底向上的人体姿态估计网络时间相干性模块,其联合地增强所述检测准确性并允许短期跟踪;– 一种用于处理被遮挡的身体部位的显式方法,该方法利用了产生可行解的深度网络的能力;结果是非常令人鼓舞的精度也在拥挤的场景。我们的实验告诉我们,这个问题比人们想象的更少地依赖于形状的细节或真实性;相反,它更多地受到计算机图形学(CG)生成的数据集中极高的图像质量和分辨率的影响然而,在真实MPT数据集[25,2]上的实验表明,该模型可以向真实场景积极转移。2相关作品图像中的人体姿态估计在过去几年中取得了重要进展[7,37,15,28,5]。然而,那些技术假定每个图像仅一个人,并且不适合于彼此遮挡的多个人的视频因此,单人姿态估计的自然扩展,即多人姿态估计,最近已经变得非常重要,能够处理具有不同数量的人的情况[31,17,18,29,27,6,23]。其中,[29]使用图分解和带有局部搜索的节点标记,而[27]引入关联嵌入以同时生成和分组身体关节检测。[6]提出了一种用于联合学习身体部位及其关联的端到端架构,而[29]则采用了两阶段方法,由人检测阶段和每个人的关键点估计组成此外,[31,17,18]联合估计图像中的多个姿态,然而,这些方法仍然依赖于单独的人员检测器,并且在混乱的情况下不能很好地执行。视频中的单人姿势估计已经由若干研究者解决[21,40,30,13]。然而,所有这些方法都通过利用时间平滑约束或光流数据来提高姿态估计精度,但忽略了多个重叠人的情况。学习检测和跟踪3表1.视频中姿势估计和MPT的公开可用数据集概述对于每个数据集,我们报告了剪辑、注释帧和每帧人数的数量,以及3D数据、遮挡标签、跟踪信息、姿态估计注释和数据类型的可用性数据集剪辑数量帧数#PpF3D发生跟踪姿势估计类型[41]第四十一话2,326159,6331J体育JHMDB [22]5,10031,8381J多样化[8]第十八话505,0001J多样化[34]第三十四话441,2861J多样化电子邮件:info@posetrack.com51423,0001-13JJ多样化MOT-16 [26]1411,2356-51JJ城市JTA512460,8000-60JJJJ城市近年来,在线跟踪已成功扩展到具有多个目标的场景[39,38,32,9,4,33]。与依赖于复杂的外观模型来跟踪后续帧中的单个[39]利用了具有深度学习外观特征的高性能检测器,而[32]提出了一种在线方法,可以对多个线索的长期时间依赖性进行编码。[9],另一方面,引入时空注意机制来处理由目标之间的遮挡和交互引起的漂移。[4]通过根据其置信度值以不同方式将轨迹和检测相关联来解决在线多对象跟踪问题,并且[33]在概率假设密度粒子滤波器框架中利用高置信度和低置信度目标检测。在这项工作中,我们共同解决视频中的多人姿态估计的问题,多人跟踪的目标。解决这个问题的早期作品[3,20]没有同时解决姿势估计和跟踪,而是单独针对多人跟踪。更近的方法[19,16]依赖于与[31,17,18]密切相关的图分割方法,同时估计多个人的姿势并随时间跟踪他们,但不能应对由目标遮挡、场景混乱和尺度变化主导的城市场景。与[19,16]相反,我们不将问题作为图分区方法来处理。相反,我们的目标是简化跟踪问题,通过提供准确的检测鲁棒的遮挡推理直接在视频级。用于视频中人体姿势估计的最广泛使用的公开可用数据集在Tab中呈现1.一、 [41,22,8]提供了对人姿态估计的单人子任务的注释。仅Posetrack [2]具有带有跟踪注释的多人用于评估多人跟踪的参考基准是[26],其提供了具有严重遮挡和尺度变化的拥挤城市场景的具有挑战性的序列然而,它不追求姿态估计任务,并且仅提供边界框作为注释。我们的虚拟世界数据集,而不是针对4M. Fabbri等人通过在现实的城市场景中合并精确的姿势和跟踪注释,两全其美当可以利用高度真实感CG环境自动计算地面实况时,这确实是可行的。3JTA数据集我们收集了一个庞大的数据集JTA(联合跟踪自动)行人姿态估计和跟踪在城市场景中,利用高度逼真的视频游戏侠盗猎车手V开发的Rockstar北。收集的在不同的照明条件和观点,图1。而且每剪辑带有可见和被遮挡的身体部位的精确注释,peo-在游戏虚拟世界中使用2D和3D坐标进行目标跟踪。在完整性方面,我们的JTA数据集克服了现有数据集在实体数量和可用注释方面的所有限制,表1。为了虚拟地重新创建真实世界场景,我们通过开发与虚拟游戏的场景同步的游戏模型来手动引导场景。开发的模块使我们能够生成和记录自然的行人流量,重现特定于最拥挤的地区的人的行为。此外,在游戏的AP I中,两种操作中的一种可以执行以下操作:在闭合时,操作偶尔执行自然的操作,电话,喝酒或抽烟。每个视频包含0到60个人,平均超过21个人,总计超过460,800个密集注释帧的近10M注释身体姿势。与摄像头的距离范围在0.1米到100米之间,导致行人高度在20到1100像素之间(更多详细信息请参见补充材料)。我们收集了一组512个全高清视频,30秒长,以30 fps录制。我们将序列分成256个视频用于训练,256个用于测试。通过游戏修改,我们访问游戏渲染器以自动注释[1]和[2]中相同的14个身体部位,以促进跨数据集实验。在每个视频中,我们为场景中出现的每个行人分配了一个唯一的标识符。标识符在整个视频中保持相同,即使行人移出视场。这一特征可以促进人的重新识别研究,尽管不是这项工作的目标我们Fig. 1. 来自JTA数据集的示例展示了其在视点、人数和场景方面的多样性。地面真实关节被叠加到原始图像。更多示例学习检测和跟踪5dataset还提供了遮挡和自遮挡标志。如果每个关节从摄像机的视角不能直接看到并且被物体或其他行人遮挡,则将其标记相反,如果关节被该关节所属的同一个人遮挡,则该关节被标记为自遮挡。对于关节注释,通过访问游戏渲染器来捕获遮挡注释。JTA Dataset还提供准确的3D信息:对于每个注释的关节,以及具有图像中的位置的2D坐标,我们还提供在该位置的空间中的该位置的3D坐标。从P〇 se_track [2]中导出,其使用带注释的头部边界框作为对头部边界框的估计。人的绝对比例,我们通过3D标注提供每个行人的精确比例。数据集以及游戏修改都是免费访问的1。4THOPA-net我们的方法利用帧内和帧间的信息,以共同解决多人的姿态估计和跟踪视频中的问题。对于单个帧,我们通过集成[6]中的架构来扩展用于在检测过程中处理闭塞关节的分支。随后,委员会注意到,我们提出了一个时间链接网络,以整合时间一致性的过程中,并共同实现检测和短期跟踪。单图像模型(图2)将大小为w×h的RGB帧作为输入,并生成:作为输出,图像中每个人的姿势预测。相反,完整的架构(图3)将N帧的剪辑作为输入和输出剪辑的最后一帧的姿态预测以及与前一帧的时间链接。4.1单幅图像姿态预测我们的单个图像模型(图2)由基于COCO 2016关键点数据集[24]预训练的VGG-19 [35]前10层的初始特征提取器组成。所计算的特征图随后由三分支多级CNN处理,其中每个分支聚焦于身体姿势估计的不同方面:第一分支预测可见部分的热图,第二分支预测被遮挡部分的热图,并且第三分支预测部分亲和场(PAF),其是用于将部分链接在一起的向量场请注意,与[6]相反,我们采用了不同的分支用于遮挡检测任务。显而易见,可见和遮挡的身体部位检测是两个相关但不同的任务。为了检测身体部位的位置,由网络使用的特征不同于估计被遮挡部位的位置所需然而,这两个问题纠缠在一起,因为可见的部分允许估计丢失的部分。事实上,网络利用上下文线索来执行期望的预测,1http://imagelab.ing.unimore.it/jta6M. Fabbri等人HOP= n128k7= n128k1= nJk1=n2Ck1=n512k1= n128k3图二. 具有针对每个卷积层并且通过用户的系统路由器(例如,脚检测机构严重依赖于腿的存在,因此即使脚不是完全可见的,也可以触发可见脚检测)。每个分支又是迭代预测器,其在应用中间监督的每个后续阶段细化预测,以便解决消失梯度问题。除了第一阶段仅将VGG-19提供的特征作为输入之外,连续的阶段将相同的因此,跨不同分支的信息流,特别是可见和遮挡关节检测两者在该过程中纠缠在一起。对于每个分支,我们在每个阶段结束时应用不同的损失函数损失是估计的预测和地面实况之间的SSE损失,由掩模M掩蔽,以便不惩罚可见分支中的遮挡关节。具体地,对于阶段s∈ {1,. . .,S}和地面真值X*,我们得到损失函数:w′h ′Σls=Σ ΣM(x,y)⊙(Xs(x,y)−X*(x,y))2,(1)X i ii x=1y =1其中,对于可见关节热图,X依次为H,对于遮挡关节热图,X依次为O,对于亲和场,X依次为P;外部总和跨越H和O的J个关节和P的C个肢。Hs,Os和Ps的大小(w′,h′)分别是(w ′,h′)的8倍所有这些都是由于VGG19maxpolngo peration s而产生的。每一天总体目标变为L=Ss=1 (ls+ls +ls)。4.2时态一致性分支为了共同解决多人姿态估计和跟踪的问题,我们通过添加我们的新颖时间网络来增强单图像模型L1H阶段s > 1LSHw′×h′H1w′×h′HSL1OLSOFw′×h′O1w′×h′OsVGG-19L1PLSPw′×h′P1w′×h′PsF学习检测和跟踪7′′′′′′图3.第三章。我们的方法的架构,包括姿势估计和跟踪在一个端到端的方式。MaxPool3D仅在具有步幅s的时间维度中执行池化操作图3. 时间模型将大小为w × h的N个RGB帧作为输入,并产生时间亲和场(TAF)以及热图和部分亲和场作为输出。TAF,像PAF一样,是链接身体部位的矢量场,但与PAF相反,TAF专注于时间链接而不是空间链接。详细地,PAF在帧内连接不同类型的身体部位,而TAF相反地在帧间连接相同类型的身体部位,例如,它们在两个后续帧中连接属于同一个人的头部。实际上,TAF字段是身体部位的运动的代理,并且提供相同身体部位在先前帧中的预期位置,并且可以在先前帧和先前帧两者中使用。用于增强身体部位检测并且用于及时关联身体部位检测。在给定的时间t0,我们的架构取帧It∈Rw×h×3,其中t∈{t0,t−τ,t−2τ,. . .,t-Nτ+1},并将它们推送通过VGG 19特征提取器,如第4.1节所述,以获得N个特征张量ft∈Rw×h×r,其中r是特征张量的通道数。然后将这些张量在时间维度上连接,得到F∈Rw×h×r×N。F被连续地馈送到3D卷积块的级联,这些3D卷积块反过来捕获身体部位特征的时间模式,并通过时间最大池化来提取它们,直到我们实现特征张量F′∈Rw×h×r,图3。如第4.1节所述,特征图通过多分支多级CNN。此外,我们在单图像架构中添加了第四个分支,用于处理TAFs预测。因此,在第一阶段之后,时间信息流到网络的所有分支,并作为身体部分估计(可见和遮挡)和PAF计算。完整的网络目标函数则变为L = ΣS(ls+ ls+ ls+ ls),其中Jw′h′s=1H O P TΣls=Σ ΣM(x,y)⊙(Ts(x,y)−T*(x,y))2(2)不j=1J Jx=1y =1阶段s > 1H1HSf0f1时间链接器O1OsF′VGG-19P1PsfN-1T1Ts= Conv3D n128k3 = MaxPool3D s(2,1,F′...8M. Fabbri等人JJJc和kj,kJ是在e a c h s t age s时,在地面真实值T *和预测值Ts之间计算的损失函数。T=(T1,T2,. . . ,Tj)h作为J向量或场s,在e或e个顶点上,其中hTj∈Rw×h,j∈{1,. . . ,J}。4.3训练过程在训练过程中,我们通过在关键点位置放置一个2D高斯来从注释的关键点坐标生成地面实况热图H*和O*,其方差由关键点到相机的真实度量距离d来与[6]相反,通过使用距离平滑高斯,可以实现与人本身的尺度成比例的不同大小的热图这个过程对于在网络中强制尺度意识和避免多尺度分支的需要特别重要 对于e_x_am,给定在地图H_j,l_e_q_j,k∈R_2处由人k的身体部分j的位置确定的向量。对于每个身体部分j,地面真值H在位置p∈R2的结果:.¨¨2 Σ。ΣH*(p)= maxexpJK¨p−qj,k¨-σ2,σ=expD1 −α(三)其中σ根据每个关节距相机的距离d调节峰值的扩展。在我们的实验中,我们选择α等于20。相反,地面真值部分亲和场P*的每个位置p等于所述单位向量(与肢体的方向相同),如果点p属于肢体。属于肢体的点是在连接该对身体部位的线段的距离阈值内的对于每个帧,地面实况部分亲和场是包含所有人的PAF的平均值的两个通道图像。如前所述,通过将PAF的概念扩展到时间维度,我们提出了新的TAFs表示,其跨多个帧对身体部位的短期管进行编码(如图4所示)。(b))。时间亲和度场是针对每个身体部位的2D向量场,其指向相同身体部位在先前帧中的位置考虑abodypartjofapersonkatframetanddletqt−1anddqt成为他们的土地j,k j,k分别在帧t-1和t处的真值位置如果点p位于路径上在t−1和t之间与身体部位j相交,T*处的值(p)是一个单位从时间t的j指向时间t−1的j的向量;对于所有其他点,向量是零。我们使用用于PAF的相同策略计算了地面实况TAF。4.4时空多人关节关联为了将身体部位连接成骨架,我们考虑了帧级(PAF)和时间级(TAF)两种不同的贡献首先,对关节热图进行非最大值抑制以获得多个人的离散位置集合Dj,其中Dj={dj,m:对于j ∈ {1,. . . ,J},m ∈ {1,. . . ,Nj}},并且Nj是部分j的候选的数量,并且J是关节类型的数量。2学习检测和跟踪9jj12jj12DD(a)(b)第(1)款见图4。(a)不同部件的TAF的可视化:为了清楚起见,我们示出了每个人的单个关节TAF,其中颜色编码方向。(b)在JTA数据集上执行的姿态预测,其区分可见和遮挡关节我们通过定义一个变量zmn来{0, 1}表示两个候选接头dm和dn是有联系的因此,目标是j1j2找到可能连接的集合的最优分配,Z={zmn:对于j1,j2∈ {1,. . . ,J},m ∈ {1,. . . ,Nj1},n ∈ {1,. . . ,Nj2}}。为了达到这个目的,每个候选肢体(即,一对关节)空间地和时间地通过计算沿着PAF,E和TAF,G的线积分:E(d ,d)=∫u=1 PAF(p(u))·¨dj2 -dj1? 中文(简体)j1j2u=0¨dj2 -dj1?G(dj,d(j))=∫u=1 TAF(t(u))·¨dj−dj¨ 中文(简体)u=0d其中,p(u)沿连接两个关节dj2和dj1的直线线性内插位置,t(u)act是在framet−1处和在帧t处的d j处的两个关节dj的算法。然后,我们最大化针对肢体类型c和允许连接的每个子集Zc(即解剖学上合理的连接)的总体关联得分EcΣmaxEc = maxΣ (E(dm,dn)+αE(dm,dn))·zmn,(6)ZcZcm∈Dj1 n∈Dj2j1j2j1j2j1j2Σ受n∈Dj2锰j1j2 ≤1,m∈Dj1Σ和n∈Dj2锰j1j2 ≤1,m∈Dj1哪里dm=argmaxG(dm,db),丹 =argmaxG(dn,dq)(7)j1bJ1j1j1j2qJ2j2j2是帧t-1处的关节,其沿着TAF最大化时间一致性,其中b和q跨越在前一帧处检测到的人的索引。原则上,等式(6)混合了来自当前帧中的PAF的贡献和来自通过等式(6)获得的PAF的贡献。zz2210M. Fabbri等人图五. JTA(顶行)、MOT-16(中间行)和PoseTrack(底行)在前一帧中沿着最佳TAF线扭曲候选关节。为了加速计算,我们通过仅考虑半径的两倍大小的半径内的关节的子集来迭代地最大化等式(6)。在同一个存储器中,保留在前一个框架中的关键字。CΣompleteskeleton sare然后,通过最大化,针对肢类型集合C,E=Cc=1 最大ZcEc.5实验我们在两个不同的环境中进行了实验,无论是在我们的虚拟世界数据集JTA和真实数据。在虚拟世界的情况下,我们评估了所提出的架构的能力,可靠地提取人的关节,并成功地将它们沿时间维度。相反,真实数据实验旨在凭经验证明我们的虚拟世界数据集可以用作训练深度模型的良好代理,并且在何种程度上有必要对真实数据的网络进行微调事实上,我们故意进行了实验,要么没有重新训练网络并进行开箱即用的测试,要么根据真实数据对网络进行微调此外,所有的跟踪实验都没有明确地对目标外观进行建模,而是在提取TAF时仅考虑视觉外观,因此仅用于非常短期的目标关联(即tracklet构建)。5.1JTA实验我们在虚拟世界场景中测试了我们的建议,以评估关节提取精度和跟踪能力。我们从预训练的VGG19权重开始作为特征提取器,我们训练我们的模型端到端,允许特征微调。对于我们随机分割的时间分支学习检测和跟踪11表2.JTA数据集上的检测结果关节检测平均值预处理精度召回F1分数单个图像未发生单个图像+发生完成50.956.359.381.587.992.164.171.877.471.678.483.9[6]美国50.186.355.869.5每个序列分成1秒长的片段。随后,我们均匀地对每个片段进行子采样,获得输入到时间分支的8个帧。训练是使用ADAM优化器进行的,学习率为10- 4,批量大小为16。我们有意地保持批次大小相对较小,因为每个帧在不同的尺度和位置携带大量不同的关节,从而为任务提供可靠的平均梯度。检测实验我们首先执行检测实验,以便量化我们的架构的各个分支的贡献。检测实验评估了人关节的位置和检测度量方面的整体边界框准确性。类似于[19],我们使用PCKh(正确关键点的头部归一化概率)度量,其考虑:如果关节的预测位置在距离真实位置的某个阈值内,则使身体关节被正确定位。表2报告了关节位置的平均精度和边界框检测度量的结果,例如精度、召回率和F1分数,其中交集超过联合阈值50%。我们还消融了我们架构的不同分支为了凭经验测量每个单独分支的贡献(即,闭塞分支和颞分支)。通过观察该表,我们可以确认网络在关节位置精度和检测性能方面都受益于遮挡估计分支的存在。这是由于闭塞关节产生的两种不同的积极影响。第一个是估计/猜测人的位置的机会,即使在视觉上很强的情况下也是如此,第二个是关于最大化身体关节的存在,这极大地简化了它们到骨架中的聚类,从而改进了检测度量结果,图4。(b).此外,颞支通过向关节位置添加短期时间一致性来加强该过程。事实上,结果表明,这提高了性能,导致在场景中存在重叠的人的情况下更准确的关节检测。该改进是由于TAF的贡献,其有助于基于目标方向消除身体关节之间的关联,图4。(一).此外,我们还与[6]进行了比较,[6]在JTA上进行了重新训练,并在2个不同的尺度上进行了测试(因为该方法不处理多个尺度),我们对此进行了积极的评价。[6]中的架构与表2中的Single Image no occ模型相同,唯一的区别是后者已经根据第4.3节使用热图和PAF的距离重新缩放版本进行了训练,并且它处理多个尺度而无需任何输入重新缩放操作。12M. Fabbri等人表3.JTA数据集上的跟踪结果MotaIDF1MtMLFPFNIDsFRAG[36]第三十六话57.457.345.321.7400961038311523615569[36]+ DPM检测31.527.625.341.7800961706621057519069THOPA-net59.363.248.119.4400961036621021415211跟踪实验我们还通过在JTA测试集上进行完整的跟踪实验来测试时间短期检测和人跟踪之间的解纠缠程度。已经进行了实验,通过处理1秒的剪辑与1帧的步幅和关联的目标,使用本地最近的邻居的方法最大化的TAFs分数。如前所述,实验的目的是经验性地验证混合短期跟踪和检测仍然可以提供可接受的整体跟踪性能的主张,即使在采用简单的逐帧关联方法时。其次,当关联算法利用多于单个控制点(例如,多个控制点)时,这确实更明显。通常是边界框下中点),这是跟踪关节组的情况。为此,我们与匈牙利的基线进行了比较(作用于边界框的下中点),[36],输入了我们的检测和检测结果。[12]一个。表3报告了Clear MOT跟踪指标的结果[25]。结果表明,在虚拟世界上训练的网络在跟踪实体方面得分积极,但遭受大量的ID和FRAGS。这种行为的动机是缺乏一个强大的外观模型,能够重新关联的目标后,长时间的闭塞。此外,运动模型是故意简单的,这表明批量轨迹关联过程可以导致更长的轨迹,并减少切换和碎片。5.2在真实数据我们在真实数据上测试了我们的解决方案,目的是评估我们模型的泛化能力及其在真实监控场景中的有效性我们选择采用两个数据集:常用的MOT-16挑战基准[25]和新的PoseTrack数据集[2]。MOT-16 MOT-16 Challenge Benchmark由城市地区的7个序列组成,分辨率从1980× 1024到640× 480不等,总帧数约为5000帧,长度为3.5分钟。该基准测试在视点变化方面表现出很大的挑战,从顶部安装的监控摄像头到街道水平的摄像头,图5。根据基准协议[25],所有结果都以Clear MOT度量表示,并且对于虚拟世界跟踪实验,通过最大化检测之间的TAF分数来关联轨迹。除了闭塞分支外,网络进行了端到端的微调微调是通过考虑地面实况检测和插入一个默认的骨架时,我们的单图像模型得分为假阴性,获得一个自动注释的数据集。学习检测和跟踪13表4. MOT-16基准测试结果(按MOTA评分MotaIDF1MtMLFPFNIDsFRAG[39]第三十九届66.165.134.020.85061559148053093[38个]61.462.232.818.212852566687812008THOPA-net56.029.225.227.991826705940645557[32个]47.246.314.041.62681928567741675[9]第一章46.050.014.643.66895911174731422[4]美国43.945.110.744.46450951756761795[33个]38.842.47.949.181141024529651657表4报告了我们的微调网络与迄今为止最好的已发表的最先进的竞争对手的比较结果我们在表中只包括在线跟踪器,这些跟踪器在基准网站上被称为因果方法。的动机是,我们的方法在低级别执行跟踪,使用TAF,帧的时间关联,因此它配置为在线跟踪器。另外,始终可以将我们的轨迹片段视为中间输出,并通过可能评估附加的高级信息(诸如强外观线索和re-id技术)来执行后续的全局关联。我们的方法在MOTA放置在最高位置方面表现积极。我们观察到一个高的IDS值和FRAG的事实,我们的输出是一个中间步骤之间的检测和长期跟踪。尽管如此,我们注意到,我们故意选择一个平凡的关联方法,不强制任何强连续性的目标轨迹,相反,我们认为,给定的时间一致性的目标检测的结果之间的关联满足短期跟踪应用。 这也是可能的,这要归功于我们使用多个控制点进行关联(即,关节),当对象彼此靠近并且场景混乱时,这些关节实际上是可靠的线索。与[39]和[38]相反,我们的模型没有采用强有力的外观线索进行重新识别。这表明,通过插入一个re-id模块,可以在目标丢失时连接轨道,从而进一步提高性能此外,与[32]相反,我们没有采用复杂的递归架构来编码长期动态。然而,性能是相当的,这表明当跟踪器处理一个看似合理的目标候选者时,即使被遮挡,关联简化以保持后续帧在时间上一致,这确实是我们的TAF分支所做的。图5显示了我们的提案的定性结果。姿势追踪。 PoseTrack数据集是一个用于视频中多人姿势估计和跟踪的大规模基准测试。它包含550个视频,包括大约23,000个注释帧,分别分为292,50,208个视频用于训练,验证和测试。注释包括15个身体关键点位置、唯一的人id和每个人实例的头部边界框。我们在PoseTrack数据集的一个子集上测试了我们的解决方案,这些子集具有类似监视的功能(例如,人们站立,行走等)。我们注意到PoseTack表现出不同的特征w.r.t.监视环境中的目标数量较高,并且14M. Fabbri等人80706050403020100序列号图六、与BBox-Tracking + CPM(在MPII上训练)基线相比,PoseTrack数据集的结果(也用于[19];红/绿线是所选序列的性能平均值,以避免图混乱)相机FoV主要是远FoV。在图6中,我们示出了在PoseTrack序列上的THOPA-net的MOTA和mAP结果(仅使用合成数据进行训练)。 我们使用训练和验证序列,以获得每个序列的结果。结果是令人满意的(见图5),即使网络是单独训练CG数据表明,这可能是一个可行的解决方案,促进研究联合跟踪领域,特别是对于缺少真实联合跟踪数据集的城市场景。6结论在本文中,我们提出了一个庞大的CG数据集的人体姿态估计和跟踪,模拟现实的城市场景。我们的数据集提供的闭塞关节的精确注释使我们能够通过处理闭塞部分来扩展最先进的网络我们进一步整合时间的一致性,并提出了一种新的网络能够共同定位人的身体部位,并将它们在短时间跨度。结果表明,即使只在合成数据上训练,当图像分辨率和清晰度足够高我们相信,所提出的数据集和架构共同构成了一个起点,考虑跟踪监测作为一个独特的过程组成的检测和时间关联,并可以提供可靠的tracklet作为输入的批量优化和re-id技术。致谢这项工作得到了意大利MIUR,教育,大学和研究部的支持,在项目COSMOS PRIN 2015计划201548C5NT下我们也非常感谢松下硅谷实验室和Facebook AI Research的支持,捐赠了用于这项研究的GPU最后,我们感谢Marco Gianelli和Emanuele Frascaroli开发了用于获取JTA数据集的部分mod。mAP mAP(BBox-跟踪+ CPM)MOTA MOTA(BBox-跟踪+CPM)00028000030002604891168831437500436088370879609398142660573214288023640883316165057281540614531237540227607392078550992216496023570506122430068521077300439000980965408803153011285909555037010785122671学习检测和跟踪15引用1. Andriluka,M.,Pishchulin,L.Gehler,P.Schiele,B.:2D人体姿势估计:新基准和最新分析。CVPR(2014)2. Andriluka , M. , 伊 克 巴 尔 , 美 国 , Milan , A.Insafutdinov , E. , Pishchulin ,L.Gall,J.,Schiele,B.:Posetrack:人体姿势估计和跟踪的基准。IEEE计算机视觉和模式识别会议论文集。pp. 51673. Andriluka,M.,Roth,S.,Schiele,B.:通过侦测来追踪人跟踪检测在:计算机视觉和模式识别,2008。CVPR2008。IEEEConferenceo n。pp. 一02The Dog(2008)4. 裴S.H.Yoon,K.J.:基于置信度的数据关联与判别深度用 于 鲁 棒 在 线 多 对 象 跟 踪 的 外 观 学 习 。 IEEE TransactionsonPaternAnalysandMachineIntelligence40( 3),595- 610 (M a r c h 2018) 。https://doi.org/10.1109/TPAMI.2017.26917695. Bulat,A.,Tzimiropoulos,G.:基于卷积部分的人体姿态估计他是一个预备役。 In:EuropeanConferenceonCom up uterVison。pp. 717 -732Springer(2016)6. Cao,Z.,Simon,T.Wei,S.E.,Sheikh,Y.:实时多人2D姿态估计使用部件相似性字段。在:CVPR中。卷1,p.2017年77. 卡雷拉,J.,阿格拉瓦尔,P.,Fragkiadaki,K.,Malik,J.:迭代误差反馈人体位姿估计In:Proceedings of the IEEE conference on computervision and patter nrecog nitio n.pp. 47338. Charles,J.Pfister,T.,Magee,D.,Hogg,D.,齐瑟曼,A.:人性化视 频 姿 态 估 计 In : Computer Vision and Pattern Recognition ( CVPR ) ,2016IEEEConferenceon. pp. 3063 - 3 0 72. IEEE(20 16)9. Chu,Q.,欧阳,W.Li,H.,王,X.,刘,B.,Yu,N.:在线多目标跟踪-使用具有空间-时间注意机制的基于CNN的单对象跟踪器。2017 IEEE国际计算机视觉会议(ICCV)。pp. 4846- 4855(O c t 2017)。 http://doi.org/10。1109/ICC201751810. Dehghan,A.,田,Y.,Torr,P.H.S.,Shah,M.:目标身份感知网络用于在线多目标跟踪的流程。在:2015年IEEE计算机V和P数据恢复会议(CVPR ) 中 。pp.1146-1154 ( 2015 年 6 月 ) 。https://doi.org/10.1109/CVPR.2015.729871811. Feichtenhofer,C.,Pinz,A.,齐瑟曼,A.:检测跟踪和跟踪检测。于:IEEE计算机视觉国际会议,ICCV 2017,威尼斯,意大利,Oc-tober22-29,2017。pp. 3057- 3065(2017)。 https://do i. org/10。1109/ICC2017年。330,https://doi.org/10.1109/ICCV.2017.33012. Felzenszwalb,P.F., Girshick,R.B., McAllester,D. Ramanan,D.: Object de-使 用 区 分 训 练 的 基 于 零 件 的 模 型 进 行 保 护 。 IEEETransactionsonPatternAnalysandMachineIntelligence32(9),1627- 1645(Sep t 2010)。https://doi.org/10.1109/TPAMI.2009.16713. Gkioxari,G.,Toshev,A. Jaitly,N.:使用卷积神经网络的我的工作。 In:EuropeanConfer enceonComuterVision. pp. 728-743 02TheDog(2016)14. Hamid Rezatofighi,S.,Milan,A.张志,Shi,Q.,迪克,A.Reid,I.:联合重新讨论概率数据关联。IEEE计算机视觉国际会议(ICCV)(2015年12月)15. Hu,P.,Ramanan,D.:自下而上和自上而下的层次推理fied高斯。在:IEEE计算机视觉和图像处理会议论文集中。pp. 560016M. Fabbri等人16. Insafutdinov,E.,Andriluka,M.,Pishchulin,L.唐,S.,Levinkov,E.,Andres,B.,Schiele,B.:Arttrack:在野外进行多人跟踪。IEEE计算机视觉与模式识别会议(CVPR)卷4327(2017)17. Insafutdinov,E.,Pishchulin,L.Andres,B.,Andriluka,M.,Schiele,B.:深切:更深、更强、更快的多人姿势估计模型。In:EuropeanCo nfere nceonCom puterVisio n.pp. 34第二章(20 16)18. 伊克巴尔,美国,Gall,J.:基于局部关节-人关联的多人姿态估计Tions. In:EuropeanConfer enceonCom up u t erVisin。pp. 627-642 02TheDog(2016)19. 伊克巴尔,美国,Milan,A. Gall,J.:Posetrack:联合多人姿势估计和跟踪。IEEE计算机视觉和模式识别会议论文集第1卷(2017)20. Izadinia,H., 萨利米岛 李伟, Shah,M.: 2t:多人多部件特 拉 克 河 。 In : EuropeanConferenceonCom up uterVison 。 pp.100-11402TheDog(2012)21. Jain,A.,Tompson,J. LeCun,Y.,Bregler,C.:Modeep:一个深度学习框架使用运动特征进行人体姿态估计。在:亚洲计算机视觉会议上。pp. 302-31
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功