没有合适的资源?快使用搜索试试~ 我知道了~
1基于时空嵌入的多人关节跟踪盛进1、2刘文涛1欧阳万里3、4陈倩11商汤科技2清华大学3悉尼大学4SenseTime计算机视觉研究小组,澳大利亚13{jinsheng,qianchen}@ sensetime.com,liuwtwinter@gmail.comwanli. sydney.edu.au摘要我们提出了一个统一的框架,多人姿态估计和跟踪 。 我 们 的 框 架 包 括 两 个 主 要 组 成 部 分 , 即 。SpatialNet和TemporalNet。SpatialNet在单个帧中完成身体部位检测和具体来说,除了身体部位检测热图之外,SpatialNet 还预测 身体部位关 联的关键点 嵌入(KE)和空间实例嵌入(SIE)。我们把分组过程模拟成一个-(一)柯(b)第(1)款SIE柯西可拼接的姿势引导训练(PGG)模块,使整个零件检测和分组流水线完全可端到端训练。 TemporalNet将关键点的空间分组扩展到人类实例的时间分组。从两个连续的帧中给出人类的提议,他(c)第(1)款贴合铁poralNet利用Hu编码的两种外观特征图像掩模KE KE+PGG人的嵌入(HE)和时间一致的几何特征体现在时间实例嵌入(TIE)中,用于鲁棒跟踪。大量的实验证明了我们提出的模型的有效性值得注意的是,我们在ICCV'17姿态跟踪数据集上展示了比最先进的姿态跟踪方法从65.4%到71.8%的多对象跟踪精度(MOTA)的实质性改进1. 介绍多人关节跟踪的目的是预测每个人的身体部位,并将它们跨时间段关联起来。由于其在视频理解和动作识别等各种应用中的重要性,它激发了许多研究兴趣[5]。近年来,在单帧人体姿态估计方面取得了重大进展[3,9,12,25]。然而,复杂视频中的多人自动化跟踪仍然具有挑战性。视频可能包含不同数量的交互人,这些人具有频繁的身体部位遮挡、快速的身体运动、大的姿势变化和尺度变化。摄像机移动和图1. (a)使用KE或SIE进行位姿估计。SIE可能将单个姿势过度分割成若干部分(列2),而KE可能错误地将远离的身体部分分组在一起(列3)。(b)使用HE或TIE进行姿势跟踪姿态是由预测的轨道id和错误的颜色编码突出TIE对相机缩放和移动不鲁棒(列2),而HE对人类姿势变化不(c)PGG模块的效果。比较PGG之前/之后的KE(列3/4),PGG使得嵌入更紧凑和准确,其中具有相似颜色的像素具有属于同一个人的更高置信度缩放进一步对该问题提出了挑战。姿势跟踪[14]可以被视为一个分层检测和分组问题。在部分级别,身体部位被检测到,并在空间上分组到每个帧中的人体实例中。在人类层面,检测到的人类实例在时间上被分组为轨迹。嵌入可以看作是一种置换不变的实例标号,用来区分不同的实例.具有相似嵌入的身体部位属于同一个人的可能性更高。以前的作品[21]使用Keypoint Em执行关键点分组-56645665寝具(KE)。KE [21]是一组一维外观嵌入图,其中同一人的关节具有相似的嵌入值,而不同人的关节具有不同的嵌入值。然而,由于嵌入空间的过度灵活性,这种表示很难解释,也很难学习[24]。可以说,人类为目标分配id的一种更自然的方式是按照特定的顺序(从左到右和/或从上到下)计数 这启发我们对嵌入空间实施几何排序约束具体来说,我们增加了六个辅助的有序关系预测任务,通过编码几何排序的知识,以更快地最近,空间实例嵌入(SIE)[23,24]被引入用于关键点分组。SIE是一个2-D嵌入图,其中每个像素都用预测的人体中心位置(x,y)编码。图1(a)示出了利用KE或SIE的姿态估计的典型误差模式。SIE可能会将单个姿势过度分割为几个部分(列2),而KE有时会错误地将遥远的身体部位分组在一起(列3)。KE较好地保持了类内一致性,但由于缺乏几何约束,很难由于KE捕捉外观特征,而SIE提取几何信息,它们自然是互补的。因此,我们将它们结合起来,以实现更好的分组结果。在本文中,我们提出了扩展的想法,在一个单一的帧中使用的外观和几何信息的时间分组的人的情况下,姿态跟踪。先前的姿态跟踪算法主要依赖于任务不 可 知 的 相 似 性 度 量 , 诸 如 对 象 关 键 点 相 似 性(OKS)[34,36]和交集大于并集(IoU)[8]。然而,这种简单的几何线索对快速身体运动、姿势改变、相机移动和变焦不鲁棒。对于鲁棒的姿态跟踪,我们扩展了部分级别的空间分组的思想,人类级别的时间分组。具体来说,我们扩展KE到人类嵌入(HE)捕捉整体的外观特征和扩展SIE到时间实例嵌入(TIE)实现时间一致性。直观地说,由HE编码的外观特征对快速运动、相机移动和缩放更鲁棒,而TIE中体现的时间信息对身体姿势变化和遮挡更鲁棒。我们提出了一个新颖的TemporalNet,以享受两个世界的最佳图1(b)展示了使用HE或TIE的姿态跟踪的典型误差模式。HE利用尺度不变的外观特征,其对相机缩放和移动是鲁棒的(列1),并且TIE保持时间一致性,其对人类姿势变化是鲁棒的(列4)。自下而上的姿态估计方法遵循两阶段流水线,以在第一阶段生成身体部位建议,并在第二阶段将它们分组为个体。由于分组主要用于后处理,即:基于图形的优化[11,12,14,16,27]或tic parsing [3,24]中,没有来自分组结果的错误信号被反向传播。相反,我们提出了一个完全可区分的姿势引导训练(PGG)模块,使检测分组完全端到端可训练。我们能够直接监督分组结果,并且分组损失被反向传播到低级特征学习阶段。 这通过更多地关注错误分组的身体部位来实现更有效的特征学习。此外,为了获得准确的回归结果,需要后处理聚类[23]或额外的细化[24]。我们的PGG有助于产生准确的嵌入(见图。(c)第1段。为了提高姿态跟踪的准确性,我们进一步扩展PGG TIE的时间分组。在这项工作中,我们的目标是统一的姿态估计和跟踪在一个单一的框架。SpatialNet在单个帧中检测身体部位,并执行部位级别的空间分组以获得身体姿势。TemporalNet在连续帧中完成人类级别的时间分组,以跨时间跟踪目标。这两个模块共享特征提取层,以进行更有效的推理。主要贡献概述如下:• 对于姿态跟踪,我们将静止图像中的KE和SIE扩展到视频中的人体嵌入(HE)和时间实例嵌入(TIE)。HE捕获人类水平的全局外观特征以避免相机运动中的漂移,而TIE提供更平滑的几何特征以获得时间一致性。• 用于姿态估计和跟踪的完全可区分的姿态引导跟踪(PGG)模块,使检测和分组完全可端到端训练。PGG及其分组损失的引入显著提高了空间/时间嵌入预测精度。2. 相关工作2.1. 图像中多人姿态估计目前的多人姿态估计方法可以分为自顶向下和自底向上两种。自上而下的方法[7,9,34,25]使用边界框定位每个人,然后应用单人姿势估计。它们主要在人类检测器[29]和单人姿势估计器[22,33,20]的选择上有所不同。它们高度依赖于对象检测器,并且可能在混乱的场景、遮挡、人与人的交互或罕见的姿势中失败。更重要的是,自上而下的方法为每个候选人单独执行单人因此,其推理时间与人数成正比,难以实现实时性能。此外,人体检测和姿态估计之间的接口是不可区分的,使得难以以端到端的方式进行训练。自下而上的方法[3、12、27]5666SpatialNetT-第1帧辅助任务热图柯PGG河店特征SIETIE分支SpatialNet特征第T帧辅助任务热图柯TemporalNetPGGSIE孔夫斯孔夫斯图2.我们的姿势跟踪框架的概述检测身体部位候选并将它们分组为个体。基于图切割的方法[12,27]将分组公式化为解决基于图分区的优化问题,而[3,24]利用启发式贪婪解析算法来加速解码。然而,这些自下而上的方法仅使用分组作为后处理,并且来自分组结果的错误信号不被反向传播。最近,已经致力于端到端训练或联合优化。对于自上而下的方法,Xieet al. [35]提出了一种强化学习代理来桥接对象检测器和姿态估计器。对于自下而上的方法,Newellet al. [21]提出了关键点嵌入(KE)来标记实例并通过成对损失进行训练我们的框架是一种自下而上的方法,受[21]的启发[21]以间接的方式监督分组。它训练关键点嵌入描述符以简化后处理分组。但是,没有对分组结果进行直接监督。即使KE的成对损失很低,仍然有可能产生错误的分组结果,但[21]没有对这种分组损失进行建模。相反,我们提出了一个可区分的姿势引导训练(PGG)模块来学习对身体部位进行分组,使整个管道完全端到端可训练,从而在姿势估计和跟踪方面取得了显着改进。我们的工作也与[23,24]相关,其中引入空间实例嵌入(SIE)来辅助身体部位分组。然而,由于缺乏分组监督,它们的嵌入总是嘈杂的[23,24],需要额外的聚类[23]或细化[24]。相反,我们使用PGG和额外的分组损失来学习对SIE进行分组,使其端到端可训练,同时产生更紧凑的嵌入表示。2.2. 多人姿态跟踪最近的多人姿态跟踪工作主要遵循检测跟踪范式,其中首先在每帧中检测人体部位,然后随着时间的推移执行数据关联以形成轨迹。离线姿态跟踪方法考虑到未来的帧,允许更鲁棒的预测,但具有通过利用在滑动的时间窗口内编码的时间上下文基于图分割的方法[11,14,16]将多人姿势跟踪公式化为整数线性规划(ILP)问题并解决时空分组。这种方法通过执行长距离时间一致性来实现复杂视频的竞争性能。我们的方法是一个在线的姿态跟踪方法,这是更快,适合实际应用。在线姿态跟踪方法[6,26,38,34]主要使用二分图匹配将当前帧中的目标分配给现有轨迹。然而,它们只考虑部件级的几何信息,而忽略了全局外观特征。当面对快速姿态运动和摄像机运动时,这种几何跟踪器容易产生跟踪误差。我们建议将SpatialNet扩展到TemporalNet,以捕获HE中的外观特征和TIE中的时间相干性,从而获得更好的跟踪性能。3. 方法如图2所示,我们将姿态估计和跟踪统一在一个框架中。 我们的框架由两个主要部分组成:SpatialNet和TemporalNet。SpatialNet通过身体部位检测和部位级空间分组来处理多人姿势估计它一次处理给定一个帧,SpatialNet同时生成热图、关键点嵌入(KE)、空间实例嵌入(SIE)和几何顺序映射。热图对身体部位位置进行建模。KE对零件级外观特征进行编码,而SIE捕获关于人体中心的几何信息。辅助的几何-序数映射对嵌入空间实施排序约束以促进KE的训练。PGG的使用使KE和SIE都更加紧凑和区分。我们最终通过贪婪解码生成身体姿势建议[21]。TemporalNet扩展了SpatialNet以处理在线人类级别的 时 间 分 组 。 它 由 HE 分 支 和 TIE 分 支 组 成 , 与SpatialNet共享相同的底层特征提取层。给定身体姿势提议,HE分支为每个人类实例提取区域特定嵌入(HE)TIE分支利用时间相干几何嵌入(TIE)。给定HE和TIE作为成对势,解决了一个简单的二分图匹配问题以生成姿态轨迹。3.1. SpatialNet:部分级空间网格在整个论文中,我们使用以下符号。 设p=(x,y)∈R2为图像中的二维位置,pj,k∈R2为人k 的身体部位j的位置。我们使用Pk={pj,k}j=1:J来表示计算复杂度高。美国[8]利用3D Mask R-CNN来改善对身体第k个人。我们使用2D高斯置信度热图来对身体部位进行建模设Cj,k为置信度566722J2J2第k个人的第j个身体部位的热图由Cj计算,k(p)=exp(−p−pj,k2/σ2),对于每个部位,对于辅助训练,我们用顺序损失代替推损失,但保留拉损失(等式10)。(2)相同。图像中的位置p,其中在实验中σ被设置为2条款。在[3]之后,我们取置信度热图的最大值以获得地面真实置信度热图,L辅助=1ΣΣK2′log(1+exp(Ord(m<$·,k−m<$·,k′)))K KI.E. C(p)=maxkC(p).1 ΣΣj j,k+m(p)−m<$第二章(四)检测损失是通过加权距离来计算的关于地面实况置信度热图。J·K王空军j,k·,k2ΣΣLdet=<$C<$(p)−Cj(p)<$2。(一)JP3.1.1带有辅助任务的关键点嵌入(KE)我们遵循[21]为每种类型的身体部位生成关键点嵌入K。然而,这种嵌入表示具有若干缺点。首先,嵌入很难解释[21,24]。第二,由于它过于灵活,没有直接的监督,因此很难学习。为了克服这些缺点,我们引入了几个辅助任务,以促进培训和提高口译。辅助学习的思想[32]在监督学习[28]和强化学习[15]中都表现出了在这里,我们在关键点嵌入表示学习的背景下探索辅助训练。通过辅助训练,我们显式地执行嵌入映射来学习几何序关系。具体来说,我们定义了六个辅助任务:以预测单个图像中人类实例的“从左到右"的L2R、”从右到左“的R2L、"从上到下”的T2B、“从下到上”的B2T、“从远到近”的F2N和“从近到远”的N2F顺序。例如,在“从左到右”的映射中图4(c)(d)(e)可视化辅助任务的一些示例预测。我们看到人类的实例被清楚地安排在相应的-其中Ord ={1,−1}表示人物k和k′的真实顺序。在l2r,r2l,t2b和b2t中,我们通过它们的质心位置对人类物质进行例如,在l2r中,如果第k个人在第k′个人的左边,则Ord = 1,否则Ord = −1。 在f2 n和n2 f中,我们根据头部大小对它们进行排序:pheadtop,k−pneck,k<$2。3.1.2空间实例嵌入(SIE)由于缺乏几何信息,KE在分离实例时有困难为了弥补这一点,我们结合KE与SIE体现实例明智的几何线索 。 具 体 来 说 , 我 们 预 测 密 集 偏 移 空 间 向 量 场(SVF),其中每个2-D向量编码从人体中心到其绝对位置p的相对位移。图4(f)(g)可视化了x轴和y轴的空间矢量场,其相对于其身体中心区分左/右侧和上/下侧。如图3,减去其坐标,SVF可以被解码为SIE,其中每个像素用人体中心位置编码。我们将空间向量场(SVF)表示为Sε,并且SIE由S.我们使用101距离来训练SVF,其中地面真实空间向量是从人中心到每个身体部位的位移几何排序。我们还观察到KE(图)。4(b))和几何序关系映射(c)(d)(e)共享一些类似的模式,这表明KE获得了LSIE1 ΣJ= J·KΣKSj,k)−(pj,k-p·,k )10月1日,(5)几何排序的知识在[21]之后,K使用成对分组损失进行其中pj=1k=1=1p,是人k的中心。LKE =L拉力+L推. 拉损(Eq.(2)计算为·,kJjj,k人类参考嵌入之间的平方距离-丁和每个关节的预测嵌入。推力损失(Eq. 3)在不同的参考嵌入之间计算,其随着参考嵌入的增加而指数地下降到零。嵌入差异。对于通常情况,我们将第k个人的参考嵌入定义为m¯·,k=1jmj(pj,k).3.2. Pose Guided Pushbutton(PGG)模块在现有的自下而上方法[3,23,24]中,检测和分组是分开的。我们将分组过程重新制定为端到端训练的可区分姿势引导训练(PGG)模块。通过直接监督分组结果,获得更准确的估计。L拉力=1J·KΣΣm(pj,k)−m<$·,k<$2.(二)我们的PGG基于高斯模糊均值偏移(GBMS)[4]算法,并受到[17]的启发,该算法最初是为分割而提出的。但是,直接应用-王空军1ΣΣ1在具有挑战性的关节跟踪任务中使用GBMS并不是2理想 时间复杂度为O(n),时间复杂度为O(n56682Lpush=K2Kexp{−(m<$·,k−m<$·,k′)}。 (三)k′n是要分组的特征向量的数量。 直接使用56692i2Σ热图XMax掩模柯SIESIEPGG柯SIESIE例如,我们使用PGG模块对KE和SIE进行了改进,以获得更紧凑和更有区别的嵌入描述符。姿势引导的搜索算法在Alg. 1.一、 KE和SIE首先连接到D ×W × H维特征映射。 然后根据二进制姿态掩码M选择嵌入,并将其整形为X(1)∈RD×N作为初始化,其 中 N 是 M 中 的 非 零 元 素 的 数 量 ,(N<$W×H)。然后将递归均值漂移分组应用于X(1)进行R次迭代。 在每次迭代中,首先用各向同性多元正态核W =exp(−δ2<$x−x<$2),其中核带宽δ为em-Y图3.使用姿势引导的空间关键点分组(PGG)。利用PGG算法可以获得更紧凑、更精确的关键点嵌入(KE)和空间实例嵌入(SIE).算法1姿势引导输入:KE K、SIE S、掩码M和迭代次数R。输出:X1:将K和S串联,通过M掩蔽选择,并重新形状为X(1)∈RD×N。在实验中选择5W∈RN×N可以被 视 为 加 权 邻 接 矩 阵 。 用 一 个 有 限 和 D=diag(W·→1)的对角矩阵进行归一化,其中→1表示一个所有元素的向量一个.然后,我们用归一化的高斯核加权均值更新X,X=XWD−1。经过几次分组细化迭代后,异质对的嵌入变得清晰,同质对的嵌入变得相似。当训练时,我们应用成对的拉/推损失(等式2)。2和3)在分组结果X的所有迭代上。3.3. TemporalNet:人类颞叶2:初始化X=X(1)TemporalNet扩展了SpatialNet以执行人类级别的3:对于r=1,2,···Rdo4:高斯仿射W(r)∈RN×N。 W(r)(i,j)=exp(−δ2<$x(r)−x(r)<$2),<$x(r),x(r)∈X(r).以在线方式进行时间分组形式上,我们用上标t来区分不同的帧。It表示不2ij2ij.Σ在时间步t的输入帧,它包含K人士5:归一化矩阵。D(r)=diagW(r)·→1将SpatialNet应用于It以估计一组姿态Pt=(r+1)(r)(r)。(r)−1{P t,. . . P tt}。TemporalNet旨在按时间分组6:更新。 X= XWD1K7:X=第八章:端X;X(r+1)当前帧中的人类姿态建议Pt与前一帧中的已跟踪姿态 Pt-1 TemporalNet 开 发 了 人 类 级 别 的 外 观 特 征(HE)和TEM,第九章: returnX对整个图像进行GBMS将导致巨大的内存消耗。其次,预测的嵌入总是有噪声的,特别是在背景区域中,在训练期间没有监督可用。如图1的顶行所示。4、背景区域(天花板或地板)存在嵌入噪声。这些不相关区域中的噪声将影响均值漂移分组的准确性。我们提出了一种新的姿势引导的导航模块,以弥补上述缺点。考虑到矩阵的稀疏性(人体部位在图像中只占很小的区域 如图3、我们应用max沿着通道C¯(p)=maxjCj(p),并生成局部相干几何信息(TIE)来计算总姿态相似性。最后,我们通过求解二分图匹配问题,使用姿态相似性作为成对势来生成姿态轨迹。3.3.1人包埋(HE)为了获得人类级别的外观嵌入(HE),我们在[37]的基础上引入了一个特定于区域的HE分支。给定预测的姿态建议,HE分支首先计算人体边界框以覆盖相应的人体关键点。对于每个边界框,ROI对齐池[9]应用于共享的低级特征图,以提取区域适应的ROI特征。ROI特征然后被映射到人类嵌入H ∈R3072。HE是用三重丢失训练的[31],将同一实例的HE拉得更近,并将不同实例的嵌入分开。实例不可知的姿态掩模M∈RW×H,通过阈值化在τ=0处。二、如果C<$(p)>τ,则M(p)为1,否则为0。空间(KE和SIE)和时间(TIE)嵌入都可以通过PGG进行分组将空间分组用于SVFSVF5670LHE=k1=k2k1/=k3max(0,Hk1−Hk22−Hk1−Hk32+α),(六)5671k′k′K·,kj j,kkk′Jj,kj,k′2(一)(b)(c)(d)(e)(f)(g)图4.(a)输入图像。(2)平均值。(c)(d)(e)预测我们使用颜色来表示预测的顺序,其中较亮的颜色表示较高的序号值。(f)(g)分别是x轴和y轴明亮的颜色意味着相对于人体中心的正偏移,而深色意味着负偏移。其中,在实验中,裕度项α被设置为0.3。3.3.2时态实例嵌入为了利用姿态跟踪的时间信息,我们自然地将空间实例嵌入(SIE)扩展到时间实例嵌入(TIE)。TIE分支连接来自两个相邻帧的低级特征、身体部位检测热图和SIE。然后将连接的特征图映射到密集TIE。TIE是一种特定于任务的表示,frame. 我们排除了T的不相关区域,并将其重塑为X(1)∈ RD×N。随后,应用经常性均值漂移分组。再次,额外的分组损失(等式 2,3)用于训练TIE。3.3.3姿势跟踪时间姿态关联问题被公式化为基于二分图的能量最大化问题。然后通过二分图匹配将估计的姿态Pt与先前的姿态Pt-1相一帧的关键点与另一个画面的人类中心 该设计利用了ΣΣz=ar gmax<$Pt,Pt−1·zPt,Pt−1(八)相邻帧中关键点和人之间的互信息,以同时处理遮挡和姿势运动。zPt∈PtPt−1∈Pt−1Σt tkk′kk′S.T. <$Pk∈ P,zP t,Pt−1≤ 1亲切地 具体来说,我们引入双向时间向量场(TVF),分别表示为T和T′。Pt−1∈Pt−1kk′活泼地 正向TVFT_∞编码相对位移且nPt−1∈ Pt−1,Σ zPt,Pt−1≤1,从第(t-1)帧中的人体中心到第t帧中的身体部分,它在时间上传播人体质心Pt∈Ptkk′从第(t-1)帧到第t帧的嵌入。相比之下,Back-其中zPt,Pt−1∈ {0,1}是一个二进制变量,这意味着kk′ward TVFT"表示从当前第t帧如果姿态假设Pt和Pt-1相关联。的kk′身体中心到前一帧中的身体部位。成对势函数表示姿态假设之间的相似性。=λHEJ Kt人级外观相似性和相似性用于时间1吨t t−1铁LTIE=J·Ktj=1k=1<$T(pj,k)−(pj,k−p·,k)<$1平滑度λHE和λTIE是bal的超参数,其中λHE=3,λTIE=1。J Kt−1人类级别的外观相似度计算为1ΣΣˆ′t−1t−1t2+J·Kt−1电子邮件j=1k′ =1(pj,k′)−(pj,k′−p·,k′)<$1,(七)嵌入距离为2:HE= Hk− Hk′2。 和时间平滑项SIETIE被计算为SIES中编码的人体中心位置之间的其中pt=1pt是k时刻的中心和时间传播的TIET,T′。步骤测试。 简单地从绝对位置中减去,我们得到对应的前向TIET和后向TIET′。1ΣJΨ=.<$T′(pt−1)−St(pt)2因此,TIE对时间上传播的人类基因组进行编码。质心同样,我们还扩展了空间分组的想法TemporalNet输出由PGG细化的Forward TIET和Backward TIET′铁2Jj=1j,k′+T(ptj,k2Σ)−St−1(pt−1)<$2、(9)5672独立地以Forward TIET为例,我们使用来自第t个二分图匹配问题(Eq. 8)使用Munkres算法求解以生成姿态轨迹。56733.4. 实现细节继[21]之后,SpatialNet使用4级堆叠沙漏作为其骨干。我们首先在没有PGG的情况下训练SpatialNet。总损失包括Ldet、LKE、Laux和LSIE ,其权重为1:1 e-3:1 e-4:1 e-4。 我们设置了初始-在250 K次迭代后,将学习速率降至2 e-4,并将其降至1 e-5然后我们微调包含PGG的SpatialNet。在实践中,我们已经发现迭代次数R=1是足够的,并且更多的迭代不会导致太多的增益。TemporalNet使用1阶段沙漏模型[22]。在训练时,我们只需固定SpatialNet,然后再训练TemporalNet 40个epoch,学习率为2 e-4。我们从视频剪辑中的范围为5的时间窗口(Δt-t′Δ1≤5)中随机选择一对图像It和It′作为输入。4. 实验4.1. 数据集和评估表1.与现有的单细胞培养ICCV'17 PoseTrack Challenge Dataset上的帧姿态估计方法Mota头Mota守MotaELBMotaWRIMota髋Mota膝MotaAnklMota总[13]第十三话66岁。2六十四2五十三2四十三7五十三051岁641岁7五十三4ProTracker [8]61岁7六十五5五十七3四十五7五十四3五十三1四十五755. 2BUTD2 [16]七十一5七十3五十六3四十五155. 550块8三十七5五十六4[36]第三十六话五十九867岁0五十九851岁6六十岁。0五十八450块5五十八3JoutFlow [6]-------五十九8[34]第三十四话七十三。975. 963岁7五十六1六十五5六十五1五十三5六十五4我们78岁779岁。2七十一261岁174岁569岁。7六十四5七十一8表2.与ICCV'17 PoseTrack Challenge Dataset上的多人姿势跟踪的MS-COCO数据集[19]包含超过66 k张图像,其中包含15万人和170万个标记的关键点,用于图像中的姿势估计。对于MS-COCO结果,我们遵循与[21]相同的train/val分割,其中保留的5006.0e-54.0e-52.0e-55.0e-44.0e-43.0e-42.0e-41.0e-4训练图像用于评估。0.0iters0.0itersICCV0 100K 200K 300K 0 100K200K 300K(a)Push Loss(推式损失图5.关键点嵌入(KE)的学习曲线(或- ange)或无(青色)辅助训练。用于验证的视频序列。评估指标:我们遵循[13]使用AP来评估多人姿态估计和多对象跟踪精度(MOTA)[2]来测量跟踪性能。4.2. 与现有技术方法的比较我们将我们的模型与ICCV'17 Pose- Track验证集上的姿态估计和跟踪方法进行了作为惯例[13],使用来自MPII-Pose [1]和MS-COCO [19]的附加图像10080604020001%百分之二百分之三百分之四百分之五内存成本比率(一)运行时分析(b)第(1)款训练表1展示了我们的单帧姿态估计性能。我们表明,我们的模型达到了国家的最先进的77。0mAP,无需单人姿势优化。表2评估了多人铰接式跟踪性能。我们的模式比州政府更好-最先进的方法。与ICCV'17 PoseTrack Challenge的获胜者ProTracker [ 8 ]相比我们的模型在MOTA中比当前最先进的姿态跟踪器(FlowTrack [34])进一步提高了6.4%,具有相当的单帧姿态估计精度,表明我们的TemporalNet的有效性。4.3. 消融研究我们广泛地评估了我们框架中每个组件的效果表3总结了单帧姿态估计结果,表4总结了姿态跟踪结果。频率21ms16ms0.57ms[第14话]HE店TIE店跟踪算法14700毫123ms110Ms[27]第二十七话[32]第三十二话关联嵌入。[19]SpatialNetN x 34ms161毫姿势跟踪姿态估计方法头守ELBWRI髋膝Ankl总ProTracker [8]69岁。6七十三。6六十岁。0四十九1六十五6五十八3四十六岁。0六十岁。9[36]第三十六话66岁。7七十三。368岁361岁167岁567岁061岁366岁。5BUTDS [16]79岁。1七十七。369岁。9五十八366岁。263岁5五十四967岁85674GBMS内存开销图 6. (a)PGG 和 GBMS 之 间 的 内 存 成 本 比 率 直 方 图 [4]PoseTrack值集上PGG的内存成本。使用实例不可知的姿态掩模,PGG减少内存消耗约1%,即。效率提高100倍。(b)运行时分析。CNN处理时间是在一个GTX-1060 GPU上测量的,而PoseTrack [14]和我们的跟踪算法是在2.4GHz CPU的单核上测试的。N表示帧中的人数,对于PoseTrack val set,平均为5.97对于姿态估计,我们选择[21]作为我们的基线,它提出了空间分组的KE。我们还比较了一种替代嵌入方法[18]的设计合理性。在BBox[18]中,实例位置信息被编码为每个像素处的人类边界框(x,y,w,h)。然后使用预测的边界框将关键点分组为个体。然而,这种表示由于其嵌入空间的大变化而难以学习,从而导致更差的姿态估计精度。5675j,k我是Ke和Sie。KE提供部件级外观线索,而SIE编码人体质心约束。当组合在一起时,获得大的增益(74.0% vs. 70. 9%/71 。 3% ) 。 如 图 5. 添 加 辅 助 任 务(+aux)通过对嵌入空间施加几何约束,大大加快了KE的训练速度。它还促进了表示学习,并略微增强了姿势估计。如表3所示,采用PGG显著提高了姿态估计精度(2. 3%,3。8%,2。两者合计7%)。端到端的模型培训和直接分组监督共同说明了改进。此外,使用实例不可知的姿势掩码,内存消耗显著减少到约1%,如图1B所示。6(a),证明PGG的效率。将KE和SIE与PGG组合,进一步将姿态估计精度提高到77。0% mAP。对于姿态跟踪,我们首先基于KE和/或SIE构建基线跟踪器假设KE和SIE改变头守ELBWRI髋膝Ankl总BBox [18]79岁。375. 6 67岁4六十岁。267岁861岁655. 8 67岁7[21]第二十一话79岁。8七十七。7七十一763岁4七十一466岁。361岁4七十9SIE81. 478岁8七十二1六十四2七十二266岁。861岁7七十一3KE+SIE82岁2八十174岁767岁475. 1 69岁。4六十四674岁0KE+SIE+辅助82岁3八十374岁967岁875. 2 七十1六十五674岁3KE+PGG81. 5八十074岁0六十五8七十三。468岁3六十五0七十三。2SIE+PGG83岁4八十674岁367岁4七十六。0七十一867岁675. 1我们83岁881. 6 七十七。1七十0七十七。474岁5七十8七十七。0表3. ICCV'17 PoseTrack验证集上单帧姿态估计(AP)的消融研究。AUX表示具有几何顺序预测的辅助训练。我们的(KE+SIE+aux+PGG)将KE+SIE+aux与PGG相结合,以实现精确的姿态估计。tt+1在连续帧中平滑地,K(pj,k)≠ K(pj,k),并且tj,k)S(pt+1). 令人惊讶的是,如此简单的表4.多人关节跟踪的消融研究Tracker已经实现了具有竞争力的性能,感谢KE和SIE中包含的丰富几何信息。由于结合了HE的整体外观特征和TIE的时间平滑性,采用TemporalNet进行跟踪最后,结合空间-时间PGG来细化KE、SIE和TIE , 进 一 步 提 高 跟 踪 性 能 ( 69. 2% 对 71 。8%MOTA)。我们还比较了一些广泛使用的替代跟踪指标,即对象关键点相似性(OKS),人员的跨联盟(IoU)和深度匹配(DM)[30],以进行设计论证。我们发现Tempo- ralNet在与任务无关的跟踪指标上明显优于其他跟踪器。OKS只使用关键点来处理遮挡,而IoU和DM只在处理快速动作时考虑人。相比之下,我们是一石二鸟。MS-COCO结果。我们的SpatialNet在MS-COCO数据集上的单帧姿态估计上大大改进了我们的基线[21]。为了公平比较,我们使用与[21]相同的train/val分割进行评估。表5报告了单尺度(sscale)和多尺度(mscale)结果。四种不同的比 例 {0. 五 一 一 5 , 2} 用 于 多 尺 度 推 理 。 我 们 的sscaleSpatialNet已经达到了与mscale基线相比具有竞争力的性能。通过多尺度推理,进一步得到了3%AP的显著改进。所有报告的结果都是在没有模型集成或姿态细化的情况下获得的[3,21]。4.4. 运行时分析图图6(b)分析了姿态估计和跟踪的运行时性能对于姿态估计,我们将与ICCV'17 PoseTrack验证集。 Ours(HE+TIE+PGG)com-将HE+TIE与PGG分组结合,以实现稳健的跟踪。APAP. 50AP. 75APMAPL关联嵌入。[21](sscale)0的情况。5920的情况。8160的情况。6460的情况。5050的情况。725关联嵌入。[21](百万分之一)0的情况。6540的情况。8540的情况。7140的情况。6010的情况。735我们的(sscale)0的情况。6500的情况。8650的情况。7140的情况。5700的情况。781Ours(mscale)0的情况。6800的情况。8780的情况。7470的情况。6260的情况。761表5. MS-COCO数据集子集上的多人姿态估计性能。mscale表示多尺度测试。自上而下和自下而上的方法[21]。自上而下的姿态估计器使用更快的RCNN [29]和基于ResNet- 152 [10]的单人姿态估计器(SPPE)[34]。由于它独立地估计每个人的姿势,因此运行时与人数成比例地增长。与[21]相比,我们的SpatialNet在有限计算复杂度的增加下显著提高了姿态估计精度。对于姿态跟踪,我们与基于图切割的跟踪器(PoseTrack [14])进行了比较,并显示了TemporalNet的效率。5. 结论我们提出了一个统一的姿态估计和跟踪框架,该框架由SpatialNet和Tem- poralNet组成:SpatialNet处理身体部位检测和部位级别的空间分组,而TemporalNet完成人体实例的时间分组。我们建议扩展KE和SIE在静S(pMota头Mota守MotaELBMotaWRIMota髋Mota膝MotaAnklMota总OKs六十岁。1六十岁。4五十四5四十七1五十八4五十七0五十三7五十六2IOU62. 563岁6 五十四3四十五5五十九3五十三6四十八655. 8DM [30]62. 9六十四0五十四6四十五7五十九6五十三8四十八7五十六1柯七十二9七十三。3六十四655. 068岁763岁0 五十八5六十五7KE+SIE75. 4七十六。167岁0 五十七1七十9 六十四4五十九467岁7他七十六。0七十六。467岁7 五十八1七十一7六十五4六十岁。568岁55676态图像中的HE外观特征和TIE时间一致的几何特征,在视频中进行鲁棒的在线跟踪。提出了一个有效的和高效的姿态引导的学习模块,以获得完整的端到端学习的姿态估计和跟踪的好处5677引用[1] Mykhaylo Andriluka,Leonid Pishchulin,Peter Gehler,and Bernt Schiele. 2D人体姿态估计:新的基准和最先进的 分 析 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),2014。7[2] 肯尼·贝尔纳丁和雷纳·施蒂费尔哈根。评估多个对象跟踪性能:明确的MOT指标。EURASIP Journal on Image and Video Processing ,2008。7[3] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分仿射场的实时多人2d姿态估计。在IEEE计算机视觉和模式识别会议(CVPR),2017年。一二三四八[4] 米格尔·A Carreiraperpinan。非参数聚类的广义模糊均值漂 移算 法。在 IEEE计算 机视 觉和模 式识 别会议(CVPR),2008年。四、七[5] Guilhem Cheron 、 Ivan Laptev 和 Cordelia Schmid 。 P-cnn : 用 于 动 作 识 别 的 基 于 姿 势 的 cnn 特 征 。IEEEInternationalConferenceonComputerVision(ICCV),2015年。1[6] Andreas Doering,Umar Iqbal,and Juergen Gall. 联合流:用于多人跟踪的时间流场。arXiv预印本arXiv:1805.04596,2018。三、七[7] 方浩书,谢淑琴,卢策武。Rmpe:区域多人姿势估计。arXiv预印本arXiv:1612.00137,2016年。2[8] Rohit Girdhar、Georgia G
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 最优条件下三次B样条小波边缘检测算子研究
- 深入解析:wav文件格式结构
- JIRA系统配置指南:代理与SSL设置
- 入门必备:电阻电容识别全解析
- U盘制作启动盘:详细教程解决无光驱装系统难题
- Eclipse快捷键大全:提升开发效率的必备秘籍
- C++ Primer Plus中文版:深入学习C++编程必备
- Eclipse常用快捷键汇总与操作指南
- JavaScript作用域解析与面向对象基础
- 软通动力Java笔试题解析
- 自定义标签配置与使用指南
- Android Intent深度解析:组件通信与广播机制
- 增强MyEclipse代码提示功能设置教程
- x86下VMware环境中Openwrt编译与LuCI集成指南
- S3C2440A嵌入式终端电源管理系统设计探讨
- Intel DTCP-IP技术在数字家庭中的内容保护
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功