没有合适的资源?快使用搜索试试~ 我知道了~
6951单级多人姿势机器聂学诚1冯佳石1张建锋1闫水成1、21新加坡国立大学电子与计算机工程系2依图科技niexuecheng@u.nus.eduelefjia@nus.edu.sgyitu-inc.cnelezji@nus.edu.sg摘要多人姿态估计是一个具有挑战性的问题。现有的方法大多是基于两阶段的一个阶段用于提议生成,另一个阶段用于将姿势分配给相应的人。然而,这种两阶段方法通常效率低 在这项工作中,我们提出了第一个单阶段模型,单阶段多人姿态机(SPM),以简化管道和提高效率的多人姿态估计。为了实现这一点,我们提出了一种新的结构化姿态表示(SPR),统一的人的实例和身体关节位置表示。基于SPR,我们开发了SPM模型,可以直接预测结构化的构成多个人在一个阶段,从而提供了一个更紧凑的管道和两阶段的方法有吸引力的效率优势。特别地,SPR引入根关节以指示不同的人实例,并且人体关节位置被编码成它们的位移w.r.t.树根为了更好地预测一些关节的长程位移,SPR进一步扩展到层次表示。基于SPR,SPM可以通过CNN同时预测根关节(实例的位置此外,为了证明SPM的通用性,我们还将其应用于多人三维姿态估计 。 对 基 准 MPII 、 扩 展 PASCAL-Person- Part 、MSCOCO和CMU Panoptic的综合实验清楚地表明了SPM用于多人2D/3D姿态估计的最新效率以及出色的精度。1. 介绍从单个单目RGB图像的多人姿态估计旨在同时分离和定位多个人实例的身体关节。这是一项基本但具有挑战性的任务,广泛应用于动作识别[7],人员Re-ID[32],行人跟踪[2]等。现有方法通常采用两阶段解决方案。如图1(b)所示,它们要么遵循顶部-图1.比较(a)我们的单阶段解决方案和(b)现有的多人姿势估计的两阶段解决方案。所提出的SPM模型直接预测多个人在一个阶段的结构化构成,提供了一个更紧凑的管道和有吸引力的效率优势,两个阶段的自上而下或自下而上的战略。更多细节见正文。向下策略[12,35,17,9,8,34],采用现成的检测器首先定位人实例,然后单独定位其关节;或自下而上的策略[3,16,26,31,25],首先定位所有身体关节,然后将它们分配给相应的人。虽然具有高精度,但这些方法效率不高,因为它们需要两阶段处理来预测具有计算冗余的人体姿势。我们观察到,这种要求主要来自于他们所采用的传统姿势表示。如图2(b)所示,所分配的身体关节的绝对位置将位置信息w.r.t.人实例和身体关节,每个都需要一个阶段来处理,导致效率低下。6952PPB我我 我 我我P我我我为了克服这种固有的局限性,我们提出了一种新的结构化姿态表示(SPR),以统一的位置信息的人的实例和身体关节。SPR允许简化用于人分离和身体关节定位的流水线,并且因此实现对多人姿态估计的更有效的单级特别地,SPR为每个人实例定义唯一身份关节(根关节)以指示其在图像中的位置。然后,身体关节的位置由它们的位移w.r.t.编码。根关节。以这种方式,人实例的姿势与其位置一起表示,如图2(c)所示,使得单阶段解决方案可行。为了解决长距离位移(例如肢体关节),我们通过将身体关节划分为由关节运动学引起的层次来进一步将SPR扩展为层次结构[20]。图2(d)中示出了这样的分层结构化姿态表示。基 于 SPR 算 法 , 提 出 了 一 种 单 级 多 人 姿 态 机(SPM)模型来解决多人姿态估计问题,该模型流水线紧凑,效率高如前所述,现有的两阶段模型隔离不同的物体并分别估计它们的姿态。与它们不同的是,SPM以单阶段的方式将给定图像映射到由SPR表示的多个人体姿势。如图1(a)所示,它同时回归根关节位置,图2.图像(a)中的多个人物的不同姿态表示。(b)传统的姿态表示,每个关节由绝对坐标表示(c)建议的结构化姿态表示w.r.t.根节(d)提出的分层结构化姿态表示。更多细节见正文。接头.传统上,姿势被表示为关节和身体关节位移,预测多人。12KN在一个阶段内。我们基于最先进的沙漏架构[27]使用卷积神经网络(CNN)实现SPM,用于同时和端到端地学习和推断根关节位置和身体关节位移。在基准MPII [1]、扩展PASCAL-Person-Part [38]、MSCOCO [23]和CMU Panoptic [19]上的综合实验明显证明了所提出的SPM模型的高效性。此外,它在MPII和扩展的PASCAL- Person-Part数据集上实现了新的最先进技术,并在MSCOCO数据集上实现了具有竞争力的性能。此外,它也取得了可喜的成果CMU Panoptic数据集的多人3D姿态估计。本文的主要贡献如下:1)首次提出了多人2D/3D姿态估计的单阶段2)提出了一种新的结构化姿态表示方法,以统一人体实例和人体关节的位置信息3)我们的模型在多个基准测试中以具有竞争力的准确性实现了超越2. 背景在本节中,我们回顾了基于传统姿态表示的最先进的多人姿态估计方法给定图像I,多人姿态估计的目标是通过推断他们的身体坐标来估计I中的所有个人实例的人姿态P= Pi,Pi,. . . ,Pii=1,(1)其中N是I中的人数,K是关节类别的数量,并且Pj表示来自人i的第j个身体关节的坐标,其中对于2D情况,Pj=(xj,yj),而对于3D情况,Pj=(xj,yj,zj)。为了获得,现有的方法通常采用两阶段解决方案,即分别预处理,指示人实例及其身体关节的位置。根据处理顺序,可分为两类:自上而下的方法和自下而上的方法自上而下的方法生成多个人体姿势如下它首先使用人检测器f来定位和分离人实例,然后使用单人模型g来进行单人姿势估计,以单独地定位每个人实例的身体关节。从形式上讲,该过程可以总结为f:I→ B,(2)g:B,I→P′。这里表示通常由一组边界框表示的人物实例定位结果。遵循这种策略,对于2D情况,Gkioxari等人。 [12]利用广义Hough变换框架来检测人的实例,然后通过分类pose-let(具有相似外观和配置的紧密聚集的身体部位)来定位身体关节Iqbal和Gall [17]通过利用深度改进了人检测器和单人模型6953P我我JC基于学习的技术,包括Faster-RCNN [33]和卷积姿势机[37],以获取更准确的人体姿势。类似地,Fang等人。 [9]提出将空间Transformer网络[18]和沙漏网络[27]结合起来,以进一步改进人实例和身体关节检测。帕潘德里欧等人。[29]通过预测的位置细化进一步改进了自上而下的策略,用于多人姿态估计。特别是,SPR引入了一个辅助关节,根关节,表示人的实例位置。它是特定人员实例的唯一身份关节为了简化,我们给出了2D情况下的SPR公式,通过用3D坐标代替2D坐标,可以直接推广到3D情况。具体地,我们使用(xr,yr)来表示我我从像素到对应关节对于3D情况,Rogez [34]首先利用区域建议网络来检测感兴趣的人,并为每次检测找到3D锚点姿势,然后利用迭代回归进行细化。Dong [8]对来自多个视图和重建的图像进行了自上而下的多人第i个人的根关节位置那么,人i的第j个关节可以被定义为(xj,yj)=(xr,yr)+(δxj,δyj),(4)其中(δxj,δyj)表示第j个我我从多视图2D姿势中为每个人构建3D姿势相比之下,为了获得姿势,首先使用自底向上的方法,利用身体关节估计器g′来定位所有实例的身体关节,然后通过用模型f′求解图划分问题来估计每个实例的位置和关节分配,公式为g′:I→J,C车身关节位置相对于根关节。等式(4)直接建立人的站立位置和身体关节位置之间的结构化关系。因此,我们使用结构化姿势表示来表示具有根关节位置和身体关节位移的人类姿势,公式化为.rr1122KKNP=(x,y),(δx,δy),(δx,δy),. . .,(δx,δy).f′:J,C→P′,(三)我我i ii=1(五)其中表示联合候选者的集合和用于将联合候选者分配给人实例的亲和度。在[16]中,Insafutdinov等人 利用残差网络[14]作为关节检测器,并定义用于分配身体关节的几何相关性,然后执行整数线性规划来划分关节候选者。Cao等人 [3]提出了一种具有改进的关节相关性的实时模型,该模型后来,Mehta [25]将[3]扩展到多人3D姿态估计。Newell和Deng [26]介绍了关联嵌入模 型 , 随 后 是 用 于 分 配 身 体 关 节 的 贪 婪 算 法 。Papandreou等人。 [28]通过定义不同级别的偏移量来计算关联分数并调整联合位置以将联合候选人分组为人物实例并改进姿势估计,从而提出了自下而上的PersonLab模型。与依赖于两阶段流水线的所有先前方法不同,我们提出了一种新的姿态表示方法,该方法统一了人实例和身体关节的位置,从而实现了对多人2D/3D姿态估计的紧凑且有效的单阶段解决方案,如下所述。3. 结构化姿态表示在本节中,我们详细介绍了用于多人姿态估计的结构化姿态表示(SPR)。不同于等式(1)中的常规姿态表示(1),SPR旨在统一每个实例和身体关节的位置信息,以提供单级解决方案根据Eqn中的定义(5)、SPR统一位置信息,的人的实例和身体关节,并可以在一个有效的单阶段预测获得。此外,SPR可以毫不费力地转换回传统的姿态表示的基础上Eqn。(四)、在这里,我们利用人的质心作为根关节的人的实例,由于它的稳定性和鲁棒性,即使在极端的姿态歧视的人的实例。图2(c)中显示了代表多个人体姿势的SPR示例方程中的分层SPRSPR(5)可能涉及由于可能的大姿态变形而引起的身体关节和根关节之间的长距离位移,例如,手腕和踝关节相对于人体质心的运动,给通过从图像表示到矢量域的映射进行位移估计带来困难。因此,我们建议将长距离位移分解为累积的较短位移,以进一步改善SPR。具体而言,我们根据根关节和身体关节的自由度和变形程度,基于关节运动学[20]将其分为四个层次。这里,根关节被放置在第一层次中;第二类为躯干关节,包括颈、肩、髋关节;头、肘和膝放在第三个;手腕和脚踝放在第四个。然后,我们可以通过相邻层次中关节之间的较短范围位移来识别关节位置。例如,手腕位置可以通过其相对于肘部的位移来编码。对短距离位移进行建模可以减轻从图像表示映射到矢量域的学习困难形式上,对于第l层中的第j个接头(例如,第4层中的腕部)及其对应的第j′6954H我我我我我我我我我我我我我我我i=1我 我我我我我我H{}我我--第(1- 1)层中的接头(例如,第三层的肘部),j j j′j′它们的位置(xi,yi)和(xi,yi)之间的关系可以配制成jjj′j′ j j(xi,yi)=(xi,yi)+(δxi,δyi),(6)其中(δx<$j,δy<$j)表示接头之间的位移我我在相邻的层次结构中。 根据铰接牛的说法-matics,我们可以定义一个连接路径(一组有序的关节),将根关节连接到任何身体关节。然后,可以通过根关节位置和沿关节路径的短程位移的累积来识别身体关节。即图3.拟议SPM的回归目标(a)根关节的置信图。(b)身体关节的密集置换贴图。(xj,yj)=(xr,yr)+Σ(δxh,δyh),(7)h∈Hj\{r}简化的情况。对于3D情况1,相同的方案可以可以用3D坐标进行开发。4.1. 回归目标哪里j=r,a(1),. . . a(m),j表示根关节和第j个身体关节之间的铰接路径,a(n)表示路径上的第n个铰接关节。以这种方式,我们提出了分层结构化姿态表示来表示具有根关节位置、相邻分层之间的短程身体关节位移和铰接路径集合H的人类姿态,.rr1122KKNP= ( x , y ) , ( δxθ , δyθ ) , ( δxθ ,δyθ),. . . ,(δx,δy)、给出(八)类似于SPR,在等式11中定义的分级SPR。(8)还统一了人实例位置和身体关节位置的表示,从而导致多阶段的单阶段解决方案由 于 根 节 点 ( xr , yr ) 和 体 节 点 位 移 ( δx1 ,δy1),(δx2,δy2),. . . ,(δxK,δyK)分别在坐标域和向量域,我们构造了不同的回归目标,使SPM学习预测这两种信息。根关节位置的回归目标根据先前的工作[4,31],难以直接回归图像中的绝对关节坐标。为了可靠地检测根关节位置,我们利用置信图来编码图像中每个位置处的人实例的根关节的概率。通过将根关节位置建模为高斯峰来构造根关节置信图我们使用Cr表示根联合置信度图,并且Cr表示第i个人的根联合图。用于位置人物姿态估计。此外,分层SPR分解了根关节和远距离身体关节之间的位移,有利于情况下的估计结果在给定图像I中,Ci(x,y)通过下式计算:Cr(x,y)=exp(−<$(x,y)−(xr,yr)<$2/σ2),我具有大的身体关节位移。 分层SPR可以i i 2也可以很容易地转换为SPR和传统的姿态表示,其中(xr,yr)是通过Eqn表示(七)、图2(d)给出了用于多人姿态表示的分层SPR的示例。4. 单级多人姿态机利用SPR,我们提出构建一个回归模型,称为单阶段多人姿态机(SPM),以将输入图像I映射到多个人P的姿态:SPM:I→ P,(9)其以单级方式处理多人姿态估计问题。不同于方程中的两阶段解。(2)和(3),SPM只需要学习单个映射函数。 由于最近的成功,第i个人实例,σ是根据经验选择的常数为了控制高斯分布的方差,在我们的实验中设置为σ=7 根关节置信图Cr是单个图中所有人的峰值的聚集。这里,我们选择取置信图的最大值而不是它们的平均值来保持附近峰值之间的区别[3],即, Cr(x,y)=maxiCr(x,y)。 根关节置信图的示例如图3(a)所示。身体关节位移的回归目标我们为每个关节构造了一个密集的位移图。 我们用Dj表示关节j的它,用Dj表示人i的关节j的它。对于图像I中的位置(x,y),通过下式计算Dj(x,y):.计算机视觉中的卷积神经网络(CNN)任务[14,22,24],我们用CNN模型实现SPM。Dj(x,y)=(δx,δy)Z如果(x,y)∈ Nr0否则下、6955面我们将描述回归目标,网络架构,2D中SPM的结构、训练和推理细节1我们将摄像机位置设置为3D坐标系的原点。6956我LLL(C(t),D),我我 我 2我 我·(δx,δy)=(xj,yj)−(x,y),我我.Σ其中Nr=(x,y)|<$(x,y)−(xr,yr)<$2≤τ表示人i的根关节的第n个相邻位置,Z=H2+W2是归一化因子,其中H和W“我”是“我”,“我”是“我”,“我”是“我”。在我们的实验中设置为7的邻域大小。然后,我们将第j个关节的密集位移图Dj定义为所有人的平均值:图4. SPM的骨干:沙漏网络。Dj(x,y)=1MJΣDj(x,y),我平衡两种损耗的定权系数,设为β=0。01在我们的实验中SPM的总体框架其中,Mj是所有人在位置(x,y)处的非零向量的数量。图3(b)示出了构造的密集位移图的示例。对于分层SPR,以类似的方式构造Dj,仅用相邻分层中的根关节替换根关节。可以通过梯度反向传播进行端到端训练。SPM预测SPR如图1(a)所示对于给定的图像,SPM首先生成根联合置信度图C_(?)r和位移图通过CNN。然后,它在C语言上执行NMS以生成. rrN4.2. 网络架构我们使用沙漏网络[26],这是用于人体姿势估计的最先进架构,作为SPM的骨干。它是由多个堆叠的沙漏模块组成的完全卷积网络。如图4所示,每个沙漏模块采用U形结构,该结构首先降低特征图分辨率以学习抽象语义表示,然后对特征图进行上采样以进行身体关节定位。此外,在具有相同分辨率的特征图之间添加跳过连接,以重用低级空间信息来细化高级语义信息。在原始设计中,沙漏网络利用单个分支来预测身体关节置信度图以用于单人姿势估计。在本文中,SPM利用沙漏网络的置信回归分支来回归根关节的置信图。此外,SPM通过添加位移回归分支来扩展沙漏网络,以估计身体关节位移图。以这种方式,SPM可以在单个前向通过中产生(分级)SPR。4.3. 训练和推理对于训练SPM,我们分别对根联合置信度和密集位移映射回归采用102损失C和平滑101损失[11]D所有沙漏模块均采用中间监控,以避免梯度消失-ing. 总损失L是所有沙漏模块的LC和LD的加权和的累积根关节位置(xi,yi)i=1,其中N表示es-估计人数。在那之后,SPM得到了dis-通过ZDj(x<$r,y<$r)放置人i的身体关节j。最后,SPM通过结合根关节位置和身体关节位移输出由SPR表示的人体姿态。 为了预测分级SPR,SPM遵循上述过程以根据方程11中的关节分级顺序地获得关节位移。(七)、5. 实验5.1. 实验装置我们在三个广泛采用的2D基准上评估了用于多人姿势估计的SPM模型:MPII [1]数据集,扩展PASCAL-Person- Part [38]数据集和MSCOCO [23]数据集,以及一个3D基准CMU Panoptic数据集[19]。MPII数据集包含5,602组多人图像,其中3,844组用于训练,1,758组用于测试。它还提供了超过28,000个带注释的单人姿势样本。每个人都有16个身体关节。我们使用官方平均精度(mAP)来评估该数据集 。 扩 展 的 PASCAL-Person-Part 数 据 集 由 从 原 始PASCAL-Person-Part数据集[5]收集的1,716个训练图像和1,817个测试图像组成,与MPII类似,该数据集也采用mAP作为评估指标。MSCOCO数据集包含大约60,000张训练图像,每个人有17个注释的身体关节评价是根据ΣT .L=t=1Cr(t),Cr)+βLD(Dε)test-dev子集,包括大约20,000张图像,以官方的平均精度(AP)为指标。CMU Panoptic是提供3D姿态的大规模数据集其中T是沙漏模块的数量,设置为T=8,用于参与社交活动的多个人的注释它r(吨)和D* (t)表示预测的根联合置信度图总共包括65个带有多视图注释的视频,但和稠密位移图在第t阶段,β是一个只有17个是在多人的情况下,并给予C6957×−×摄像机参数我们在实验中使用这17个视频的前视图捕获,其中总共包含75,552个图像,并随机分为65,552个用于训练和10,000个用于测试。我们遵循惯例[25,34],使用150 mm处的3D-PCK作为公制。数据增强我们遵循传统的多人姿态估计数据增强策略,通过裁剪以人质心为中心的原始图像,384 384输入样本到SPM。对于MPII和扩展的PASCAL-Person-Part数据集,我们增加了训练样本,表1.在MPII数据集(mAP)的完整测试集上与最先进技术进行比较。方法头Sho. Elb. Wri.髋膝关节总时间[s]伊克巴尔和高尔[17] 58.4 53.9 44.5 35.0 42.2 36.7 31.1Insafutdinov等人 [16] 78.4 72.5 60.2 51.0 57.2 52.0 45.4Levinkov等人 [21]89.8 85.2 71.8 59.6 71.1 63.0 53.5Insafutdinov等人 [15] 88.8 87.0 75.9 64.9 74.2 68.8 60.5Cao等人 [3]91.2 87.6 77.7 66.8 75.4 68.9 61.7Fang等 [9]88.4 86.5 78.6 70.4 74.4 73.0 65.8纽厄尔和邓[26] 92.189.3 78.9 69.8 76.2 71.6 64.7Fieraru等人 [10]91.8 89.5 80.4 69.6 77.3 71.7 65.5SPM(我们的)89.7 87.480.4 72.4 76.774.9 68.378.5 0.058旋转度数为[−40<$,40<$]的ples,比例因子在[0. 七,一。3],平移偏移在[40 px,40 px]和水平-zontally翻转。 对于MSCOCO数据集,缩放因子在[0.五一5]和其他增强参数的设置与MPII和扩展PASCAL-Person-Part数据集相同。对于CMU Panoptic数据集,我们使用[0. 九,一。5],并将其他增强参数设置为与2D情况相同。表2.MPII验证数据集(mAP)上的消融实验方法头Sho. Elb. Wri. 髋膝关节总时间[s]SPM-香草91.7 87.5 76.1 65.2 75.271.4 60.3七十五点三0.058个单位SPM-Hierar92.0 88.5 78.6 69.4 77.773.8 63.9七十七点七0.058个单位0.780.770.76执行对于MPII数据集,我们随机选择0.7515 10 15 20以350组多人训练样本为例,dation数据集,并使用剩余的训练样本和所有单人姿势图像来学习SPM。对于MSCOCO数据集,我们使用标准的训练分割来训练模型。按照多人姿势估计的惯例[3 , 37 我 们 使 用 Pytorch [30] 实 现 SPM , 并 使 用RMSprop [36]作为优化器,初始学习率为0.003。对于MPII数 据 集, 我 们 训练 SPM 250 个epoch , 并 在第150,170,200,230个epoch将学习率降低2倍。对于扩展的PASCAL-Person- Part数据集,我们对在MPII上预训练的模型进行了30个epoch的微调。对于MSCOCO数据集,SPM被训练了100个epoch,学习率在第30、60和80个epoch下降了2倍。对于CMU Panoptic数据集,我们采用与MPII相同的训练策略测试是在六尺度图像金字塔上进行的,两个数据集都有翻转。特别地,我们遵循以前的工作[3,26],使用在MPII和MSCOCO上的相同数据集上训练的单人模型来细化估计结果。5.2. MPII数据集在表1中,我们将具有分层SPR的SPM模型与MPII数据集2的完整测试分割的最新技术进行了比较。我们可以看到2对于我们的SPM模型,时间是在GPU TITAN X和CPU Intel I7-5820 K 3.3GHz上进行单尺度测试的,不包括单人姿势估计的细化时间。对于[ 26 ]上的时间评估,我们报告运行时,其中包含作者在链接中提供的代码:https://github.com/umich-vl/pose-ae-train。对于[3]的运行时间,我们参考其在MPII测试集上的单尺度推理设置的速度,可以在[3]的第1版的表1中找到。图5.对构造人体关节位移回归目标的邻域大小超参数τ进行了分析。我们的SPM模型仅需要0.058秒来处理图像,比具有最先进速度的自底向上模型[26]快约5秒,验证了所提出的单阶段解决方案相对于用于多人姿势估计的现有两阶段解决方案此外,我们的SPM模型达到了新的最先进的78。5%mAP的MPII数据集上,并提高了大多数类型的身体关节的精度,这表明它的优越性能,在一个单一的阶段,估计多个人的人体姿势。消融分析我们对MPII验证数据集进行消融分析。我们首先评估了层次划分对SPR的影响。结果示于表2中。我们使用SPM-Vanilla和SPM-Hierar分别表示用于预测SPR和分层SPR的模型。我们可以看到SPM-香草达到75。3%mAP,每个图像0.058秒。通过引入联合层次结构,SPM-Hierar将性能提高到77. 7%的mAP,而不增加时间成本,因为SPR和分层SPR具有相同的复杂性,并且它们都是由SPM以单阶段方式生成此外,我们可以看到SPR-Hierar提高了所有关节的精度。此外,我们还可以看到,SPM-Hierar对远程身体关节手腕和脚踝的改善是显着的,从65。2%至69。4%mAP和60. 3%至63。9%mAP,分别验证了使用分层SPR缩短长距离位移的有效性,分层SPR将身体关节分为不同的43.1 1059.548570.6-74.3-75.6 0.676.7 0.477.5 零点二五地图6958×表3.扩展PASCAL-Person-Part数据集(mAP)测试集与最新技术的比较方法头Sho. Elb. Wri. 髋 膝关节总陈和尤耶[6]45.334.6 24.8 21.7 9.88.6 7.721.8Insafutdinov等人[16个]41.539.3 34.0 27.5 16.321.3 20.6二十八点六Xia et at. [38个]58.052.1 43.1 37.230.8 31.1三十九点二SPM(我们的)65.460.8 50.2 47.7 29.035.334.646.1等级制度这些结果清楚地显示了结合分层SPR以提高多人姿态估计的性能和效率的功效。然后,我们进行实验以分析重要的超参数τ(第4.1节中构造身体关节位移的回归目标的邻域大小)对所提出的SPM模型的影响。我们将τ的范围从1到20,结果如图5所示。从图5中,我们可以看到τ从1增加到7逐渐提高了性能,主要是因为随着正样本的增加,训练中的位移回归可以覆盖更多的身体关节变化进一步将τ从7增加到10不能实现性能改进。然而,当τ>10时,我们观察到性能下降。这是因为来自背景的噪声被视为正样本,并且多个人之间的位移场的重叠降低了性能。因此,我们在实验中设置τ=7,以权衡效率和准确性。MPII数据集的定性结果显示在图6的顶行中。我们可以看到 所提出的SPM对于估计由分级SPR表示的人类姿态是有效和鲁棒的,即使在挑战场景中,例如,大的姿态变形(第一示例)、模糊和杂乱的背景(第二示例)、遮挡和人重叠(第三示例)以及照明变化(第四示例)。这些结果进一步验证了SPM的有效性。5.3. PASCAL人员部件数据集上的结果表3显示了扩展PASCAL-Person-Part数据集与最新技术的比较结果。我们可以看到,提出的SPM模型达到46。1%mAP,并提供最新技术水平。此外,SPM优于以前的模型的所有身体关节,证明了所提出的单阶段模型的有效性,用于解决多人姿态估计问题。定性结果显示在图6的中间行中。我们观察到SPM可以处理人的尺度变化(第一个例子),遮挡(第二至第四个例子)和人的重叠(最后一个例子),显示SPM在各种具有挑战性的场景中产生鲁棒的姿态估计表4.与MSCOCO测试开发(AP)的最新技术进行比较。方法AP AP50AP75APL时间[s]CMU-姿势[3]0.618 0.8490.6750.571 0.6820.6RMPE [9]0.618 0.8370.6980.586 0.6760.4[13]第十三话零点六二七0.8700.6840.574 0.7110.2G-RMI [29]0.649 0.8550.7130.623 0.700-[26]第二十六话零点六五五0.8680.7230.606 0.7260.25个人实验室[28]0.687 0.8900.7540.641 0.7550.464SPM(我们的)0.6690.8850.7290.626 0.7310.0585.4. MSCOCO数据集上的结果表4显示了MSCOCO测试-开发的实验结果。我们可以看到,提出的SPM模型实现了总体0.669 AP,略低于最新技术水平[28]。 然而,我们的SPM实现了卓越的速度,8比[28]快。这些结果进一步证实了我们的单阶段解决方案优于现有的两阶段自上而下或自下而上的策略,同时实现了非常有竞争力的性能,用于解决多阶段问题人物姿态估计任务。MSCOCO数据集的定性结果见图6的底行。我们可以看到,我们的SPM模型是有效的,在具有挑战性的场景,外观变化(第1例)和闭塞(第2至第4例)。5.5. CMU Panoptic数据集上的结果我们在CMU Panoptic数据集上评估了所提出的SPM模型用于多人3D姿态估计,该数据集提供了具有准确3D姿态注释的大规模数据由于以前的工作[19,8]只对该数据集进行定性评价,因此没有报告定量结果进行比较。为了更好地理解模型的性能,我们在这里提出了第一个定量评估我们从数据集中分离出10,000张图像,以形成测试分割,并使用剩余的图像进行训练,如第5.1节所述。特别是,我们的SPM模型达到77。8%的3D-PCK,对于多人3D姿态估计是有希望的结果。我们的SPM模型的有效性也可以通过图7中的定性结果进行验证。我们可以看到我们的SPM模型对于姿势变化(第1和第2个例子),自遮挡(第3个例子),尺度和深度变化(第4和第5个例子)是鲁棒的此外,所提出的SPM模型实现了约20 FPS的速度的吸引力效率。此外,它的单级设计还显著简化了从单个单眼RGB图像进行多人3D姿态估计的流水线,减轻了中间2D姿态估计[25]或从多个视图[8]进行3D姿态重建的要求6959图6.MPII数据集(上)、扩展PASCAL-Person-Part数据集(中)和MSCOCO数据集(下)的定性结果图7.CMU Panoptic数据集的定性结果第一行是输入图像,第二行是使用所提出的SPM的相应多人3D最佳彩色和2倍变焦观看。6. 结论在本文中,我们提出了第一个单阶段模型,单阶段多人姿态机(SPM),用于多人姿态估计。SPM模型提供了一个更紧凑的管道和有吸引力的效率优势,超过前两阶段的解决方案。SPM的优越性主要来自于一种新的结构化姿态表示(SPR),它统一了人的实例和身体关节位置信息,克服了传统姿态表示的固有局限性。此外,我们提出了一个层次的SPR扩展,有效地分解为累积的短程位移之间的相邻关节,而不引入额外的复杂性SPR的长距离位移利用SPR,SPM可以估计姿态以单级前馈的方式对多个人进行控制。我们用CNN实现SPM,它可以执行端到端的学习和推理。此外,SPM可以灵活地在2D基准上的大量实验表明,所提出的SPM模型具有最先进的速度,并且在预测多个人的姿势方面具有优越的性能。在3D基准测试上的结果也显示了我们的SPM模型具有吸引人的效率的良好性能。确认Jiashi Feng 得 到 NUS IDS R-263- 000-C67-646 、ECRA R-263-000-C87-133 和 MoE Tier-II R-263-000-D17-112的部分支持6960引用[1] Mykhaylo Andriluka,Leonid Pishchulin,Peter Gehler,and Bernt Schiele. 2D人体姿态估计:新的基准和最先进的分析。CVPR,2014。[2] Mykhaylo Andriluka Stefan Roth和Bernt Schiele单目3d位姿估计与侦测追踪。CVPR,2010。[3] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR,2017年。[4] Joao Carreira ,Pulkit Agrawal,Katerina Fragkiadaki,and Ji- tendra Malik.迭代误差反馈人体位姿估计。在CVPR,2016年。[5] Xianjie Chen,Rooseveh Mottaghi,Xiaobao Liu,SanjaFidler , Raquel Urtasun , and Alan L Yuille. 检 测 您 可以: 使用 整体 模型 和身 体部位 检测 和表 示对 象。CVPR,2014。[6] Xianjie Chen和Alan L Yuille.用灵活的成分解析闭塞的人CVPR,2015。[7] GuilhemChe'ron,I v anLapt ev,和CordeliaSchmid。P-cnn:用于动作识别的基于姿势的cnn特征。在ICCV,2015年。[8] Junting Dong,Wen Jiang,Qixing Huang,Hujun Bao,and Xiaowei Zhou.从多个视图快速和鲁棒的多人3d姿态arXiv,2019年。[9] 方浩书、谢淑琴、泰玉荣、卢策武。RMPE:区域多人姿势估计。InICCV,2017.[10] Mihai Fieraru,Anna Khoreva,Leonid Pishchulin,andBernt Schiele.学习改进人体姿势估计。在CVPRw,2018年。[11] 罗斯·格希克。快速R-CNN。在ICCV,2015年。[12] 乔治亚·吉奥克萨里,巴拉斯·哈里哈兰,罗斯·吉希克,和吉坦德拉·马利克。使用k-poselets来检测人并定位他们的关键点。CVPR,2014。[13] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。InICCV,2017.[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[15] EldarInsafutdinov , MykhayloAndriluka , LeonidPishchulin , Siyu Tang , Bjoern Andres , and BerntSchiele.在野外进行多人跟踪。在CVPR,2017年。[16] E. 因萨富季诺夫湖皮舒林湾Andres,M.安德里卢卡,B.席勒Deepercut:一个更深、更强、更快的多人姿势估计模型。在ECCV,2016年。[17] Umar Iqbal和Juergen Gall。利用局部关节-人关联的多人姿态估计。在ECCV,2016年。[18] Max Jaderberg,Karen Simonyan,Andrew Zisserman,等.空间Transformer网络。2015年,在NIPS[19] Hanbyul Joo、Tomas Simon、Xulong Li、Hao Liu、LeiTan、Lin Gui、Sean Banerjee、Timothy Scott Godisart、Bart Nabbe 、 Iain Matthews 、 Takeo Kanade 、 ShoheiNobuhara和Yaser Sheikh。Panoptic Studio:用于社会互动捕捉的大规模多视图系统。IEEE Trans. on PatternAnal.还有Mach内特尔,2017年。6961[20] 凯瑟琳·M·克努森。人体运动的运动学Wiley OnlineLibrary,1998.[21] Evgeny Levinkov,Jonas Uhrig,Siyu Tang,MohamedOm- ran , Eldar Insafutdinov , Alexander Kirillov ,Carsten Rother , Thomas Brox , Bernt Schiele , andBjoern Andres. 联合图分解&节点标注:问题,算法,应用。在CVPR,2017年。[22] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR,2017年。[23] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。2014年,在ECCV[24] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。CVPR,2015。[25] Dushyant Mehta , Oleksandr Sotnychenko , FranziskaMueller,Weipeng Xu,Srinath Sridhar,Gerard Pons-Moll,and Christian Theobalt.基于单目rgb的单镜头多人三维姿态估计。在3DV,2018年。[26] Alejandro Newell和Jia Deng。关联嵌入:用于联合检测和分组的端到端学习。在NIPS,2017年。[27] A. Newell,K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络。在ECCV,2016年。[28] Ge
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功