基于分布感知的多人三维姿态估计单阶段模型

47 浏览量更新于2023-10-25 收藏 2.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13096Lin et al.（SOTA Top-down Method）Zhen et al.（SOTA自下而上方法）我们的基于分布感知的多人三维姿态估计单阶段模型王子田1，3聂学成3曲晓超3陈云鹏3刘思1，2，†1北京航空航天大学人工智能研究院2北京航空航天大学杭州创新研究院3美图公司MT实验室中国wangzt. gmail.com{nxc，qxc，cyp5} @ meitu.comliusi@buaa.edu.cn摘要在本文中，我们提出了一种新的分布感知单阶段（DAS）模型，用于解决具有挑战性的多人三维姿态估计问题。不同于现有的自上而下和自下而上的方法，建议的DAS模型同时定位的人的位置和相应的身体关节在3D相机空间中的一个通过的方式。这导致具有增强的效率的简化的流水线。此外，DAS学习身体关节的真实分布以回归其位置，而不是进行简单的拉普拉斯或高斯（一）（ii）（a）中心置信度图（b）中心坐标图（c）关节偏移图图片（每幅图片）像以前的作品一样。这为模型预测提供了有价值的先验，从而提高了基于回归的方案，以实现与基于体积的方案竞争的性能。此外，DAS采用递归更新策略，逐步逼近回归目标，降低了优化难度，进一步提高了回归性能。DAS采用完全卷积神经网络实现，具有端到端的可学习性。在基准CMU Panoptic和MuPoTS-3D上的综合实验证明了所提出的DAS模型的超级效率，特别是比以前的最佳模型快1.5倍，并且其对于多人3D姿态估计的最先进的精度。1. 介绍从单个RGB图像中估计多个人的3D姿态是计算机视觉中的一个基本而又具有挑战性的任务，其目标是在相机空间中定位个人及其身体关节的3D位置最近，由于在AR/VR [2，14]，游戏[30，31，33]，人机交互相互作用[7，32]等。先前的工作通过两阶段策略来解决这个任务。他们要么采用自上而下的方案[22，28，35，41]，†通讯作者。图1.概述我们的分布感知单阶段（DAS）模型，用于多人3D姿势估计。i）DAS的简要管道。ii）与MuPoTs-3D上的最新技术的比较。DAS在效率上优于两阶段模型该方法与SOTA自顶向下方法相比，具有优越的对于PCKrel，越高越好。首先定位绝对3D人位置，然后分别估计每个人的根相对身体关节;或者自底向上方案[8，21，47]，在第一阶段检测所有3D身体关节，并在第二阶段将它们分组到相应的人中。虽然这些方法具有很好的精度，但它们存在冗余计算和复杂的后处理，这是由于以两阶段的方式对人的位置和身体关节定位进行顺序人工操作造成的这导致在实际场景中部署的效率不令人满意。基于上述动机，我们提出简化多人3D姿态估计的流水线，进一步推进其应用的前沿。受2D对应方案的启发[23，40，48]，我们的目标是设计一个单阶段模型，以同时定位3D个人位置和身体关节。然而，从2D到3D场景的扩展是不平凡的，这是由于用于在没有关于数据分布的先验知识的情况下从单目RGB图像导出深度信息的不适定设置。为了实现这一目标，本文提出了一种新的分布式感知单阶段（DAS）模型。亲-DAS（（（PCK相对于13097posed DAS从两个方面解决了多人3D姿态估计的不适定问题：1）DAS表示具有2.5D人体中心连同3D中心相对关节偏移的3D姿态。这适合于从图像域直接进行深度预测，并且能够统一人的位置和身体关节的3D定位，使得基于单眼的一遍解决方案可行; 2）DAS在模型优化期间学习身体关节的真实分布。这为预测关节位置提供了有价值的指导，从而提高了基于回归的方案的性能。为了减轻分布估计的困难，DAS采用递归更新策略逐步逼近目标。以这种方式，DAS可以从单个RGB图像有效地生成多个人的精确3D姿态。特别是，我们建立DAS与基于回归的管道，输出3D人体姿势通过一个单一的前向推理从输入图像。如图1i）（a）和（b）所示，DAS利用中心置信度图和中心坐标图对人体中心进行建模。DAS使用中心置信度图来定位2D图像坐标空间中的投影人体中心，而中心坐标图用于逐像素地估计3D相机坐标空间中的绝对中心位置。DAS利用关节偏移图对身体关节的3D中心相对位置进行密集编码，如图1i）（c）所示。DAS可以并行生成这三种地图，然后很容易地重建多个三维人体姿态与他们，避免冗余计算和复杂的关联。有了这种紧凑的单级流水线，DAS可以实现比以前的两级更高的效率。为了优化基于回归的模型，现有的工作总是采用传统的L1或L2损失。然而，研究[12]证明，这种监督实际上是对数据分布做了一个简单的拉普拉斯或高斯假设，这与实际情况相去甚远。相比之下，DAS通过利用归一化流[1，5，27]来学习3D身体关节位置的潜在分布。这有助于导出模型输出的合适分布，从而提供有价值的先验来指导身体关节坐标的回归DAS与姿态回归模块一起以这种方式，DAS提高回归性能，而无需额外的计算成本。此外，DAS通过围绕回归目标集成信息预测来迭代更新关节偏移，以进一步促进身体关节的定位。通过这种分布感知设计，DAS可以实现优于自下而上方法的准确性，同时与自上而下方法竞争，如图1ii）所示。我们用一个完全卷积的神经网络实现DASral网络，这是端到端学习。在基准CMU Panoptic [10]和MuPoTS-3D [21]上的综合实验显示了我们DAS模型的优越性。总之，我们的贡献有三个方面：（1）提出了一种新的单阶段模型，用于从单目RGB图像中估计多个人的3D姿态，克服了两阶段方法在计算量和模型复杂度方面的缺点：（2）提出了一种新的分布感知方法，以递归方式增强身体关节回归;（3）我们以卓越的效率在多个基准上设定了新的最先进水平。2. 相关作品2.1. 两阶段三维人体姿态估计单目多人三维位姿估计方法可分为自顶向下和自底向上两大类自上而下的方法需要额外的人体检测器为下游的单人姿态估计器提供人体位置先验，以生成单独的3D姿态[24，34，35，41]。[28，29]引入姿态建议网络来生成人体边界框和一系列人体姿态假设，然后基于裁剪的ROI特征来细化姿态假设。为了估计以相机为中心的人体姿势，[22]通过使用单独的模型来解开绝对人体深度估计和以人体为中心的姿势[37]提出层次有序关系目标以及虚拟视图采样策略来约束实例级和联合级深度值。 [15] utilize GNN to infer the humandepth based on the human-centric joint features.自顶向下的方法虽然精度较高，但随着人数的增加，计算量也越来越大另一组方法以自下而上的方式研究多人3D姿态估计。类似于在2D姿态估计的情况下，自底向上的方法通常由联合定位和联合融合组成。[21]结合关节位置图和遮挡鲁棒姿态图，以基于[4]的结果推断3D姿态。[8]使用体积热图来对具有用于特征压缩的编码器-解码器网络的关节位置进行建模，并且应用基于距离的启发式来检索每个人的3D姿势。[45]建议根据基于集成的2D和3D信息的身体部位分数对人体关节进行分组。[47]开发用于深度感知部件关联的3D部件虽然避免了重复的单人姿态估计，这些方法需要第二个关联阶段的联合分组。13098--KKKK孔夫斯宽×宽×256中心置信图产品型号：100× 100 ×1孔夫斯宽×宽×256中心坐标图型号##$：100×W×3孔夫斯X×W×256中心相对节理偏移距图��j#n$：��3D姿态递归更新�� ← �� + ��[（ |）输入图像缩放具有FPN的最大似然估计（ | ）'常化流延图2. DAS框架的图示。输入图像被馈送到2D CNN主干以进行特征提取。跟随的FPN颈部产生不同尺寸的多级特征图。基于多层次FPN特征的共享预测头分别负责人体中心检测、中心坐标回归和中心相对联合偏移回归。基于所获得的中心坐标和关节偏移来重建3D关节位置。3D关节位置的概率分布通过递归更新的归一化流来建模。最大似然估计应用于辅助学习过程。2.2. 单阶段二维人体姿态估计存在一些采用单级流水线进行2D多人人体姿态估计的研究。单阶段方法将姿态估计视为并行的人体中心定位和中心到关节回归问题[23，40，48]。这些方法不是将关节定位和分组分开，而是从检测到的中心点预测每个关节的偏移量，该中心点通常被设置为人体的根关节。由于关节偏移与估计的中心点直接相关，因此该公式避免了手动设计的分组后处理，并且是端到端可训练的。Zhou等[48]直接从人体中心回归关节位置。Nie等人[23]引入了一种层次结构化的姿态表示来辅助长程回归。Wei等人[40]建议从用作基本人体姿势先验的点集锚点回归关节位置这些单级方法具有高的部署效率。2.3. 用于人体姿态估计的归一化流最近的一些作品介绍了归一化流程的三维人体姿势和形状估计。 Xu等人[42]提出了一种统计3D铰接人体形状模型，具有用于骨架运动学的归一化流表示赞菲尔等[43]介绍了用于弱监督3D人体姿势和形状重建的运动学潜在归一化流表示。Biggs等人[3] Wehrbein etal.[39]建议通过归一化流来对3D人体姿势和形状估计中的模糊和遮挡进行建模。Kolotouros等人[11]学习从2D图像到基于条件归一化流的三维体网格分布。与上述方法不同，Li et al.[12]利用归一化流对关节位置的潜在分布进行建模，并提出用残差对数似然估计对参数进行优化。受[12]的启发，我们提出了一种基于递归流的3D联合偏移回归优化方案关节位置分布采用归一化流建模，并以递归方式进行更新.然后用极大似然估计对回归模型进行优化。3. 方法3.1. 概述在本节中，我们将概述所提出的用于多人3D姿态估计的分布感知单阶段（DAS）模型。给定RGB图像I作为输入，DAS估计关节位置Himg={j img=（x img，y img，d）|k∈[1…K]}中的每个人的图像坐标系。这些位置由2D图像坐标和相机中心坐标深度值。DAS将多人3D姿态估计分解为同时人体中心定位和中心相对关节偏移回归。框架的图示如图2所示。对于输入图像，具有FPN的CNN骨干[16]首先提取多级特征图F1，...，与不同等级的人打交道。特征图顶部的三个平行分支用于人体中心检测、中心坐标回归和中心相对联合偏移回归。可以重建多人的3D姿态13099−--√KK--∼Σ- -KKK根K根通过合并这三个分支的输出。为了提高这种回归框架的关节定位能力详情见下文各节。3.2. 人体中心定位地面实况分配给定一个人，从每个正样本P回归中心相对关节偏移。我们预测中心相对关节偏移图U关节=U1，.，U K，其中U k形状为[H×W×3]，负责第k个关节的3D中心相对偏移。对于H={jk} ，|k∈[1…K]}在p处被设置为U k[p] =j k j root。传统的回归损失（例如，L1损失）进行优化。目标可以写为：在位置Himg中，其被分配给具有下采样步幅的FPN特征图FlMaxL=ΣΣ||U[p]−U[p]||、（3）根据最大接头距离e从根r= max（（ximg−ximg）2+（yimg−yimg）2）。姿势k k1KP具体地说，我们设置的回归范围为 Flas[ml−1，ml]. 如果rmax在[ml-1，ml]的范围内，Himg将被分配给第l个特征图。则坐标将被缩放为H={j k=（x k，y k，d k）|k ∈[1…K]}以匹配下采样步幅，s.t.，xk=ximg/sl和yk=yimg/sl。我们考虑根关节（即，骨盆）j根为人体中心。形状为[H×W×1]的中心置信度图CH测量像素是否代表任何人类中心。人的中心检测被视为二元分类。将每个人体中心周围的最近N pos像素设置为正样本p0，...，p N位置正样本的地面真实置信度为1，其他样本的地面真实置信度为0。损失函数为：其中，Uk[p]是p处的预测中心相对关节偏移而吴亦凡，则是一个真实的人。联合位置分布建模与通常将联合位置表示为高斯分布的基于热图的公式相比，基于回归将中心相对关节位置表示为u，确定性表示可能更倾向于受到标签噪声、遮挡和不可见性的影响。考虑到这一点，我们采用归一化流[1，5，6，27]来以概率分布形式表示中心相对关节位置：u P（u）。在[12]之后，我们用重新参数化对分布P（u）进行建模。具体地，P（u）可以通过以下方式获得：Lcls =FocalLoss（CH，CH ），（1）从零均值分布z缩放和移动zPZ（z），变换函数u=u<$+σ·z，其中其中 CH是预测的中心置信度图， CH是地面实况，FocalLoss在[17]中提出。此外，还增加了一个评价中心质量的中心性分支中心度目标和损失函数L中心度的设计如下[36]。中心坐标回归给定关于人体H中心的正样本p=（x p，y p），中心坐标从p回归。对于[H × W × 3]形状的预测中心坐标地图U root，将p处的中心j root=（x root，yroot，d root）的回归目标设置为偏移U root[p] =（xroot x p，y root y p，d root）。此回归任务采用L1损失Lroot=||Uroo t[p]−Uroo t[p]||第一条、第二条p其中Uroot[p]是在p处的预测中心坐标偏移而事实就是这样的。3.3. 3D身体关节定位与基于热图的公式化需要第二个关联阶段来识别关节身份不同，这种基于回归的公式化使关节定位和识别成为一个整体过程。的u'代表接头位置的期望值，σindi-这是分布的规模给定该变换函数，P（u）的密度函数可以计算为：logP（u）= log P Z（z）− log σ。（四）因此，我们不是回归确定性的中心相对关节位置u，而是回归期望值u′和尺度指标σ。虽然PZ（z）可以通过归一化流模型（例如，real NVP [6]）。注意，在推断阶段中，仅需要期望u'来计算最终的基于递归流的优化由于用于推断人体姿势的特征是从人体中心位置拾取的，因此其对于远离中心的关节的由于人体结构的复杂性，特征和目标之间的这种空间不对齐可能导致比边界框回归中的对应部分更大的误差[17，26，36]为了缓解这个问题，我们提出了一个递归更新策略来迭代优化位置期望u′。图3中描绘了该想法。以第k个联合偏移映射Uk为例，给定来自正样本p的初始预测u<$=U n[p]，它由局部预测更新13100p·KKΣK−KKKKKKKD从p+Uk[p]：Un+1[p]←Un[p]+B（Ulocal[p+Un[p]]），（5）其中B（）表示从非整数坐标获得值的双线性插值函数。对于局部预测，我们可以使用相同的预测图作为Un，即， U本地=Un。这个公式允许像素k k k以产生高质量的关节偏移。通过这种方式，u以递归形式更新，如图3c所示：Un+1[p]←Un[p]+Un[p+Un[p]](a) 初始预测(b) 逐次预测u<$<$U n+1[p]，（6）其中为了简单起见省略了内插操作。此外，为了更好地建模，我们考虑另一种多源更新策略来近似期望。在这种情况下，Ulocal[t]通过集合mul来计算(c) 递归更新(d) 多源更新K如图3d所示，在t附近采样的三个预测：Ulocal[t] =Ed<$P（d）（d+Uk[t+d]）PD（dm）（dm+Uk[t+dm]]），（7）M其中dm和PD（dm）是MLP生成的第m个递归更新策略可以用卷积层和插值层来实现。通过将更新层堆叠在fsetmap的joint的顶部，可以在不修改模型管道的情况下逐步优化。此外，这种递归形式避免了在关节偏移图中的每个位置处手动分配目标。为了利用分布感知表示的优势，我们在训练阶段利用最大似然估计进行参数在获得u和σ之后，关节位置分布可以如等式（4）中所如果PZ（z）由归一化流模型θ建模，则最大似然估计目标可以写为：Lmle=− log P（u）|u=u=− log PZ（z|θ）+log σ，（8）其中z=（uu'）/σ，u'是中心相关关节位置的估计期望，并且u'是地面真实位置。图3.说明在亲采用递归更新DAS模型。为简单起见，省略了下标。我们建议读者参考原始论文以了解更多细节。在实验中，我们实现了RLE目标，以取代L姿势的L1损失。三维位姿重建关节坐标只需将人体中心坐标与关节中心相对偏移量相加即可得到，因此，人体关节的3D位置可以在单次向前传递中推断。3.4. 训练和推理训练在训练过程中，我们首先使用相机内参数将3D关节坐标转换为图像坐标系。由于同一物体在不同相机拍摄的图像中可能具有不同的深度值，因此模型很难直接学习物体深度的绝对因此，我们遵循先前的工作[22]，使用归一化深度dnorm=d/f作为中心坐标回归的目标深度，其中f是相机焦距。此外，对于中心相对姿态偏移，我们不对用于训练稳定的深度值进行归一化。总体目标是：L=Lcls+λ1L中心度+λ 2L根+λ 3L姿态，（10）第通过L mle，分布P Z（z|θ）可以学习其中λ、λ、λ是损失权重。和你一起。在这项工作中，我们进一步遵循[12]使用残差对数似然估计（RLE）。RLE将分布PZ（z）分解为一个先验分布QZ（z）（例如，Laplace分布和Gaussian分布）和一个学习的分布G Z（z|θ）。RLE目标可以写为：Lrle=− log Q Z（z<$）−log GZ（z<$|θ）+log σ。（九）1 2 3首先将输入图像输入到模型中以产生所有中间结果。然后选择中心置信度高于阈值（设置为0.05）的位置作为正样本。对应的中心坐标和中心相对关节偏移量取自正样本，以形成相机中心“[=[“[=[+]#[]�� ←��+[+]*[]213“13101中心类型递归更新 MLE较大骨干MPJPEbbox65.3根62.5根✓57.6根✓58.8根✓ ✓56.3根✓ ✓✓54.4递归更新多源更新更新图层MPJPE62.5✓158.6✓ ✓ 158.2✓ ✓ 257.9✓ ✓ 357.6(a) 我们的单阶段方法的成分分析。（b）递归更新的不同设置的比较。表1. CMU Panoptic数据集上的消融研究。方法讨价还价黑手党最后通牒比萨意味着↓上而下的方法Popa等人[25日]217.9187.3193.6221.3203.4Zanfir等人[第四十四届]140.0165.9150.7156.0153.4Wang等人[37]第三十七届50.950.550.768.255.1*自下而上办法Zanfir等人[45个]72.478.866.894.378.1*Fabbri等人[八]《中国日报》4595587969Zhen等人[47个]63.160.356.667.161.8我们53.351.249.161.553.8表2.与MPJPE中CMU Panoptic数据集上的SOTA进行比较。最上面的一行是两阶段方法，最下面的一行是我们的单阶段方法。*表示平均MPJPE是根据[44]中的标准实践通过对活动进行平均来重新计算的3D姿势。采用非最大值抑制方法减少冗余位姿假设。4. 实验4.1. 数据集CMU PanopticCMU Panoptic是一个大规模的真实室内3D人体姿势数据集，包含65个日常活动的视频序列[10]。我们遵循[44]提出的评估协议，使用来自索引16和30的HD摄像机的视频。为了评估，从4个活动（讨价还价，黑手党，最后通牒和比萨饼）中选择9600帧对于训练，我们使用由COCO [18]和来自3个活动（女巫，黑手党和最后通牒）的视频序列组成的混合数据集。训练集与测试集没有重叠.对于仅具有2D姿态注释的图像，在损失计算中忽略深度信息我们遵循之前的工作，使用平均每关节位置误差（MPJPE）进行性能评估 [38 ， 44] 。在通过根关节对齐姿势之后计算MPJPEMuCo-3DHP和MuPoTS-3DMuCo-3DHP和MuPoTS-3D是分别在[21]中提出的用于训练和评估的多人3D姿态估计数据集。训练集MuCo-3DHP是一个大规模的合成数据集。通过从单人3D姿态估计数据集MPI-INF-3DHP [19] 中随机比较人来生成图像。测试集MuPoTS-3D是一个现实的数据集捕捉从现实世界的户外用无标记运动捕捉系统标注的场景。MuPoTS-3D包含20个视频序列。每个视频最多有3个主题。我们使用由COCO和MuCo-3DHP组成的混合数据集进行训练，并使用MuPoTS-3D进行评估。我们遵循之前的工作，使用3D正确关键点百分比（3DPCK）进行性能评估[22，46]。特别地，PCKrel用于评估根对齐之后的预测，并且PCKabs用于评估相机坐标系下的预测。如果一个关节与匹配的地面实况的距离在15cm以内，则该关节被视为正确。4.2. 消融研究我们在CMU Panoptic数据集上进行消融研究。该模型使用ResNet-50 [9]和FPN [16]实现。实验结果示于表1中。我们首先在我们的方法中分析不同的组分，如表1a所示。与包围盒中心相比，以根关节为人体中心更有利于人体关节的回归，使MPJPE的性能提高了当配备递归更新策略时，MPJPE获得4.9mm的改进。如果联合位置分布采用归一化流建模，训练过程中的极大似然估计（MLE）有效地提高了定位能力，使MPJPE提高了3.7mm。当将递归更新与MLE组合时，MPJPE达到 56.3mm ，其超过基线 6.2mm 。使用较大的主干[13]，所提出的方法可以实现54.4mm的较低MPJPE。13102∼上而下的方法Rogez 等人 [29]Moon et al.[22]Wang et al.[37]Lin et al. [第十70.681.882.083.7*不适用31.543.8自下而上办法表3.与MuPoTS-3D数据集上的SOTA进行比较。PCKrel和PCKabs报告所有地面实况。* 表示该值是基于匹配的地面实况报告的。上而下的方法Moon等人[22]*107毫秒n/a81.8Lin等人[15]*118 Msn/a83.7自下而上办法Fabbri等人[八]《中国日报》Zhen等人[47]*125 Ms108毫秒6961.8n/a73.5我们75毫秒54.681.0表4.与SOTA的运行时比较。* 表示速度是基于官方存储库复制的。最先进的自上而下和自下而上的方法见表3。从实验结果来看，我们的方法优于复杂的自底向上方法，特别是在PCK关系。这一结果表明，我们的单阶段方法在估计人体结构的有效性。与自上而下的方法相比，我们的方法获得了相当的性能，没有第二阶段的单人姿势估计和深度估计。4.4. 运行时间分析(a) 拉普拉斯（b）高斯(c)学习的w/o递归更新（d）学习的w/递归更新图4.学习分布的可视化。循环更新的不同设置的详细比较如表1b所示。通过应用递归更新，与基线相比， MPJPE 可以改善3.8mm。通过多源更新，MPJPE进一步改进了0.4mm。如果堆叠更多的更新层，则可以获得轻微的性能增益4.3.定量结果CMU Panpotic的比较我们进行实验，以比较CMUPanoptic的最先进的自上而下和自下而上的方法。定量结果见表2。采用MPJPE评估根对齐后的3D位姿估计的性能。如结果所示，所提出的单阶段方法在平均MPJPE方面优于先前的基于体积的自下而上方法，并且与先前的自上而下方法相比，实现了略好的性能。MuPoTS-3D 上的比较我们使用评价度量 PCKrel 和PCKabs在 MuPoTS-3D测试集上对所提出的方法进行了评价。我们将我们的方法与国家的-我们在表4中比较了我们的方法与自顶向下和自底向上方法的运行时间。在本实验中，我们的方法使用2阶段MSPN [13]实现在此基础上，分别给出了CMUPanoptic和MuPoTS-3D上的MPJPE和PCK依赖关系与自顶向下的方法相比，我们的方法以1/3的运行时间实现了相当的性能。考虑到MuPoTS-3D上的人很少（平均每幅图像不到3人），自上而下方法的时间与自下而上的方法相比，我们的方法保持了更快的推理速度，因为不需要高分辨率的2D或3D热图。此属性使DAS成为计算友好的方法。4.5.定性结果我们在图4中可视化通过归一化流学习的分布。学习分布与先验分布的差异说明了分布感知优化方案的重要性。此外，学习的分布与递归更新比没有的情况下有更小的方差，表明递归更新策略有助于准确地建模底层分布。此外，我们通过图5中的2D投影可视化了学习的关节偏移图。如可以看到的，利用基于递归流的优化，像素学习在预测图处回归围绕人体中心或围绕目标关节的关节位置。长距离关节的位置分布的学习可以受益于更精确的局部预测。在图6中，我们提供了可视化结果方法PCKrel↑PCKabs↑方法运行时MPJPEPCK相关梅塔等人[21日]65.0n/a梅塔等人[20个]70.4n/aZhen等人[47个]73.535.4我们82.739.213103右肘左膝左踝图5.通过2D投影显示关节偏移顶行取自具有下采样步幅16的预测图，并且底行取自具有下采样步幅32的预测图。图6.用于多人3D姿态估计的所提出的DAS模型的定性结果最好用彩色观看我们的DAS模型。我们可以看到DAS可以在各种场景中产生准确的预测，例如，姿势变化，人物截断，杂乱的背景。5. 结论在本文中，我们提出了一种新的分布感知单阶段（DAS）模型，用于解决具有挑战性的多人三维姿态估计问题。与现有的两阶段方法不同，即自顶向下或自底向上的DAS模型，建议DAS模型可以同时定位的人和他们的身体关节在摄像机坐标空间中的位置，通过一个通道的方式。这有助于简化流水线，克服现有工作中计算量大和模型复杂的缺点。此外，DAS成功地将归一化流程引入到多人3D姿态估计任务中，并在训练阶段一起学习联合位置分布。此外，DAS采用递归流为基础的优化方案，逐步细化的位置分布。通过这种方式，DAS导出真实的底层分布，从而提高回归性能。我们在多个基准上进行了广泛的实验，并验证了所提出的DAS模型用于多人3D姿态估计的有效性和效率限制所提出的DAS模型是有限的，用于估计在图像中的极端重叠的人的姿势由于DAS通过人体中心和相应的关节偏移来表示3D人体姿势，因此中心检测过程对整体当人极度重叠时，他们的中心也可以在图像空间中重叠。在这种情况下，一些遮挡中心可能被错误地抑制。致谢本研究得到了国家自然科学基金（ 62122010 ，61876177）、中央高校基础研究基金和浙江省重点研发计划（2022C01082）的部分资助。13104引用[1] JP Agnelli ， M Cadeiras ， Esteban G Tabak ， CristinaVilma Turner，and Eric Vanden-Eijnden.通过特征空间中的规范化流进行聚类和多尺度建模仿真，2010年。二、四[2] Hayet Belghit，Abdelkader Bellarbi，Nadia Zenati，andSamir Otmane.用于增强现实的基于视觉的姿态估计：比较研究。arXiv预印本arXiv：1806.09316，2018。1[3] 本杰明·比格斯、大卫·诺沃特尼、塞巴斯蒂安·埃尔哈特、韩宝、本·格雷厄姆和安德烈·维达尔迪。三维多体：将合理的3d人体模型组拟合到模糊的图像数据。NIPS，2020年。3[4] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR，2017年。2[5] Laurent Dinh ， David Krueger ， and Yoshua Bengio.Nice ：非线性独立分量估计。 arXiv预印本 arXiv ：1410.8516，2014。二、四[6] Laurent Dinh，Jascha Sohl-Dickstein，and Samy Bengio.使用真实NVP进行密度估计。在ICLR，2017。4[7] Ali Erol、George Bebis、Mircea Nicolescu、Richard DBoyle和Xander Twombly。基于视觉的手部姿势估计：综述。计算机视觉和图像理解，2007年。1[8] Matteo Fabbri，Fabio Lanzi，Simone Calderara，StefanoAl-letto，and Rita Cucchiara.用于多人3d姿态估计的压缩体积热图。在CVPR，2020年。一、二、六、七[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。6[10] Hanbyul Joo 、 Hao Liu 、 Lei Tan 、 Lin Gui 、 BartNabbe 、 Iain Matthews 、 Takeo Kanade 、 ShoheiNobuhara和Yaser Sheikh。Panoptic Studio：用于社交运动捕捉的大规模多视图系统。在ICCV，2015年。二、六[11] NikosKolotouros ， GeorgiosPavlakos ， DineshJayaraman，and Kostas Daniillo.人体补片恢复的概率建模。ICCV，2021。3[12] Jiefeng Li，Siyuan Bian，Ailing Zeng，Can Wang，BoPang，Wentao Liu，and Cewu Lu.人体姿态回归与残差对数似然估计。ICCV，2021。二三四五[13] Wenbo Li，Zhicheng Wang，Binyi Yin，Qixiang Peng，Yum- ing Du，Tianzi Xiao，Gang Yu，Hongtao Lu，Yichen Wei，and Jian Sun.重新思考用于人体姿态估计的多级网络arXiv预印本arXiv：1901.00148，2019。六、七[14] 林惠勇和陈廷文基于单目3d位姿估计的人体交互增强现实。载于ACIVS，2010年。1[15] Jiahao Lin and Gim Hee Lee. HDnet：用于多人相机空间定位的人类深度估计。在ECCV，2020年。二、七[16] 林宗义、彼得·多尔、罗斯·格希克、何嘉明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR，2017年。三、六[17] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。InICCV，2017.4[18] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。2014年，在ECCV。6[19] Dushyant Mehta Helge Rhodin Dan CasasPascal Fua，Oleksandr Sotnychenko ， Weipeng Xu ， and ChristianTheobalt.使用改进的cnn监督进行野外单目三维人体姿态估计。在3DV，2017年。6[20] Dushyant Mehta ， Oleksandr Sotnychenko ， FranziskaMueller ， Weipeng Xu ， Mohamed Elgharib ， PascalFua ， Hans-Peter Seidel， Helge Rhodin ， Gerard Pons-Moll，and Christian Theobalt. Xnect：用一个rgb摄像头实时捕捉多人3d动作。TOG，2020年。7[21] Dushyant Mehta ， Oleksandr Sotnychenko ， FranziskaMueller ，Weipeng Xu ， Srinath Sridhar， Gerard Pons-Moll，and Christian Theobalt.基于单目rgb的单镜头多人三维姿态估计。在3DV，2018年。一、二、六、七[22] 文京植，张朱勇，李京武。从单幅rgb图像估计三维多人姿态的摄像机距离感知自顶向下方法。在ICCV，2019年。一、二、五、六、七[23] Xuecheng Nie ， Jiashi Feng ， Jianfeng Zhang ， andShuicheng Yan.单级多人姿势机器。在ICCV，2019年。第1、3条[24] Georgios Pavlakos ， Xiaowei Zhou ， Konstantinos GDerpanis，and Kostas Daniilidis.单图像三维人体姿态的粗到细体积预测在CVPR，2017年。2[25] Alin-Ionut Popa、Mihai Zanfir和Cristian Sminchisescu。用于集成2d 和3d 人体感知的深度多任务架构。在CVPR，2017年。6[26] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。NIPS，2015年。4[27] 达尼洛·雷曾德和沙基尔·穆罕默德。具有正规化流的变分推理ICML，2015。二、四[28] GregoryRogez ， PhilippeWeinzaepfel 和 CordeliaSchmid。Lcr-net：人体姿势的定位-分类-回归。在CVPR，2017年。一、二[29] GregoryRogez ， PhilippeWeinzaepfel 和 CordeliaSchmid。Lcr-net++：自然图像中的多人2d和3d姿态检测。TPAMI，2019。二、七[30] Jamie Shotton ， Andrew Fitzgibbon ，Mat Cook， TobySharp，Mark Finocchio，Richard Moore，Alex Kipman和Andrew Blake。从单个深度图像中实时识别部分人体姿势。CVPR，2011。1[31] Jamie Shotton ， Ross Girshick ， Andrew Fitzgibbon ，Toby Sharp ， Mat Cook ， Mark Finocchio ， RichardMoore ， Push-meet Kohli ， Antonio Criminisi ， AlexKipman，et al.从单个深度图像进行高效的人体姿态估计。TPAMI，2012年。113105[32] Yale Song，David Demirdjian，and Randall Davis.用于自然人机交互的连续体和手势识别。TIIS，2012年。113106[33] Evan A Suma ， Belinda Lange ， Albert Skip Rizzo ，David M Krum，and Mark Bolas.灵活的动作和艺术化的骨架工具包.载于VRC，2011年。1[34] 小孙、尚嘉祥、双亮、卫奕辰。合成人体姿势回归。InICCV，2017. 2[35] 小孙、肖斌、魏方银、梁爽、魏奕辰。整体人体姿态回归。在ECCV，2018。一、二[36] Zhi Tian ， ChunhuaShen ， Hao Chen ， and Tong He.Fcos：完全卷积的一阶段对象检测。在ICCV，第9627-9636页，2019年。4[37] Can Wang，Jiefeng Li，Wentao Liu，Chen Qian，andCewu Lu. Hmor：用于单眼多人3d姿态估计的分层多人有序关系。在ECCV，2020年。二六七[38] 王涛、张建峰、蔡玉军、水成严、冯嘉世。直接多视角多人三维姿态估计。在NeurIPS，2021年。6[39] Tom Wehrbein，Marco Rudolph，Bodo Rosenhahn，

下载后可阅读完整内容，剩余1页未读，立即下载